×

掃碼關(guān)注微信公眾號(hào)

智峪生科攬下生物計(jì)算領(lǐng)域“奧運(yùn)會(huì)”冠軍,中國(guó)生物科技力量站上臺(tái)前

2022/12/16 13:36:43      挖貝網(wǎng)

在生物計(jì)算領(lǐng)域素有“奧運(yùn)會(huì)”之稱的2022年CASP賽事塵埃落定。今年,有中國(guó)團(tuán)隊(duì)在全球共計(jì)162個(gè)參賽隊(duì)伍中拔得頭籌!

近日,第15屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP15)正式宣布,智峪生科旗下AICHEMY-RNA2團(tuán)隊(duì)在RNA結(jié)構(gòu)預(yù)測(cè)項(xiàng)目斬獲總排名第一名的成績(jī)。另據(jù)了解,智峪生科另一只參賽團(tuán)隊(duì)AICHEMY-LIG也在蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)項(xiàng)目取得了第二名的成績(jī),兩只團(tuán)隊(duì)均參加CASP15研討會(huì)并做主題報(bào)告的邀請(qǐng)。

1.png

 

CASP15大賽官方排名:AICHEMY-RNA2團(tuán)隊(duì)數(shù)據(jù)最優(yōu)

官網(wǎng)鏈接:https://www.predictioncenter.org/casp15/zscores_RNA.cgi

實(shí)際上,RNA結(jié)構(gòu)預(yù)測(cè)是今年CASP大賽中最受關(guān)注的領(lǐng)域之一,該方向的突破會(huì)極大幫助到RNA相關(guān)的療法和合成生物學(xué)調(diào)控元件的設(shè)計(jì)。而蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)也是首次在賽事中出現(xiàn),該方向的進(jìn)步將極大促進(jìn)藥物設(shè)計(jì)和酶設(shè)計(jì)的項(xiàng)目落地。

智峪生科在兩大熱門項(xiàng)目中的優(yōu)異表現(xiàn),也昭示著在生物科技領(lǐng)域,中國(guó)技術(shù)已然站上臺(tái)前,也為后續(xù)國(guó)內(nèi)探索AI生物計(jì)算與合成生物學(xué)邊界謀得了先發(fā)位置。

據(jù)悉,培育出奪冠團(tuán)隊(duì)的智峪生科成立于2021年,匯聚了國(guó)內(nèi)外知名學(xué)府及工業(yè)界的一線團(tuán)隊(duì),致力于通過人工智能技術(shù)預(yù)測(cè)和設(shè)計(jì)蛋白、核酸等生物元件,為藥物研發(fā)和合成生物學(xué)帶來革命性突破。

在智峪生科首席執(zhí)行官王晟博士看來,生物信息技術(shù)領(lǐng)域方興未艾,基于AI預(yù)測(cè)的蛋白質(zhì)和RNA結(jié)構(gòu),讓人類掌握了打開生物秘密大門的鑰匙。通過基于已知數(shù)據(jù)挖掘未知領(lǐng)域、通過設(shè)計(jì)工具從無到有創(chuàng)造,相關(guān)預(yù)測(cè)結(jié)果更可以進(jìn)一步應(yīng)用于輔助藥物研發(fā)或是合成生物學(xué),推動(dòng)醫(yī)療健康、農(nóng)業(yè)、食品、消費(fèi)、化工等行業(yè)發(fā)展,同時(shí)助力中國(guó)生物科技力量站上國(guó)際競(jìng)技舞臺(tái)。

從東半球第一到全球第一

此次智峪生科奪冠的CASP競(jìng)賽最早始于1994年,如今已成為評(píng)估預(yù)測(cè)技術(shù)的“金標(biāo)準(zhǔn)”。兩年一屆的CASP競(jìng)賽,其激烈程度無異于“奧運(yùn)會(huì)”,而取得最佳成績(jī)的團(tuán)隊(duì)也可類比為行業(yè)中的“奧運(yùn)冠軍”。

上一屆的CASP競(jìng)賽上,橫空出世的人工智能——AlphaFold2一舉奪冠,解決了困擾眾多科研人員半個(gè)世紀(jì)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)難題。在此之前,鑒于生命科學(xué)以實(shí)驗(yàn)為基礎(chǔ)的特性,理論預(yù)測(cè)的模型并不能等同于觀測(cè)到的實(shí)驗(yàn)數(shù)據(jù),蛋白質(zhì)結(jié)構(gòu)主要通過X-射線衍射、冷凍電鏡等實(shí)驗(yàn)技術(shù)解析。

AlphaFold2則打破了這一“陳規(guī)”。

“AlphaFold2實(shí)現(xiàn)的高精度預(yù)測(cè)結(jié)構(gòu)與實(shí)驗(yàn)誤差接近,實(shí)驗(yàn)人員可以先參考模型預(yù)測(cè)的結(jié)果,再對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理。直接改變了結(jié)構(gòu)生物學(xué)的實(shí)驗(yàn)流程與實(shí)驗(yàn)結(jié)果。對(duì)生物計(jì)算整個(gè)專業(yè)領(lǐng)域而言,其影響更是不亞于原子彈爆炸成功?!庇袠I(yè)內(nèi)人士分析稱。

據(jù)其介紹,在AlphaFold2宣布開源后,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問題已經(jīng)基本得到解決,RNA結(jié)構(gòu)預(yù)測(cè)成為新的重心,過去蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的老牌玩家也都紛紛加入到RNA結(jié)構(gòu)預(yù)測(cè)的領(lǐng)域之中。這也讓本屆CASP競(jìng)賽中,RNA結(jié)構(gòu)預(yù)測(cè)獎(jiǎng)項(xiàng)充滿含金量。而這一最具含金量的“桂冠”,如今被智峪生科這支來自中國(guó)的團(tuán)隊(duì)斬獲。

具體而言,針對(duì)PDB數(shù)據(jù)庫中RNA結(jié)構(gòu)數(shù)量過少的問題,智峪生科基于AI的AICHEMY-RNA方法(又稱為RhoFold)借助了(i)純粹基于序列信息的RNA-FM基礎(chǔ)模型、(ii)基于多序列聯(lián)配的RhoFormer語言模型、以及(iii)考慮了專家經(jīng)驗(yàn)與真實(shí)二級(jí)結(jié)構(gòu)約束的損失函數(shù),進(jìn)行了端對(duì)端的模型訓(xùn)練,并在多個(gè)RNA結(jié)構(gòu)的預(yù)測(cè)上取得了優(yōu)異的成績(jī)。

對(duì)于更難的人造RNA以及從未出現(xiàn)在PDB數(shù)據(jù)庫中的天然RNA結(jié)構(gòu),智峪生科基于力場(chǎng)的AICHEMY-RNA2方法(又稱為BriQ)創(chuàng)新性的采用了(i)堿基對(duì)概率密度拆解、(ii)化學(xué)基團(tuán)的電子云表示、以及(iii)高效的Monte Carlo采樣,取得了非常出色的預(yù)測(cè)結(jié)果。

小分子預(yù)測(cè)賽道,同樣眾多醫(yī)藥公司長(zhǎng)期關(guān)注的重要方向,對(duì)小分子藥物設(shè)計(jì)的精度和質(zhì)量會(huì)帶來立竿見影的效果。例如本次小分子比賽的評(píng)估方就是AI藥物設(shè)計(jì)領(lǐng)域的知名公司Relay Therapeutics。同時(shí),高精度小分子結(jié)合預(yù)測(cè),也可以為未知功能酶元件的發(fā)現(xiàn)和高精度的理性酶設(shè)計(jì)提供堅(jiān)實(shí)計(jì)算基礎(chǔ),賦能合成生物學(xué)的產(chǎn)品開發(fā)。智峪生科核心小分子算法在內(nèi)部和外部項(xiàng)目中均已實(shí)現(xiàn)了廣泛應(yīng)用。

 實(shí)際上,在此次奪冠之前,智峪生科核心算法團(tuán)隊(duì)也曾在王晟博士帶領(lǐng)下,以tFold系列算法在上一屆比賽CASP14上和AlphaFold2算法同臺(tái)競(jìng)技,斬獲了蛋白接觸圖預(yù)測(cè)這一細(xì)分項(xiàng)目的第一名。而在分量最重,也最受關(guān)注的3D結(jié)構(gòu)預(yù)測(cè)比賽中,王晟博士帶領(lǐng)的tFold團(tuán)隊(duì)在沒有使用大量的基礎(chǔ)序列數(shù)據(jù)庫的情況下,僅以微弱劣勢(shì)獲得組別第四,也成為除歐美地區(qū)外,整個(gè)東半球排名第一的隊(duì)伍。

從東半球第一到全球第一,智峪生科一家企業(yè)的進(jìn)步,也折射出中國(guó)生物科技力量的崛起。

據(jù)介紹,基于在AI計(jì)算及蛋白質(zhì)、RNA結(jié)構(gòu)預(yù)測(cè)領(lǐng)域和蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)以及生物大分子模擬方向積累的經(jīng)驗(yàn),目前智峪生科已正式推出了高通量、高精度、全生態(tài)、全流程生物計(jì)算平臺(tái)——“峪云ZCloud”,以解決大分子結(jié)構(gòu)計(jì)算、分子模擬、藥物設(shè)計(jì)、酶工程、大分子設(shè)計(jì)(包括蛋白、核酸、以及其復(fù)合物)等領(lǐng)域內(nèi)計(jì)算問題。

“峪云ZCloud”平臺(tái)的加持下,生物醫(yī)藥企業(yè)可以提前完成新藥研發(fā)前的大分子相關(guān)研究工作,后續(xù)只用參照計(jì)算結(jié)果,即可順暢完成藥物發(fā)現(xiàn)的工作。智峪生科也可以通過平臺(tái)中的模塊進(jìn)行蛋白、核酸等生物元件的挖掘和設(shè)計(jì),從而拓展生物合成的應(yīng)用邊界,大步邁向“萬物皆可合成的愿景。

2.png

ZCloud全生態(tài)平臺(tái)

按照智峪生科的設(shè)想,僅從RNA結(jié)構(gòu)預(yù)測(cè)出發(fā),研究者就可以發(fā)掘嶄新的用藥靶點(diǎn)、揭示由RNA突變帶來的疾病成因?!懊恳稽c(diǎn)突破,都有可能對(duì)現(xiàn)行的疾病治療方案帶來顛覆?!蓖蹶刹┦恐赋?。

AI技術(shù)賦能中國(guó)生物科技未來

實(shí)際上,上述方向僅僅揭開了蛋白質(zhì)/RNA結(jié)構(gòu)預(yù)測(cè)/蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)后續(xù)應(yīng)用的“冰山一角”。

“我相信生物計(jì)算在整個(gè)生命科學(xué)產(chǎn)業(yè)中一定會(huì)大有所為。我們希望另辟蹊徑,探索AI或者生物計(jì)算方在合成生物學(xué)領(lǐng)域的潛力。”王晟博士表示。

所謂合成生物學(xué),多采用工程學(xué)“自下而上”的理念,從系統(tǒng)表征自然界具有催化調(diào)控等功能的生物大分子,使其成為標(biāo)準(zhǔn)化“元件”,進(jìn)而創(chuàng)建“模塊”、“線路”等全新生物部件與細(xì)胞“底盤”,最終構(gòu)建出具備各類用途的人造生命系統(tǒng)。

這也就決定了合成生物學(xué)需要依賴各類底層元件,比如催化元件、調(diào)控元件、感應(yīng)元件和結(jié)構(gòu)元件等。但當(dāng)前,研究領(lǐng)域內(nèi)可用元件十分匱乏,直接限制了合成生物學(xué)的想象空間。

不同于過去利用有限的過往研究出來的已知元件去進(jìn)行產(chǎn)品研發(fā),在包括蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、RNA結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)-小分子復(fù)合體結(jié)構(gòu)預(yù)測(cè)在內(nèi)的AI技術(shù)加持下,智峪生科技術(shù)團(tuán)隊(duì)可以從千萬甚至數(shù)億的宏基因組中實(shí)現(xiàn)高精度的功能標(biāo)注,進(jìn)行新的功能元件挖掘;通過關(guān)鍵元件改造和設(shè)計(jì),實(shí)現(xiàn)從無到有的元件設(shè)計(jì)技術(shù)拓展出近乎無限的元件庫,極大地拓展合成生物學(xué)的選品范圍,根本性地解決選品難問題,為該領(lǐng)域發(fā)展帶來顛覆性的影響?!熬拖裼梅e木搭建房子,如果我們有一千塊積木,那么搭建出來的房子樣式、質(zhì)量、方法、速度上會(huì)比只有十塊積木更好?!蓖蹶刹┦勘硎?。

與此同時(shí),智峪生科還建立了顛覆性的基于AI的生物合成“計(jì)算設(shè)計(jì)-實(shí)驗(yàn)驗(yàn)證-計(jì)算再優(yōu)化(DBTL)”循環(huán),解決選品難問題的同時(shí),通過智能化和自動(dòng)化的干濕實(shí)驗(yàn)結(jié)合,指數(shù)性地提升數(shù)據(jù)產(chǎn)生和算法迭代的速度,達(dá)到極致的降本增效,從而形成絕對(duì)的競(jìng)爭(zhēng)優(yōu)勢(shì)。

本次CASP15競(jìng)賽中,智峪生科AI技術(shù)實(shí)力就有所體現(xiàn)。若僅考慮基于AI的方法的表現(xiàn),公司旗下AICHEMY-RNA團(tuán)隊(duì)和AICHEMY-LIG團(tuán)隊(duì)表現(xiàn)均為全球最優(yōu)。

另外,基于在CASP競(jìng)賽上RNA結(jié)構(gòu)預(yù)測(cè)奪冠的實(shí)力,智峪生科還可以進(jìn)一步設(shè)計(jì)RNA三維結(jié)構(gòu)實(shí)現(xiàn)密碼子(codon)優(yōu)化,進(jìn)而提高蛋白質(zhì)異源表達(dá)量,促進(jìn)合成生物學(xué)進(jìn)展。同時(shí)在合成生物學(xué)創(chuàng)建細(xì)胞工廠中,清晰描繪蛋白質(zhì)與RNA之間的調(diào)控網(wǎng)絡(luò),設(shè)計(jì)或挖掘出全新的RNA調(diào)控元件,提升整個(gè)細(xì)胞工廠的可操控性。

“從我們的角度來看,人工智能和合成生物學(xué)其實(shí)存在共同點(diǎn),兩者都能實(shí)現(xiàn)對(duì)已知事物的降本增效和對(duì)未知事物邊界的不斷探索。智峪生科也是全球范圍內(nèi),少有的將 AI 和合成生物學(xué)進(jìn)行深度融合的公司。相信在未來,智峪生科可以通過AI技術(shù)進(jìn)一步賦能合成生物學(xué)領(lǐng)域,并以此改善醫(yī)學(xué)、能源、環(huán)境、消費(fèi)等相關(guān)領(lǐng)域,為生物科技帶來一場(chǎng)看得見的革命,也為中國(guó)生物科技事業(yè)成長(zhǎng)貢獻(xiàn)力量?!蓖蹶刹┦勘硎?。