新型冠狀病毒全球累計(jì)確診已超過(guò)400萬(wàn)人,疫苗是終結(jié)疫情的關(guān)鍵勝負(fù)手。在所有正在研發(fā)的疫苗路徑中,研發(fā)速度更快、更具潛力的mRNA疫苗作為一種新興技術(shù)受到了國(guó)內(nèi)外的重點(diǎn)關(guān)注。但同時(shí),mRNA疫苗由于穩(wěn)定性不足容易在保存、運(yùn)輸中降解,也成為制約疫苗大規(guī)模推廣和使用最亟待解決的問(wèn)題。
現(xiàn)在,這個(gè)困擾世界頂級(jí)疫苗公司和學(xué)界的生物學(xué)難題有望通過(guò)AI解決!5月13日,百度研究院重磅推出全球首個(gè)mRNA疫苗基因序列設(shè)計(jì)算法LinearDesign。該算法能夠在理論上設(shè)計(jì)出結(jié)構(gòu)最穩(wěn)定、蛋白質(zhì)表達(dá)效率最高的mRNA序列,而這只需要90分鐘。如果進(jìn)一步應(yīng)用線性時(shí)間近似算法,時(shí)間更可以縮短到16分鐘!
美國(guó)羅徹斯特大學(xué)生物化學(xué)與生理系教授Dr. David H. Mathews表示:“LinearDesign的優(yōu)勢(shì)在于速度!它能夠快速提供一系列的優(yōu)良序列,研究者可以進(jìn)一步通過(guò)實(shí)驗(yàn)來(lái)測(cè)試其穩(wěn)定性是否足以充當(dāng)疫苗?!?/p>
事實(shí)上,從能夠轉(zhuǎn)譯同一種蛋白質(zhì)的眾多同源序列中找到二級(jí)結(jié)構(gòu)足夠穩(wěn)定、密碼子足夠優(yōu)化的mRNA序列挑戰(zhàn)難度是相當(dāng)巨大的。以新型冠狀病毒為例,它的刺突蛋白(抗原)共有1273氨基酸,能翻譯成刺突蛋白的mRNA序列有10的632次方之多!
遍歷所有可能?這顯然難以完成。
假設(shè)一臺(tái)超級(jí)計(jì)算機(jī)能做到一秒鐘計(jì)算一個(gè)mRNA結(jié)構(gòu),那么從宇宙形成開(kāi)始計(jì)算到現(xiàn)在,計(jì)算140億年,連mRNA序列所有可能的億萬(wàn)分之一都無(wú)法算完!
要找出最優(yōu)的mRNA,科學(xué)家們的傳統(tǒng)做法是隨機(jī)改變序列,再看看是否有益。當(dāng)前,科學(xué)界也在尋找解決問(wèn)題的不同策略,比如,卡耐基梅隆大學(xué)和斯坦福大學(xué)聯(lián)合百度合作開(kāi)發(fā)的平臺(tái)Eterna,就旨在在通過(guò)解謎的方式吸引全球玩家共同設(shè)計(jì)安全穩(wěn)定的mRNA。Eterna平臺(tái)所使用的,正是今年1月底百度開(kāi)放的LinearFold算法作為其結(jié)構(gòu)分析引擎。
LinearFold是十分成功的實(shí)驗(yàn)性項(xiàng)目,它將生物學(xué)上的難題成功轉(zhuǎn)化為形式語(yǔ)言理論和計(jì)算機(jī)語(yǔ)言學(xué)上的經(jīng)典問(wèn)題。在LinearFold的啟發(fā)之下,百度研究院的研究團(tuán)隊(duì)想到了不只是結(jié)構(gòu)分析,而可以進(jìn)一步運(yùn)用計(jì)算機(jī)科學(xué)來(lái)設(shè)計(jì)出更穩(wěn)定、蛋白質(zhì)表達(dá)水平更高的mRNA序列。由此,LinearDesign應(yīng)運(yùn)而生。
針對(duì)多達(dá)10的632次方mRNA序列,LinearDesign采用了動(dòng)態(tài)規(guī)劃算法來(lái)縮小搜索空間。我們知道直到AlphaGo出來(lái)之前,AI一直都無(wú)法戰(zhàn)勝人類棋手,主要原因就是圍棋的搜索空間太大了,有3的19x19次方個(gè)狀態(tài),約合10的172次方。可以看到,mRNA序列設(shè)計(jì)問(wèn)題的搜索空間遠(yuǎn)遠(yuǎn)大于下圍棋的搜索空間。
而LinearDesign的動(dòng)態(tài)規(guī)劃算法首先用確定有限狀態(tài)自動(dòng)機(jī)(DFA)來(lái)表達(dá)氨基酸和蛋白質(zhì),這樣不同位置上密碼子的選擇就可以抽象為計(jì)算理論中常用的DFA圖。如下圖,分別把三種氨基酸(A: methionine, B: valine, C: serine)以及終止密碼子(D)抽象為DFA圖。
在此基礎(chǔ)上,將氨基酸的DFA串聯(lián)起來(lái),即可得到一段蛋白質(zhì)序列的DFA圖。如下圖是示例序列“methionineleucine stop”的DFA圖。
接下來(lái),我們需要通過(guò)DFA來(lái)找出二級(jí)結(jié)構(gòu)最穩(wěn)定的mRNA序列。在這里,百度研究院借用了通常用于計(jì)算機(jī)語(yǔ)言學(xué)的常見(jiàn)工具,也就是隨機(jī)上下文無(wú)關(guān)文法(SCFG),用于指代RNA折疊。RNA二級(jí)結(jié)構(gòu)可以通過(guò)SCFG構(gòu)建語(yǔ)法樹(shù)來(lái)表示。
mRNA疫苗序列設(shè)計(jì)優(yōu)化問(wèn)題實(shí)際上是將單個(gè)RNA序列的二級(jí)結(jié)構(gòu)計(jì)算(RNAfolding)推廣到多個(gè)RNA序列。在用DFA抽象表示多個(gè)RNA序列后,研究人員通過(guò)取DFA與SCFG的交集,來(lái)從多個(gè)mRNA序列中找到具有最穩(wěn)定二級(jí)結(jié)構(gòu)的序列。
從上圖的新型冠狀病毒突刺蛋白實(shí)驗(yàn)結(jié)果可以看出,對(duì)比最左側(cè)圖A自然界存在抗體所對(duì)應(yīng)的mRNA序列,右邊人工智能設(shè)計(jì)的二級(jí)結(jié)構(gòu)非常緊密。其中的全局最優(yōu)序列圖C,設(shè)計(jì)時(shí)間只需要1.6小時(shí)!而如果進(jìn)一步應(yīng)用線性時(shí)間近似算法,如圖B其設(shè)計(jì)時(shí)間將縮短到16分鐘。這項(xiàng)技術(shù)同樣適用于所有mRNA疫苗設(shè)計(jì)。
疫苗研發(fā)是一項(xiàng)耗時(shí)耗力的全世界性難題,運(yùn)用人工智能,計(jì)算機(jī)科學(xué)技術(shù)疫苗研發(fā)正在不斷加速。目前,百度研究院已將LinearDesign網(wǎng)站免費(fèi)開(kāi)放,同時(shí)相關(guān)論文已發(fā)布于arXiv,全球研究機(jī)構(gòu)及疫苗研發(fā)企業(yè)均可使用。百度已與中國(guó)疾病預(yù)防控制中心病毒病預(yù)防控制所簽署戰(zhàn)略合作協(xié)議,后續(xù)也將使用百度LinearDesign算法設(shè)計(jì)的mRNA疫苗序列進(jìn)行體外實(shí)驗(yàn),驗(yàn)證疫苗的穩(wěn)定性和蛋白質(zhì)表達(dá)效率。相信在全球研究者的共同努力下,疫苗研發(fā)進(jìn)度將不斷提速。
責(zé)任編輯:pj
-
AI
+關(guān)注
關(guān)注
87文章
29886瀏覽量
268174 -
百度
+關(guān)注
關(guān)注
9文章
2249瀏覽量
90206 -
引擎
+關(guān)注
關(guān)注
1文章
358瀏覽量
22515
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論