Alphabet(谷歌)旗下公司DeepMind的人工智能AlphaGo曾在國際象棋、圍棋等項(xiàng)目中取得了超越人類的表現(xiàn),其研究不僅震驚世界,也兩次登上 Nature。如今,該公司已將人工智能技術(shù)應(yīng)用到最具挑戰(zhàn)性的科學(xué)研究問題中,其剛剛推出的 AlphaFold 可以僅根據(jù)基因「代碼」預(yù)測生成蛋白質(zhì)的 3D 形狀。
DeepMind 表示,AlphaFold 是「該公司首個(gè)證明人工智能研究可以驅(qū)動(dòng)和加速科學(xué)新發(fā)現(xiàn)的重要里程碑」??磥?,人類醫(yī)學(xué)研究要前進(jìn)一步了。
2017 年 5 月,谷歌 DeepMind 人工智能項(xiàng)目 AlphaGo(執(zhí)棋者:黃士杰博士)對戰(zhàn)當(dāng)時(shí)世界第一的圍棋選手柯潔。
周日,在墨西哥坎昆舉辦的一場國際會(huì)議中,DeepMind 的最新 AI——AlphaFold 在一項(xiàng)極其困難的任務(wù)中擊敗了所有對手,成功地根據(jù)基因序列預(yù)測出蛋白質(zhì)的 3D 形狀。
「蛋白質(zhì)折疊」是一種令人難以置信的分子折疊形式,科學(xué)界以外很少有人討論,但卻是一個(gè)非常重要的問題。生物由蛋白質(zhì)構(gòu)成,生物體功能由蛋白質(zhì)形狀決定。理解蛋白質(zhì)的折疊方式可以幫助研究人員走進(jìn)科學(xué)和醫(yī)學(xué)研究的新紀(jì)元。
「對于我們來說,這真的是一個(gè)關(guān)鍵時(shí)刻,」DeepMind 聯(lián)合創(chuàng)始人兼 CEODemis Hassabis表示,「這個(gè)項(xiàng)目就像燈塔,這是我們關(guān)于人和資源的首次重大投資,用于解決一個(gè)根本性的、現(xiàn)實(shí)世界的重要問題?!?/p>
在 2016 年 AlphaGo 擊敗李世乭后,DeepMind 就開始將目光轉(zhuǎn)向蛋白質(zhì)折疊。盡管實(shí)踐證明,游戲是 DeepMind AI 項(xiàng)目的優(yōu)秀試驗(yàn)場,但在游戲中取得高分并非他們的終極目標(biāo)?!肝覀兊哪繕?biāo)從來就不是贏得圍棋或雅達(dá)利比賽的勝利,而是開發(fā)能夠解決蛋白質(zhì)折疊這類問題的算法,」Hassabis 表示。
為什么要預(yù)測蛋白質(zhì)結(jié)構(gòu)
人體能夠產(chǎn)生數(shù)萬甚至數(shù)百萬的蛋白質(zhì)。每個(gè)蛋白質(zhì)都是一個(gè)氨基酸鏈,而后者的類型就有 20 種。蛋白質(zhì)可以在氨基酸之間扭曲、折疊,因此一種含有數(shù)百個(gè)氨基酸的蛋白質(zhì)有可能呈現(xiàn)出數(shù)量驚人(10 的 300 次方)的結(jié)構(gòu)類型。
蛋白質(zhì)的 3D 形狀取決于其中包含的氨基酸數(shù)量和類型,而這一形狀也決定了其在人體中的功能。例如,心臟細(xì)胞蛋白質(zhì)的折疊方式可以使血流中的任何腎上腺素都粘在它們上面,以加速心率。免疫系統(tǒng)中的抗體是折疊成特定形狀的蛋白質(zhì),以鎖定入侵者。幾乎身體的每一種功能——從收縮肌肉和感受光線到將食物轉(zhuǎn)化為能量——都和蛋白質(zhì)的形狀及運(yùn)動(dòng)相關(guān)。
通常情況下,蛋白質(zhì)會(huì)呈現(xiàn)出能量效率最高的任何形狀,但它們可能會(huì)糾纏在一起或者折疊錯(cuò)誤,導(dǎo)致糖尿病、帕金森和阿茨海默癥等疾病。如果科學(xué)家可以根據(jù)蛋白質(zhì)的化學(xué)構(gòu)成來預(yù)測其形狀,他們就能知道它是做什么的,會(huì)如何出錯(cuò)并造成傷害,并設(shè)計(jì)新的蛋白質(zhì)來對抗疾病或履行其它職責(zé),比如分解環(huán)境中的塑料污染。
AI 如何改變研究方法?
正因?yàn)榈鞍踪|(zhì)的結(jié)構(gòu)如此重要,在過去的五十年中,科學(xué)家已經(jīng)能使用低溫電子顯微鏡和核磁共振等實(shí)驗(yàn)技術(shù)確定蛋白質(zhì)的形狀,但是每一種方法都依賴大量的試驗(yàn)與誤差反饋,每種結(jié)構(gòu)可能需要花費(fèi)數(shù)萬美元、歷時(shí)數(shù)年進(jìn)行研究。因此生物學(xué)家轉(zhuǎn)攻 AI 方法,以完成這一困難且單調(diào)的過程。
幸運(yùn)的是,由于基因測序成本快速降低,基因組領(lǐng)域的數(shù)據(jù)非常豐富。因此在過去幾年中,依賴于基因組數(shù)據(jù)的預(yù)測問題正越來越多地借助深度學(xué)習(xí)方法。DeepMind 非常關(guān)注這一問題,并提出了 AlphaFold,這一項(xiàng)工作目前已經(jīng)提交到了Critical Assessment of Structure Prediction (CASP)。
DeepMind 用 AlphaFold 參加了 CASP,這是一年兩次的蛋白質(zhì)折疊奧運(yùn)會(huì),吸引了來自世界各地的研究小組。比賽的目的是根據(jù)氨基酸列表來預(yù)測蛋白質(zhì)的結(jié)構(gòu),這些氨基酸列表會(huì)在幾個(gè)月內(nèi)每隔幾天發(fā)送給參賽團(tuán)隊(duì)。這些蛋白質(zhì)的結(jié)構(gòu)最近已經(jīng)通過費(fèi)力又費(fèi)錢的傳統(tǒng)方法破解,但還沒有公開。提交最準(zhǔn)確預(yù)測的團(tuán)隊(duì)將獲勝。
盡管是首次參加比賽,AlphaFold 就在 98 名參賽者中名列榜首,準(zhǔn)確地從 43 種蛋白質(zhì)中預(yù)測出了 25 種蛋白質(zhì)的結(jié)構(gòu)。而同組比賽中獲得第二名的參賽者僅準(zhǔn)確預(yù)測出了 3 種。值得一提的是,AlphaFold 關(guān)注從頭開始建模目標(biāo)形狀,且并不使用先前已經(jīng)解析的蛋白質(zhì)作為模板。AlphaFold 在預(yù)測蛋白質(zhì)結(jié)構(gòu)的物理性質(zhì)上達(dá)到了高度的準(zhǔn)確性,然后基于這些預(yù)測可以使用兩種不同的方法預(yù)測構(gòu)建完整的蛋白質(zhì)結(jié)構(gòu)。
使用神經(jīng)網(wǎng)絡(luò)預(yù)測物理屬性
AlphaFold 構(gòu)建的模型都依賴深度神經(jīng)網(wǎng)絡(luò),這些經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以從基因序列中預(yù)測蛋白質(zhì)的屬性。DeepMind 的研究人員表示,神經(jīng)網(wǎng)絡(luò)預(yù)測的蛋白質(zhì)屬性主要有:(a)氨基酸對之間的距離;(b)連接這些氨基酸的化學(xué)鍵及它們之間的角度。這些方法的首要進(jìn)步就是對常用技術(shù)的提升,它們可以估計(jì)氨基酸對是否彼此接近。
為了構(gòu)建 AlphaFold,DeepMind 在數(shù)千已知的蛋白質(zhì)上訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),直到它可以僅憑氨基酸預(yù)測蛋白質(zhì)的 3D 結(jié)構(gòu)。給定一種新的蛋白質(zhì),AlphaFold 利用神經(jīng)網(wǎng)絡(luò)來預(yù)測氨基酸對之間的距離,以及連接它們的化學(xué)鍵之間的角度。接著,AlphaFold 調(diào)整初步結(jié)構(gòu)以找到能效最高的排列。該項(xiàng)目花了兩周時(shí)間來預(yù)測其第一個(gè)蛋白質(zhì)結(jié)構(gòu),但現(xiàn)在幾小時(shí)內(nèi)就可以完成了。
根據(jù)神經(jīng)網(wǎng)絡(luò)預(yù)測的兩種物理屬性,DeepMind 還訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)以預(yù)測蛋白質(zhì)成對殘基(residues)之間距離的獨(dú)立分布,這些概率能組合成估計(jì)蛋白質(zhì)結(jié)構(gòu)準(zhǔn)確率的評分。此外,DeepMind 還訓(xùn)練了另一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用集群中的所有距離來估計(jì)預(yù)測的結(jié)構(gòu)與實(shí)際結(jié)構(gòu)之間的差距。
預(yù)測蛋白質(zhì)結(jié)構(gòu)的新方法
這些評分函數(shù)可以用來探索蛋白質(zhì)內(nèi)部,以找到與預(yù)測匹配的結(jié)構(gòu)。DeepMind 的第一種方法建立在結(jié)構(gòu)生物學(xué)的常用技術(shù)上,用新的蛋白質(zhì)片段反復(fù)替換蛋白質(zhì)整體結(jié)構(gòu)的某個(gè)部分。他們訓(xùn)練了一個(gè)生成神經(jīng)網(wǎng)絡(luò)來創(chuàng)造新的片段,這些片段被用來不斷提高蛋白質(zhì)結(jié)構(gòu)的評分。
先通過神經(jīng)網(wǎng)絡(luò)預(yù)測氨基酸之間的距離和化學(xué)鍵角度,然后再根據(jù)兩種物理屬性對結(jié)構(gòu)進(jìn)行評分,最后通過梯度下降優(yōu)化評分。
第二種方法是通過梯度下降來優(yōu)化評分,得到的結(jié)構(gòu)高度精確。梯度優(yōu)化被用在整個(gè)蛋白質(zhì)鏈,而不是組裝前必須單獨(dú)折疊的片段,這種做法降低了預(yù)測過程的復(fù)雜性。
未來可期
首次涉足蛋白質(zhì)折疊領(lǐng)域的成功表明,機(jī)器學(xué)習(xí)系統(tǒng)可以整合各種信息來源,幫助科學(xué)家快速找到各種復(fù)雜問題的創(chuàng)造性解決方案。人工智能已經(jīng)通過 AlphaGo 和 AlphaZero 等系統(tǒng)掌握了復(fù)雜的游戲,與此類似,利用人工智能攻克基本科學(xué)問題的未來同樣可期。
雷丁大學(xué)的研究人員 Liam McGuffin 在比賽中帶領(lǐng)得分最高的英國學(xué)術(shù)團(tuán)體。他表示,「DeepMind 今年似乎取得了更大的進(jìn)展,我想進(jìn)一步了解他們的方法。我們的資源并不充足,但我們?nèi)匀挥泻軓?qiáng)的競爭力?!?/p>
「預(yù)測蛋白質(zhì)折疊形狀非常重要,對解決很多世紀(jì)難題有重大影響。這種能力可以影響健康、生態(tài)、環(huán)境,基本上可以解決任何涉及生命系統(tǒng)的問題?!?/p>
「包括我們在內(nèi)的很多團(tuán)隊(duì)幾年來一直都在使用基于機(jī)器學(xué)習(xí)的方法,而深度學(xué)習(xí)和人工智能的進(jìn)步似乎也產(chǎn)生了越來越重要的影響。我對這個(gè)領(lǐng)域很樂觀,我覺得我們會(huì)在 21 世紀(jì) 20 年代真正解決這個(gè)問題。」McGuffin 表示。
Hassabis 也表示還有很多工作要做?!肝覀冞€沒有解決蛋白質(zhì)折疊問題,目前只是邁出了第一步。這是一個(gè)極具有挑戰(zhàn)性的問題,但我們有一個(gè)良好的體系,還有很多想法尚未付諸實(shí)踐。」
蛋白質(zhì)折疊的早期進(jìn)展令人興奮,它證明了人工智能對科學(xué)發(fā)現(xiàn)的效用。盡管在能夠?qū)膊≈委?、環(huán)境管理等方面產(chǎn)生量化影響之前,我們還有很多工作要做,但我們知道人工智能的潛力是巨大的。在一個(gè)專注于研究機(jī)器學(xué)習(xí)如何推進(jìn)科學(xué)發(fā)展的專業(yè)團(tuán)隊(duì)的努力下,我們期待看到技術(shù)能夠有所作為。
-
人工智能
+關(guān)注
關(guān)注
1791文章
46691瀏覽量
237179 -
DeepMind
+關(guān)注
關(guān)注
0文章
129瀏覽量
10813
原文標(biāo)題:AlphaGo之后,DeepMind重磅推出AlphaFold:基因序列預(yù)測蛋白質(zhì)結(jié)構(gòu)
文章出處:【微信號(hào):gh_211d74f707ff,微信公眾號(hào):重慶人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論