0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI蛋白質(zhì)折疊:在生命宇宙中漫游,遠(yuǎn)眺生物經(jīng)濟(jì)的流光

腦極體 ? 來源: 腦極體 ? 作者: 腦極體 ? 2024-09-18 10:10 ? 次閱讀

wKgaombn5sGAdBb9AAf2uzslsyg092.jpg

在2000年出版的《劍橋世界食物史》(The Cambridge World History of Food)中,記載了一則軼事:1728年,意大利學(xué)者雅可布·貝卡利(Jacopo Beccari)宣布,發(fā)現(xiàn)白面粉中存在具有“動(dòng)物物質(zhì)”全部特性的東西。他的處理方式,是將和好的生面團(tuán)在水中揉搓清洗,除去細(xì)小的白色淀粉顆粒,剩下的就是粘性的面筋團(tuán),因?yàn)椴恢浪菑哪膬簛淼?,人們就以為它來自?dòng)物。貝卡利認(rèn)為,這些“動(dòng)物物質(zhì)”成分使得小麥特別有營養(yǎng)。作為一個(gè)整體,面粉并沒有表現(xiàn)出動(dòng)物物質(zhì)特性,這是因?yàn)榇罅康矸鄣拇嬖谘谏w了面筋的性質(zhì)。

貝卡利的這一在現(xiàn)代人看起來無比粗糙的研究,卻在無意中為后代人開啟了一扇通往微觀生命世界的大門。在一個(gè)世紀(jì)后的1838年,荷蘭醫(yī)生蓋里特·穆爾德(Gerritt Mulder)發(fā)表文章稱,他分析過的所有重要的“動(dòng)物物質(zhì)”都具有相同的基本組成:40個(gè)碳原子,62個(gè)氫原子,10個(gè)氮原子和12個(gè)氧原子,可以簡(jiǎn)單地表示為C40H62N10O12。這些“動(dòng)物物質(zhì)”表現(xiàn)出不同的性質(zhì),僅僅是因?yàn)橐栏接谒鼈兊牧蚧蛄自拥膫€(gè)數(shù)。他以希臘海神普羅透斯(Proteus,具有預(yù)言能力,但會(huì)變換成各種形狀以逃避回答問題)為名,將其正式命名為“蛋白質(zhì)(protein)”。而經(jīng)過他的研究,初步認(rèn)定了蛋白質(zhì)是構(gòu)成動(dòng)物和植物的基本物質(zhì)之一。

再往后的故事,如大家所知,20世紀(jì)人類開始從分子層面認(rèn)識(shí)和研究生命,除了DNA的秘密被揭曉,推動(dòng)了生命科學(xué)領(lǐng)域的一次重大飛躍外,蛋白質(zhì)作為生命的物質(zhì)基礎(chǔ)、生命活動(dòng)的主要承擔(dān)者的重要性也逐漸為科學(xué)家所發(fā)掘。而有關(guān)蛋白質(zhì)的研究,特別是關(guān)于其三維構(gòu)型的研究,在經(jīng)歷了很長(zhǎng)一段時(shí)間緩慢的推進(jìn)之后,終于在21世紀(jì)的前二十年里,被AI一舉攻破,“AI蛋白質(zhì)折疊”成為生命科學(xué)領(lǐng)域乃至整個(gè)科學(xué)研究領(lǐng)域最重要的研究成果。

至此,一幅全新的生物經(jīng)濟(jì)畫卷在人們眼前逐漸展開:利用AI去設(shè)計(jì)蛋白質(zhì)(而不是在自然界中挑選蛋白質(zhì))、生產(chǎn)契合人類需求的蛋白質(zhì)產(chǎn)品,如藥物、食品、調(diào)味品、新材料、營養(yǎng)保健品、化妝品等,進(jìn)而推動(dòng)現(xiàn)有以高污染、高耗能的化工原料為基礎(chǔ)的社會(huì)生產(chǎn)生活重心,向著新型的、綠色環(huán)保的、可持續(xù)發(fā)展的生物基社會(huì)轉(zhuǎn)變,成為當(dāng)下科學(xué)家和產(chǎn)業(yè)界孜孜不倦的追求。

再回到當(dāng)下,我們常說21世紀(jì)人類將航向兩個(gè)宇宙。一個(gè)宇宙向外,去往星空深處;一個(gè)宇宙向內(nèi),去往生命科學(xué)的奧秘。近年來中國航空航天工程的快速崛起,再次打開了停滯許久的人類探索太空宇宙的大門,而這艘名為“AI蛋白質(zhì)折疊”的宇宙飛船,同樣由中國學(xué)者按下了起飛的按鈕,也已經(jīng)沖出了人類探索生命宇宙的大氣層。

時(shí)值年中,正是一個(gè)階段性回顧與總結(jié)的時(shí)間,我們不妨一起回望,它是從何而來,如何發(fā)射升空,未來還將駛向何方。

wKgZombn5sOAcEcOAAHwEgZi_V8597.jpg

讓我們回到開端,去重新了解一個(gè)我們無比熟悉又異常陌生的事物:蛋白質(zhì)。

之所以說熟悉,是因?yàn)椤暗鞍踪|(zhì)”在當(dāng)下這個(gè)生活條件富足的時(shí)代中,出現(xiàn)的頻次實(shí)在是太高了。各種關(guān)于飲食、保健的文章和視頻都會(huì)不停地告訴我們,某某產(chǎn)品中富含某種蛋白(質(zhì)),讓大家都知道蛋白質(zhì)是對(duì)身體十分重要的營養(yǎng)素。而說陌生,則是因?yàn)榇蠖鄶?shù)人對(duì)于蛋白質(zhì)的作用、價(jià)值乃至深層次的運(yùn)作機(jī)制其實(shí)不甚了解。

從生命科學(xué)的角度來說,蛋白質(zhì)是生命體內(nèi)四種主要大分子之一(另外三種分別是核酸、多糖和脂質(zhì))。在生命體內(nèi),DNA作為生命信息的載體,負(fù)責(zé)遺傳信息的存儲(chǔ)。圍繞它的研究、技術(shù)及應(yīng)用,構(gòu)成了20世紀(jì)人類生命科學(xué)領(lǐng)域最重大的進(jìn)步之一。而關(guān)于它的故事,從20世紀(jì)50年代雙螺旋結(jié)構(gòu)的發(fā)現(xiàn),到當(dāng)下各種新興醫(yī)療技術(shù)的誕生,人們已經(jīng)不再陌生。

但大家不甚了解的是,遺傳信息需要通過轉(zhuǎn)錄和翻譯形成蛋白質(zhì),才能在生命體中執(zhí)行各種功能。生長(zhǎng)、發(fā)育、運(yùn)動(dòng)、遺傳、繁殖等在內(nèi)的一切生命活動(dòng)都離不開蛋白質(zhì)的參與,包括組成生命體、輸送各類物質(zhì)、抵御病毒、消化食物、提供能量、調(diào)節(jié)激素等,它也因此被稱作“生命的物質(zhì)基礎(chǔ)”和“生命活動(dòng)的主要承擔(dān)者”。

那么,蛋白質(zhì)如何能夠發(fā)揮如此多的作用?

答案在于,蛋白質(zhì)擁有豐富而復(fù)雜的空間結(jié)構(gòu),這些結(jié)構(gòu)決定了蛋白質(zhì)的功能。蛋白質(zhì)以氨基酸為基本組成單位,氨基酸的不同排列(即序列)以及在此基礎(chǔ)上的卷曲折疊,形成了特定的三維立體結(jié)構(gòu),進(jìn)而執(zhí)行不同的功能。人類現(xiàn)在已知組成蛋白質(zhì)的氨基酸有20余種,如果它們可以以任意順序和長(zhǎng)度鏈接、并折疊形成不同的蛋白質(zhì),那么理論上可能存在的蛋白質(zhì)數(shù)量會(huì)達(dá)到約10^1300,比整個(gè)宇宙中的原子數(shù)量還要多很多倍,功能更是因此豐富而復(fù)雜。

換言之,理想的情況下,如果我們可以測(cè)清氨基酸在組成蛋白質(zhì)時(shí)折疊構(gòu)成的三維結(jié)構(gòu),就可以了解清楚蛋白質(zhì)發(fā)揮什么作用和如何發(fā)揮作用,那將對(duì)人們理解生命運(yùn)行、探索生命奧秘發(fā)揮巨大的助益作用。更進(jìn)一步,如果人類可以在此基礎(chǔ)上對(duì)蛋白質(zhì)進(jìn)行設(shè)計(jì)、改造乃至創(chuàng)造自然界中尚不存在的蛋白質(zhì),引導(dǎo)它發(fā)揮特定的功能,那更將會(huì)產(chǎn)生難以估量的價(jià)值。例如,在藥物研發(fā)領(lǐng)域,靶點(diǎn)、抗體藥、多肽類藥物、蛋白疫苗、融合蛋白藥物等都是蛋白質(zhì),如果能夠設(shè)計(jì)出新穎的蛋白藥物,將會(huì)有更大的概率解決當(dāng)前人類遇見的許多疑難雜癥;在食品領(lǐng)域,開發(fā)優(yōu)質(zhì)、安全、價(jià)格低廉的替代蛋白食品,豐富人類營養(yǎng)來源、解決食品短缺問題;材料領(lǐng)域,通過優(yōu)化蛋白質(zhì),開發(fā)易降解且能循環(huán)使用的環(huán)保生物材料,促進(jìn)社會(huì)可持續(xù)發(fā)展等。

然而,理想很美好,現(xiàn)實(shí)卻很曲折。僅僅為了弄清楚蛋白質(zhì)的組成和結(jié)構(gòu),科學(xué)界就已經(jīng)花費(fèi)了近一個(gè)世紀(jì)。1902年諾貝爾化學(xué)獎(jiǎng)獲獎(jiǎng)?wù)?、德國化學(xué)家費(fèi)舍爾(Hermann Emil Fischer)在20世紀(jì)的第一個(gè)十年中,率先提出氨基酸之間的肽鍵相連接形成蛋白質(zhì)的論點(diǎn),為蛋白質(zhì)結(jié)構(gòu)研究開啟先河。然而直到半個(gè)世紀(jì)后的1959年,英國生物學(xué)家馬克斯·佩魯茨(Max Perutz)和約翰·肯德魯(John C. Kendrew)使用當(dāng)時(shí)新興的X射線晶體衍射技術(shù),分別對(duì)血紅蛋白和肌血蛋白進(jìn)行了結(jié)構(gòu)探究,人類才第一次“看清”蛋白質(zhì)分子的細(xì)節(jié),二人也因此獲得了1962年諾貝爾化學(xué)獎(jiǎng)。在同一時(shí)期,美國生物化學(xué)家克里斯蒂安·安芬森(Christian Boehmer Anfinsen)于1961年發(fā)表論文,認(rèn)為蛋白質(zhì)所有造成最終構(gòu)象所需的信息,都被編碼于其氨基酸序列上,即蛋白質(zhì)一級(jí)排序決定三維結(jié)構(gòu)。他的這一猜想被稱為“安芬森法則”,為后來的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)奠定了基石。1972年,安芬森也憑借著這一法則斬獲了諾貝爾化學(xué)獎(jiǎng)。

此后,關(guān)于蛋白質(zhì)結(jié)構(gòu)的研究又經(jīng)歷了半個(gè)世紀(jì)曠日持久的緩慢推進(jìn)??茖W(xué)家陸續(xù)使用晶體衍射、核磁共振、冷凍電鏡等不同實(shí)驗(yàn)技術(shù)來測(cè)定蛋白質(zhì)的三維坐標(biāo)。然而,所有這些方法都存在著耗時(shí)長(zhǎng)、花費(fèi)高、成功率低等一系列問題,加上蛋白質(zhì)的數(shù)量種類十分龐大,人們用實(shí)驗(yàn)探索蛋白質(zhì)結(jié)構(gòu)的努力只能算是杯水車薪。

到了90年代,計(jì)算機(jī)科學(xué)的興起,讓基于能量?jī)?yōu)化的計(jì)算方法又成為一種可能。該方法的理論基石就是前面說到的“安芬森法則”,即蛋白質(zhì)會(huì)折疊到最小的能量狀態(tài),如果能把某個(gè)蛋白質(zhì)的能量最優(yōu)化,理論上就可以算出它的結(jié)構(gòu)。而把這種方法教給計(jì)算機(jī),就可以一步步優(yōu)化能量,從而達(dá)到預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的目的。

然而,基于能量?jī)?yōu)化的計(jì)算方法雖然在一段時(shí)間內(nèi)取得了一定成果,結(jié)果卻始終無法令人滿意,預(yù)測(cè)出來的結(jié)構(gòu)離實(shí)驗(yàn)技術(shù)測(cè)出來的結(jié)果相差非常遠(yuǎn)。究其原因,一方面蛋白質(zhì)是一個(gè)非常大的體系,由成千上萬個(gè)原子組成,對(duì)應(yīng)一個(gè)非常大的搜索空間,構(gòu)型是千變?nèi)f化的;另一方面,雖然研究者普遍接受蛋白質(zhì)折疊到最小能量狀態(tài),但對(duì)于“能量函數(shù)到底是什么樣的”這個(gè)問題,研究者們莫衷一是。

巨大的研究?jī)r(jià)值,加上有限的研究手段和緩慢的研究進(jìn)展,讓蛋白質(zhì)結(jié)構(gòu)研究成為現(xiàn)代分子生物學(xué)“皇冠上的明珠”。僅在二十世紀(jì)的后四十余年內(nèi),蛋白質(zhì)相關(guān)的研究成果就有七次獲得諾貝爾獎(jiǎng),足見其研究難度和價(jià)值。

就此,深入廣闊無垠的蛋白質(zhì)世界、揭開更多的生命奧秘,成為生命宇宙探索的一個(gè)清晰的航向。

wKgaombn5seAI9iUAAG-4eAAHwA208.jpg

進(jìn)入二十一世紀(jì),機(jī)器學(xué)習(xí)逐步成為計(jì)算機(jī)科學(xué)的重要研究方向,也開始影響蛋白質(zhì)結(jié)構(gòu)研究。傳統(tǒng)的機(jī)器學(xué)習(xí)方法是直接把蛋白質(zhì)的氨基酸序列映射到一個(gè)三維構(gòu)型上去,結(jié)果略優(yōu)于基于物理或統(tǒng)計(jì)的方法,但并沒有得到本質(zhì)上的改變。

這時(shí),一把新的鑰匙出現(xiàn)了。

一件在AI領(lǐng)域眾所周知的里程碑事件,是深度學(xué)習(xí)的嶄露頭角。2012年9月,Geoffrey Hinton等人發(fā)表了題為“用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行ImageNet圖像分類”的論文。文中提出的AlexNet深度卷積神經(jīng)網(wǎng)絡(luò),在當(dāng)年的ImageNet分類任務(wù)比賽ILSVRC-2012上以巨大的領(lǐng)先優(yōu)勢(shì)獲得冠軍,全面刷新了此前紀(jì)錄。就此,深度學(xué)習(xí)技術(shù)異軍突起,進(jìn)而帶動(dòng)沉寂多年AI技術(shù)進(jìn)入了新的高潮期,業(yè)界迎來了寒冬之后的第三次AI崛起。

深度學(xué)習(xí)算法采用了模擬大腦神經(jīng)元工作方式的多層神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)。它的優(yōu)勢(shì)在于,可以不關(guān)注每一步的具體計(jì)算流程,而是只需要關(guān)注整體的輸入和輸出結(jié)果。比如在蛋白質(zhì)結(jié)構(gòu)研究這一領(lǐng)域,研究者可以提供氨基酸序列,并向AI算法提供氨基酸序列對(duì)應(yīng)的結(jié)構(gòu),從而訓(xùn)練AI學(xué)會(huì)自主預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。這個(gè)方法跨越了以往蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方案的思維定式,全面激活了AI蛋白質(zhì)預(yù)測(cè)的可行性。

此時(shí),依舊堅(jiān)守在蛋白質(zhì)結(jié)構(gòu)研究的科學(xué)家中,已經(jīng)有人敏銳地注意到了深度學(xué)習(xí)這個(gè)新工具。但最初的嘗試依舊并不樂觀,使用深度學(xué)習(xí)后與傳統(tǒng)的機(jī)器學(xué)習(xí)方法差別不大。深度學(xué)習(xí)與蛋白質(zhì)分析的第一次相遇,并沒有取得勢(shì)如破竹的效果。

讓這一切真正從長(zhǎng)夜走向黎明的,是一位中國學(xué)者的研究成果。

2014年,在芝加哥大學(xué)豐田計(jì)算技術(shù)研究所任職的許錦波教授,設(shè)計(jì)了一種新的深度學(xué)習(xí)算法,從更為簡(jiǎn)單的問題入手——預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu),即肽鏈主鏈骨架原子的空間位置排布,不涉及氨基酸殘基側(cè)鏈。測(cè)試發(fā)現(xiàn),深度學(xué)習(xí)對(duì)這個(gè)簡(jiǎn)單問題有效。此后在2015年和2016年,許錦波教授再次開發(fā)了更好的深度學(xué)習(xí)算法,可以直接用來預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。

2016年夏天,許錦波教授開發(fā)出的算法RaptorX-Contact,證明了深度殘差卷積神經(jīng)網(wǎng)絡(luò)可以大幅度提高蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的性能,并在當(dāng)年的全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽(CASP12)中,在蛋白質(zhì)接觸矩陣的預(yù)測(cè)上得分居首位,引發(fā)學(xué)界關(guān)注。在此之前,CASP的平均得分一直在30分左右徘徊,而許錦波教授的算法一舉將紀(jì)錄提升到了60分,實(shí)現(xiàn)了真正的顛覆性突破。相關(guān)成果于2017年發(fā)表于國際計(jì)算生物學(xué)會(huì)官方期刊PLoS Computational Biology,后來獲得PLoS Computational Biology創(chuàng)新突破獎(jiǎng)。

至此,蛋白質(zhì)宇宙的大門,終于被“AI”這把鑰匙打開了。

此后,許錦波教授繼續(xù)優(yōu)化和推廣這一算法,他的核心思想也快速被業(yè)界其他研究者采納,并相繼用于各種AI蛋白質(zhì)折疊算法的開發(fā)。一時(shí)間,用深度學(xué)習(xí)方法研究蛋白質(zhì)結(jié)構(gòu)的成果出現(xiàn)了井噴。僅許錦波教授自己,就很快在隨后的研究中進(jìn)一步認(rèn)識(shí)到,氨基酸之間的距離預(yù)測(cè),不能一對(duì)一對(duì)預(yù)測(cè),要所有對(duì)一起預(yù)測(cè),并又一次率先開發(fā)出端到端模型。相關(guān)成果于2019年8月在美國國家科學(xué)院院刊(PNAS)發(fā)表,全球范圍內(nèi)首次將AI應(yīng)用至蛋白質(zhì)氨基酸(原子)之間的距離預(yù)測(cè),進(jìn)一步提升了蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)的精度,且讓科學(xué)家僅需使用筆記本電腦就能完成這項(xiàng)工作,將AI蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)又推向了一個(gè)新的高度。

再往后的故事,大家都知道了。DeepMind推出的AlphaFold 2在2020年的CASP 14中,實(shí)現(xiàn)了對(duì)大部分蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)與真實(shí)結(jié)構(gòu)只差一個(gè)原子的寬度,達(dá)到了人類利用冷凍電鏡等復(fù)雜儀器觀察預(yù)測(cè)的水平,引發(fā)了全球科學(xué)界海嘯般的轟動(dòng)。當(dāng)年,AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)就被《科學(xué)》雜志評(píng)為“十大科學(xué)突破之一”,2021年又被評(píng)為“十大科學(xué)突破”之首,2022年又入選了《麻省理工科技評(píng)論(MIT TR)》十大突破性技術(shù)。

不過,在此期間,還有一個(gè)不被外界熟知的小故事。

在2016年秋天,許錦波教授召開了一個(gè)小型報(bào)告會(huì),向?qū)W界人士介紹RaptorX-Contact的研究成果。其中一位參會(huì)者,就是芝加哥大學(xué)生物物理系的博士后、后來領(lǐng)導(dǎo)DeepMind團(tuán)隊(duì)、設(shè)計(jì)了AlphaFold的John Jumper。在聽完報(bào)告后,后者全力轉(zhuǎn)向深度學(xué)習(xí)方法,并在一兩個(gè)月后加入DeepMind。

后來,業(yè)界普遍認(rèn)為,AlphaFold的早期版本,其實(shí)現(xiàn)方式并沒有太多創(chuàng)新,而是基于RaptorX-Contact的算法思想。而AlphaFold 2中的關(guān)鍵思想,即端到端模型,根據(jù)序列的特征直接輸出三維結(jié)構(gòu),同樣與前述許錦波教授于2019年發(fā)布的研究成果異曲同工。也正因?yàn)槿绱?,AlphaFold取得的成果,還曾在業(yè)內(nèi)引起過一段爭(zhēng)議:相比較大學(xué)校園中的科研活動(dòng),大企業(yè)支持的商業(yè)實(shí)驗(yàn)室,其成果是否更多是精湛的工程技術(shù),而非創(chuàng)新的科學(xué)見解?

當(dāng)然,這段歷史現(xiàn)在已經(jīng)有了公論。CASP比賽的創(chuàng)辦人,馬里蘭大學(xué)細(xì)胞生物學(xué)和分子遺傳學(xué)系教授約翰·莫爾特(John Moult)就曾表示:“DeepMind在開發(fā)一種非常有效的方法方面做得很好。然而,這項(xiàng)工作背后的概念和方法并非憑空而來,關(guān)鍵技術(shù)是深度學(xué)習(xí)方法的應(yīng)用。毫無疑問,DeepMind直接建立在許錦波的工作之上?!?/p>

站在當(dāng)下,AlphaFold為生命科學(xué)帶來的巨大影響無法被否定。但中國學(xué)者許錦波在推動(dòng)AI蛋白質(zhì)研究、AI for Science的道路上做出的先驅(qū)、開創(chuàng)性的成果,也同樣不該被人忘記。

wKgZombn5smAR8L4AAIIlEbxwes196.jpg

正如本文第一部分所說,測(cè)清蛋白質(zhì)的三維結(jié)構(gòu),將對(duì)人們理解生命運(yùn)行、探索生命奧秘發(fā)揮巨大的助益作用。在此基礎(chǔ)上,如果我們可以對(duì)蛋白質(zhì)進(jìn)行重新設(shè)計(jì)、引導(dǎo)它發(fā)揮特定的作用,乃至生成全新的蛋白質(zhì),那更將會(huì)產(chǎn)生難以估量的價(jià)值。就此而言,許錦波教授和他的RaptorX-Contact開了一個(gè)頭,但這只是一個(gè)開始。畢竟在深邃的生命宇宙中,還有更多的未知等待著人們?nèi)グl(fā)現(xiàn)。比如,對(duì)AI蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的手段進(jìn)行優(yōu)化,進(jìn)而探明更多蛋白質(zhì)的結(jié)構(gòu)、更深入地理解生命運(yùn)行的機(jī)制;再比如,更具有應(yīng)用想象力的AI蛋白質(zhì)優(yōu)化與設(shè)計(jì)。

由于AlphaFold 2擅長(zhǎng)的是預(yù)測(cè)和計(jì)算單個(gè)蛋白質(zhì)的結(jié)構(gòu),僅能夠做預(yù)測(cè)且高度依賴MSA(來自同源蛋白質(zhì)的多序列比對(duì))及其衍生的共進(jìn)化信息和序列譜,而蛋白質(zhì)世界具有的巨大復(fù)雜性,意味著蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)還有很大的探索空間,例如蛋白質(zhì)與其他分子的相互作用、單點(diǎn)突變對(duì)蛋白質(zhì)結(jié)構(gòu)和功能的影響、孤兒蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)側(cè)鏈預(yù)測(cè)等。因此,僅AI蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,在AlphaFold 2出現(xiàn)后就仍然不斷有前沿成果涌現(xiàn)。

例如,2021年,“科學(xué)突破獎(jiǎng)”獲得者,被稱作“上帝之手”的華盛頓大學(xué)教授David Baker領(lǐng)導(dǎo)來自華盛頓大學(xué)、哈佛大學(xué)、德克薩斯大學(xué)西南醫(yī)學(xué)中心等團(tuán)隊(duì)發(fā)布的AI工具RoseTTAFold,擁有媲美AlphaFold 2蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的超高準(zhǔn)確度,而且更快、所需計(jì)算機(jī)處理能力更低,不僅可以預(yù)測(cè)單個(gè)蛋白質(zhì)結(jié)構(gòu),還能預(yù)測(cè)蛋白復(fù)合物結(jié)構(gòu),但和AlphaFold 2類似,依賴于使用MSA和相似蛋白質(zhì)結(jié)構(gòu)的模板來實(shí)現(xiàn)最優(yōu)表現(xiàn)。2022年,META也曾推出ESMFold,其在預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)方面與AlphaFold 2能力相當(dāng),且能預(yù)測(cè)孤兒蛋白的結(jié)構(gòu),計(jì)算速度比AlphaFold 2快了一個(gè)數(shù)量級(jí),單序列輸入時(shí)精度也明顯好于AlphaFold 2。不過后來META解散了該團(tuán)隊(duì),停止在這一領(lǐng)域繼續(xù)大規(guī)模投入。除了這兩個(gè)在業(yè)內(nèi)大名鼎鼎的團(tuán)隊(duì)之外,在其他一些AlphaFold 2沒有很好解決的問題方面,仍有研發(fā)團(tuán)隊(duì)不斷取得超過前人的成果。

這里還有一個(gè)小插曲。2024年5月8日,谷歌旗下公司DeepMind和Isomorphic Labs合作,正式發(fā)布了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的最新AI模型AlphaFold 3。DeepMind宣稱,AlphaFold 3能預(yù)測(cè)含有蛋白質(zhì)數(shù)據(jù)庫(Protein Data Bank)內(nèi)幾乎所有分子類型的復(fù)合物的結(jié)構(gòu),包括配體(小分子)、蛋白質(zhì)、核酸(DNA和RNA)如何聚集在一起并相互作用,以及預(yù)測(cè)翻譯后修飾和離子對(duì)這些分子系統(tǒng)的結(jié)構(gòu)影響,從而幫助我們?cè)谠铀缴暇_地觀察生物分子系統(tǒng)的結(jié)構(gòu)。不過,這一全新版本暫時(shí)不開源代碼,需要等到六個(gè)月以后,才能將代碼和模型權(quán)重提供給學(xué)術(shù)界使用。因此,新版本能在多大程度上超越前作,謎底還有待進(jìn)一步揭開。

而在AI蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)繼續(xù)取得突破的同時(shí),也有目光長(zhǎng)遠(yuǎn)的科學(xué)家轉(zhuǎn)向了更具產(chǎn)業(yè)應(yīng)用價(jià)值的AI蛋白質(zhì)優(yōu)化與設(shè)計(jì)。

以生物醫(yī)藥為例,此前,由于對(duì)蛋白質(zhì)結(jié)構(gòu)與功能的理解不夠深入,生物藥的開發(fā)一定程度上受到了局限。而如果可以運(yùn)用AI對(duì)蛋白質(zhì)進(jìn)行優(yōu)化與設(shè)計(jì),則有希望加速提升蛋白質(zhì)藥物的性質(zhì),獲得更理想的功能,甚至可借助AI,根據(jù)靶點(diǎn)按需快速生成新的蛋白質(zhì)藥物乃至自然界不存在的全新藥物分子,很多過去缺少解藥,甚至被視為沒有解藥的疾病,有了被治愈的可能。

同理,在其他諸如合成生物、農(nóng)業(yè)、食品、新材料等更廣泛的領(lǐng)域,AI蛋白質(zhì)優(yōu)化與設(shè)計(jì)技術(shù)還有更多、更豐富的想象力。例如,在當(dāng)下發(fā)展勢(shì)頭迅猛的合成生物領(lǐng)域中,酶(也是一類蛋白質(zhì))被廣泛使用用于生物催化,如果可以設(shè)計(jì)和改造酶的結(jié)構(gòu)和功能,提高催化效率、穩(wěn)定性和選擇性,將極大提升生物合成、催化與轉(zhuǎn)化的效率?;蛘?,直接設(shè)計(jì)具有特定功能的蛋白質(zhì)制品,比如,開發(fā)更易于人體吸收、更富營養(yǎng)的替代蛋白食品;研發(fā)對(duì)人類安全無害、對(duì)環(huán)境友好的綠色生物農(nóng)藥;開發(fā)強(qiáng)有力的塑料降解催化劑幫助消除污染;創(chuàng)造更有延展性和韌性的纖維材料從而提升航空工業(yè)水平;提升農(nóng)作物的產(chǎn)量、品質(zhì),培育更多綠色高產(chǎn)的農(nóng)作物產(chǎn)品……如此多的應(yīng)用方向,還有待人們開發(fā)強(qiáng)有力的蛋白質(zhì)優(yōu)化與設(shè)計(jì)工具逐一去探索解決。

但相比蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),蛋白質(zhì)設(shè)計(jì)是一個(gè)更加困難的問題。

首先,蛋白質(zhì)序列空間非常大。自然界有20余種氨基酸,假設(shè)我們需要設(shè)計(jì)1個(gè)帶有100個(gè)氨基酸的蛋白質(zhì),這個(gè)蛋白質(zhì)的序列空間就有20100種可能性。但是這個(gè)巨大的序列空間中僅有很小比例的氨基酸序列可以穩(wěn)定折疊,且具有我們所需的特定功能。因此,要在巨大的空間中找到符合需求的氨基酸系列,無異于大海撈針。

其次,基于特定功能設(shè)計(jì)蛋白質(zhì),需要對(duì)蛋白質(zhì)結(jié)構(gòu)、功能的深入理解,而這對(duì)科學(xué)家和產(chǎn)業(yè)界而言,仍是難題。

再次,產(chǎn)業(yè)界對(duì)蛋白質(zhì)的需求復(fù)雜多樣,比如根據(jù)特定靶點(diǎn)設(shè)計(jì)蛋白藥物,設(shè)計(jì)可催化特定底物的酶,或是提升現(xiàn)有酶的催化效率等,這無疑又加大的蛋白質(zhì)設(shè)計(jì)研究的復(fù)雜程度。

以有“萬能生物催化劑”之稱的P450酶(CYP)為例。作為一個(gè)在生物體內(nèi)廣泛分布的龐大酶家族(包含多個(gè)家族、亞家族和酶?jìng)€(gè)體,具有高度的多樣性和復(fù)雜性),它能夠催化多種反應(yīng)類型,且可識(shí)別的底物(即可與其發(fā)生生化反應(yīng)的物質(zhì))范圍極廣,因而在藥物合成,以及合成生物領(lǐng)域的應(yīng)用中具有極大的潛力。由于天然存在的P450酶無法完美契合工業(yè)需求,因此改造現(xiàn)有或設(shè)計(jì)具備新功能的P450酶,從而拓寬其應(yīng)用范圍的需求就應(yīng)運(yùn)而生。然而,大多數(shù)P450蛋白的長(zhǎng)度約為400—500個(gè)氨基酸,這就意味著,設(shè)計(jì)出新P450的可能性就達(dá)到了20^400-20^500,比宇宙中所有原子的數(shù)量(有預(yù)計(jì)可達(dá)到10^78x10^82)還要多得多,想找到合適的那一種無異于在大海中撈針。不止如此,由于P450酶的催化反應(yīng)需要適配的輔酶,這就意味著設(shè)計(jì)具備新功能的P450酶,還需要同時(shí)考慮其他蛋白質(zhì)與其相互作用的情況,這讓設(shè)計(jì)新酶的復(fù)雜度呈指數(shù)型上升。

在沒有AI技術(shù)以前,科學(xué)界也在運(yùn)用一些方法,試圖在浩如煙海的蛋白質(zhì)宇宙中,尋找可能對(duì)人類有價(jià)值的蛋白質(zhì)分子,并有目的地對(duì)蛋白質(zhì)分子進(jìn)行優(yōu)化設(shè)計(jì),使其更好地為人類所用。例如,定向進(jìn)化和理性設(shè)計(jì)。前者主要是模擬自然選擇的過程,對(duì)目標(biāo)基因進(jìn)行多輪突變和篩選實(shí)驗(yàn),直至獲得所需的優(yōu)良變體;后者則是依據(jù)序列和結(jié)構(gòu)信息,選擇較少的關(guān)鍵位點(diǎn)進(jìn)行精準(zhǔn)改造。但兩者都具有很明顯的缺陷。前者通過模擬自然選擇過程,對(duì)目標(biāo)基因進(jìn)行多輪突變和篩選實(shí)驗(yàn),直至獲得所需水平的優(yōu)良變體,但是該技術(shù)受限制于較低的篩選速率和序列空間中龐大的變體數(shù)量。后者依據(jù)序列和結(jié)構(gòu)信息,選擇較少的關(guān)鍵位點(diǎn)進(jìn)行精準(zhǔn)改造,從而構(gòu)建較小的突變文庫,但是需要對(duì)結(jié)構(gòu)功能信息有深入了解,并且當(dāng)實(shí)驗(yàn)結(jié)果不符合預(yù)測(cè)時(shí)無法調(diào)整。像前述的P450酶,想要找到理想的新分子,研究者們可能花費(fèi)畢生的精力,也未必能得到想要的成果——從20世紀(jì)50年代P450酶被首次發(fā)現(xiàn)以來,研究界還從未能夠通過人工設(shè)計(jì)的方式得到新的分子,僅僅是對(duì)某些已存在的分子進(jìn)行了部分改造優(yōu)化。研究界需要更有力的工具方法,更快、更精準(zhǔn)地設(shè)計(jì)符合需求的蛋白質(zhì)。

wKgZombn5syATzmPAABM_sHUrrY733.jpg

2018年以后,許錦波教授率先將研究范圍擴(kuò)展至AI蛋白質(zhì)優(yōu)化與從頭設(shè)計(jì),并將預(yù)訓(xùn)練機(jī)制引入其中,進(jìn)一步探索AI蛋白質(zhì)技術(shù)的產(chǎn)業(yè)應(yīng)用路徑。他先后推出了十余項(xiàng)技術(shù),比如,可同時(shí)用于蛋白質(zhì)側(cè)鏈預(yù)測(cè)與序列設(shè)計(jì)的算法,性能媲美ESMfold的單序列結(jié)構(gòu)預(yù)測(cè)算法,精度超越AlphaFold 3的復(fù)合物預(yù)測(cè)算法等,并創(chuàng)新性地融合AI與分子動(dòng)力學(xué)、量子化學(xué)等技術(shù),解決科學(xué)與產(chǎn)業(yè)問題。這些技術(shù)不僅在測(cè)試中表現(xiàn)出了世界領(lǐng)先的性能,也在濕實(shí)驗(yàn)中得到驗(yàn)證,迅速被一些跨國藥企、生物科技公司所采用。2021年底,他回國創(chuàng)建了名為“分子之心”的AI蛋白質(zhì)優(yōu)化與設(shè)計(jì)平臺(tái)公司,并快速推出了業(yè)內(nèi)首個(gè)功能完整的AI蛋白質(zhì)優(yōu)化與設(shè)計(jì)平臺(tái)MoleculeOS,推動(dòng)相關(guān)研究成果盡快實(shí)現(xiàn)更大的應(yīng)用價(jià)值與社會(huì)價(jià)值。

除了許錦波教授以外,其他團(tuán)隊(duì)也在陸續(xù)發(fā)表AI蛋白質(zhì)設(shè)計(jì)算法,探索各種功能性蛋白質(zhì)生成,只是成果僅限于計(jì)算層面,未有公布產(chǎn)業(yè)應(yīng)用結(jié)果。2022年9月,David Baker團(tuán)隊(duì)又開發(fā)出一種名為ProteinMPNN的從頭設(shè)計(jì)蛋白質(zhì)的深度學(xué)習(xí)工具,確定與給定蛋白質(zhì)結(jié)構(gòu)相對(duì)應(yīng)的氨基酸序列,短短幾秒鐘之內(nèi)就能夠根據(jù)自主意愿快速生成全新蛋白質(zhì),不過無法要求蛋白具備某種性質(zhì);2023年7月,該團(tuán)隊(duì)又發(fā)布了一種能從頭設(shè)計(jì)全新蛋白質(zhì)的深度學(xué)習(xí)方法RoseTTAFold Diffusion,其基于擴(kuò)散模型(diffusion model),能生成各種功能性蛋白質(zhì),包括在天然蛋白質(zhì)中從未見過的拓?fù)浣Y(jié)構(gòu),但與ProteinMPNN類似,無法進(jìn)行精確的條件式生成,讓蛋白具有某種特定的性質(zhì)。2022年12月,Generate Biomedicines也公布了一個(gè)名為Chroma的項(xiàng)目,同樣借助擴(kuò)散模型(diffusion model),生成自然界中沒有的全新蛋白結(jié)構(gòu),并生成了模擬26個(gè)英文字母和10個(gè)阿拉伯?dāng)?shù)字形態(tài)的全新蛋白結(jié)構(gòu)。然而,Chrome無法基于功能需求產(chǎn)生蛋白,也不能指導(dǎo)如何評(píng)估生成的蛋白的功能性,因此更類似于科研工作,對(duì)產(chǎn)業(yè)應(yīng)用有多少價(jià)值還有待進(jìn)一步挖掘。

AI蛋白質(zhì)優(yōu)化與設(shè)計(jì)工具如雨后春筍般地出現(xiàn),讓關(guān)于AI蛋白質(zhì)宇宙的探索,又進(jìn)入到一個(gè)更深邃的空間。

wKgaombn5syAGUv4AAHDz44zv04849.jpg

當(dāng)時(shí)間進(jìn)入2023,已經(jīng)駛?cè)肷羁盏腁I蛋白質(zhì)研究又獲得了新的助推器——大模型。

2022年年底,以ChatGPT為代表的大語言模型掀起了新的AI熱潮,運(yùn)用AI大模型解決產(chǎn)業(yè)問題成為一種新的趨勢(shì)。而在科學(xué)家們看來,生物是一個(gè)高度數(shù)字化的系統(tǒng),具備可解讀、可編程的特性,因而大模型的生成能力同樣可以應(yīng)用在生命科學(xué)領(lǐng)域,二者可以說是天作之合。

不過,諸如ChatGPT之類的AI大模型,側(cè)重于通用領(lǐng)域的文本、圖片、視頻等內(nèi)容生成,無法滿足諸如蛋白質(zhì)生成之類的產(chǎn)業(yè)深度需求。原因在于,蛋白質(zhì)序列形成的結(jié)構(gòu)比自然語言的結(jié)構(gòu)復(fù)雜得多,數(shù)據(jù)也比自然語言復(fù)雜得多,涉及高度專業(yè)、多樣的蛋白質(zhì)大數(shù)據(jù)?,F(xiàn)代的通用大模型底層架構(gòu)無法精準(zhǔn)地對(duì)這些蛋白質(zhì)多模態(tài)數(shù)據(jù)精準(zhǔn)建模,要做好蛋白質(zhì)生成,必須從底層建立更新、更強(qiáng)大的AI建模技術(shù)。因此構(gòu)建AI蛋白質(zhì)生成大模型、提升蛋白質(zhì)設(shè)計(jì)的效率和成功率,也成為業(yè)內(nèi)關(guān)注的新方向。

研究界在近幾年陸續(xù)產(chǎn)生一些成果。例如,2020年,AI研究機(jī)構(gòu)Salesforce Research、合成生物學(xué)公司Tierra Biosciences和加州大學(xué)舊金山分校的一組研究人員聯(lián)合構(gòu)建的ProGen,能夠以類似“遣詞造句”的方式生成跨多個(gè)蛋白質(zhì)家族且功能可預(yù)測(cè)的蛋白質(zhì)序列。但其只能接受序列信號(hào)、無法接受結(jié)構(gòu)信號(hào),不能夠同時(shí)考慮結(jié)構(gòu)、功能、相互作用、進(jìn)化等信息,成功率較低,也無法精準(zhǔn)地實(shí)現(xiàn)產(chǎn)業(yè)應(yīng)用中所需要的功能。而在國內(nèi),2023年,百圖生科與清華大學(xué)聯(lián)合提出了千億參數(shù)的蛋白質(zhì)語言模型xTrimoPGLM,探索了蛋白質(zhì)理解和生成這兩種類型目標(biāo)之間的兼容性以及共同優(yōu)化的可能性,能夠?qū)蝹€(gè)蛋白質(zhì)、細(xì)胞中蛋白質(zhì)相互作用、細(xì)胞本身,以及細(xì)胞系統(tǒng)建模。2024年6月,由前Meta AI研究人員創(chuàng)立的Evolutionary Scale AI發(fā)布了蛋白質(zhì)語言模型ESM3,能力超越了前述兩種,支持序列、結(jié)構(gòu)、功能的同時(shí)推理,但目前仍存在生成精度不足、使用特別復(fù)雜、無法微調(diào)等問題。

率先取得產(chǎn)業(yè)應(yīng)用成果驗(yàn)證的,還是許錦波教授及其團(tuán)隊(duì)。在分子之心成立不久后的2023年,團(tuán)隊(duì)又推出了業(yè)界首個(gè)集成序列、結(jié)構(gòu)、功能和進(jìn)化的產(chǎn)業(yè)級(jí)AI蛋白質(zhì)生成大模型“NewOrigin(達(dá)爾文)”,不僅具備成功率高、普適性高等優(yōu)勢(shì),從而通過計(jì)算的方式,規(guī)避了傳統(tǒng)方法對(duì)大規(guī)模濕實(shí)驗(yàn)(即生物實(shí)驗(yàn))的依賴,提高生產(chǎn)效率、降低成本,還可以讓不具備AI算法背景的生物學(xué)家,通過對(duì)話的形式與大模型進(jìn)行交互。

wKgaombn5s6ANLUlAAN2q7jNSHI905.jpg

此后,團(tuán)隊(duì)積極地將其投入應(yīng)用于產(chǎn)業(yè)項(xiàng)目,在產(chǎn)業(yè)實(shí)踐中一邊獲得反饋、一邊進(jìn)行優(yōu)化。不到一年的時(shí)間里,就取得了多個(gè)產(chǎn)業(yè)應(yīng)用成果。例如,在生物材料領(lǐng)域,運(yùn)用NewOrigin幫助合作伙伴優(yōu)化一種涉及行業(yè)瓶頸,但極具商業(yè)價(jià)值的關(guān)鍵蛋白質(zhì),在未使用產(chǎn)業(yè)場(chǎng)景數(shù)據(jù)的情況下,相對(duì)于野生菌,AI設(shè)計(jì)的一個(gè)重要酶蛋白結(jié)構(gòu)使菌種產(chǎn)率提高了5倍,有望讓這一被持續(xù)改造了數(shù)十年的蛋白質(zhì)實(shí)現(xiàn)性能飛躍,從而帶動(dòng)產(chǎn)率大幅提升、成本大幅降低;在創(chuàng)新藥研發(fā)領(lǐng)域,針對(duì)某蛋白疫苗的穩(wěn)定性、表達(dá)量等進(jìn)行多目標(biāo)優(yōu)化,AI優(yōu)化后的疫苗,經(jīng)過動(dòng)物實(shí)驗(yàn)表明,產(chǎn)生中和抗體滴度達(dá)到已公開專利和相關(guān)大型藥企同類疫苗的數(shù)倍,并突破相關(guān)疫苗穩(wěn)定性專利。而AI設(shè)計(jì)的一條細(xì)胞因子管線,在保持抑制腫瘤活性的同時(shí),減毒(減少外周活性)數(shù)百倍,猴子耐受劑量達(dá)到同類管線的數(shù)十倍……成功的產(chǎn)業(yè)應(yīng)用成果,證實(shí)了AI蛋白質(zhì)大模型的強(qiáng)有力能力。

大模型的表現(xiàn)初露鋒芒,讓人信心倍增。在大模型的加持下,過往蛋白質(zhì)研究的“挖礦尋寶”碰壁試錯(cuò)的模式,將變成“按圖索驥”的新方式,甚至有可能從頭“發(fā)明”具備特定功能的全新蛋白質(zhì)。而通過可編程的蛋白質(zhì)設(shè)計(jì)技術(shù),將解決傳統(tǒng)方法無法滿足的需求,極大地提升藥物研發(fā)、合成生物、新材料、食品、農(nóng)業(yè)、環(huán)保等領(lǐng)域的研發(fā)效率,并降低成本。一個(gè)由AI蛋白質(zhì)大模型作為底層技術(shù)支撐、從而推動(dòng)生物制造產(chǎn)業(yè)更加欣欣向榮的場(chǎng)景,已然躍入眼前。

值得一提的是,2024年9月,分子之心宣布完成A輪融資。融資額達(dá)數(shù)億元人民幣,由謝諾投資、深創(chuàng)投聯(lián)合領(lǐng)投,商湯國香資本、久奕投資跟投。截至此次融資,分子之心累計(jì)完成3輪融資,過往投資方包括合成生物學(xué)龍頭企業(yè)凱賽生物、紅杉中國、百度BV、聯(lián)想創(chuàng)投等。至此,分子之心可以說已經(jīng)成長(zhǎng)為具有行業(yè)標(biāo)桿地位的AI生物大分子設(shè)計(jì)平臺(tái)公司,為中國AI生物基礎(chǔ)設(shè)施建設(shè)打開了新的局面。

wKgZombn5s6AB57WAAKvXyagTWM236.jpg

許錦波教授表示,本輪融資將用于進(jìn)一步擴(kuò)大頂尖復(fù)合型技術(shù)及產(chǎn)業(yè)人才團(tuán)隊(duì),推進(jìn)高性能算力平臺(tái)、智能高通量濕實(shí)驗(yàn)室等硬實(shí)力建設(shè),深入AI蛋白質(zhì)基礎(chǔ)大模型、AI蛋白質(zhì)優(yōu)化設(shè)計(jì)平臺(tái)MoleculeOS等生物經(jīng)濟(jì)基礎(chǔ)設(shè)施建設(shè),更進(jìn)一步推動(dòng)AI蛋白質(zhì)技術(shù)的產(chǎn)業(yè)級(jí)應(yīng)用及商業(yè)化發(fā)展。

有了大模型這一助推器,AI蛋白質(zhì)宇宙深空中的繁星愈發(fā)觸手可及。

wKgaombn5s-AbPM6AAHQa_RSTMQ321.jpg

二十世紀(jì)的后五十年中,人們見證了以基因技術(shù)為代表的生物科技日新月異,以及在此基礎(chǔ)上醫(yī)療健康水平的提升、農(nóng)牧業(yè)生產(chǎn)改善與豐富。進(jìn)入二十一世紀(jì),合成生物學(xué)、AI蛋白質(zhì)折疊為代表的新一代生物科技興起。一種不依賴化石能源,而是通過生物制造與生物產(chǎn)品推動(dòng)社會(huì)發(fā)展的新科技通道,躍入了人類社會(huì)的想象。

麥肯錫全球研究院曾在2020年發(fā)布的一份研究報(bào)告中指出,全球經(jīng)濟(jì)活動(dòng)中60%的物質(zhì)產(chǎn)品可以通過生物技術(shù)進(jìn)行生產(chǎn),其涉及市場(chǎng)規(guī)??赡芨哌_(dá)4萬億美元。面對(duì)如此巨大的經(jīng)濟(jì)價(jià)值,以及化石能源走向枯竭、環(huán)境污染日益嚴(yán)重的問題,世界各國紛紛在生物經(jīng)濟(jì)、生物科技的創(chuàng)新應(yīng)用等方面展開頂層設(shè)計(jì)與前瞻性布局。希望能夠在生物經(jīng)濟(jì)時(shí)代的大變局中占得先機(jī)。

目前,包括中、美、日、歐盟等60多個(gè)國家或地區(qū)已經(jīng)制定了生物制造或生物經(jīng)濟(jì)的專門政策,更新國家與地區(qū)生物經(jīng)濟(jì)發(fā)展戰(zhàn)略,以及制定生物制造發(fā)展路線圖和行動(dòng)計(jì)劃等。

其中,在2022年美國白宮啟動(dòng)了《國家生物技術(shù)和生物制造計(jì)劃》,并于2023年發(fā)布“生物技術(shù)和制造目標(biāo)”時(shí)間表,成立國家生物經(jīng)濟(jì)委員會(huì),明確要大幅度提升生物制造的速度、成功率和創(chuàng)新效率,解決生物實(shí)驗(yàn)法無法解決的問題;2024年3月,歐盟委員會(huì)發(fā)布題為“與自然共建未來:推動(dòng)生物技術(shù)和生物制造”的政策文件,提出采取有效利用研究成果并促進(jìn)創(chuàng)新、刺激市場(chǎng)需求、簡(jiǎn)化監(jiān)管途徑、鼓勵(lì)公共和私人投資、制定并更新標(biāo)準(zhǔn)、開展國際合作等一系列針對(duì)性措施,促進(jìn)歐盟生物技術(shù)和生物制造發(fā)展;2024年5月,日本政府提出,2030年實(shí)現(xiàn)100萬億日元市場(chǎng)規(guī)模的生物經(jīng)濟(jì)。在生物制造方面,將推動(dòng)建立生物技術(shù)和AI等數(shù)字技術(shù)融合的微生物和細(xì)胞設(shè)計(jì)平臺(tái),并完善生物工廠等基礎(chǔ)設(shè)施。在中國,2022年《“十四五”生物經(jīng)濟(jì)發(fā)展規(guī)劃》首次專門針對(duì)生物經(jīng)濟(jì)進(jìn)行規(guī)劃,明確將生物制造作為生物經(jīng)濟(jì)戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展方向;2024年“生物制造”作為新增長(zhǎng)引擎首次被寫入兩會(huì)政府工作報(bào)告。

在這樣的時(shí)代背景下,AI蛋白質(zhì)折疊可謂占據(jù)著“牽一發(fā)動(dòng)全身”的意義。這項(xiàng)技術(shù)融合了AI技術(shù)的飛速發(fā)展與生物經(jīng)濟(jì)的巨大價(jià)值。兼兩家之長(zhǎng),成未有之事。

在AI蛋白質(zhì)相關(guān)領(lǐng)域,承接DeepMind創(chuàng)新研究成果的Isomorphic Labs正在與諾華、禮來的AI藥物開展戰(zhàn)略合作;AI驅(qū)動(dòng)的蛋白質(zhì)設(shè)計(jì)公司Generate Biomedicines接受了生物科技巨頭安進(jìn)(Amgen)的19億美元投資,用于開發(fā)蛋白質(zhì)療法;合成生物領(lǐng)域的代表企業(yè)Ginkgo Bioworks正在與Google Clouds合作,開發(fā)新的大語言模型應(yīng)用于藥物發(fā)現(xiàn)、生物安全等領(lǐng)域,并與美國國防部高級(jí)研究計(jì)劃局(DARPA),圍繞如何利用無細(xì)胞蛋白質(zhì)合成(CFPS)技術(shù)、按需制造蛋白質(zhì)展開合作;英偉達(dá)在2023年連續(xù)投資九家應(yīng)用生成式AI進(jìn)行藥物研發(fā)的初創(chuàng)企業(yè)……資本、技術(shù)、應(yīng)用等眾多力量的加入,將會(huì)加速AI蛋白質(zhì)技術(shù)的進(jìn)一步開發(fā),帶來更快、更大規(guī)模的應(yīng)用落地。

站在2024年的時(shí)間線上,可以篤定的是,由AI蛋白質(zhì)折疊解鎖的生命宇宙航線,即將為生物經(jīng)濟(jì)與人類健康事業(yè),帶來更加多彩的流光。

wKgaombn5tCALAUtAAHT8w-wKDA074.jpg

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29815

    瀏覽量

    268110
  • 蛋白質(zhì)
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    7975
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI生命科學(xué)讀后感

    科學(xué)研究的進(jìn)程。從蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)到基因測(cè)序與編輯,再到藥物研發(fā),人工智能技術(shù)在生命科學(xué)的各個(gè)層面都發(fā)揮著重要作用。特別是像AlphaFold這樣的工具,成功解決了困擾生物學(xué)界半個(gè)多世紀(jì)的蛋白質(zhì)
    發(fā)表于 10-14 09:21

    AI實(shí)火!諾貝爾又把化學(xué)獎(jiǎng)?lì)C給AI大模型

    蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大模型——AlphaFold系列。 今年5月9日,谷歌DeepMind重磅發(fā)布了AlphaFold-3,能夠精準(zhǔn)預(yù)測(cè)蛋白質(zhì)-配體、蛋白質(zhì)-核酸等在內(nèi)的幾乎所有PDB數(shù)據(jù)庫
    的頭像 發(fā)表于 10-10 10:38 ?151次閱讀

    差示掃描量熱儀測(cè)試蛋白質(zhì)的應(yīng)用案例

    可能出現(xiàn)的吸熱或放熱峰,這些峰對(duì)應(yīng)于角蛋白分子鏈的運(yùn)動(dòng)、微纖維的熔融、或蛋白質(zhì)的變性等現(xiàn)象。 ? ?通過對(duì)比受延展和熱處理前后的DSC曲線,研究人員可以了解這些處理對(duì)角蛋白復(fù)合物的熱性質(zhì)和結(jié)構(gòu)穩(wěn)定性的影響。例如,熱處理可能
    的頭像 發(fā)表于 10-09 15:45 ?131次閱讀
    差示掃描量熱儀測(cè)試<b class='flag-5'>蛋白質(zhì)</b>的應(yīng)用案例

    創(chuàng)客中國AIGC專題賽冠軍天鶩科技:AI蛋白質(zhì)設(shè)計(jì)引領(lǐng)者

    源自自然的蛋白質(zhì)與現(xiàn)代科技的創(chuàng)新精神相結(jié)合,打造蛋白質(zhì)設(shè)計(jì)與應(yīng)用的新范式?!痹诮髂喜e辦的第九屆“創(chuàng)客中國”生成式人工智能(AIGC)中小企業(yè)創(chuàng)新創(chuàng)業(yè)大賽,上海天鶩科技有限公司(下稱“天鶩科技”)分享了這一理念。 天鶩科技是
    的頭像 發(fā)表于 09-18 12:04 ?198次閱讀
    創(chuàng)客中國AIGC專題賽冠軍天鶩科技:<b class='flag-5'>AI</b><b class='flag-5'>蛋白質(zhì)</b>設(shè)計(jì)引領(lǐng)者

    EvolutionaryScale推出基于NVIDIA GPU模型的新型蛋白質(zhì)研究方案

    EvolutionaryScale 于 6 月 25 日發(fā)布了第三代 ESM 模型 ESM3,該模型可同時(shí)對(duì)蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行推理,為蛋白質(zhì)研發(fā)工程師提供了一個(gè)可編程的平臺(tái)。
    的頭像 發(fā)表于 08-23 16:45 ?590次閱讀

    利用微流控探針誘導(dǎo)的化學(xué)質(zhì)膜穿孔,實(shí)現(xiàn)單細(xì)胞胞內(nèi)蛋白質(zhì)遞送

    將小分子、核酸、蛋白質(zhì)和藥物導(dǎo)入細(xì)胞是監(jiān)測(cè)和了解細(xì)胞行為以及生物功能的重要途徑。
    的頭像 發(fā)表于 05-28 10:11 ?478次閱讀
    利用微流控探針誘導(dǎo)的化學(xué)質(zhì)膜穿孔,實(shí)現(xiàn)單細(xì)胞胞內(nèi)<b class='flag-5'>蛋白質(zhì)</b>遞送

    一種基于可拉伸光子晶體的熒光傳感陣列,用于卵巢癌早期診斷

    蛋白在細(xì)胞歸巢、免疫識(shí)別、物質(zhì)轉(zhuǎn)運(yùn)、蛋白質(zhì)相互作用和細(xì)胞間信號(hào)傳遞等廣泛的生命過程中發(fā)揮著重要作用,已被確定為卵巢癌、結(jié)腸癌、直腸癌、乳腺癌和肝癌等癌癥診斷、臨床治療和預(yù)后評(píng)估的治療靶點(diǎn)或
    的頭像 發(fā)表于 05-19 17:31 ?789次閱讀
    一種基于可拉伸光子晶體的熒光傳感陣列,用于卵巢癌早期診斷

    洪亮團(tuán)隊(duì)在生信期刊JCIM發(fā)布最新成果,蛋白質(zhì)工程邁入通用人工智能時(shí)代

    Networks)。在此項(xiàng)研究,該團(tuán)隊(duì)設(shè)計(jì)了一種微環(huán)境感知圖神經(jīng)網(wǎng)絡(luò)ProtLGN。ProtLGN能夠從蛋白質(zhì)三維結(jié)構(gòu)中學(xué)習(xí)有益的氨基酸突變位點(diǎn),建立自然選擇下的氨基酸序列分
    的頭像 發(fā)表于 04-19 17:42 ?515次閱讀
    洪亮團(tuán)隊(duì)<b class='flag-5'>在生</b>信期刊JCIM發(fā)布最新成果,<b class='flag-5'>蛋白質(zhì)</b>工程邁入通用人工智能時(shí)代

    天府錦城實(shí)驗(yàn)室在生物傳感與蛋白質(zhì)測(cè)序領(lǐng)域取得重要進(jìn)展

    3月10日,記者從天府錦城實(shí)驗(yàn)室(未來醫(yī)學(xué)城)獲悉,四川大學(xué)華西醫(yī)院臨床檢驗(yàn)醫(yī)學(xué)研究中心與生物治療全國重點(diǎn)實(shí)驗(yàn)室、天府錦城實(shí)驗(yàn)室(未來醫(yī)學(xué)城)耿佳教授和華西第二醫(yī)院陳路教授聯(lián)合團(tuán)隊(duì)在生物傳感與蛋白質(zhì)測(cè)序領(lǐng)域取得重要進(jìn)展。
    的頭像 發(fā)表于 03-17 09:10 ?873次閱讀
    天府錦城實(shí)驗(yàn)室<b class='flag-5'>在生物</b>傳感與<b class='flag-5'>蛋白質(zhì)</b>測(cè)序領(lǐng)域取得重要進(jìn)展

    一種光固化通道數(shù)字微流控芯片(pCDMF)

    pCDMF芯片在生物醫(yī)學(xué)和化學(xué)分析等領(lǐng)域具有廣泛的應(yīng)用。在生物醫(yī)學(xué)領(lǐng)域,pCDMF芯片可以用于細(xì)胞分析、蛋白質(zhì)分析和基因分析等方面。通過控制液滴的流動(dòng)和混合,可以實(shí)現(xiàn)對(duì)細(xì)胞、蛋白質(zhì)和基
    的頭像 發(fā)表于 01-03 13:01 ?623次閱讀

    對(duì)新輔助TCHP治療響應(yīng)的HER2+乳腺癌空間蛋白質(zhì)組特征

    GeoMx IPA可以實(shí)現(xiàn)對(duì)組織任何區(qū)域(如腫瘤區(qū)域、免疫交界區(qū)域、腫瘤微環(huán)境和正?;|(zhì)區(qū)域等)的570多種蛋白質(zhì)進(jìn)行空間原位的表達(dá)檢測(cè),快速發(fā)現(xiàn)新的蛋白質(zhì)
    的頭像 發(fā)表于 12-26 16:52 ?817次閱讀
    對(duì)新輔助TCHP治療響應(yīng)的HER2+乳腺癌空間<b class='flag-5'>蛋白質(zhì)</b>組特征

    新技術(shù)在生物樣本冷凍的應(yīng)用案例分析

    生物分子等提供了重要的實(shí)驗(yàn)手段。   新技術(shù)在生物樣液氮罐本冷凍的應(yīng)用案例分析表明,這些創(chuàng)新方法為生物學(xué)研究提供了更高效、可靠和經(jīng)濟(jì)的樣
    發(fā)表于 12-26 13:30

    人工智能驅(qū)動(dòng)蛋白質(zhì)設(shè)計(jì)取得重大突破,人類健康和環(huán)境監(jiān)測(cè)有望受益

     據(jù)華盛頓大學(xué)化學(xué)與生物工程系的David Baker教授透露,其領(lǐng)導(dǎo)的研究小組整合了深度學(xué)習(xí)算法和序列設(shè)計(jì)工具ProteinMPNN,從而實(shí)現(xiàn)了高效的蛋白質(zhì)功能性設(shè)計(jì)。
    的頭像 發(fā)表于 12-20 14:32 ?695次閱讀

    雙水相電泳分離蛋白質(zhì)的研究

      本文提出了一種新型的雙水相電泳裝1并進(jìn)行了雙水相電泳分離肌紅蛋白和牛血清白蛋白和細(xì)胞色素C及其混合物的實(shí)驗(yàn),研究了電場(chǎng)方向、pH值、電場(chǎng)強(qiáng)度和電泳時(shí)間對(duì)雙水相萃取分離效果的影響,并與不加電場(chǎng)的雙水相萃取的結(jié)果進(jìn)行了比較。
    發(fā)表于 11-28 14:46 ?0次下載

    RT1021時(shí)鐘配置異常怎么解決?

    RT1021在做兩層板的時(shí)候,出現(xiàn)一個(gè)異常情況,背景如下: 我們使用的是RT1021 4A的型號(hào)+2M的圓博的2 M spi 閃光。 固件程序這邊是移植了蛋白質(zhì)。 程序由一級(jí)bootloader+app組成。
    發(fā)表于 11-13 06:13