1985年11月21日的《自然》封面,是一張來自中國的“地圖”。這張地圖是清代總兵陳倫炯所編撰《海國聞見錄》中的插圖,是中國人開始認(rèn)知與探索世界的見證,而選用這張封面,是為了配合當(dāng)期的特別文章《科技在中國》。
那時候,中國正處在改革開放的浪潮中,中國科技登陸國際視野還顯得驚奇與稚嫩。
一轉(zhuǎn)眼,38年過去,伴隨著中國科技的飛速發(fā)展,越來越多的中國科研工作者、科研機(jī)構(gòu)以第一作者的身份,登上被稱作科學(xué)金字塔尖的《自然》。
5月2日,《自然》雜志正刊發(fā)表了百度在生物計算領(lǐng)域的突破性研究成果,并以“加速預(yù)覽”(Accelerated Article Preview)形式最快發(fā)表。
在這篇題目為《Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity》的文章中,提出了mRNA序列優(yōu)化算法LinearDesign。其不僅開創(chuàng)了AI與生物、醫(yī)療等領(lǐng)域融合突破的諸多可能性,也為中國科技走向世界畫上了新的一筆。
在這篇論文里,我們可以讀到遠(yuǎn)超其成果本身的內(nèi)容,比如AI的諸多可能性、一家科技企業(yè)的科學(xué)擔(dān)當(dāng),以及中國科技走向世界的遠(yuǎn)大胸懷。
“出人意料”的生物計算
相信大家都知道,《自然》只收錄那些在基礎(chǔ)科學(xué)領(lǐng)域具有突破性與重大意義的研究。
或許可以說,百度在生物計算領(lǐng)域的探索,生動講述了什么叫“永遠(yuǎn)不要低估AI的可能性”。
這件事要從新冠疫苗講起,雖然疫情的陰霾已經(jīng)悄悄過去,但這場疫情讓全球看到了疫苗,尤其是mRNA疫苗在公共衛(wèi)生事業(yè)的重要性。
所謂mRNA是一種天然分子,其可以產(chǎn)生靶標(biāo)蛋白或免疫原,從而激活人體的特定免疫反應(yīng),以對抗各種病原體。并且其具有mRNA不帶病毒成分、沒有感染風(fēng)險、研發(fā)周期短等重要優(yōu)勢,是人類對抗新冠疫情的殺手锏。
但如此重要的領(lǐng)域,在疫苗和藥物研發(fā)中依舊有一些問題,比如如何才能高效設(shè)計出穩(wěn)定、成藥性更好的mRNA序列?
為了解決這個問題,百度基于在AI領(lǐng)域的積累“出人意料”地將AI技術(shù)與疫苗研發(fā)結(jié)合,研發(fā)出了登錄《自然》雜志的LinearDesign算法。
這一算法運(yùn)用自然語言處理中網(wǎng)格解析(Lattice Parsing)技術(shù),對mRNA疫苗序列進(jìn)行優(yōu)化,從而提升疫苗的穩(wěn)定性和有效性。
(美國心臟病學(xué)家和基因組學(xué)家埃里克·托普(Eric J. Topol)在推特上分享百度LinearDesign算法)
這里劃個重點(diǎn),LinearDesign算法可以說是用語言學(xué)領(lǐng)域的知識去攻克了生物醫(yī)療上的難題。兩個領(lǐng)域雖然不能說毫不相關(guān),基本也是相隔萬里,但是百度對AI技術(shù)的探索,卻讓二者完成了千里姻緣一線牽,LinearDesign算法由此誕生。
2020年5月,面對洶涌而來的疫情,百度研究院推出了全球首個mRNA疫苗基因序列設(shè)計算法LinearDesign,并宣布向全球疫苗研發(fā)機(jī)構(gòu)及研究中心免費(fèi)開放。LinearDesign能在16分鐘完成新冠病毒的mRNA疫苗序列設(shè)計,極大加速新冠疫苗的研發(fā)效率。
以新冠病毒的Spike蛋白為例,若采用傳統(tǒng)方法尋找一條穩(wěn)定的mRNA序列,需要查看10632個mRNA序列,堪稱天文數(shù)字,但用LinearDesign算法,卻可以在11分鐘之內(nèi)找到最穩(wěn)定的候選序列。
2020年12月,百度憑借LinearFold和LinearDesign算法在新冠抗疫中的杰出貢獻(xiàn),榮獲國際頂尖人工智能峰會The AI Summit舉辦的 AIconics獎項(xiàng)的首屆“AI For Good(人工智能向善)”獎。
在應(yīng)用價值之外,LinearDesign算法還展示了AI作為一種底層科學(xué)探索工具,在生物與醫(yī)學(xué)領(lǐng)域的全新可能性。這種跨越學(xué)科的突破力,是《自然》雜志乃至全球科學(xué)界更為珍視的。
打開AI的深度與廣度
為什么百度能把LinearDesign算法這種AI+生物計算研究做大做強(qiáng)?這可能是我們必須讀懂的另一個關(guān)鍵信息。
其原因無他,千錘百煉而已。從2012年AI方興未艾,到今天AI火爆全球,這期間百度對AI技術(shù)的堅持和探索是始終如一的。這種堅持,滲透到了AI技術(shù)的各方各面,包括基礎(chǔ)設(shè)施研究、算法迭代,以及AI的跨學(xué)科融合。其中非常多的領(lǐng)域充滿未知與挑戰(zhàn),也不符合傳統(tǒng)意義上企業(yè)對短期利益的追求。但構(gòu)建堅實(shí)的基礎(chǔ)設(shè)施,探索前瞻性技術(shù)布局,卻是一家企業(yè)贏得未來的關(guān)鍵。
AI+生物計算,作為AI技術(shù)的延展性方向,更能體現(xiàn)出百度“淡化短期利益,著眼長期發(fā)展”的技術(shù)布局思路。生物計算可以解決蛋白質(zhì)分析、新藥研發(fā)等關(guān)鍵問題,其價值巨大,以新藥研發(fā)為例,這個領(lǐng)域具有一種“3個10”特征,即10年、10億美元、10萬人才能研發(fā)出一種有效的新藥,而如果用AI作為藥物研發(fā)引擎,將可以極大程度改變新藥研發(fā)的范式,帶來難以估量的價值。
這條路價值雖大,但充滿挑戰(zhàn),在短期內(nèi)都難以實(shí)現(xiàn)商業(yè)回報,但百度依舊愿意依托AI技術(shù)與基礎(chǔ)設(shè)施的優(yōu)勢,提前布局這條未來之路。早在2018年,百度就正式啟動了計算生物方向的研究。幾年過去,百度在這一領(lǐng)域已經(jīng)構(gòu)建了基礎(chǔ)設(shè)施、算法、生態(tài)合圍而成的立體創(chuàng)新版圖,比如剛剛提到的LinearDesign算法、可以極大加快RNA結(jié)構(gòu)預(yù)測速度的 LinearFold 算法,一系列創(chuàng)新開始勾勒出百度在生物計算算法層的差異化優(yōu)勢,而基于飛槳生態(tài)打造的生物計算平臺-螺旋槳PaddleHelix,則開啟了AI+生物計算底層開發(fā)工具的構(gòu)建,為產(chǎn)學(xué)各界探索生物計算奠定了基礎(chǔ)。面向產(chǎn)業(yè)生態(tài),百度為產(chǎn)業(yè)提供了面向化合物分子、蛋白分子、基因組學(xué)信息等領(lǐng)域預(yù)訓(xùn)練大模型,將自身的技術(shù)優(yōu)勢積極投身到產(chǎn)學(xué)研協(xié)作當(dāng)中。就像在AI基礎(chǔ)設(shè)施層面,百度強(qiáng)調(diào)技術(shù)、生態(tài)與基礎(chǔ)設(shè)施的并行,在生物計算領(lǐng)域,同樣的戰(zhàn)略落地方式也推動了百度自身與生物計算行業(yè)的積極發(fā)展。
企業(yè)進(jìn)行跨學(xué)科探索與底層技術(shù)創(chuàng)新,強(qiáng)調(diào)長線程和重積累,只有構(gòu)建出完整的技術(shù)序列、技術(shù)體系,才能在此基礎(chǔ)上一鳴驚人。無論是在AI+生物計算領(lǐng)域,還是更為基礎(chǔ)的AI技術(shù)上,長期主義,始終是百度的王牌。
這樣的以重積累換取高效率的邏輯,展現(xiàn)在百度技術(shù)創(chuàng)新的方方面面。比如文心一言發(fā)布后的1個月內(nèi),完成了4次技術(shù)迭代,相較最初版本推理效率提升了10倍。這種技術(shù)迭代與產(chǎn)業(yè)化應(yīng)用的效率從何而已?其中,飛槳支撐了文心一言從開發(fā)訓(xùn)練到推理部署的全流程,并且通過聯(lián)合優(yōu)化的方式,大幅提升了大模型的訓(xùn)練與推理。從中就可以看出,底層技術(shù)與工具鏈的長期積累,為新技術(shù)的高效率升級奠定了基礎(chǔ)。
百度是如此打開AI技術(shù)的深度,中國科技也是如此打開走向世界的廣度。
大國科技走向世界
1985年11月,《自然》雜志探討了中國當(dāng)時在高能物理、空間探索、地震預(yù)測等領(lǐng)域的科研水平,向世界展示了一個具有蓬勃科研創(chuàng)新活力的中國。
2008年7月,《自然》借著北京奧運(yùn)的機(jī)會發(fā)布了中國特刊,向世界介紹了“中國目前論文發(fā)表數(shù)量比除了美國以外的其他國家都要多”,確定了中國科研實(shí)力的地位與價值。
幾十年來,《自然》里的“中國元素”,可謂與中國科技發(fā)展完美同頻,比如在1997年時《自然》發(fā)表的原創(chuàng)科研論文中只有0.4%涉及中國作者,2017年已增至約15%。這個數(shù)字的變化,恰好佐證了中國科技走向全球的變遷。
在這個過程中,一個角色是不可或缺的,那就是科技企業(yè)在整體科研環(huán)境中扮演的角色。自信息革命以來,我們可以在歐美發(fā)達(dá)國家的科技版圖中,看到很多重大創(chuàng)新都是由企業(yè)來完成。以AI+生物計算為例,DeepMind打造的AlphaFold2廣受關(guān)注。而谷歌母公司Alphabet,已經(jīng)在持續(xù)推動這一算法在醫(yī)療健康、新藥研發(fā)等領(lǐng)域落地,打造了ChatGPT的OpenAI,也在AI疾病診療、AI蛋白質(zhì)結(jié)構(gòu)預(yù)測等領(lǐng)域進(jìn)行著探索。
從世界范圍內(nèi)的趨勢來看,AI+生物計算這一重要領(lǐng)域,主要創(chuàng)新陣地應(yīng)該在科技企業(yè),并且需要以科技企業(yè)為核心,形成產(chǎn)學(xué)研互動的良性生態(tài)。而百度在生物計算領(lǐng)域的布局與進(jìn)取態(tài)勢,則在中國科技版圖中補(bǔ)完了這一環(huán)節(jié)。
中國科技走向全球,走向科技自立自強(qiáng),離不開企業(yè)科研能力的不斷升級。從這個角度看,百度生物計算以第一完成單位身份在《自然》發(fā)表論文,可以看作一個新階段的信號。1985年,是世界看到中國科技;2008年,中國綜合科研能力躋身世界前列;今天,中國的科學(xué)家、學(xué)術(shù)機(jī)構(gòu)、科技企業(yè),都能作為第一作者登上《自然》,證明中國已經(jīng)具備了多元化,立體化的科技能力。
中國科技的創(chuàng)新性和獨(dú)特性,已經(jīng)從學(xué)術(shù)界延伸到產(chǎn)業(yè)界,更具有世界眼光,更具有大國擔(dān)當(dāng)。
審核編輯黃宇
-
AI
+關(guān)注
關(guān)注
87文章
29824瀏覽量
268118 -
百度
+關(guān)注
關(guān)注
9文章
2245瀏覽量
90190
發(fā)布評論請先 登錄
相關(guān)推薦
評論