伽利略曾認為自然是用數(shù)學書寫,而生物學可能是用文字來書寫。自然語言處理(下文簡稱 NLP)算法現(xiàn)在能夠生成蛋白質序列,并預測病毒突變、包括預測能幫助新冠病毒躲避免疫系統(tǒng)攻擊的關鍵突變。
上述之所以能實現(xiàn),得益于一重要洞見,即生物系統(tǒng)許多特性可以用單詞和句子來解釋。麻省理工學院計算生物學家邦妮·伯格說:“我們正在學習進化的語言?!?/p>
過去幾年里,遺傳學家喬治·丘奇的實驗室團隊、Salesforce 團隊等研究人員已經(jīng)證明,蛋白質序列和遺傳密碼可以使用 NLP 技術建模。
最近,伯格及其同事的研究發(fā)表于《科學》雜志。在研究中,伯格等人將幾種毒株集合在一起,利用 NLP 來預測能幫助病毒躲避人體免疫系統(tǒng)抗體的突變。病毒躲過抗體稱作“病毒免疫逃逸”,該研究的基本觀點認為,免疫系統(tǒng)解讀病毒類似于人類解讀句子。
Salesforce 科學家阿里·馬達尼正利用 NLP 預測蛋白質序列,他說:“論文寫得很好,延續(xù)之前工作的發(fā)展勢頭?!?/p>
伯格團隊使用了語法和語義(或稱意義)這兩種語言學概念,病毒感染宿主的能力等遺傳或進化適應性特征,可從語法正確程度的角度來解讀。病毒傳染性強,在語法層面為正確;病毒傳染性不強,則為不正確。
同樣,病毒突變可以用語義來解釋。比如,病毒表面蛋白質突變,某些抗體便無法發(fā)現(xiàn)病毒,像這樣導致病毒在環(huán)境中與其它事物區(qū)分開來的變異,便是改變了病毒的語義。病毒突變可以有不同語義,而每一種有自身語義的病毒可能需要不同抗體來解讀。
為建立這些特性的模型,研究人員使用了 LSTM 神經(jīng)網(wǎng)絡,LSTM 誕生在基于變形金剛的神經(jīng)網(wǎng)絡出現(xiàn)之前,后者現(xiàn)為 GPT-3 等大型語言模型所使用。LSTM 等存在較久的網(wǎng)絡所需訓練數(shù)據(jù)比變形金剛少得多,并且在許多應用中仍然表現(xiàn)良好。
研究人員不是用數(shù)百萬個句子,而是利用取自三種病毒的數(shù)千個基因序列訓練 NLP 模型。這些序列為流感病毒株的 4.5 萬個獨特序列、HIV 病毒株的 6 萬個獨特序列、以及新冠病毒病毒株的 3000 到 4000 個獨特序列。麻省理工學院研究生布萊恩·希建立了模型。他說:“由于對新冠病毒的監(jiān)測較少,新冠病毒的數(shù)據(jù)較少?!?/p>
NLP 模型在數(shù)學空間中對單詞進行編碼,單詞和單詞間若含義相近,距離會更近,反之,距離則更遠。這一過程稱為“嵌入”。在病毒層面,基因序列的嵌入便是根據(jù)病毒突變的相似性,對病毒進行分組。
該方法的總目標,是識別那些可能幫助病毒逃逸免疫系統(tǒng)、且不降低病毒傳染性的突變,也就是說要識別那些改變病毒含義、而又不導致病毒語法錯誤的突變。為測試模型,研究團隊使用評估機器學習模型所做預測的通用度量標準,該標準給精確度打分的區(qū)間為 0.5(相當于意外發(fā)生的概率)到1(完美)。
研究中,研究人員采用由模型識別、最有可能出現(xiàn)的突變,并在實驗室中利用病毒,檢查這些突變中有多少確實是會幫助病毒逃逸免疫的突變。精確度分數(shù)最低值為針對 HIV 病毒株的預測結果精確度,為 0.69;最高值為針對新冠病毒病毒株的預測結果精確度,為 0.85。研究人員表示,實驗結果比其他最先進模型的結果要好。
預先警告
知道可能會有哪些突變,醫(yī)院和公共衛(wèi)生當局便更容易提前計劃。例如,要模型顯示出某種流感病毒的語義自 2020 年以來發(fā)生了多大變化,就能預計人們已經(jīng)產生的抗體在今年會發(fā)揮多大作用。
該研究團隊表示,正在根據(jù)新冠病毒新變種運行模型。針對的新變種包括英國出現(xiàn)的變異病毒、丹麥水貂體內出現(xiàn)的變異病毒、以及南非、新加坡和馬來西亞出現(xiàn)的變異病毒。研究人員已經(jīng)發(fā)現(xiàn),這些變異病毒免疫逃逸潛力可能很高,但尚未在實驗室外進行測試。
不過,模型沒有預測到南非變異病毒出現(xiàn)的一種變異。人們已經(jīng)開始擔心,這種變異可能幫助病毒躲避疫苗接種,目前研究人員正在嘗試探明原因。伯格說:“南非變異病毒里包含多個突變,我們認為,這些突變組合起來產生的效應可能會導致免疫逃逸?!?/p>
使用 NLP 可以加速原本緩慢的研究進程,以前是從醫(yī)院里一名新冠患者身上提取病毒、測序基因組,并在實驗室里重新創(chuàng)造和研究相應突變。項目研究人員麻省理工學院生物學家布賴恩·布萊森說,以前的做法可能需要幾周時間,NLP 模型可以直接預測潛在突變,實驗室研究便找到重點、工作速度也加快。
布萊森說:“整個工作很大開眼界?!泵恐芏加行虏《拘蛄小2既R森說:“一邊更新模型,一邊跑去實驗室進行實驗測試,很奇妙。計算生物學好就好在這?!?/p>
但這也只是開始。將基因突變視為語義變化,可以在生物學中有不同應用。布萊森說:“一個好類比,能起很大作用。”
例如,希認為研究團隊的方法可以應用于研究抗藥性。希說,“比如癌細胞蛋白質對化療產生耐藥性、或者細菌蛋白質對抗生素產生耐藥性”,這些變異也可以看作是意義上出現(xiàn)變化,“我們解讀語言模型,可以有很多創(chuàng)意?!?/p>
馬達尼說:“我認為,生物學正處在革命邊緣。我們不再僅僅收集大量數(shù)據(jù),而正在轉向學習如何深入理解數(shù)據(jù)?!?/p>
總體來說,研究人員正在關注 NLP 的發(fā)展,同時發(fā)掘語言和生物學之間的新類比,來利用NLP取得的進步。不過,布萊森、伯格和希都認為,生物學和 NLP 算法交叉可以是雙向,即新 NLP 算法受生物學概念啟發(fā)而誕生。伯格說:“生物學有自己的語言?!?br />
責任編輯:lq6
相關推薦
單克隆抗體(monoclonalantibody,mAb)是由單一B細胞克隆產生的高度均一、僅針對某....
發(fā)表于 2023-06-15 14:48?
2292次閱讀
如果您懷疑自己的 Android 智能手機可能已被黑客入侵,以下是一些有關如何確定的提示
發(fā)表于 2022-08-25 14:51?
4305次閱讀
多功能酶標分析儀是對酶聯(lián)免疫檢測(EIA)實驗結果進行讀取和分析的醫(yī)療設備。其優(yōu)點在于能夠快速、高精....
發(fā)表于 2021-12-09 10:41?
1665次閱讀
酶標儀是什么?酶標儀是酶聯(lián)免疫吸附試驗的專用醫(yī)療設備,又稱微孔板檢測器。比較簡單的說法就是比分光光度....
發(fā)表于 2021-09-03 10:15?
4528次閱讀
默沙東從康方生物引進的 CTLA-4 單抗聯(lián)合療法在華獲批臨床 ?中國國家藥品監(jiān)督管理局藥品審評中....
發(fā)表于 2021-03-09 11:55?
1929次閱讀
如果不需要或者不信任第三方殺毒軟件,微軟Win10自帶的Defender殺毒軟件也夠用了,比較煩人的....
發(fā)表于 2021-01-19 15:06?
1760次閱讀
想要了解引導型病毒的攻擊原理,首先要了解引導區(qū)的結構。硬盤有兩個引導區(qū),在0面0道1扇區(qū)的稱為主引導....
發(fā)表于 2021-01-03 16:33?
3908次閱讀
計算機病毒(Computer Virus)是人為制造的、能夠進行自我復制的、對計算機資源具有破壞作用....
發(fā)表于 2020-12-25 15:54?
14280次閱讀
富士康被黑客攻擊,索要2.3億元贖金 據(jù)外媒報道,富士康母公司鴻海集團的墨西哥工廠被勒索軟件“Dop....
發(fā)表于 2020-12-09 15:53?
2117次閱讀
11月27日消息,據(jù)媒體報道,330萬臺老年機被植入木馬病毒,數(shù)以萬計的公民個人信息被非法獲取。 據(jù)....
發(fā)表于 2020-11-27 15:34?
2662次閱讀
近來,科學家們在微型電池上取得了重要突破。他們開始利用只有直徑只有6納米的病毒來制造電池,這種微型電....
發(fā)表于 2020-11-12 17:07?
1558次閱讀
據(jù)美國媒體報道稱,該國的佛羅里達州宣布,已經(jīng)批準向環(huán)境中釋放7.5億只轉基因蚊子,以減少當?shù)剡@種吸血....
發(fā)表于 2020-11-06 10:23?
1098次閱讀
勒索病毒與挖礦病毒可以說是“老熟人”了,各類安全事件一直不乏他們活躍的身影:在第二季度,亞信安全共攔....
發(fā)表于 2020-08-27 10:15?
2452次閱讀
Signify的首席執(zhí)行官近日指出有將紫外線燈產量提高八倍的計劃,此前Signify已經(jīng)與波士頓大學....
發(fā)表于 2020-07-28 10:59?
757次閱讀
昕諾飛宣布,在其與波士頓大學美國國家新發(fā)傳染性疾病實驗室(NEIDL)聯(lián)合開展的研究證實,昕諾飛的U....
發(fā)表于 2020-07-23 11:42?
884次閱讀
在新型冠狀病毒肺炎疫情爆發(fā)之后,美國哥倫比亞大學和日本神戶大學皆宣布開展研究證明了波長為222nm的....
發(fā)表于 2020-07-21 10:22?
2577次閱讀
一種新的基于Node.js的遠程訪問木馬惡意軟件正在通過偽裝成美國財政部的電子郵件進行傳播。
發(fā)表于 2020-07-02 14:37?
6806次閱讀
在我們日常使用電腦過程,經(jīng)常會遇到如下問題:學生做網(wǎng)絡實驗時一臺電腦不夠用,身邊又沒有其他電腦;想要....
發(fā)表于 2020-07-01 15:29?
2432次閱讀
而且如果中了病毒的計算機屬于高性能的服務器,病毒還會在這臺電腦當中植入“挖礦”程序, 如果中招的電腦....
發(fā)表于 2020-06-30 11:15?
5574次閱讀
“盡管專家們似乎對COVID-19是否通過空氣傳播(除了非常特殊的情況,比如當給感染的病人插管時)沒....
發(fā)表于 2020-06-11 10:00?
2662次閱讀
此外基于實際應用需求,電殺菌材料同時要滿足如下幾個條件:1) 選擇材料通透性和耐腐蝕性能要好,不影響....
發(fā)表于 2020-06-05 10:46?
3334次閱讀
《自然-通訊》發(fā)表的一篇論文A human monoclonal antibody blocking....
發(fā)表于 2020-06-05 10:38?
2567次閱讀
目前根據(jù)最新的消息稱“WannaRen”病毒存在兩個變體,一個通過文字,另一個通過圖片發(fā)送勒索信息。
發(fā)表于 2020-04-13 11:13?
1342次閱讀
近日據(jù)相關媒體報道,互聯(lián)網(wǎng)上出現(xiàn)了一種新型的勒索軟件“ WannaRen”病毒,它的攻擊行為類似于此....
發(fā)表于 2020-04-10 14:22?
702次閱讀
據(jù)媒體報道,近日網(wǎng)絡上出現(xiàn)了一種名為“WannaRen”的新型比特幣勒索病毒,與此前的“WannaC....
發(fā)表于 2020-04-08 09:41?
2860次閱讀
近日,工業(yè)控制系統(tǒng)安全國家地方聯(lián)合工程實驗室發(fā)布了《IT/OT一體化工業(yè)信息安全態(tài)勢報告》。報告顯示....
發(fā)表于 2020-03-12 11:28?
463次閱讀
2019年12月23日發(fā)表在《美國國家科學院院刊》上的一項新研究描述了由賓夕法尼亞州立大學和紐約大學....
發(fā)表于 2020-01-13 10:35?
1397次閱讀
據(jù)《數(shù)據(jù)泄露損失研究》評估顯示,遭遇數(shù)據(jù)泄露事件的公司企業(yè)平均要損失386萬美元,同比去年增加了6.....
發(fā)表于 2019-08-08 11:47?
884次閱讀
專家表示,十五年前的病毒MyDoom依舊極具破壞力,迄今已造成超過380億美元的損失。
發(fā)表于 2019-07-31 17:31?
2399次閱讀
據(jù)外媒報道,Dridex是著名的特洛伊木馬,專門竊取網(wǎng)上銀行憑證。該惡意軟件于2014年被首次發(fā)現(xiàn),....
發(fā)表于 2019-07-03 14:51?
2246次閱讀
誰能想到你下載的盜版插件竟然能在背地里用你的電腦為他人挖礦?
發(fā)表于 2019-07-01 16:32?
3042次閱讀
黑客利用了至少三家托管服務提供商,用于擴散勒索軟件。
發(fā)表于 2019-06-25 15:34?
2097次閱讀
工控系統(tǒng)和一般的辦公設備不同,工控系統(tǒng)冗余量小,一旦被感染,即使是只有部分的設備也會造成整個生產線的....
發(fā)表于 2019-06-18 11:40?
1375次閱讀
為未來開發(fā)新一類抗病毒藥物提供了理論支持。
發(fā)表于 2019-06-14 10:22?
4375次閱讀
GandCrab的工作人員表示:“目前已經(jīng)將這筆錢兌換成了現(xiàn)金,該退休了,這些錢是我們應得的,并不存....
發(fā)表于 2019-06-03 11:16?
3047次閱讀
美國Verint公司的以色列辦事處受到了勒索軟件的攻擊,F(xiàn)ireEye公司正協(xié)助恢復工作。
發(fā)表于 2019-04-23 16:23?
2777次閱讀
研究人員最近在美國發(fā)現(xiàn)了一件不尋常的事,在美國注冊的十多臺服務器上,托管著10個不同的惡意軟件家族!
發(fā)表于 2019-04-08 15:57?
2877次閱讀
安全研究人員發(fā)現(xiàn)了Mirai物聯(lián)網(wǎng)僵尸網(wǎng)絡的一個新變種,這次的變種是針對商業(yè)環(huán)境的嵌入式設備。這些新....
發(fā)表于 2019-03-21 10:19?
3019次閱讀
奧地利殺毒測試機構AV-Comparatives研究發(fā)現(xiàn),大約三分之二的安卓殺毒軟件并沒有合格的殺毒....
發(fā)表于 2019-03-18 14:45?
2114次閱讀
俄羅斯殺毒軟件公司 Dr.Web 近日公開了一個被稱為 Linux.BtcMine.174 的新型木....
發(fā)表于 2018-11-25 10:30?
3980次閱讀
國內醫(yī)療系統(tǒng)受到攻擊,醫(yī)院不能正常開診;受病毒入侵,國內部分加油站不能通過加油卡和網(wǎng)上支付消費……這....
發(fā)表于 2018-08-25 11:41?
867次閱讀
DDoS攻擊:學名為分布式拒絕服務攻擊,在此我們稱它為“搗蛋鬼軍團”。這幫“家伙”可是串通一氣的,它....
發(fā)表于 2018-08-22 15:45?
4618次閱讀
8月3日晚,臺積電突然傳出消息,營運總部和新竹科學園區(qū)的的12英寸晶圓廠的電腦,遭到勒索病毒入侵,生....
發(fā)表于 2018-08-08 11:34?
6255次閱讀
在消費者對蘋果最新產品翹首以待之時,上游晶圓制造商臺灣積體電路制造股份有限公司(簡稱臺積電)突發(fā)的一....
發(fā)表于 2018-08-08 10:02?
2875次閱讀
臺積電剛剛公布了遭受電腦病毒攻擊之后的詳細恢復進展,同時還警告稱,該公司產品發(fā)貨可能因此推遲,營收也....
發(fā)表于 2018-08-07 11:33?
621次閱讀
` 去年五月份的WannaCry讓我第一次知道了勒索病毒,記得病毒爆發(fā)的時候,那家...
發(fā)表于 2018-03-09 14:00?
9982次閱讀
工業(yè)物聯(lián)網(wǎng)以物聯(lián)網(wǎng)為基礎,與工業(yè)生產相結合,是從數(shù)據(jù)傳輸?shù)叫畔⒄?、再通過信息來控制設備的一個過程,....
發(fā)表于 2017-11-23 09:09?
6051次閱讀
10月25日據(jù)多家國外媒體報道,一種名叫“壞兔子(Bad Rabbit)”的新型勒索病毒從俄羅斯和烏....
發(fā)表于 2017-10-25 23:48?
83378次閱讀
`論壇是不是中病毒了???`
發(fā)表于 2017-08-22 08:36?
2905次閱讀
據(jù)外媒消息,烏克蘭等多國正在遭遇Petya勒索病毒的襲擊,政府、銀行等重要系統(tǒng)受攻擊影響。此次黑客使....
發(fā)表于 2017-07-03 17:06?
724次閱讀
27號,包括烏克蘭在內的多個歐洲國家遭遇新一撥的大范圍電腦病毒攻擊,多地出現(xiàn)電腦故障和互聯(lián)網(wǎng)中斷。有....
發(fā)表于 2017-06-29 09:26?
857次閱讀
6月27日晚間,總部位于倫敦的全球最大廣告公司 WPP,是英國第一家被爆受到波及的公司,員工們已經(jīng)被....
發(fā)表于 2017-06-28 11:48?
798次閱讀
前段時間,Windows平臺下的比特幣勒索病毒在全球大規(guī)模爆發(fā),引發(fā)了人們對網(wǎng)絡安全的再次警覺。
發(fā)表于 2017-06-20 15:59?
879次閱讀
五月中旬,名為 WannaCry (想哭)的勒索病毒在全球范圍大爆發(fā),超過150個國家和地區(qū)在24小....
發(fā)表于 2017-05-24 11:28?
843次閱讀
想必周末的時候,wannacry的新聞已經(jīng)刷爆了小伙伴們的朋友圈,周一上班關于“勒索病毒”的消息更是....
發(fā)表于 2017-05-19 14:41?
864次閱讀
你被病毒黑客勒索了嗎?從上周五開始,一款名為“WannaCry”(想哭)的勒索病毒開始在全球范圍內肆....
發(fā)表于 2017-05-18 15:42?
785次閱讀
評論