開(kāi)一個(gè)腦洞:如果地球正在面臨一場(chǎng)馬上到來(lái)的毀滅性星際災(zāi)害,人類(lèi)又想盡可能地保存地球的生命和文明,在現(xiàn)有條件下,該怎么辦?
像大劉一樣讓地球停止自轉(zhuǎn)然后逃離太陽(yáng)系,這恐怕來(lái)不及了。而如果像諾亞方舟一樣,一股腦把人類(lèi)、動(dòng)植物和人類(lèi)的知識(shí)搬運(yùn)到飛船上,現(xiàn)有的火箭運(yùn)載能力,恐怕也裝不下這些物質(zhì)的億萬(wàn)分之一。
如果想盡可能多、盡可能長(zhǎng)久地保存地球的生物,我們只需要把所有物種的DNA序列信息收集打包,在飛船的低溫環(huán)境下便可以保存長(zhǎng)達(dá)數(shù)十萬(wàn)年;而人類(lèi)文明的信息呢?我們知道這些信息最高效的形式就是數(shù)據(jù),而這些數(shù)據(jù)主要存儲(chǔ)在硬盤(pán)和光盤(pán)當(dāng)中的。
想想這些硬盤(pán)儲(chǔ)存器的重量和數(shù)據(jù)密度,我們不得不再一次氣餒。更何況,可能飛船還沒(méi)逃出太陽(yáng)系,這些數(shù)據(jù)就會(huì)因?yàn)橛脖P(pán)或光盤(pán)的壽終正寢而丟失。
那么DNA能不能當(dāng)做硬盤(pán)來(lái)存儲(chǔ)數(shù)據(jù)信息呢?答案是,可以的。
DNA絕對(duì)是這個(gè)星球上最古老的生命信息存儲(chǔ)工具,同樣也可以作為數(shù)據(jù)信息的存儲(chǔ)介質(zhì),且存儲(chǔ)密度和使用壽命要遠(yuǎn)遠(yuǎn)超出現(xiàn)有的磁盤(pán)式的存儲(chǔ)方案。因此,DNA存儲(chǔ),正在被人類(lèi)視為數(shù)據(jù)存儲(chǔ)的未來(lái),成為拯救人類(lèi)數(shù)據(jù)存儲(chǔ)危機(jī)的最好的替代方案。
DNA存儲(chǔ)具體是怎么做到的呢?現(xiàn)在發(fā)展到那一階段?商用的話還有哪些阻礙?這需要我們一一解答。
DNA存儲(chǔ)是如何工作的?
在了解DNA存儲(chǔ)是如何工作的之前,我們簡(jiǎn)單了解下磁存儲(chǔ)和光存儲(chǔ)這兩種現(xiàn)有的解決方案的原理。
磁存儲(chǔ)的原理就是在金屬材料上涂上磁性介質(zhì),在通電的情況下形成電磁效應(yīng),可以進(jìn)行存儲(chǔ)和表達(dá)0101的二進(jìn)制信息。磁存儲(chǔ)的硬盤(pán)的優(yōu)點(diǎn)是錄入和讀取的速度快,缺點(diǎn)是與體積重量相比,數(shù)據(jù)密度較低。經(jīng)過(guò)60年發(fā)展,大概可以在3.5英寸大小的硬盤(pán)驅(qū)動(dòng)上存儲(chǔ)3TB數(shù)據(jù)。
光存儲(chǔ)的原理是將數(shù)字編碼的視頻和音頻儲(chǔ)刻錄在光盤(pán)表面的凹槽中,再通過(guò)激光將這些凹槽中的數(shù)據(jù)讀取出來(lái),進(jìn)行轉(zhuǎn)存或播放。當(dāng)前,光存儲(chǔ)也正在經(jīng)歷存儲(chǔ)的極限。因?yàn)橄胍嫦赂嗟臄?shù)據(jù),凹槽就必須越小、越緊湊,要求激光的精度也越高。目前,單層藍(lán)光光盤(pán)能夠保存 25GB 以上的信息,另一種紫外線激光如果研制成功,其光盤(pán)容量可以達(dá)到500GB的容量。
相對(duì)于磁存儲(chǔ)和光存儲(chǔ)而言,DNA存儲(chǔ)有哪些優(yōu)勢(shì)?
首先,就是節(jié)約空間。但這些單層平鋪式的存儲(chǔ)方式,比起DNA的雙螺旋立體結(jié)構(gòu)來(lái)說(shuō),其存儲(chǔ)量就有了多個(gè)數(shù)量級(jí)的差距。DAN本身的物理體積極小且又是立體結(jié)構(gòu),單位空間的數(shù)據(jù)密度非常高。舉個(gè)簡(jiǎn)單的例子,1克DNA不到指尖上一滴露珠大小,卻能夠儲(chǔ)存700TB的數(shù)據(jù),相當(dāng)于1.4萬(wàn)張50GB容量的藍(lán)光光盤(pán),或233個(gè)3TB的硬盤(pán)(差不多151KG重)。
再則,非常節(jié)能?,F(xiàn)有存儲(chǔ)方式,比如說(shuō)一個(gè)數(shù)據(jù)中心,要消耗大量的單晶硅,還要消耗大量的電。而DNA物質(zhì)只需保存在陰涼、干燥的地方就可以,基本不需要額外的人工維護(hù)。就算需要把DNA冷凍起來(lái),消耗的資源和能源也幾乎可以忽略不計(jì)。
此外,最重要的一點(diǎn)就是,保存時(shí)間非常久?,F(xiàn)在高密度的存儲(chǔ)器都會(huì)隨著時(shí)間推移而衰減,能存儲(chǔ)時(shí)間最長(zhǎng)的工具是磁帶,其壽命也就50年,其他的存儲(chǔ)器壽命更短。比較而言,DNA則保質(zhì)期就以百年計(jì)算了,如果將其冷凍起來(lái),能保存幾千甚至上萬(wàn)年。
看來(lái)人類(lèi)文明的拯救方案有了,但DNA存儲(chǔ)到底是如何做到的呢?
眾所周知,DNA由四種含氮堿基——A、T、C和G互補(bǔ)配對(duì)構(gòu)成,科學(xué)家將腺嘌呤(A)、鳥(niǎo)嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)分別賦予二進(jìn)制值(A和C=0 ,G和T=1),隨后通過(guò)微流體芯片對(duì)基因序列進(jìn)行合成,從而使該序列的位置與相關(guān)數(shù)據(jù)集相匹配。這樣就把這些堿基對(duì)編碼成1和0的組合,就可以用DNA的序列信息來(lái)表達(dá)二進(jìn)制的語(yǔ)言了。
當(dāng)每次將二進(jìn)制語(yǔ)言寫(xiě)進(jìn)DNA序列當(dāng)中,就可以把“DNA硬盤(pán)”放到低溫環(huán)境中進(jìn)行保存。而需要讀取數(shù)據(jù)的時(shí)候,只用對(duì)目標(biāo)DNA進(jìn)行測(cè)序,將堿基對(duì)還原成二進(jìn)制編碼,再完成解碼,就可以還原為我們常見(jiàn)的數(shù)據(jù)了。
原理是非常簡(jiǎn)單,但科學(xué)家是如何做到的呢?這就要簡(jiǎn)單回顧下DNA存儲(chǔ)技術(shù)的發(fā)展史了。
DNA存儲(chǔ)是如何一步步發(fā)展到現(xiàn)在的?
最先想到這一方法的是一位藝術(shù)家Joe Davis,他在1988年與哈佛研究人員合作,把一個(gè)取名為Microvenus(小維納斯)的7*5像素矩陣的照片,轉(zhuǎn)化成35個(gè)堿基的DNA序列,插入到大腸桿菌里,第一次把不屬于自然演化的信息寫(xiě)進(jìn)了在DNA當(dāng)中。
(Microvenus代表女性和地球)
2010年,美國(guó)合成生物學(xué)家克雷格?文特爾((Craig Venter)帶領(lǐng)研究團(tuán)隊(duì)化學(xué)合成了整個(gè)支原體基因組DNA,取名為“辛西婭(Synthia)”,并以“自?shī)首詷?lè)”的方式將課題研究者的名字、研究所網(wǎng)址和愛(ài)爾蘭詩(shī)人詹姆斯的詩(shī)句等信息編碼進(jìn)新合成的DNA中。
2011年,哈佛大學(xué)的合成生物學(xué)家喬治·丘奇(George Church)和加州大學(xué)的瑟里·庫(kù)蘇里(Sriram Kosuri)領(lǐng)導(dǎo)的團(tuán)隊(duì)以及約翰?霍普金斯大學(xué)的基因組專(zhuān)家高原(Yuan Gao)首次進(jìn)行了概念證明性實(shí)驗(yàn)。團(tuán)隊(duì)使用短DNA片段編碼了一本丘奇的659KB數(shù)據(jù)的書(shū)。
2013年,歐洲生物信息研究所(EBI)的尼克?高德曼(Nick Goldman)和他的研究團(tuán)隊(duì)也成功地將包括莎士比亞十四行詩(shī)和馬丁?路德?金“我有一個(gè)夢(mèng)想”的演講片段、一篇沃森和克里克DNA雙螺旋論文副本等5個(gè)文件編寫(xiě)進(jìn)了DNA片段里當(dāng)中。739KB數(shù)據(jù)成為當(dāng)時(shí)最大的DNA存儲(chǔ)文件。
2016年,微軟和華盛頓大學(xué)又利用DNA存儲(chǔ)技術(shù)完成了約200MB數(shù)據(jù)的存儲(chǔ),成為DNA信息存儲(chǔ)技術(shù)的一個(gè)飛躍。
2017年7月,《自然》雜志發(fā)表了哈佛大學(xué)醫(yī)學(xué)院的賽斯?希普曼(Seth Shipman)和喬治·丘奇合作的一項(xiàng)活體DNA存儲(chǔ)的研究。他們把一部130年前的黑白電影《奔跑中的馬》存在了大腸桿菌的DNA上。雖然大腸桿菌體內(nèi)有一段“奇怪的DNA”,不僅能夠正常生存,還可以正常遺傳,每次繁衍都是一次數(shù)據(jù)復(fù)制。而且存儲(chǔ)在基因組中的電影,在每一代大腸桿菌中也都完整無(wú)缺地保存下來(lái)了。
但因?yàn)榧?xì)胞的復(fù)制、分裂以及死亡,會(huì)造成信息出錯(cuò)的風(fēng)險(xiǎn),未來(lái)數(shù)據(jù)安全,大多數(shù)情況下存儲(chǔ)信息的DNA都是以DNA干粉的形式存在,活體細(xì)胞存儲(chǔ)的研究轉(zhuǎn)向合成DNA存儲(chǔ)。
同一年,哥倫比亞大學(xué)和紐約基因組中心在《科學(xué)》雜志發(fā)表了一項(xiàng)稱為“DNA噴泉”算法高效的DNA存儲(chǔ)策略。這項(xiàng)技術(shù)展示了最大化利用DNA的存儲(chǔ)潛力,成功將海量信息壓縮至DNA的四個(gè)堿基,即為每個(gè)DNA編碼1.6比特(bits)的數(shù)據(jù),比之前多存儲(chǔ)了60%的信息,逼近理論極限(1.8比特)。該方法能夠?qū)?15PB數(shù)據(jù)存儲(chǔ)在一克DNA中,相當(dāng)于2.2億部電影。
2018年,愛(ài)爾蘭沃特福德理工學(xué)院(WIT)研究人員開(kāi)發(fā)出一種新型DNA存儲(chǔ)方法,可在1克大腸桿菌DNA中存儲(chǔ)1ZB的數(shù)據(jù)。
2019年,丘奇團(tuán)隊(duì)又在《科學(xué)》期刊上發(fā)表了一項(xiàng)實(shí)驗(yàn)結(jié)果。他們將丘奇的一本大約5.34萬(wàn)個(gè)單詞《再生:合成生物學(xué)將如何改變未來(lái)的自然和自己》的書(shū),以及11張圖片和一段Java程序,編碼進(jìn)不到億萬(wàn)分之一克的DNA微芯片,再成功利用 DNA 測(cè)序來(lái)閱讀這本書(shū)。
這些科研的快速發(fā)展也意味著DNA合成技術(shù)(數(shù)據(jù)寫(xiě)入)和DNA測(cè)序技術(shù)(數(shù)據(jù)讀?。┱呦虺墒?。但同時(shí),DNA編碼過(guò)程仍然存在著存儲(chǔ)/讀取速度和成本等問(wèn)題,DNA存儲(chǔ)離商業(yè)化還在路上。
DNA存儲(chǔ)商業(yè)化的問(wèn)題與進(jìn)展
在實(shí)驗(yàn)室里,看起來(lái)DNA存儲(chǔ)并不復(fù)雜,但是在商業(yè)化上面,仍然還面臨著一些問(wèn)題。
首先,存儲(chǔ)和讀取的速度都很慢。DNA存儲(chǔ)設(shè)備的訪問(wèn)速度很慢,存取也很費(fèi)時(shí)間。相比較磁盤(pán)存儲(chǔ)的電磁信號(hào),DNA合成卻要依賴于一系列化學(xué)反應(yīng)。用磁盤(pán)寫(xiě)入200MB數(shù)據(jù),不用1秒,用DNA合成差不多得需要3周的時(shí)間。
其次,DNA介質(zhì)不能覆蓋和重寫(xiě)。在DNA里,一旦把信息存進(jìn)去,一般來(lái)說(shuō)不能修改。想讀取這個(gè)文檔,需要把全部信息完全測(cè)序出來(lái)再轉(zhuǎn)碼。
第三,數(shù)據(jù)存儲(chǔ)的準(zhǔn)確性有待提高。目前DNA測(cè)序時(shí)的重復(fù)讀取導(dǎo)致讀錯(cuò)概率較大。
第四,隨機(jī)讀寫(xiě)困難。目前DNA合成技術(shù)無(wú)法一次性產(chǎn)生較長(zhǎng)的DNA分子,只能合成眾多的短片段。這使得在眾多DNA小片段組成的混合物當(dāng)中,快速調(diào)取特定數(shù)據(jù)存在困難。
最后,也是最重要的,DNA存儲(chǔ)成本太高了。比如目前DNA存儲(chǔ)200MB數(shù)據(jù),需要耗資80萬(wàn)美元,而用電子設(shè)備,成本連1美元都不到。
但正如上面所說(shuō),如果放到更長(zhǎng)的時(shí)間尺度上和數(shù)據(jù)存儲(chǔ)空間壓力下,DNA具有的大存儲(chǔ)密度、高節(jié)能環(huán)保、超長(zhǎng)穩(wěn)定性的獨(dú)特優(yōu)勢(shì)就顯現(xiàn)出來(lái)了。只要隨著存儲(chǔ)和讀取技術(shù)的發(fā)展,DNA編碼和測(cè)序的效率提升,成本大幅下降,DNA存儲(chǔ)離商業(yè)化應(yīng)用也就不遠(yuǎn)了。
那么,現(xiàn)在在商業(yè)化上有哪些進(jìn)展呢?
在2015年,微軟公司和華盛頓大學(xué)合作發(fā)表了一個(gè)成果,采用定點(diǎn)讀取信息,也就是給一個(gè)長(zhǎng)長(zhǎng)的DNA鏈里加入一些追蹤標(biāo)記。這些類(lèi)似索引機(jī)制的標(biāo)記,可以不用每次等測(cè)序完整DNA長(zhǎng)鏈,就能選取合適的標(biāo)記進(jìn)行讀取。
2018年,讀取技術(shù)又實(shí)現(xiàn)突破,微軟研發(fā)了“納米孔”讀取技術(shù),讓 DNA 介質(zhì)列能擠過(guò)一個(gè)很小的納米孔而讀取其中每個(gè) DNA 堿基。這一技術(shù)讓大大縮小了讀取設(shè)備的空間開(kāi)支,一個(gè)手掌大小的 USB 設(shè)備就能進(jìn)行讀取,但讀取速度在每秒幾KB左右,可以說(shuō)仍然相當(dāng)慢。
2019年3月,微軟團(tuán)隊(duì)在《自然》雜志發(fā)表一項(xiàng)新的進(jìn)展,他們開(kāi)發(fā)了世界上第一個(gè)自動(dòng)DNA存儲(chǔ)介質(zhì)。相比較于手動(dòng)操作進(jìn)行DNA的合成和測(cè)序,能夠自動(dòng)化方式進(jìn)行DNA編解碼才是未來(lái)商業(yè)化的出路。
另外,關(guān)于DNA存儲(chǔ)和讀取時(shí)長(zhǎng)以及成本的問(wèn)題,一家2016年成立的美國(guó)初創(chuàng)公司Catalog也正試圖嘗試解決。
去年,Catalog將一共16G的維基百科英文版文本存儲(chǔ)在了一個(gè)DNA分子上。他們使用了一臺(tái)DNA書(shū)寫(xiě)器設(shè)備,以4Mbps的速度在DNA中記錄這些數(shù)據(jù)。這意味著在一天內(nèi)可以記錄125GB,大約相當(dāng)于高端手機(jī)可以存儲(chǔ)的容量。這一速度已經(jīng)是之前研究所存儲(chǔ)速度的三倍。
目前,Catalog使用了由20到30個(gè)堿基對(duì)長(zhǎng)預(yù)制合成DNA鏈,通過(guò)酶嵌套在一起,可以存儲(chǔ)更多的數(shù)據(jù)。這些片段的排列就像英語(yǔ)使用26個(gè)字母一樣,理論上可以創(chuàng)造出無(wú)數(shù)的組合。據(jù)Catalog估計(jì),未來(lái)進(jìn)行1MB數(shù)據(jù)DNA存儲(chǔ)成本將不到0.001美分。
當(dāng)然,如果未來(lái)這家創(chuàng)業(yè)公司真的能夠?qū)⒊杀敬蠓迪聛?lái),那么確實(shí)有可能為DNA數(shù)據(jù)存儲(chǔ)的商業(yè)化鋪平道路。
在2019年,《科學(xué)美國(guó)人》與世界經(jīng)濟(jì)論壇聯(lián)合發(fā)布的當(dāng)年全球十大新興技術(shù)中, DNA數(shù)據(jù)儲(chǔ)存技術(shù)名列其中。
可以預(yù)見(jiàn),磁存儲(chǔ)和光存儲(chǔ)方式在未來(lái)一段時(shí)間仍將占據(jù)數(shù)據(jù)存儲(chǔ)方式的主流。不過(guò),即使我們不會(huì)出現(xiàn)地球末日這種極端情況,因?yàn)榻鼛啄陻?shù)據(jù)激增,人類(lèi)也正面臨數(shù)據(jù)存儲(chǔ)空間不足的嚴(yán)峻問(wèn)題。同時(shí),數(shù)據(jù)存儲(chǔ)需求激增,帶來(lái)的是硅晶片使用量的激增,以及由此引發(fā)的環(huán)境污染問(wèn)題、水資源和能源消耗等問(wèn)題。
DNA存儲(chǔ)技術(shù)的實(shí)現(xiàn),一定程度將緩解傳統(tǒng)存儲(chǔ)的容量問(wèn)題,并大幅減少電子元件和能源的消耗。
當(dāng)然,在存取技術(shù)上和成本控制上,DNA存儲(chǔ)為代表的碳基存儲(chǔ)方式還有很長(zhǎng)的道路要走,但隨著商業(yè)化的進(jìn)展,其規(guī)模普及速度也會(huì)加快。從數(shù)據(jù)存儲(chǔ)的歷史來(lái)看,存儲(chǔ)媒介的變化是一個(gè)不斷變化且加速的過(guò)程,DNA存儲(chǔ)也應(yīng)該成為我國(guó)關(guān)注和研究的技術(shù)方向。
-
光存儲(chǔ)
+關(guān)注
關(guān)注
0文章
21瀏覽量
9743 -
DNA存儲(chǔ)
+關(guān)注
關(guān)注
0文章
13瀏覽量
8179
原文標(biāo)題:DNA存儲(chǔ),拯救人類(lèi)數(shù)據(jù)危機(jī)的良方?
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論