合成DNA作為一種高密度數(shù)據(jù)存儲介質(zhì),多年來一直吸引著數(shù)字未來學(xué)家。整個(gè)互聯(lián)網(wǎng)可以被編碼成鞋盒大小的DNA鏈,而DNA分子非常穩(wěn)定,可以持續(xù)數(shù)萬年甚至幾十萬年。例如,2013年,科學(xué)家們對一具70萬年前的馬化石的整個(gè)基因組進(jìn)行了測序。
一旦儲存起來,DNA幾乎不需要任何維護(hù)。畢竟,化石在地下生活了數(shù)百萬年后仍然保存著DNA序列。DNA存儲也不需要任何能量--在有人決定訪問它之前,只需要一個(gè)涼爽、黑暗的地方就可以了。
然而,將一種數(shù)據(jù)格式轉(zhuǎn)換為另一種格式并不簡單。德克薩斯大學(xué)奧斯汀分校(University Of Texas At Austin)的研究團(tuán)隊(duì)提出了一種在DNA鏈中存儲信息的方法,同時(shí)也糾正了錯(cuò)誤。他們開創(chuàng)了一套DNA數(shù)據(jù)編碼和解碼算法,可能會開創(chuàng)高密度、長期數(shù)據(jù)存儲的新領(lǐng)域。
其工作讓人想起了開創(chuàng)量子密碼技術(shù)領(lǐng)域的里程碑式的BB84 protocol,有朝一日,它將成為基因組數(shù)據(jù)存儲應(yīng)用領(lǐng)域的基礎(chǔ),而基因組數(shù)據(jù)存儲應(yīng)用是以每克千兆字節(jié)為單位重新想象而來的。
Stephen Jones是Press所在小組的博士后,也是《美國科學(xué)院院刊》(Proceedings of the National Academy of Sciences)論文的合著者,他說,最好從了解數(shù)據(jù)存儲錯(cuò)誤通常在哪里蔓延開始。
像所有的數(shù)據(jù)存儲方法一樣,DNA也有一些缺點(diǎn)。最重要的前期障礙是成本。除此之外,DNA也容易出錯(cuò)?;叵胍幌陆M成DNA階梯的四個(gè)核苷酸堿基。平均而言,DNA在每100到1000個(gè)核苷酸中會引入一個(gè)錯(cuò)誤。它們可以采取三種形式:替換、插入和刪除。
在替換突變中,一串核苷酸中的一個(gè)字母可能會被換成另一個(gè),DNA鏈的長度保持不變。然而,在插入或缺失時(shí),DNA會獲得一個(gè)額外的核苷酸堿基,或者移除一個(gè)堿基。但與計(jì)算機(jī)代碼中的錯(cuò)誤不同的是,在移除的堿基曾經(jīng)居住的地方?jīng)]有留下任何空間,當(dāng)你去解碼存儲在DNA中的數(shù)據(jù)時(shí),這可能很快就會出現(xiàn)問題。
事實(shí)上,DNA數(shù)據(jù)存儲的相對性質(zhì)是Press,Jones和合著者的HEDGESprotocol的關(guān)鍵。他們的研究方案中沒有一個(gè)單獨(dú)的核苷酸包含有用的數(shù)據(jù)。相反,正是核苷酸序列的積累提供了一個(gè)強(qiáng)大的存儲系統(tǒng),他們預(yù)測這個(gè)系統(tǒng)可以實(shí)現(xiàn)DNA的高密度潛力,同時(shí)還能經(jīng)久不衰。
研究小組使用了L. Frank Baum的The Wizard of Oz,并將其翻譯成世界語,作為他們要存儲的樣本數(shù)據(jù)集。Jones說,現(xiàn)在合成的DNA通常是由大約100對堿基組成的。這就是他們的“硬盤”的基礎(chǔ)。
因此,他們的研究方案需要能夠被分割成數(shù)千或數(shù)百萬的幾百個(gè)核苷酸序列,每一個(gè)序列都包含重組源文本所需的信息,即使存在未知數(shù)量的替換、插入和刪除錯(cuò)誤。
然后,將The Wizard of Oz編碼成DNA,涉及到通過“外部”編碼層和“內(nèi)部”編碼層傳遞數(shù)據(jù)。(將這些步驟看作是復(fù)雜密碼標(biāo)準(zhǔn)中的兩個(gè)獨(dú)立算法。)
外層將源數(shù)據(jù)對角化,這樣任何給定的DNA鏈都將包含信息許多部分的碎片。內(nèi)層,即模糊限制,然后根據(jù)一種算法將每一位轉(zhuǎn)換成A、C、T或G,該算法既依賴于該位的零或一個(gè)值,又取決于它在數(shù)據(jù)流中的位置的附加信息,以及它前面的數(shù)據(jù)位。
然后,一旦Oz被翻譯成核苷酸的語言,它就可以被寫在合成的DNA鏈上了。
“我把DNA打得粉碎,”Jones表示,“它顯示了DNA是多么強(qiáng)大?!睆腄NA存儲器中解碼數(shù)據(jù)需要首先對the Wizard of Oz的基因組進(jìn)行測序,然后將這些遺傳數(shù)據(jù)轉(zhuǎn)換回位。一旦他們弄清楚哪些位是“address”位,他們就可以將剩余的信息位串回到一個(gè)單獨(dú)的、連接的數(shù)據(jù)文件中。
博士后研究員、合著者John Hawkins表示,“展望未來,基于DNA的存儲的潛力幾乎是無限的。他提出了一種未來的愿景,在那里,用數(shù)據(jù)編碼的DNA可以被合并到其他材料中?!?/p>
即使團(tuán)隊(duì)已經(jīng)取得了突破,但基于DNA的數(shù)字存儲還需要一段時(shí)間。研究人員表示,“數(shù)據(jù)能否保存到未來只是問題的一半。你還需要在另一端能夠閱讀。只要人類是由DNA構(gòu)成的,我們就會一直希望周圍的機(jī)器能夠讀取DNA。但我不認(rèn)為它會在十年或更長時(shí)間內(nèi)可成為大眾市場產(chǎn)品?!?/p>
-
算法
+關(guān)注
關(guān)注
23文章
4588瀏覽量
92505 -
數(shù)據(jù)存儲
+關(guān)注
關(guān)注
5文章
959瀏覽量
50836 -
DNA
+關(guān)注
關(guān)注
0文章
242瀏覽量
30975
原文標(biāo)題:科學(xué)家為何將“The Wizard of Oz”儲存在DNA中
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論