DNA里能裝什麼?一部電影、一個病毒、一張禮品卡

這是一種永不過時的存儲手段。

1895年,盧米埃爾兄弟公司(Lumiere Brothers)作為史上最早的製片公司之一,推出了全長只有50秒黑白無聲電影短片《火車進站》。片中,一列火車緩緩駛入人頭攢動的站台,被後世奉為劃時代的標誌。當時的一位觀眾描述稱,這個例子有力地展現了「動態攝影」的魅力。時隔122年,《火車進站》又一次站到時代前沿,成為最早被存入DNA的影片之一。

紐約基因組中心和哥倫比亞大學的亞尼夫·埃利希(Yaniv Erlich)和迪娜·傑林斯基(Dina Zielinski)通過編碼,將該影片存到了DNA里。同時被編入那著名的雙螺旋結構的,還有一個計算機操作系統、一張照片、一份科學論文、一個計算機病毒,外加一張亞馬遜禮品卡。

DNA是史上最強的存儲媒介?

時下,一個1TB硬碟的重量大約有150克。而使用DNA,埃利希和傑林斯基可以在1克的DNA中,裝下21.5萬倍於此的數據。哪怕將全世界所有的數據都編入DNA,那也占不了多大地方,一個汽車後備箱就足夠了。

用DNA存儲信息並不是什麼新奇之事:生命存在了多久,這個過程就進行了多久。這種分子的外形類似螺旋盤繞的樓梯,基本組成結構是四個鹼基,分別為:腺嘌呤(A)、胞嘧啶(C)、鳥嘌呤(G)、胸腺嘧啶(T)。構建地球上所有生命的指令全都時通過這些鹼基的排序編寫出來來。只要能將數字數據中的0和1轉化為這四個字母,你就能用DNA編碼幾乎任何東西。

為何科學家要多此一舉,用DNA來存儲數據?

因為它擁有其他存儲介質所不具備的優勢。

DNA不佔空間,而且,只要是在乾冷、黑暗的環境下,它就能夠長久保存。

猛獁象早在幾千年前就滅絕了,但我們照樣能提取它們的DNA,並加以測序。最重要的是,它那37億年的履歷足以證明一切。木簡、紙張、磁帶、軟盤、光碟、內存晶元……人類發明的每一種存儲介質,最終都無法逃避過時的命運。但DNA永遠不會過時。在生命活動中,它所扮演的角色如此重要,生物學家無論如何都不會棄之不顧。測序技術會持續改進,但測序工作用不會終止。

2011年,哈佛大學的喬治·徹奇(George Church)投身DNA存儲領域。他在DNA內編入了他剛出版的新書、一些圖片和一個用Javascript編寫的程序。一年之後,歐洲生物信息研究所的尼克·戈德曼(Nick Goldman)和伊萬·伯尼(Ewan Birney)使用了更加複雜的編碼系統,在徹奇的研究基礎上更進一步。他們編碼的內容包括:莎士比亞的所有十四行詩,馬丁·路德·金《我有一個夢想》演講的錄音片段,還有詹姆斯·沃森(James Watson)和弗朗西斯·克里克(Francis Crick)有關DNA雙螺旋結構的論文(PDF版),還有他們研究所的一張照片,這些通通裝進了一小點DNA里。而它究竟有多小呢?當初,這些DNA被裝在試管里送來時,戈德曼都沒找著。還以為試管是空的。

真的好用?

不過有一個問題:DNA編碼只能小段小段地進行。若有一大批數據需要編碼,你就得先分段合成,得到一大堆亂糟糟的DNA片段,再拼合起來。這就很難保證片段一個都不少,所以說,這樣做存在丟失數據的風險。

為克服這個難題,戈德曼和伯尼創造了一種重疊式代碼,每部分數據至少編寫四份DNA。就算其中一份丟失,還有三份作為備份。方法不錯,但效率欠佳,而且也並不是萬無一失:團隊在嘗試恢復文件時,就遇到不少出錯的情況。「當時我就想,一定還有比這更高效、更可靠的辦法。」

巧合的是,Netflix和Spotify也面臨相似的問題。這些流媒體服務提供商要讓數據穿越波濤洶湧的網路,片段丟失的情況在所難免,但最後必須天衣無縫地進行恢復。解決辦法是採用「噴泉碼」,即將數據分割成一個個小包,並達到這樣一種效果:即便只抓到一個隨機子集,你也能恢復出整體數據。不論丟失的是哪些部分,只要抓到的小包數量夠多,你就能重構出整個文件。埃里希將其比作大型數獨遊戲——你只要填出其中一些格子,就能推測出其他格子里的數字。

兩人採用噴泉碼,開發了一種新的解碼器,效率較之前提高了60%,逼近DNA信息存儲密度的上限。「我們離最優配置只有幾步之遙。」埃里希說。

採用這個「DNA 噴泉碼」系統,他們編碼了這樣一堆內容:影片《火車進站》、目前最小的計算機操作系統KolibriOS、先驅者10號和11號探測器發回的太空照片、一篇探討特定介質最大信息存儲量的科學論文,一個名為「壓縮炸彈」(Zipbomb)的病毒,以及一張價值50美元的亞馬遜禮品卡。

以上內容形成7.2萬個DNA片段,經測序、解碼,最後重組起來。其間有2000個片段丟失,但文件還是被完整復原了。

DNA存儲還有另一個缺陷:測序過程會破壞DNA鏈,所以,讀取次數越多,損耗就越嚴重,直至消失。「我女兒超喜歡《冰雪奇緣》。」埃里希說。「我們要是存了那首該死的《Let it Go》,那不出一個禮拜,我們的DNA就得消耗殆盡。」好在,DNA就是用來複制的,也很容易複製,所以,將一大堆DNA編碼的數據備個份,並不算什麼麻煩事兒。只是每次複製都可能引入錯誤:副本的副本很少有和原版完全一致的。但DNA噴泉碼不同,它對錯誤有著極強的免疫力,在複製了十代之後,傑林斯基仍然得以將文件恢復如初。

「這項工作很不錯,」伯尼說,它證明了,DNA存儲「是經得起考驗的」。他正和戈德曼一道,致力於開發改進版的編碼方案,以期在不久的未來,能測試並發布這種方案。微軟也對DNA的數據存儲潛力抱有極大興趣。去年7月,微軟研究員卡琳·斯特勞斯(Karin Strauss)和華盛頓大學計算機科學家路易斯·恩里克·西斯(Luis Henrique Ceze)合作,在DNA中存儲了200MB的數據,創下紀錄。「我們對DNA存儲的密度優勢深信不疑。我們正努力改進存儲性能與系統設計,使之更適合存儲。」他們說。

還只有少數人玩得起

DNA存儲要變成主流,就得進一步降價。當前,DNA測序還很昂貴,合成就更是價格不菲。2012年,伯尼和戈德曼的研究發布時,編碼1MB的數據要耗費1.24萬美元。如今,這個費用已降至3500美元。但即便成本持續壓縮,DNA合成仍屬於小眾活動,只有專門服務研究實驗室的少數幾家機構承接。目前,全世界的DNA合成能力加起來,還不夠編碼1TB的數據。

但埃里希預計,在證明DNA是未來存儲介質的過程中,這種狀況會發生改變。「最早的硬碟需要四個人一起扛。」他說。「經過幾十年的廣泛研發,到現在,一個拇指大小的快閃記憶體就搞定了。我希望,通過改進方法,我們能讓DNA存儲的潛力得到充分發揮。」

翻譯:雁行

來源:The Atlantic

推薦閱讀:

蘑菇的儲存方法?

TAG:互聯網 | 生物技術 | 儲存 |