大數據文摘出品

來源:微軟

編譯:林安安、夏雅薇、周素雲

現代存儲技術已經無法滿足字節的海嘯式增長,但是大自然也許已爲這個難題提供瞭解決方案。

比如,DNA。

上個月,來自微軟和華盛頓大學的研究人員宣佈:以人工合成爲DNA爲載體的存儲和讀取數據的全自動系統研製成功,邁出了該技術從研究實驗室走進商業應用關鍵的一步。

在一次概念驗證測試中,該研究團隊成功地在人工合成的DNA片段中編碼了“hello”一詞,並使用全自動端到端系統將其轉換回數字數據。

其實早在2016年7月,微軟和華盛頓大學的研究人員就已經宣佈,利用DNA存儲技術完成了約200MB數據的保存,相對於當時最大存儲爲739KB的EBI文件來說已經實現了信息存儲了飛躍。

該研究聲稱,如果信息封裝密度像大腸桿菌的基因那麼高,全世界的存儲需求可用1千克的DNA來滿足。

這一結果發佈在當年9月份的《自然(

Nature)

》雜誌上。

兩年多的時間過去了,微軟和華盛頓大學的研究人員又取得了新突破:不僅存儲量翻了5倍——能夠在DNA中存儲1000MB的數據,還實現了從存儲到提取信息的重大突破。也就是說,用DNA存儲數據已經成爲可能。

該研究結果發表在一篇名爲《DNA自動存儲端到端自動化演示》的論文中,並於3月21日出版在Nature Scientific Reports版塊。

論文鏈接:

人工合成DNA存儲

DNA存儲數字信息的空間比目前建造的數據中心要小好幾個數量級。我們每天都在產生海量數據,從商業信息到可愛的動物視頻再到醫學掃描圖像和外太空圖像,因此DNA非常適合用來存儲大規模的數據。

微軟首席研究員Karin Strauss稱:“我們的最終目標是將一個全自動系統投入到實際應用。對終端用戶來說,這類似於雲端存儲服務——將數據上傳到數據中心並存儲在那裏,用戶隨時可以查看並下載雲端數據。要做到這一點,我們首先需要從自動化角度證明這是可用的。”

華盛頓大學的高級研究科學家Chris Takahashi說:“信息存儲在人工合成的DNA分子中(而不是人類或其它生物的DNA分子),並且可以在發送到系統之前進行加密。 雖然這個過程的關鍵部分可以由DNA合成器和DNA測序儀等機器完成,但到目前爲止,許多中間步驟都需要在研究實驗室中進行人工操作,這在實際應用中是很難實現。”

“總不能讓一羣人帶着移液器(一種用於定量轉移液體的小型器具)在數據中心裏四處奔跑,而且移液器在使用過程中容易出現人爲錯誤,成本也很高。”

從信息存儲商業化的角度來看,人們需要降低合成DNA的成本,包括合成存儲信息的DNA雙鏈和提取信息的DNA測序。

自動化是DNA存儲商用關鍵

微軟的研究人員說,自動化是另一個關鍵因素,因爲它可以實現商業級規模的存儲並極大降低成本。

現有的存檔技術在幾十年內將不再適用,而DNA存儲信息的時間要比它長得多。比如說:DNA可以在猛獁象牙和原始人骨骼中存在數萬年。

值得強調的是,這還不是理想的儲存條件。DNA包含的遺傳密碼是通用的,也就是說自然界所有生物共用同一套遺傳密碼,基於此,理論上來說人類可以解讀所有生物的遺傳信息。

DNA是由四個鹼基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鳥嘌呤(G)構建而成的。微軟和華盛頓大學聯合開發了一套DNA數據自動存儲系統,將數字數據的1和0轉換爲構成DNA的A、T、C和G,然後將其它必要反應液注入合成器,合成器就能合成DNA片段並將其推入儲存器。

將1和0 轉換成DNA的A、T、C、G

當系統需要檢索信息時,它會添加其它化學物質來提取所需的DNA,並使用微流體泵將液體推入系統的其它部分。接着“讀取”DNA序列並將其轉換回計算機可以理解的信息。

研究人員表示,研究項目的目標不是要證明系統能夠以多快的速度或多低的成本運作,而只是爲了證明自動化是可行的。

DNA自動化存儲系統的一個直接好處是,它可以讓研究人員從繁複的實驗中掙脫出來,去解決更深層次的問題。

微軟研究員Bichlien Nguyen說:“自動化系統能進行重複性的工作,這使得人們能夠從更宏觀的角度制定新策略,從根本上進行更快的創新。”

分子信息系統實驗室的團隊已經證明DNA可以存儲寵物照片,文學作品,流行視頻和檔案信息,並且在檢索數據的過程中不出錯。

研究人員還開發了一些技術來執行很有意義的計算任務——比如只搜索包含蘋果或綠色自行車的圖像,使用的是DNA分子本身,而不必將文件轉換回數字格式。

華盛頓大學的Luis Ceze教授說:“我們肯定會看到一種新型計算機系統的誕生,人們可以使用DNA分子存儲數據,用電子設備進行控制和處理。將DNA和計算機結合到一起爲未來提供了無限的可能。”

人類的DNA存儲探索

人類對DNA數據存儲能力的探索早已有之。

1988年,藝術家喬?戴維斯與哈佛的學者合作,第一個將數字信號0和1對應到DNA的四個鹼基。他們把DNA序列插入到大腸桿菌裏,僅僅編碼了35個字節。當排列成一個5*7的矩陣時,1對應到暗像素,0對應到亮像素,它們組成了一幅古代日耳曼如尼字母圖畫,代表生命和女性的地球。

現在戴維斯已經加入了丘奇的實驗室,該實驗室2011年起開始探索DNA數據存儲。哈佛團隊希望該應用可以減少合成DNA的高成本,就像基因組學的測序成本已經降低了許多。丘奇與加州大學洛杉磯分校的瑟裏? 庫蘇裏(Sri Kosuri)以及約翰?霍普金斯大學的基因組專家高原(Yuan Gao)於2011年11月實施了概念證明性實驗。

他們的團隊使用了很多短DNA片段編碼了一本丘奇與他人合寫的659KB數據的書。每個片段的一部分用來進行排序後片段組裝順序,剩餘部分用於編碼數據。將數據保存在DNA之中需要將二進制0和1數據轉換爲4種核苷酸,其中0用腺苷酸或胞嘧啶來編碼,而1則用鳥苷酸或胸腺嘧啶。

這種靈活性幫助團隊設計序列,避免測序中高GC區讀取錯誤、重複序列或髮卡結構導致的綁定彼此的片段發生序列摺疊。他們沒有做嚴謹的糾錯,而是依靠每個片段擁有多個拷貝的信息冗餘。結果對片段測序後,他們發現了22個錯誤,大大高於可靠存儲的要求。

同時在EBI,高德曼、伯尼和他們的同事也在使用很多DNA片段來編碼一個739KB的數據存儲,包含一個圖片、ASCII文本、聲音文件和一個PDF版的華生和克里克標誌性的雙螺旋結構。爲了避免重複鹼基和其他來源的錯誤,EBI領導的這個團隊使用了一個更加複雜的系統(見“製作存儲體”)。

一方面是將0和1組成的二進制數據編碼修改成以3個數爲基礎,即0,1和2,然後持續地輪換使用每一個數的代表,因此而避免在讀取數據時序列可能出現的問題。通過利用序列重疊,100個鹼基長度的片段持續位移25個鹼基,EBI的科學家們確保有4個版本的片段來做錯誤檢查和互相比較。

液體轉移DNA難點

與基於硅的計算系統不同,基於DNA的存儲和計算系統必須使用液體來轉移DNA分子。流體本質上與電子不同,這意味着我們需要全新的技術解決方案。

華盛頓大學的團隊與微軟正在合作開發一種可編程系統,利用電和水的特性在電極網格上移動水滴,從而實現實驗自動化。名爲“Puddle”和“PurpleDrop”的一整套軟件和硬件可以混合、分離、加熱或冷卻不同的液體並按標準實驗步驟進行實驗。

MISL團隊下一步要做的是將簡單的端到端自動化系統與PurpleDrop等技術以及能夠使用DNA分子進行搜索的技術相結合。研究人員專門設計了模塊化的自動化系統,使其能夠隨着新的DNA技術的出現而發展。

相關報道:

https://news.microsoft.com/innovation-stories/hello-data-dna-storage/?utm_source=stories&utm_campaign=1385

志願者介紹

點「在看」的人都變好看了哦

相關文章