免费无码成年片在线观看_国产720lu刺激在线_亚洲3dh5码精品成人_久热国产vs视频在线看_国产在线视频麻豆第一页_国产成人久久A免费观看_国产女人高清视频在线_国产孕妇视频在线播放_在线不卡一区二区三区视频_国产亚洲精品AA级在线

用一公斤DNA代替你的硬盤,靠譜嗎?

誠(chéng)然,進(jìn)入21世紀(jì)之后,這個(gè)世界的數(shù)據(jù)增長(zhǎng)速度太快了,數(shù)據(jù)量級(jí)越來越大,按照現(xiàn)有發(fā)展速度傳統(tǒng)硅基存儲(chǔ)介質(zhì)是否還能撐住,就成為了許多人關(guān)心的一個(gè)問題

用一公斤DNA代替你的硬盤,靠譜嗎?

最近關(guān)于DNA存儲(chǔ)的文章刷屏了,消息源于今年2月19號(hào)華盛頓大學(xué)和微軟研究院合作在《Nature biotechnology》上發(fā)表的一篇有關(guān)DNA存儲(chǔ)的研究成果。對(duì)此我想發(fā)表一點(diǎn)自己的觀點(diǎn),受限于我的認(rèn)知,僅當(dāng)是拋磚引玉了。

 

誠(chéng)然,進(jìn)入21世紀(jì)之后,這個(gè)世界的數(shù)據(jù)增長(zhǎng)速度太快了,數(shù)據(jù)量級(jí)越來越大,按照現(xiàn)有發(fā)展速度傳統(tǒng)硅基存儲(chǔ)介質(zhì)是否還能撐住,就成為了許多人關(guān)心的一個(gè)問題,大家都在探討是否會(huì)有枯竭的那一天,如果枯竭了我們還能用什么東西來存儲(chǔ)我們的數(shù)據(jù)。于是存儲(chǔ)生命遺傳密碼的介質(zhì)——DNA就成了一個(gè)非常有希望的選項(xiàng)。

 

基因是怎么與二進(jìn)制聯(lián)系起來的?

 

在談?wù)撐覀兊脑掝}之前,先來了解一下DNA是如何存儲(chǔ)數(shù)據(jù)的。

 

 

原理本身并不復(fù)雜。

 

我們知道,計(jì)算機(jī)上存儲(chǔ)的數(shù)據(jù)都是依據(jù)電壓的高和低代表1和0來表示的,每一個(gè)數(shù)字、字符和標(biāo)點(diǎn)符號(hào)都由唯一的一串01組合來構(gòu)成。比如小寫字母“e”的代碼是:01100101,因此,任何數(shù)字化的內(nèi)容(視頻,音頻,圖片,文字)本質(zhì)上都只是一串串的0和1而已。

 

DNA存儲(chǔ)的原理示意圖,首先把英文字母轉(zhuǎn)變成對(duì)應(yīng)的01串,然后把這個(gè)0和1的數(shù)據(jù)串轉(zhuǎn)變成由堿基A、C、G、T表示的DNA序列;編碼的時(shí)候就是合成這個(gè)序列,解碼的時(shí)候測(cè)序解讀(圖片來自Science)

 

那么,DNA的存儲(chǔ)原理實(shí)際上就是把原本這些用0和1來表示的內(nèi)容,換成用堿基:A,C,G,T來表示,這是一個(gè)從數(shù)字信號(hào)到化學(xué)信號(hào)的過程。而且由于堿基有四個(gè),相比起原本的0和1,我們可以用來多表示兩個(gè)狀態(tài),比如,我們可以假設(shè)用A代表00,C代表01,G代表10,T代表11。一個(gè)本來要用8bit代表的字符用DNA編碼的話,只需要用4個(gè)化學(xué)堿基,比如上面的小寫字符“e”編碼成為DNA序列就是:CGCC。

 

下圖是哈佛大學(xué)醫(yī)學(xué)院兩年前做的一個(gè)事情,他們第一次利用這樣的技術(shù)把這一張“奔跑的駿馬”的Gif放進(jìn)了活大腸桿菌的DNA里,而且還能重新測(cè)序并解碼出來。

 

原始影像(左)和從DNA中提取還原的gif(右),除了部分稍有模糊,準(zhǔn)確度達(dá)90%左右。

 

2016年的時(shí)候,華盛頓大學(xué)和微軟研究院的團(tuán)隊(duì)(本次NBT的成果的團(tuán)隊(duì)),他們更進(jìn)了一步,把莎士比亞的十四行詩、馬丁·路德·金的演講原聲、醫(yī)學(xué)論文等資料共計(jì)739KB的數(shù)據(jù)編碼成了DNA序列,并存儲(chǔ)起來,這個(gè)技術(shù)以此為標(biāo)記取得了巨大的進(jìn)步。

 

 

DNA存儲(chǔ)結(jié)構(gòu)和磁盤不同,它存儲(chǔ)的密度極高,1克的DNA就能夠存下天量的信息,如果要存下當(dāng)前全世界的所有數(shù)據(jù),更是只需要1千克左右的DNA就足夠了!不需要成千上萬個(gè)阿里巴巴或者AWS的數(shù)據(jù)中心,看起來還更加經(jīng)濟(jì)實(shí)惠,貌似一切都很美好……

 

但是,凡事就怕這個(gè)但是。

 

 

DNA存儲(chǔ)面臨的問題

 

目前DNA存儲(chǔ)要發(fā)展成為真正具有實(shí)際應(yīng)用價(jià)值的東西,至少還需要解決以下幾個(gè)問題:

 

合成成本高

 

DNA要存儲(chǔ)信息,首先要做的就是依據(jù)信息合成DNA序列。那么現(xiàn)在的合成成本是多少呢?大約0.5美元~1.0美元一個(gè)堿基!也就是說存儲(chǔ)2bit(一個(gè)堿基)的數(shù)據(jù)需要花費(fèi)大約5元~10元人民幣。

 

按照目前的信息存儲(chǔ)技術(shù),一般是8bit為一個(gè)字節(jié)(Byte),2個(gè)字節(jié)(Byte)才代表一個(gè)字符——也就是說8個(gè)堿基可以編碼一個(gè)字符,那么你看看,要存儲(chǔ)200MB的數(shù)據(jù)需要花費(fèi)100百萬~200百萬美元(1億~2億美元)的巨資——而200MB的大小的文件還不夠一個(gè)長(zhǎng)一點(diǎn)的短視頻大?。「螞r現(xiàn)在動(dòng)不動(dòng)就幾個(gè)GB的電影呢。

 

因此,堿基合成的成本是第一個(gè)需要解決的難題。如果成本無法降低一百萬倍,那么無法進(jìn)入實(shí)用環(huán)節(jié),而如果不能降低幾億倍甚至幾十億倍,那么我認(rèn)為這個(gè)技術(shù)將很難被大規(guī)模使用。

 

合成速度慢

 

這個(gè)問題可能更要命。我們現(xiàn)在磁盤的存儲(chǔ)速度是多快呢?磁盤的讀寫畢竟是電磁信號(hào),信息狀態(tài)的改變是以光的速度在發(fā)生的——當(dāng)然磁盤在讀寫數(shù)據(jù)的時(shí)候需要進(jìn)行非常多的定位、查詢、比較、校驗(yàn)等一系列復(fù)雜的操作,因此遠(yuǎn)低于光速。然而即便如此,目前普通的SSD硬盤讀寫速度也有300MB/s~500MB/s,差一些的高速硬盤也在100MB/s左右!

 

而DNA的合成速度有多快呢?DNA的合成依賴于一系列的化學(xué)反應(yīng),大腸桿菌的DNA(合成)復(fù)制速度大約是1000堿基/秒,看起來很快了,但它的速度在電磁面前根本不值一提,我們可以算一下合成200MB的數(shù)據(jù)需要多久呢?200×1024×1024×8 /1000/86400=19 天!也就是說現(xiàn)在磁盤1秒鐘寫入的數(shù)據(jù),我們大約需要花差不多三周的時(shí)間才能完成!

 

這是什么概念?據(jù)統(tǒng)計(jì)截至2017年全球數(shù)據(jù)大約有16 ZB(澤字節(jié),每澤字節(jié)為10萬億億字節(jié),僅指數(shù)字化的數(shù)據(jù)),那么假設(shè)我們要把這個(gè)量級(jí)的數(shù)據(jù)存到DNA中,大概要花多長(zhǎng)時(shí)間?我斗膽計(jì)算了一下,發(fā)現(xiàn)竟然需要40億年!40億年啊,同志們,地球才多老?。?/strong>這還是在不考慮數(shù)據(jù)校驗(yàn)的狀態(tài)下。

 

 

更有甚者,據(jù)說到了2020年,全球數(shù)據(jù)更是要達(dá)到驚人的44ZB的量級(jí)!當(dāng)然,上面的結(jié)果是在單個(gè)反應(yīng)下的合成速度,事實(shí)上,我們可以讓全世界成千上萬的實(shí)驗(yàn)室或者機(jī)構(gòu)一起來做,同時(shí)隨著技術(shù)的發(fā)展可以設(shè)計(jì)出DNA大規(guī)模并行合成技術(shù),就如同大規(guī)模并行測(cè)序一般,通過工程上的規(guī)?;瘡浹a(bǔ)先天的缺陷,將速度提高幾百萬到幾億倍。

 

但這對(duì)合成的技術(shù)就提出了更高的要求,因?yàn)?strong>這個(gè)過程不可避免的會(huì)導(dǎo)致我們放棄數(shù)據(jù)原有的連續(xù)性,那么該如何把這些打散的數(shù)據(jù)在讀取的時(shí)候重新正確地組合到一起也將成一個(gè)重要的問題。除此之外,還有實(shí)時(shí)合成記錄的問題呢。

 

數(shù)據(jù)讀取無法實(shí)時(shí)

 

DNA存儲(chǔ)的數(shù)據(jù)要讀取出來目前是通過測(cè)序這條路。雖然相比于DNA合成,測(cè)序的問題小了很多。按照當(dāng)前最新的測(cè)序技術(shù)——一臺(tái)NovaSeq測(cè)序儀基本上能夠在兩天的時(shí)間內(nèi)完成3Tb~6Tb數(shù)據(jù)的解碼。成本相比于DNA合成也基本低了一百萬倍左右。即便如此,真要實(shí)用,依然有許多問題必須解決。

 

比如我們?cè)诳措娪暗臅r(shí)候,你不會(huì)真的希望對(duì)著一臺(tái)測(cè)序儀看吧,另外刷微信、微博、頭條、知乎等的操作是多么頻繁和快速,DNA解碼要如何做到實(shí)時(shí)并且保障信息的可逆回滾,挑戰(zhàn)不小啊(中間通過磁盤來緩存嗎?)

 

數(shù)據(jù)隨機(jī)讀取仍需進(jìn)一步解決

 

所謂隨機(jī)讀取數(shù)據(jù)的意思就是:我想打開哪一份文件就打開哪一份,并且我想讀取其中的哪一段就讀取哪一段,而且這個(gè)操作必須要在很短的時(shí)間內(nèi)實(shí)現(xiàn)。這對(duì)于存儲(chǔ)在DNA中的數(shù)據(jù)文件來說要如何才能夠做到?

 

 

2月19日,華盛頓大學(xué)和微軟研究院合作發(fā)表在《Nature biotechnology》上的這篇文章“Random access in large-scale DNA data storage”,就是為了解決這一個(gè)問題。它最大的突破是設(shè)計(jì)了一種辦法來解決這個(gè)隨機(jī)讀取的問題——文章的標(biāo)題也能夠看出來。他們把35份相互獨(dú)立的數(shù)據(jù)文件(大小約200MB)合成為DNA序列存儲(chǔ)起來,并且精心設(shè)計(jì)特定的引物(primer,即引子,是一小段單鏈DNA或RNA,作為DNA復(fù)制的起始點(diǎn)),標(biāo)記每一個(gè)文件在DNA序列上的地址(如同硬盤的存儲(chǔ)路徑一樣)這個(gè)時(shí)候,當(dāng)我們要重新讀取這些數(shù)據(jù)的時(shí)候能夠按照需要快速跳到特定某份文件的位置上進(jìn)行測(cè)讀。

 

比如我們想要獲取第10份文件上的內(nèi)容,如果放在從前,我們只能全部測(cè)序了才能得到,但是借助這個(gè)技術(shù),我們可以直接跳到這份文件所在的位置上,把它測(cè)讀出來。

 

雖然這個(gè)技術(shù)已經(jīng)做到了這一步,應(yīng)該說取得了不小的進(jìn)步,但也應(yīng)該清晰地認(rèn)識(shí)到它距離真正應(yīng)用還有不小的距離。另外,依我愚見,這個(gè)方案也還有不完美的地方:

 

  • 第一,定位精細(xì)度不夠,雖然可以定位到特定的文件,但還不能夠?qū)崿F(xiàn)在文件內(nèi)部的隨意跳轉(zhuǎn),更加不能檢索;

  •  

  • 第二,效率還是太低了,而且為了保證信息的準(zhǔn)確,還得進(jìn)行較高深度的測(cè)序,并需要進(jìn)行序列組裝。雖然說測(cè)序速度在提高,但若做不到實(shí)時(shí),應(yīng)用價(jià)值依然是大打折扣;

  •  

  • 第三,靈活性有待商酌,引物需要精心設(shè)計(jì),這次是35份,如果是350份或者更多呢?當(dāng)我們合成了很多份這樣的序列之后,如何保存才能保證測(cè)讀的時(shí)候,不會(huì)因?yàn)橄嗤锏膯栴}而導(dǎo)致測(cè)讀不準(zhǔn)確?

 

DNA存儲(chǔ)技術(shù)會(huì)顛覆現(xiàn)有的計(jì)算機(jī)存儲(chǔ)技術(shù)嗎?

 

我認(rèn)為不會(huì),即便DNA存儲(chǔ)技術(shù)成熟了,兩者也將一直共存,直到被其他的介質(zhì)代替了。DNA存和讀的效率遠(yuǎn)不及磁盤的速度,這是自然原理所決定的,一時(shí)半會(huì)無法解決,但它對(duì)數(shù)據(jù)保存的耐久性卻很好。

 

因此,DNA存儲(chǔ)更可能的是替代磁帶存儲(chǔ),把不需要經(jīng)常使用的“冷”數(shù)據(jù)歸檔保存,把重要的數(shù)據(jù)進(jìn)行冷存?zhèn)浞?,而且鑒于DNA本身體積小、幾乎不耗電的特點(diǎn)、保存也方便,確實(shí)可以節(jié)省很多的社會(huì)資源。

 

小結(jié)

當(dāng)然,我不是DNA合成領(lǐng)域的專家,寫這一篇文章不是為了抨擊DNA存儲(chǔ)的成果,相反,我非常認(rèn)同DNA存儲(chǔ)技術(shù)的發(fā)展,更希望看到它在未來的應(yīng)用。

 

但我也很謹(jǐn)慎,會(huì)想這是否真的是最好的方法。我們說DNA對(duì)數(shù)據(jù)存儲(chǔ)的密度遠(yuǎn)高于現(xiàn)在的磁盤,但如果我們能夠操縱原子的量子狀態(tài),利用原子的量子狀態(tài)(比如:自旋)存儲(chǔ)數(shù)據(jù)那樣密度豈不是更高?而且還不會(huì)有速度限制上的問題。

 

有些媒體的盲目夸大,甚至罔顧事實(shí),一旦發(fā)現(xiàn)一個(gè)新東西就總覺得它是萬能的,總認(rèn)為它將如何“顛覆”一切等諸如此類的言論。過分的夸大甚至曲解對(duì)于科學(xué)技術(shù)的發(fā)展不是好事,也不能引導(dǎo)公眾對(duì)其做出客觀的判斷。技術(shù)的發(fā)展有其自身的規(guī)律性,該到它顛覆一切的時(shí)候,不用說也會(huì)自然發(fā)生,現(xiàn)在就耐心看它長(zhǎng)大。


本文作者解螺旋的礦工
原文鏈接https://www.huxiu.com/article/234522.html

? 2017 Coolsite360-上海意派 All Rights Reserved.