錢瓏,沈玥,元英進(jìn),歐陽(yáng)頎,楊煥明
生物體具有精妙絕倫的信息系統(tǒng)。2010年,美國(guó)J.Craig Venter研究院將化學(xué)合成的約1 Mb的基因組DNA導(dǎo)入受體細(xì)菌,成功啟動(dòng)了世界首個(gè)“人造生命”辛西婭。這條基因組攜帶有46位科學(xué)家的姓名和一個(gè)專屬郵箱地址,訴說著人類作為造物主,設(shè)計(jì)生命、書寫遺傳密碼的浪漫主義情懷。如今,雖然我們對(duì)基因組的奧秘仍一知半解,將人工信息寫入DNA分子卻已成為觸手可及的技術(shù)現(xiàn)實(shí)。DNA信息存儲(chǔ)從狹義上講,是以線性堿基序列的形式,合成并保存編碼任意數(shù)字信息的DNA分子;從廣義上講,意味著數(shù)字信息與生命信息的物理融合。2018年底,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所、國(guó)際半導(dǎo)體研究聯(lián)盟、美國(guó)情報(bào)高級(jí)研究計(jì)劃局等聯(lián)合發(fā)布《半導(dǎo)體合成生物學(xué)路線圖》;2021年5月,我國(guó)科技部發(fā)布了“十四五”國(guó)家重點(diǎn)研發(fā)計(jì)劃“生物與信息融合”(BT與IT融合)重點(diǎn)專項(xiàng)項(xiàng)目申報(bào)指南。這代表著世界兩大經(jīng)濟(jì)體對(duì)于以DNA存儲(chǔ)為代表的未來顛覆性融合技術(shù)的頂層認(rèn)可。
DNA數(shù)字信息存儲(chǔ)從藝術(shù)嘗試走向技術(shù)現(xiàn)實(shí),依賴的是DNA合成與DNA測(cè)序技術(shù)的跨越式發(fā)展。當(dāng)前,已可以實(shí)現(xiàn)近GB規(guī)模任意格式文件在DNA分子中的穩(wěn)定存儲(chǔ),并可以在幾天內(nèi)對(duì)數(shù)據(jù)進(jìn)行恢復(fù)。如果說初期的DNA存儲(chǔ)僅僅是合成與測(cè)序技術(shù)的附屬品,那么近年來,隨著全球信息量的爆發(fā)式增長(zhǎng)和傳統(tǒng)信息存儲(chǔ)資源告急,DNA存儲(chǔ)的“破局性”價(jià)值得到認(rèn)可,一步跨入了工程化階段。這座工程學(xué)大廈的根基是DNA單堿基分辨率的讀寫技術(shù),經(jīng)歷幾十年更迭的DNA擴(kuò)增、組裝技術(shù),和用于DNA分子封裝的創(chuàng)新材料科學(xué)技術(shù)。DNA存儲(chǔ)的另一支柱是數(shù)字信息的編碼理論;各種通信領(lǐng)域的成熟算法應(yīng)用于DNA存儲(chǔ)的信息壓縮與糾錯(cuò),形成了百家爭(zhēng)鳴的局面。
必須注意的是,DNA存儲(chǔ)并不是已有技術(shù)的生搬硬套。生命系統(tǒng)的信息組織形式與電子信息系統(tǒng)的最大區(qū)別在于其并行本質(zhì)。反應(yīng)體系中的DNA分子在容納海量數(shù)據(jù)的同時(shí),存在著廣泛的冗余和串?dāng)_效應(yīng)。DNA信息的寫入、復(fù)制、分發(fā)、尋址、讀取等操作均是基于擴(kuò)散的并行反應(yīng)。因此,傳統(tǒng)的信息操作方式都需要適配生化體系特點(diǎn);這些研究反過來也將啟發(fā)我們對(duì)于小尺度電子信息系統(tǒng)的認(rèn)知。本刊集結(jié)了國(guó)內(nèi)一線工作者,對(duì)DNA存儲(chǔ)的技術(shù)和理論鏈條中的各個(gè)環(huán)節(jié)進(jìn)行了逐一論述與研究成果的分享。中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院戴俊彪團(tuán)隊(duì)系統(tǒng)總結(jié)了從DNA短片段合成到長(zhǎng)片段組裝的一系列生化方法及其優(yōu)缺點(diǎn),并針對(duì)DNA存儲(chǔ)的需求,提出了全流程聯(lián)合優(yōu)化策略;而東南大學(xué)陸祖宏團(tuán)隊(duì)則聚焦二代高通量DNA合成技術(shù),對(duì)不同工業(yè)實(shí)現(xiàn)方案進(jìn)行了詳細(xì)的橫向比較。天津大學(xué)齊浩團(tuán)隊(duì)針對(duì)DNA寡核苷酸庫(kù)不均一所造成數(shù)據(jù)的缺失問題,介紹了合成、保存和擴(kuò)增等過程中新的生化技術(shù)手段;南方科技大學(xué)蔣興宇團(tuán)隊(duì)則著重綜述了DNA存儲(chǔ)現(xiàn)有的數(shù)據(jù)加密和修改策略,由于寡核苷酸庫(kù)存儲(chǔ)與傳統(tǒng)存儲(chǔ)介質(zhì)的讀寫方式不同,加密和修改需要對(duì)信息本身進(jìn)行預(yù)設(shè)的修飾。在編碼方面,天津大學(xué)陳為剛團(tuán)隊(duì)報(bào)道了自主開發(fā)的適用于染色體長(zhǎng)片段存儲(chǔ)和二代大規(guī)模并行測(cè)序讀取的數(shù)據(jù)編解碼方法,巧妙利用長(zhǎng)片段DNA載體無(wú)需索引和二代測(cè)序極低錯(cuò)誤率的特點(diǎn),實(shí)現(xiàn)了較高的編碼密度。此外,我國(guó)學(xué)者還特別關(guān)注技術(shù)標(biāo)準(zhǔn)評(píng)價(jià)體系的制定,深圳華大生命科學(xué)研究院沈玥團(tuán)隊(duì)報(bào)道了自主搭建的DNA存儲(chǔ)的編解碼算法系統(tǒng)性評(píng)估平臺(tái),用以對(duì)各種算法的文件適配性、存儲(chǔ)穩(wěn)定性和數(shù)據(jù)安全性進(jìn)行全面、定量的對(duì)比評(píng)估。這些工作彰顯了DNA存儲(chǔ)的研究熱度及其廣泛多樣的技術(shù)領(lǐng)域。通過系統(tǒng)梳理全球公開專利,中科院上海生命科學(xué)信息中心熊燕團(tuán)隊(duì)詳細(xì)繪制了過去二十年來DNA合成與信息存儲(chǔ)的技術(shù)發(fā)展歷程,并依此對(duì)該領(lǐng)域的技術(shù)深化與交織進(jìn)行了趨勢(shì)預(yù)測(cè)。
除了當(dāng)前研究熱點(diǎn)所在的寡核苷酸庫(kù)存儲(chǔ),DNA存儲(chǔ)還存在其他極具潛力的實(shí)現(xiàn)方式。在本刊中,天津大學(xué)元英進(jìn)團(tuán)隊(duì)針對(duì)DNA存儲(chǔ)不同實(shí)現(xiàn)方式的特點(diǎn),精彩地將其類比于硬盤、光盤與磁帶三大模式,它們分別對(duì)應(yīng)著從大到小的數(shù)據(jù)規(guī)模和從易到難的操作流程。今年初,元英進(jìn)團(tuán)隊(duì)在《國(guó)家科學(xué)評(píng)論》發(fā)表基于酵母人工染色體的DNA信息存儲(chǔ)工作,為DNA存儲(chǔ)的“光盤”模式書寫上濃重一筆,在本刊中,上海交通大學(xué)樊春海團(tuán)隊(duì)對(duì)此最新成果進(jìn)行了特別評(píng)述。另一值得注意的是近兩年嶄露頭角的“磁帶”模式,即利用基因編輯工具在基因組特定區(qū)段上動(dòng)態(tài)寫入指定信息,磁帶模式可以實(shí)時(shí)記錄發(fā)生在細(xì)胞內(nèi)外的生化事件,是與生命系統(tǒng)聯(lián)結(jié)最緊密的人工信息系統(tǒng)。北京大學(xué)錢瓏團(tuán)隊(duì)在綜述中集中展望了包括基因組動(dòng)態(tài)寫入在內(nèi)的DNA存儲(chǔ)的前沿研究與應(yīng)用方向。這些研究的興起指向了超越信息存儲(chǔ)的下一個(gè)夢(mèng)想:DNA將成為信息系統(tǒng)與生命系統(tǒng)的橋梁,介導(dǎo)以生命為載體的存算一體結(jié)構(gòu),通過工程生物學(xué)手段,使得傳感器、處理器等概念在極低能耗的微小生命單元中得以實(shí)現(xiàn),最終造就基于生命的人工信息系統(tǒng)。
歷經(jīng)造夢(mèng)、追夢(mèng),DNA存儲(chǔ)正向著圓夢(mèng)邁進(jìn)。但它并不會(huì)止步于此,而將不斷創(chuàng)造出新的生物技術(shù)目標(biāo)。這是科學(xué)與工程的交替式前進(jìn),是不同學(xué)科交叉融合、協(xié)同向前的生動(dòng)案例,并且極有可能成為生命系統(tǒng)對(duì)生產(chǎn)力的直接轉(zhuǎn)化的第一個(gè)成熟案例。從DNA存儲(chǔ)到生物智造、細(xì)胞治療,再到腦機(jī)接口,生命系統(tǒng)與信息世界正在分子、細(xì)胞、機(jī)體和高級(jí)意識(shí)的多個(gè)層次上進(jìn)行全面融合。站在生物與信息融合技術(shù)的元年,我們或可從現(xiàn)在的技術(shù)雛形中窺見未來的生活方式。