DNA 存儲(chǔ)是由DNA 高通量合成與測(cè)序技術(shù)催生的信息與生物相融合的新領(lǐng)域,通過DNA 分子的堿基序列直接編碼數(shù)字信息,由高通量合成技術(shù)合成序列進(jìn)行信息寫入,并利用高通量測(cè)序技術(shù)實(shí)現(xiàn)信息的讀取,以實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)的信息還原。DNA 存儲(chǔ)的編解碼,是DNA 存儲(chǔ)中最重要的環(huán)節(jié)之一,直接影響了存儲(chǔ)信息的穩(wěn)定性及可靠恢復(fù)性。直接套用的信道編碼技術(shù)有較強(qiáng)的數(shù)據(jù)類型偏好性,因此在實(shí)際的存儲(chǔ)應(yīng)用中存在較高的數(shù)據(jù)無法恢復(fù)的風(fēng)險(xiǎn)。
近日,深圳華大生命科學(xué)研究院研究團(tuán)隊(duì)在《Nature Computational Science》上發(fā)表了題為“Towards Practical and Robust DNA- Based Data Archiving Using‘Yin-Yang Co? dec’System”的研究論文,提出了一套DNA 信息存儲(chǔ)專用的比特-堿基編解碼系統(tǒng)。
研究團(tuán)隊(duì)從DNA 雙鏈模型中受到啟發(fā),結(jié)合中華文化中“陰陽”對(duì)立統(tǒng)一的思想,將其巧妙應(yīng)用到DNA 編解碼系統(tǒng)當(dāng)中,以兩套不同的規(guī)則,分別對(duì)兩條二進(jìn)制信息進(jìn)行“一對(duì)一”編譯轉(zhuǎn)換,再取兩者統(tǒng)一交集的部分為最終解,實(shí)現(xiàn)將兩條獨(dú)立的信息組合統(tǒng)一為一串DNA序列。同時(shí)引入篩選機(jī)制,將與現(xiàn)有合成測(cè)序技術(shù)兼容性不佳的序列通過預(yù)先設(shè)置的篩選條件進(jìn)行過濾。研究通過編碼學(xué)的理論推導(dǎo)以及不同數(shù)據(jù)類型文件的模擬編碼與實(shí)驗(yàn)驗(yàn)證,證明了該系統(tǒng)在保證信息密度的前提下,在數(shù)據(jù)恢復(fù)穩(wěn)定性與存儲(chǔ)密度方面體現(xiàn)顯著的性能提升,每克 DNA 能存儲(chǔ)的信息量約為432.2 EB。
該研究為DNA 信息存儲(chǔ)的應(yīng)用提供了一種高密度、高穩(wěn)定性的比特-堿基編解碼方法,并完成了體內(nèi)外兩種模式的信息存儲(chǔ)實(shí)驗(yàn)驗(yàn)證;研究開發(fā)了一種全新的DNA 存儲(chǔ)編碼方法,為DNA 存儲(chǔ)的多類型應(yīng)用提供了重要工具,有望在海量數(shù)據(jù)長(zhǎng)期存儲(chǔ)的新型介質(zhì)研究中起到積極的推動(dòng)作用。
(來源:中華人民共和國(guó)科學(xué)技術(shù)部http://www.most.gov.cn2022-05-19)