陳大明,張學博,劉曉,馬悅,2,熊燕,2
(1中國科學院上海生命科學信息中心,中國科學院上海營養(yǎng)與健康研究所,上海 200031;2中國科學院大學,北京 100049)
隨著信息量的指數(shù)式增長,開發(fā)新型的數(shù)據(jù)存儲技術已成為各界關注的焦點。磁芯存儲器在20世紀中期曾用于早期計算機,但由于隨著其體積變小性能會變得不穩(wěn)定,導致后來為半導體存儲品所取代。如今,硅基集成電路已經(jīng)極為常用,但其數(shù)據(jù)存儲密度仍然無法滿足高速增長需求。為此,也有研發(fā)者試圖以紙為基板,在其上集成超小型半導體元件,但其相對于硅基集成電路的改進主要體現(xiàn)在成本和環(huán)保優(yōu)勢方面,仍然無法滿足萬物互聯(lián)時代的高密度、小體積的存儲要求。在人類已研發(fā)的存儲介質(zhì)中,DNA作為存儲介質(zhì)具有高密度、高穩(wěn)定性、高保密性、小體積、易拷貝、可并行訪問、強兼容性的優(yōu)點。
DNA合成和存儲技術涉及生物學、化學、信息科學、機械技術、電子技術、軟件技術等多領域的集成,系統(tǒng)揭示其發(fā)展脈絡及技術譜系,有利于更有效地攻克信息存儲難題。專利文獻集中體現(xiàn)了發(fā)明人的智慧,對其進行系統(tǒng)檢索、鑒別、統(tǒng)計、分析和研究,可以較為完整地厘清全球DNA合成和存儲技術的發(fā)展現(xiàn)狀,分析該領域的主要專利申請人(專利權(quán)人)的技術布局,識別已有的技術路線、未來的發(fā)展?jié)摿Φ取1疚淖髡咴谇捌诤铣缮飳W專利分析[1]基礎上,聚焦DNA合成和存儲技術,綜合利用關鍵詞、國際專利分類、專利權(quán)人、發(fā)明人檢索等方法,檢索并篩選出全球范圍內(nèi)DNA合成和存儲相關的1833件專利(不包括DNA存儲技術所需的基因測序?qū)@?,也不包括專用于診斷、治療等其他應用的DNA合成專利),在逐一閱讀和比對的基礎上,綜合運用專利價值分析、引證分析、聚類分析、技術功效分析等方法從中篩選出具有代表性的專利,以期為該領域的研究開發(fā)、專利布局和運營等決策提供參考。
20世紀50年代,利用磷酸二酯法實現(xiàn)了寡聚二核苷酸的合成[2],在此基礎上不斷完善了寡核苷酸合成方法[3-6]。20世紀80年代開發(fā)的基于亞磷酰胺的DNA合成法[7]為DNA合成儀的創(chuàng)制奠定了基礎。早期的DNA合成,主要用于分子生物學研究,應用范圍相對較窄。21世紀以來,隨著合成生物學的發(fā)展[8],DNA合成受到關注。不過,在21世紀前十年,DNA合成的應用中,面向DNA存儲的專利布局有限。究其原因,早期的柱式合成法不僅成本高[9],而且合成通量較低、合成的錯誤率也較高[10]。為降低DNA合成的成本,研發(fā)人員試圖采用基于微陣列的芯片來合成DNA[11]。在此之前,微陣列主要應用于生命科學和醫(yī)學的分析儀器中[12-13],這也為后來的第二代合成儀的開發(fā)提供了啟示。并且以此為基礎,開發(fā)了光刻合成、電化學脫保護合成、噴墨打印合成這三種芯片式原位合成技術[14-16]。雖然這些合成方法在化學原理上仍是亞磷酰胺化學合成法,但由于借鑒了半導體領域的工藝,使合成通量實現(xiàn)大幅提高。其中,噴墨打印技術又因其高通量、高效率、低成本成為最受關注的焦點,并極大推動了DNA合成的發(fā)展,相關專利數(shù)量也大幅提升。2013年,美國半導體研究聯(lián)盟啟動“半導體合成生物學”(semiconductor synthetic biology,SemiSynBio)計劃[17],使半導體與合成生物學的交叉融合進一步加深。2018年美國發(fā)布“半導體合成生物學路線圖”[18],進一步推動半導體與合成生物學的融合“會聚”。在此背景下,DNA合成與存儲的專利數(shù)量快速增長(圖1),一方面是由于半導體技術在DNA合成中的應用,另一方面是投資者看好DNA存儲可以作為半導體存儲器的互補技術。此時,亞磷酰胺化學合成法的進一步改進是重點,而末端脫氧核糖核苷轉(zhuǎn)移酶(terminal deoxynucleotidyl transferase,TdT)等聚合酶的酶促合成法[19]的研發(fā),在實現(xiàn)其合成效率可較亞磷酰胺化學合成法高一個數(shù)量級的同時,也促使相關專利布局漸次展開。
圖1 2001—2020年公開的DNA合成與存儲專利數(shù)量、代表性專利權(quán)人及合成成本的變化[專利的檢索日期為2021年3月1日,圖中對應年份為專利公開年,所示的國家(地區(qū))的公開量為該區(qū)域?qū)闹R產(chǎn)權(quán)局公開的專利量;圖中所示的企業(yè)(或機構(gòu)平臺),以對應階段加入DNA合成與存儲技術開發(fā)的部分企業(yè)為代表]Fig.1 Patent publication numbers and representative patentees of DNA synthesis and storage,and the cost changes for gene synthesis during 2001—2020[①The patent search date is March 1,2021;The corresponding year in the figure is the patent publication year,and the publication amount of the country(region)shown is the amount of patents published by the corresponding Intellectual Property Office in the corresponding region;②The enterprises(or institutional platforms)shown in the figure are represented by those who have joined the development of DNA synthesis and storage technologiesat thecorresponding stage]
在這一歷程中,哈佛大學威斯生物啟發(fā)工程研究所的Church團隊[20]做了很多開創(chuàng)性的工作,其于2012年首次利用DNA存儲了多媒體文件(專利申請?zhí)朥S15/970 257)。該團隊于2016年構(gòu)建了基于基因組編輯的分子記錄器,使人的細胞實現(xiàn)按時間順序獲得數(shù)字和存儲數(shù)字信息[21]。2017年,該團隊又進一步將黑白圖像、電影短片的信息存儲至活細胞的基因組[22]。在哈佛大學團隊的開創(chuàng)性工作發(fā)表后不久,歐洲生物信息研究所(EBI)的團隊于2013年利用DNA存儲了多媒體文件的同時,還引入了糾錯機制,實現(xiàn)了完整的解碼[23](專利申請?zhí)朎P13728990.6)。此后,諸多的高校和研究機構(gòu)也加入了基于DNA的信息存儲研究行列,例如哥倫比亞大學、紐約基因組中心的團隊利用噴泉碼作為容錯糾錯算法,建立二進制和堿基的映射關系,彌補了因分段序列拼接需要設置重疊部分的局限,降低了冗余度,提升了存儲的密度[24]。
DNA存儲的巨大優(yōu)勢,不僅吸引了研究機構(gòu)和一批創(chuàng)業(yè)者加入,也使微軟、英特爾、華為等龍頭企業(yè)將目光投向其中。從企業(yè)專利權(quán)人分析,美國昂飛公司(Affymetrix)作為生物芯片的早期開發(fā)者之一,較早布局了一些相關專利,而安捷倫(Agilent)、合成基因組公司(Synthetic Genomics)等專利權(quán)人也是該領域的積極參與者。其中,安捷倫是最早利用噴墨打印來合成寡核苷酸的開發(fā)者,Twist生物科學(Twist Bioscience)公司則進一步拓展了該技術,使芯片上可合成的基因座數(shù)量增加到數(shù)千個,引領了第二代基因合成儀的發(fā)展。在酶促合成方面,成立于2013年的美國分子組裝(Molecular Assemblies)和成立于2014年的法國DNA Script公司,都是酶促合成的代表性專利權(quán)人。近年來,微軟等信息技術企業(yè)也開始研發(fā)DNA存儲技術,例如,微軟和華盛頓大學不僅合作申請了很多專利,還共同開發(fā)了用于DNA存儲數(shù)據(jù)的全自動系統(tǒng)。2020年,Twist生物科學、因美納(Illumina)、西部數(shù)據(jù)(Western Digital)、微軟四家公司也通過成立聯(lián)盟,共同推進DNA存儲的發(fā)展。
DNA作為數(shù)據(jù)存儲的介質(zhì),其合成技術是其中的重要技術之一,而寡核苷酸或多核苷酸的合成又是長片段DNA合成和組裝的基礎。21世紀初,安捷倫等專利權(quán)人開發(fā)的技術為噴墨打印合成DNA奠定了基礎,其所開發(fā)的原位合成技術,涉及將固體支持物與核苷酸之間的官能團化、“脫保護、偶聯(lián)、蓋帽和氧化”循環(huán)的展開、寡核苷酸陣列的切割等方面。近十年來,隨著技術的不斷發(fā)展,專利布局所保護的客體已從寡核苷酸合成轉(zhuǎn)到多核苷酸合成,酶促合成的相關專利也逐漸增多(表1)。在這過程中,也涉及一批表面圖案化的官能團配套試劑的研發(fā),例如活化劑包括但不限于N-(3-三乙氧基硅烷基丙基)-4-羥基丁酰胺(HAPS),11-乙酰氧基十一烷基三乙氧基硅烷、N-癸基三乙氧基硅烷、(3-氨基丙基)三甲氧基硅烷、(3-氨基丙基)三乙氧基硅烷、3-縮水甘油氧基丙基三甲氧基硅烷(GOPS)、3-碘丙基三甲氧基硅烷、丁基醛基三甲氧基硅烷、(3-氨基丙基)-二乙氧基甲基硅烷、(3-氨基丙基)-二甲基乙氧基硅烷、(3-氨基丙基)-三甲氧基硅烷、(3-縮水甘油氧基丙基)-二甲基乙氧基硅烷、縮水甘油氧基三甲氧基硅烷、(3-巰基丙基)-三甲氧基硅烷、3,4-環(huán)氧環(huán)己基乙基三甲氧基硅烷、烯丙基三氯硅烷、7-辛-1-烯基三氯硅烷或雙(3-三甲氧基硅丙基)胺等;鈍化劑包括但不限于全氟辛基三氯硅烷、三氟辛基三乙氧基硅烷(FOS)、叔丁基[-5-氟-4(-4,4,5,5-四甲基-1,3,2-二氧戊環(huán)-2-基)吲哚-1-基]-二甲基硅烷、全氟辛基三氯硅烷、全氟辛基二甲基氯硅烷、全氟癸基三乙氧基硅烷、全氟辛基三乙氧基硅烷、全氟辛基三甲氧基硅烷、辛基氯硅烷、二甲基氯辛基硅烷、甲基二氯辛基硅烷、三氯辛基硅烷、三甲基辛基硅烷、三乙基辛基硅烷、十八烷基三氯硅烷等。
表1 寡核苷酸或多核苷酸合成的代表性專利Tab.1 Representative patents of oligonucleotide or polynucleotide synthesis
續(xù)表
續(xù)表
在寡核苷酸或多核苷酸的合成過程中,除固相亞磷酰胺合成法相關的技術外,還需要噴墨打印相關的設備。要將堿基單體作為“墨水”逐個噴射在芯片上,涉及到噴嘴、試劑吸注、精密定位、圖像識別、微流體控制等諸多方面,而液滴的生成、分配和控制更是涉及很多精密技術,因而涉及開發(fā)和改進精密加工技術的專利也是必不可少的(表2)。
表2 噴墨打印及微流控的代表性專利Tab.2 Representative patents of inkjet printing and microfluidics
DNA組裝主要分為體內(nèi)組裝和體外組裝,其中體外診斷可在反應試管中、多孔平板中、平板表面上、柱中、微流體管等微流控裝置中、毛細管中等不同場景中進行。近年來,同源重組等體內(nèi)組裝方法也有不少專利布局(表3)。
表3 DNA組裝的代表性專利Tab.3 Representative patents of DNA assembly
在將數(shù)字化信息轉(zhuǎn)化為可存儲的基因序列的同時,如何準確訪問多核苷酸序列數(shù)據(jù)存儲系統(tǒng)中的數(shù)據(jù)、如何在多核苷酸序列的日志中創(chuàng)建時間記錄、如何在穩(wěn)定的環(huán)境中長期保存多核苷酸序列、如何保障多核苷酸序列中存儲的信息的安全等問題,都需要考慮和應對。微軟、哈佛大學等企業(yè)和大學在這些領域的專利已有所布局,許多專利也體現(xiàn)出其前瞻性(表4)。
表4 DNA存儲的代表性專利Tab.4 Representative patents of DNA storage
在DNA信息存儲的過程中,還有更多技術因素需要考慮,例如,序列中鳥嘌呤(G)和胞嘧啶(C)的比例需要保持在合理區(qū)間;同時,堿基重復率也是存儲中需要考慮的參數(shù)。因而,不少專利也將GC含量和堿基檢出算法嵌入其中(表5)。
表5 其他的代表性專利Tab.5 Other representative patents
在合成生物學專利分析的基礎上,本文系統(tǒng)梳理了DNA合成與存儲技術的專利文獻,繪制了相關技術的知識圖譜(圖2)。在DNA合成與存儲技術專利的知識譜系中,設計存儲數(shù)字信息的核酸序列是基礎,在此基礎上可采用第一代、第二代或第三代合成技術進行DNA合成。其中,第一代和第二代合成技術均采用亞磷酰胺化學合成法,而第二代中所用的半導體技術或可在未來應用于酶促合成。從各種技術和方法的演進過程可以看到,DNA合成技術在不斷迭代中發(fā)展,而又保持一定的連續(xù)性??傮w上,目前的技術迭代沿著合成通量的增加、合成原理的升級兩個維度進行,這兩個維度的組合必將形成一系列技術,這也是專利布局和運營的起點。
圖2 DNA合成與存儲技術的知識圖譜Fig.2 Knowledge map of DNA synthesis and storage
同時,這些技術與組裝技術組合,構(gòu)成長片段DNA的合成和柱狀技術。由于核酸組裝本身也可有不同的技術組合(例如,利用各種工具酶的方法,可以與基因組編輯的技術組合),因而這種排列組合就為長片段DNA合成的不斷升級提供了動力。在此基礎上,再重點考慮“寫”的速度、成本,“讀”的便捷性,以及信息存儲的安全性、穩(wěn)定性等技術要求?!皩憽迸c“讀”(通常利用先進的測序技術)的結(jié)合,構(gòu)成了未來DNA存儲系統(tǒng)的基本架構(gòu)。這種架構(gòu)建立后,隨著各個環(huán)節(jié)或工藝的不斷優(yōu)化,未來或許可以期待DNA存儲也呈現(xiàn)出類似“摩爾定律”的定期升級換代。
隨著人類社會進入海量數(shù)據(jù)時代,信息存儲的重要性已經(jīng)不言而喻。在巨大的需求面前,DNA存儲的優(yōu)勢進一步展現(xiàn)。近十年來,寡核苷酸的合成已經(jīng)拓展至多核苷酸,在提高寡核苷酸合成的長度和效率、降低合成成本的過程中,全球的企業(yè)、大學和研究機構(gòu)有一系列的專利布局,該領域的專利競爭格局也呈現(xiàn)出交叉融合的態(tài)勢。
對近20年來的DNA合成與存儲的相關技術專利進行分析,可以發(fā)現(xiàn)合成通量的提升、從化學方法向酶促合成的生成,是推動合成能力提升的動力。以DNA為介質(zhì),其天然性突破了傳統(tǒng)的存儲技術在壽命限制和低數(shù)據(jù)密度兩方面的局限(DNA數(shù)據(jù)存儲的保存周期長,且不會損壞;1 kg
的DNA可以存儲海量數(shù)據(jù))[25],因而DNA合成技術的升級已經(jīng)使得“寫”的速率有所突破,而在“讀”方面的基因測序技術本身也在不斷升級,并伴隨著成本的不斷下降,使得DNA存儲或呈現(xiàn)出類似數(shù)十年前集成電路早期發(fā)展的態(tài)勢。
從技術的角度看,DNA合成儀結(jié)合了化學、物理、材料、半導體、生物、流體力學、信息科學等領域,這種學科間的交叉融合促進了技術的不斷改進,將進一步帶來合成通量、合成長度、合成精度的提升,以及合成成本的降低。在未來,噴墨打印或微流控技術與酶促合成進一步結(jié)合,將在通量、可擴展性和成本方面突破現(xiàn)有方法的限制,實現(xiàn)DNA合成的全面升級。
從專利分析來看,盡管基于DNA的信息存儲仍處于早期,但仍然可以預見其未來專利將解決的技術功效包括更高的讀寫速率、更高效的編解碼、更低的存儲成本、更高的存儲穩(wěn)定性等方面。例如,在存儲穩(wěn)定性方面,長期穩(wěn)定的存儲需要排除熱輻射、電離輻射、化學誘變等方面的因素。目前微軟在該功效的方向已有一定的技術布局,但未來發(fā)展若綜合考慮不同的應用場景,或可使用微納尺度的真空室作為容器。又如,在編碼方面,需要同時考慮存儲效率、合成難度、加密安全等要求,當前的專利布局已經(jīng)考慮到盡可能地避免連續(xù)的單堿基重復,同時也需要避免高鳥嘌呤和胞嘧啶占比(GC含量)。為了探索更好的編碼,也有研發(fā)團隊在考慮二進制、三進制、四進制模型中的不同編碼策略(例如CN201910909594.0)來實現(xiàn)理想的技術功效。隨著信息存儲的進一步發(fā)展,未來或許也可探索多進制模型的混合使用的可能性和可行性。
以高通量、高效率、高保真、低成本的DNA合成為基礎,綜合信息編解碼、基因測序等技術的改進,集“‘編’-‘寫’-‘讀’-‘解’”于一體的DNA存儲系統(tǒng)或?qū)⒊蔀檎嬲坝玫蒙稀钡慕鉀Q方案。咨詢公司高德納(Gartner)在2020年的預測中認為,隨著未來數(shù)據(jù)的海量增長,到2024年將有約30%的數(shù)字業(yè)務開始嘗試用DNA進行信息存儲[26]。從現(xiàn)有專利權(quán)人的視角來看,合成或存儲的質(zhì)量和準確性、單個堿基的平均合成消耗或成本、合成通量這三大指標是關鍵。從精度來看,質(zhì)量和準確性是所有客戶的基本要求,而當前的DNA合成和存儲技術還需要大量的克隆篩選和糾錯,才能產(chǎn)生準確的序列。只有將0.1%左右的堿基對誤差率降至更低,才能鞏固降低成本、提高生產(chǎn)通量的優(yōu)勢:從合成長度來看,長片段的DNA合成伴隨著相對較高的錯誤率;從合成成本來看,較高的錯誤率必然導致糾錯等各種成本上升。以優(yōu)化和提升這些技術功效為導向,仍有很大的專利布局空間。隨著DNA的信息存儲專利將越來越多地涉及到編碼、解碼、信息尋址、信息安全等的部分,集基因合成、基因測序、計算機控制于一體的DNA存儲設備或存儲系統(tǒng)的開發(fā)也越來越深入,微軟等信息技術企業(yè)開始大規(guī)模地在該領域進行研發(fā)。
在第一代的柱式合成技術領域,美國的ABI、Biolytic、Digilab、BioAutomation和Synthomics等公司,德國的K&A Laborgeraete和PolyGen,以及俄羅斯、日本和中國的企業(yè)都開發(fā)了相關的產(chǎn)品??傮w上看,與第二代合成儀相比,柱式合成技術路徑上的專利布局在近年來已經(jīng)逐漸減少。
在第二代合成技術的開發(fā)路徑中,昂飛公司側(cè)重于利用物理掩膜法進行光刻合成。考慮到掩膜開發(fā)成本較高,羅氏的下屬企業(yè)也曾嘗試無掩膜技術的開發(fā),利用數(shù)字化控制、光敏保護基團介導來實現(xiàn)原位合成,但這一技術路徑的專利較少。與光刻合成法不同,電化學介導的脫保護合成法利用芯片表面上的微電極陣列,可控制合成鏈末端的酸敏基團水解來實現(xiàn)脫保護,繼而促進合成反應。美國CustomArray公司(原Combimatrix公司)在電化學介導的脫保護合成法開發(fā)中,推出過可合成上萬種單鏈的產(chǎn)品,但還存在寡核苷酸合成錯誤率高、產(chǎn)量低、準確率低、不穩(wěn)定等缺點,因而后續(xù)的開發(fā)者不多。噴墨打印是當前DNA合成中的主流方法,早期的專利布局以安捷倫公司的專利最具代表性,而近十年又以Twist生物科學公司的專利布局最為典型??傮w上看,Twist生物科學公司的專利布局已成體系,而Evonetix公司、Synthomics公司等也有一定數(shù)量的專利。然而,要實現(xiàn)高通量、高效率、低成本、低錯誤率的DNA合成和存儲,還需要加大技術研發(fā)和專利布局。
本文基于現(xiàn)有專利布局所展示的知識圖譜,為我國研究機構(gòu)和企業(yè)的專利布局提供了參考??傮w上看,與美國研究機構(gòu)和企業(yè)相比,中國專利權(quán)人在DNA合成和存儲專利的布局起步相對較晚,高價值專利數(shù)量也相對較小。該領域的發(fā)展仍處于技術生命周期中的早期發(fā)展階段,因而迎頭趕上的空間仍然存在,尤其是未來集基因合成、基因測序、計算機控制于一體的DNA存儲系統(tǒng)的開發(fā),與信息編解碼等技術的交織,將帶來相關技術策略、技術功效的“排列組合”,有非常大的挖掘空間。對這些領域,需要系統(tǒng)性地解析其潛力,針對性地提出適合各研究機構(gòu)或企業(yè)的專利戰(zhàn)略。