梁 爽 劉小平 , 陶治宇 楊舉倫
(1.中國科學院文獻情報中心,北京 100190;2.中國科學院大學經濟與管理學院信息資源管理系,北京 100190;3.聯(lián)勤保障部隊第九二〇醫(yī)院病理科,昆明 650032)
合成生物學在基因組學、系統(tǒng)生物學等基礎上發(fā)展形成,是研究創(chuàng)建、控制和編程細胞行為的一門新興工程學科,融合了工程學的建造性質與生物學的研究性質[1]。經過一段時期的探索,合成生物學在研究范圍及產出方面取得了長足的發(fā)展,成為生物學研究中一個廣受認可的分支[2],同時在生物技術和醫(yī)學等領域取得了顯著的應用成效,具有改變未來的巨大顛覆性潛力。在過去十幾年里,世界主要國家紛紛針對合成生物學領域進行科學研究布局,制定相應戰(zhàn)略規(guī)劃。從2006年起,美國農業(yè)部就已針對合成生物學領域的研究開展資助,隨后美國能源部、國家科學基金會等機構也開始支持相關基礎研究與創(chuàng)新平臺的建設[3]。2012 年,英國率先發(fā)布國家路線圖以明確科學研究及產業(yè)轉化的發(fā)展任務,并在全國范圍內建立研究中心,形成全國范圍內的綜合研究網絡[4]。2010 年,我國重點基礎研究發(fā)展計劃(“973計劃”)對合成生物學專題研究進行了啟動部署,在此發(fā)展基礎上科技部于2018 年啟動國家重點研發(fā)計劃“合成生物學”專項,在2018—2021 年間對114 個研究項目給予立項資助[3]。2022 年,國家發(fā)改委印發(fā)《“十四五”生物經濟發(fā)展規(guī)劃》,提出要加快提升生物技術創(chuàng)新能力,推動合成生物學技術創(chuàng)新及其在新藥開發(fā)、疾病治療、生物育種、環(huán)境保護、能源供應和新材料開發(fā)等相關領域的應用[5]。受各國政府的戰(zhàn)略引導與社會各界的協(xié)力推動,合成生物學領域迎來飛速發(fā)展時期。
在科技發(fā)展進程中,我國通常會受到科技強國規(guī)劃戰(zhàn)略與發(fā)展路線的影響,同時以一定的延遲接受這種影響并對自身戰(zhàn)略規(guī)劃進行相應調整,從一定意義上講,學科整體演化體系是關于相似發(fā)展模式的移位過程,相似性和時滯性是學科領域發(fā)展的重要特征。與目標領域科技強國相比,合成生物學主題發(fā)展的領先滯后關系如何?與其他科技強國的具體滯后期是多少?不同研究方向上的優(yōu)劣勢情況如何?研究這些問題的有效解決方案,對于我國科技戰(zhàn)略路線的調整與資助管理決策的制定具有重要意義。因此,本文旨在通過對各個國家關于合成生物學發(fā)展的相關時序數(shù)據(jù)進行分析,探究各國演化態(tài)勢及其時滯特征,以期為不同國家或地區(qū)學科發(fā)展差異的定量測度研究提供新的思路。
圍繞合成生物學領域的發(fā)展特征及現(xiàn)狀趨勢等方面,目前已有學者利用引文分析、社會網絡理論、文獻計量分析、內容分析、統(tǒng)計學分析等方法進行了相關分析與探討。吳曉燕等[6]基于專利數(shù)據(jù)對合成生物學領域專利申請的數(shù)量變化趨勢、重要國家分布、重要專利申請人、專利應用領域、技術熱點等方面進行計量分析。張雪等[7]基于論文和專利數(shù)據(jù),利用科學關聯(lián)度、技術關聯(lián)度、引用時滯、科學及技術循環(huán)周期等計量指標,對合成生物學領域技術創(chuàng)新與基礎研究之間的關聯(lián)進行探討分析。鄧樺[8]采用內容分析與文獻計量法,從產學研視角出發(fā)對合成生物學領域的論文及專利的數(shù)量趨勢、主要研發(fā)方向以及行業(yè)投資現(xiàn)狀等方面進行剖析。Hu 等[9]從國家及機構成果數(shù)量情況、學科類別分布以及熱門主題關鍵詞的年度h 指數(shù)等層面對合成生物學領域的發(fā)展現(xiàn)狀進行分析。Dai 等[10]對用于能源生產的合成生物學和基因組工程的文獻數(shù)據(jù)進行定量分析,并利用關鍵詞共現(xiàn)、突發(fā)詞檢測等分析前沿熱點與研究趨勢。
綜合以上分析,可以發(fā)現(xiàn)已有研究主要圍繞合成生物學領域的科技成果產出數(shù)量、國家布局、研究熱點、合作態(tài)勢等角度展開探討。關于領域發(fā)展態(tài)勢與差異分析的落腳點通常是結合學科演化過程所涵蓋的特征要素對這種差異進行定性論述與簡單的定量比較,缺乏從文本語義層面進行挖掘以深入剖析學科本質內容發(fā)展情況的研究,同時,國家發(fā)展差異所內含的領先滯后關系以及具體時滯期的測度也鮮有研究提供解決思路?;谝陨戏治觯疚膶ξ墨I語義進行深入挖掘,以論文的主題內容表征某一學科的發(fā)展面貌并識別熱點主題,在確定目標領域強國之后,針對各國關于熱點主題研究強度的時間序列進行量化挖掘,測度國家在主題演化上的關聯(lián)關系,以進一步揭示我國與其余各科技強國主題發(fā)展趨勢的異同與領先-滯后的發(fā)展關系。
在眾多主題方向中,如何準確探測與追蹤學科熱點一直是相關學者與科研人員的關注焦點,同時熱點主題中也往往孕育著科學機遇的生長點與科研創(chuàng)新的突破口。因此有必要對合成生物學的研究熱點進行挖掘,并在此基礎上,展開我國和目標領域科技強國關于熱點主題的演化時滯性差異探究。在熱點主題的識別方法上,本文依據(jù)已有研究中對熱點主題的定義并結合研究實際情況[11,12],利用LDA 主題模型的輸出結果對主題強度分別進行計算,并通過設定主題強度閾值,對學科熱點主題進行遴選。主題強度的計算公式如下所示,其中Dt表示屬于時間窗口t 的文檔數(shù)量,θzd表示文檔d 中主題z 的概率值,θtz表示主題z在時間窗口t 下的主題強度。
針對已經識別得到的研究主題,依據(jù)該公式分別計算其主題強度,并根據(jù)設定的主題強度閾值對熱門主題進行篩選,從整體上把握當前學科領域的研究現(xiàn)狀,發(fā)現(xiàn)研究熱點。在后續(xù)進行國家主題演化的時滯性分析中,分別計算我國及目標領域科技強國在本節(jié)識別得到的全部熱點主題上的研究強度變化趨勢,以著重體現(xiàn)熱點研究方向上我國與其余科技強國發(fā)展水平的時滯關系。
本文依據(jù)上述識別得到的熱點主題,將屬于不同國家的文獻依照出版時間分別離散到相應時間窗口,利用文檔-主題概率分布分別計算近二十年不同研究國家在熱點主題上的主題強度變化趨勢。將國家主題強度隨時間的分布θct( z)表示為在時間片t 上國家c 對主題z 的研究強度,如下公式所示。
其中,Dt表示屬于t 時間窗口的文檔數(shù)量,θzd表示文檔d 中主題z 的概率值,如果論文d 的作者之一來自于國家c,則wc(d)=1,否則為0。根據(jù)該公式,對國家在不同時間窗口下的主題分布強度進行計算。對于每個熱點主題,分別計算不同時間段該熱點主題在選定國家上的主題強度,并進行曲線擬合,從而對各個熱點主題上全部國家的時序發(fā)展情況進行分析及對比,并利用該時間序列進行后續(xù)我國與其余領域強國在主題演化發(fā)展上的關聯(lián)強度及時滯關系探究。
灰色關聯(lián)分析是灰色系統(tǒng)理論中的一個重要分支[13],為描述與測度事物或因素之間的關聯(lián)程度提供了定量研究方法,其基本原理是依據(jù)曲線的幾何形狀對序列相似性進行測度[14],目前對模型的探索應用與相關改進也已經有了較多的積累與有益成果。在基于相近性思想對序列之間的相關程度進行判斷的有關方法模型中,鄧聚龍教授提出的灰色關聯(lián)分析模型對關聯(lián)度的測算具有重要意義與廣泛影響[13,15],其具體定義如下。
1)對于經過處理后得到的待分析序列,確定參考序列X0以及比較序列Xi(i=1,2,…,m),其中X0={x0(k),k=1,2,…,n}={x0(1),x0(2),…,x0(n) }。
2)計算點關聯(lián)系數(shù)?;疑P聯(lián)度的本質是通過對事物或因素之間變化趨勢的相近程度進行比較,以衡量因素發(fā)展間的關聯(lián)程度。在具體實現(xiàn)步驟中,首先需要對反映事物變化特征的時序數(shù)據(jù)在各個時間點k(k=1,2,…,n)上空間位置的幾何接近程度進行衡量[16],即對灰關聯(lián)系數(shù)進行計算,具體公式如下。
式中,計算k 時刻下參考序列的對應值x0(k)與比較序列對應值xi(k)的差值絕對值,得到差序列| x0(k)-xi(k) |,并分別求取得到兩級最小差和兩級最大差。式中ρ為分辨系數(shù),能夠避免因序列值異?;蜃畲蟛钪颠^高而引起的計算偏差,其取值范圍為[0,1],通常情況下取ρ=0.5。依照以上思想,最終得到比較序列Xi與參考序列X0在k 點的關聯(lián)系數(shù)γ(x0(k),xi(k) )。
3)灰色關聯(lián)度計算?;谊P聯(lián)系數(shù)是比較序列與參考序列在某一時期關聯(lián)程度的體現(xiàn),為比較兩個時間序列在整體發(fā)展上的關系緊密程度,還需對各個時期的關聯(lián)系數(shù)作平均處理,最終得到兩序列間的關聯(lián)程度。如下公式所示,通過對k 點的關聯(lián)系數(shù)求平均值可以得到比較序列Xi與參考序列X0的關聯(lián)度。最后,依照各比較序列與參考序列的關聯(lián)度值大小進行排序,對各比較因素與參考序列所指因素間的關聯(lián)程度的相對強弱進行分析比較,以確定該發(fā)展系統(tǒng)中的重要關聯(lián)關系及影響目標序列變化的主要因素。
灰色關聯(lián)度對樣本數(shù)據(jù)量或數(shù)據(jù)分布特征沒有過高要求,適合應用于小樣本數(shù)據(jù),且能夠通過序列之間關聯(lián)程度的比較確定發(fā)展過程中目標序列的主要影響因素,并在具體實踐中據(jù)以制定或調整相關策略。在對國家主題演化關聯(lián)及其時滯關系的探究中,兩個國家的主題發(fā)展序列是否存在某種關聯(lián)以及關聯(lián)程度如何,可以通過對時序數(shù)據(jù)發(fā)展過程中的相似性來進行判斷,包括形狀相似性與距離相似性。而灰色關聯(lián)分析是通過比較時間序列數(shù)據(jù)變化曲線之間的幾何形狀來進行的關聯(lián)程度度量,即時序數(shù)列間的發(fā)展態(tài)勢越接近,則對應因素的關聯(lián)強度越大,對時序數(shù)據(jù)的位置相似度有所忽略。因此,本文引入歐氏距離對時序曲線距離上的接近程度進行度量,并充分利用灰色關聯(lián)度能夠實現(xiàn)形狀度量這一特性,將二者結合來進行關聯(lián)強度測量指標的構造,具體計算方法為
式中,γz(X0,Xi)為主題z 下參考序列X0與比較序列Xi的灰色關聯(lián)度,φz(X0,Xi)為兩序列的距離相似度,通過對二者之間的歐式距離EDz(X0,Xi)求取倒數(shù)得到。因此,距離相似度的取值范圍為0 到1 區(qū)間內,且與序列距離成反比,即兩序列間的歐式距離越小,則相應的距離相似度越大。在最終關聯(lián)強度的綜合測量指標中,對灰關聯(lián)度及距離相似度分別賦予相應的權重α1及α2,以明確形狀相似性與距離相似性對關聯(lián)強度的決定程度?;谝陨戏椒?,對國家主題演化時序數(shù)據(jù)間的關聯(lián)程度進行計算,以辨別學科發(fā)展中各國關于熱點主題的研究態(tài)勢變化曲線之間是否存在關聯(lián)關系,并通過各比較國家序列與參考序列所指國家的關聯(lián)度大小,了解不同熱點方向下各國與目標國家關聯(lián)程度的主次順序,發(fā)現(xiàn)各熱點領域中與目標國態(tài)勢發(fā)展關聯(lián)緊密的主要國家。
為進一步探究我國與各科技強國在熱點主題發(fā)展上的領先-滯后關系及對應時滯期,本文利用時間滯后互相關方法進行分析?;ハ嚓P作為一種統(tǒng)計度量方法,能夠應用于時間序列之間的相似度度量并確定兩序列間的時滯關系。其基本思想是,對于兩個時間序列,保持其中一個序列不變,使得另外一個序列在所設定的移動范圍內平移s 個單位,并計算每次平移后兩序列之間的相關性,當兩序列相關性最大時,通過此時對應的位移s 即可得到二者之間的領先-滯后關系及對應時滯期[17-19]?;谝陨戏椒ㄔ恚霑r間滯后互相關分析對國家主題演化間的時滯差異進行探究。針對某一研究主題上各個國家所對應的時間序列,確定參考序列X0以及比較序列Xi(i=1,2,…m),保持X0的位置不變,將比較序列依次移動s 個單位,并計算相應位移下比較序列與參考序列的關聯(lián)強度。當s>0 時,表示比較序列向右移動s 個時間單位,當s<0 時,表示比較序列左移s 個單位長度。如下式所示,分別為保持參考序列不變,比較序列右移s 個單位及比較序列左移s 個單位后所對應的序列表示。
基于以上序列表示,計算平移后各比較序列與參考序列之間的關聯(lián)強度。以右移s 個單位為例,對移動后的比較序列X1進行截取得到X1'={ x1(1),x1(2),…,x1(n-s-1),x1(n-s) },以此類推,形成新的比較數(shù)列Xi'(i=1,2,…m)。相應地,參考序列X0的序列長度應取至n-s,得到新的時間序列為X0'={x0(s+1),x0(s+2),…,x0(n-1),x0(n) }。在確定平移后的時序數(shù)列后,利用前述構建的關聯(lián)強度指標對此時各比較序列與參考序列之間的相似性進行度量。根據(jù)設定的移動范圍,分別計算在不同位移長度下,各比較國家序列與參考國家序列的關聯(lián)強度大小,并提取得到全部位移下關聯(lián)強度計算結果中的最大值。將該最大值與未移動前對應時序的關聯(lián)強度進行對比,以明確兩國在該主題發(fā)展上是否存在時滯關系。若未移動前的關聯(lián)值較大,則表示二者不存在明顯的時滯差異;若最大值高于未移動前,則說明兩國在該主題發(fā)展上存在一定時滯性,并可根據(jù)此時的移動方向與移動長度判斷二者的領先-滯后關系與具體時間差距。當最大值對應的位移s大于0 時,表示比較序列所指國家在該主題上的發(fā)展領先于參考序列對應國家,領先時間為s;當最大值對應的位移s 小于0 則表示比較序列所指國家在該主題上的發(fā)展滯后于參考國家s 個時間單位。
本文以合成生物學領域的相關論文為數(shù)據(jù)來 源,以Web of Science 中 的SCIE、SSCI、CPCI-S及CPCI-SSH 為索引數(shù)據(jù)庫,對類型為Article、Review、Proceedings Paper 的文獻進行檢索,參照Philip 等針對合成生物學領域的搜索策略[20],將檢 索 式 確 定 為(((TS=(“synthetic biolog*” OR“synthetic dna” OR “synthetic genom*” OR “synthetic*nucleotide” OR “synthetic promoter” OR “synthetic gene* cluster”) NOT TS=(“photosynthe*”))OR (TS=(“synthetic mammalian gene*” AND“mammalian cell”) NOT TS=”photosynthe*”) OR(TS=”synthetic gene*” NOT TS=(“synthetic gener*” OR “photosynthe*”)) OR (TS=(“artificial gene* network” OR (“artificial gene* circuit*” AND“biological system”)) NOT TS=”gener*”) OR (TS=(“artificial cell”) NOT TS=(“cell* telephone” OR“cell* phone” OR “cell* culture” OR “l(fā)ogic cell*”or “fuel cell*” or “battery cell*” or “l(fā)oad-cell*” or“geo-synthetic cell*” or “memory cell*” or “cellular network” or “ram cell*” or “rom cell*” or “maximum cell*” OR “electrochemical cell*” OR “solar cell*”))OR (TS=(“synthetic cell”) NOT TS=(“cell*telephone” OR “cell* phone” OR “cell* culture”O(jiān)R “l(fā)ogic cell*” or “fuel cell*” or “battery cell*”or “l(fā)oad-cell*” or “geo-synthetic cell*” or “memory cell*” or “cellular network” or “ram cell*” or “rom cell*” or “maximum cell*” OR “electrochemical cell*” OR “solar cell*” OR “photosynthe*”)) OR(TS=(“artificial nucleic acid*” OR “artificial*nucleotide”)) OR (TS=(“bio brick” or “biobrick”or “bio-brick”)))) AND PY=(2000-2021),得到檢索數(shù)量為14546 條。獲取文獻全記錄并剔除重復文獻及摘要和關鍵詞均為空的文獻記錄,最終得到共計14439 條文獻數(shù)據(jù)。將每篇文獻的標題、關鍵詞及摘要字段進行合并,并對形成的文本內容進行數(shù)據(jù)清洗,包括分詞、移除停用詞、短語提取、詞形還原等操作。將經過上述處理得到的文本語料作為主題模型的輸入,通過計算不同主題數(shù)目下的一致性指標值并結合模型實際效果,最終將主題數(shù)量設定為57 進行LDA 模型訓練,并得到相應的概率分布。
依照得到的文檔-主題概率分布,針對識別得到的合成生物學領域的主題分別計算其主題平均強度,最終得到該領域中各主題的熱門程度,如圖1 所示,其中虛線為設定的主題強度閾值0.03,由此可以確定合成生物學領域的熱點主題,即大于該強度閾值的11 個學科主題。如表1 所示,為該領域全部熱點主題以及與之相對應的主題含義。
表1 合成生物學領域熱點主題Tab.1 Hot Topics in Synthetic Biology
圖1 合成生物學領域各主題強度情況Fig.1 Topic Strength in the Field of Synthetic Biology
基于上述識別得到的熱點主題,以該領域具有較高科研產出的國家作為本領域科技強國,并對各國關于熱點主題的發(fā)展趨勢進行分析。在科技強國的選取上,通過提取文獻題錄中的國家信息對各國的論文數(shù)量進行統(tǒng)計,若1 篇文章由多個國家的作者合作完成,則對應參與國家的論文數(shù)量增加1,以此來確定該領域成果產出較為活躍突出的研究國家。利用每篇文獻的全部地址信息提取得到對應國家,從而獲得每篇文獻對應所屬的國家信息,形成文獻—國家數(shù)據(jù)表。該表格記錄數(shù)量為19430,即平均每篇文獻對應的國家數(shù)量為1.35,可見合成生物學領域研究中存在一定的國際交流合作。按照國家進行分類匯總后可以得到近20 年來各國在該領域對應的發(fā)文數(shù)量,如表2 所示,為按照論文產出總量進行排序后得到的各個研究國及其相對應的發(fā)文數(shù)量。
表2 各研究國發(fā)文量情況(部分)Tab.2 Number of Publications by Country(Part)
經統(tǒng)計,該領域涉及到的研究國共有108 個,其中論文數(shù)量居于前3 位的國家為美國、中國、英國,發(fā)文數(shù)量分別為5856 篇、2115 篇和1563 篇。結合當前合成生物學領域的國際競爭格局與各國的科技實力現(xiàn)狀,本文選取中國、美國、英國、德國、法國和日本六個國家作為研究對象進行后續(xù)熱點主題發(fā)展的關聯(lián)程度分析與時滯性探究。
在研究各國關于熱點主題發(fā)展的領先滯后關系之前,首先對近二十年來不同熱點主題下六個國家的研究強度變化趨勢進行刻畫。如2.2 節(jié)所述,將各國文獻離散到相應時間窗口后,通過文獻對應的國家信息及文檔-主題概率分布對國家c在t 時間窗口對主題z 的研究強度進行計算。最終得到2000—2021 年間中美英德法日六個國家關于各個熱點主題研究的時序演化情況。如圖2所示,分別為不同主題下各國關于該主題研究強度的變化趨勢圖。
圖2 各國關于熱點主題的研究強度變化趨勢Fig.2 Research Strength Trends of Hot Topics in Different Countries
從主題的整體發(fā)展趨勢來看,在上述熱點主題中,各國對于代謝工程的關注度呈現(xiàn)出較為明顯的上升趨勢,其他主題例如細胞工程、組裝工程以及基因組工程等方向的研究熱度具有一定波動性,但從整體上也呈現(xiàn)出熱度升高的變動趨勢。不同于上述展現(xiàn)出熱度持續(xù)上升走勢的研究方向,其余一些主題的發(fā)展則呈現(xiàn)出一定幅度的下降?;虮磉_、酶促反應、腫瘤治療、DNA 序列分析等領域在各個國家研究中的關注度曲線表現(xiàn)出高開低走的態(tài)勢,各國關于此類主題的研究熱度由高趨低,并最終維持在一種較為穩(wěn)定的科研投入程度與發(fā)展狀態(tài)。
除此之外,各國在關于其他熱點主題研究上的發(fā)展模式與上述發(fā)展趨勢存在一定差別。數(shù)學模擬與功能計算領域呈現(xiàn)先升高后平穩(wěn)的研究趨勢,即各國均在達到研究強度的最高點后產生平穩(wěn)波動,但各個國家曲線最高點所代表的研究熱度與達到該點所對應的時間均存在差異。在分子生物學方向的研究上,通過觀察各國的發(fā)展曲線可以發(fā)現(xiàn),中日法三國在初期達到研究強度的最高點后均產生了一定程度的下降,而英美德國家的發(fā)展曲線則維持在較為穩(wěn)定的研究水平,沒有明顯的高低浮動。對于基因調控方面的研究,較多國家關于該領域的研究強度波動幅度較小,未存在明顯的最高點。
綜合以上六個國家關于熱點主題的研究強度變化趨勢可以發(fā)現(xiàn),各國發(fā)展模式具有一定的互聯(lián)性與相通性。從曲線形態(tài)來看,對于大部分熱點主題,各國發(fā)展曲線的變化方向與總體軌跡較為接近,但各國關于某主題的發(fā)展曲線在朝同一方向產生變動的時間上有所差距。從曲線整體來看,對于初步發(fā)展較為平穩(wěn)或是近些年保持穩(wěn)定趨勢的主題來說,該類主題的前期探索階段或者后期穩(wěn)定發(fā)展階段,各國的關注強度差距很小或基本在同一水平上。從某個主題的發(fā)展進程來看,各國主題強度達到最高點所對應的時間通常存在差異。針對最高點值的大小來看,各國最高研究熱度之間是否存在較大差距也有所區(qū)別。
通過對六個國家熱點主題研究強度的時序變化基本趨勢的分析,初步認為我國與科技強國在同一主題上的演化發(fā)展具有相似性與關聯(lián)性。為驗證這種關聯(lián)關系的存在,并對其間的聯(lián)系程度進行衡量,本文以中國為參考對象,將我國關于不同主題的研究熱度時序數(shù)據(jù)作為參考序列,美英德法日等其他國家在對應主題下的時間序列作為比較序列,分別計算中國與其他各個國家關于熱點主題演化態(tài)勢的關聯(lián)密切程度。
以 表1 中 的Topic27,DNA 序 列 分 析(DNA sequence analysis)主題為例,各國主題強度的時序數(shù)據(jù)如下表3 所示。以我國主題強度變化數(shù)列為參考數(shù)列,即X0={ 0.0528,0.0922,……,0.0382,0.0264,0.0261},剩余五個國家關于該主題的研究強度變化數(shù)據(jù)作為比較序列,設ρ值為0.5,依次對兩兩序列在不同年份的灰色關聯(lián)系數(shù)進行計算,并通過求取平均值分別得到美英德法日五個國家與中國在DNA 序列分析方向上的灰關聯(lián)度為γ={ 0.7691,0.7851,0.7680,0.7507,0.7482 }。此外,利用歐氏距離分別計算五個國家對應的比較序列與參考序列之間的距離相似度,對應結果為φ={ 0.8249,0.8327,0.8217,0.7988,0.8511 }。取α1=α2=0.5,將灰關聯(lián)度與距離度量結果進行綜合,最終得到在DNA 序列分析研究方面,美英德法日五國與我國發(fā)展態(tài)勢的關聯(lián)強度為S={0.7970,0.8089,0.7949,0.7748,0.7997 }。對該數(shù)列按照數(shù)值大小進行排序可以發(fā)現(xiàn),我國與其他五國在該主題的發(fā)展上均具有較為緊密的聯(lián)系,以與英國之間的關聯(lián)最為密切。類似地,采用以上思路可以得到在全部熱點主題上,我國與其他國家研究態(tài)勢之間的關聯(lián)關系及密切程度,如表4所示。
表3 各國關于DNA 序列分析主題的研究熱度變化Tab.3 Changes in Research Popularity on the Topic of DNA Sequence Analysis by Country
表4 各國關于熱點主題研究態(tài)勢的關聯(lián)強度Tab.4 Correlation Strength of Research Trends on Hot Topics among Countries
通過對我國與其他國家在熱點主題發(fā)展上的關聯(lián)強度進行比較可以發(fā)現(xiàn),在大部分主題的研究走勢上,我國與其他國家均具有較為緊密的關聯(lián)性,且關聯(lián)程度差異不大;而對于基因組工程這一主題方向,我國與各國的發(fā)展曲線相似度具有相對明顯的層次差別,與其他國家相比,我國與日本在基因組工程研究方面保持著較為突出的關聯(lián)強度。我國在腫瘤治療方面的研究發(fā)展與英美法三國關聯(lián)程度較高,同時在基因調控方向也與英美國家有著較為緊密的關系;在細胞工程、代謝工程、酶促反應等主題方向的研究上,與德國的關聯(lián)強度最高。此外,我國與日本在分子生物學、數(shù)學模擬和功能檢測、基因表達等領域的發(fā)展上具有較強的關聯(lián)關系。
從上述發(fā)展曲線及關聯(lián)計算結果來看,由六個國家組成的學科發(fā)展系統(tǒng)處于一種相互影響、相互關聯(lián)、穩(wěn)中有變的動態(tài)發(fā)展狀態(tài)中。各國主題演化趨勢具有一定相似性與聯(lián)系程度,但在達到最高研究強度及產生發(fā)展方向變化的時間先后順序上可能存在一定差別。
為探究這種時滯差異,本文利用互相關方法的基本思想,仍以我國關于主題研究強度的時間變化數(shù)據(jù)為參考序列,美英德法日五國的主題強度變化數(shù)據(jù)為比較序列,對我國與其他各國主題發(fā)展序列進行時間滯后互相關分析,以探析熱點主題演化中我國與其余五國的領先-滯后關系及相應時滯期。針對某一熱點主題,保持我國關于該主題的時序狀態(tài)不變,將s 的移動范圍設為-5至5,并在該區(qū)間內對美英德法日五國關于該主題的時間序列進行單位移動,計算每次位移s 下其余各國與我國發(fā)展曲線的關聯(lián)強度值。最終,對全部結果中的最大關聯(lián)強度值進行篩選并得到該最大值所對應的位移s。如表5 所示,為對比較國家對應時序進行不同單位長度的移動后,計算得到的關聯(lián)強度最大值,表6 為該最大值所對應的移動單位s,即我國與其他各國的領先-滯后年份。
表5 不同熱點主題下的關聯(lián)強度最大值Tab.5 Maximum Association Strength under Different Hot Topics
表6 不同熱點主題下最大關聯(lián)值所對應的位移Tab.6 Displacement Corresponding to the Maximum Correlation Value under Different Hotspot Topics
通過表6 結果中最大關聯(lián)強度所對應的位移長度及移動方向,能夠分析得知我國與其他科技強國在該領域熱點主題發(fā)展中所體現(xiàn)出來的領先-滯后關系及具體年份差距。為更清晰直觀地展現(xiàn)我國在合成生物學各個領域與其余國家相比所存在的優(yōu)勢與弱項,基于表中數(shù)據(jù)繪制我國與其余國家關于各主題發(fā)展的領先-滯后年份的相關熱力圖,如圖3 所示。兩種色塊分別代表不同的時滯方向,通過顏色可以確定我國在某主題研究上為領先方還是滯后方,并可以結合顏色深度判斷這種領先或滯后程度,顏色越深,則與對應國家之間的時滯差距越大。
圖3 我國與其余各國關于不同熱點主題的發(fā)展時滯期Fig.3 Time Lag between China and Other Countries on Different Hot Topics
由圖中的色塊分布情況可知,我國合成生物學領域的發(fā)展整體呈現(xiàn)出滯后于國外發(fā)展的局面。就各個熱點主題方向的研究情況來看,我國在分子生物學、組裝工程、腫瘤治療、基因調控、基因表達以及基因組工程等學科子方向的研究中表現(xiàn)出較為明顯的滯后性。與上述研究領域相比,我國在細胞工程、代謝工程及DNA 序列分析領域發(fā)展速度較快,具有較大的發(fā)展?jié)摿εc一定優(yōu)勢地位。例如我國在干細胞研究領域已取得重要突破與原創(chuàng)成果,包括全能干細胞的建立、干細胞的定向分化調控、干細胞疾病治療等方面[21]。同時,在數(shù)學模擬和功能檢測等學科主題上我國與個別國家相比也展現(xiàn)出一定的領先實力。在腫瘤治療、基因調控及組裝工程等研究方向上,日本相較于我國具有3~4 年的領先時期。美英德三國在包括腫瘤治療、基因表達、組裝工程等在內的領域中展現(xiàn)出了較為突出的科研實力與領先地位,在一些學科方向中與我國發(fā)展水平具有5 年時滯期。
本文以合成生物學領域為例,對學科主題進行識別并遴選熱點主題方向,計算并得到2000—2021 年我國與世界科技強國在熱點方向上的主題強度變化序列。綜合距離度量與形狀度量對國家主題演化之間的關聯(lián)強度進行探究,并通過時間滯后互相關方法揭示主題發(fā)展間的潛在時滯效應,對國家之間的領先-滯后關系及相應時滯期進行分析,得出以下結論。
1)近二十年來美國在合成生物學領域的總發(fā)文量居于首位,我國的成果產出數(shù)量排在第二,但還未達到美國發(fā)文總量的二分之一。從論文發(fā)表情況來看,美國與其他國家相比具有遙遙領先的科研產出水平。
2)合成生物學領域的研究分支較為廣泛,其中研究熱度比較高的主題方向包括分子生物學、細胞工程、代謝工程等領域基礎研究以及基因表達與調控、基因組學、腫瘤治療等體現(xiàn)工程生物學特點的應用研究。與其他研究主題相比,熱點主題的關注度相對較高,但結合主題熱度的時序變化曲線來看,DNA 序列分析、酶促反應等主題的研究呈現(xiàn)熱度下降的趨勢變化。
3)我國與美英德法日主要科技強國關于合成生物學領域的發(fā)展態(tài)勢具有較為密切的關聯(lián)程度。從大部分主題的研究熱度發(fā)展趨勢來看,我國與其他五國的主題發(fā)展模式與總體軌跡較為接近,但在基因組工程方向上,我國與日本在該主題的發(fā)展上存在相對明顯的關聯(lián)關系。
4)從學科整體來看,我國合成生物學領域的總體發(fā)展水平偏于滯后,且與美英德國家在腫瘤治療、基因表達、組裝工程等研究領域的發(fā)展上存在較長滯后期。但在細胞工程及代謝工程領域我國具有較大的發(fā)展?jié)摿俺砷L速度,展現(xiàn)出了一定的科研實力與優(yōu)勢地位。
作為一門新興交叉學科,合成生物學同時具備基礎集成性、前沿性、顛覆性等特征,也是“第三次生物科學革命”的引領者。本文基于以上數(shù)據(jù)分析與研究結論從科技情報視角出發(fā),提出相應的對策建議。
1)繼續(xù)提升科研成果的產出效率與能力,在論文產出數(shù)量上縮小與美國的差距。當前我國論文產出總量與美國相比仍存在斷層差距,應著重加強領域薄弱方向的科學研究力度,促進成果高效產出。
2)基因的表達與調控、基因組工程能夠實現(xiàn)對基因的調節(jié)、設計與構建,其不僅僅是合成生物學領域的核心技術體系,也是用于疾病診療等生物醫(yī)學研究的重要手段[22]。我國在該領域方向的研究與各科技強國相比存在較為普遍的滯后現(xiàn)象,加大基因工程等技術方向的攻關力度,是促進合成生物學實現(xiàn)跨越發(fā)展的關鍵因素,也有望為腫瘤治療等醫(yī)學難題提供新的解決方案。
3)受益于豐富的生物資源與長期的代謝工程研究基礎,我國合成代謝研究起步時間較早且已形成了強大的科研隊伍與豐厚的研究成果,是我國較具優(yōu)勢的研究領域[23]。此外,在細胞工程以及DNA 序列分析、計算建模等合成生物學使能技術的研究方面,我國相較于個別國家也具有一定的領先地位。保持既往優(yōu)勢,力爭在部分特色領域引領科技前沿也應作為未來合成生物學發(fā)展的重點任務。