宋茂海,李東方
(1.第二軍醫(yī)大學(xué)基礎(chǔ)部生物信息學(xué)教研室,上海200433;2.第二軍醫(yī)大學(xué)基礎(chǔ)部計(jì)算機(jī)教研室,上海200433)
利用信息計(jì)量學(xué)對(duì)某一領(lǐng)域的論文進(jìn)行統(tǒng)計(jì)分析,歸納出該學(xué)科的研究分類(lèi)、結(jié)構(gòu)與范式,對(duì)于規(guī)劃學(xué)科布局,促進(jìn)學(xué)科發(fā)展,調(diào)整科研方向具有重要的參考價(jià)值[1]。共詞分析作為信息計(jì)量方法的一種,通過(guò)主題分析能直觀地揭示學(xué)科微觀結(jié)構(gòu),其原理是當(dāng)兩個(gè)學(xué)科領(lǐng)域內(nèi)的關(guān)鍵詞在一篇文獻(xiàn)中同時(shí)出現(xiàn)時(shí),表明這兩個(gè)詞之間具有一定的內(nèi)在關(guān)系,出現(xiàn)的次數(shù)越多,表明它們的關(guān)系越密切[2-3]。在此基礎(chǔ)上,利用因子分析、聚類(lèi)分析和多維尺度分析等多元分析方法,按照關(guān)鍵詞之間的“距離”將某一領(lǐng)域內(nèi)關(guān)鍵詞加以分類(lèi),從而揭示學(xué)科領(lǐng)域的發(fā)展與演進(jìn)趨勢(shì)、課題研究的擴(kuò)散與傳播關(guān)系[4-6]。本文采用共詞分析方法,通過(guò)分析期刊論文的關(guān)鍵詞,考察近十年來(lái)我國(guó)生物信息學(xué)的研究分類(lèi)和發(fā)展趨勢(shì)[7]。
本文選擇中國(guó)知網(wǎng)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)、中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù)、國(guó)際會(huì)議論文全文數(shù)據(jù)庫(kù)和中華醫(yī)學(xué)會(huì)/中國(guó)醫(yī)師協(xié)會(huì)全文期刊庫(kù)為數(shù)據(jù)源,以“關(guān)鍵詞”為檢索途徑,以“生物信息學(xué)”為檢索詞,采用“精確”檢索方式,共檢索到1998~2013年3月相關(guān)期刊論文5 707篇(去除無(wú)關(guān)鍵詞的論文及會(huì)議通知、征稿啟示等文獻(xiàn)),論文的年份分布見(jiàn)表1。
表1 1998~2013年3月生物信息學(xué)文獻(xiàn)年份分布Table 1 Distribution of bioinformatics articles between 1998 and 2013
關(guān)鍵詞作為一篇論文的元數(shù)據(jù),是文章核心內(nèi)容的濃縮和提煉。對(duì)5 707篇期刊論文進(jìn)行數(shù)據(jù)統(tǒng)計(jì),共提取關(guān)鍵詞27 402個(gè)。去除不參與后期分析的“生物信息”、“生物信息學(xué)”關(guān)鍵詞,合并“蛋白質(zhì)組”、“蛋白質(zhì)組學(xué)”,“miRNA”、“microRNA”等同義關(guān)鍵詞,按詞頻由高到低排序,選擇前40個(gè)關(guān)鍵詞作為分析對(duì)象(見(jiàn)表2)。這40個(gè)高頻關(guān)鍵詞共累計(jì)出現(xiàn)3 891次,占論文總數(shù)的68.2%,在一定程度上能體現(xiàn)國(guó)內(nèi)生物信息學(xué)的研究現(xiàn)狀。
利用ROST數(shù)據(jù)挖掘軟件對(duì)40個(gè)關(guān)鍵詞進(jìn)行兩兩共詞檢索,統(tǒng)計(jì)其在所有論文中同時(shí)出現(xiàn)的次數(shù),形成一個(gè)40×40的共詞矩陣,對(duì)角線(xiàn)上的數(shù)值為該關(guān)鍵詞在所有論文中出現(xiàn)的次數(shù),非對(duì)角線(xiàn)上的數(shù)值表示兩個(gè)關(guān)鍵詞共同出現(xiàn)在同一篇論文中的次數(shù)(見(jiàn)表3、表4)。
表2 1998~2013年生物信息學(xué)文獻(xiàn)高頻關(guān)鍵詞表Table 2 High frequency keywords sheet of bioinformatics between 1998 and 2013
表3 生物信息學(xué)文獻(xiàn)高頻關(guān)鍵詞共詞矩陣(部分)Table 3 Co-word matrix of bioinformatics high frequency keywords
為了消除頻次懸殊造成的影響,用Ochiia相似系數(shù)將共詞矩陣轉(zhuǎn)換成相關(guān)矩陣[8]。即將共詞矩陣中的每個(gè)數(shù)值都除以與之相對(duì)行列的兩個(gè)詞頻總數(shù)乘積的平方根。
表4 生物信息學(xué)文獻(xiàn)高頻關(guān)鍵詞相關(guān)矩陣(部分)Table 4 Correlation matrix of bioinformatics high frequency keywords
將相關(guān)矩陣的數(shù)據(jù)導(dǎo)入SPSS 19.0,進(jìn)行多元統(tǒng)計(jì)分析,包括因子分析、聚類(lèi)分析和多維尺度分析。
2.3.1 因子分析
因子分析通過(guò)研究眾多變量之間的內(nèi)部依賴(lài)關(guān)系,探求觀測(cè)數(shù)據(jù)中的基本結(jié)構(gòu),并以最少的信息丟失將多個(gè)變量化為少數(shù)幾個(gè)綜合變量,原始的變量是可觀測(cè)的顯在變量,而假想變量是不可觀測(cè)的潛在變量,稱(chēng)為因子。將表4的相關(guān)矩陣的數(shù)據(jù)導(dǎo)入SPSS,選擇主成分法(Principal components)進(jìn)行因子分析得到各行的特征根、方差(見(jiàn)表5)和碎石圖(見(jiàn)圖1)。
通過(guò)因子矩陣的總方差表,可見(jiàn)有18個(gè)主成分被提取,這些主成分累積解釋全部信息的61.17%。從載荷因子分布情況來(lái)看,因子分析結(jié)果中的關(guān)鍵詞分布比較離散,若嚴(yán)格按照載荷因子大于1的條件分類(lèi),則類(lèi)別將多達(dá)18個(gè),不利于分析討論;若按圖1曲線(xiàn)的拐點(diǎn)位置來(lái)分類(lèi),則類(lèi)別只有4個(gè),也不便于展開(kāi)討論。因此,綜合因子矩陣和碎石圖分析結(jié)果[9-10],結(jié)合其他高頻關(guān)鍵詞的特點(diǎn),選取因子載荷大于1.3的主成分進(jìn)行分類(lèi),可將40個(gè)關(guān)鍵詞歸為7類(lèi)。
表5 生物信息學(xué)文獻(xiàn)相關(guān)矩陣的因子分析Table 5 Factor analysis of correlation matrix of bioinformatics
圖1 生物信息學(xué)文獻(xiàn)高頻關(guān)鍵詞碎石圖Fig.1 Scree plot of bioinformatics high frequency keywords
2.3.2 聚類(lèi)分析
聚類(lèi)分析是一組將研究對(duì)象分為相對(duì)同質(zhì)的群組的統(tǒng)計(jì)分析技術(shù),其基本思想是把相似程度較大的變量聚合為一類(lèi),把另外一些相似的變量聚合為另一類(lèi),關(guān)系密切的聚合到一個(gè)小的分類(lèi),關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類(lèi),直到把所有的變量都聚合完畢,最后再把整個(gè)分類(lèi)系統(tǒng)畫(huà)成一張譜系圖,用它把所有變量間的親疏關(guān)系表示出來(lái)[11]。圖2是生物信息學(xué)高頻關(guān)鍵詞聚類(lèi)分析樹(shù)形圖,顯示了各關(guān)鍵詞之間的關(guān)聯(lián)程度,上端0~25的代表各類(lèi)之間的距離,越早被聚為一類(lèi)的關(guān)鍵詞之間的距離越近,關(guān)聯(lián)越緊密。
圖2 生物信息學(xué)文獻(xiàn)高頻關(guān)鍵詞聚類(lèi)分析樹(shù)形圖Fig.2 Cluster dendrogram of bioinformatics high frequency keywords
依據(jù)聚類(lèi)過(guò)程同時(shí)參考因子分析結(jié)果,本研究所用的高頻關(guān)鍵詞可分為以下7類(lèi):
(1)蛋白質(zhì)組學(xué)分析。蛋白質(zhì)組學(xué)直接研究編碼基因翻譯出的蛋白質(zhì)產(chǎn)物,比轉(zhuǎn)錄組學(xué)注釋基因組獲得的結(jié)果更直接。蛋白質(zhì)特有的翻譯后處理現(xiàn)象使得蛋白質(zhì)組學(xué)在提供基因表達(dá)產(chǎn)物、確認(rèn)和校正編碼基因、解析翻譯后處理現(xiàn)象,以及發(fā)現(xiàn)新的編碼基因及其規(guī)律上擁有先天的優(yōu)勢(shì)[12]。
(2)系統(tǒng)生物學(xué)分析。系統(tǒng)生物學(xué)是研究基因和蛋白質(zhì)的一種新方法,和傳統(tǒng)生物科學(xué)研究單個(gè)基因或者蛋白質(zhì)不同,系統(tǒng)生物學(xué)研究的是生物信息(DNA、mRNA、蛋白質(zhì)、功能蛋白、生物信息途徑、生物信息網(wǎng)絡(luò))在所有水平上復(fù)雜的相互作用,重點(diǎn)考察這些生物信息是如何一起工作的[13]。
(3)功能基因組學(xué)分析?;蚪M學(xué)的研究已從建立高分辨遺傳、物理和轉(zhuǎn)錄圖譜為主的結(jié)構(gòu)基因組學(xué)轉(zhuǎn)向功能基因組學(xué)。功能基因組學(xué)主要研究DNA序列變異性、基因組表達(dá)調(diào)控、模式生物體和生物信息平臺(tái)與數(shù)據(jù)庫(kù)構(gòu)建[14]。
(4)microRNA研究分析。microRNA主要與靶mRNA分子的3’非編碼區(qū)的不完全互補(bǔ)序列結(jié)合,通過(guò)靶向降解mRNA或抑制mRNA翻譯,達(dá)到基因沉默的調(diào)控效果[15]。近年來(lái),隨著測(cè)序技術(shù)的發(fā)展和多種分子生物學(xué)實(shí)驗(yàn)手段的結(jié)合,越來(lái)越多的microRNA相繼被發(fā)現(xiàn),相應(yīng)的表達(dá)變化、作用機(jī)制等后續(xù)研究正在迅速興起。
(5)基因克隆表達(dá)分析?;蚩寺〖夹g(shù)把來(lái)自不同生物的基因同有自主復(fù)制能力的載體DNA在體外人工連接,構(gòu)建成新的重組DNA,然后送入受體生物中去表達(dá),從而產(chǎn)生遺傳物質(zhì)和狀態(tài)的轉(zhuǎn)移和重新組合,再進(jìn)行基因相關(guān)結(jié)構(gòu)、功能的研究。
(6)電子克隆研究。電子克隆是利用生物信息學(xué)手段進(jìn)行基因克隆的新方法,它借助計(jì)算機(jī)的高速運(yùn)算能力,通過(guò)EST或基因組的序列組裝和拼接,利用RT-PCR方法快速獲得新基因,具有投入低、速度快、針對(duì)性強(qiáng)等優(yōu)點(diǎn)[16]。電子克隆技術(shù)成為基因工程中獲得新基因的重要手段,對(duì)開(kāi)展人類(lèi)基因功能的研究,在基因水平上預(yù)防疾病具有重要的意義和價(jià)值。
(7)基因的數(shù)據(jù)挖掘分析。高通量測(cè)序帶來(lái)了海量的核酸及蛋白質(zhì)序列數(shù)據(jù),人們很難直觀地解讀這些高維數(shù)據(jù)中的信息[17-18]。利用計(jì)算機(jī)科學(xué)及應(yīng)用數(shù)學(xué)知識(shí),通過(guò)降維、關(guān)聯(lián)分析、分類(lèi)和識(shí)別等數(shù)據(jù)處理方法,更好地理解基因表達(dá)譜、預(yù)測(cè)基因功能、分子結(jié)構(gòu)和優(yōu)化先導(dǎo)分子等。
2.3.3 多維尺度分析
多維尺度分析是一種通過(guò)二維空間展現(xiàn)關(guān)鍵詞之間的聯(lián)系,利用平面距離來(lái)反映關(guān)鍵詞之間的相似程度,同時(shí)又保留數(shù)據(jù)對(duì)象間原始關(guān)系的數(shù)據(jù)分析方法[19]。根據(jù)因子矩陣,利用SPSS進(jìn)行多維尺度分析并加以整理得出多維尺度圖,如圖3所示。圖中,有高度相似性的點(diǎn)聚集到一起形成一類(lèi),并且越居中的關(guān)鍵詞與其他關(guān)鍵詞的聯(lián)系越多,在該領(lǐng)域中的地位越核心。
分析生物信息學(xué)高頻關(guān)鍵詞在多維尺度圖上的分布情況。其中,“蛋白質(zhì)相互作用”關(guān)鍵詞靠近圖形中心,說(shuō)明蛋白質(zhì)組學(xué)是生物信息學(xué)研究的熱點(diǎn)方向。另外,系統(tǒng)生物學(xué)和比較基因組學(xué)、基因芯片、計(jì)算生物學(xué)研究仍將是今后的熱點(diǎn)和方向。
圖3 生物信息學(xué)文獻(xiàn)高頻關(guān)鍵詞多維尺度圖Fig.3 Multidimensional scale diagram of bioinformatics high frequency keywords
本文在提煉生物信息學(xué)期刊論文40個(gè)高頻關(guān)鍵詞的基礎(chǔ)上,運(yùn)用共詞分析方法,通過(guò)因子分析,聚類(lèi)分析和多維尺度分析,探討了生物信息學(xué)研究的結(jié)構(gòu)、關(guān)注的熱點(diǎn)和研究趨勢(shì),得出該領(lǐng)域研究頗受關(guān)注的7個(gè)類(lèi)別。由于論文發(fā)表的時(shí)滯性,特別是國(guó)內(nèi)和國(guó)外研究熱點(diǎn)的時(shí)滯性,單純通過(guò)關(guān)鍵詞列表進(jìn)行統(tǒng)計(jì)分析存在一定的偏差。另外,有些新出現(xiàn)的關(guān)鍵詞,因出現(xiàn)頻次較低,未能引起共詞分析方法的“注意”,所以分析時(shí)還要結(jié)合時(shí)間序列,才能更精確地預(yù)測(cè)未來(lái)的研究熱點(diǎn)。
References)
[1] 邱均平.信息計(jì)量學(xué)(九):第九講文獻(xiàn)信息引證規(guī)律和引文分析法[J].情報(bào)理論與實(shí)踐,2001,24(3):236-240.QIU Junping.Bibliometrics(IX):Document Information Law Citations and Citation Analysis [J].Information Studies:Theory& Application,2001,24(3):236-240.
[2] 郭文姣,歐陽(yáng)昭連,李陽(yáng),等.應(yīng)用共詞分析法揭示生物醫(yī)學(xué)工程領(lǐng)域的研究主題[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2012,31(4):545-551.GUO Wenjiao,OUYANG Zhaolian,LI Yang,et al.Revealing Theme Structure of Biomedical Engineering UsingCo-Word Analysis [J]. Chinese Journalof Biomedical Engineering,2012,31(4):545-551.
[3] 朱安青,周金元.我國(guó)科技查新研究熱點(diǎn)及趨勢(shì)分析——共詞分析視角[J].圖書(shū)情報(bào)研究,2009,2(4):45-49.ZHU Anqing,ZHOU Jinyuan.Co-Word Analysis of Sci-Tech Novelty Retrieval Research in China[J].Library &Information Studies,2009,2(4):45-49.
[4] LIN S M,MCCONNELL P,JOHNSON K F,et al.MedlineR:an open source library in R for Medline literature data mining[J].Bioinformatics,2004,20(18):3659-3661.
[5] KRALLINGER M,ERHARDT R A A,VALENCIA A.Text-mining approaches in molecular biology and biomedicine[J].Drug discovery today,2005,10(6):439-445.
[6] ZHANG J,JASTRAM I.A study of metadata element cooccurrence[J].Online Information Review,2006,30(4):428-453.
[7] 朱杰.生物信息學(xué)的研究現(xiàn)狀及其發(fā)展問(wèn)題的探討[J],生物信息學(xué),2005,3(4):185-188.ZHU Jie.Bioinformatics'Status in Quo and Its Development in the Future[J].China journal of Bioinformatics,2005,3(4):185-188.
[8] 許梅華.基于共詞分析的近年國(guó)內(nèi)發(fā)展心理學(xué)研究熱點(diǎn)分析[J].現(xiàn)代情報(bào),2010,30(8):171-175.XU Meihua. Hot Spots Analysis of China' s Developmental Psychology Based on Co-Words Analysis Method[J].Journal of Modern Information,2010,30(8):171-175.
[9] 張晗,韓爽,白星,等.利用遺傳算法確定醫(yī)學(xué)文獻(xiàn)的研究熱點(diǎn)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011,(3):57-61.ZHANG Han,HAN Shuang,BAI Xing,et al.Application of Genetic Algorithm to Identify Hot Topics from Medical Literature[J].New Technology of Library and Information Service,2011,(3):57-61.
[10]刁雪濤,張小芳,宋潔,等.生物信息學(xué)研究進(jìn)展[J].安徽農(nóng)學(xué)通報(bào),2008,14(22):160-162.DIAO Xuetao,ZHANG Xiaofang,SONG Jie,et al.Advances in Bioinformatics Research[J].Anhui Agriculture Science Bulletin,2008,14(22):160-162.
[11]曹利霞,葛淼,何進(jìn)偉.主成分分析法評(píng)估地理分布對(duì)成年人肺順應(yīng)性參考值的影響[J].第二軍醫(yī)大學(xué)學(xué)報(bào),2009,30(1):35-39.CAO Lixia,GE Miao,HE Jinwei.Principal Component Analysis of Geographic Influence on Adult Lung Compliance[J].Academic Journal of Second Military Medical University,2009,30(1):35-39.
[12]張昆,王樂(lè)珩,遲浩,等.蛋白質(zhì)基因組學(xué):運(yùn)用蛋白質(zhì)組技術(shù)注釋基因組[J].生物化學(xué)與生物物理進(jìn)展,2013,40(4):297-308.ZHANG Kun,WANG Leheng,CHI Hao,et al.Proteogenomics:Improving Genomes Annotation by Proteomics[J].Progress in Biochemistry and Biophysics,2013,40(4):297-308.
[13]資治科,孫之榮.系統(tǒng)生物學(xué):面向系統(tǒng)的生物學(xué)研究[J].系統(tǒng)工程理論與實(shí)踐,2005,(2):47-55.ZI Zhike, SUN Zhirong. SystemsBiology:Systemoriented Biological Research[J].Systems Engineering-Theory& Practice,2005,(2):47-55.
[14] STEIN L.Genome annotation:from sequence tobiology[J].Nat Rev Genet,2001,2(7):493-503.
[15]趙海蘋(píng),羅玉敏.微波 RNA-144的研究進(jìn)展[J].首都醫(yī)科大學(xué)學(xué)報(bào),2013,34(1):80-85.ZHAO Haiping,LUO Yumin.Progress in Studies of MicroRNA-144-Associated Diseases and Related Mechanism[J].Journal of Capital Medical University,2013,34(1):80-85.
[16]王冬冬,朱延明,李勇,等.電子克隆技術(shù)及其在植物基因工程中的應(yīng)用[J].東北農(nóng)業(yè)大學(xué)學(xué)報(bào),2006,37(3):403-408.WANG Dongdong, ZHU Yanming, LI Yong, et al.Application of in Silico Cloning Technique in Plant Gene Engineering [J]. JournalofNortheastAgricultural University,2006,37(3):403-408.
[17]黃子夏,柯才煥,陳軍.大規(guī)模GO注釋的生物信息學(xué)流程[J].廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,51(1):139-143.HUANG Zixia,KE Caihuan,CHEN Jun.Bioinformatics Procedure of Large-Scale GO Annotation [J].Journal of Xiamen University(Natural Science),2012,51(1):139-143.
[18] BRENT M R.Genome annotation past,present and future:how to define an ORF at each locus.Genome Research.2005,15(12):1777-1786.
[19]趙守盈,呂紅云.多維尺度分析技術(shù)的特點(diǎn)及幾個(gè)基礎(chǔ)問(wèn)題[J].中國(guó)考試,2010,(4):13-19.ZHAO Shouying,Lü Hongyun.The Characteristic and SeveralBasic Problem ofMultidimensionalScaling Analysis[J].China Examinations,2010,(4):13-19.