,
基因組注釋是指利用生物信息學(xué)方法對(duì)基因組中所有基因的生物學(xué)功能進(jìn)行高通量注釋,包括核苷酸級(jí)別的注釋、蛋白質(zhì)級(jí)別的注釋以及流程級(jí)別的注釋[1]。目前,常規(guī)的基因組注釋方法存在步驟過(guò)于繁瑣、需要借助高精尖設(shè)備、人工操作存在誤差、 “同源-功能相似”只是一種假說(shuō)、模體本身具有的層次性以及涉及的分析工具較多無(wú)法自動(dòng)化操作等問(wèn)題,得到的結(jié)果存在誤差[2]。隨著計(jì)算機(jī)技術(shù)的發(fā)展以及關(guān)于基因研究的生物醫(yī)學(xué)文獻(xiàn)數(shù)量的不斷增加,利用文本挖掘技術(shù)[3]對(duì)生物醫(yī)學(xué)文獻(xiàn)分析來(lái)實(shí)現(xiàn)對(duì)基因組注釋成為一種新的研究趨勢(shì)。
筆者利用WOS數(shù)據(jù)庫(kù)中的文獻(xiàn)作為研究的樣本來(lái)源,檢索策略為:TS=(gene annotation* OR genomic* annotation*) AND TS=(text mining OR literature mining),檢索時(shí)間為2016年10月19日,限定時(shí)間段在2000-2016年之間,得到328篇相關(guān)文獻(xiàn)。利用書目共現(xiàn)分析軟件BICOMB抽取相關(guān)文獻(xiàn)中的引文,選取出現(xiàn)頻次在15次及以上的引文,共得到16篇高被引論文(表1)。利用BICOMB構(gòu)建高被引論文——來(lái)源文獻(xiàn)矩陣(該矩陣可反映高被引論文在來(lái)源文獻(xiàn)中的分布情況),然后將詞篇矩陣導(dǎo)入聚類分析軟件gCluto中進(jìn)行高被引論文的同被引聚類分析。
表1 328篇來(lái)源文獻(xiàn)中的高被引論文(n=16,f>=15)
將同被引聚類分析結(jié)果用可視化圖像表示,山峰圖見圖1,棋盤圖見圖2。圖1中16篇高被引論文根據(jù)其在328篇來(lái)源文獻(xiàn)中的被引情況可分成3個(gè)大類;圖2中行聚類是對(duì)于高被引論文的聚類,列聚類是對(duì)于來(lái)源文獻(xiàn)的聚類。圖2中行聚類結(jié)果也表明該16篇高被引論文可分為3類,表示文本挖掘技術(shù)在基因組注釋中的3個(gè)應(yīng)用方向。各大類對(duì)應(yīng)的高被引論文見表2。其中每個(gè)大類的內(nèi)容可根據(jù)該大類中包含的高被引論文及其間的樹狀關(guān)系進(jìn)行總結(jié),通過(guò)對(duì)每個(gè)大類對(duì)應(yīng)的列聚類中描述度較高的來(lái)源文獻(xiàn)(即每個(gè)類的類標(biāo)簽文獻(xiàn))的閱讀研究進(jìn)一步把握各大類的內(nèi)容。本文結(jié)合同被引論文聚類分析結(jié)果和各類中高被引論文,將文本挖掘技術(shù)在基因組注釋方面的應(yīng)用分為權(quán)威工具的使用、文本挖掘工具和算法的開發(fā)、文本挖掘工具的檢驗(yàn)3類。
圖1 高被引論文聚類分析的山峰圖
圖2 高被引論文聚類分析的棋盤圖
表2 3類對(duì)應(yīng)的高被引論文
一是權(quán)威工具的使用。通過(guò)對(duì)Cluster 1中相關(guān)高被引文獻(xiàn)以及類標(biāo)簽文獻(xiàn)的分析,總結(jié)出在基因組注釋的相關(guān)研究中,收錄有基因組及基因產(chǎn)物相關(guān)序列、結(jié)構(gòu)或功能信息的數(shù)據(jù)庫(kù)和軟件工具以及與基因相關(guān)的受控詞匯表被廣泛利用,如京都基因和基因組百科全書(Kyoto Encyclopedia of Genomes, KEGG)[4-5]、一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(The Unified Medical Language System, UMLS)[6-7]、基因本體(Gene Ontology, GO)[8]、基本局域聯(lián)配搜索工具(Basic Local Alignment Tool, BLAST)等。這些數(shù)據(jù)庫(kù)、軟件將已知的基因相關(guān)信息匯總、整理并組織起來(lái),提供給科研人員使用和查詢。Taniya T等人[9]在尋找特定復(fù)雜疾病新的候選基因的研究中利用了京都基因和基因組百科全書、基因本體以及其他一些數(shù)據(jù)庫(kù)中的信息來(lái)獲取與類風(fēng)濕性關(guān)節(jié)炎和前列腺癌相關(guān)的已知致病基因。
然而這些數(shù)據(jù)庫(kù)或軟件工具中有些關(guān)于基因、蛋白質(zhì)等物質(zhì)的注釋信息基本依賴于專家人工從文獻(xiàn)集中獲得。隨著生物醫(yī)學(xué)科技文獻(xiàn)數(shù)量的增加以及用戶需求的增加,這種數(shù)據(jù)收集方法缺乏靈活性,其收錄信息的范圍也受到限制。因此從文獻(xiàn)中自動(dòng)提取信息的計(jì)算機(jī)算法被開發(fā)出來(lái)作為人工開發(fā)數(shù)據(jù)庫(kù)的補(bǔ)充,尤其是基因概念之間的關(guān)聯(lián)研究及應(yīng)用[10-11]。
二是文本挖掘工具和算法的開發(fā)。對(duì)Cluster 2中相關(guān)高被引文獻(xiàn)進(jìn)行分析,五篇高被引論文的研究方向都是對(duì)于文本挖掘工具的介紹,包括基因和蛋白質(zhì)等相關(guān)實(shí)體的識(shí)別工具[12-13]、基因共現(xiàn)網(wǎng)絡(luò)創(chuàng)建工具[14]、利用基因與蛋白作為鏈接點(diǎn)構(gòu)建文獻(xiàn)網(wǎng)絡(luò)的信息系統(tǒng)[15]等等。在此基礎(chǔ)上再對(duì)Cluster 2中的類標(biāo)簽文獻(xiàn)進(jìn)行分析,我們總結(jié)出在基因組注釋中,相關(guān)文本挖掘工具和算法的開發(fā)與利用是文本挖掘技術(shù)在基因組注釋方面的一大重要應(yīng)用。
在分子生物學(xué)及相關(guān)領(lǐng)域,大規(guī)模高通量實(shí)驗(yàn)技術(shù)的發(fā)展和生物信息學(xué)工具的使用產(chǎn)生了大量的數(shù)據(jù)并促進(jìn)了科學(xué)文獻(xiàn)的增長(zhǎng),但也使得許多顯性或隱性知識(shí)被掩蓋在文獻(xiàn)中難以被科研人員利用,這促進(jìn)了文本挖掘工具和算法的發(fā)展與利用[16]。通過(guò)Rodriguez-Esteban R等人[17]與Krallinger M等人[18]對(duì)于生物醫(yī)學(xué)領(lǐng)域文本挖掘技術(shù)的論述,我們可以總結(jié)出文本挖掘技術(shù)涉及到命名實(shí)體識(shí)別、關(guān)系檢測(cè)、知識(shí)發(fā)現(xiàn)等多個(gè)階段,在各個(gè)階段中都有相關(guān)的文本挖掘工具或應(yīng)用程序被開發(fā)出來(lái)。比如在命名實(shí)體識(shí)別階段,有Whatizit系統(tǒng)(一個(gè)文本處理系統(tǒng),可以識(shí)別文本中的分子生物學(xué)術(shù)語(yǔ),并將其鏈接到公共可用的數(shù)據(jù)庫(kù)中)、ABNER程序(A Biomedical Named Entity Recognizer,生物醫(yī)學(xué)命名實(shí)體識(shí)別器,是一個(gè)可以識(shí)別蛋白質(zhì)、DNA、RNA、細(xì)胞系和細(xì)胞類型這五種術(shù)語(yǔ)的開源軟件工具)等工具;在關(guān)系檢測(cè)階段,有MedGene(一種全面估計(jì)和總結(jié)Medline中所有人類基因——疾病關(guān)系相對(duì)強(qiáng)度的文本挖掘工具)等工具,并且基因本體和蛋白質(zhì)相互作用網(wǎng)絡(luò)也能分別展示相關(guān)基因、蛋白質(zhì)的親疏遠(yuǎn)近關(guān)系;在知識(shí)發(fā)現(xiàn)階段,有Arrowsmith(一個(gè)免費(fèi)的、基于公共網(wǎng)絡(luò)的兩節(jié)點(diǎn)搜索工具,允許用戶在PubMed中識(shí)別任何兩組文章集之間有生物學(xué)意義的連接)等工具。
三是文本挖掘工具的檢驗(yàn)。對(duì)Cluster 0中相關(guān)高被引文獻(xiàn)進(jìn)行分析,6篇高被引論文中有5篇文獻(xiàn)的主要內(nèi)容是對(duì)于BioCreative(Critical Assessment of Information Extraction systems in Biology,生物學(xué)中信息提取系統(tǒng)的嚴(yán)格評(píng)價(jià))評(píng)估的描述[19-23],再結(jié)合對(duì)Cluster 0中描述度較高的類標(biāo)簽文獻(xiàn)的分析,發(fā)現(xiàn)文本挖掘在基因組注釋中的一大應(yīng)用是進(jìn)行文本挖掘競(jìng)賽以檢驗(yàn)各文本挖掘工具。
在生物醫(yī)學(xué)領(lǐng)域,已有很多關(guān)于基因、蛋白等物質(zhì)的注釋數(shù)據(jù)庫(kù)被開發(fā)。隨著生物醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)量的增長(zhǎng),依靠專家人工從文獻(xiàn)中提取有用信息策展相關(guān)數(shù)據(jù)庫(kù)在時(shí)間上已經(jīng)有很大的局限性,這促進(jìn)了生物醫(yī)學(xué)領(lǐng)域文本挖掘技術(shù)尤其是自然語(yǔ)言處理技術(shù)的發(fā)展,也使得BioCreative評(píng)估應(yīng)運(yùn)而生。 BioCreative評(píng)估建立于2004年,主要目的在于評(píng)估應(yīng)用于生物醫(yī)學(xué)領(lǐng)域的文本挖掘技術(shù)的最高水平。除此之外,該評(píng)估還促進(jìn)了相關(guān)數(shù)據(jù)庫(kù)開發(fā)者與文本挖掘研究人員之間的交流,有利于自動(dòng)化的文本挖掘技術(shù)與人工策展相結(jié)合共同進(jìn)行數(shù)據(jù)庫(kù)的開發(fā)。 從2004年開始,BioCreative評(píng)估用來(lái)檢驗(yàn)各文本挖掘工具的任務(wù)多圍繞文獻(xiàn)中基因、蛋白質(zhì)等相關(guān)實(shí)體的提取、基因標(biāo)準(zhǔn)化、利用基因本體或蛋白質(zhì)相互作用網(wǎng)絡(luò)在全文中提取基因或蛋白質(zhì)的功能注釋等方面展開,在這期間還邀請(qǐng)文本挖掘工具最終用戶參與進(jìn)來(lái),加強(qiáng)文本挖掘工具解決生物醫(yī)學(xué)研究中實(shí)際問(wèn)題的能力[18,24-26]。
本文通過(guò)對(duì)WOS中有關(guān)文本挖掘與基因組注釋的相關(guān)文獻(xiàn)的檢索、篩選、聚類和閱讀研究,發(fā)現(xiàn)文本挖掘技術(shù)在基因組注釋方面的應(yīng)用大致分為權(quán)威工具的使用、文本挖掘工具和算法的開發(fā)、文本挖掘工具的檢驗(yàn)3方面。伴隨著生物醫(yī)學(xué)文獻(xiàn)量的不斷增加、高通量實(shí)驗(yàn)技術(shù)的不斷進(jìn)步以及科研人員對(duì)于信息提取工具需求的增加,相信會(huì)有越來(lái)越多的文本挖掘工具被開發(fā)出來(lái)。與此同時(shí),隨著文本挖掘工具競(jìng)賽的舉辦,其研發(fā)會(huì)越來(lái)越貼近科研人員的現(xiàn)實(shí)需要。對(duì)于依靠人工從文本集中收集有用信息的數(shù)據(jù)庫(kù)等工具的研發(fā),未來(lái)的發(fā)展趨勢(shì)應(yīng)該會(huì)將文本挖掘技術(shù)整合進(jìn)相關(guān)開發(fā)流程,更加依賴文本挖掘技術(shù)來(lái)提取信息以充實(shí)數(shù)據(jù)庫(kù)。當(dāng)然,除了在基因組注釋方面,文本挖掘技術(shù)在藥物重定位研究、藥物靶向位點(diǎn)研究等其他生物醫(yī)學(xué)領(lǐng)域也會(huì)發(fā)揮越來(lái)越重要的作用。
中華醫(yī)學(xué)圖書情報(bào)雜志2017年3期