周玉新
摘 要:隨著生物信息學(xué)領(lǐng)域的發(fā)展,信息抽取和信息檢索廣泛應(yīng)用于生物信息學(xué)領(lǐng)域。文章總結(jié)了近幾年來生物信息學(xué)中信息抽取和信息檢索方法的應(yīng)用,作為生物信息學(xué)中文本挖掘的重要工具,其研究價值正得到越來越多的認(rèn)可和重視。
關(guān)鍵詞:生物信息學(xué);信息抽??;信息檢索;文本挖掘
在過去的十幾年中,隨著生物醫(yī)學(xué)文獻(xiàn)的飛速增長,基因組學(xué)和蛋白質(zhì)組學(xué)領(lǐng)域的生物醫(yī)學(xué)數(shù)據(jù)出現(xiàn)了巨量增長。人類基因組序列排序標(biāo)志著大規(guī)?;蚪M學(xué)和蛋白質(zhì)組學(xué)時代的開始。雖然可以進(jìn)行涉及基因和蛋白質(zhì)的大規(guī)模實驗,但對它們的解釋仍然是一個關(guān)鍵問題。例如,到目前為止,許多基因組數(shù)據(jù)的大規(guī)模分析都側(cè)重于基因表達(dá)模式,并且在基因表達(dá)基礎(chǔ)上建立基因聚類,而解釋形成的基因聚類需要進(jìn)行更進(jìn)一步的分析。
當(dāng)前,最常使用的生物醫(yī)學(xué)摘要源是由美國國家生物醫(yī)學(xué)技術(shù)信息中心(NCBI)維護(hù)的PubMed,它包含超過12,000,000篇生物醫(yī)學(xué)科技文獻(xiàn)摘要,每天被遍及世界的數(shù)百萬用戶訪問。
PubMed中的典型相關(guān)文獻(xiàn)搜索是一個布爾查詢,需要用戶提供相應(yīng)的搜索項或搜索項組合,然后返回所有滿足查詢的摘要集合。但是,PubMed并不提供基于相似度的工具以幫助用戶訪問這些返回的摘要集中與相關(guān)文檔相似的文檔。
為了提高文獻(xiàn)搜索的效率和精度,一些研究人員提出了一些自動文獻(xiàn)搜索方法,主要分為兩種方法:一種是建立在信息抽取和自然語言處理基礎(chǔ)上的生物信息學(xué)信息抽??;另一種是建立在信息檢索基礎(chǔ)上的生物信息學(xué)信息檢索,它在檢索粒度上解決了文獻(xiàn)挖掘問題。
1 生物信息學(xué)信息抽取
迄今為止,多數(shù)生物醫(yī)學(xué)文獻(xiàn)挖掘的工作都側(cè)重于自動信息抽取,在生物信息學(xué)背景下,信息抽取系統(tǒng)旨在發(fā)現(xiàn)關(guān)于一個給定基因或關(guān)于特定基因間相互關(guān)系的信息。
Leek利用隱馬爾科夫模型(HMM)抽取文獻(xiàn)中討論染色體上基因定位的句子?;蚝腿旧w名稱利用簡單的啟發(fā)式識別,而實驗方法以及定位標(biāo)志在一個預(yù)定義列表中給出,HMM自身的狀態(tài)概率和轉(zhuǎn)移概率從被標(biāo)注的OMIM項中學(xué)習(xí)。訓(xùn)練和測試集都由幾百個句子組成,系統(tǒng)性能用準(zhǔn)確率和召回率度量。
Craven等在這一工作上進(jìn)行了擴(kuò)展,他們開發(fā)了用于從枯燥的句子中鑒別描述事實句子的系統(tǒng)。系統(tǒng)被設(shè)計成用于識別兩種類型的事實:蛋白質(zhì)亞細(xì)胞定位和基因疾病之間的關(guān)聯(lián)。Ray & Craven進(jìn)一步擴(kuò)展了這一工作,他們利用描述句子結(jié)構(gòu)的HMMs識別那些討論基因與疾病間相關(guān)聯(lián)的句子。該工作不使用預(yù)定義的詞匯,而有關(guān)基因和蛋白質(zhì)句子的正確識別也仍局限于在訓(xùn)練模型中使用過的名稱。
Rindflesch等和Friedman等在傳統(tǒng)NLP基礎(chǔ)上提出了基于解析和使用主題詞表的方法,該方法可以從文檔中抽取關(guān)于基因和蛋白質(zhì)的相關(guān)信息。他們的不同之處在于Rindflesch等的工作關(guān)注藥物對細(xì)胞中基因活性的作用,而Friedman等則關(guān)注于基因和作為調(diào)控途徑的蛋白質(zhì)之間的相互作用。
Blachke等使用了一種更簡單的方法,該方法依賴于句子中基因和蛋白質(zhì)的共現(xiàn),而不是機(jī)器學(xué)習(xí)方法或先進(jìn)的NLP,其目標(biāo)是在一個與蛋白質(zhì)相關(guān)的預(yù)定義集合中抽取蛋白質(zhì)相互作用的信息。它使用了一個蛋白質(zhì)名稱列表和一個相互作用,通過查找兩個共現(xiàn)的蛋白質(zhì)被一個表示相互作用的單詞分割的句子來識別蛋白質(zhì)相互作用。Blashke & Valencia擴(kuò)展了這一工作,在該工作中他們使用了一個蛋白質(zhì)名稱檢測模塊,并對句子中的否定進(jìn)行了處理。
到目前為止所有的方法都是被應(yīng)用于較小的樣本集,Jenssen等邁出了在大規(guī)模分析上的重要一步。他們利用一個預(yù)定義的蛋白質(zhì)名稱列表,通過一個布爾查詢查找PubMed中提及這些基因的所有摘要,并在此基礎(chǔ)上建立了一個以基因作為節(jié)點和連接在相同文獻(xiàn)中提及基因為邊的圖,邊的權(quán)重表示共現(xiàn)的次數(shù)。與此類似,許多基于蛋白質(zhì)/基因名稱共現(xiàn)的系統(tǒng)通常建立在一個從公用數(shù)據(jù)中收集而來的詞庫基礎(chǔ)上。
雖然研究人員對于使用信息抽取和自然語言處理的方法投入了很多努力,但這些方法通常強(qiáng)依賴于預(yù)定義信息,但很多預(yù)定義信息往往難以獲得。
2 生物信息學(xué)信息檢索
最常用的信息檢索已經(jīng)被研究者廣泛應(yīng)用于搜索感興趣的文章,同樣,在生物信息學(xué)領(lǐng)域已經(jīng)開發(fā)出許多基于信息檢索的大規(guī)模生物醫(yī)學(xué)分析方法。
該領(lǐng)域的最初工作是由Shatkey等完成的,他們的目標(biāo)是發(fā)現(xiàn)基因間的功能性關(guān)系而不強(qiáng)依賴于基因名稱或句子結(jié)構(gòu),該方法是建立在許多基因和它們的功能已經(jīng)在文獻(xiàn)中討論這一假設(shè)基礎(chǔ)上。
其他一些研究者將一些信息檢索方法應(yīng)用于生物信息學(xué)領(lǐng)域,主要是聚類和分類的變形。Renner & Azodi提出一個蛋白質(zhì)標(biāo)注聚類方法。Iliopoulos等將k-means聚類應(yīng)用到一個較小的PubMed摘要集以獲取有意義的子集,每一個子集討論一些共同的主題,該主題由聚類中抽取的詞項來描述。Marcotte等使用一個依賴于辨別詞的Bayers分類器來識別討論PPI的摘要。
信息檢索技術(shù)的另一個應(yīng)用是蛋白質(zhì)的同源性領(lǐng)域。Donaldson等開發(fā)了PreBind/Textomy系統(tǒng),該系統(tǒng)為了從文獻(xiàn)中發(fā)現(xiàn)PPI,組合了信息檢索和信息抽取。
在信息檢索階段,訓(xùn)練了一個SVM分類器來區(qū)分摘要是否討論了PPI,然后分類器被用于識別和檢索與PPI相關(guān)的摘要。一旦檢索到相關(guān)摘要,則應(yīng)用信息抽取來識別文本間的相互作用。
3 結(jié)語
隨著生物信息學(xué)領(lǐng)域的發(fā)展,信息抽取和信息檢索廣泛應(yīng)用于生物信息學(xué)領(lǐng)域。文章總結(jié)了近幾年來生物信息學(xué)中信息抽取和信息檢索方法的應(yīng)用,作為生物信息學(xué)中文本挖掘的重要工具,其研究價值正得到越來越多的認(rèn)可和重視。
參考文獻(xiàn):
[1] 于躍,徐志健,王珅等.基于雙聚類方法的生物醫(yī)學(xué)信息學(xué)文本數(shù)據(jù)挖掘研究[J].圖書情報工作,2012,56(18):133-136.
[2] 齊彬,呂婷.共現(xiàn)分析技術(shù)在生物醫(yī)學(xué)信息文本數(shù)據(jù)挖掘中的應(yīng)用[J].中華醫(yī)學(xué)圖書情報雜志,2009(3):41-43.