,,,,
文獻的海量增長使知識發(fā)現(xiàn)和有效利用愈發(fā)困難,基于文獻進行知識發(fā)現(xiàn),是未來文獻服務的重要方向。傳統(tǒng)的文獻檢索平臺能夠幫助用戶快速查找與定位目標文獻,但檢索到的候選文獻數(shù)量依然龐大。要從大量的候選文獻集中獲得有效的知識,仍然需要經(jīng)過人工的閱讀分析,費時費力甚至難以實現(xiàn)。文獻蘊含的知識并不是孤立存在的,它們之間存在千絲萬縷的聯(lián)系,既包括人們可利用數(shù)據(jù)庫檢索到的顯性聯(lián)系,如文獻直接報道的生物分子關系[1]、互相引用的文獻之間主題內(nèi)容上的相關性[2],也包括常規(guī)的數(shù)據(jù)庫檢索不出的隱性聯(lián)系,如很多文獻雖互不引用但卻存在對相同問題的闡述。這種文獻中的隱性關聯(lián)的挖掘比信息本身的增長更有意義。
基于文獻的知識發(fā)現(xiàn)研究是通過潛在的關聯(lián)挖掘來推斷出新的科學假設[3]。本文主要探討關聯(lián)知識的圖結構組織對文獻知識發(fā)現(xiàn)的作用,并建立文獻信息網(wǎng)絡的知識發(fā)現(xiàn)系統(tǒng)應用模型。
基于文獻的知識發(fā)現(xiàn)理論(Literature-based Discovery,LBD)是由Swanson教授最早提出的。其基本原理是如果有兩類文獻集As和Cs,其中As主要討論了概念A和概念集B之間的關系,而Cs則討論了概念C和概念集B之間的關系,但是沒有任何文獻直接討論概念A和概念C的關系,那么A與C之間通過共同的橋梁B,隱含地存在某種關系,這是一個新的科學發(fā)現(xiàn)[4]。在Swanson關于雷諾氏病和食用魚油的假設中,A代表食用魚油,B代表血液和循環(huán)系統(tǒng)的一系列變化,即血液粘稠的降低、血小板聚集的降低及血管收縮的減少,C代表雷諾氏病,未知的外部循環(huán)混亂。由已知文獻可得出兩個結論:一是食用魚油可以引起特定的血管變化,即A引起B(yǎng)(A,B);二是同樣的血管變化可改善雷諾氏病,即B引起C(B,C),由ABC模式得出假設:A引起C,即雷諾氏病與魚油之間有一定聯(lián)系,食用魚油可能對雷諾氏病有治療作用[5]。
大量文獻集聚會使研究內(nèi)容的相關性呈現(xiàn)出一個關聯(lián)知識網(wǎng)絡,如果將文獻集轉化為基于網(wǎng)絡模型存儲管理的結構化知識庫,可以進一步通過知識網(wǎng)絡進行關聯(lián)挖掘,提高知識發(fā)現(xiàn)的效率。如通過對文獻中關鍵詞共現(xiàn)網(wǎng)絡的研究,可以幫助我們總結出當前的研究熱點、分析科研結構、發(fā)現(xiàn)研究內(nèi)容的相關性等[6-7]。還有一些工作開始從系統(tǒng)層面上考察信息間的整合分析,通過多領域多數(shù)據(jù)源交叉融合,發(fā)現(xiàn)間接的隱含聯(lián)系[8]。此外,文獻[9]報道了利用文獻衍生的生物醫(yī)學實體關聯(lián)網(wǎng)絡進行科學研究結構與相關性的挖掘分析,研究主題和研究內(nèi)容之間關聯(lián)的緊密程度非常高。在同一個大的研究領域中,從一個研究對象可以很快轉移到另外一個研究對象,兩者結合很容易形成新的研究內(nèi)容,從而促使不同領域研究對象之間可以相互借鑒,使科研人員獲得好的科研思路,這也從網(wǎng)絡的角度驗證了基于文獻的知識發(fā)現(xiàn)的思想。
早期基于文獻的知識發(fā)現(xiàn)方法涉及大量的人工對文本的統(tǒng)計分析操作,文本分析的數(shù)據(jù)集多控制在文獻的標題。隨著文本挖掘技術的快速發(fā)展,基于文本挖掘方法的文獻知識發(fā)現(xiàn)研究在科學發(fā)現(xiàn)中得到了越來越廣泛的應用。然而,基于文獻的知識發(fā)現(xiàn)過程實際上是一個啟發(fā)式的過程,獲得的潛在關聯(lián)知識需要進一步確證的假設,不同種類、不同相關程度的關聯(lián)都可能是激發(fā)新假設的有用知識,于是對文獻蘊含的各種關聯(lián)知識的便捷導航訪問便顯得至關重要。因此,基于復雜網(wǎng)絡模型整合大量文獻數(shù)據(jù),將文獻集轉化為基于網(wǎng)絡模型存儲管理的結構化知識庫,對獲取新的知識具有重要意義。這不僅是一種可行的方法,而且具有更強的操作性。
非結構化的文獻必須利用自然語言處理技術對其進行文本處理,將非結構化的文本轉化為結構化的數(shù)據(jù)集,以便后續(xù)進行深入的數(shù)據(jù)挖掘。結構化處理的核心是提取文獻中能用于關聯(lián)發(fā)現(xiàn)的知識單元,在自然語言文本中最有用的莫過于有意義的名詞或名詞短語。一般來說,生物醫(yī)學文獻中最有價值的是各種描述生物醫(yī)學領域的專業(yè)術語,即生物概念或?qū)嶓w。因此,在生物醫(yī)學文獻挖掘領域,絕大多數(shù)文獻挖掘工作的一個必不可少的步驟就是從文獻中識別出感興趣的命名概念或?qū)嶓w,即從文獻中獲得生物醫(yī)學工作者所感興趣的專業(yè)實例和術語,包括基因、蛋白質(zhì)、細胞、化合物和藥物等。文本處理的基本過程主要包括分詞、詞性標注、短語識別、停用詞去除、詞干提取和命名實體識別等(圖1)。
圖1 文本處理的基本步驟
分詞:將句子還原為單詞序列。其目的是識別文本數(shù)據(jù)中的句子和單詞邊界,為詞性標注和實體識別提供統(tǒng)一的輸入數(shù)據(jù)。
詞性標注:將文本分成單詞之后,需要再對單詞的特征進行分析,確定每個單詞的詞性。詞性用來描述一個詞在上下文中的作用,例如描述概念的名詞、下文中引用名詞的代詞等。詞性標注就是為給定句子中的每個詞賦予正確的詞性標記。
短語識別:識別出句子中多個單詞組成的有意義的短語單元。短語識別可以借助于自然語言處理中的句法分析技術,也可以借助于概率統(tǒng)計的方法。如兩個單詞經(jīng)常共同出現(xiàn),兩者很可能是一個短語。
停用詞去除:停用詞是指在文檔中出現(xiàn)次數(shù)很多而本身沒有實際意義的詞, 例如英文中的大部分介詞、冠詞等。通常需要針對特定領域文獻集的特點,制定一部分相應的規(guī)則,人工建立一個停用詞表對候選詞進行過濾。
詞干提?。菏侨コ~綴得到詞根的過程,包括詞干化與詞形還原兩種方法。前者是通過一定的規(guī)則提取詞干,后者是通過完全的形態(tài)分析并借助詞典得到詞的精確詞形。
命名實體識別:命名實體是一種標識了某個概念或?qū)嶓w的短語,如專有名詞、人名、地名等。命名實體識別主要是提取短語并識別后得到名稱短語。
直接利用自然語言處理的方法,從文獻中提取以名詞短語為基礎的概念實體,不針對特定的生物醫(yī)學實體,不但能提取到文獻關鍵詞,而且可以盡可能地收集到文獻中出現(xiàn)的實體,以滿足通用性和覆蓋率的要求。
通常一個簡單的無向無權網(wǎng)絡,可記為G=(V,E),其中集合 V 稱為節(jié)點集,V={v1,v2,…,vn},集合E稱為邊集,E={e1,e2,…,em},任意一條邊對應一個節(jié)點的二元組:ex=(vi,vj),E是V ×V的一個子集。對于用節(jié)點和邊描述的圖,可以用節(jié)點的度、連通性與路徑等幾個定量指標來描述圖的性質(zhì)。
節(jié)點的度:節(jié)點V在圖G的度是指圖G中與節(jié)點V連接的邊數(shù),記為d(v)或k(v)。節(jié)點的度主要用于描述節(jié)點的連通性。
連通性:若G中每對不同節(jié)點u,v之間都至少存在一條通路,則稱G是連通的,即G為連通圖。
路徑:圖的路徑是指連接兩個節(jié)點的節(jié)點與邊交替出現(xiàn)的序列,且所有節(jié)點與邊都不相同。路徑長度是連接兩個節(jié)點之間的邊的數(shù)量,網(wǎng)絡距離可以通過路徑長度來描述,通常用最短路徑作為連接兩個節(jié)點的路徑。
信息網(wǎng)絡是將文獻集中的內(nèi)容相關性轉化為基于關聯(lián)信息存在的圖結構數(shù)據(jù)模型,根據(jù)文獻中的語義單元即概念實體及其關聯(lián)信息,對文獻中所蘊含的知識進行網(wǎng)絡結構化。信息網(wǎng)絡的構建分概念實體及其關聯(lián)的抽取和實體、關聯(lián)及內(nèi)容鏈接的結構化管理兩個步驟。在文獻信息網(wǎng)絡G=(V,G)中,節(jié)點集V是各種從生物醫(yī)學文獻中提取出的實體的集合,如基因、蛋白質(zhì)、化合物或疾病等;邊集E 是實體之間的關聯(lián)集合,且邊是無向加權的,邊的權值對應于兩實體共現(xiàn)的次數(shù)。
2.2.1 關聯(lián)信息的提取
目前已有多種實體及其關系提取的方法。在生物醫(yī)學文獻挖掘研究中,常用共現(xiàn)的方法來提取實體的關聯(lián),認為當兩個詞語共現(xiàn)于一定的語境中時,詞語之間可能存在一定的語義相關性[10]。通過關系抽取技術,從非結構化的自然語言文本中抽取出格式統(tǒng)一的關系數(shù)據(jù),能夠建立多個實體之間廣泛的信息關聯(lián)。以基于句子共現(xiàn)的實體關聯(lián)提取為例,其基本步驟如下:根據(jù)基于自然語言的方法識別出句子的實體NP及其位置。如果在同一個句子中得到的實體按其在句子中的順序依次為NP1、NP2、NP3,則得到關聯(lián):(NP1,NP2),(NP1,NP3),(NP2,NP3)。
例如,文獻標題(PMID:20856896):β1-syntrophin modulation by miR-222 in mdx mice,提取得到實體及其位置的列表為[(β1-syntrophin modulation,1)、(miR-222, 4),(mdx mouse,6)],進一步得到關聯(lián):(β1-syntrophin modulation,miR-222)、(β1-syntrophin modulation,mdx mouse)、(miR-222,mdx mouse)。
2.2.2 實體、關聯(lián)及內(nèi)容鏈接的圖結構管理
圖G中每個節(jié)點包含有屬性,數(shù)據(jù)記錄在節(jié)點都包括的屬性里面,由節(jié)點組成的關系可以擁有自己的屬性,關系相關的數(shù)據(jù)記錄在其包括的屬性里面。如圖2所示,針對建立起的關聯(lián)信息網(wǎng)絡,可以利用遍歷算法對圖進行導航訪問,遍歷節(jié)點與關系,每一次遍歷操作通過具體的路徑識別算法實現(xiàn),根據(jù)路徑有序地排列節(jié)點。同時,可以分別為節(jié)點、關系與屬性分別建立映射,分配獨立的索引標識,并基于屬性快速查詢節(jié)點與關系,快速獲取節(jié)點與關系的屬性中記錄的數(shù)據(jù),然后將文獻集轉化為句子集,每個關聯(lián)能夠鏈接到句子,句子又能夠鏈接到摘要或原文,便于回溯文獻并加以分析,進一步確定關聯(lián)的語義信息。
圖2 信息網(wǎng)絡的存儲結構
特異性關聯(lián)的發(fā)現(xiàn)是指通過對語義相關性的計算去搜索與置優(yōu)特異性關聯(lián),以便更好地獲得用戶感興趣并能激發(fā)科學假設的關聯(lián)。特異性關聯(lián)主要包括強關聯(lián)與弱關聯(lián),強關聯(lián)是指頻繁共現(xiàn)的關聯(lián),弱關聯(lián)是指共現(xiàn)次數(shù)很少的關聯(lián)。傳統(tǒng)文獻檢索強調(diào)獲得強相關的內(nèi)容,容易忽略那些可激發(fā)新科學假設的弱關聯(lián),而從這些弱關聯(lián)中可能更容易獲得新知識。信息網(wǎng)絡中節(jié)點與節(jié)點之間的關聯(lián)都給定了相應權重W,特異性關聯(lián)的核心任務是如何快速獲取給定節(jié)點的關聯(lián)。如圖3所示,給定X,可以方便地提取其關聯(lián)的節(jié)點Y;通過對候選關聯(lián)集按權重Wi(1≦i≦n)排序,可以根據(jù)不同需求去篩選強弱關聯(lián)。
圖3 特異性關聯(lián)的發(fā)現(xiàn)
基于文獻的知識發(fā)現(xiàn)的核心是通過ABC模型來挖掘概念間的間接關系,即當不相關的實體A與C同時與實體B相關時,A與C也可能通過實體B形成間接關系,三者構成一條A-B-C關系鏈。因此,必須明確A、B、C三個元素才可以獲得一條有用的關聯(lián)知識發(fā)現(xiàn)鏈。B的出現(xiàn)為科研人員提供有益的啟發(fā)和關鍵性的引導,顯著增強了目的性和方向性,幫助專業(yè)研究人員認識和發(fā)現(xiàn)潛在有用的知識片斷間的關聯(lián),進一步證實科學假設的可行性。如圖4所示,給定任意節(jié)點B,以B為支點或起點,可以獲取間接關聯(lián)A-B-C與B-C-D,即AC之間與BD之間都可能形成新的科學假設。
圖4 間接關聯(lián)的推斷
關聯(lián)網(wǎng)絡把文獻庫中的知識以網(wǎng)絡形式表示,既顯示出知識之間的聯(lián)系,也過濾了冗余知識而以最簡化的形式表示,這就方便研究人員發(fā)現(xiàn)未直接報道的對象間的隱含關系。建立關聯(lián)網(wǎng)絡中任意兩個節(jié)點間的關聯(lián),能夠計算兩個節(jié)點之間的語義相關性,從而輔助科研人員篩選出有用的通路知識,即應該按照怎樣的路徑建立它們之間的關聯(lián)。實際上是哪些語義關系可以發(fā)生關聯(lián),即哪些語義關系可以進行運算(圖5)。
圖5 通路知識的抽取
通路知識的抽取是指在實體關聯(lián)網(wǎng)絡中指定概念實體A與C,提取連接它們的一系列關鍵詞構成的最短路徑。最短路徑是衡量連貫性和凝聚力的重要指標, 兩個對象節(jié)點距離越短, 對象之間的聯(lián)系越密切, 存在語義關聯(lián)并可能形成科學假設的可能性越大。因此,我們將兩個概念實體A與C之間的通路知識發(fā)現(xiàn)的問題等價于在關聯(lián)網(wǎng)絡中的最短路徑搜索問題。如圖5所示,給定任意A和C,提取它們之間的最短路徑A-(B1…Bn)-C,計算每條路徑的語義相關性,對結果集進行排序。顯然,當A與C之間的距離為2時,即等價于間接關系的提取,獲得ABC模型。
關聯(lián)信息是文獻保存的重要科學知識,如一個基因相關的疾病有哪些,換句話說,就是如何找到已有文獻報道的與某個基因相關的疾病。本文探討了圖結構對文獻知識組織的重要作用,建立了基于關聯(lián)信息網(wǎng)絡的知識發(fā)現(xiàn)的應用模型。在網(wǎng)絡結構的知識庫基礎上,可以更便捷地導航訪問文獻集中蘊含的關聯(lián)知識,更快速地發(fā)現(xiàn)與篩選有效的特異性關聯(lián)。對于間接關聯(lián)的獲取,關系鏈中的中間節(jié)點具有極其重要的“橋”的作用,節(jié)點的度可直觀表示出節(jié)點在網(wǎng)絡中的權重,因為僅僅從關鍵詞出現(xiàn)的頻率來判斷節(jié)點的重要性,往往是一些寬泛的概念,而一些頻率較小的節(jié)點或關聯(lián),很可能表達出重要的意義。此外,網(wǎng)絡中任意一條通路在一定程度上都可能是一個語義水平上的關系鏈,能揭示某種有意義的聯(lián)系,進而為用戶提供一種科學思路。
與傳統(tǒng)的基于文獻的知識發(fā)現(xiàn)方法相比,基于復雜網(wǎng)絡的方法不但能夠揭示非相關文獻中的隱含知識,更可以幫助發(fā)現(xiàn)任意文獻集中潛在的關聯(lián)性知識,對于文獻中任意實體間的語義相關性的評估都具有非常重要的意義。整合網(wǎng)絡的拓撲結構特征與統(tǒng)計信息,研究出新的語義相關性的計算指標,將未來文獻知識發(fā)現(xiàn)研究的新的重要內(nèi)容。