王 偉,趙爾平,崔志遠,孫 浩
(西藏民族大學信息工程學院,陜西咸陽 712082)
近年來,隨著自然語言處理(Natural Language Processing,NLP)與人工智能(Artificial Intelligence,AI)的迅速發(fā)展與廣泛應用,命名實體消歧作為自然語言處理的關鍵環(huán)節(jié),在信息檢索、知識庫及知識圖譜構建等方面發(fā)揮著越來越重要的作用。命名實體消歧旨在解決實體指稱間的歧義性與多樣性,例如“冬蟲夏草”的別名分別有“夏草冬蟲”“蟲草”和“冬蟲草”,把這種表達相同實體而有多個指稱的詞語稱之為指稱多樣性。而“螃蟹甲”一詞,它一方面指代藏藥的名稱,另一方面又指代武漢的一個地名。像“螃蟹甲”這類詞稱之為多義詞,本文旨在研究多義詞的歧義消除問題。
至今,命名實體消歧主要采用聯(lián)合知識、機器學習和深度學習等方法實現(xiàn),其中大部分方法都是考慮全局信息,卻很少考慮局部信息。王瑞等[1]針對消歧任務,充分利用上下文以及詞向量特征信息以達到提高準確率的目的。馬曉軍等[2]將消歧方法融入了局部信息來解決多義詞不能被區(qū)分的問題,但是詞向量的質(zhì)量和穩(wěn)定性沒有兼顧。楊陟卓[3]提出基于翻譯的有監(jiān)督詞義消歧方法,該種方法雖然能大幅度提高準確率,但是需要大量的人工標注語料且偽訓練語料需要隨著消歧任務的不同而改變。王苗等[4]提出的消歧方法,通過改進的無監(jiān)督學習并結合圖數(shù)據(jù)結構以達到消歧的目的并取得較高準確率。陳洋等[5]則針對詞向量表示的質(zhì)量問題,使用義原表示詞向量,很好地解決了詞向量表示不穩(wěn)定的問題,但是卻沒有注意到詞義混淆問題。范鵬程等[6]使用知識鏈接的方法達到了目前最好算法的F1值。很顯然有監(jiān)督學習方法雖然人工工作量大,但是消歧效果較為出眾?;跈C器學習的消歧方法,面臨的問題是需要準確且質(zhì)量較高的語料庫支持,需要花費人力標注語料,且需要關注數(shù)據(jù)稀疏問題。目前,實體消歧任務重點是在上下文信息和特征信息挖掘兩個方面,缺乏在不同應用場景下面對不同特征時區(qū)分實體能力的差異分析。在低頻詞方面,使用詞向量進行消歧時由于詞頻低導致訓練不充足,使得詞向量表示的質(zhì)量得不到保證。在語義表示方面,缺乏結合上下文語義綜合考慮多義詞的多方面特征,未能將詞語多個語義特征按權重值融合使用。譬如,西藏畜牧業(yè)領域有上千種牧草名和幾百種動物名,包括大量音譯詞、合成詞、生僻詞等類型低頻詞。例如“雪蓮花”一詞,在大多數(shù)語料庫中都屬于低頻詞,該詞義項包含兩類:一類屬歌曲,一類屬藏藥。多義詞方面例如“我今天在阿里吃的飯”這句話中“阿里”一詞可能指西藏阿里地區(qū),也有可能指“阿里巴巴”公司。
針對命名實體消歧過程中存在問題,本文提出基于HSWR-W 2c(HowNet-Sememe Word embedding Representation-Word2vec)詞向量表示的多特征融合消歧方法。通過兩種詞向量融合表示來解決單一詞向量表示低頻詞質(zhì)量差、不穩(wěn)定和多義詞的詞義混淆問題。為了體現(xiàn)每一類特征在消歧過程中發(fā)揮的不同作用,提出三類不同詞向量特征加權融合的消歧方法,以解決消歧過程中因詞向量攜帶信息量少、語義特征單一而導致的準確率不高的問題,并引入主題特征彌補以往消歧任務未能獲取局部特征的缺陷。
Word2vec(Word to vector)是一款開源詞向量生成工具,被廣泛應用于圖像處理、知識挖掘、自然語言處理等領域。由于中文詞語多元與復雜性,導致Word2vec在自然語言處理方面的應用效果不盡如人意,為此李小濤等[7]為了提高語義相似度計算精度提出一種改進算法,彌補Word2vec生成的向量不能區(qū)別多義詞的缺陷。近年,面對中文語言的多變性與詞語的多義性,很多學者從向量的使用到向量的改進做了一系列研究工作。張春祥等[8]利用鄰近詞的詞性、詞形等相關信息作為特征融入消歧任務中,取得了較好的效果。
詞義消歧方面張雄等[9]采用融合多個特征的方法,達到對于信息的充分挖掘,實現(xiàn)人名消歧。大部分學者采用機器學習進行詞義消歧[10],例如王旭陽等[11]通過對于上下文信息的充分挖掘,并結合機器學習達到消歧的目的。Mikolov等[12]則揭示連續(xù)空間詞表征中的語言規(guī)律,使得語境信息能更好地融入。郭宇飛等[13]根據(jù)同一個詞在不同的上下文環(huán)境下可以形成不同的框架,提出了一種基于框架的消歧方法。Huang等[14]則是通過對百度百科全書網(wǎng)頁的抓取,產(chǎn)生多義、同義和索引集合,經(jīng)過訓練后確定文本相關性,并在MongoDB(Mongo Data Base)中管理實體。除了常見的消歧方法,Chen等[15]通過結合詞義對模型改造,在中大型文件消歧方面也取得了不錯的效果。林澤斐等[16]將多特征與實體鏈接技術結合實現(xiàn)詞義消除。曾健榮等[17]則針對專家?guī)鞓嫿ㄟ^程中的同名歧義問題,融合已發(fā)表論文中的多種特征從而解決了同名消歧問題。
知網(wǎng)(HowNet)是一個解釋詞語概念與屬性間關系的知識庫。義原是知識庫中不能再分割的最小的單位[18],所以在知網(wǎng)知識庫中每一個詞語都可以使用若干義原表示。也正是HowNet的這種多義原表示方法,使其能夠突破詞語本身,從而更加深入了解詞語背后的意義。這種結構化的知識網(wǎng)絡體系,使得知識對于計算機而言是可操作的,正是因為這一點,知網(wǎng)中的義原詞才能夠表示為可以操作使用的詞向量。由于HowNet知識庫中有關于西藏畜牧業(yè)領域的記錄較少,所以本文對知識庫進行了擴充。擴充示例內(nèi)容如下:{NO.=120497;W_C=螃蟹甲;G_C=N;E_C=;W_E=Crab carapace;G_E=N;E_E=;DEF=Tibetan Medicine|藏藥,street|街道}。其中:NO.在知識庫中表示序號;W_C、G_C、E_C表示中文信息,分別代表詞語、詞性以及舉例;W_E、G_E、E_E表示英文信息,分別代表英文的詞語、詞性以及舉例;DEF為詞語詮釋,即詞語的不同義原。
基于HowNet義原的詞向量表示(HowNet-Sememe Word embedding Representation,H-SWR)流程大致有兩個步驟:首先對義原進行向量化;其次融合目標詞的若干義原詞向量生成目標詞向量。具體表示過程如下。
首先,使用隨機初始化的方法將義原初始化為一個義原矩陣Msememe,其次,將義原矩陣進行預處理(施密特正交化、單位化)后得到正交單位矩陣Mdefo:
式(1)中Mdefo是 一 個n×m的 義 原 矩 陣,其 中(α1,α2,…,αn)為對應義原向量的n組標準正交單位基,其中每個義原向量為m維。由于在HowNet中每一個詞語由若干義原解釋,所以可以把目標詞看成其對應義原詞向量在其向量子空間的投影。最后,在完成義原的詞向量表示后,目標詞語的詞向量便可使用義原向量的加權平均表示,表示公式如式(2)所示:
式(2)中α為目標詞對應義原詞向量表示,m為當前目標詞的義原數(shù)量。對于義原向量與義原的對應關系,本文采用建立索引的方法,即每一個義原向量及其對應義原建立“semid”,其中一個義原的sem對應一個義原向量的“id”,通過“id”再進行l(wèi)ook-up操作,以此確定它們的對應關系。
語料訓練方面,本節(jié)以“藏醫(yī)藏藥雪蓮花作為藥物”句子為例,空格為詞語之間的分隔符,待預測詞語為“雪蓮花”?;诹x原生成的詞向量訓練過程如圖1所示。
圖1 基于義原的詞向量表示Fig.1 Word embedding representation based on sememe
示例中根據(jù)窗口大小找到左右各兩個詞語的id,再根據(jù)id找到標注的義原,義原生成義原向量,最后借助式(2)和上下文表示層得到標準詞向量表示并通過輸出層輸出。圖1中上下文表示層定義如式(3)所示:
其中:Ci為目標詞上下文詞向量,δ為定義的窗口大小。訓練方式與連續(xù)詞袋(Continuous Bag Of Words,CBOW)模型相似,指定窗口大小為5,維度為100。由于基于義原生成的詞向量是借助于有知識基礎的模型上計算得出,所以蘊含大量語言學知識,即使在大規(guī)模語料中也能表現(xiàn)出較好的穩(wěn)定性,并且生成的詞向量只受義原信息的約束,所以在低頻詞表示方面表現(xiàn)出色,但這也導致其在詞義區(qū)分方面尚有不足,存在詞義混淆的弊端。
詞向量的表示方法中,One-hot最為直觀簡潔,這種表示方法較為簡單,由數(shù)字1與0組成,向量長度為文本詞的個數(shù)且數(shù)字“1”唯一,但是該種方法會帶來數(shù)據(jù)稀疏問題,尤其在維度較大時不宜采用。另一種詞向量表示方法為分布式表示,對比One-hot方法,該方法將詞映射在向量空間以解決數(shù)據(jù)稀疏的問題,一般訓練維度在100~300維,能較好地體現(xiàn)詞語間的相關性與依賴性,所以在詞向量的表示過程中一般都是采用分布式的辦法。
比較Word2vec的兩種模型,CBOW模型在語義表示方面效果更優(yōu),所以本文選用CBOW模型。訓練參數(shù)窗口大小設置為5,同時為了詞向量的融合表示,訓練維度與2.2節(jié)維度保持一致。假設輸入詞序列為C=(x1,x2,…,xn)的情況下,CBOW目標函數(shù)定義如下:
其中:m為窗口大小,n為詞數(shù),xi為預測目標詞。P為上下文已知的xi的概率,通過softmax函數(shù)計算:
其中:wi為中心詞的詞向量表示,wo為wi的上下文詞語的詞向量的均值。
向量訓練過程中采用隨機梯度上升法將目標函數(shù)最大化,再經(jīng)過語料庫整體的訓練,最終得到詞典庫中每個詞對應的詞向量。由于CBOW模型生成的詞向量是經(jīng)過充分的訓練而獲得的,所以在語義表示與區(qū)分方面十分出色,但是也存在低頻詞表示質(zhì)量較差、在大規(guī)模語料中表示不穩(wěn)定等問題。以“鼠兔”一詞為例,在領域語料中出現(xiàn)的頻率不足萬分之一,在普通語料中更低,使得機器對其學習不充足而導致上述問題。
詞向量表示方面,基于Word2vec生成的詞向量在詞語語義表示方面十分出色,但是這種通過機器訓練和依賴數(shù)據(jù)驅(qū)動的方法,使詞向量表示在低頻詞方面質(zhì)量不高,且在語料較大時生成詞向量的性能不穩(wěn)定。而依賴HowNet知識庫義原生成的詞向量,雖然能較好解決上述問題,但是在詞義區(qū)分方面尚有不足,存在詞義混淆的問題。針對單一模型訓練的詞向量表示詞義混淆、質(zhì)量差以及穩(wěn)定性等問題,采用兩種詞向量加權融合的表示方式,取長補短,彌補單一詞向量表示的不足。本文采用線性歸一化的方法融合詞向量,其中基于HSWR生成的詞向量定義為WHownet,基于Word2vec生成的詞向量定義為WWord2vec。融合向量表示公式定義如式(6)表示:
其中式(6)中的符號⊕為各向量逐元素相加,歸一化公式本文采用sigmoid函數(shù),對W進行線性歸一化,具體公式如下:
實體消歧分為五步:1)候選實體生成;2)實體相似度計算;3)類別相似度計算;4)主題相似度計算;5)三類相似度融合。消歧流程如圖2所示。
圖2 消歧流程Fig.2 Disambiguation flow
本文采用無標注的知識庫文本訓練詞向量模型,通過訓練將每個詞映射到詞向量空間中,兩個模型的向量分別體現(xiàn)了知識的融入和詞語在深層次的一些語義特征。其次,生成候選實體集,目的是為每一個待消歧指稱項提供若干個可能的候選實體以防止在消歧過程中需要查找整個知識庫而導致低效問題。從候選實體與背景文本中獲取指稱項與類別名稱,并使用兩個模型進行向量化及融合表示以計算實體相似度與類別相似度。利用主題模型對文檔進行訓練,使用聚類算法對主題特征的關鍵詞進行分類,融合詞向量對其進行表示并計算主題相似度值。最后將三類相似度值進行加權融合,選取最高準確率的數(shù)據(jù)為結果,達到消歧目的。
百度百科作為中文知識庫,它在更新中文知識方面比維基百科及時,而且能提供有助于獲取信息的結構特征,所以本文通過百度百科獲取實體的名稱及其對應關系。候選實體生成的具體過程如下:首先,對待消歧文檔進行實體標注,并將標注出的實體作為待消歧實體;其次,根據(jù)標注實體獲取百度百科頁面信息,同時保存百度百科中對應的標注實體名稱;再次,通過消歧頁面,獲取與標注實體名稱相同但是指代不同的實體;最后,將上述與待消歧實體名稱相同的所有詞語保存作為候選實體。
對于實體間相似度計算。首先,對待消歧文本進行分詞以及停用詞過濾等操作;其次,根據(jù)2.4節(jié)將兩種詞向量進行融合表示以獲得待消歧實體指稱項的融合詞向量表示;最后,通過候選實體信息摘要以獲取候選實體背景文本,預處理后生成候選實體融合詞向量表示。融合后的詞向量表示可以很大程度地代表這個詞。本文通過對比待消歧實體與候選實體的融合詞向量相似度來判斷二者是否具有聯(lián)系,與其他研究一樣,本文也利用余弦相似度值衡量待消歧實體與候選實體相似度,比較它們之間的依賴關系。余弦相似度計算公式如式(8)所示:
其中:c表示待消歧實體指稱項目詞向量,gi表示候選實體指稱項詞向量,式(8)結果代表待消歧實體與候選實體之間的語義依賴關系強弱程度,即它們之間語義關系相似程度。
實體間的包含關系又稱為上下位關系,本文借助上下位關系中的上位詞使得詞語有更多的詞義信息,將其作為實體類別特征,計算實體類別相似度。上下位關系層次結構如圖3所示。
圖3 上下位關系Fig.3 Upper-lower relationship
圖3中可以看出“螃蟹甲”的上位詞為“藏藥”和“西藏”,也可以是“街道”和“湖北”。上位詞“藏藥”和“西藏”表示“螃蟹甲”屬于藏藥類別;上位詞“街道”和“湖北”表示“螃蟹甲”又屬于地名類別。藏藥類別與地名類別是兩個完全不同的實體類別,代表完全不同的語義。由此可見,把實體的類別特征用于實體語義消歧是非常必要的,類別特征在消歧任務中必將發(fā)揮重要作用。對于待消歧實體,本文使用聚類算法對詞向量進行分類,并利用式(8)計算每個詞向量的空間距離,選擇離聚類中心最近的若干詞作為類別特征高頻詞語,然后在HowNet知識庫中進行“查找”操作,查找高頻詞的若干上位詞作為類別名稱。例如“牦?!钡纳衔辉~有“牲畜”與“紀錄片”等,將它們作為“牦?!钡牟煌悇e名稱。再次,為保持候選實體類別名稱與候選實體指稱的一致性,本文選擇從百度百科詞條標簽中獲取候選實體類別名稱,獲取的候選實體類別名稱與待消歧實體類別名稱進行相似度比較,以計算二者相似度。例如待消歧實體“冬蟲夏草”的上位詞為“菌”與“保健品”等,而其候選實體的類別為“麥角菌科”與“藏藥”等。將候選實體每個類別名稱與待消歧實體每個類別名稱分別兩兩交叉配對,例如(菌 麥角菌科)、(菌 藏藥)、(保健品 麥角菌科)、(保健品藏藥)等類別名稱對,然后利用式(8)計算每一對詞語的相似度值。每一對相似度定義為ei,并對它們進行排序,為每個候選實體保留一個最大相似度值,類別特征相似度公式定義如(9)所示:
潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型是一個依賴于詞袋(bag of words)生成文本主題的具有三層結構的貝葉斯概率模型。工作原理是將文檔形象化為一個詞頻向量,從而使得文本信息轉(zhuǎn)變?yōu)榭捎糜诮5臄?shù)字信息,但是這也導致其沒有改變詞與詞之間的順序,所以本文不得不對LDA主題模型進行適當改進。文章通過對不同主題的多義詞進行標注,使用W′=w,t對多義詞與主題特征詞語進行聯(lián)合表示取代原先存入詞袋模型的多義詞,并通過原先模型進行語料訓練從而得到不同主題下的詞向量表示以解決詞序問題。同時對詞向量進行聚類操作,使用式(8)計算向量距離,獲取離聚類中心最近的若干詞作為主題關鍵詞,使詞向量攜帶主題特征信息。具體步驟如下:
首先,對待消歧文本進行過濾停用詞以及斷句等預處理,利用改進的LDA主題模型對預處理文檔進行主題建模,借助Gibbs抽樣算法選取最佳參數(shù)。其次,引用支持向量機的方法進行聚類操作,并由上述被替換原詞袋模型的訓練好的模型進行分類,確定局部文字主題,并對主題文本進行融合詞向量表示。利用K-means聚類算法實現(xiàn)分類并使用余弦相似度計算每個詞向量的空間距離,選擇距離聚類中心最近的若干詞作為主題特征關鍵詞。最后在主題關鍵詞提取過程中獲取不同主題關鍵詞集合,將不同聚類結果的關鍵詞進行融合詞向量表示,其中詞語不同類別個數(shù)為后續(xù)主題特征個數(shù),將在同一主題特征下的關鍵詞設為集合S,關鍵詞個數(shù)定義為m,集合中的關鍵詞定義為i,融合詞向量表示為wi(i=1,2,…,m),候選實體摘要文本經(jīng)過分詞、去標點等預處理后使用H-SWR進行詞向量表示,再使用Word2vec進行詞向量表示,最后融合詞向量表示定義為ni,可得主題特征相似度定義式(10)所示:
本文通過改進的LDA主題模型,即將原先多義詞通過標注并添加主題信息以取代原來的詞語,使得其得到的關鍵詞集合都屬于同一主題,從而較好地解決了本節(jié)開頭提出的問題。
為了充分利用多類特征相似度進行實體消歧,同時也能最大限度地提高消歧準確率,本文采用加權融合的方法對多類特征進行融合。多特征融合相似度定義為:E=αE1+βE2+χE3,其中:E1表示待消歧實體與候選實體相似度,E2表示實體類別特征相似度,E3表示實體主題特征相似度。通過八組比較實驗結果獲得一組最佳權重系數(shù)。第一組實驗中設置α=0.1不變,β、χ初值分別為0.1和0.8,以這三個參數(shù)為權重值系數(shù)計算相似度值并記錄,之后β、χ值分別以正負0.1步長進行調(diào)整,每次調(diào)整后的新參數(shù)作為權重值系數(shù)計算相似度值并記錄,以此類推,β、χ的終值分別為0.8和0.1,然后選取這組實驗中相似度值最大的那次實驗的權重值系數(shù)作為第一組實驗結果并記錄。第二組、第三組、……、第八組實驗中設置α值分別分為0.2,0.3,…,0.8;β、χ取值與第一組實驗方法相同,分別獲得其他七組實驗的最好權重值系數(shù),最后比較八組實驗獲得的八個相似度值,選擇最高相似度值的那組參數(shù)值作為α、β、χ的最佳權重系數(shù)。
使用H-SWR進行詞向量表示方面,得出模型后輸入語料進行訓練,語料的訓練方式與CBOW模型相似。為了防止兩類詞向量融合維度出現(xiàn)過高的情況,實驗指定窗口大小為5,維度定為100,實現(xiàn)平臺為PyCharm 2018.3.7。在使用Word2vec進行詞向量表示方面,訓練模型采用連續(xù)詞袋模型,定義窗口大小為5,維度100。對于語料選擇方面,本文使用維基百科離線知識庫進行訓練。
候選實體獲取方面,由于百科知識庫中涉及領域太廣,所以本文選擇西藏畜牧業(yè)領域分類下的頁面信息,進行摘要提取,候選義項摘要保存于文本。測試語料爬取有關西藏畜牧業(yè)領域的文本共30篇,還有手工標注的西藏畜牧業(yè)領域的文本10篇,其中標注文本中的詞數(shù)共計161 518個,標注有關領域?qū)嶓w指稱29692個。標注的每一篇文本中的實體名稱通過與獲得的候選實體對比作為實驗的結果的驗證。使用準確率判斷本文方法的優(yōu)劣與可行性,準確率定義如下:
該組實驗用于對比詞向量融合與否對相似度計算準確率的影響。詞向量相似度對比的優(yōu)劣通常可以通過觀察給定詞對的評價分數(shù)來判定其優(yōu)劣程度。所以本文采用斯皮爾曼(Spearman)系數(shù)用于評估詞語相似度準確率,Spearman系數(shù)是一種評價詞語相似度算法準確度的有效方式,計算公式如式(12)所示:
其中:p表示斯皮爾曼相關系數(shù),系數(shù)越大說明用于計算相似度的詞向量更為優(yōu)質(zhì);n表示元素個數(shù);di表示一個排行差分集合中的元素,本文將獲得的相似度經(jīng)過比例縮小后與其對應人工評分定義為變量(X,Y),并對兩個變量的數(shù)據(jù)進行排序并記錄為(Z,W),其中(Z,W)的值便為秩次,而秩次間的差值就是di。本文用于測試的標準數(shù)據(jù)集為wordsim-240,每行格式為一對標準詞對與數(shù)值在0~5的人工評分。實驗結果如表1所示。
表1 Spearman相關系數(shù)對比Tab.1 Spearman correlation coefficient comparison
由實驗結果可知,由人工知識與機器學習的詞向量的結合是切實可行的,并且在詞向量相似度計算的過程中表現(xiàn)出色。
在消歧過程中,實體相似度、類別特征相似度以及主題特征相似度所占權重的不同對實驗準確率有著很大的影響,通過實驗的方法驗證最佳權重值系數(shù),把消歧準確率最高的權重值系數(shù)作為最佳系數(shù),實驗結果如表2所示。
對于權重值的選擇方法如3.5節(jié)所述。即將三類特征權值總和定義為1,同時在不知道每一項權重值大小的情況下首先固定某一項權重值,同時對其他兩項權重進行每次步長為0.1的調(diào)整,觀察固定一項權重值不變時另外兩項權重值變化的結果并記錄這一組數(shù)據(jù)的最高值,之后固定權重值加0.1,并按上述方法推演。最終獲取固定權重值為0.1~0.8的八組最高數(shù)據(jù)如表2所示,加粗字體為準確率最高權重值系數(shù)。最佳權重值為:α=0.3,β=0.2,χ=0.5。
表2 權重值選取數(shù)據(jù)匯總Tab.2 Selected weight value data summary
由于待消歧實體與候選實體相似度計算包含詞語及其語義信息,且融合后的詞向量攜帶大量結構化知識的信息,所以融合特征相似度占有比較重要的地位。對于類別特征相似度計算,由于其本身存在的作用是區(qū)別詞語的不同類別特征,而類別的獲取是聚類后的結果,致使該類特征所攜帶的語義信息相比前者較少,所以占比重較小。主題特征相似度方面,由于本文使用改進的LDA主題模型,使用攜帶特征信息的詞語替換詞原始詞袋中的多義詞,使得主題特征與唯一詞語對應,很大程度解決了詞語缺乏局部特征的問題,所以其不單攜帶詞語本身語義信息,還具有大量的主題特征信息,所以其占比重最大。綜上所述,因為不同的特征所攜帶的語義信息量不同致使權重值系數(shù)也不相同,而在本文消歧過程中待消歧實體與候選實體相似度與主題特征相似度的信息量明顯更大一點,從而也起到了更為重要的作用。最終獲取融合相似度后,對其進行排序操作,選取最高一組數(shù)據(jù)為最終結果。
類別關鍵詞與主題關鍵詞數(shù)量多與少會影響消歧結果,為此通過實驗來驗證關鍵詞數(shù)量對消歧結果影響,以確定最佳關鍵詞數(shù)量。由圖4可知,類別關鍵詞為4個時消歧效果最好,這是由于如果關鍵詞個數(shù)較少,所攜帶信息不足,而過多又會使得信息覆蓋范圍變廣反而降低準確率。對于主題關鍵詞個數(shù),由實驗結果可知當其在8個時消歧效果最好,相比類別特征,主題特征能更好地表示一個詞語的語義,所以關鍵詞個數(shù)較多。
圖4 特征關鍵詞數(shù)對準確率的影響Fig.4 Influenceof thenumber of feature keywordson accuracy
實驗主要選擇三個典型的消歧方法對本文方法的效果進行檢驗,它們分別為W ikify[19]、支持向量機(Support Vector Machine,SVM)[20]以及Knowledge Base[21]。Wikify著重于使用實體鏈接的方法以達到消歧的目的;以Knowledge Base為基礎的消歧方法,特點是十分依賴知識庫;SVM消歧的方法是一種圖模型結合實體鏈接的消歧方法。實驗結果如表3所示。
表3 不同消歧方法的準確率對比 單位:%Tab.3 Accuracy comparison of different disambiguation methods unit:%
從表3可看出,本文方法對比其他消歧方法準確率有所提高,與典型的圖模型消歧方法相比準確率提高了7.6個百分點。與上述三種方法相比。本文方法首先增強了詞向量表示的質(zhì)量,其次彌補了詞語語義容易混淆的不足,最后在消歧過程中添加了主題與類別特征信息以使得準確率有所提高。這說明多種詞向量融合表示的多特征融合的消歧方法切實可行,融合后的詞向量表示在相似度計算以及消歧方面中的效果也更為出色。
本文針對主流消歧方法因信息攜帶不足而導致的消歧模型對多義詞不能準確區(qū)分以及對于詞向量表示低頻詞質(zhì)量差,表示的語義信息容易混淆等問題,提出詞向量的融合表示以及詞語的多特征融合方法。實驗結果表明,準確率比典型的圖模型消歧方法有較大提高。下一步,將嘗試融入深度學習并改進獲取詞向量特征的方法,減小消歧任務工作量,進一步提高準確率。