潘 霄,余正濤,郭劍毅,毛存禮,楊秀貞
(1. 昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 智能信息處理重點實驗室,云南 昆明 650500)
一種基于特征映射的中文專家消歧方法
潘 霄1,2,余正濤1,2,郭劍毅1,2,毛存禮1,2,楊秀貞1
(1. 昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 智能信息處理重點實驗室,云南 昆明 650500)
針對中文專家頁面特點,以及用于消歧的基準專家頁面中信息涵蓋不全的問題,該文提出一種基于特征映射的中文專家消歧方法。首先,采用條件隨機場模型,從基準專家頁面和待消歧頁面中提取出所定義的12維人物屬性特征,并利用最大熵分類模型,結(jié)合已有消歧結(jié)果訓(xùn)練出各屬性特征的權(quán)重;然后,針對某個專家的基準頁面,計算待消歧頁面與該頁面的相似度,根據(jù)設(shè)定的閾值判斷該頁面是否單獨成類,若不是單獨成類,則利用特征映射,擴充該頁面的屬性特征,結(jié)合模糊聚類方法,得到與該頁面為一類的頁面。在“自然語言處理”及“機器學(xué)習(xí)”領(lǐng)域進行中文專家消歧實驗,結(jié)果表明提出的方法能有效對中文專家頁面進行消歧。
中文專家消歧;屬性特征;特征映射;模糊聚類
由于專家重名和表示方式多樣性的問題,導(dǎo)致以某一專家姓名進行檢索將返回多個不屬于該專家的頁面,為準確區(qū)分出該專家的專家頁面,須對獲取到的頁面進行專家消歧。通常專家消歧可以轉(zhuǎn)化成專家頁面的聚類問題進行解決。當(dāng)前的專家消歧方法主要有以下幾類:一是基于特征向量相似度的聚類消歧方法,如Wang[1]利用網(wǎng)頁內(nèi)容向量空間模型對專家頁面進行聚類消歧,Bollegala[2]提出利用上下文中的關(guān)鍵性短語相似度實現(xiàn)專家聚類消歧;二是基于屬性相似度的聚類消歧方法,如Cohen[3]提出通過計算屬性對間相似度實現(xiàn)專家聚類消歧, 周曉等[4]針對人名消歧的任務(wù),提出基于人物屬性互斥與非互斥的兩階段人名消歧的方法;三是基于特定關(guān)聯(lián)關(guān)系的聚類消歧方法, 如郎君[5]提出的基于社會網(wǎng)絡(luò)的人名重名消解, 利用頁面標題和上下文片斷中人名的共現(xiàn)關(guān)系構(gòu)建社會網(wǎng)絡(luò),并通過聚類的方法實現(xiàn)消歧。Tang[6]提出的結(jié)合專家論文屬性和論文合作關(guān)系的聚類消歧方法,選取文章標題、摘要、作者等作為特征,結(jié)合發(fā)表論文合作關(guān)系,通過基于 HMRF(Hidden Markov Random Field)的聚類方法,進行專家聚類消歧。
采用聚類的方法進行專家消歧,通常是以某個確定屬于專家的頁面作為基準頁面,通過聚類,將與該基準頁面聚為一類的頁面挑選出來,作為專家頁面。因此,消歧的正確性很大程度上依賴于基準頁面中的信息,然而,由于頁面信息量的限制以及信息更新速度較快,導(dǎo)致基準頁面對專家信息涵蓋不全,從而影響消歧的準確率?,F(xiàn)有方法沒有充分考慮基準頁面的信息擴充,為解決這一問題,本文提出一種基于特征映射的中文專家消歧方法。
基于特征映射的中文人名消歧方法的主要思想是先從基準頁面和待消歧頁面中提取出用于表征基準頁面和待消歧頁面的特征,并通過已有消歧結(jié)果得到各維特征的權(quán)重,然后,針對基準頁面,利用基準頁面屬性與待消歧頁面屬性的相關(guān)性將基準頁面與待消歧頁面用帶權(quán)重的特征表征成向量,計算待消歧頁面與該基準頁面的相似度,根據(jù)設(shè)定的閾值判斷該基準頁面是否單獨成類,若不是單獨成類,則尋找與該基準頁面相似度最大的頁面,利用特征映射的方法擴充該基準頁面的特征向量,并將此頁面歸入該基準頁面類,重復(fù)這一擴充過程,直至基準頁面的特征向量不再被擴充為止,則將該基準頁面與剩余的頁面進行聚類,得到和該基準頁面為一類的頁面。該方法具體流程描述如下:
(2) 計算θi與ω的相似度σi,i=1,2,…,n;
(4) 利用σ*對應(yīng)的召回頁面θk的特征擴充ω的特征,擴充后的基準頁面為ω*;
(5)ω=ω*,θ=θ-θk,θk歸為ω類,判斷此時的ω是否還能再擴充,若能擴充,則轉(zhuǎn)步驟(2),若不能,則進入下一步;
(6) 將ω和θ進行聚類,得到θ中和ω聚為一類的頁面,流程結(jié)束。
3.1 特征提取與特征加權(quán)
由于中文專家頁面信息中所包含的內(nèi)容主要是對人物的描述,因此,選取人物相關(guān)屬性作為表征基準頁面與待消歧頁面的特征,12維人物屬性特征定義如下,分別為人名、地名、組織機構(gòu)名、職稱、性別、民族、學(xué)歷、畢業(yè)院校、出生日期、研究方向、獲獎榮譽、承擔(dān)項目。提取這些人物屬性實際上是一個人物屬性實體的提取問題,由于條件隨機場模型[7]不需要很嚴格的獨立性假設(shè),可以融入豐富的特征,故其在實體抽取中被廣泛運用且具有較高的準確率,因此,本文采用條件隨機場模型進行人物屬性實體的提取。然而每維屬性特征所起的作用是不同的,還需要得到各維特征的權(quán)重,本文利用已有消歧結(jié)果,將各維特征作為分類模型的特征函數(shù),對已知消歧結(jié)果的頁面進行所屬專家標記,訓(xùn)練出分類模型特征函數(shù)的權(quán)重,從而得到各維特征的權(quán)重,由于最大熵模型[8]可以任意加入對最終分類有用的特征,而不用顧及它們之間的相互影響,并且最大熵模型能夠較為容易地對多分類問題進行建模,基于以上優(yōu)點,本文使用最大熵模型訓(xùn)練各維特征的權(quán)重。
3.2 基準頁面與待消歧頁面的向量表征
在獲得各維屬性特征的權(quán)重后,為將基準頁面與待消歧頁面用向量表征出來,則需利用基準頁面的屬性與待消歧頁面屬性的相關(guān)性,也即以某個基準頁面為基礎(chǔ),將待消歧頁面的屬性與該基準頁面對應(yīng)維的屬性進行匹配,若某一維匹配成功,則該維的值為所匹配的屬性的權(quán)重值,若匹配不成功,則該維的值為0,各個待消歧頁面的12維屬性依次與基準頁面進行匹配,直至把所有待消歧頁面都表征為匹配結(jié)果對應(yīng)的向量;基準頁面的向量表征,則是根據(jù)其提取屬性特征的情況而定,對于提取不到的屬性特征,則對應(yīng)維度的值為0,對于能夠提取出的屬性特征則其對應(yīng)維度的值為該屬性的權(quán)重值。針對屬性特征的匹配,本文采用基于《知網(wǎng)》的詞語相似度計算方法進行匹配,參照劉群在“基于《知網(wǎng)》的詞匯語義相似度的計算”中提出的方法[9],綜合考慮節(jié)點的共性信息和個性信息,給出如式(1)所示的義原語義相似度計算公式:
(1)
(2)
其中,S11,S12,…,S1n為W1的n個概念,S21,S22,…,S2m為W2的m個概念。兩個概念語義表達式的整體相似度為式(3)。
(3)
3.3 基準頁面特征映射
在將基準頁面和待消歧頁面表征成屬性權(quán)重值構(gòu)成的向量后,需要通過特征映射的方法,借助待消歧頁面屬性特征對基準頁面的屬性特征進行擴充。首先是計算所有待消歧頁面與基準頁面的相似度,本文通過常用的余弦相似度來進行相似度的計算,公式如式(4)所示。
(4)
3.4 模糊聚類分析
3.4.1 模糊相似矩陣構(gòu)建
(5)
3.4.2 確定最佳聚類閾值
引入F統(tǒng)計量,如式(6)所示。
(6)
4.1 專家消歧數(shù)據(jù)集準備
對于實驗數(shù)據(jù)集的準備,本文采用以下方式進行:首先從萬方平臺及與“自然語言處理”和“機器學(xué)習(xí)”領(lǐng)域相關(guān)的會議網(wǎng)站選取“自然語言處理”和“機器學(xué)習(xí)”領(lǐng)域?qū)<腋?50人,利用GoogleAPI通過檢索專家的姓名收集搜索引擎返回的前10個頁面形成實驗數(shù)據(jù)集,并選擇10個頁面中檢索排序位于第一的頁面作為該專家的基準頁面。數(shù)據(jù)集基本情況如表1所示。
表1 專家消歧實驗數(shù)據(jù)集
由表1中可以看出,以專家姓名進行檢索所召回的頁面中,有一半以上的頁面并不屬于該專家,通過對數(shù)據(jù)集的分析,發(fā)現(xiàn)這些不屬于專家的頁面中,一部分是屬于與專家同名的人,一部分是與專家不相關(guān)且非描述人物信息的頁面,可見在通過搜索引擎返回專家頁面的過程中進行專家消歧具有重要的意義。同時,在數(shù)據(jù)集中,基準頁面平均含有詞語數(shù)略低于召回頁面平均含有詞語數(shù),說明在包含的信息量上,有的基準頁面可能要比召回頁面少。為進一步說明基準頁面涵蓋信息不全的問題,本文對基準頁面和召回頁面中能夠提取出各維特征的頁面占各自頁面集總數(shù)的比例分別進行了統(tǒng)計,結(jié)果如表2所示。
表2 含有各維特征頁面所占比例
續(xù)表
由表2中可以看出,對于人名和職務(wù)這兩類屬性特征,基準頁面和召回頁面大多都能涵蓋,而對于組織機構(gòu)名、職業(yè)、學(xué)歷、畢業(yè)院校和承擔(dān)項目這五類屬性特征則基準頁面涵蓋面更廣一些,但是,對于地名、獲獎榮譽、性別、民族、出生日期和承擔(dān)項目這六類屬性特征的涵蓋面基準頁面卻不如召回頁面,屬性特征涵蓋面的不足很可能導(dǎo)致消歧錯誤的產(chǎn)生。
4.2 不同特征專家消歧對比實驗
為驗證利用提出的12維人物屬性特征進行專家消歧的效果,在不進行基準頁面特征映射的條件下,實驗將使用12維屬性特征作為特征進行聚類的方法與文獻[2]中利用關(guān)鍵詞相似度實現(xiàn)專家聚類消歧的方法進行了對比,但在這一實驗中先忽略各維特征的重要程度,即不賦權(quán)重,實驗的評價指標為召回率(R),準確率(P)和F值(F),公式如(7)~(9)所示。
(7)
(8)
(9)
實驗結(jié)果如表3所示。
表3 不同特征消歧對比實驗
從表3中數(shù)據(jù)可以看出,使用人物屬性作為特征的聚類效果優(yōu)于使用詞頻作為特征的聚類效果,所以,本文定義的12維人物屬性特征能有效進行專家消歧。
以上實驗是在各維屬性特征等權(quán)重的條件下進行的,也即忽略了各維屬性特征對消歧效果產(chǎn)生影響的程度不同,為證明對各維特征賦權(quán)重后的效果,實驗將利用已知消歧結(jié)果得到的各維特征權(quán)重賦予各維特征,并和等權(quán)重的效果進行對比,對比結(jié)果如表4所示。
表4 權(quán)重因素對比實驗
從表4中數(shù)據(jù)可以看出,對屬性特征賦權(quán)重后的效果優(yōu)于不賦權(quán)重的效果,可見考慮各維特征的對消歧的不同影響程度能有效提高消歧的召回率,準確率和F值。
4.3 特征映射對比實驗
為驗證特征映射方法的效果,將本文提出的基于特征映射的方法與文獻[4]中的兩階段人名消歧方法和文獻[6]中的基于HMRF的聚類消歧方法進行了對比,實驗結(jié)果如表5所示。
表5 特征映射對比實驗
從表5中數(shù)據(jù)可以看出,相比于不進行特征映射的方法,基于特征映射的方法使得召回率、準確率和F值均有提高。
為驗證數(shù)據(jù)集規(guī)模對消歧效果的影響,將本文提出的基于特征映射的方法與兩階段人名消歧方法和基于HMRF的聚類消歧方法在不同規(guī)模數(shù)據(jù)集上達到的F值進行了對比,實驗結(jié)果如圖1所示。
從圖1中可以看出,隨著數(shù)據(jù)集規(guī)模的不斷擴大,特征映射方法的F值在0.915附近波動,未呈現(xiàn)出下降趨勢,且在不同的數(shù)據(jù)集規(guī)模下,特征映射方法的F值都高于其他兩種方法, 說明在不同的數(shù)據(jù)集規(guī)模下特征映射方法都能取得較好的效果,但其他兩種不進行特征映射的方法的F值卻隨著數(shù)據(jù)集規(guī)模的擴大而下降,這是因為數(shù)據(jù)集規(guī)模越大,其基準頁面涵蓋信息不全的問題就越凸顯,所得到的消歧效果就會越差。
圖1 不同數(shù)據(jù)集規(guī)模對比試驗
針對中文專家頁面特點,以及用于消歧的基準專家頁面中信息涵蓋不全的問題,本文提出一種基于特征映射的中文專家消歧方法。該方法充分考慮了用于消歧的特征的選取,以及各維特征權(quán)重的確定,并且利用召回頁面的特征對基準頁面特征進行了擴充,實驗證明所提出的方法取得了較好的消歧效果。下一步的工作,將考慮如何利用中文專家頁面間的關(guān)聯(lián)關(guān)系進行專家消歧,進一步提高消歧的效果。
[1] Houfeng Wang, Zheng Mei. Chinese Multi-document Person Name Disambiguation [J]. High Technology Letters, 2005, 11(3): 280-283.
[2] Bollegala D, Matsuo Y,Ishizuka M. Disambiguating Personal Names on the Web Using Automatically Extracted Key Phrases[J]. Frontiers in Artificial Intelligence and Applications, 2006: 553-557.
[3] Cohen W, Ravikumar P, Fienberg S. A Comparison of String Distance Metrics for Name-matching Tasks[C]//Proceedings of the IJCAI Workshop on Information Integration on the Web, Acapulco, Mexico, 2003: 73-78.
[4] 周曉, 李超, 胡明涵, 等. 基于人物互斥屬性的中文人名消歧[C]// 第六屆全國信息檢索學(xué)術(shù)會議, 2010.
[5] 郎君, 秦兵, 宋巍等. 基于社會網(wǎng)絡(luò)的人名檢索結(jié)果重名消解[J]. 計算機學(xué)報, 2009,(7): 1365-1375.
[6] Jie Tang, Limin Yao, Duo Zhang. A Combination Approach to Web User Profiling[J]. ACM Transactions on Knowledge Discovery from Data , 2010, 5(1): 2.
[7] Lafferty J, McCallum A, Pereira F. Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]// Proceedings of the 18th International Conference on Machine Learning, Wil-liamstown, USA, 2001: 282-289.
[8] Liyan Zhang. A Chinese Word Segmentation Algorithm Based on Maximum Entropy[C]// Machine Learning and Cybernetics (ICMLC), 2010 International Conference on. IEEE, 2010(3): 1264-1267.
[9] 劉群, 李素建. 基于《 知網(wǎng)》 的詞匯語義相似度計算[J]. 中文計算語言學(xué), 2002, 7(2): 59-76.
[10] Botía J F, Isaza C, Kempowsky T, et al. Automaton based on Fuzzy Clustering Methods for Monitoring Industrial Processes[J]. Engineering Applications of Artificial Intelligence, 2012, 4(26): 1211-1220.
A Chinese Expert Disambiguation Method Based on Feature Mapping
PAN Xiao1,2, YU Zhengtao1,2, GUO Jianyi1,2, MAO Cunli1,2, YANG Xiuzhen1
(1. School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming, Yunan 650500, China;2. Key Laboratory of Intelligent Information Processing, Kunming University of Science and Technology,Kunming, Yunan 650500, China)
A Chinese expert page disambiguation method based on feature mapping is proposed according to the characteristics of the Chinese expert page. Firstly, with the help of CRFs model, 12 predefined character attributes are extracted from the standard and the candidate page, and their weights are decided by a ME classifier. Then, the page similarity is calculated to decide if the candidate page attributes should be appended Experiments on NLP and ML expert pages show the effectiveness of the proposed method in disambiguation.
Chinese experts page disambiguation; attributive character; feature mapping; fuzzy clustering
1003-0077(2016)02-0026-06
2013-01-08 定稿日期: 2014-01-05
國家自然科學(xué)基金(61175068);云南省軟件工程重點實驗室開放性基金(2011SE14);國家教育部留學(xué)回國人員科研啟動基金。
TP391
A