等,抽取表格的表頭和段落標題作為候選屬性集合。利用領域無關的抽取模式捕獲屬性:平文本里仍然包含大量屬性,為此我們提出如下兩個適用于中文語言習慣的抽取模板:
P-1:<實體>的<屬性>是
P-2:<屬性>:<值>
在模式P-2中,單個句子除“:”外不能包含其他標點符號。此外,實驗發(fā)現(xiàn),字符長度過長的<屬性>和<值>多為噪音,因此過濾掉大于10個字符的匹配結果。值得一提的是,模式P-1對應于英文屬性抽取中普遍使用且效果較好的“the of is”模式,但在實際應用中該模式不是很有用。這一結果說明,中、英文之間存在的差異使得這些在英文數(shù)據上行之有效的方法應用于中文數(shù)據時失效,有必要提出針對中文的解決方案。
計算屬性置信度:獲得候選屬性集合之后,我們采用基于頻率的置信度計算方法來度量屬性的質量。給定實體類別C,候選短語a是類別C的屬性的置信度可以被計算為式(1)。
(1)
其中,ei為C中的一個實體,page(ei)為ei的描述頁面,a∈page(ei)表示屬性a可以從page(ei)中抽取出。
3.3 利用屬性同義的特點擴展抽取
3.2節(jié)所述的方法可以獲得一些高質量的屬性,但是置信度得分較低的候選屬性中仍然含有大量高質量的屬性,這些屬性由于不常出現(xiàn)而被遺漏。我們發(fā)現(xiàn)這些被遺漏的屬性中許多與高置信度屬性是同義的,據此,我們提出一種基于同義屬性擴展的方法進一步抽取屬性的不同表達形式。其中,屬性的同義性分別從兩個方面進行度量。
字面相似度:由于屬性短語的長度較短,平均為4.7個漢字,許多常用的相似度度量方法(如編輯距離、Jaccard相似度)效果并不理想。例如,非同義屬性“主頻參數(shù)”和“主屏參數(shù)”的Jaccard相似度為0.6,而同義屬性“攝像頭”和“攝像頭像素”的Jaccard相似度僅有0.4。此外,屬性短語多來自相似的實體描述頁面,缺少足夠有區(qū)分度的上下文信息,因此,余弦距離等方法也不適用。為此我們做嚴格約束,僅當某一屬性為另一屬性的完全子串時才計算字面相似度,否則認為字面不相似,即給定兩個屬性短語a和b,字面相似度計算為式(2)。
surSim(a,b)=
(2)
其中a∈b表示a為b的完全子串,|a|表示屬性短語a的字符長度。該公式的直觀解釋是兩個屬性短語重疊的字符數(shù)占兩個短語平均長度的比值越大,則兩個屬性越相似。
語義相似度:給定兩個屬性短語a和b,分詞之后記為a=和b=,對于任意的詞對cij=,利用同義詞典*http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=162計算其語義相似度,從而得到屬性短語a和b的詞語相似度矩陣C=[cij]m×n。該同義詞典采用五層編碼,可以看成一顆深度為五的詞語樹,葉節(jié)點為詞語,位于同一顆子樹上的詞語均具有一定的語義關系。如果兩個詞語的共同父節(jié)點數(shù)量越多,說明兩個詞語的語義越相近。給定兩個詞語w和v,五層編碼分別記為w=l1l2l3l4l5和v=h1h2h3h4h5,它們的語義相似度計算為式(3)。
(3)
其中prefix(*,*)表示兩個五層編碼的公共前綴的字符數(shù)量。
對于一個給定的詞對序列seq={,,...,}(s為m和n的最小值),其語義相似度計算為式(4)。
(4)
屬性a和b的語義相似度為所有可能的詞對序列相似度中的最大值,形式化地表示為式(5)。
(5)
我們采用貪心的方法求解,每次從C中選取最大的cij并同時將wi和vj從屬性短語中移除。屬性短語最終的相似度為式(6)。
(6)
基于上述同義屬性度量方法,我們提出一種擴展的屬性置信度計算方法(算法1所示),該方法利用屬性同義的特點有選擇地提高低頻屬性的置信度,與3.2節(jié)中基于頻率的置信度計算方法相比,可以獲得更多高質量的屬性,同時得到了同義屬性集合。其中,算法1步驟9中的閾值在實驗中設置為0.8。較高的閾值能夠保證獲得的同義屬性的質量,但數(shù)量較少,反之,較低的閾值能夠獲取更多的同義屬性但準確率會降低,可以根據具體應用需求進行調整。
4 實驗與分析
4.1 實驗設置
實驗數(shù)據:實驗使用百度百科作為數(shù)據集。值得注意的是,我們提出的系統(tǒng)框架和算法同樣適用于其它中文在線百科,只需在解析HTML的實現(xiàn)細節(jié)稍作改動即可。截止到2013年4月20日,共采集1 199個實體類別的379 654個詞條。由于無法對所有類別進行評價,選取“手機”、“NBA球星”、“國內高?!薄ⅰ皹屝怠?、“汽車”和“抗生素”六個類別,涉及熱門領域“人物”、“產品”和新領域“機構”、“武器”等,各類別的實體數(shù)量見表1。
算法 1 基于同義屬性擴展的屬性抽取算法
輸入:D?包含某類實體的百科頁面集合輸出:L?屬性及同義屬性列表1:抽取D中所有可能的屬性,存入Temp2:對任意的ai∈Temp,計算conffre(ai),并降序排列3: forai∈Tempdo4: ifai?Lthen5: 添加ai到L6: else7: 對任意的lj∈L,計算sim(ai,lj)8: 找到相似度最大的屬性l?,其相似度記為θ?9: ifθ?>thresholdthen10: 更新ai的置信度為conf=(1-θ?)·conffre(ai)+θ?·conffre(l?)11: 添加ai到L,并標記l?和ai為同義屬性12: endif13: endelse14: endfor15:returnL
評價指標:人工標注評價抽取結果。為克服評價的主觀性和不一致性,我們采用文獻[2]中提出的評價指標:如果一個屬性對描述該類實體來說是必要的,標記為“重要”;如果一個屬性有用但不重要,標記為“一般”;如果一個屬性是錯誤的,標記為“錯誤”,將標記轉換為對應的分值用以計算結果的整體準確率,見表2。請六個研究人員分別獨立標注,對于標注不一致的屬性,則采取投票的方式來確定標注值。給定一個目標類別, 根據第3節(jié)中描述的方法可以得到一個按照置信度排序的屬性列表,使用Precision@N(P@N)作為屬性準確率的評價指標,即結果列表前N個屬性的總得分除以N。
表1 各個類別的實體數(shù)量及樣例
表2 人工標記的標簽及舉例說明
基準系統(tǒng):由于缺少可比較的中文屬性挖掘方面的工作,我們實現(xiàn)了一個在英文數(shù)據上具有代表性的方法[2]作為基準系統(tǒng)(記為BL)。該方法主要思想為,利用領域獨立的模式來獲取無結構文本中的屬性,并且基于頻率對屬性排序。為了使之適用于中文,我們將原方法中的英文模式映射成等價的中文模式,事實上就是3.2節(jié)中提到的P-1模式。使用NLPIR漢語分詞系統(tǒng)*http://ictclas.nlpir.org/對句子進行分詞和詞性標注,抽取“的”后面最長的名詞短語作為屬性。此外,我們還對比兩組不同設置的運行結果,用以分析同義屬性擴展帶來的增量效果:
(RUN-1):僅使用3.2中的基于頻率的方法獲取屬性,不做同義屬性擴展。
(RUN-2):在RUN-1基礎上,使用3.3中的方法進行擴展。
4.2 實驗結果及其分析
準確率:圖2展示了基準系統(tǒng)和本文方法的整體結果,為便于對比,表3列出了P@10、P@50和P@100三個特定點上的值。從圖中可以看出,不同類別的抽取效果不盡相同,例如“國內高?!焙汀翱股亍?,無論是我們的方法還是基準系統(tǒng)效果都比其他類別要差,這是因為“國內高?!倍酁閺秃蠈傩裕翱股亍北旧砭哂械膶傩跃洼^少。由此可見,屬性抽取的效果由實體類別本身的特點決定。
圖2表明,RUN-1和RUN-2在六個類別上的準確率普遍比基準系統(tǒng)要高。基準系統(tǒng)在英文數(shù)據集上P@50的平均值在0.63以上,而應用在中文數(shù)據上P@50的平均值下降到0.55,可見中英文之間存在的差異使得在英文上表現(xiàn)良好的屬性抽取方法并不適用于中文數(shù)據。RUN-1在P@50的平均值為0.78,這說明抽取的屬性基本可用。值得注意的是,屬性抽取方面的相關工作一般只考察前50個抽取結果,本文考察前100個抽取結果,由圖2可以看出,基準系統(tǒng)的準確率下降較快,RUN-2最平緩。具體來說,基準系統(tǒng)在P@100的平均值僅為0.43,抽取的屬性已基本不可靠,而RUN-2在P@100的平均值為0.83,抽取的屬性仍具有較高的可信性。此外,RUN-2在P@50的平均值為0.86,說明通過3.3節(jié)的方法擴展進來的 同義屬性并沒有明顯降低原抽取結果的準確性。
圖2 前100個抽取結果的準確率
前N個結果的覆蓋率: 一個實體類別的完整屬性集合是不可知的,而人工枚舉所有的屬性也是不現(xiàn)實的,這是信息抽取尤其是屬性抽取領域普遍面臨的問題,許多研究工作放棄評估召回率而重點考察準確率??紤]到我們的目的是進行方法的橫向比較,即對比不同屬性挖掘算法在獲得的屬性數(shù)量上的差異,而不是為了得到真實的召回值,因此我們使用一種易處理的近似方案:將表1中給出的共2 166個實體的百科頁面作為六個類別的全部數(shù)據,采用人工標注的方法評估抽取結果的覆蓋率。顯然,這仍是非常耗時的,我們只考察標記為“重要”的屬性,因為其他屬性重要性較低且容易發(fā)生標注不一致問題。
表3 前10、前50、前100個結果的準確率
表4給出了各類別在前10、前50和前100個抽取結果的覆蓋率。由于不同類別具有屬性的基數(shù)不同,類別和類別之間的覆蓋率差距較大,但是這不影響橫向對比。此外,表中的覆蓋率值普遍偏低,這是由于我們只考察前100個抽取結果,例如“手機”共有917個屬性,即使前100個抽取結果全對,覆蓋率也僅有0.11。由表可知,RUN-2在六個類別上的覆蓋率均比RUN-1高,這說明3.3節(jié)中提出的擴展方法確實獲得了更多屬性。
表4 前10、50和100個結果的覆蓋率
表5 屬性及同義屬性部分結果
續(xù)表
同義屬性評價:表5為同義屬性集合的部分結果,“{}”中的為同義屬性。由表可知,部分同義屬性具有相似的字面形式,部分同義屬性字面完全不同,例如,“配用彈種”和“可用子彈類型”。為進一步考察同義屬性識別的效果,我們將同義屬性識別看成聚類問題,從已被標注為“重要”的屬性集合中隨機選擇10%的屬性,人工標注并計算聚類Purity(公式7)結果見表6。
(7)
其中Si是類別i下待評測的聚類集,Rj是類別j下人工標注的聚類集。
表6 同義屬性識別效果
5 總結與展望
本文提出了一種以在線百科為數(shù)據資源,基于同義屬性擴展的中文屬性抽取方法,實驗表明該方法在保證識別準確率的前提下能夠有效地從在線百科中抽取出大量的屬性名稱,該方法與使用頻率的抽取方法相比,能夠獲得覆蓋范圍更廣的屬性名稱集合。
在本文方法中,我們通過識別同義屬性,在一定程度上解決了屬性名稱的歸一化問題。在未來的工作中,我們將進一步探討和研究屬性值的歸一化問題以及屬性上下位關系的自動識別問題,這些研究內容也是自動構建知識庫需要解決的重要問題。
[1] Popescu A-M, Etzioni O. Extracting product features and opinions from reviews[M]Natural language processing and text mining. Springer London, 2007: 9-28.
[2] Pasca M, Van Durme B, Garera N. The role of documents vs. queries in extracting class attributes from text[C]//Proceedings of CIKM. Lisbon, Portugal, 2007: 485-494.
[3] Pasca M. Attribute extraction from conjectural queries[C]//Proceedings of COLING 2012. India, 2012: 2177-2190.
[4] Tokunaga K, Kazama J, Torisawa K. Automatic discovery of attribute words from Web documents[C]//Proceedings of the Natural Language Processing-IJCNLP 2005. Jeju Island, Korea, 2005: 106-118.
[5] Raju S, Pingali P, Varma V. An unsupervised approach to product attribute extraction[M]. Advances in Information Retrieval. Springer Berlin Heidelberg, 2009: 796-800.
[6] Lee T, Wang Z, Wang H, et al. Attribute Extraction and Scoring: A Probabilistic Approach[C]//Proceedings of ICDE. Brisbane, Australia, 2013: 194-205.
[7] Van Durme B, Qian T, Schubert L. Class-driven attribute extraction[C]//Proceedings of the 22nd International Conference on Computational Linguistics. Manchester, UK, 2008: 921-928.
[8] Ravi S, Pa?ca M. Using structured text for large-scale attribute extraction[C]//Proceedings of CIKM. Napa Valley, California, 2008: 1183-1192.
[9] Lin D, Zhao S, Qin L, et al. Identifying synonyms among distributionally similar words[C]//Proceedings of IJCAI. Acapulco, Mexico, 2003: 1492-1493.
[10] Turney P. Mining the web for synonyms: PMI-IR versus LSA on TOEFL[C]//Proceedings of the 12th European Conference on Machine Learning. Freiburg, Germany, 2001: 491-502.
[11] Witten I, Milne D. An effective, low-cost measure of semantic relatedness obtained from Wikipedia links[C]//Proceeding of AAAI Workshop on Wikipedia and Artificial Intelligence. Chicago, USA, 2008: 25-30.
[12] Kim S, Toutanova K, Yu H. Multilingual named entity recognition using parallel data and metadata from Wikipedia[C]//Proceedings of ACL,Korea, 2012: 694-702.
[13] Han X, Zhao J. Structural semantic relatedness: a knowledge-based method to named entity disambiguation[C]//Proceedings of ACL, Sweden, 2010: 50-59.
[14] Suchanek F M, Kasneci G, Weikum G. Yago: a core of semantic knowledge[C]//Proceedings of WWW, Canada, 2007: 697-706.
[15] 葉正,林鴻飛,蘇綏,等. 基于支持向量機的人物屬性抽取[J]. 計算機研究與發(fā)展, 2007, 44: 271-275.
[16] 盧漢,曹存根,王石. 基于元性質的數(shù)量型屬性值自動提取系統(tǒng)的實現(xiàn)[J]. 計算機研究與發(fā)展, 2010, 47(10): 1741-1748.
Synonymous Expansion Based Entity Attribute Extraction via Online Encyclopedia
LIU Qian1,2, LIU Bingyang1,2, HE Min3, WU Dayong1, LIU Yue1, CHENG Xueqi1
(1. CAS Key Laboratory of Network Data Science & Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190,China; 2. University of Chinese Academy of Sciences, Beijing 100049,China;3. National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China)
Entity attribute extraction is fundamental to information extraction and knowledge base construction. This paper proposes an approach to open-domain entity attributes extraction from the online encyclopedia. The method collects potential attribute phrases through a combination of the web page structure and the domain independent patterns. Then, the acquired attribute patterns are expanded by synonymous expansions, which in turn helps to obtain a set of synonymous attributes. Experimental results show that the proposed approach boosts the coverage of extracted attributes without losing the precision.
entity attribute;synonymous attribute;named entity,information extraction
劉倩(1984—),博士,主要研究領域為自然語言處理、命名實體識別、網絡文本挖掘、信息抽取。E?mail:liuqian1104@126.com劉冰洋(1987—),博士,主要研究領域為自然語言處理、命名實體識別、新詞發(fā)現(xiàn)。E?mail:liuctic@gmail.com賀敏(1982—),博士,主要研究領域為自然語言處理、網絡挖掘、信息安全。E?mail:heminsmile@163.com
1003-0077(2016)01-0016-08
2013-08-10 定稿日期: 2014-05-10
國重點基礎研究發(fā)展計劃(973)(2012CB316303);國家重點基礎研究發(fā)展計劃(973)(2014CB340401);國家自然科學基金重點項目(61232010);國家科技支撐專項(2012BAH46B04);國家自然科學基金(61303156)
TP391
A
绍兴市|
田阳县|
顺平县|
河津市|
巴中市|
广水市|
津南区|
政和县|
合水县|
樟树市|
咸阳市|
敖汉旗|
滨州市|
湄潭县|
定边县|
泾阳县|
宜章县|
海丰县|
鄢陵县|
遂宁市|
德保县|
桓台县|
伊春市|
河曲县|
汉中市|
肥城市|
沛县|
瓮安县|
海宁市|
江川县|
苏州市|
纳雍县|
碌曲县|
鹰潭市|
谢通门县|
资兴市|
大关县|
思茅市|
长顺县|
社旗县|
鄂托克前旗|