基于同義擴展的在線百科中實體屬性抽取

2016-05-04 01:51:26劉冰洋伍大勇程學旗

中文信息學報 2016年1期

劉倩，劉冰洋，賀敏，伍大勇，劉悅，程學旗

(1. 中國科學院計算技術研究所中國科學院網絡數(shù)據科學與技術重點實驗室，北京 100190;2. 中國科學院大學，北京 100049；3. 國家計算機網絡應急技術處理協(xié)調中心，北京 100029)

基于同義擴展的在線百科中實體屬性抽取

劉倩1,2，劉冰洋1,2，賀敏3，伍大勇1，劉悅1，程學旗1

實體屬性抽取是信息抽取、知識庫構建等任務的重要基礎。該文提出了一種利用在線百科獲取實體屬性的方法，該方法首先通過在線百科的結構特征和領域獨立的抽取模式捕獲可能的屬性短語，然后根據同義擴展獲取盡可能多的屬性表述形式，并同時得到對應實體類別的同義屬性集合。實驗表明，該方法在保證屬性抽取準確率不變的情況下，獲得了比僅使用頻率的方法覆蓋范圍更廣的實體屬性集合。

實體屬性；同義屬性；命名實體；信息抽取詞

1 引言

隨著互聯(lián)網上信息規(guī)模的膨脹和冗余信息的增加，如何快速準確地獲取用戶感興趣的信息和知識成為人們關注的一個重要問題。在這種背景下，問答系統(tǒng)、智能搜索引擎這類基于知識庫的應用也越來越受人們歡迎。在這些應用中，很重要的基礎部分就是命名實體識別及其屬性抽取，其中，實體屬性抽取是一項具有重要意義卻充滿挑戰(zhàn)的工作。

實體屬性是指一類實體所共有的特性。屬性的名稱是抽取相應屬性值的前提，名稱的準確性和覆蓋范圍制約著屬性值抽取的效果，因此本文重點討論如何挖掘盡可能多的屬于同類實體的屬性名稱。當前屬性抽取工作主要圍繞用戶評論[1]、查詢日志[2-3]、普通Web文本[4]等類型的數(shù)據展開，這些數(shù)據的優(yōu)勢是量大、易獲得，但包含大量不可控的噪音，且處理成本較高。本文面向在線百科這類數(shù)據資源，基于其三個優(yōu)勢：第一，包含大量實體及其描述信息,大部分的百科詞條都是實體，并且屬性出現(xiàn)非常密集;第二，覆蓋領域較全面，例如，熱門實體類別“體育明星”、“數(shù)碼產品”和不常見實體類別“抗生素”；第三，在線百科的半結構網頁特征為屬性挖掘提供了更多可利用的線索。

現(xiàn)有的屬性抽取方法直接應用于在線百科只能獲得少量的屬性，其主要原因是：屬性判定方法僅依據屬性所描述的實體的數(shù)量。然而，自然語言具有一定的隨意性，含義相同的屬性往往有多種不同的表述形式。那些不常用的表述形式由于出現(xiàn)頻率較低而被遺漏。例如，在與手機相關的397個百度百科頁面中抽取屬性，“拍照功能”在132個頁面中出現(xiàn)過，其所描述的實體的數(shù)量較多，可以被正確抽取。但是，它的同義屬性“照相功能”和“拍攝功能”由于只出現(xiàn)在12個和兩個頁面中而被遺漏。實驗表明，高頻屬性僅占小部分，大量屬性分布在長尾里，如圖1所示。我們發(fā)現(xiàn)在這些低頻屬性里包含大量的與高頻屬性同義的屬性表達，因此識別這些同義屬性將能夠獲得更豐富的屬性集合。但是就我們所知，現(xiàn)有的研究工作主要集中在如何獲取正確的屬性和屬性值，很少有人關注同義屬性的識別。

本文介紹的屬性抽取方法與以往方法的不同在于：(1) 本文面向在線百科這類數(shù)據資源，深入分析并充分利用其結構特征，有效地從頁面結構和頁面文本內容中獲取實體屬性；(2) 本文提出一種適用于屬性短語特點的同義判定方法，利用同義擴展挖掘盡可能多的屬性名稱的不同表達形式；(3) 本文提出一個統(tǒng)一的實體屬性抽取框架，在抽取屬性的同時生成同義屬性集合，有助于屬性的歸一化，降低后期知識庫構建的成本。

2 相關工作

在屬性獲取方面，大部分相關工作采用基于規(guī)則的方法。文獻[2, 4, 5]基于“the of is”模式抽取屬性。文獻[3]提出一種新的“[why] be ?”模式從疑問句中捕獲可能的屬性。為獲得較多的匹配結果，Lee[6]等人結合使用了probase、Web文本、Bing查詢日志和DBpedia多種數(shù)據資源的300多TB數(shù)據，Pasca[3]等人使用上億數(shù)量級的google查詢日志。大數(shù)據在獲得更多屬性的同時增加了噪音和處理成本。與這些工作不同的是，我們致力于從在線百科這種規(guī)模相對較小的數(shù)據中挖掘出大量屬性；也有一些相關工作采用非規(guī)則的方法抽取屬性。

圖1 將標記為“為重要”(見4.1節(jié)定義)的屬性，按照所描述的實體的數(shù)量從高到低排序

文獻[5]將名詞短語的N-gram作為候選屬性。文獻[7]通過分析句法將置于類名前的形容詞或者符合“類名+謂語+賓語”句式的“賓語”作為屬性。文獻[8]利用網頁中已標注的屬性的HTML層次結構，發(fā)現(xiàn)新的位于同層的屬性。我們提出一種無監(jiān)督的屬性抽取方法，結合在線百科的結構特點和領域獨立的抽取模板來獲得屬性。實驗表明該方法能夠以較低的成本獲取大量屬性。

本文還涉及同義詞識別方面的研究工作。分布相似性是最常用的方法，該方法認為出現(xiàn)在相似上下文中的詞語具有相近的含義[9]。然而，本文中的屬性短語主要從表格、段落標題和短句子中獲得，缺少上下文信息，從而使得分布相似性方法并不完全適用。此外，文獻[10]提出基于檢索的點互信息方法來識別同義詞。文獻[11]利用Wikipedia中的鏈接計算詞的相似度。

在線百科在自然語言處理的許多研究領域中發(fā)揮著重要作用，例如，命名實體識別[12]，命名實體消歧[13]和知識庫構建[14]等。但是，從在線百科中獲取屬性的相關研究很少。此外，針對中文的實體屬性研究仍然較少，現(xiàn)有工作主要集中在特定領域的屬性值抽取。文獻[15]利用人工標注的訓練集識別了五個給定類別的人物屬性。文獻[16]抽取數(shù)量型屬性值。與之不同的是，我們面向開放領域，提出一種適用于中文的領域無關的屬性獲取方法。

3 本文的實體屬性抽取方法

為獲得質量較高的屬性，一些工作僅從包含類別名稱的句子中進行抽取[7]。考慮到這種數(shù)據太稀少，我們的方法從該類所包含的實例的描述數(shù)據中進行抽取，首先基于頻率獲取部分高置信度的屬性，然后利用屬性短語間的同義關系擴展得到更多屬性。

3.1 收集實體描述數(shù)據

在線百科的每個詞條頁面上會有一些人工標注的類別標簽，如百度百科頁面下方的“開放分類”標簽，此外，在線百科自身通常具有分類體系，例如百度百科中的“百科分類”。利用頁面類別標簽和固有分類體系將每個頁面映射到相應類別中，過濾掉重定向的頁面。對于每個類別下的所有實例頁面，利用向量空間模型計算全部頁面的中心向量，過濾掉距離中心向量較遠的個別頁面。此數(shù)據作為屬性抽取的目標數(shù)據，是下一步工作的基礎。

3.2 基于頻率的中文屬性獲取方法

為了充分利用百科頁面上的所有信息，我們分別從頁面結構特點和平文本兩個角度獲取可能的屬性，平文本是指除去表格和段落標題之后剩余的正文內容，本文簡稱平文本。

利用頁面結構信息捕獲屬性：通過觀察，我們發(fā)現(xiàn)在線百科的頁面具有一些特征：(1) 大部分頁面包含一個用于描述詞條所對應實體概要信息的信息框(Infobox)，該信息框含有實體的屬性；(2) 實體的屬性名稱及取值往往以表格的形式進行組織，并且屬性名稱通常出現(xiàn)在表頭；(3) 復合屬性往往出現(xiàn)在段落標題中。復合屬性是相對于簡單屬性而定義的，簡單屬性的取值單一、確定，而復合屬性的取值正好相反，例如，“NBA球星”的“個人簡介”既可以由“國籍”、“出生日期”和“身高”等簡單屬性復合而成，也可以由“曾效力球隊”、“退役時間”和“職業(yè)生涯最高得分”等簡單屬性復合而成。

針對百科頁面的上述特點，我們使用HTML的特定標簽，如

、

、、等，抽取表格的表頭和段落標題作為候選屬性集合。利用領域無關的抽取模式捕獲屬性：平文本里仍然包含大量屬性，為此我們提出如下兩個適用于中文語言習慣的抽取模板： P-1：<實體>的<屬性>是 P-2：<屬性>：<值> 在模式P-2中，單個句子除“：”外不能包含其他標點符號。此外，實驗發(fā)現(xiàn)，字符長度過長的<屬性>和<值>多為噪音，因此過濾掉大于10個字符的匹配結果。值得一提的是，模式P-1對應于英文屬性抽取中普遍使用且效果較好的“the of is”模式，但在實際應用中該模式不是很有用。這一結果說明，中、英文之間存在的差異使得這些在英文數(shù)據上行之有效的方法應用于中文數(shù)據時失效，有必要提出針對中文的解決方案。計算屬性置信度：獲得候選屬性集合之后，我們采用基于頻率的置信度計算方法來度量屬性的質量。給定實體類別C，候選短語a是類別C的屬性的置信度可以被計算為式(1)。 (1) 其中，ei為C中的一個實體，page(ei)為ei的描述頁面，a∈page(ei)表示屬性a可以從page(ei)中抽取出。 3.3 利用屬性同義的特點擴展抽取 3.2節(jié)所述的方法可以獲得一些高質量的屬性，但是置信度得分較低的候選屬性中仍然含有大量高質量的屬性，這些屬性由于不常出現(xiàn)而被遺漏。我們發(fā)現(xiàn)這些被遺漏的屬性中許多與高置信度屬性是同義的，據此，我們提出一種基于同義屬性擴展的方法進一步抽取屬性的不同表達形式。其中，屬性的同義性分別從兩個方面進行度量。字面相似度：由于屬性短語的長度較短，平均為4.7個漢字，許多常用的相似度度量方法(如編輯距離、Jaccard相似度)效果并不理想。例如，非同義屬性“主頻參數(shù)”和“主屏參數(shù)”的Jaccard相似度為0.6，而同義屬性“攝像頭”和“攝像頭像素”的Jaccard相似度僅有0.4。此外，屬性短語多來自相似的實體描述頁面，缺少足夠有區(qū)分度的上下文信息，因此，余弦距離等方法也不適用。為此我們做嚴格約束，僅當某一屬性為另一屬性的完全子串時才計算字面相似度，否則認為字面不相似，即給定兩個屬性短語a和b，字面相似度計算為式(2)。 surSim(a,b)= (2) 其中a∈b表示a為b的完全子串，\|a\|表示屬性短語a的字符長度。該公式的直觀解釋是兩個屬性短語重疊的字符數(shù)占兩個短語平均長度的比值越大，則兩個屬性越相似。語義相似度：給定兩個屬性短語a和b，分詞之后記為a=和b=,對于任意的詞對cij=，利用同義詞典http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=162計算其語義相似度，從而得到屬性短語a和b的詞語相似度矩陣C=[cij]m×n。該同義詞典采用五層編碼，可以看成一顆深度為五的詞語樹，葉節(jié)點為詞語，位于同一顆子樹上的詞語均具有一定的語義關系。如果兩個詞語的共同父節(jié)點數(shù)量越多，說明兩個詞語的語義越相近。給定兩個詞語w和v，五層編碼分別記為w=l1l2l3l4l5和v=h1h2h3h4h5，它們的語義相似度計算為式(3)。 (3) 其中prefix(,)表示兩個五層編碼的公共前綴的字符數(shù)量。對于一個給定的詞對序列seq={,,...,}(s為m和n的最小值)，其語義相似度計算為式(4)。 (4) 屬性a和b的語義相似度為所有可能的詞對序列相似度中的最大值，形式化地表示為式(5)。 (5) 我們采用貪心的方法求解，每次從C中選取最大的cij并同時將wi和vj從屬性短語中移除。屬性短語最終的相似度為式(6)。 (6) 基于上述同義屬性度量方法，我們提出一種擴展的屬性置信度計算方法(算法1所示)，該方法利用屬性同義的特點有選擇地提高低頻屬性的置信度，與3.2節(jié)中基于頻率的置信度計算方法相比，可以獲得更多高質量的屬性，同時得到了同義屬性集合。其中，算法1步驟9中的閾值在實驗中設置為0.8。較高的閾值能夠保證獲得的同義屬性的質量，但數(shù)量較少，反之，較低的閾值能夠獲取更多的同義屬性但準確率會降低，可以根據具體應用需求進行調整。 4 實驗與分析 4.1 實驗設置實驗數(shù)據：實驗使用百度百科作為數(shù)據集。值得注意的是，我們提出的系統(tǒng)框架和算法同樣適用于其它中文在線百科，只需在解析HTML的實現(xiàn)細節(jié)稍作改動即可。截止到2013年4月20日，共采集1 199個實體類別的379 654個詞條。由于無法對所有類別進行評價，選取“手機”、“NBA球星”、“國內高?！薄ⅰ皹屝怠?、“汽車”和“抗生素”六個類別，涉及熱門領域“人物”、“產品”和新領域“機構”、“武器”等，各類別的實體數(shù)量見表1。算法 1 基于同義屬性擴展的屬性抽取算法輸入：D?包含某類實體的百科頁面集合輸出：L?屬性及同義屬性列表1：抽取D中所有可能的屬性，存入Temp2：對任意的ai∈Temp，計算conffre(ai)，并降序排列3： forai∈Tempdo4： ifai?Lthen5：添加ai到L6： else7：對任意的lj∈L，計算sim(ai，lj)8：找到相似度最大的屬性l?，其相似度記為θ?9： ifθ?>thresholdthen10：更新ai的置信度為conf=(1-θ?)·conffre(ai)+θ?·conffre(l?)11：添加ai到L，并標記l?和ai為同義屬性12： endif13： endelse14： endfor15：returnL 評價指標：人工標注評價抽取結果。為克服評價的主觀性和不一致性，我們采用文獻[2]中提出的評價指標：如果一個屬性對描述該類實體來說是必要的，標記為“重要”；如果一個屬性有用但不重要，標記為“一般”；如果一個屬性是錯誤的，標記為“錯誤”，將標記轉換為對應的分值用以計算結果的整體準確率，見表2。請六個研究人員分別獨立標注，對于標注不一致的屬性，則采取投票的方式來確定標注值。給定一個目標類別，根據第3節(jié)中描述的方法可以得到一個按照置信度排序的屬性列表，使用Precision@N(P@N)作為屬性準確率的評價指標，即結果列表前N個屬性的總得分除以N。表1 各個類別的實體數(shù)量及樣例表2 人工標記的標簽及舉例說明基準系統(tǒng)：由于缺少可比較的中文屬性挖掘方面的工作，我們實現(xiàn)了一個在英文數(shù)據上具有代表性的方法[2]作為基準系統(tǒng)(記為BL)。該方法主要思想為，利用領域獨立的模式來獲取無結構文本中的屬性，并且基于頻率對屬性排序。為了使之適用于中文，我們將原方法中的英文模式映射成等價的中文模式，事實上就是3.2節(jié)中提到的P-1模式。使用NLPIR漢語分詞系統(tǒng)http://ictclas.nlpir.org/對句子進行分詞和詞性標注，抽取“的”后面最長的名詞短語作為屬性。此外，我們還對比兩組不同設置的運行結果，用以分析同義屬性擴展帶來的增量效果： (RUN-1)：僅使用3.2中的基于頻率的方法獲取屬性，不做同義屬性擴展。 (RUN-2)：在RUN-1基礎上，使用3.3中的方法進行擴展。 4.2 實驗結果及其分析準確率：圖2展示了基準系統(tǒng)和本文方法的整體結果，為便于對比，表3列出了P@10、P@50和P@100三個特定點上的值。從圖中可以看出，不同類別的抽取效果不盡相同，例如“國內高?！焙汀翱股亍?，無論是我們的方法還是基準系統(tǒng)效果都比其他類別要差，這是因為“國內高?！倍酁閺秃蠈傩裕翱股亍北旧砭哂械膶傩跃洼^少。由此可見，屬性抽取的效果由實體類別本身的特點決定。圖2表明，RUN-1和RUN-2在六個類別上的準確率普遍比基準系統(tǒng)要高。基準系統(tǒng)在英文數(shù)據集上P@50的平均值在0.63以上，而應用在中文數(shù)據上P@50的平均值下降到0.55，可見中英文之間存在的差異使得在英文上表現(xiàn)良好的屬性抽取方法并不適用于中文數(shù)據。RUN-1在P@50的平均值為0.78，這說明抽取的屬性基本可用。值得注意的是，屬性抽取方面的相關工作一般只考察前50個抽取結果，本文考察前100個抽取結果，由圖2可以看出，基準系統(tǒng)的準確率下降較快，RUN-2最平緩。具體來說，基準系統(tǒng)在P@100的平均值僅為0.43，抽取的屬性已基本不可靠，而RUN-2在P@100的平均值為0.83，抽取的屬性仍具有較高的可信性。此外，RUN-2在P@50的平均值為0.86，說明通過3.3節(jié)的方法擴展進來的同義屬性并沒有明顯降低原抽取結果的準確性。圖2 前100個抽取結果的準確率前N個結果的覆蓋率：一個實體類別的完整屬性集合是不可知的，而人工枚舉所有的屬性也是不現(xiàn)實的，這是信息抽取尤其是屬性抽取領域普遍面臨的問題，許多研究工作放棄評估召回率而重點考察準確率?？紤]到我們的目的是進行方法的橫向比較，即對比不同屬性挖掘算法在獲得的屬性數(shù)量上的差異，而不是為了得到真實的召回值，因此我們使用一種易處理的近似方案：將表1中給出的共2 166個實體的百科頁面作為六個類別的全部數(shù)據，采用人工標注的方法評估抽取結果的覆蓋率。顯然，這仍是非常耗時的，我們只考察標記為“重要”的屬性，因為其他屬性重要性較低且容易發(fā)生標注不一致問題。表3 前10、前50、前100個結果的準確率表4給出了各類別在前10、前50和前100個抽取結果的覆蓋率。由于不同類別具有屬性的基數(shù)不同，類別和類別之間的覆蓋率差距較大，但是這不影響橫向對比。此外，表中的覆蓋率值普遍偏低，這是由于我們只考察前100個抽取結果，例如“手機”共有917個屬性，即使前100個抽取結果全對，覆蓋率也僅有0.11。由表可知，RUN-2在六個類別上的覆蓋率均比RUN-1高，這說明3.3節(jié)中提出的擴展方法確實獲得了更多屬性。表4 前10、50和100個結果的覆蓋率表5 屬性及同義屬性部分結果續(xù)表同義屬性評價：表5為同義屬性集合的部分結果，“{}”中的為同義屬性。由表可知，部分同義屬性具有相似的字面形式，部分同義屬性字面完全不同，例如，“配用彈種”和“可用子彈類型”。為進一步考察同義屬性識別的效果，我們將同義屬性識別看成聚類問題，從已被標注為“重要”的屬性集合中隨機選擇10%的屬性，人工標注并計算聚類Purity(公式7)結果見表6。 (7) 其中Si是類別i下待評測的聚類集，Rj是類別j下人工標注的聚類集。表6 同義屬性識別效果 5 總結與展望本文提出了一種以在線百科為數(shù)據資源，基于同義屬性擴展的中文屬性抽取方法，實驗表明該方法在保證識別準確率的前提下能夠有效地從在線百科中抽取出大量的屬性名稱，該方法與使用頻率的抽取方法相比，能夠獲得覆蓋范圍更廣的屬性名稱集合。在本文方法中，我們通過識別同義屬性，在一定程度上解決了屬性名稱的歸一化問題。在未來的工作中，我們將進一步探討和研究屬性值的歸一化問題以及屬性上下位關系的自動識別問題，這些研究內容也是自動構建知識庫需要解決的重要問題。 [1] Popescu A-M, Etzioni O. Extracting product features and opinions from reviews[M]Natural language processing and text mining. Springer London, 2007: 9-28. [2] Pasca M, Van Durme B, Garera N. The role of documents vs. queries in extracting class attributes from text[C]//Proceedings of CIKM. Lisbon, Portugal, 2007: 485-494. [3] Pasca M. Attribute extraction from conjectural queries[C]//Proceedings of COLING 2012. India, 2012: 2177-2190. [4] Tokunaga K, Kazama J, Torisawa K. Automatic discovery of attribute words from Web documents[C]//Proceedings of the Natural Language Processing-IJCNLP 2005. Jeju Island, Korea, 2005: 106-118. [5] Raju S, Pingali P, Varma V. An unsupervised approach to product attribute extraction[M]. Advances in Information Retrieval. Springer Berlin Heidelberg, 2009: 796-800. [6] Lee T, Wang Z, Wang H, et al. Attribute Extraction and Scoring: A Probabilistic Approach[C]//Proceedings of ICDE. Brisbane, Australia, 2013: 194-205. [7] Van Durme B, Qian T, Schubert L. Class-driven attribute extraction[C]//Proceedings of the 22nd International Conference on Computational Linguistics. Manchester, UK, 2008: 921-928. [8] Ravi S, Pa?ca M. Using structured text for large-scale attribute extraction[C]//Proceedings of CIKM. Napa Valley, California, 2008: 1183-1192. [9] Lin D, Zhao S, Qin L, et al. Identifying synonyms among distributionally similar words[C]//Proceedings of IJCAI. Acapulco, Mexico, 2003: 1492-1493. [10] Turney P. Mining the web for synonyms: PMI-IR versus LSA on TOEFL[C]//Proceedings of the 12th European Conference on Machine Learning. Freiburg, Germany, 2001: 491-502. [11] Witten I, Milne D. An effective, low-cost measure of semantic relatedness obtained from Wikipedia links[C]//Proceeding of AAAI Workshop on Wikipedia and Artificial Intelligence. Chicago, USA, 2008: 25-30. [12] Kim S, Toutanova K, Yu H. Multilingual named entity recognition using parallel data and metadata from Wikipedia[C]//Proceedings of ACL，Korea, 2012: 694-702. [13] Han X, Zhao J. Structural semantic relatedness: a knowledge-based method to named entity disambiguation[C]//Proceedings of ACL, Sweden, 2010: 50-59. [14] Suchanek F M, Kasneci G, Weikum G. Yago: a core of semantic knowledge[C]//Proceedings of WWW, Canada, 2007: 697-706. [15] 葉正,林鴻飛,蘇綏,等. 基于支持向量機的人物屬性抽取[J]. 計算機研究與發(fā)展, 2007, 44: 271-275. [16] 盧漢,曹存根,王石. 基于元性質的數(shù)量型屬性值自動提取系統(tǒng)的實現(xiàn)[J]. 計算機研究與發(fā)展, 2010, 47(10): 1741-1748. Synonymous Expansion Based Entity Attribute Extraction via Online Encyclopedia LIU Qian1,2, LIU Bingyang1,2, HE Min3, WU Dayong1, LIU Yue1, CHENG Xueqi1 (1. CAS Key Laboratory of Network Data Science & Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190,China； 2. University of Chinese Academy of Sciences, Beijing 100049,China；3. National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China) Entity attribute extraction is fundamental to information extraction and knowledge base construction. This paper proposes an approach to open-domain entity attributes extraction from the online encyclopedia. The method collects potential attribute phrases through a combination of the web page structure and the domain independent patterns. Then, the acquired attribute patterns are expanded by synonymous expansions, which in turn helps to obtain a set of synonymous attributes. Experimental results show that the proposed approach boosts the coverage of extracted attributes without losing the precision. entity attribute；synonymous attribute；named entity，information extraction 劉倩(1984—)，博士，主要研究領域為自然語言處理、命名實體識別、網絡文本挖掘、信息抽取。E?mail：liuqian1104@126．com劉冰洋(1987—)，博士，主要研究領域為自然語言處理、命名實體識別、新詞發(fā)現(xiàn)。E?mail：liuctic@gmail．com賀敏(1982—)，博士，主要研究領域為自然語言處理、網絡挖掘、信息安全。E?mail：heminsmile@163．com 1003-0077(2016)01-0016-08 2013-08-10 定稿日期： 2014-05-10 國重點基礎研究發(fā)展計劃(973)(2012CB316303)；國家重點基礎研究發(fā)展計劃(973)(2014CB340401)；國家自然科學基金重點項目(61232010)；國家科技支撐專項(2012BAH46B04)；國家自然科學基金(61303156) TP391 A 猜你喜歡同義百科置信度 Dale Carnegie 瘋狂英語·新悅讀(2023年9期)2023-12-02 17:36:34 硼鋁復合材料硼含量置信度臨界安全分析研究核科學與工程(2021年4期)2022-01-12 06:30:22 樂樂“畫”百科創(chuàng)新作文(5-6年級)(2019年3期)2019-09-03 05:14:59 西夏文《同義》重復字研究西夏學(2019年1期)2019-02-10 06:22:08 百科小知識作文評點報·低幼版(2018年31期)2018-09-27 12:21:52 正負關聯(lián)規(guī)則兩級置信度閾值設置方法計算機應用(2018年5期)2018-07-25 07:41:26 西夏文《同義》考釋三則西夏學(2018年2期)2018-05-15 11:25:30 置信度條件下軸承壽命的可靠度分析軸承(2015年2期)2015-07-25 03:51:04 探索百科小溪流(故事作文)(2014年6期)2014-07-31 14:21:14 超有趣的互動百科智慧與創(chuàng)想(2013年10期)2013-11-28 08:40:50 中文信息學報2016年1期中文信息學報的其它文章基于SAO的專利結構化相似度計算方法一種中文偽評論語料半自動獲取方法細粒度意見挖掘中維吾爾語文本情感分析研究彝語言語料資源數(shù)據庫的設計與共享的實現(xiàn) 基于主位-述位結構理論的英文作文連貫性建模研究基于同義詞詞林信息特征的語義角色自動標注雜志排行 1《師道·教研》2024年10期 2《思維與智慧·上半月》2024年11期 3《現(xiàn)代工業(yè)經濟和信息化》2024年2期 4《微型小說月報》2024年10期 5《工業(yè)微生物》2024年1期 6《雪蓮》2024年9期 7《世界博覽》2024年21期 8《中小企業(yè)管理與科技》2024年6期 9《現(xiàn)代食品》2024年4期 10《衛(wèi)生職業(yè)教育》2024年10期關于參考網感谢您访问我们的网站，您可能还对以下资源感兴趣：国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡绍兴市\| 田阳县\| 顺平县\| 河津市\| 巴中市\| 广水市\| 津南区\| 政和县\| 合水县\| 樟树市\| 咸阳市\| 敖汉旗\| 滨州市\| 湄潭县\| 定边县\| 泾阳县\| 宜章县\| 海丰县\| 鄢陵县\| 遂宁市\| 德保县\| 桓台县\| 伊春市\| 河曲县\| 汉中市\| 肥城市\| 沛县\| 瓮安县\| 海宁市\| 江川县\| 苏州市\| 纳雍县\| 碌曲县\| 鹰潭市\| 谢通门县\| 资兴市\| 大关县\| 思茅市\| 长顺县\| 社旗县\| 鄂托克前旗\|

等，抽取表格的表頭和段落標題作為候選屬性集合。 利用領域無關的抽取模式捕獲屬性：平文本里仍然包含大量屬性，為此我們提出如下兩個適用于中文語言習慣的抽取模板： P-1：<實體>的<屬性>是 P-2：<屬性>：<值> 在模式P-2中，單個句子除“：”外不能包含其他標點符號。此外，實驗發(fā)現(xiàn)，字符長度過長的<屬性>和<值>多為噪音，因此過濾掉大于10個字符的匹配結果。值得一提的是，模式P-1對應于英文屬性抽取中普遍使用且效果較好的“the of is”模式，但在實際應用中該模式不是很有用。這一結果說明，中、英文之間存在的差異使得這些在英文數(shù)據上行之有效的方法應用于中文數(shù)據時失效，有必要提出針對中文的解決方案。 計算屬性置信度：獲得候選屬性集合之后，我們采用基于頻率的置信度計算方法來度量屬性的質量。給定實體類別C，候選短語a是類別C的屬性的置信度可以被計算為式(1)。 (1) 其中，ei為C中的一個實體，page(ei)為ei的描述頁面，a∈page(ei)表示屬性a可以從page(ei)中抽取出。 3.3 利用屬性同義的特點擴展抽取 3.2節(jié)所述的方法可以獲得一些高質量的屬性，但是置信度得分較低的候選屬性中仍然含有大量高質量的屬性，這些屬性由于不常出現(xiàn)而被遺漏。我們發(fā)現(xiàn)這些被遺漏的屬性中許多與高置信度屬性是同義的，據此，我們提出一種基于同義屬性擴展的方法進一步抽取屬性的不同表達形式。其中，屬性的同義性分別從兩個方面進行度量。 字面相似度：由于屬性短語的長度較短，平均為4.7個漢字，許多常用的相似度度量方法(如編輯距離、Jaccard相似度)效果并不理想。例如，非同義屬性“主頻參數(shù)”和“主屏參數(shù)”的Jaccard相似度為0.6，而同義屬性“攝像頭”和“攝像頭像素”的Jaccard相似度僅有0.4。此外，屬性短語多來自相似的實體描述頁面，缺少足夠有區(qū)分度的上下文信息，因此，余弦距離等方法也不適用。為此我們做嚴格約束，僅當某一屬性為另一屬性的完全子串時才計算字面相似度，否則認為字面不相似，即給定兩個屬性短語a和b，字面相似度計算為式(2)。 surSim(a,b)= (2) 其中a∈b表示a為b的完全子串，|a|表示屬性短語a的字符長度。該公式的直觀解釋是兩個屬性短語重疊的字符數(shù)占兩個短語平均長度的比值越大，則兩個屬性越相似。 語義相似度：給定兩個屬性短語a和b，分詞之后記為a=和b=,對于任意的詞對cij=，利用同義詞典*http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=162計算其語義相似度，從而得到屬性短語a和b的詞語相似度矩陣C=[cij]m×n。該同義詞典采用五層編碼，可以看成一顆深度為五的詞語樹，葉節(jié)點為詞語，位于同一顆子樹上的詞語均具有一定的語義關系。如果兩個詞語的共同父節(jié)點數(shù)量越多，說明兩個詞語的語義越相近。給定兩個詞語w和v，五層編碼分別記為w=l1l2l3l4l5和v=h1h2h3h4h5，它們的語義相似度計算為式(3)。 (3) 其中prefix(*,*)表示兩個五層編碼的公共前綴的字符數(shù)量。 對于一個給定的詞對序列seq={,,...,}(s為m和n的最小值)，其語義相似度計算為式(4)。 (4) 屬性a和b的語義相似度為所有可能的詞對序列相似度中的最大值，形式化地表示為式(5)。 (5) 我們采用貪心的方法求解，每次從C中選取最大的cij并同時將wi和vj從屬性短語中移除。屬性短語最終的相似度為式(6)。 (6) 基于上述同義屬性度量方法，我們提出一種擴展的屬性置信度計算方法(算法1所示)，該方法利用屬性同義的特點有選擇地提高低頻屬性的置信度，與3.2節(jié)中基于頻率的置信度計算方法相比，可以獲得更多高質量的屬性，同時得到了同義屬性集合。其中，算法1步驟9中的閾值在實驗中設置為0.8。較高的閾值能夠保證獲得的同義屬性的質量，但數(shù)量較少，反之，較低的閾值能夠獲取更多的同義屬性但準確率會降低，可以根據具體應用需求進行調整。 4 實驗與分析 4.1 實驗設置 實驗數(shù)據：實驗使用百度百科作為數(shù)據集。值得注意的是，我們提出的系統(tǒng)框架和算法同樣適用于其它中文在線百科，只需在解析HTML的實現(xiàn)細節(jié)稍作改動即可。截止到2013年4月20日，共采集1 199個實體類別的379 654個詞條。由于無法對所有類別進行評價，選取“手機”、“NBA球星”、“國內高?！薄ⅰ皹屝怠?、“汽車”和“抗生素”六個類別，涉及熱門領域“人物”、“產品”和新領域“機構”、“武器”等，各類別的實體數(shù)量見表1。 算法 1 基于同義屬性擴展的屬性抽取算法 輸入：D?包含某類實體的百科頁面集合輸出：L?屬性及同義屬性列表1：抽取D中所有可能的屬性，存入Temp2：對任意的ai∈Temp，計算conffre(ai)，并降序排列3： forai∈Tempdo4： ifai?Lthen5：添加ai到L6： else7：對任意的lj∈L，計算sim(ai，lj)8：找到相似度最大的屬性l?，其相似度記為θ?9： ifθ?>thresholdthen10：更新ai的置信度為conf=(1-θ?)·conffre(ai)+θ?·conffre(l?)11：添加ai到L，并標記l?和ai為同義屬性12： endif13： endelse14： endfor15：returnL 評價指標：人工標注評價抽取結果。為克服評價的主觀性和不一致性，我們采用文獻[2]中提出的評價指標：如果一個屬性對描述該類實體來說是必要的，標記為“重要”；如果一個屬性有用但不重要，標記為“一般”；如果一個屬性是錯誤的，標記為“錯誤”，將標記轉換為對應的分值用以計算結果的整體準確率，見表2。請六個研究人員分別獨立標注，對于標注不一致的屬性，則采取投票的方式來確定標注值。給定一個目標類別，根據第3節(jié)中描述的方法可以得到一個按照置信度排序的屬性列表，使用Precision@N(P@N)作為屬性準確率的評價指標，即結果列表前N個屬性的總得分除以N。 表1 各個類別的實體數(shù)量及樣例 表2 人工標記的標簽及舉例說明 基準系統(tǒng)：由于缺少可比較的中文屬性挖掘方面的工作，我們實現(xiàn)了一個在英文數(shù)據上具有代表性的方法[2]作為基準系統(tǒng)(記為BL)。該方法主要思想為，利用領域獨立的模式來獲取無結構文本中的屬性，并且基于頻率對屬性排序。為了使之適用于中文，我們將原方法中的英文模式映射成等價的中文模式，事實上就是3.2節(jié)中提到的P-1模式。使用NLPIR漢語分詞系統(tǒng)*http://ictclas.nlpir.org/對句子進行分詞和詞性標注，抽取“的”后面最長的名詞短語作為屬性。此外，我們還對比兩組不同設置的運行結果，用以分析同義屬性擴展帶來的增量效果： (RUN-1)：僅使用3.2中的基于頻率的方法獲取屬性，不做同義屬性擴展。 (RUN-2)：在RUN-1基礎上，使用3.3中的方法進行擴展。 4.2 實驗結果及其分析 準確率：圖2展示了基準系統(tǒng)和本文方法的整體結果，為便于對比，表3列出了P@10、P@50和P@100三個特定點上的值。從圖中可以看出，不同類別的抽取效果不盡相同，例如“國內高?！焙汀翱股亍?，無論是我們的方法還是基準系統(tǒng)效果都比其他類別要差，這是因為“國內高?！倍酁閺秃蠈傩裕翱股亍北旧砭哂械膶傩跃洼^少。由此可見，屬性抽取的效果由實體類別本身的特點決定。 圖2表明，RUN-1和RUN-2在六個類別上的準確率普遍比基準系統(tǒng)要高。基準系統(tǒng)在英文數(shù)據集上P@50的平均值在0.63以上，而應用在中文數(shù)據上P@50的平均值下降到0.55，可見中英文之間存在的差異使得在英文上表現(xiàn)良好的屬性抽取方法并不適用于中文數(shù)據。RUN-1在P@50的平均值為0.78，這說明抽取的屬性基本可用。值得注意的是，屬性抽取方面的相關工作一般只考察前50個抽取結果，本文考察前100個抽取結果，由圖2可以看出，基準系統(tǒng)的準確率下降較快，RUN-2最平緩。具體來說，基準系統(tǒng)在P@100的平均值僅為0.43，抽取的屬性已基本不可靠，而RUN-2在P@100的平均值為0.83，抽取的屬性仍具有較高的可信性。此外，RUN-2在P@50的平均值為0.86，說明通過3.3節(jié)的方法擴展進來的同義屬性并沒有明顯降低原抽取結果的準確性。 圖2 前100個抽取結果的準確率 前N個結果的覆蓋率：一個實體類別的完整屬性集合是不可知的，而人工枚舉所有的屬性也是不現(xiàn)實的，這是信息抽取尤其是屬性抽取領域普遍面臨的問題，許多研究工作放棄評估召回率而重點考察準確率?？紤]到我們的目的是進行方法的橫向比較，即對比不同屬性挖掘算法在獲得的屬性數(shù)量上的差異，而不是為了得到真實的召回值，因此我們使用一種易處理的近似方案：將表1中給出的共2 166個實體的百科頁面作為六個類別的全部數(shù)據，采用人工標注的方法評估抽取結果的覆蓋率。顯然，這仍是非常耗時的，我們只考察標記為“重要”的屬性，因為其他屬性重要性較低且容易發(fā)生標注不一致問題。 表3 前10、前50、前100個結果的準確率 表4給出了各類別在前10、前50和前100個抽取結果的覆蓋率。由于不同類別具有屬性的基數(shù)不同，類別和類別之間的覆蓋率差距較大，但是這不影響橫向對比。此外，表中的覆蓋率值普遍偏低，這是由于我們只考察前100個抽取結果，例如“手機”共有917個屬性，即使前100個抽取結果全對，覆蓋率也僅有0.11。由表可知，RUN-2在六個類別上的覆蓋率均比RUN-1高，這說明3.3節(jié)中提出的擴展方法確實獲得了更多屬性。 表4 前10、50和100個結果的覆蓋率 表5 屬性及同義屬性部分結果 續(xù)表 同義屬性評價：表5為同義屬性集合的部分結果，“{}”中的為同義屬性。由表可知，部分同義屬性具有相似的字面形式，部分同義屬性字面完全不同，例如，“配用彈種”和“可用子彈類型”。為進一步考察同義屬性識別的效果，我們將同義屬性識別看成聚類問題，從已被標注為“重要”的屬性集合中隨機選擇10%的屬性，人工標注并計算聚類Purity(公式7)結果見表6。 (7) 其中Si是類別i下待評測的聚類集，Rj是類別j下人工標注的聚類集。 表6 同義屬性識別效果 5 總結與展望 本文提出了一種以在線百科為數(shù)據資源，基于同義屬性擴展的中文屬性抽取方法，實驗表明該方法在保證識別準確率的前提下能夠有效地從在線百科中抽取出大量的屬性名稱，該方法與使用頻率的抽取方法相比，能夠獲得覆蓋范圍更廣的屬性名稱集合。 在本文方法中，我們通過識別同義屬性，在一定程度上解決了屬性名稱的歸一化問題。在未來的工作中，我們將進一步探討和研究屬性值的歸一化問題以及屬性上下位關系的自動識別問題，這些研究內容也是自動構建知識庫需要解決的重要問題。 [1] Popescu A-M, Etzioni O. Extracting product features and opinions from reviews[M]Natural language processing and text mining. Springer London, 2007: 9-28. [2] Pasca M, Van Durme B, Garera N. The role of documents vs. queries in extracting class attributes from text[C]//Proceedings of CIKM. Lisbon, Portugal, 2007: 485-494. [3] Pasca M. Attribute extraction from conjectural queries[C]//Proceedings of COLING 2012. India, 2012: 2177-2190. [4] Tokunaga K, Kazama J, Torisawa K. Automatic discovery of attribute words from Web documents[C]//Proceedings of the Natural Language Processing-IJCNLP 2005. Jeju Island, Korea, 2005: 106-118. [5] Raju S, Pingali P, Varma V. An unsupervised approach to product attribute extraction[M]. Advances in Information Retrieval. Springer Berlin Heidelberg, 2009: 796-800. [6] Lee T, Wang Z, Wang H, et al. Attribute Extraction and Scoring: A Probabilistic Approach[C]//Proceedings of ICDE. Brisbane, Australia, 2013: 194-205. [7] Van Durme B, Qian T, Schubert L. Class-driven attribute extraction[C]//Proceedings of the 22nd International Conference on Computational Linguistics. Manchester, UK, 2008: 921-928. [8] Ravi S, Pa?ca M. Using structured text for large-scale attribute extraction[C]//Proceedings of CIKM. Napa Valley, California, 2008: 1183-1192. [9] Lin D, Zhao S, Qin L, et al. Identifying synonyms among distributionally similar words[C]//Proceedings of IJCAI. Acapulco, Mexico, 2003: 1492-1493. [10] Turney P. Mining the web for synonyms: PMI-IR versus LSA on TOEFL[C]//Proceedings of the 12th European Conference on Machine Learning. Freiburg, Germany, 2001: 491-502. [11] Witten I, Milne D. An effective, low-cost measure of semantic relatedness obtained from Wikipedia links[C]//Proceeding of AAAI Workshop on Wikipedia and Artificial Intelligence. Chicago, USA, 2008: 25-30. [12] Kim S, Toutanova K, Yu H. Multilingual named entity recognition using parallel data and metadata from Wikipedia[C]//Proceedings of ACL，Korea, 2012: 694-702. [13] Han X, Zhao J. Structural semantic relatedness: a knowledge-based method to named entity disambiguation[C]//Proceedings of ACL, Sweden, 2010: 50-59. [14] Suchanek F M, Kasneci G, Weikum G. Yago: a core of semantic knowledge[C]//Proceedings of WWW, Canada, 2007: 697-706. [15] 葉正,林鴻飛,蘇綏,等. 基于支持向量機的人物屬性抽取[J]. 計算機研究與發(fā)展, 2007, 44: 271-275. [16] 盧漢,曹存根,王石. 基于元性質的數(shù)量型屬性值自動提取系統(tǒng)的實現(xiàn)[J]. 計算機研究與發(fā)展, 2010, 47(10): 1741-1748. Synonymous Expansion Based Entity Attribute Extraction via Online Encyclopedia LIU Qian1,2, LIU Bingyang1,2, HE Min3, WU Dayong1, LIU Yue1, CHENG Xueqi1 (1. CAS Key Laboratory of Network Data Science & Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190,China； 2. University of Chinese Academy of Sciences, Beijing 100049,China；3. National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China) Entity attribute extraction is fundamental to information extraction and knowledge base construction. This paper proposes an approach to open-domain entity attributes extraction from the online encyclopedia. The method collects potential attribute phrases through a combination of the web page structure and the domain independent patterns. Then, the acquired attribute patterns are expanded by synonymous expansions, which in turn helps to obtain a set of synonymous attributes. Experimental results show that the proposed approach boosts the coverage of extracted attributes without losing the precision. entity attribute；synonymous attribute；named entity，information extraction 劉倩(1984—)，博士，主要研究領域為自然語言處理、命名實體識別、網絡文本挖掘、信息抽取。E?mail：liuqian1104@126．com劉冰洋(1987—)，博士，主要研究領域為自然語言處理、命名實體識別、新詞發(fā)現(xiàn)。E?mail：liuctic@gmail．com賀敏(1982—)，博士，主要研究領域為自然語言處理、網絡挖掘、信息安全。E?mail：heminsmile@163．com 1003-0077(2016)01-0016-08 2013-08-10 定稿日期： 2014-05-10 國重點基礎研究發(fā)展計劃(973)(2012CB316303)；國家重點基礎研究發(fā)展計劃(973)(2014CB340401)；國家自然科學基金重點項目(61232010)；國家科技支撐專項(2012BAH46B04)；國家自然科學基金(61303156) TP391 A 猜你喜歡 同義百科置信度: Dale Carnegie
瘋狂英語·新悅讀(2023年9期)2023-12-02 17:36:34; 硼鋁復合材料硼含量置信度臨界安全分析研究
核科學與工程(2021年4期)2022-01-12 06:30:22; 樂樂“畫”百科
創(chuàng)新作文(5-6年級)(2019年3期)2019-09-03 05:14:59; 西夏文《同義》重復字研究
西夏學(2019年1期)2019-02-10 06:22:08; 百科小知識
作文評點報·低幼版(2018年31期)2018-09-27 12:21:52; 正負關聯(lián)規(guī)則兩級置信度閾值設置方法
計算機應用(2018年5期)2018-07-25 07:41:26; 西夏文《同義》考釋三則
西夏學(2018年2期)2018-05-15 11:25:30; 置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04; 探索百科
小溪流(故事作文)(2014年6期)2014-07-31 14:21:14; 超有趣的互動百科
智慧與創(chuàng)想(2013年10期)2013-11-28 08:40:50

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于同義擴展的在線百科中實體屬性抽取

1 引言

2 相關工作

3 本文的實體屬性抽取方法

4 實驗與分析

5 總結與展望