宋 睿,陳 鑫, 洪 宇
(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)
文本分析會議(text analysis conference,TAC)于2009年提出了知識庫群組(knowledge base population,KBP)評測任務,旨在引領信息抽取與組織的深入研究。槽填充(slot filling,SF)是KBP任務體系中的重要研究任務。截至目前,現(xiàn)有槽填充前沿技術的精度尚未超越60%(F值)。具有較高的探索價值。
槽填充的核心問題是如何為特定命名實體的某一屬性查找確切的實例(槽值)。面向槽填充的主流系統(tǒng)架構包括三個組成部分:
① 相關文檔獲取(粗糙的數(shù)據(jù)源檢索);
② 源信息發(fā)現(xiàn)(也稱源信息分類);
③ 槽值抽取(從源信息中提取具體實例)。
其中,相關文檔獲取環(huán)節(jié)主要面向特定實體獲取相關的文本信息,這一環(huán)節(jié)要求系統(tǒng)根據(jù)極為有限的先驗知識(命名實體和一篇參考文檔),從大規(guī)模文本數(shù)據(jù)中精確召回大量與命名實體相關的文檔。源信息發(fā)現(xiàn)環(huán)節(jié)則在上述檢索到的相關文檔中,定位具體的文本片段,所定位的片段需要包含特定類型的實體屬性(槽)的實例,并提供可信的上下文以佐證這一實例的可靠性。最終,抽取環(huán)節(jié)將根據(jù)信息源,利用自然語言理解和處理技術自動地從源信息中抽取實例。
槽填充是一種從無結構的自由文本中獲取預定義屬性的實例信息,并形成結構化報表的任務。維基百科每個詞條對應的頁面中,信息盒子(InfoBox)即為槽填充技術的一種應用模式,其有助于用戶快速理解和概覽特定目標實體的主要特性。圖1顯示了維基百科中關于實體“微軟”的InfoBox。
圖1 維基百科中關于“微軟”的InfoBox
本文針對源信息分類展開研究。源信息分類的核心目標是: 給定特定文本片段,對其是否描述了特定類型實體的某一種屬性進行判別。例如,給定句子“微軟總部設立于華盛頓州雷德蒙德市”,正確的判定結果為“org: city_of_headquarters”,即描述了“組織”類命名實體的“總部所在城市”這一屬性;作為對比,如果目標語句是“微軟員工總數(shù)已達11萬人”,則源信息分類正確判定結果是“org: number_ of_employees_members”,即描述了“組織”類命名實體的“成員人數(shù)”這一屬性。正確源信息分類有助于屬性實例的有效抽取,比如上例中分別抽取“華盛頓雷德蒙德市”和“11萬”。
現(xiàn)有槽填充研究在源信息分類方面的專門工作尚不多見,往往采用較為粗糙的處理手段形成槽填充系統(tǒng)的一個弱環(huán)節(jié)。常見的方式是: 根據(jù)實體類型和屬性類型的一致性,選取包含恰當類型的實體的句子作為源信息。例如,“雷德蒙德”的命名實體類型標記“GPE-CITY(地理-城市)”可以對應于實體槽“org: city_of_headquarters(總部所在城市)”,從而,句子“微軟總部設立于華盛頓州雷德蒙德市”可作為“org: city_of_headquarters”類屬性的候選實例的源信息。這類方法往往不顧及候選實例所在文本片段的語義,從而使獲得的信息源中蘊含大量冗余樣本和錯誤樣本。尤其是這類方法最終將源信息分類連同屬性實例抽取一并納入后續(xù)的機器學習和分類模型,使得在性能分析過程中,無法清晰探測屬性實例抽取錯誤的真正根源(源錯誤或抽取失當)。并且,在優(yōu)化抽取系統(tǒng)時,也難以輔助研究者實施有針對性的改進。
本文將源信息分類設置為一個關鍵的研究點,獨立于屬性實例抽取之外予以研究。根據(jù)前期工作中的觀測經(jīng)驗,我們發(fā)現(xiàn)文本復述有助于探測待測文本片段是否屬于特定實體屬性槽的源信息。本文針對這一發(fā)現(xiàn)展開系統(tǒng)調查,利用一種樹編輯模型(tree edit model[1])實現(xiàn)高效的復述檢驗,并對現(xiàn)有KBP-SF任務體系下的每一種實體屬性槽進行分析,重點評價復述對于基于特定規(guī)模知識庫的源信息發(fā)現(xiàn)和分類的支撐能力。
本文組織如下: 第1節(jié)概述相關工作,第2節(jié)介紹源信息分類的任務定義和資源,第3節(jié)介紹源信息中復述可靠性檢驗的方法,第4節(jié)介紹一種基于樹編輯模型的復述方法,第5節(jié)給出實驗設置、結果和分析,第6節(jié)對未來工作進行展望。
實體屬性槽填充是信息抽取領域的一個重要研究方向,近年來一直保持一定的熱度。復述是一種經(jīng)典的自然語言處理研究任務,目前已經(jīng)取得了多項重要突破。本節(jié)首先介紹槽填充任務的相關工作,然后對近期主流復述研究給予概述。
自動槽填充方法目前形成了兩種主要的方法框架,下面分別予以介紹。
(1) 遠程監(jiān)督(supervised classification)
遠程監(jiān)督做出如下假設: 如果兩個實體間存在特定的語義關系,那么同時包含這對實體的句子在一定程度上就能表征兩者的語義關系。該方法最早是由Mintz等[2]在關系抽取中引入的,通過使用Freebase作為監(jiān)督數(shù)據(jù)庫,將維基百科正文的句子對齊到Freebase上,獲得大量的訓練數(shù)據(jù)。該方法的引入雖然能一定程度上解決槽填充任務訓練語料不足的問題,但是卻引入了大量噪聲,致使模型不能準確探測關系類型。
針對遠程監(jiān)督存在的問題,Reidel等[3]和Angeli等[4-5]在模型上進行了改進,修改了遠程監(jiān)督的假設,而Roller等[6]和Bing等[7]另一批人則通過提高數(shù)據(jù)質量來解決遠程監(jiān)督的問題。雖然進行了這么多年的探索,但槽填充的性能仍然沒有突破性的進展。
(2) 模式匹配(pattern matching)
模式匹配指從源中學習到一種通用的屬性表達模板,如果待測句子和模板相符,則按照對應的模板抽取其相應的屬性值。這類方法大都通過自動、半自動的方式抽取,并生成生詞路徑(word sequence)和依存路徑(dependency path),其中生詞路徑是查詢實體和槽值之間的單詞序列;依存路徑則是依存樹上實體到槽的路徑,該路徑由單詞和依存關系節(jié)點構成。近年來,NYU[8]和PRIS[9]兩支隊伍一直不斷改進模式匹配的方法,他們的系統(tǒng)是目前通過模式識別進行槽填充任務的主要系統(tǒng)。
除了上述兩種主流方法外,也有人嘗試用問答的方法(Byrne和Dunnion[10])和無監(jiān)督的圖挖掘方法(Yu等[11])來解決這一問題。
復述(paraphrase)是對相同語義句子的不同表達,在自然語言中,復述是一種極為普遍的現(xiàn)象,也因此被廣泛應用于各種自然語言處理任務中[12]。其中自動問答(question answering,QA)和信息抽取(information extraction,IE)是與本文相關的兩個應用領域。
復述在QA中核心的兩個部分——問句理解和答案抽取中都有相應的應用。問句理解中,可以通過將復雜問句復述為簡單的子句集合,其中每個子句包含原句的部分信息,以簡代繁來理解問句的信息;答案抽取部分,由于問句和答案之間在表述相同信息時往往采用不同的表達方式,因此可以通過復述來匹配相同意思、不同表達的問句。
復述在信息抽取中同樣也發(fā)揮著重要作用。類似QA中的答案抽取,基于IE模板的方法往往受限于模板不充分而導致召回率低的問題。Romano等[13]在IE系統(tǒng)中引入復述技術,大量豐富IE的模板,從而提升IE系統(tǒng)的性能。
本節(jié)首先介紹面向實體槽填充的源信息分類(下文簡稱源分類)任務定義及樣例,然后給出現(xiàn)有支持這一研究工作的知識體系與資源。
源分類的核心任務是對任意文本片段自動標記實體屬性槽類型,從而指明這一文本片段潛在包含特定屬性類型的實例。具體任務定義如下:
①Input: 一個文本片段,可為子句(clause)、句子(sentence)、語塊(chunk)和段落(passage);
②Output: 屬性槽類型標記,這一標記并不唯一,如果一個文本片段包含多種屬性槽類型的實例,則該文本片段的類型標記也應為多個,而非一個。
根據(jù)這一定義,源信息分類實際上執(zhí)行了一種對任意預定義的槽類型進行二元判別的工作(從而保證一對多的“源—類型”標記)。下面給出一個實際例子,用以直觀顯示源分類任務的輸入輸出模式:
? #Input
微軟總部設立于華盛頓州雷德蒙德市,目前員工總數(shù)已超過11萬(句子級)
? #Output
T1-org: city_of_headquarters
(組織-總部所在城市)
T2-org: number_of_employees_members
(組織-成員人數(shù))
其中,T1和T2分別指示兩個不同的槽類型??梢园l(fā)現(xiàn),該例中具有兩種限定域槽類型,需要分類系統(tǒng)全部輸出。該例也暗示,在特定處理環(huán)境中,如果縮小文本片段的顆粒度,理論上可減少一對多的“源—槽類型”標記情況,這一點對減少屬性實例抽取具有積極的作用。
槽填充任務針對給定的實體類查詢進行屬性槽值(實例)的抽取。本文基于KBP-SF的評測任務展開研究,并遵循其限定的處理對象和知識體系。目前,KBP-SF將實體類型限定于人(person)和組織(organization),實體類查詢主要由人名或組織機構的全名構成。KBP-SF設置了34種屬性槽類型,表1顯示了所有槽類型名稱及中文翻譯。其中,21種為人的屬性,其他為組織機構類實體的屬性。歷年KBP-SF評測提供三種數(shù)據(jù)資源。其一是針對每個實體類查詢一對一提供可供參考的文檔,這類文檔往往蘊含了特定實體的背景信息,但值得注意的是,這類文檔中背景的信息量并不統(tǒng)一。其二是大規(guī)模文本資源(Gigaword),包含新聞、通用網(wǎng)頁和論壇中的文本信息,這一資源用于面向實體查詢的檢索系統(tǒng)粗略收集相關文檔。其三是針對實體查詢的測試樣本提供的標準答案,針對一個實體查詢,其答案包括不同屬性槽的槽值(實例)、每個實例所在的源信息及所在文檔,本文將該數(shù)據(jù)資源稱為KBP知識庫。
表1 KBP—SF命名實體屬性槽類型總表
KBP知識庫存在如下缺陷: 全面性較低且源信息質量不高。KBP采用Pooling池的方式將所有評測隊伍對每一個實體查詢提交的系統(tǒng)輸出取并集,這一并集即為Pooling池,KBP雇用標注人員對Pooling池內的樣本進行人工校對,形成正例和負例清晰可分的標準答案。然而在實際使用中,卻難以估測召回率。尤其是標注過程對源信息的質量并未給出明確要求,使得源信息中的冗余信息很多,句法和語篇邊界并不規(guī)范。
相比而言,由斯坦福大學提供的同類知識庫較為規(guī)范,在面向主動學習的槽填充研究過程中,斯坦福人工標記了大量句子級的源信息,并標記了其中特定實體與屬性槽值的關系。本文將其稱為STANF知識庫,其包含33 814條源信息,其中有11 184條源信息未標注具體屬性實例。該知識庫也用于評價實體關系抽取研究。
本文嘗試檢驗復述是否有助于源信息分類及其可靠性。這一檢驗包括三個環(huán)節(jié): 復述性能評價(ParaphrasingEvaluation,PE)、同類源信息復述占比評測(Occupation in type-HOMgeneous Source Information,OHOM)和異類源信息復述占比評測(Occupation in type-HETerogenous Source Information,OHET),下面分別給予介紹。
?PE: 對特定復述識別方法的性能檢驗,復述識別方法需為點到點的復述甄別,即兩個文本片段是復述或不是復述。評價方法為精度。本文采用一種基于編輯樹模型的復述識別方法(詳見第4節(jié)),該方法計算速度快,性能與目前基于深度學習的復述識別方法具有可比性。
?OHOM: 給定一種實體屬性槽Ψ的源信息知識庫,假定已包含了特定規(guī)模的先驗源信息。約定Ψ的測試樣本為蘊含Ψ實例的源信息,利用復述技術探尋每個測試樣本是否在中存在復述,如存在則為正例,反之為負例。計算正例樣本在全部測試樣本中的比例,這一比例稱為單項測試樣本的OHOM比,將所有測試樣本的OHOM比求和取平均,生成調和OHOM值,這一指標稱為屬性槽Ψ的OHOM比。
?OHET: 與OHOM不同,OHET側重檢驗某屬性槽的測試樣本在其他屬性槽的知識庫中是否存在復述,以及這種可能性的大小。具體而言,給定一種待測屬性槽Ψ1的測試樣本集,以及另一種屬性槽Ψ2的源信息知識庫2。對任意測試樣本e(e),利用復述技術檢驗是否在2中存在復述,如存在,則記錄這類復述的個數(shù),并計算在所有測試樣本中的占比。這一占比稱為e相對其他屬性槽Ψ2的OHET比,計算中所有測試樣本相對Ψ2的OHET比,并求和取平均,獲得調和OHET值,這一指標稱為屬性槽Ψ1的測試樣本相對于其他屬性槽Ψ2的OHET比。
本文實驗部分對基于樹編輯模型的復述識別性能進行評測(PE),并對所有KBP-SF的屬性槽進行OHOM評價。此外,針對每一種屬性槽,本文也提供了其對應所有其他屬性槽的OHET評價。
本文在規(guī)整的復述語料上,利用現(xiàn)有的樹編輯模型進行特征提取,訓練一個可信的復述分類器,從而利用這個復述分類器來挖掘槽填充任務中同類型和不同類型間的復述現(xiàn)象。樹編輯模型能夠有效匹配語義相同但結構不同(表達方式不同)的文本片段,在自動問答、機器翻譯和信息抽取領域有著廣泛的應用。就目前而言,尚未有前人工作專門將復述技術引入實體屬性槽填充的相關研究。
本節(jié)首先介紹樹編輯模型,然后給出利用樹編輯模型的識別方法。
樹編輯模型(tree edit model,TEM)是一種依照句子依存特征實施的語義對齊技術。給定一對句子(本文中特指一對可能互為復述的候選語句),TEM首先將兩者分別解析為兩棵依存樹T1和T2。其中,每個節(jié)點用三個域進行表示,分別是詞目(lemma)、詞性(POS)以及該節(jié)點的依存關系。比如,某節(jié)點上的標記“Goldstein/nnp/sub”表示名詞“Goldstein”作主語,關系則體現(xiàn)在“Goldstein”的對外依存弧上。
TEM遵循Bille[14]提出的樹結構編輯距離理論。具體而言,TEM嘗試利用編輯操作將兩棵依存樹T1和T2相互轉化,而在轉化過程中,通過特定代價函數(shù)對每一次編輯操作都賦予一個轉化代價,從而形成序列編輯操作的腳本δ和代價表單。在此基礎上,TEM 對δ計算總體代價。這一代價泛稱樹編輯距離。
Yao等[1]定義了9種編輯操作,前6種操作(INS LEAF、INS SUBTREE、 INS、DEL LEAF、DEL SUBTREE和DEL)是對葉節(jié)點、其他節(jié)點或是整個子樹的插入和刪除操作;后3種操作(REN POS、REN DEP和REN POS DEP)則是對詞性標記、依存關系或兩者皆有的重命名操作。編輯操作代價設置如下:
① 對單一節(jié)點特定域的編輯操作代價值為1.0;
② 如果是對樹節(jié)點整體的增、刪操作,那么代價值為3.0(因為需對節(jié)點的每個域都進行修改);
③ 對于不同樹的兩個相同節(jié)點(不存在編輯操作)或是具有相同的詞而進行的編輯操作,都稱之為對齊操作。
圖2給出了一套TEM編輯操作樣例,操作目的是將右邊的句子通過編輯操作轉化為左邊的句子。其中,每個節(jié)點由詞目和詞性組成,邊代表其依存關系。為了簡化描述,圖中省略了句號和根節(jié)點。
圖2 TEM編輯操作樣例
對于編輯腳本的選擇,模型采用了Zhang等[15]的動態(tài)規(guī)劃算法,自底向上地探索兩棵樹的編輯操作,從而生成具有最小樹編輯距離的編輯腳本。算法的時間復雜度如式(1)所示。
O(|T1||T2|min(D1,L1)min(D2,L2) )
(1)
其中,|Ti|(i=1或2)代表節(jié)點的數(shù)目,|Di|代表樹的深度,|Li|則為葉節(jié)點的數(shù)目。
本文采用基于樹編輯模型的復述識別方法參與實驗,該方法使用依存樹的編輯操作作為特征,使用支持向量機學習復述樣本,最終形成對句對進行“依存或否”的二元分類器,方法框架如圖3所示。
圖3 復述識別方法框架
(1) 構建語料庫樹形集合
首先,利用現(xiàn)有的依存分析工具,將復述語料中的所有句子轉化為特定的樹形結構集合。在這一環(huán)節(jié),傳統(tǒng)的依存分析工具往往采用最小生成樹分析方法[16](MSTParser),但這類工具使用的依存類型并不豐富。為此,本文在這一環(huán)節(jié)略作修改,采用最新的斯坦福依存分析工具[注]https://stanfordnlp.github.io/CoreNLP/進行依存關系解析。
(2) 數(shù)據(jù)泛化
命名實體在語義表達中具有統(tǒng)一的含義,從詞形角度考慮,同類但不同形命名實體難以一一對應。例如,“微軟”“谷歌”和“騰訊”等的概念基本一致(特定的組織機構),但以詞形學為基礎的處理方法難以對應。從而,TEM的編輯操作難以將同類實體視作含義一致的對齊樣本,引發(fā)不完整的編輯腳本,編輯代價也將失真。
為此,本文將命名實體實例進行泛化,統(tǒng)一使用實體類型標簽作為代替。換言之,將實體的人名抽象為一個統(tǒng)一的名稱PER,組織名則抽象為ORG。此外,對符合槽填充中的屬性槽類型的實例也進行改寫,統(tǒng)一泛化為槽類型標簽。
(3) 基于SVM的復述識別器
本文根據(jù)不同句子之間的樹形結構,利用TEM模型進行特征提取,并從中抽取相應的復述特征。復述特征如表2所示。
表2 復述特征列表
該表闡述的48維句法特征在傳統(tǒng)的樹編輯模型中已經(jīng)取得了較好的效果,但考慮到復述句對中存在大量的近義詞或包含關系,因而考慮引入WordNet網(wǎng)絡詞典,通過詞義的特征改善復述的判別效果。例如,下述兩個句子中的“戰(zhàn)勝癌癥”分別使用了“beat”和“defeated”,使用WordNet中的同義詞和上下位詞關系,可有效地在兩者之間形成對齊,提高TEM中對齊編輯操作的召回率。
例1Armstrongbeatcancerthatspreadtohisbrain
例2Armstronghasdefeatedcancerthatspreadhismind
本文利用Dolan等的復述語料訓練基于支持向量機(SVM)的二元分類器,正例樣本為互為復述的句子,負例為非復述的句對。分類器的具體配置如5.2節(jié)所示。
本文對采用的復述方法(PE)和復述對源信息識別的可用性和可靠性驗證(即OHOM和OHET系數(shù))分別進行實驗。本節(jié)分為三個部分進行陳述,首先介紹評測語料與評測標準,其次給出實驗設置,最后對實驗結果進行分析。
(1) 評測語料
本文使用微軟復述研究計劃(Microsoft research paraphrase,MRP)的復述語料對基于樹編輯模型的復述二元分類器進行訓練與測試。語料包含4 664個句子級復述對。本實驗采用其中3 001個復述對構建訓練集,其他樣本作為測試集。
此外,本文采用Angeli等[4]給出的斯坦福標注語料,總計22 630個有實際標記的句子級源信息。其中,16 972個源信息用作已有知識庫,并按照45種實體屬性槽類型,劃分成45個對應的源信息知識庫。其他作為測試樣本,共計5 658個。
(2) 評測標準
本文使用精度(accuracy,ACC)對復述二元分類器進行評測。此外,實驗使用OHOM和OHET系數(shù)作為復述對源信息分類可用性和可靠性的評價標準。
實驗采用基于SVM的二元分類器進行復述識別,復述特征如表2所示。分類器采用LibSVM模型,核函數(shù)為樹核,具體參數(shù)配置如表3所示。
表3 復述分類器參數(shù)配置
注: 符號注釋- iter: 迭代次數(shù);nu: libsvm中樹核函數(shù)的參數(shù)類型;obj: svm文件轉化為二次規(guī)劃求解得到的最小值;rho: 判決函數(shù)的偏執(zhí)項;nsv: 標準支持向量個數(shù)。
針對源信息分類檢驗的實驗,使用了5倍交叉驗證,每次驗證從22 630個句子級源信息中隨機選擇75%的樣本(16 972個源信息)作為知識庫,其他作為測試樣本。
實驗首先驗證了復述本身的性能(SF)。評測顯示,本文所采用的基于樹編輯模型的復述識別方法在開放測試情況下獲得72.28%的精度,具有這一性能的復述識別可在一定程度上輔助信息源復述占比(OHOM和OHET)的檢驗,并使得檢驗結果具有一定的可參考性。
5.3.1 OHOM檢驗及分析
在此基礎上,實驗首先對同類源信息復述占比進行計算,人物類實體所有槽類型的OHOM平均值超過30%,組織機構類實體的OHOM平均值超過20%,如表4所示。這在一定程度上反映出,利用復述對待測語句進行源信息分類有潛在的可用性。當給定一個待測語句,直接通過復述技術尋找語義相似的先驗源信息,并依據(jù)這一源信息所屬的已知槽類型對待測語句進行槽類型標記,能夠獲得20%~30%以上的召回率。從而可以推測,將這一方法與現(xiàn)有方法進行結合,存在優(yōu)化源信息分類和槽值填充性能的潛在可能。
實驗額外采用人工方式對大量OHOM指標較低的槽類型的源信息進行校對,發(fā)現(xiàn)其指標不高的原因主要表現(xiàn)在如下三個方面。
(1) 源信息知識匱乏
觀察發(fā)現(xiàn),某些槽類型的源信息知識庫樣本匱乏,導致利用復述找出同類源信息的概率極大降低。比如,斯坦福源信息數(shù)據(jù)資源中,per:schools_attended(人物的就讀學校類)僅有少量樣本,即可供參考的知識很少,而本文所采用的復述方式對語義一致性要求較高,當知識庫中樣本匱乏、先驗源信息多樣性較低的時候,復述方法很難將待測源信息投影到對應知識庫中的任何一個樣本,因此無法借助復述樣本直接判定其所屬的槽類型。
表4 同類源信息復述占比檢驗
相反,源信息知識庫規(guī)模較大的槽類型則可在多樣性和信息量上給予源信息分類更大支持。例如,per: date_of_birth(人物的出生日期類)源信息知識庫的規(guī)模是上述per: schools_attended(人物的就讀學校類)的接近4倍(表5),兩者的OHOM指標的差異則達到了14倍。
表5 源信息知識庫規(guī)模對比樣例
注: Num: 源信息知識庫樣本數(shù)量
Pcg: 特定實體槽類型知識庫的樣本數(shù)占總體知識庫的比重
就這一點而言,探索一種知識庫的擴充方法,并了解知識庫內樣本語義一級的多樣性,將有助于基于復述的源信息分類性能。例如,利用主動學習策略實現(xiàn)知識庫擴展技術。
(2) 復述對子規(guī)格不一
另一發(fā)現(xiàn)是復述對子規(guī)格不一。比如,待測源信息是一個較短的句子,而其在對應槽類型知識庫中的復述是一個較長的句子,這類復述對子的識別錯誤影響了待測源信息的分類。這一現(xiàn)象說明,本文采用的復述識別方法存在缺陷。
(3) 難以識別隱喻復述
人工觀察發(fā)現(xiàn),文本隱喻是復述識別難以處理的主要問題。隱喻特指表達含義的方式并非直接,而是在蘊含較高知識背景下的間接表述。例如,“喬治84歲時去世”為直白表述,而“84年后,喬治的名字永遠鐫刻在佐治亞平原的石碑之上”則是一種隱喻。假設前者出現(xiàn)于槽類型per:date_of_death(人物死亡日期)的源信息知識庫中,并假設后者為測試樣本,則本文使用的樹編輯模型很難將兩者判定為互為復述的樣本,從而也無法利用復述實現(xiàn)源信息分類。
就這一點而言,對于隱喻復述這一語言現(xiàn)象,深度復述檢測方法具有潛在的應用價值。
5.3.2 OHET檢驗及分析
實驗對異類源信息復述占比(OHET)進行了檢驗。其側重檢驗待測源信息在非同類的槽類型源信息知識庫中具有復述的可能性。理想情況下,如果復述方法的性能較高,且對各種復述現(xiàn)象的處理能力很強,則OHET的值越低,越能說明基于復述的源信息分類方法的可靠性較高。原因在于,OHET具有較低水平時,待測源信息在其他槽類型知識庫內復述較少,甚至并不存在,從而被誤判隸屬其他類型屬性槽的概率很低。圖4和圖5分別顯示了面向人物和組織機構類實體的不同槽類型的OHET指標。圖5中,深色條紋柱狀圖表示的是一類待測源信息在同類槽知識庫中的OHOM指標,其他淺色條紋柱狀圖表示的是該類待測源信息在其他類實體槽的知識庫中的OHET指標。比如,圖4中的第一個子圖表示的是屬性槽per:age(人物年齡類)的所有的待測源信息樣本在所有屬性槽的源信息知識庫中的占比(深色柱狀圖為平均OHOM,所有淺色柱狀圖表示平均OHET)。值得說明的是,圖中所有屬性槽的名稱都用較短的編號代替,從而有助于圖示的清晰展示,每個編號對應的具體屬性槽名稱可在圖注釋中查詢。除此之外,某些空圖代表斯坦福源信息數(shù)據(jù)中不具備對應的屬性槽。
根據(jù)圖4和圖5的檢驗結果可以發(fā)現(xiàn),對于大部分槽類型的待測信息源而言,其復述的OHOM指標都大于OHET指標。換言之,這類待測信息都會在同類性屬性槽的知識庫中找到大量復述(深色柱狀圖),而在不同類型的其他屬性槽的知識庫中找到較少復述(淺色柱狀圖)。這一發(fā)現(xiàn)說明,利用復述的OHOM和OHET系數(shù),借助分布概率計算,可以在較多槽類型上獲得較好的源信息分類性能。
針對不符合預期的OHET指標對應的槽類型樣本,加入了人工校對環(huán)節(jié),并發(fā)現(xiàn)了下屬語言現(xiàn)象。
(1) 多重類型復述
多重類型復述指的是某一待測源信息包含了多種槽類型的實例,例如,“他出生于1991年,現(xiàn)年剛滿18周歲”,這一源信息既可以作為per:date_of_birth(人物出生日期類)槽類型的源信息,也可作為per:age(人物年齡類)槽類型的源信息,致使這一樣本在兩種槽類型的源信息知識庫中都可能存在復述。同理,知識庫中的源信息也存在相同現(xiàn)象。在這一情況下,如果某一類型的源信息知識庫樣本量遠多于另一個類型的源信息知識庫樣本,則多重類型復述待測樣本在存在前者中的OHET始終高于在后者的風險。換言之,復述可能傾向于將樣本量大的槽類型始終判定為待測源信息的類型。
(2) 復述識別錯誤
如前文所述,本文采用的基于樹編輯模型的復述識別方法存在一定誤差。實驗觀察發(fā)現(xiàn),這類誤差并不隨機,而是在特定的語義表述上頻繁出現(xiàn)。然而,這種較為集中的判斷失誤往往會集中在特定槽類型的源信息上,從而使得這類復述識別頻繁出錯,不斷誤導源信息的分類。
圖4 針對人物類槽類型的源信息OHET檢驗注: Per_T(i){i=1-17}為序號,代替原有屬性槽類型的類型名在上圖中予以顯示。Per_T1: per: age; Per_T2: per: alternate_names; Per_T3: per: cause_of_death; Per_T4: per_cities_of_residence;Per_T5: per: city_of_birth; Per_T6: per: city_of_death; Per_T7: per: date_of_birth; Per_T8: per: date_of_death;Per_T9: per: employee_or_member_of; Per_T10: per: origin; Per_T11: per: other_family;Per_T12: per: parents; Per_T13: per: religion; Per_T14: per: schools_attended;Per_T15: per: siblings; Per_T16: per: spouse;Per_T17: per: title;
圖5 針對組織機構槽類型的源信息OHET檢驗注: Org_T(i){i=1-14}為序號,代替原有組織機構屬性槽的類型名在上圖5中予以顯示。Org_T1: org: alternate_name; Org_T2: org: city_of_headOuarters; Org_T3: org: country_of_headOuarters; Org_T4: org: date_founded;Org_T5: org: founded_by; Org_T6: org: members; Org_T7: org: member_of;Org_T8: org: number_of_employe_members; Org_T9: org: parents;Org_T10: org: political_religious_affiliation; Org_T11: org: shareholdersOrg_T12: org: stateorprovince_of_headOuarters; Org_T13: org: subsidiariesOrg_T14: org: top_members_employee;
就這一點而言,采用多種復述技術進行互補,將可能有效改善這一現(xiàn)狀。比如,引入基于深度學習的復述識別技術,以及利用半監(jiān)督的復述模板技術等,并結合基于排序學習的多特征融合技術,實現(xiàn)更為有效的復述識別。
本文剖析了槽填充任務性能不好的原因,指出了其任務環(huán)節(jié)中的薄弱部分——源處理,并基于此將源處理與屬性實例抽取剝離,設置了一個獨立的關鍵研究點,針對復述在源信息分類上的可用性和可靠性進行了詳細的分析。
此外,本文通過一種基于樹編輯模型的識別方法,實現(xiàn)了復述的判別,并在槽填充源信息數(shù)據(jù)集上檢驗了同類源信息復述占比(OHOM)和異類源信息復述占比(OHET)系數(shù)。在此基礎上,結合人工觀測與校對,發(fā)現(xiàn)多種源信息分類錯誤的語言現(xiàn)象,并提出了相應的解決方法和思路。
總體而言,本文驗證了復述對實體槽類型源信息分類的可用性。對于可靠性的進一步提升,本文建議在利用主動學習的多樣性源信息知識庫構建的基礎上,借鑒目前基于深度學習的復述識別方法,融合語義蘊含和隱喻的特征分析與表示,借助多特征融合和排序學習技術,實現(xiàn)更為深入的信息源分類方法,以有效支持屬性槽填充技術的發(fā)展。