白 宇,田 雨,王之光,張桂平
(1. 南京航空航天大學 計算機科學與技術(shù)學院,江蘇 南京 210016;2. 沈陽航空航天大學 人機智能研究中心,遼寧 沈陽 110136)
《知網(wǎng)》(HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫[1]。HowNet的構(gòu)建秉承還原論思想,即所有詞語的含義可以由最基本的、不再分割的最小語義單位構(gòu)成,而這種語義單位被稱為“義原”(Sememe)。義原是構(gòu)成概念描述的核心部件。目前,《知網(wǎng)》構(gòu)建了包含約2 200多個義原的精細的語義描述體系,并為約14.8萬概念標注了義原。例如,“小米”在HowNet中的定義即Def被描述為: {material|材料: MaterialOf={edible|食物},material={crop|莊稼}},如圖1所示。
圖1 新概念發(fā)現(xiàn)及義原推薦示例
HowNet自問世以來,受到自然語言處理領(lǐng)域的廣泛關(guān)注,國內(nèi)外學者在詞匯語義消歧[2-3]、相似度計算[4-6]、文本分類[7]等方面探索了 HowNet 的重要應用價值。近年來,相關(guān)研究[8-9]表明,HowNet通過統(tǒng)一的義原標注體系直接刻畫語義信息,且每個義原含義明確固定,可被直接作為語義標簽融入機器學習模型,使自然語言處理深度學習模型具有更好的魯棒可解釋性。然而,與其他依靠人工構(gòu)建的知識庫系統(tǒng)一樣,HowNet存在著規(guī)模有限、更新擴展維護成本高的問題。沒有HowNet背景知識和未經(jīng)專門訓練的人員難以較好地完成義原預測任務[10]。這導致HowNet潛在的巨大應用價值與其自身規(guī)模有限、語義資源稀疏且難擴展的矛盾,解決這個矛盾的一個可行的途徑就是開展HowNet的自動或半自動構(gòu)建技術(shù)的研究,其核心問題之一就是為新概念的描述選擇合適的義原。
隨著時代發(fā)展,新詞匯和舊詞新用的概念不斷涌現(xiàn)。新詞義原推薦(或預測)任務就是在HowNet已有義原集合中選擇出適合構(gòu)建其概念義項Def描述的義原子集。例如,在現(xiàn)有HowNet知識庫中,“小米”的概念義項Def描述包含的義原集合為{material|材料,edible|食物,crop|莊稼}。然而,在目前實際語言環(huán)境中,“小米”除了具有一種農(nóng)作物的概念外,還可以描述為一個公司名或電子產(chǎn)品的品牌。因此,其義原集合中還應該包含{InstitutePlace|場所}或{SpeBrand|特定牌子}等義原。
通常,語義相似的詞語或概念之間會共享相同的義原,因此,解決新詞概念義原推薦問題,可以借鑒協(xié)同過濾(Collaborative Filtering,CF)的主要思想: 即利用HowNet已有概念的Def描述中的義原集合來預測當前新詞概念的Def描述最可能使用的義原集合,其關(guān)鍵在于度量新舊詞語或概念之間的語義相似性。
近年來,基于詞的分布式表示方法已成為計算詞語相似度的主流方法,但是,這些方法采取的詞語表示學習過程與HowNet對詞語或概念描述的形成過程存在著本質(zhì)區(qū)別,這導致了“相似性異構(gòu)”問題。為了直觀地說明該問題,我們在HowNet中隨機抽取了兩組中心詞語,并獲取了HowNet中與其語義相似的詞語集合,對于該集合中的全部詞語再通過基于Word2Vec[11]算法獲取其對應的詞向量,通過對詞向量進行可視化來展示基于詞的分布式表示方法得到的詞語之間語義距離關(guān)系。如圖2所示,其中,a組詞語以“神經(jīng)束膜”“團委”“原生質(zhì)”為中心詞,b組詞語以“豐田”“分理處”“猶太教堂”為中心詞,HowNet中語義相近的詞語在圖中使用相同符號進行了標記。圖中相同符號的點的聚集性越明顯,則語義距離的度量結(jié)果的一致性越好。
圖2 基于詞向量與基于HowNet的詞語相似關(guān)系比較HowNet中的語義相近的詞語使用相同符號表示
從圖中顯示的結(jié)果可見,基于詞的分布式表示方法與基于HowNet義原的相似度度量方法之間存在差異,表現(xiàn)為詞語之間語義距離的度量結(jié)果的不一致。為了更好地為新詞概念選擇合適的義原,需要建模一種新的相似度計算方法,使其計算得到的度量結(jié)果能夠逼近基于HowNet義原的相似度計算結(jié)果,即達到“相似性同構(gòu)”?;谶@種假設(shè),本文提出一種融合義原注意力的預訓練語言模型優(yōu)化方法SaBERT。在判別新詞與HowNet詞表詞之間的語義相似性的過程中,該方法利用詞表詞已知概念描述義原序列的注意力分布,以相似性同構(gòu)為目標,對基于BERT+CNN的相似性判別模型進行優(yōu)化,從而為義原推薦任務提供相似概念集合。實驗結(jié)果表明,本文方法可有效解決未登錄詞與詞表詞的相似性判別問題。在基于協(xié)同過濾框架的義原推薦任務中進行的實驗表明,相似性同構(gòu)程度與義原推薦效果成正相關(guān),本文方法能夠有效解決候選義原的選擇問題。
HowNet通過事件、萬物、屬性、屬性值、部件、空間、時間等7個維度進行世界的描述,示例如表1所示。
表1 知網(wǎng)7個維度的概念示例
HowNet利用有限的義原描述無限的概念集合。其中,義原被劃分為Entity|實體、Event|事件、Attribute|屬性、Value|值以及SecondaryFeature|第二特征等5個大類。
隨著深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[12],遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)[13],圖神經(jīng)網(wǎng)絡(luò)(GNNs)[14]和Transformer[15]等神經(jīng)網(wǎng)絡(luò)模型被廣泛應用于解決自然語言處理(NLP)任務[16]。相比于非神經(jīng)網(wǎng)絡(luò)模型方法嚴重依賴于離散的手工特征,神經(jīng)網(wǎng)絡(luò)方法通常使用低維稠密向量隱式表示語言的語法或語義特征。近年來,大量的研究表明,使用大規(guī)模文本語料庫進行訓練得到的預訓練模型(PTMs)可以學習近似通用語言表示[17-19],在對特定任務的小數(shù)據(jù)集微調(diào)后,可在顯著降低單個自然語言處理任務的難度的同時提升系統(tǒng)性能。
在詞語相似度計算方面,由于分布式表示方法可以通過將單個詞表示為低維稠密實數(shù)向量,捕捉詞語間的關(guān)聯(lián)信息。因此該方法可在低維空間中高效計算詞語間的語義關(guān)聯(lián),有效解決數(shù)據(jù)稀疏問題[11]。雖然以Word2Vec為代表的詞語表示學習模型已經(jīng)在詞語相似度計算任務中取得了較好的效果。然而,Word2Vec中每一個詞語被映射到一個唯一的稠密向量,它無法處理一詞多義(Polysemy)問題。此外,現(xiàn)有的根據(jù)詞語的上下文分布來學習詞語的表示向量的表示學習模型,不能有效地對于出現(xiàn)次數(shù)較少或未登錄的詞語進行表示學習,這成為影響詞語分布式表示方法在相似度計算任務上發(fā)揮作用的主要障礙。
相比于Word2Vec為代表的分布式表示方法,BERT[18]的一個比較突出的優(yōu)勢就是詞語表示的動態(tài)性,能建模一詞多義的現(xiàn)象。在新詞概念的義原推薦任務中,對于未登錄詞(OOV)的分布式表示需求普遍存在,為了減緩OOV的影響,一種普遍的方法是擴大詞典規(guī)模,以提升模型訓練過程中詞匯的覆蓋度,但該方法不能從根本上解決OOV問題。
采用基于字的預訓練語言模型,例如可利用BERT編碼后對應位置的字的隱層向量得到當前詞語的向量。然而,簡單地將詞看作字的序列來計算詞向量的方法的效果并不理想。此外,在HowNet中,概念相似性的度量關(guān)鍵是計算概念對應的義原序列之間的相似度。在序列語義相似度(如句子相似度)計算方面,采用孿生BERT網(wǎng)絡(luò)結(jié)構(gòu)的句子嵌入方法Sentence-Transformers(S- BERT)[20]表現(xiàn)出了良好的性能。該方法將句子對輸入到參數(shù)共享的兩個BERT模型中,將BERT輸出句子的所有字向量進行平均池化后獲得每個句子的句向量表示。因此,本文嘗試利用詞表詞已知概念描述義原序列的注意力分布,以相似性同構(gòu)為目標,對基于BERT的相似性判別模型進行優(yōu)化。
在HowNet中,由義原向上構(gòu)建概念,由概念向上定義詞,詞語、義項、義原的關(guān)系如圖3所示。這里以詞語“小米”為例,由“material|材料”、“edible|食物”和“crop|莊稼”等義原及其關(guān)系構(gòu)成的概念義項的描述為: DEF={material|材料: MaterialOf={edible|食物},material={crop|莊稼}(senseID: 177381),再由這個概念義項定義詞語“小米(millet)”。
圖3 詞語、義項、義原的關(guān)系示例
如上所述,HowNet中,每個詞語對應一個或多個概念義項的定義(Def),每個Def包含一個或多個義原。任一概念的描述中的義原之間通過體現(xiàn)概念與概念和概念的屬性與屬性之間的相互關(guān)系連接,通常一個義原可能存在于多個概念義項的定義之中。在對多個詞語的語義關(guān)系進行建模時,就形成了“詞語-義項-義原”關(guān)系網(wǎng)絡(luò)。
我們期望利用“詞語-義項-義原”關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)特征和基于協(xié)同過濾機制發(fā)現(xiàn)詞語的新概念并為其推薦相關(guān)義原。
協(xié)同過濾機制是推薦系統(tǒng)所采用的最為重要的技術(shù)之一[21]。其基本原理是假設(shè)兩個用戶如果具有相類似的購買行為,則他們對同一類商品感興趣的程度也就會比較接近,那么當前用戶很有可能會對另一個相似用戶所喜歡的商品感興趣。在語義相似性度量方面,結(jié)合HowNet中對概念描述方式的規(guī)定,可以認為,語義相似的概念應具有相似的義原關(guān)聯(lián)集合。因此,在義原推薦的任務中,采用協(xié)同過濾機制是一種可行的途徑。基本原理是根據(jù)相似的概念義項所包含的義原來推薦當前詞語尚未被標記但在實際語言環(huán)境中很可能表達其某方面語義信息的義原。
利用相似詞語對應的概念獲得待推薦義原的集合。如圖4所示,首先,在HowNet詞表詞集合中,通過相似性判別模型選擇與新詞(未登錄詞)相似的詞語構(gòu)成相似詞集合;其次,基于上述全部詞語、詞語對應的概念義項及其義原,構(gòu)建局部“詞語-義項-義原”關(guān)系網(wǎng)絡(luò);最后,基于網(wǎng)絡(luò)節(jié)點重要性排序方法進行義原節(jié)點的選擇。
圖4 義原協(xié)同推薦框架
這里使用兩種中心性(Centrality)的度量方法評估義原節(jié)點的重要度,并以此重要度作為義原選擇排序的依據(jù)。度中心性(Degree Centrality)是在網(wǎng)絡(luò)分析中刻畫節(jié)點中心性(Centrality)的最直接度量指標。一個節(jié)點的節(jié)點度越大就意味著這個節(jié)點的度中心性越高,該節(jié)點在網(wǎng)絡(luò)中就越重要。標準化度中心性測量如式(1)所示。
Cd(vi)=∑jxij/max(Cd(vj)),i≠j∈N
(1)
其中,xij=1表示節(jié)點i與節(jié)點j之間存在直接聯(lián)系,否則,xij=0;N為網(wǎng)絡(luò)中全部節(jié)點的集合。由于節(jié)點的度(Degree)的計算過程沒有考慮圖中鄰接節(jié)點的重要性,不能很好地體現(xiàn)詞語之間對義原的共享特征。因此,需要從路徑這個維度來度量節(jié)點的中心性,這里引入基于介性中心度(Betweenness Centrality)的中心性度量方法。計算網(wǎng)絡(luò)中任意兩個節(jié)點的所有最短路徑時,如果這些最短路徑中有很多條都經(jīng)過了某個節(jié)點,那么就認為這個節(jié)點的介性中心度高。介性中心度測量如式(2)所示。
(2)
其中,σst表示從節(jié)點s到t的最短路徑數(shù),∑st(vi)表示從節(jié)點s到t經(jīng)過vi的最短路徑數(shù)。節(jié)點的介性中心度是以經(jīng)過某個節(jié)點的最短路徑數(shù)目來刻畫節(jié)點重要性的指標。一個義原節(jié)點的介性中心度越高,說明其被相似詞語共享的可能性越大。
結(jié)合義原節(jié)點的標準化度中心性和介性中心度,計算義原節(jié)點的推薦指數(shù)如式(3)所示。
R(vi)=Cd(vi)×log(Cb(vi)+1)
(3)
在協(xié)同推薦的框架下,以相似詞語集合為橋梁建立了未登錄詞與義原的關(guān)聯(lián)關(guān)系,基于上述義原節(jié)點的推薦指數(shù)完成未登錄詞的候選義原的排序選擇。
新詞概念義原推薦任務的目標是為HowNet中未登錄的概念推薦合適的義原,因此,需要找到一種義原未知概念與義原已知概念之間的相似度計算模型。由于概念以詞的形式表現(xiàn),上述問題可轉(zhuǎn)換為未登錄詞語與詞表詞的相似度計算問題。
與一般的詞語相似度計算不同,一方面,基于相似性同構(gòu)假設(shè),相似性的判別是以基于HowNet的詞語相似度計算結(jié)果為標準;另一方面,參與相似性判別的詞語由未登錄詞(OOV)和HowNet詞表詞(IV)構(gòu)成,對于IV而言,構(gòu)成其概念描述Def的義原集合是已知的,可以被用來提升模型的收斂性。
相似性判別模型的整體框架如圖5右側(cè)部分所示。該模型把輸入的新詞和詞表詞對應的字序列分別輸入到兩個SaBERT模型,獲得融入義原序列信息的語義表示向量,向量拼接后通過CNN分類模型完成未登錄詞與詞表詞的相似性判別。
圖5 SaBERT2+CNN模型
其中,義原注意力模型SaBERT的結(jié)構(gòu)如圖6所示,SaBERT首先將詞表詞的概念描述Def所對應的義原樹進行先序遍歷,得到義原中文詞序列SL;然后將義原序列SL經(jīng)S-BERT(固定參數(shù),distilue-base-multilingual-cased)得到其向量表示ESL;將ESL與詞語中每個字經(jīng)過BERT后得到的隱藏層向量hci進行拼接,然后再接一個激活函數(shù)為tanh的全連接層,其中參數(shù)矩陣w1∈R2d×n,并通過Softmax得到各個字向量的權(quán)重向量α;最后通過向量加權(quán)和得到詞語的最終向量表示e。
圖6 義原注意力SaBERT模型
a=Softmax(tanh(w1[ESL;hci]))
(4)
(5)
在模型訓練過程中,為了使模型的預測結(jié)果能夠逼近基于知網(wǎng)義原的相似度計算結(jié)果,即達到“相似性同構(gòu)”的目的,本文利用了經(jīng)典HowNet語義相似度計算模型[4]作為相似性判別的標準模型。經(jīng)典HowNet語義相似度計算結(jié)果為[0,1]連續(xù)實數(shù),對其計算結(jié)果的分析發(fā)現(xiàn),相似詞語之間計算相似度的結(jié)果值在[0.9,1.0]、[0.8,0.9)、[0.7,0.8)和[0.0,0.7)區(qū)間上的比例約為6∶2∶1∶1。由于本文進行詞語相似度計算的目的是面向候選義原集合的構(gòu)建進行相似詞語的選擇,因此,為提高相似詞選擇的質(zhì)量,這里我們將相似性判別問題看作以0.9為分類閾值的二分類問題,通過離散化處理將連續(xù)相似度值轉(zhuǎn)換為相似程度判別標記,采用交叉熵損失函數(shù)完成模型訓練。
3.1.1 數(shù)據(jù)集
將相似詞判別問題作為二分類任務?;贖owNet經(jīng)典相似度計算方法構(gòu)建詞語相似度矩陣A。將相似度大于或等于0.9的詞對作為正類,其余作為負類。矩陣A中,刪除義原預測測試數(shù)據(jù)集合中包含的詞語對應的行和列后,形成矩陣B。在B矩陣的元素中選取27 000組詞對按8∶1∶1劃分為相似詞選擇模型的訓練數(shù)據(jù)集、驗證集和測試集。
為了驗證本文相似性判別方法對義原預測結(jié)果的影響,將基于SaBERT的相似性判別方法與當前主流的基于預訓練語言模型的方法以及HowNet標準模型進行比較。義原預測實驗使用的數(shù)據(jù)集從HowNet知識庫中抽取產(chǎn)生。首先,按照概念描述所涉及的義原數(shù)量將HowNet知識庫中的詞語分成11類,實例如表2所示。其次,從各類中抽取若干詞語,數(shù)據(jù)分布及實例如表2所示,該測試數(shù)據(jù)集合計包含1 069個詞語。
表2 義原推薦任務測試數(shù)據(jù)集實例
3.1.2 對比模型
采用的對比模型及模型對應的輸入信息如表3所示。我們使用準確率P、召回率R和F1值作為詞語相似性判別的評測標準。
表3 相似性判別對比模型
以HowNet詞語語義相似度作為標準,表4列出了基于我們提出的模型和其他對比模型的詞語相似性判別結(jié)果。
表4 不同模型的P、R、F1值比較
續(xù)表
由表4可知: ①在與新詞的相似性判別結(jié)果中,基于詞表詞義原信息的相似性判別結(jié)果普遍優(yōu)于僅使用詞表詞的結(jié)果。②在基于詞表詞義原信息的相似性判別結(jié)果中,基于共享參數(shù)的模型普遍優(yōu)于使用非共享參數(shù)的模型。③模型SaBERT2+CNN取得了最好的詞語相似性判別結(jié)果。
為了比較不同相似性判別模型對基于中心性的義原選擇模型的影響,采用了如表5所示的4種基本模型及其組合模型對相似性判別模型進行性能評估,其中,相似性差別模型為義原選擇模型使用的關(guān)系網(wǎng)絡(luò)的構(gòu)建確定了相似詞集合。
表5 基于中心性的義原選擇模型
使用F1值和MAP值作為義原推薦的評測標準。
(6)
其中,K為詞語的義原數(shù)量,pk為第k個正確義原在推薦序列中的位置。
表6列出了分別基于獨立模型(BERT)、非共享參數(shù)的模型(BERT+CNN)、共享參數(shù)的模型(SaBERT2+CNN)對不同義原推薦模型效果的影響情況??芍?義原推薦效果與相似性判別結(jié)果正相關(guān),即模型的相似性判別結(jié)果與基于HowNet的相似度計算結(jié)果越一致,義原推薦效果就越好,這表明了本文以相似性同構(gòu)為模型優(yōu)化目標的合理性。
針對不同義原數(shù)量情況的模型表現(xiàn)對比如圖7所示,圖中縱坐標為不同義原預測模型取得F1值的算數(shù)平均,橫坐標為義原數(shù)量。該結(jié)果表明,在對具有不同義原數(shù)量的詞語進行義原預測時,SaBERT2+CNN模型均表現(xiàn)出良好的效果。
圖7 針對不同義原數(shù)量情況下的模型對比
隨著互聯(lián)網(wǎng)應用的普及,文本大數(shù)據(jù)中大量的新詞不斷出現(xiàn),同時現(xiàn)有詞語的含義被延伸和擴展,因此有必要對以義原為基礎(chǔ)的語義知識庫進行持續(xù)地修正和擴充。
在詞匯進行義原自動標注方面,Xie等人[22]提出了義原預測任務,并基于詞嵌入(Word Embeddings)和義原嵌入(Sememe Embeddings)提出了多種義原預測模型,借助協(xié)同過濾和矩陣分解的方法,從已有的人工標注數(shù)據(jù)集學習詞匯與義原的通用的關(guān)系,從而自動構(gòu)造出新詞的義原。依賴詞語外部上下文信息的語義表示方法無法有效處理低頻詞或未登錄詞。Jin等人[23]提出了基于詞語內(nèi)部字信息和外部上下文信息的義原預測框架,通過將內(nèi)部模型和外部模型融合,提升了低頻詞義原預測的效果。為了克服低頻詞嵌入質(zhì)量差,義原預測準確性不高的問題,Li等人[9]提出了基于字和多標記分布序列到序列模型(Label Distributed Seq2Seq Model),利用詞的定義和描述信息進行義原預測。張磊等人[24]基于多標簽分類模型架構(gòu),通過將句子中的詞作為模型輸入,減小了用字作為最小單位的歧義性。杜家駒等人[25]提出了義原相關(guān)池化模型,利用局部語義相關(guān)性來預測義原,該方法依賴于定義文本的獲取質(zhì)量。在低資源的情況下,解決義原推薦問題的關(guān)鍵在于計算新詞與HowNet詞表詞之間的語義相似度。
詞語相似度計算方法可以分為基于語料庫的方法[26]和基于知識庫的方法[27]。目前,大量主流的詞語語義相似性計算方法可以歸類為基于語料庫的方法。這些方法基于分布假設(shè),從大型文本集合中學習單個詞語之間的關(guān)聯(lián)。如果兩個詞語的上下文環(huán)境越相似,或者它們在一起出現(xiàn)的頻率越高[28],則假定它們的語義相似程度越高。通常,詞語的分布式表示通過詞語在語料庫中的共現(xiàn)信息獲得,其中一種最經(jīng)典的基于詞相鄰關(guān)系的表達方式就是Word2Vec,每個詞語被映射到一個唯一的稠密向量。BERT相比以Word2Vec為代表的詞嵌入方法,使用Transformer中的編碼器作為特征抽取器,這種方法對上下文有很好的利用,能夠動態(tài)建模一詞多義的現(xiàn)象。上述方法均以字或詞的分布式表示為基礎(chǔ),忽略了基于詞向量與基于HowNet義原信息的詞語相似關(guān)系不一致問題,不適合基于協(xié)同框架的義原推薦任務。
本文提出了語義相似關(guān)系的異構(gòu)問題,假設(shè)與HowNet基于義原的語義相似性度量具有一致性的詞語相似度判別模型能更有效地為新詞推薦義原?;谶@種假設(shè),以相似性同構(gòu)為目標,融合義原注意力對預訓練語言模型進行微調(diào)。實驗結(jié)果表明,本文方法可以有效解決未登錄詞與詞表詞的相似性判別問題。在基于協(xié)同過濾框架的義原推薦任務中進行的實驗表明,相似性同構(gòu)程度與義原推薦效果正相關(guān),表明了上述將相似性同構(gòu)作為模型優(yōu)化目標的合理性。