于 東,荀恩東
(1. 北京語言大學(xué) 漢語國際教育技術(shù)研發(fā)中心,北京 100083;2. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)
隨著科技進(jìn)步,各領(lǐng)域?qū)I(yè)術(shù)語數(shù)量快速增長。中文文獻(xiàn)中,許多源于國外文獻(xiàn)的專業(yè)術(shù)語直接以字母縮略詞形式使用,例如, “IBM”、“NBA”等。字母縮略術(shù)語多義現(xiàn)象非常普遍。如“UPS”至少包含“UPS電源”和“UPS物流公司”兩種義項(xiàng)。在中國知網(wǎng)文獻(xiàn)數(shù)據(jù)庫中檢索二者,分別得到15 541條、8 192條結(jié)果,說明兩個(gè)義項(xiàng)在各自領(lǐng)域均為常用術(shù)語。類似現(xiàn)象還有“防抱死制動(dòng)系統(tǒng)(ABS)”和“ABS樹脂”。多義縮略術(shù)語專業(yè)性強(qiáng)、更新快,隨著新術(shù)語不斷涌現(xiàn),字母縮略術(shù)語的歧義性不斷增加,不僅會(huì)增加閱讀者理解難度,也會(huì)對(duì)現(xiàn)有的信息檢索、機(jī)器翻譯等應(yīng)用造成許多障礙,研究字母縮略術(shù)語的消歧具有實(shí)際應(yīng)用價(jià)值。
字母縮略術(shù)語的語料資源稀少,義項(xiàng)專業(yè)性強(qiáng),因此本文選擇基于知識(shí)庫的無監(jiān)督方法實(shí)現(xiàn)消歧。在這方面,傳統(tǒng)語義消歧(WSD)方法常選取歧義詞上下文語境作為特征,用向量空間模型(VSM)表示文檔[1]。其實(shí)質(zhì)上是根據(jù)領(lǐng)域特征劃分歧義詞所在的文檔,缺乏對(duì)歧義詞語義信息的挖掘和利用。使用詞義網(wǎng)絡(luò)如WordNet、HowNet中的語義知識(shí)輔助詞義消歧能夠取得較好的效果[2-3]。然而對(duì)于縮略術(shù)語而言,詞義網(wǎng)絡(luò)更新慢、覆蓋度低,無法滿足使用要求。
近幾年,基于神經(jīng)網(wǎng)絡(luò)的Word Embedding方法在詞語語義表示方面表現(xiàn)出很好的性能,受到廣泛關(guān)注[4-6]。Word Embedding的任務(wù)是將語料庫中的每個(gè)詞表示為一個(gè)低維實(shí)數(shù)向量,建立離散詞匯與實(shí)數(shù)域特征向量之間的映射,能夠使語義類似的詞語,其向量表示也較為接近,任意兩個(gè)詞語的語義相關(guān)程度可以由兩者向量的余弦相似度表示。利用該特點(diǎn),本文在消歧過程中計(jì)算縮略術(shù)語多個(gè)義項(xiàng)Word Embedding,利用義項(xiàng)語義特征對(duì)基本VSM模型進(jìn)行擴(kuò)展,提出針對(duì)縮略術(shù)語的消歧方法。
本文主要工作包括三個(gè)方面: (1)采用多步聚類思想,使用顯著相似性聚類,從原始數(shù)據(jù)中抽取可靠知識(shí);(2)利用第一步聚類結(jié)果進(jìn)行義項(xiàng)反標(biāo)注,進(jìn)而訓(xùn)練每個(gè)義項(xiàng)的Word Embedding,挖掘每個(gè)義項(xiàng)的語義信息;(3)提出特征詞權(quán)重的語義線性加權(quán)方法,進(jìn)行二步聚類,有效提高系統(tǒng)整體消歧性能。與已有工作相比,本研究能夠提取并充分利用高置信數(shù)據(jù),結(jié)合Word Embedding表示方法,無監(jiān)督地獲取歧義義項(xiàng)的語義表示,實(shí)現(xiàn)特征詞領(lǐng)域權(quán)重和語義權(quán)重的融合,最終實(shí)現(xiàn)語義消歧。
語義消歧解決同一詞匯在不同語境下的義項(xiàng)識(shí)別和標(biāo)注問題。1990年后,基于統(tǒng)計(jì)的多義詞語義消歧技術(shù)成為研究主流。Schütze[7]將語義消歧問題轉(zhuǎn)化為聚類問題,成為該領(lǐng)域的主流方法。魯松[8]使用向量空間模型計(jì)算相似度實(shí)現(xiàn)消歧;何徑舟[9]使用最大熵選擇特征計(jì)算聚類相似度,有效提升了中文詞義消歧性能。多義詞的詞義消歧任務(wù)一般針對(duì)通用詞匯,重點(diǎn)是區(qū)分詞語在不同語境下所代表的語義,即語言本身的歧義性,難度較大。本文所討論的問題則限于實(shí)體詞的消歧,不涉及語言本身的歧義性。
實(shí)體詞的語義消歧是語義消歧中的一個(gè)重要分支,可分為兩個(gè)子問題: (1)實(shí)體詞邊界劃分歧義消解;(2)多義實(shí)體詞概念消歧。前者主要解決語言本身歧義,后者則根據(jù)實(shí)體詞上下文語境,實(shí)現(xiàn)實(shí)體概念的區(qū)分。該領(lǐng)域有代表性的研究問題是人名消歧,Mann[10]將該問題看成基于人物屬性的無監(jiān)督聚類問題。在中文人名消歧方面,丁海波[11]使用多階段的消歧聚類策略,李廣一[12]、Z Peng[13]均采用多步聚類方法解決該問題。此外,J Liu[14]、楊欣欣[15]利用外部知識(shí)源進(jìn)行知識(shí)擴(kuò)展,也有效提高了消歧性能。目前,國際WePS評(píng)測(cè)和國內(nèi)評(píng)測(cè)CLP2010、CLP2012均設(shè)有人名消歧的任務(wù)。
字母縮略詞語也屬于實(shí)體詞范疇,且具有較強(qiáng)的專業(yè)性,因此需要更廣泛的知識(shí)以覆蓋相關(guān)領(lǐng)域;混雜在中文中的字母縮略詞提供的詞匯特征很少,也與傳統(tǒng)問題有所區(qū)別。
國外也已有學(xué)者關(guān)注字母縮略語帶來的歧義問題。如Liu[16],Stevenson[17]在醫(yī)學(xué)縮略詞消歧領(lǐng)域的工作,更多地考慮了上下文的詞匯特征,這是因?yàn)樵谟⑽奈墨I(xiàn)中,縮略字母往往來源于上下文詞串,而中文文檔中類似信息很少,因此更需要語義信息輔助消歧。
本文利用百科網(wǎng)站建立多義術(shù)語知識(shí)庫,利用通用搜索引擎自動(dòng)獲取術(shù)語在各種語境中的使用數(shù)據(jù)作為測(cè)試集,經(jīng)后處理和部分人工校對(duì)后,建立具有一定規(guī)模的多義術(shù)語數(shù)據(jù)庫。該數(shù)據(jù)庫包括兩部分: (1)由字母縮略術(shù)語、中文譯文、以及多種釋義文本構(gòu)成的知識(shí)庫;(2)包含多義術(shù)語的測(cè)試文檔集,其中每個(gè)測(cè)試文檔僅指向一個(gè)多義術(shù)語。知識(shí)庫中的每行包含多義術(shù)語的一個(gè)釋義,提供義項(xiàng)標(biāo)簽(id)、譯文(def)、以及義項(xiàng)釋義文檔。測(cè)試庫中每行對(duì)應(yīng)一個(gè)測(cè)試文檔,通過“答案標(biāo)簽(ans)”指示文檔對(duì)應(yīng)的義項(xiàng)。如圖1所示。
圖1 多義縮略術(shù)語知識(shí)庫和測(cè)試庫格式
針對(duì)消歧問題,多義術(shù)語數(shù)據(jù)庫要求選用常用術(shù)語詞條為對(duì)象;詞條的每個(gè)義項(xiàng)均有明確、清晰的釋義文本;詞條的每個(gè)義項(xiàng)均有一定規(guī)模的測(cè)試文本量。數(shù)據(jù)庫建設(shè)分兩步:
首先建立術(shù)語知識(shí)庫。根據(jù)術(shù)語詞表獲取百度百科中對(duì)應(yīng)的多義詞條頁面,以及對(duì)應(yīng)的各個(gè)義項(xiàng)頁面內(nèi)容,采用文獻(xiàn)[18]中提出的描述式定義語言模式,自動(dòng)抽取釋義語句,經(jīng)人工篩選后得到每個(gè)義項(xiàng)定義和釋義描述文本,構(gòu)成知識(shí)庫。
然后根據(jù)知識(shí)庫構(gòu)建測(cè)試集。以術(shù)語義項(xiàng)為檢索詞,如“EPS 電子助力轉(zhuǎn)向”,利用搜索引擎返回與術(shù)語最相關(guān)的文檔,保留包含目標(biāo)術(shù)語詞、不重復(fù)且長度在一定范圍內(nèi)的句子作為測(cè)試文檔。最后經(jīng)人工校對(duì)和標(biāo)注,得到帶有義項(xiàng)標(biāo)簽的測(cè)試文檔集。
本文最終建立包含25個(gè)多義縮略術(shù)語的數(shù)據(jù)庫,共包含98個(gè)義項(xiàng),2 384條測(cè)試數(shù)據(jù)。平均每個(gè)詞條有約4個(gè)義項(xiàng),“測(cè)試/義項(xiàng)”數(shù)量比超過10,保證數(shù)據(jù)具有多樣性、豐富性。詳見表1。
本文研究問題可描述為: 多義術(shù)語w有h個(gè)義項(xiàng),每個(gè)義項(xiàng)一個(gè)標(biāo)簽(id)標(biāo)記,得到的義項(xiàng)集合記為:Cw={w#1,w#2,…,w#id,…,w#h}。在測(cè)試文檔d中出現(xiàn)w,則文檔d與w的任意義項(xiàng)間存在關(guān)系R(w#id|d),其中有且只有w#id*是其正確義項(xiàng)。消歧任務(wù)是通過分析計(jì)算關(guān)系R(w#id|d),尋找與d最接近的義項(xiàng),即式(1)。
w#id*
本文采用無監(jiān)督方法,將多義縮略術(shù)語消歧看作兩步聚類問題。聚類過程使用對(duì)特征詞加權(quán)的向量空間模型,以釋義文檔和測(cè)試文檔兩者間的相似度作為聚類依據(jù),思路如下。
無監(jiān)督聚類性能很大程度上取決于特征選取和聚類策略。實(shí)體消歧問題中,多步聚類能有效提高系統(tǒng)性能。為減少錯(cuò)誤傳遞,第一步聚類的準(zhǔn)確性尤其重要。本文使用顯著相似聚類策略,建立具有高置信度的初始義項(xiàng)類簇。此外,傳統(tǒng)的實(shí)體消歧方法一般通過抽取歧義詞的不同屬性或上下文關(guān)鍵詞作為特征進(jìn)行聚類。而在科技文獻(xiàn)中,術(shù)語上下文詞匯能夠體現(xiàn)文檔領(lǐng)域,但與術(shù)語的語義并無直接解釋關(guān)系。針對(duì)該問題,本文利用第一步聚類得到類簇的義項(xiàng)標(biāo)簽對(duì)歧義術(shù)語進(jìn)行義項(xiàng)反標(biāo)注,然后訓(xùn)練Word Embedding模型得到各個(gè)義項(xiàng)的語義向量,在此基礎(chǔ)上實(shí)施第二步聚類。在第二步聚類計(jì)算特征詞權(quán)重時(shí),將Word Embedding語義相似度與TFIDF權(quán)重進(jìn)行線性加權(quán),作為新的特征權(quán)重,有效綜合了領(lǐng)域特征和義項(xiàng)的語義特征,提高消歧性能。系統(tǒng)結(jié)構(gòu)如圖2所示。
圖2 術(shù)語消歧框架
向量空間模型中,文檔d可以被形式化為一個(gè)n維向量,其每一維表示詞典中的一個(gè)詞,值為該詞的特征權(quán)重si,文檔d可以被形式化為d={s1,s2,…,sn}??紤]到文檔中出現(xiàn)的詞匯所代表的信息差異,一般需要對(duì)文檔進(jìn)行預(yù)處理。本文使用ICTCLAS*http://www.ictclas.org/對(duì)知識(shí)庫、測(cè)試文檔集進(jìn)行分詞,然后去掉句子中的標(biāo)點(diǎn)、符號(hào)和停用詞,其余詞作為特征詞。特征詞權(quán)重一般選用TFIDF權(quán)重,可以最大程度上區(qū)分不同領(lǐng)域文檔,在文本分類、信息檢索領(lǐng)域得到廣泛應(yīng)用。在消歧問題中,特征詞權(quán)重應(yīng)表示該詞對(duì)當(dāng)前文檔歧義術(shù)語各個(gè)義項(xiàng)的區(qū)分度。在文檔中,與待消歧詞語義相關(guān)的詞語往往出現(xiàn)頻率較低,而出現(xiàn)頻率較高的實(shí)詞雖然有助于區(qū)分文檔,但對(duì)區(qū)分義項(xiàng)并無明顯作用。因此本文對(duì)TF值進(jìn)行調(diào)整,降低TF在權(quán)重中的作用,保證低頻詞信息得到有效利用:
(2)
預(yù)處理后,得到初始的知識(shí)庫及測(cè)試數(shù)據(jù)的VSM模型。根據(jù)該模型,任意兩個(gè)文檔間相似度可以由兩者向量的余弦相似度計(jì)算,如式(3)所示。
(3)
第一步聚類利用初始VSM模型,計(jì)算義項(xiàng)文檔和測(cè)試文檔的相似度,將滿足顯著相似條件的測(cè)試文檔聚類到對(duì)應(yīng)義項(xiàng)中,以抽取高置信度數(shù)據(jù)。顯然,兩者相似度越高則越有可能屬于同一個(gè)義項(xiàng)。文獻(xiàn)[12]設(shè)計(jì)最高相似度與次高相似度的差值閾值,作為選擇顯著相似文檔的準(zhǔn)則。本文中,為進(jìn)一步提高準(zhǔn)確度,采用相似度比值閾值作為顯著相似條件。
對(duì)于縮略術(shù)語w,在知識(shí)庫中包含h個(gè)義項(xiàng)Cw={cw1,cw2,…,cwh},在測(cè)試集中有m個(gè)文檔Dw={dw1,dw2,…,dwm}。聚類過程以Cw中每個(gè)義項(xiàng)為中心,計(jì)算dwi每個(gè)文檔與所有義項(xiàng)的相似度,并取最高值和次高值文檔,如式(4)所示。
(4)
如果有Cos(dwi,cwu)/Cos(dwi,cwv)≥th1,則dwi∈cwu,否則放棄聚類該文檔。顯然,閾值th1越高,聚類條件越嚴(yán)格,聚類準(zhǔn)確度越高,但放棄聚類文檔也越多。閾值th1既要保證高準(zhǔn)確率,又要保留一定樣本數(shù)量,以達(dá)到聚類目的。
由于顯著相似聚類可以得到很高的準(zhǔn)確度,因此聚類結(jié)果可視作對(duì)知識(shí)庫義項(xiàng)文檔集的擴(kuò)充,并作為消歧算法的有標(biāo)簽樣本。聚類過程中仍然會(huì)引入少量錯(cuò)誤數(shù)據(jù),但通過Word Embedding學(xué)習(xí)各個(gè)義項(xiàng)的語義表示向量,可以有效降低錯(cuò)誤聚類數(shù)據(jù)帶來的影響。
本文使用Mikolov[4-5]所提出的Word2Vec工具實(shí)現(xiàn)義項(xiàng)語義的Word Embedding訓(xùn)練。Word2Vec是一個(gè)無隱含層的神經(jīng)網(wǎng)絡(luò),直接訓(xùn)練詞的N維實(shí)數(shù)向量與內(nèi)部節(jié)點(diǎn)向量的條件概率,并使用了一系列優(yōu)化方法以提高訓(xùn)練效率。訓(xùn)練結(jié)果中,任意兩個(gè)詞的語義相關(guān)程度可以通過計(jì)算兩個(gè)詞對(duì)應(yīng)向量的余弦相似度得到。
使用Word Embedding進(jìn)行語義消歧,關(guān)鍵問題是如何表示同一術(shù)語的多個(gè)義項(xiàng)。多義術(shù)語每個(gè)義項(xiàng)的語義有很大區(qū)別,用一個(gè)向量很難統(tǒng)一描述??蓪⒍嗔x詞進(jìn)行義項(xiàng)標(biāo)注,構(gòu)建帶有義項(xiàng)標(biāo)簽的訓(xùn)練語料,用不同標(biāo)簽區(qū)分多個(gè)義項(xiàng),再訓(xùn)練Word Embedding,從而得到不同義項(xiàng)的向量表示。根據(jù)該思路,本文利用4.3節(jié)第一步聚類結(jié)果,用每個(gè)聚類對(duì)應(yīng)的義項(xiàng)標(biāo)簽對(duì)歧義術(shù)語進(jìn)行義項(xiàng)反標(biāo)注,形成標(biāo)注數(shù)據(jù),然后連同未標(biāo)注數(shù)據(jù)一同訓(xùn)練。
與神經(jīng)網(wǎng)絡(luò)訓(xùn)練類似,Word2Vec采用隨機(jī)初始權(quán)重,每次訓(xùn)練只得到一個(gè)局部最優(yōu)解,多次訓(xùn)練得到的結(jié)果存在差異。當(dāng)數(shù)據(jù)規(guī)模較小時(shí),這種差異尤其突出。針對(duì)該問題,可以從兩方面改進(jìn): (1)將語料適當(dāng)重復(fù)若干次后訓(xùn)練模型,相當(dāng)于增加每個(gè)樣本訓(xùn)練機(jī)會(huì),從而降低多次訓(xùn)練間的差異;(2)在同一參數(shù)下訓(xùn)練多份向量,在使用過程中綜合多份向量結(jié)果。此外,數(shù)據(jù)的排列對(duì)神經(jīng)網(wǎng)絡(luò)權(quán)重訓(xùn)練也會(huì)產(chǎn)生影響,本文將訓(xùn)練數(shù)據(jù)按出現(xiàn)的歧義術(shù)語排序,再隨機(jī)調(diào)整少量數(shù)據(jù)的順序,使得同一個(gè)歧義術(shù)語對(duì)應(yīng)的文檔相對(duì)集中,又有一定隨機(jī)性,以提高尋找到最優(yōu)解的可能性。模型訓(xùn)練過程如圖3所示。
圖3 Word Embedding訓(xùn)練過程
語料的重復(fù)次數(shù)對(duì)模型的影響可以通過實(shí)驗(yàn)進(jìn)行分析。消歧方法主要利用Word Embedding尋找各義項(xiàng)的相關(guān)詞,因此要求模型中與每個(gè)義項(xiàng)最接近的前k個(gè)詞具有較高的一致性,并視為一個(gè)集合,則兩個(gè)模型間的重疊情況可以由Jaccard相似系數(shù)評(píng)價(jià),如式(5)所示。
(5)
其中V1和V2是同一參數(shù)下兩次訓(xùn)練得到的模型,D為義項(xiàng)集合,p為未標(biāo)注數(shù)據(jù)重復(fù)次數(shù),q為標(biāo)注數(shù)據(jù)重復(fù)次數(shù)。測(cè)試中,令k=10,在不同的p、q條件下各訓(xùn)練3次,求兩兩Jaccard相似系數(shù)并取均值,結(jié)果見圖4。
圖4 語料重復(fù)次數(shù)與Jaccard相似度
根據(jù)結(jié)果,在p=q=30之后,訓(xùn)練結(jié)果的平均重合度達(dá)到80%以上,此后隨著語料重復(fù)數(shù)量增加,重合度緩慢增長,考慮訓(xùn)練效率因素,在p=q=60時(shí)就能得到較好的性能。
本節(jié)利用 Word Embedding語義信息實(shí)現(xiàn)多義術(shù)語消歧,包括兩個(gè)方面內(nèi)容: (1)利用語義相似度,對(duì)第一步聚類結(jié)果進(jìn)行特征詞擴(kuò)展,彌補(bǔ)文檔中缺失的語義信息;(2)用特征詞與義項(xiàng)之間的相似度對(duì)特征詞的TFIDF權(quán)重加權(quán),提高與義項(xiàng)語義接近的詞條的權(quán)重。過程中,為降低Word Embedding差異導(dǎo)致的誤差,使用同一參數(shù)重復(fù)訓(xùn)練三次,以三個(gè)模型結(jié)果的交集和平均相似度來計(jì)算。
4.5.1 基于語義相似度的特征詞擴(kuò)展
針對(duì)第一步聚類類簇中的文檔,進(jìn)行特征詞擴(kuò)展。擴(kuò)展得到的新特征詞不僅要與對(duì)應(yīng)的術(shù)語義項(xiàng)相關(guān),也要與文檔本身的語境相關(guān)。記歧義詞w的義項(xiàng)標(biāo)簽為w#id,對(duì)應(yīng)聚類為cw#id∈Cw。cw#id中的文檔記為dw#id,其n個(gè)特征詞記為{s1,s2,…,sn}。擴(kuò)展使用3個(gè)相同參數(shù)的Word Embedding模型,記為V1、V2、V3。擴(kuò)展過程如下:
(1) 分別計(jì)算詞si∈dw#id在三個(gè)向量中語義最接近的2r個(gè)詞,取三者交集,按平均相似度排序后,取前r個(gè)詞得到式(6)。
VecSim_r(si|V1,V2,V3)={si1,si2,…,sir}
(6)
(2) 計(jì)算所有sij與w#id的相似度均值:Sim(sij,w#id|V1,V2,V3),去掉重復(fù)詞和已有詞后,按相似度排序取前N項(xiàng),記為{x1,x2,…,xN},作為擴(kuò)展得到的新特征詞。過程如圖5所示。
圖5 特征詞擴(kuò)展
在擴(kuò)展過程中,采用新詞的數(shù)量N非常關(guān)鍵。如果N取值太大,將會(huì)引入過多的噪聲特征,從而降低有效信息;N取值太小,又無法對(duì)原有特征進(jìn)行有效擴(kuò)展,合適的N值須通過實(shí)驗(yàn)得到。擴(kuò)展得到的新詞,能有效彌補(bǔ)當(dāng)前語境中缺失的語義信息,提高當(dāng)前文檔對(duì)歧義詞語義的描述能力。
4.5.2 特征詞權(quán)重的語義線性加權(quán)
從直觀上,如果特征詞與歧義詞的語義較為接近,則應(yīng)該具有更高的權(quán)重。而TFIDF權(quán)重?zé)o法考慮這種詞與詞之間的關(guān)聯(lián),缺乏對(duì)語義信息的描述能力。同樣,由Word Embedding模型提供的語義向量,能夠表示詞匯兩兩間的語義關(guān)系,但無法在文檔級(jí)別計(jì)算語義相似程度。本文將兩者綜合,用特征詞與義項(xiàng)的語義相似度對(duì)TFIDF權(quán)重進(jìn)行線性加權(quán)。在計(jì)算待消歧文檔d與義項(xiàng)w#id間相似度時(shí),特征詞si∈d的權(quán)重由式(7)計(jì)算:
Wtw#id(si)
=tfidf(si)+Sim(w#id,si|V1,V2,V3)λ
(7)
當(dāng)si與義項(xiàng)w#id具有較高語義相似度時(shí),該詞特征權(quán)重將隨之提高。由于語義相似度在[0,1]間,且普遍偏低,故在式(7)中添加指數(shù)參數(shù)λ,且0≤λ≤1,提高語義加權(quán)幅度。本文中取λ=0.2。對(duì)于第一步聚類而言,可以直接用對(duì)應(yīng)的義項(xiàng)Cw#id計(jì)算其中各個(gè)文檔的語義加權(quán)。而對(duì)于待定的測(cè)試文檔,則需要在第二步聚類過程中,根據(jù)不同的目標(biāo)義項(xiàng)計(jì)算不同的權(quán)重,以得到最優(yōu)聚類結(jié)果。
4.5.3 第二步聚類
V(dw,w#id)={Wtw#id(s1),…,Wtw#id(sn)}
(8)
(9)
(10)
至此,完成整個(gè)聚類過程。
本文所述消歧聚類方法屬于無監(jiān)督聚類,僅在參數(shù)設(shè)計(jì)時(shí)用到少量答案數(shù)據(jù),包括顯著相似閾值th1和特征詞擴(kuò)展數(shù)量N;參數(shù)設(shè)計(jì)采用準(zhǔn)確率P%作為評(píng)價(jià)指標(biāo)。整個(gè)消歧系統(tǒng)性能的測(cè)試, 以每個(gè)歧義術(shù)語義項(xiàng)采用聚類準(zhǔn)確率P%、召回率R%、F值為評(píng)價(jià)指標(biāo)。在整個(gè)測(cè)試集上,用所有義項(xiàng)的性能指標(biāo)均值進(jìn)行評(píng)價(jià)。
圖6給出了在不同閾值條件下,聚類文檔占總測(cè)試文檔的比例與聚類正確率之間的關(guān)系。其中橫軸為閾值,當(dāng)th1>2.0后,聚類結(jié)果的正確率達(dá)到96%,此時(shí)約有一半數(shù)據(jù)被聚類。此后,隨著th1提高,聚類正確率沒有顯著變化,而聚類比例則線性下降。因此,可以根據(jù)聚類數(shù)據(jù)比例來制定閾值。按照第一步聚類30%左右的數(shù)據(jù)為準(zhǔn),本文設(shè)定th1=3.4。
對(duì)聚類中的文檔進(jìn)行特征詞擴(kuò)展時(shí),擴(kuò)展詞數(shù)N對(duì)最后系統(tǒng)性能有較大影響。以參數(shù)p=q=60訓(xùn)練3個(gè)Word Embedding,特征向量維度均為100維。以“CVT”“BOM”“PPA”為例,測(cè)試不同的N值對(duì)第二步聚類準(zhǔn)確率的影響。在進(jìn)行第二次聚類的時(shí)候,沒有使用語義加權(quán)。當(dāng)區(qū)間時(shí),隨著N增大,正確率逐漸提高,說明特征詞擴(kuò)展有助于挖掘歧義詞語義信息。但當(dāng)N值較大時(shí)(N>20),正確率顯著下降,這是由于擴(kuò)展詞過度泛化,引入大量噪聲導(dǎo)致。因此,在一定范圍內(nèi)擴(kuò)展特征詞,對(duì)提高系統(tǒng)性能有明顯效果。本文后續(xù)實(shí)驗(yàn)中,選取N=10進(jìn)行擴(kuò)展。實(shí)驗(yàn)結(jié)果如圖7所示。
圖7 特征詞擴(kuò)展有效性實(shí)驗(yàn)
在前兩步實(shí)驗(yàn)基礎(chǔ)上,對(duì)整個(gè)測(cè)試集進(jìn)行消歧實(shí)驗(yàn)。實(shí)驗(yàn)中所用到的參數(shù)見表2。
表2 實(shí)驗(yàn)參數(shù)設(shè)定
實(shí)驗(yàn)設(shè)計(jì)兩個(gè)Baseline對(duì)比消歧系統(tǒng)。Baseline I選擇基本的TFIDF權(quán)重加權(quán)的VSM模型,對(duì)全部測(cè)試數(shù)據(jù)進(jìn)行一次聚類,與文獻(xiàn)[8]的方法區(qū)別在于,其使用歧義詞上下文一定窗口內(nèi)的詞作為特征詞,而本文中使用文檔中除停用詞外所有詞作為特征詞。Baseline II系統(tǒng)采用與文獻(xiàn)[12]類似的兩步聚類方法進(jìn)行。其中,第一步采用顯著相似聚類,第二步則利用第一步聚類得到的類簇,不進(jìn)行特征詞和語義加權(quán)。Baseline系統(tǒng)消歧性能見表3。
實(shí)驗(yàn)結(jié)果中,利用顯著相似聚類得到的結(jié)果具有很高的性能。第二步聚類結(jié)果的F值與待定數(shù)據(jù)相比有7%左右的提升,表明第二步聚類能顯著改善系統(tǒng)性能??傮w性能中,準(zhǔn)確率與Baseline I相比提升3.47%,但召回率和F值均有超過10%的提升,該結(jié)論與之前相關(guān)工作得到的結(jié)論較為一致。
本文在Baseline II的基礎(chǔ)上,通過擴(kuò)展特征詞和特征詞語義線性加權(quán)兩種方法,提升消歧性能,實(shí)驗(yàn)結(jié)果見表4。使用“第二步聚類+擴(kuò)展特征詞”方法,各性能指標(biāo)較Baseline II均有4%左右的提升,總體正確率超過90%,表明根據(jù)Word Embedding模型擴(kuò)展得到的新的特征詞能有效補(bǔ)充原有文檔中語義缺失,從而對(duì)消歧產(chǎn)生顯著影響。
表3 Baseline消歧實(shí)驗(yàn)結(jié)果
表4 改進(jìn)后消歧實(shí)驗(yàn)結(jié)果
在“第二步聚類+擴(kuò)展特征詞+語義線性加權(quán)”實(shí)驗(yàn)結(jié)果中,系統(tǒng)消歧性能進(jìn)一步提高約2%。此時(shí),計(jì)算特征詞在不同義項(xiàng)中的語義相關(guān)度,并進(jìn)行詞權(quán)重疊加,能使聚類更具有傾向性,但也會(huì)導(dǎo)致過擬合。采用線性加權(quán),而非指數(shù)加權(quán),可以使權(quán)重變化較為平緩,以避免參數(shù)過擬合現(xiàn)象。
表5 歧義術(shù)語單獨(dú)消歧結(jié)果
續(xù)表
表5給出所有歧義術(shù)語在Baseline Ⅱ和改進(jìn)方法上的性能比較。表中“+、++、=、-”分別表明性能有提升、有顯著提升、性能可比、性能下降。測(cè)試的25個(gè)術(shù)語中,6個(gè)術(shù)語的消歧性能有超過10%的提升,表明Word Embedding語義表示方法能夠很好地應(yīng)用于消歧問題;9條術(shù)語的性能有所提升,7條術(shù)語的性能基本持平,說明方法對(duì)于大多數(shù)術(shù)語消歧而言具有一定效果;由于經(jīng)驗(yàn)參數(shù)無法適應(yīng)所有文檔,有3個(gè)術(shù)語的性能沒有明顯提升。
術(shù)語“CAD”和“SAP”在Baseline Ⅱ和改進(jìn)方法上的消歧性能均較低。經(jīng)分析,前者有兩個(gè)義項(xiàng)分別是“計(jì)算機(jī)輔助設(shè)計(jì)”和“計(jì)算機(jī)輔助診斷”,對(duì)應(yīng)文檔集合存在許多重疊的特征詞,難以區(qū)分。后者義項(xiàng)集中有“SAP軟件公司”和“SAP管理軟件”兩個(gè)定義,分別是公司名和該公司生產(chǎn)的同名軟件,因而也具有很高的混淆度。以上義項(xiàng)的區(qū)分還需要更深層次的語義關(guān)系才能實(shí)現(xiàn)。
本文利用Word Embedding提高縮略術(shù)語消歧性能,提出無監(jiān)督地獲取每個(gè)義項(xiàng)語義表示的方法,在消歧過程中,利用語義信息對(duì)特征詞進(jìn)行擴(kuò)展和語義線性加權(quán),得到精度較高的消歧結(jié)果。實(shí)驗(yàn)發(fā)現(xiàn),消歧過程中,語義擴(kuò)展規(guī)模不能過大,否則將導(dǎo)致性能降低。這說明每個(gè)義項(xiàng)所涵蓋的概念范疇往往十分有限,少數(shù)詞就能描述義項(xiàng)的核心概念。因此,Word Embedding的核心作用是挖掘文檔中缺失的語義信息。該結(jié)論對(duì)文本數(shù)據(jù)挖掘和信息檢索領(lǐng)域的許多應(yīng)用有一定參考價(jià)值。
[1] 王瑞琴,孔繁勝. 無監(jiān)督詞義消歧研究[J]. 軟件學(xué)報(bào), 2009,20(8): 2138-2152.
[2] Banerjee S, Pedersen T. An adapted Lesk algorithm for word sense disambiguation using WordNet [C]//Proceedings of the 3rd International Conference on Intelligent Text Processing and Computational Linguistics, Mexico City, 2002: 17-23.
[3] 張剛,劉挺,盧志茂等. 隱馬爾可夫模型和HowNet在漢語詞義標(biāo)注中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用研究, 2004,10(增刊): 67-69.
[4] Collobert R, Weston J. A unified architecture for na-tural language processing: Deep neural networks with multi-task learning [C]//Proceedings of the 25th International Conference on Machine Learning, Helsinki, 2008: 160-167.
[5] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of Workshop at ICLR, 2013.
[6] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Composi-tionality[C]//Proceedings of NIPS, 2013.
[7] Schütze H. Automatic word sense discrimination [J]. Computational Linguistics, 1998, 24(1): 97-123.
[8] 魯松,白碩,黃雄. 基于向量空間模型中義項(xiàng)詞語的無導(dǎo)詞義消歧[J]. 軟件學(xué)報(bào), 2002,13(6): 1082-1089.
[9] 何徑舟, 王厚峰. 基于特征選擇和最大熵模型的漢語詞義消歧[J]. 軟件學(xué)報(bào), 2010,21(6): 1287-1295.
[10] Mann G, Yarosky D. Unsupervised Personal Name Disambiguation [C]//Proceedings of CoNLL-2003, Edmonton, 2003: 33-40.
[11] 丁海波, 肖桐, 朱靖波. 基于多階段的中文人名消歧聚類技術(shù)的研究[C]//第六屆全國信息檢索學(xué)術(shù)會(huì)議, 牡丹江, 2010: 316-324.
[12] 李廣一, 王厚峰. 基于多步聚類的漢語命名實(shí)體識(shí)別和歧義消解[J]. 中文信息學(xué)報(bào), 2013, 27(5): 29-34.
[13] Z Peng, L Sun, X Han. SIR-NERD: A Chinese Named Entity Recognition and Disambiguation System using a Two-Stage Method[C]//Proceedings of the 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing, Tianjin, 2012: 115-120.
[14] J Liu, R Xu, Q Lu, et al. Explore Chinese Encyclopedic Knowledge to Disambiguate Person Names[C]//Proceedings of the 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing, Tianjin, 2012.
[15] 楊欣欣, 李培峰, 朱巧明. 基于查詢擴(kuò)展的人名消歧[J]. 計(jì)算機(jī)應(yīng)用, 2012, 32(9): 2488-2490.
[16] H Liu, Y Lussier, C Friedman. Disambiguating ambi-guous biomedical terms in biomedical narrative text: An unsupervised method [J]. Journal of Biomedical Informatics, 2001, 34: 249-261.
[17] Stevenson M, Yikun G, Abdulaziz A A, et al. Dis-ambiguation of Biomedical Abbreviations[C]//Proceedings of the Workshop on BioNLP, Boulder, 2009: 71-79.
[18] 張榕, 宋柔. 基于互聯(lián)網(wǎng)的漢語術(shù)語定義提取研究[C]//全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議, 南京, 2005.