国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于維基百科的冬奧會(huì)概念下的低頻詞條雙語(yǔ)迭代擴(kuò)展

2021-03-17 07:48:30陶明陽(yáng)于濟(jì)凡單力秋張馨如
中文信息學(xué)報(bào) 2021年2期
關(guān)鍵詞:維基百科詞條新詞

王 星,陶明陽(yáng),侯 磊,于濟(jì)凡,單力秋,張馨如,陳 吉

(1. 遼寧工程技術(shù)大學(xué) 電子與信息工程學(xué)院,遼寧 葫蘆島 125105;2. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084;3. 清華大學(xué) 人工智能研究院知識(shí)智能研究中心,北京 100084;4. 清華大學(xué) 北京信息科學(xué)與技術(shù)國(guó)家研究中心,北京 100084)

0 引言

隨著2022年北京張家口冬季奧林匹克運(yùn)動(dòng)會(huì)的臨近,人們對(duì)冬奧會(huì)相關(guān)知識(shí)的需求越來(lái)越大,因此有必要構(gòu)建一個(gè)與冬奧會(huì)相關(guān)的垂直領(lǐng)域知識(shí)圖譜。目前,獲取冬奧會(huì)術(shù)語(yǔ)詞條的權(quán)威途徑有冬奧會(huì)術(shù)語(yǔ)查詢網(wǎng)和國(guó)際奧委會(huì)官方網(wǎng)站,但它們都有各自的局限性。冬奧會(huì)術(shù)語(yǔ)查詢網(wǎng)可查詢六種語(yǔ)言的術(shù)語(yǔ)信息,但缺少歷屆比賽運(yùn)動(dòng)員、獲獎(jiǎng)運(yùn)動(dòng)員、舉辦城市、比賽場(chǎng)地等信息,國(guó)際奧委會(huì)官方網(wǎng)站可查詢歷屆冬奧會(huì)中各項(xiàng)目的獲獎(jiǎng)運(yùn)動(dòng)員的信息,但只有英文資料可供查詢。因此,有必要對(duì)已有的冬奧會(huì)術(shù)語(yǔ)集進(jìn)行補(bǔ)充,類(lèi)似于集合擴(kuò)展[1]的工作。

目前,集合擴(kuò)展已經(jīng)做了很多的工作,可以將它們分成兩類(lèi)。早期,集合擴(kuò)展的方式都是基于web完成的[2-4]。這種方法雖然有較高的準(zhǔn)確率,但是存在時(shí)間花費(fèi)較長(zhǎng)、查詢花費(fèi)較大等問(wèn)題。Word2Vec模型出現(xiàn)后,集合擴(kuò)展的方式逐漸轉(zhuǎn)向了基于語(yǔ)料庫(kù)[5]的擴(kuò)展,這種方法也是目前常用的集合擴(kuò)展方法[6-9],但這種方法在擴(kuò)展冬奧會(huì)中文術(shù)語(yǔ)時(shí)效果較差,原因是冬奧會(huì)相關(guān)的詞條整體詞頻較低、數(shù)量較少,訓(xùn)練時(shí)收集到的語(yǔ)義信息[10]會(huì)有部分缺失,擴(kuò)展時(shí)出現(xiàn)語(yǔ)義漂移[11]的現(xiàn)象,導(dǎo)致擴(kuò)展出的新詞集合中有大量噪聲數(shù)據(jù)。例如,將8名冬奧會(huì)運(yùn)動(dòng)員作為種子集進(jìn)行擴(kuò)展時(shí),生成的擴(kuò)展集中包括“劉艷”“張昊”“姚明”等詞條,其中“劉艷”“張昊”是冬奧會(huì)運(yùn)動(dòng)員,而“姚明”則是籃球運(yùn)動(dòng)員,出現(xiàn)這種問(wèn)題的主要原因是種子集的平均詞頻較低,訓(xùn)練時(shí)收集到的語(yǔ)義信息可能是運(yùn)動(dòng)會(huì)而不是冬季奧運(yùn)會(huì),所以擴(kuò)展集中存在大量其他運(yùn)動(dòng)會(huì)的詞條。

已有的集合擴(kuò)展方法對(duì)英文術(shù)語(yǔ)的擴(kuò)展效果比較理想,但對(duì)中文術(shù)語(yǔ)的擴(kuò)展效果較差。在統(tǒng)計(jì)數(shù)據(jù)的過(guò)程中我們發(fā)現(xiàn)中英文的詞條中有很多跨語(yǔ)言[12]的同義詞,例如,“跳臺(tái)滑雪”和“Ski jumping”。目前網(wǎng)絡(luò)上有很完整的跨語(yǔ)言數(shù)據(jù)可以供我們使用,例如XLORE[13]的跨語(yǔ)言同義詞數(shù)據(jù)集,XLORE融合了中文維基百科、英文維基百科、法語(yǔ)維基百科和百度百科,是對(duì)百科知識(shí)進(jìn)行結(jié)構(gòu)化和跨語(yǔ)言鏈接構(gòu)建的多語(yǔ)言知識(shí)圖譜。截至2019年4月末,XLORE包含了1 628萬(wàn)個(gè)實(shí)體,246萬(wàn)個(gè)概念,44萬(wàn)條關(guān)系。根據(jù)上述情況,本文基于XLORE的跨語(yǔ)言同義詞數(shù)據(jù)集提出了中英文雙語(yǔ)迭代擴(kuò)展模型(bilingual iterative extension,BIE),利用詞條數(shù)量較多的英文語(yǔ)料庫(kù)及良好的擴(kuò)展效果來(lái)解決中文詞條數(shù)量較少的問(wèn)題。

XLORE的主要數(shù)據(jù)來(lái)源是維基百科[14],所以本文利用維基百科的冬奧會(huì)相關(guān)的條目組成的數(shù)據(jù)集進(jìn)行擴(kuò)展。截至2019年4月末,維基百科中的數(shù)據(jù)包括了302種語(yǔ)言的詞條,其中包括105萬(wàn)條以上的中文詞條和583萬(wàn)條以上的英文詞條。但由于參與者來(lái)自世界各地,在數(shù)據(jù)量大的同時(shí)容易出現(xiàn)信息缺失、上下位關(guān)系[15]不準(zhǔn)確等問(wèn)題。隨著維基百科上的詞條越來(lái)越多,分類(lèi)錯(cuò)誤或缺失等問(wèn)題會(huì)越來(lái)越嚴(yán)重。本文提出的統(tǒng)計(jì)每個(gè)新詞出現(xiàn)頻率的方法(statistical new word frequency,SWF)的擴(kuò)展對(duì)象主要是因上下位關(guān)系缺失導(dǎo)致無(wú)法找到的詞條,并用于解決冬奧會(huì)詞條平均詞頻較低的問(wèn)題,例如在圖1中,概念“奧林匹克花式滑冰場(chǎng)館”和概念“2014年冬季奧林匹克運(yùn)動(dòng)會(huì)運(yùn)動(dòng)場(chǎng)”具有兩個(gè)相同的實(shí)例“冰山冬季運(yùn)動(dòng)宮”,且概念“冬季奧運(yùn)場(chǎng)館”與概念“奧林匹克花式滑冰場(chǎng)館”之間存在上下位關(guān)系,所以概念“冬季奧運(yùn)場(chǎng)館”與概念“2014年冬季奧林匹克運(yùn)動(dòng)會(huì)運(yùn)動(dòng)場(chǎng)”之間有可能存在上下位關(guān)系,由于分類(lèi)錯(cuò)誤導(dǎo)致此條關(guān)系缺失,因此概念“2014年冬季奧林匹克運(yùn)動(dòng)會(huì)運(yùn)動(dòng)場(chǎng)”及其實(shí)例“謝科競(jìng)技場(chǎng)”和實(shí)例“阿德列爾競(jìng)技場(chǎng)”很有可能是我們要擴(kuò)展的詞條。我們將這種數(shù)據(jù)全部找到并篩選作為最終的擴(kuò)展集。

圖1 BIE方法候選詞選擇原理圖

本文的主要工作是:①提出一種雙語(yǔ)迭代擴(kuò)展的方法BIE,用于解決中文種子集種子數(shù)量少的問(wèn)題; ②提出了統(tǒng)計(jì)每個(gè)新詞擴(kuò)展出的數(shù)量的方法SWF,用于解決中文種子集平均詞頻較低的問(wèn)題; ③構(gòu)建了一個(gè)較完整的冬奧會(huì)領(lǐng)域相關(guān)術(shù)語(yǔ)集。

1 模型

1.1 總體框架

為了對(duì)冬奧會(huì)術(shù)語(yǔ)集進(jìn)行補(bǔ)充,本文根據(jù)目前維基百科中的中文數(shù)據(jù)量少的狀況,提出了BIE方法。由于實(shí)例和概念的擴(kuò)展方法相同,因此本文只介紹實(shí)例的擴(kuò)展方法。BIE方法基于XLORE數(shù)據(jù)集進(jìn)行跨語(yǔ)言同義詞對(duì)齊,通過(guò)迭代擴(kuò)展的方式解決中文種子集數(shù)量少的問(wèn)題,具體做法是先將英文的實(shí)例按英文的詞條擴(kuò)展方法進(jìn)行擴(kuò)展和對(duì)齊,將找到的中文維基百科詞條進(jìn)行篩選后加入到中文待擴(kuò)展的種子集Sc中,再將中文的種子集Sc按中文的詞條擴(kuò)展方法進(jìn)行擴(kuò)展和對(duì)齊,找到對(duì)應(yīng)的英文維基百科詞條篩選后,作為新的英文待擴(kuò)展的種子集Se,將以上過(guò)程作為一次迭代過(guò)程并不斷進(jìn)行迭代,當(dāng)不會(huì)產(chǎn)生新的候選詞或產(chǎn)生的候選詞的平均質(zhì)量較低時(shí),結(jié)束迭代,其中每次迭代過(guò)程如圖2所示。

圖2 BIE方法中一次迭代過(guò)程

BIE方法通過(guò)輸入中英文實(shí)例和概念的種子集S,輸出中英文實(shí)例和概念的擴(kuò)展集,輸出的擴(kuò)展集中包括迭代擴(kuò)展出的數(shù)據(jù)。英文詞條擴(kuò)展方法和中文詞條擴(kuò)展方法在本文1.2節(jié)和1.3節(jié)中詳細(xì)介紹。

1.2 英文詞條擴(kuò)展方法

已有的集合擴(kuò)展方法對(duì)冬奧會(huì)英文術(shù)語(yǔ)集的擴(kuò)展效果較好,因此本文使用Word2Vec的方法對(duì)英文的詞條進(jìn)行擴(kuò)展。本文方法與已有方法的區(qū)別主要在于已有的方法的種子集中的種子數(shù)量較少,會(huì)因上下位關(guān)系缺失等問(wèn)題導(dǎo)致擴(kuò)展的詞條數(shù)量較少,而本文使用的種子集的種子數(shù)量較多,每個(gè)候選詞可通過(guò)多個(gè)路徑被找到,但該方法會(huì)擴(kuò)展出較多的噪聲數(shù)據(jù),針對(duì)此問(wèn)題,本文將種子集Se分成若干個(gè)待擴(kuò)展集Hi,Se=[H1,H2,H3,…,Hn],計(jì)算每個(gè)待擴(kuò)展集Hi得分,并根據(jù)得分選取不同的擴(kuò)展策略。將所有待擴(kuò)展集Hi進(jìn)行擴(kuò)展得到所有的候選詞,并根據(jù)每個(gè)候選詞出現(xiàn)的頻率進(jìn)行排序,將排名靠前的候選詞加入到擴(kuò)展集中。

本文使用兩個(gè)詞條對(duì)應(yīng)的詞向量計(jì)算兩個(gè)詞條的相似度。假設(shè)兩個(gè)英文詞條s1、s2分別對(duì)應(yīng)的詞向量為e1、e2,先計(jì)算兩個(gè)詞條的余弦相似度,當(dāng)兩個(gè)詞條的余弦相似度的值小于零時(shí),兩個(gè)詞的相關(guān)性為負(fù)相關(guān),我們通過(guò)觀察多組種子詞與得分的關(guān)系并分析,認(rèn)為得分小于0時(shí)相比得分趨近0時(shí)的效果要好,且當(dāng)負(fù)相關(guān)的得分約等于正相關(guān)得分乘0.5時(shí),兩組詞的關(guān)系比較接近。因此,當(dāng)余弦相似度得分為負(fù)數(shù)時(shí),將余弦相似度得分取絕對(duì)值后乘以0.5后作為兩個(gè)詞的相似度得分。兩個(gè)英文詞的相似度得分區(qū)間為(0,1),其計(jì)算方法如式(1)所示。

(1)

對(duì)于種子數(shù)量為n的待擴(kuò)展集Hi,我們計(jì)算每?jī)蓚€(gè)種子的得分,取平均值作為該待擴(kuò)展集Hi的得分,得到的待擴(kuò)展集Hi的得分區(qū)間為(0,1),其計(jì)算方法如式(2)所示。

為了防止擴(kuò)展過(guò)程中出現(xiàn)語(yǔ)義漂移,導(dǎo)致候選詞集合中有大量的噪聲數(shù)據(jù),本文共設(shè)置三個(gè)參數(shù),分別是depth_max、num_max、score_min,其中depth_max表示擴(kuò)展時(shí)遍歷的最大層數(shù),并且為了防止在擴(kuò)展的初始就出現(xiàn)語(yǔ)義漂移現(xiàn)象,每個(gè)待擴(kuò)展集Hi在第一層擴(kuò)展時(shí)限制擴(kuò)展數(shù)量。具體地,將第一層擴(kuò)展后的所有候選詞按分?jǐn)?shù)排序,將分?jǐn)?shù)Se排名靠前的幾個(gè)詞加入到擴(kuò)展集;num_max表示每個(gè)待擴(kuò)展集Hi擴(kuò)展出新詞的最多數(shù)量,當(dāng)擴(kuò)展出的新詞的數(shù)量超過(guò)num_max的值時(shí),按照候選詞的得分Se排序并保留得分較高的候選詞;score_min表示生成的新詞的最低分,當(dāng)候選詞分?jǐn)?shù)低于score_min時(shí),認(rèn)為該候選詞是噪聲數(shù)據(jù)并舍棄該條候選詞。假設(shè)種子cij擴(kuò)展出的候選詞e,其中cij是待擴(kuò)展集Hi中的種子,待擴(kuò)展集Hi中的其他種子為cik,則候選詞e的得分的計(jì)算方式如式(3)所示。

將每個(gè)待擴(kuò)展集Hi擴(kuò)展結(jié)果進(jìn)行整理,統(tǒng)計(jì)每個(gè)新詞出現(xiàn)的頻率。其中頻率高的候選詞代表與多個(gè)種子之間存在關(guān)系,是冬奧會(huì)相關(guān)術(shù)語(yǔ)的可能性較大。例如,實(shí)例“Snowboarding”可由實(shí)例“Bobsleigh”“Freestyle skiing”和“Doubles curling”等多個(gè)種子擴(kuò)展出來(lái)。反之,頻率低的候選詞代表只與少量的種子詞有關(guān)系,很可能是噪聲數(shù)據(jù)。例如,候選集中的實(shí)例 “Kick scooter”出現(xiàn)次數(shù)只有1次,是由實(shí)例“Bobsleigh”作為種子時(shí)擴(kuò)展出來(lái)的,因?yàn)樗鼈兙鶎儆凇败?chē)輛”,所以實(shí)例 “Kick scooter”是噪聲數(shù)據(jù)。

1.3 中文詞條擴(kuò)展方法

與冬奧會(huì)英文術(shù)語(yǔ)集擴(kuò)展相比,由于中文的數(shù)據(jù)用Word2Vec的方法進(jìn)行擴(kuò)展時(shí)效果較差,所以擴(kuò)展方式存在一些差異。對(duì)中文術(shù)語(yǔ)集的擴(kuò)展,本文將每個(gè)種子進(jìn)行單獨(dú)擴(kuò)展,只將depth_max作為擴(kuò)展的限制條件,使每個(gè)種子詞在只限制擴(kuò)展層數(shù)的條件下擴(kuò)展出更多相關(guān)的候選詞,最后通過(guò)統(tǒng)計(jì)每個(gè)候選詞出現(xiàn)的頻率,篩選掉頻率較低的候選詞。這種方法的缺點(diǎn)是對(duì)種子集的質(zhì)量要求較高,因此需要手動(dòng)完成對(duì)種子集的篩選工作。

1.4 BIE擴(kuò)展方法

BIE擴(kuò)展方法基于XLORE的數(shù)據(jù)集按圖2的框架進(jìn)行擴(kuò)展,與XLORE數(shù)據(jù)集進(jìn)行對(duì)齊時(shí),會(huì)篩選掉一些具有相同意義的詞,例如,在維基百科中搜索“Ksenia Makarova”“Xenia Makarova”“Ksenya Makarova”“Ksenia Olegovna Makarova”和“Ksenia Makarov”都對(duì)應(yīng)著相同的實(shí)例“Ksenia Makarova”。針對(duì)此問(wèn)題,本文用hash的方式進(jìn)行存儲(chǔ),將XLORE數(shù)據(jù)集中的編號(hào)作為索引。同時(shí),對(duì)齊維基百科跨語(yǔ)言同義詞時(shí),會(huì)找到少量的百度百科數(shù)據(jù),可用來(lái)豐富冬奧會(huì)術(shù)語(yǔ)庫(kù)。

2 實(shí)驗(yàn)

2.1 實(shí)驗(yàn)數(shù)據(jù)

在維基百科中分別以“概念: 冬季奧林匹克運(yùn)動(dòng)會(huì)”和“概念: winter olympic game”為根節(jié)點(diǎn),向下遍歷5層,獲得中英文的概念集和實(shí)例集,得到的數(shù)據(jù)量如表1所示,并將得到的數(shù)據(jù)進(jìn)行篩選。由于中文實(shí)例和英文實(shí)例的篩選方式基本相同,因此本文只介紹英文實(shí)例的篩選方式。

表1 維基百科中獲取的冬奧會(huì)領(lǐng)域概念集和實(shí)例集數(shù)據(jù)數(shù)量

將擴(kuò)展出的種子詞進(jìn)行篩選,選出質(zhì)量較高的種子組成擴(kuò)展集。經(jīng)過(guò)測(cè)試,發(fā)現(xiàn)形如“List of Olympic venues in curling”“Poland at the 1964 Winter Olympics”等實(shí)例作為種子進(jìn)行擴(kuò)展時(shí),擴(kuò)展出的新詞的總體質(zhì)量較低,是較劣質(zhì)的種子。當(dāng)用“pavel angelov”“tommaso leoni”等運(yùn)動(dòng)員的名字或比賽項(xiàng)目名稱(chēng)作為種子進(jìn)行擴(kuò)展時(shí),擴(kuò)展出的新詞的總體質(zhì)量較高,是優(yōu)質(zhì)的種子。根據(jù)此測(cè)試結(jié)果,將得到的實(shí)例集進(jìn)行篩選,并將剩余的數(shù)據(jù)作為種子集。按比例在種子集中選取一定數(shù)量的種子作為測(cè)試集,具體數(shù)量如表2所示,由于中文概念數(shù)量較少,所以選取全部種子集作為測(cè)試集。

表2 中英文實(shí)例和概念種子集及測(cè)試集數(shù)量

在篩選的過(guò)程中,我們還發(fā)現(xiàn),有一些數(shù)據(jù)后面帶有括號(hào),括號(hào)里的內(nèi)容是對(duì)該數(shù)據(jù)的解釋。例如,實(shí)例“patrick caldwell (skier)”指的是滑雪運(yùn)動(dòng)員“patrick caldwell”,如果沒(méi)有括號(hào)里的內(nèi)容,則會(huì)產(chǎn)生歧義,在維基百科中搜索“patrick caldwell”,會(huì)搜索到來(lái)自南卡羅來(lái)納州的美國(guó)代表“Patrick C. Caldwell”和美國(guó)越野滑雪運(yùn)動(dòng)員“Patrick Caldwell(skier)”這兩個(gè)實(shí)例,前面的實(shí)例在本實(shí)驗(yàn)中是一條噪聲數(shù)據(jù)。由于括號(hào)中的內(nèi)容大多數(shù)是與冬奧會(huì)相關(guān)的詞,所以我們保留了括號(hào)中的內(nèi)容。

2.2 測(cè)試集實(shí)驗(yàn)分析及實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)中使用的數(shù)據(jù)集是維基百科的冬奧會(huì)相關(guān)詞條組成的數(shù)據(jù)集,英文使用的詞向量為300維,每組待擴(kuò)展集Hi的種子數(shù)量為5,當(dāng)待擴(kuò)展集Hi的組內(nèi)得分Sh在[0.3,1)區(qū)間內(nèi)時(shí),選擇depth_max+num_max的策略進(jìn)行擴(kuò)展,參數(shù)depth_max的值為3、參數(shù)num_max的值為60;當(dāng)待擴(kuò)展集Hi組內(nèi)得分Sh在(0,0.3)時(shí),選擇score_min+num_max的策略進(jìn)行擴(kuò)展,參數(shù)num_max的值為100、參數(shù)score_min的值為0.8,中英文迭代擴(kuò)展的層數(shù)設(shè)置為3。

2.3 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文提出的模型在中文數(shù)據(jù)集上擴(kuò)展的有效性,我們選取了Embedding based、SEISA、SetExpan三種擴(kuò)展方法進(jìn)行對(duì)比實(shí)驗(yàn)。評(píng)判標(biāo)準(zhǔn)是分別用每種方法擴(kuò)展900個(gè)新詞,比較每種方法擴(kuò)展集中新詞的質(zhì)量。

?Embeddingbased[7]: 該模型基于Word2Vec的方法,訓(xùn)練基于中文維基百科的機(jī)器學(xué)習(xí)模型。通過(guò)維基百科的上下位關(guān)系選出候選詞,并基于詞向量計(jì)算新詞得分,將所有候選詞按得分進(jìn)行排序,選擇分?jǐn)?shù)較高的候選詞的集合作為擴(kuò)展集。本文一共進(jìn)行10次實(shí)驗(yàn),每次實(shí)驗(yàn)選取10個(gè)優(yōu)質(zhì)種子作為種子集,將10次擴(kuò)展的結(jié)果取平均值作為該實(shí)驗(yàn)的擴(kuò)展結(jié)果。

?SEISA[3]: 本文模擬了SEISA的評(píng)分過(guò)程,并用SEISA的評(píng)分標(biāo)準(zhǔn)對(duì)擴(kuò)展出的候選集合的所有詞進(jìn)行評(píng)分,按分?jǐn)?shù)選出評(píng)分靠前的詞條,并計(jì)算優(yōu)質(zhì)數(shù)據(jù)所占的比例。

?SetExpan[8]: 本文模擬了SetExpan的評(píng)分過(guò)程,并用SetExpan的評(píng)分標(biāo)準(zhǔn)對(duì)擴(kuò)展出的候選集合的所有詞進(jìn)行評(píng)分,按分?jǐn)?shù)選出評(píng)分靠前的詞條,并計(jì)算優(yōu)質(zhì)數(shù)據(jù)所占的比例。

本文在維基百科的冬奧會(huì)相關(guān)的條目組成的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。

表3 維基百科的冬奧會(huì)相關(guān)條目組成的數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果

根據(jù)實(shí)驗(yàn)結(jié)果可以看出,擴(kuò)展冬奧會(huì)領(lǐng)域術(shù)語(yǔ)集時(shí),SEISA方法效果較差,說(shuō)明種子集的平均詞頻較低時(shí),對(duì)SEISA方法的影響較大。BIE+SWF的方法可以降低種子集平均詞頻較低造成的影響,且擴(kuò)展效果相比其他方法提高12.12%以上。

2.4 模型參數(shù)分析

為了驗(yàn)證參數(shù)對(duì)實(shí)驗(yàn)的影響及BIE方法對(duì)擴(kuò)展效果的提升程度。我們?cè)谟⑽臏y(cè)試集上進(jìn)行待擴(kuò)展集Hi種子數(shù)量n測(cè)試實(shí)驗(yàn)和擴(kuò)展策略測(cè)試及參數(shù)測(cè)試實(shí)驗(yàn),并在中英文數(shù)據(jù)集上分別對(duì)比了SWF方法和BIE+SWF方法。

2.4.1 待擴(kuò)展集Hi的種子數(shù)量n測(cè)試

將1 000個(gè)測(cè)試集按每組1/5/10/20個(gè)種子進(jìn)行分組。對(duì)4種分組方式分別進(jìn)行擴(kuò)展,統(tǒng)計(jì)每個(gè)候選詞的次數(shù)并按次數(shù)由高到低進(jìn)行排序,分別取5 000/7 500/10 000個(gè)候選詞作為擴(kuò)展集,將擴(kuò)展集中優(yōu)質(zhì)種子數(shù)量占比作為模型的評(píng)分標(biāo)準(zhǔn),分析待擴(kuò)展集Hi的種子數(shù)量對(duì)擴(kuò)展結(jié)果的影響。實(shí)驗(yàn)結(jié)果如圖3所示。

圖3 待擴(kuò)展集Hi的種子數(shù)量n對(duì)擴(kuò)展結(jié)果影響

通過(guò)分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),優(yōu)質(zhì)詞條數(shù)量占比按待擴(kuò)展集Hi的種子數(shù)量n先增后減,可能原因是種子集Se中存在一定數(shù)量的噪聲數(shù)據(jù),當(dāng)噪聲數(shù)據(jù)所在的待擴(kuò)展集Hi的種子數(shù)量較少時(shí),噪聲數(shù)據(jù)會(huì)對(duì)待擴(kuò)展集Hi的語(yǔ)義理解造成較大影響,導(dǎo)致擴(kuò)展出較多的噪聲數(shù)據(jù)。例如,每個(gè)種子單獨(dú)進(jìn)行擴(kuò)展時(shí),如果這個(gè)種子數(shù)據(jù)是噪聲數(shù)據(jù),所擴(kuò)展出的新詞大部分是噪聲數(shù)據(jù)。當(dāng)待擴(kuò)展集Hi的種子數(shù)量過(guò)多時(shí),幾個(gè)詞會(huì)產(chǎn)生其他的語(yǔ)義信息。例如,待擴(kuò)展集Hi中包括冬奧會(huì)運(yùn)動(dòng)員“申雪”“張丹”“龐清”“趙宏博”等,其中“申雪”“龐清”“趙宏博”是黑龍江省哈爾濱市人,容易擴(kuò)展出與冬奧會(huì)無(wú)關(guān)的黑龍江人。綜合考慮,對(duì)冬奧會(huì)領(lǐng)域術(shù)語(yǔ)進(jìn)行擴(kuò)展時(shí),待擴(kuò)展集Hi的種子數(shù)量為5時(shí)效果最優(yōu)。

2.4.2 擴(kuò)展策略測(cè)試及參數(shù)測(cè)試

在擴(kuò)展策略測(cè)試實(shí)驗(yàn)中,我們對(duì)3個(gè)參數(shù)進(jìn)行分析,發(fā)現(xiàn)參數(shù)depth_max和score_min可以較好地提高新詞的質(zhì)量,并且當(dāng)種子集得分Sh較高時(shí),score_min的效果較好,當(dāng)種子集得分Sh較低時(shí),depth_max的效果較好。當(dāng)待擴(kuò)展集Hi得分Sh在[0.3,1)區(qū)間內(nèi)時(shí),score_min+num_max策略最優(yōu),當(dāng)待擴(kuò)展集Hi得分Sh在(0,0.3)時(shí),depth_max+num_max策略最優(yōu)。我們分別對(duì)兩種擴(kuò)展策略的參數(shù)進(jìn)行調(diào)整并擴(kuò)展,實(shí)驗(yàn)的結(jié)果如圖4、圖5所示。

圖4 depth_max+num_max策略參數(shù)測(cè)試結(jié)果

圖5 score_min+num_max策略參數(shù)測(cè)試結(jié)果

通過(guò)實(shí)驗(yàn)結(jié)果可以看出,當(dāng)參數(shù)depth_max為3、num_max為100時(shí),depth_max+num_max的擴(kuò)展策略效果達(dá)到最優(yōu)。當(dāng)參數(shù)score_min為0.8、num_max為60時(shí),score_min+num_max的擴(kuò)展策略達(dá)到最優(yōu)。

2.4.3 BIE方法效果測(cè)試

對(duì)中英文的實(shí)例集分別使用SWF方法和BIE+SWF方法進(jìn)行擴(kuò)展。實(shí)驗(yàn)結(jié)果如表4所示。

表4 SWF方法和BIE+SWF方法實(shí)驗(yàn)結(jié)果

通過(guò)分析實(shí)驗(yàn)結(jié)果,我們發(fā)現(xiàn)BIE方法對(duì)中文實(shí)例的擴(kuò)展效果提升明顯,對(duì)英文實(shí)例的擴(kuò)展效果提升不多,證明BIE方法可以解決中文種子集種子數(shù)量少的問(wèn)題。

2.5 其他數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

為了測(cè)試我們的方法在除冬奧會(huì)外的其他領(lǐng)域也有效,我們?cè)谄渌皖l詞領(lǐng)域進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)選擇的領(lǐng)域是世界錦標(biāo)賽、兵器和亞運(yùn)會(huì),并使用BIE+SWF方法進(jìn)行擴(kuò)展,實(shí)驗(yàn)的結(jié)果如表5所示。

表5 BIE+SWF方法在其他低頻詞領(lǐng)域上的實(shí)驗(yàn)結(jié)果

BIE+SWF方法在世界錦標(biāo)賽領(lǐng)域、兵器領(lǐng)域和亞運(yùn)會(huì)領(lǐng)域也有較好的表現(xiàn)。其中兵器領(lǐng)域擴(kuò)展出的新詞數(shù)量最多且新詞的平均質(zhì)量最高。我們認(rèn)為主要原因是兵器領(lǐng)域的詞條大多數(shù)都沒(méi)有歧義,上下位關(guān)系相對(duì)較少,所包含的語(yǔ)義信息比較簡(jiǎn)單。而其他三個(gè)領(lǐng)域的詞條,有著比較復(fù)雜的上下位關(guān)系,且包含的語(yǔ)義信息比較復(fù)雜。例如,乒乓球運(yùn)動(dòng)員“馬龍”獲得過(guò)奧運(yùn)會(huì)、世界錦標(biāo)賽、亞運(yùn)會(huì)等比賽項(xiàng)目的冠軍,將實(shí)例“馬龍”作為亞運(yùn)會(huì)領(lǐng)域下的詞條進(jìn)行擴(kuò)展時(shí),較容易擴(kuò)展出其他運(yùn)動(dòng)會(huì)的相關(guān)詞條。

3 相關(guān)研究

集合擴(kuò)展是把一個(gè)比較小的種子集合作為輸入,找出更多同類(lèi)型的數(shù)據(jù)來(lái)擴(kuò)充這個(gè)集合的規(guī)模。早期解決此項(xiàng)工作任務(wù)的有Google Set[16],SEAL[2],SEISA[3]和Lyretail[4]等,它們都是使用搜索引擎或者其他互聯(lián)網(wǎng)上的信息來(lái)對(duì)已有的概念或者實(shí)體集進(jìn)行擴(kuò)展的。其中Google Set是最早使用集合擴(kuò)展功能的產(chǎn)品,主要用于豐富谷歌搜索的結(jié)果。SEAL由CMU在2007年的ICDM上提出,使用一個(gè)兩步的策略對(duì)已有的種子詞進(jìn)行擴(kuò)展。將輸入的種子詞輸入到搜索引擎中,通過(guò)解析網(wǎng)頁(yè),得到候選詞,然后再將候選詞放入一個(gè)圖中進(jìn)行排序,得到候選結(jié)果。SEAL的優(yōu)點(diǎn)是跨語(yǔ)言且準(zhǔn)確度高。2011年,微軟推出了SEISA擴(kuò)展系統(tǒng),并提出了生成概念的置信度的方法,所使用的信息是web list和 query log,分別代表相關(guān)性和上下文的語(yǔ)義性的關(guān)系。在2016年,Chen等人提出Lyretail,利用了web的信息對(duì)已有詞條字典進(jìn)行擴(kuò)充,與之前的方法相比,它引入了一個(gè)弱監(jiān)督[17]的抽取器來(lái)提取網(wǎng)頁(yè)中的詞條。在此類(lèi)方法中,所用的方法都是將種子提交給搜索引擎,用通過(guò)挖掘網(wǎng)頁(yè)的方式進(jìn)行擴(kuò)展,雖然這種方法擴(kuò)展出的新詞質(zhì)量較高,但代價(jià)比較高,不適用于大規(guī)模擴(kuò)展。隨著Word2Vec模型的出現(xiàn),集合擴(kuò)展的工作逐漸從只靠web信息,轉(zhuǎn)向了基于文本的任務(wù)?;谡Z(yǔ)料庫(kù)的集合擴(kuò)展一般有兩種方法。第一種方法找到所有的候選詞后再進(jìn)行排序[6-7],這種方法的優(yōu)點(diǎn)是準(zhǔn)確率高,缺點(diǎn)是不能充分理解語(yǔ)義,導(dǎo)致擴(kuò)展結(jié)果出現(xiàn)非法闖入現(xiàn)象。第二種方法是迭代式擴(kuò)展,從種子實(shí)體開(kāi)始提取質(zhì)量模式,基于預(yù)定義的模式評(píng)分機(jī)制。這種方法的缺點(diǎn)也比較明顯,只在每次迭代中種子詞和迭代產(chǎn)生的詞精度很高時(shí)才有效,否則可能會(huì)出現(xiàn)嚴(yán)重的語(yǔ)義漂移。針對(duì)這兩種方法存在的問(wèn)題,2017年Shen等人在KDD上提出SetExpan[8],擴(kuò)展效果超過(guò)了大部分已有的方法,有針對(duì)性地解決了實(shí)體入侵和非法闖入的問(wèn)題,在小規(guī)模擴(kuò)展時(shí)效果很好,但在大規(guī)模擴(kuò)展時(shí)會(huì)出現(xiàn)語(yǔ)義漂移的現(xiàn)象。2018年,Jonathan Mamou等人基于SetExpan提出了SetExpander[9],SetExpander為術(shù)語(yǔ)集擴(kuò)展實(shí)現(xiàn)了一個(gè)迭代的端到端工作流,使用戶能夠選擇輸入語(yǔ)料庫(kù),訓(xùn)練多個(gè)嵌入模型,并且該算法結(jié)合多個(gè)上下文項(xiàng)嵌入,捕捉語(yǔ)義相似性的不同方面,使系統(tǒng)在不同領(lǐng)域具有更強(qiáng)的魯棒性。

平行語(yǔ)料庫(kù)[18]對(duì)于訓(xùn)練統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)特別重要。一個(gè)典型的平行語(yǔ)料庫(kù)的提取過(guò)程主要分為識(shí)別具有雙語(yǔ)內(nèi)容的網(wǎng)站、爬取網(wǎng)站、文檔對(duì)齊、句對(duì)齊和句子對(duì)過(guò)濾這5個(gè)步驟[19]?;谄叫姓Z(yǔ)料庫(kù)的研究有很多,例如,在2005年Regina Barzilay等人基于平行語(yǔ)料庫(kù),運(yùn)用無(wú)監(jiān)督的學(xué)習(xí)方法,提出了一種基于語(yǔ)料庫(kù)的同一原文多個(gè)英譯本的釋義識(shí)別方法[20]。在2018年,Zdenka Ure?ová等人基于平行語(yǔ)料庫(kù)構(gòu)建了捷克英語(yǔ)類(lèi)詞典并作為一個(gè)開(kāi)源數(shù)據(jù)集發(fā)布[21]。本文提出的集合擴(kuò)展的方法是基于跨語(yǔ)言的平行語(yǔ)料庫(kù)進(jìn)行研究的。

維基百科是最廣泛的百科全書(shū),基于維基百科的語(yǔ)料庫(kù)進(jìn)行的研究有很多,其主要集中在實(shí)體消歧、語(yǔ)義相關(guān)性、跨語(yǔ)言分類(lèi)等方面[22-24]。其中比較有代表性的是DBpedia[25]。近年來(lái),基于維基百科開(kāi)展了復(fù)雜詞匯識(shí)別[26]和知識(shí)多樣性[27]等工作。在本文的實(shí)驗(yàn)中,我們使用維基百科中冬奧會(huì)領(lǐng)域相關(guān)的詞條組成的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

4 結(jié)論與未來(lái)工作

4.1 結(jié)論

集合擴(kuò)展在知識(shí)圖譜的構(gòu)建中有著重要的應(yīng)用。本文針對(duì)冬奧會(huì)領(lǐng)域的中文詞條擴(kuò)展過(guò)程中存在的問(wèn)題,提出了SWF方法和BIE方法。SWF方法通過(guò)統(tǒng)計(jì)每個(gè)候選詞出現(xiàn)的次數(shù)選擇質(zhì)量較高的詞條,用于解決冬奧會(huì)領(lǐng)域的中文詞條平均詞頻較低的問(wèn)題。BIE方法通過(guò)借助數(shù)據(jù)量較大的英文語(yǔ)料庫(kù)和XLORE的跨語(yǔ)言同義詞數(shù)據(jù)集進(jìn)行擴(kuò)展,用于解決冬奧會(huì)領(lǐng)域的中文詞條數(shù)量較少的問(wèn)題。我們使用BIE+SWF方法對(duì)其他領(lǐng)域的低頻詞進(jìn)行擴(kuò)展,得到的擴(kuò)展集質(zhì)量較高,證明本文的方法具有較好的適用性。

4.2 未來(lái)工作

目前,我們通過(guò)中英文迭代擴(kuò)展的方式解決了中文實(shí)例種子集數(shù)量少的問(wèn)題,并用每個(gè)種子單獨(dú)擴(kuò)展統(tǒng)計(jì)每個(gè)新詞數(shù)量的方式解決了中文實(shí)例詞頻低的問(wèn)題,但需要手動(dòng)篩選種子集,且在種子集數(shù)量較少時(shí)擴(kuò)展效果不理想。后續(xù)我們將進(jìn)行篩選種子集的實(shí)驗(yàn),同時(shí)將嘗試多種語(yǔ)言的聯(lián)合擴(kuò)展,用更多種語(yǔ)言迭代擴(kuò)展的方式來(lái)彌補(bǔ)種子集數(shù)量少、低頻詞帶來(lái)的問(wèn)題。

猜你喜歡
維基百科詞條新詞
維基百科影響司法
維基百科青年
《微群新詞》選刊之十四
2016年4月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
2016年3月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
2016年9月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
APP
大數(shù)據(jù)相關(guān)詞條
小議網(wǎng)絡(luò)新詞“周邊”
IBM的監(jiān)視
意林(2014年2期)2014-02-11 11:09:17
杭州市| 韩城市| 如东县| 启东市| 马公市| 南靖县| 广元市| 高碑店市| 阆中市| 从江县| 科技| 汤原县| 长宁区| 河南省| 甘孜县| 湘潭县| 蓬莱市| 祁东县| 吉安市| 建平县| 南宫市| 墨竹工卡县| 息烽县| 安阳县| 新平| 临颍县| 西乌| 佛山市| 通道| 光泽县| 托里县| 平泉县| 郴州市| 哈密市| 横峰县| 桂平市| 谢通门县| 保山市| 资兴市| 随州市| 开封县|