孫茂松,陳新雄
(1. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,清華信息科學(xué)技術(shù)國家實(shí)驗(yàn)室,清華大學(xué)智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100084;2. 首都師范大學(xué),北京市成像技術(shù)高精尖創(chuàng)新中心,北京100048)
借重于人工知識(shí)庫的詞和義項(xiàng)的向量表示: 以HowNet為例
孫茂松1,2,陳新雄1
(1. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,清華信息科學(xué)技術(shù)國家實(shí)驗(yàn)室,清華大學(xué)智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100084;2. 首都師范大學(xué),北京市成像技術(shù)高精尖創(chuàng)新中心,北京100048)
該文旨在以HowNet為例,探討在表示學(xué)習(xí)模型中引入人工知識(shí)庫的必要性和有效性。目前詞向量多是通過構(gòu)造神經(jīng)網(wǎng)絡(luò)模型,在大規(guī)模語料庫上無監(jiān)督訓(xùn)練得到,但這種框架面臨兩個(gè)問題: 一是低頻詞的詞向量質(zhì)量難以保證;二是多義詞的義項(xiàng)向量無法獲得。該文提出了融合HowNet和大規(guī)模語料庫的義原向量學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,并以義原向量為橋梁,自動(dòng)得到義項(xiàng)向量及完善詞向量。初步的實(shí)驗(yàn)結(jié)果表明該模型能有效提升在詞相似度和詞義消歧任務(wù)上的性能,有助于低頻詞和多義詞的處理。作者指出,借重于人工知識(shí)庫的神經(jīng)網(wǎng)絡(luò)語言模型應(yīng)該成為今后一段時(shí)期自然語言處理的研究重點(diǎn)之一。
詞向量;義項(xiàng)向量;義原向量;HowNet;神經(jīng)網(wǎng)絡(luò)語言模型
詞向量表示旨在學(xué)習(xí)詞的低維實(shí)數(shù)向量表示,是自然語言處理的重要任務(wù)之一。訓(xùn)練得到的詞向量可直接用于計(jì)算兩個(gè)詞之間的語義相關(guān)性,同時(shí)可作為特征廣泛應(yīng)用于諸多后續(xù)的自然語言處理任務(wù)中,如信息檢索、語言模型、詞義消歧、詞義組合和命名實(shí)體識(shí)別等。
目前的詞向量一般都是在極大規(guī)模生語料庫(對中文需要經(jīng)過基本的分詞處理)上通過構(gòu)建神經(jīng)網(wǎng)絡(luò)語言模型以無監(jiān)督學(xué)習(xí)的方式訓(xùn)練得到。這種典型的計(jì)算框架存在兩個(gè)“天然”的缺陷,或者說困難問題。第一個(gè)困難問題是: 經(jīng)驗(yàn)表明,低頻詞的詞向量的語義表達(dá)質(zhì)量較高頻詞會(huì)顯著下降,很多情況下難以令人滿意;第二個(gè)困難問題是: 詞匯中很多詞是多義的,但從生語料庫中根本不可能學(xué)習(xí)到多義詞的義項(xiàng)向量表示,其在詞義消歧、詞義組合等后續(xù)任務(wù)中的效用會(huì)大打折扣。
顯然,不借助于其他資源是無法解決上述兩個(gè)天然“缺陷”的。關(guān)于第一個(gè)困難問題: 根據(jù)齊夫定律,必然存在一個(gè)數(shù)量十分龐大的低頻詞集合,所以無論語料庫規(guī)模多大,這些詞的詞向量的語義表達(dá)質(zhì)量問題始終會(huì)如“夢魘”相隨;關(guān)于第二個(gè)困難問題: 如果有一個(gè)經(jīng)過人工義項(xiàng)標(biāo)注的極大規(guī)模語料庫,詞的義項(xiàng)向量表示問題在典型框架下將會(huì)迎刃而解,但人工標(biāo)注這樣一個(gè)語料庫投入巨大,并不現(xiàn)實(shí)(即使有了這樣一個(gè)語料庫,低頻義項(xiàng)的向量質(zhì)量問題還是會(huì)無可避免地凸顯出來)。在詞和義項(xiàng)的向量表示學(xué)習(xí)中系統(tǒng)性地借重于其他資源,尤其是人工業(yè)已建立起來的大規(guī)模知識(shí)庫,無疑是我們攻堅(jiān)克難的一條可行之道。而現(xiàn)實(shí)存在著的若干高質(zhì)量的人工標(biāo)注知識(shí)庫(英文如WordNet,中文如HowNet[1]等)中,蘊(yùn)含了十分豐富的關(guān)于語言和世界的知識(shí)(實(shí)際上體現(xiàn)了一流專家從認(rèn)知或計(jì)算角度對語言和世界的系統(tǒng)化認(rèn)識(shí)),如何將這些知識(shí)有效合理地加入到詞向量和義項(xiàng)向量學(xué)習(xí)中,便成為了表示學(xué)習(xí)中的一個(gè)重要課題。
已有一些研究者將人工知識(shí)庫與詞向量或義項(xiàng)向量的學(xué)習(xí)進(jìn)行了結(jié)合。例如,Wang等[2]提出利用機(jī)器學(xué)習(xí)中的正則化(regularization)技術(shù)將詞匯的語義關(guān)聯(lián)度作為正則化因子嵌入到詞向量學(xué)習(xí)的優(yōu)化目標(biāo)中,使得學(xué)到的詞向量融合了先驗(yàn)知識(shí)(如: 兩個(gè)詞是同義詞)。Chen等[3]利用WordNet為多義詞的不同義項(xiàng)訓(xùn)練相應(yīng)的義項(xiàng)向量,有效提升了英文詞義消歧的效果;Rothe等[4]利用WordNet將詞向量自動(dòng)擴(kuò)展到Synset向量上;唐共波等[5]基于HowNet中的基本語義單位——“義原”——來學(xué)習(xí)義項(xiàng)的向量表示,用于無監(jiān)督詞義消歧。
本文以HowNet為例,研究如何將人工知識(shí)庫的信息加入到詞向量和義項(xiàng)向量的學(xué)習(xí)過程中。我們提出了HowNet和極大規(guī)模生語料庫共同作用的義原向量學(xué)習(xí)方法,并以學(xué)到的義原向量為橋梁,求出義項(xiàng)向量,完善化詞向量,以期對解決前文提及的兩個(gè)困難問題都有所裨益。盡管唐共波等已經(jīng)提出了為HowNet義原學(xué)習(xí)向量的思路,但其策略較為簡單: 根據(jù)HowNet全部詞(超過10萬個(gè))中的35 247個(gè)單義原詞(約占全部詞的33.75%),將北京語言大學(xué)中文語料庫BCC(規(guī)模為13億字左右)中的單義原詞全部替換為義原,得到182 398個(gè)義原實(shí)例,然后利用經(jīng)典的word2vec在替換處理后的BCC上同時(shí)構(gòu)造義原向量和詞向量。需要注意的是,義原實(shí)例僅占了BBC極小一部分,這提示義原向量的訓(xùn)練可能很不充分,并且該方法能得到向量表示的義原也只占全部義原的60.95%,因而通過對這些義原向量求平均之類操作而得到的義項(xiàng)向量應(yīng)該是相對粗放的(也不能保證HowNet中的每一個(gè)義項(xiàng)都能得到向量表示)。而我們提出的方法囊括了HowNet中的全部詞和全部義原,設(shè)計(jì)了更為復(fù)雜、周詳?shù)哪P汀?/p>
本文安排如下: 第二節(jié)簡要介紹HowNet中詞的形式化描述系統(tǒng)以及我們構(gòu)造的兩類基于HowNet的義原向量表示學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,即義項(xiàng)不敏感的模型;第三節(jié)針對詞相似度任務(wù)和詞義消歧任務(wù)驗(yàn)證我們所提模型的有效性;第四節(jié)從最近鄰視角對實(shí)驗(yàn)結(jié)果進(jìn)行了具體觀察,第五節(jié)歸納并強(qiáng)調(diào)我們的基本觀點(diǎn)。
2.1 HowNet中詞的形式化描述系統(tǒng)
HowNet是使用最為廣泛的可計(jì)算中文語義詞典。在HowNet中,詞的形式化描述系統(tǒng)是按照詞—義項(xiàng)—義原三層結(jié)構(gòu)來組織的。即詞按照義項(xiàng)分列,義項(xiàng)又被作者精心設(shè)計(jì)的義原所定義(義原可以理解成功能類似化學(xué)中“元素”的中文基本語義單位,所有義項(xiàng)均由義原的不同組合而成)。表1給出了“包袱”一詞在HowNet中的形式化描述。
其中No.是每一個(gè)義項(xiàng)在HowNet中的序號,W_C、G_C、E_C、W_E、G_E、E_E分別表示中文詞語、中文詞性、中文示例、英文詞語、英文詞性、英文示例,DEF定義了相應(yīng)的義項(xiàng),如這里“包袱”一詞的第一個(gè)義項(xiàng)No.=015 240(表示 “心理負(fù)擔(dān)”的意思)是使用義原“duty|責(zé)任”來描述的。
表1 “包袱”一詞在HowNet的形式化描述
2.2 義項(xiàng)不敏感的義原向量表示學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型
我們構(gòu)建了一個(gè)如圖1所示的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)義原向量。這個(gè)模型與Mikolov的CBOW模型貌似差不多,但實(shí)際上還是有相當(dāng)差別的: CBOW模型同步更新上下文向量與詞向量,而我們的模型首先在訓(xùn)練語料庫上運(yùn)行CBOW后得到詞的向量表示,然后固定訓(xùn)練好的詞向量不變,不斷更新所轄的義原向量。其基本思想是: 訓(xùn)練詞所轄的義原向量去逼近該詞向量(注意: 此時(shí)各義項(xiàng)的義原被不加區(qū)別地獨(dú)立排列,故稱之義項(xiàng)不敏感),使學(xué)到的義原向量可較好的預(yù)測這些義原共同作用所定義的詞向量。
圖1 義項(xiàng)不敏感的義原向量表示學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型
求和遍歷了整個(gè)訓(xùn)練集(規(guī)模為T)來計(jì)算義原正確預(yù)測所定義詞的對數(shù)概率。
我們使用softmax函數(shù)來定義預(yù)測的概率Pr(wi|p1,…,pm),如式(2)所示。
以“包袱”為例,我們的模型會(huì)把它的所有義原(即“duty|責(zé)任”,“physical|物質(zhì)”,“wrap|包扎”,“tool|用具”和“wrap|包扎”)的向量的平均作為隱藏層的向量,用于預(yù)測“包袱”一詞。
從式(2)可以看到,計(jì)算預(yù)測概率時(shí)需要遍歷整個(gè)詞表,而詞表大小往往是比較大的(這里超過10萬個(gè)詞),因此本文使用了層次化的softmax去降低計(jì)算復(fù)雜度。
對于詞的迭代訓(xùn)練有兩種不同的選擇:
(1) 在HowNet詞典上進(jìn)行迭代(遍歷的訓(xùn)練集為HowNet詞典)。即遍歷詞典中的每一個(gè)詞,所有詞的訓(xùn)練次數(shù)都一樣(此時(shí)義原向量的更新過程與語料庫無關(guān))。
(2) 在大規(guī)模語料庫上進(jìn)行迭代(遍歷的訓(xùn)練集為語料庫)。即依次遍歷大規(guī)模語料庫中的每一個(gè)詞,在一輪訓(xùn)練過程中,每一個(gè)詞的訓(xùn)練次數(shù)就是這個(gè)詞在語料庫中出現(xiàn)的次數(shù)。
2.3 義項(xiàng)敏感的義原向量表示學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型
義項(xiàng)不敏感的義原向量表示學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型直接使用所有義原向量來預(yù)測所定義的詞,在更新義原向量時(shí)也會(huì)更新所有的義原,這個(gè)策略顯得有些“簡單粗暴”,因?yàn)橐粋€(gè)詞在句子的具體上下文中會(huì)取不同的義項(xiàng),也就是說,不會(huì)是所有的義項(xiàng)同時(shí)在起作用。于是我們進(jìn)一步提出了一種義項(xiàng)敏感的義原向量表示學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型(圖2),使得在學(xué)習(xí)過程中模型會(huì)根據(jù)句子的具體上下文來選擇wi最可能的義項(xiàng),然后只使用相對應(yīng)的義原向量來預(yù)測wi,同樣地,也只更新相應(yīng)的義原向量(注意,這個(gè)訓(xùn)練過程是動(dòng)態(tài)的;在訓(xùn)練過程中基于CBOW預(yù)處理得到的詞向量依然是始終固定不變)。
圖2 義項(xiàng)敏感的義原向量表示學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型
然后挑選與該詞的上下文最相近的義項(xiàng),如式(4)所示。
當(dāng)挑選出與上下文最相近的義項(xiàng)之后,在預(yù)測(式3)和更新時(shí)都只使用這個(gè)義項(xiàng)所對應(yīng)的若干義原,而不是該詞的所有義原。
同樣以“包袱”為例,在訓(xùn)練時(shí),模型會(huì)根據(jù)該詞在語料庫中的當(dāng)前上下文來選擇最為相關(guān)的義項(xiàng),不妨假設(shè)某個(gè)時(shí)刻選擇了圖2中的第二個(gè)義項(xiàng),那么模型將使用義原“physical|物質(zhì)”和“wrap|包扎”的平均向量來預(yù)測“包袱”,對應(yīng)地,也只會(huì)更新義原“physical|物質(zhì)”和“wrap|包扎”的向量。
2.4 義項(xiàng)向量和詞向量的獲得
經(jīng)過2.2或2.3的處理后,我們得到了所有義原的向量表示。則: (1)各義項(xiàng)向量取所轄各相應(yīng)義原向量的平均即可。(2)對較高頻詞,其詞向量即取CBOW預(yù)處理得到的詞向量,而對較低頻詞,我們認(rèn)為CBOW預(yù)處理得到的詞向量的可信度值得商榷,于是乎舍之而取其所轄義原向量的平均作為詞向量(絕大多數(shù)情況下都是單義項(xiàng)詞)。
本節(jié)針對兩個(gè)任務(wù)來驗(yàn)證我們所提出的模型: 一個(gè)是詞相似度任務(wù)以檢驗(yàn)得到的詞向量的有效性,另一個(gè)是標(biāo)準(zhǔn)的詞義消歧任務(wù)以驗(yàn)證基于義項(xiàng)向量的消歧算法。實(shí)驗(yàn)結(jié)果表明本文提出的模型: (1)在詞相似度任務(wù)上能夠提升與人類打分的相關(guān)性;(2)在一個(gè)標(biāo)準(zhǔn)詞義消歧任務(wù)中能超過現(xiàn)有的最好無監(jiān)督消歧系統(tǒng)。
實(shí)驗(yàn)使用搜狗實(shí)驗(yàn)室提供的SogouT互聯(lián)網(wǎng)語料庫*http://www.sogou.com/labs/dl/t.html作為訓(xùn)練語料庫。SogouT共包含來自互聯(lián)網(wǎng)各種類型的1.3億個(gè)原始網(wǎng)頁,大小超過5TB。首先預(yù)處理去掉網(wǎng)頁內(nèi)的噪聲內(nèi)容,如標(biāo)簽、鏈接、腳本等,得到純中文網(wǎng)頁正文文本152.8GB,超過19億個(gè)句子,共554億個(gè)字符,其中漢字(不含標(biāo)點(diǎn))超過478億個(gè)。句子去重后得到7億個(gè)不同的句子,共256億個(gè)字符,其中漢字(不含標(biāo)點(diǎn))221億個(gè),共72GB。然后使用THULAC*http://thulac.thunlp.org/對語料庫進(jìn)行自動(dòng)分詞和詞性標(biāo)注。THULAC(THULexicalAnalyzerforChinese)是由清華大學(xué)自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室研制的一套中文詞法分析工具包,對開放文本具有很強(qiáng)的分詞和詞性標(biāo)注功能,可自由下載。
我們使用HowNet2012版本*http://www.keenage.com/html/c_index.html作為義項(xiàng)詞典,經(jīng)整理后,共含103 843個(gè)詞,128 578個(gè)義項(xiàng),2 157個(gè)義原。詞和義原的向量維度均設(shè)置為200(義項(xiàng)向量的維度因此也是200)。
3.1 詞相似度任務(wù)
我們采用公開數(shù)據(jù)集wordsim240測試詞向量的質(zhì)量。共有240個(gè)詞對,每一個(gè)詞對都賦以十個(gè)人工相似度打分(打分范圍為0-10)。
實(shí)驗(yàn)中兩個(gè)詞(u,v)之間的相似度計(jì)算如式(6)所示。
表2給出了各模型得到的詞間相似度與人工打分的Spearman相關(guān)系數(shù)。其中CBOW,Skip-gram和GloVe模型作為比較的基線。CBOW和Skip-gram模型是Mikolov等的神經(jīng)網(wǎng)絡(luò)模型,GloVe是Pennington等[7]的矩陣分解模型,都是詞向量表示中的經(jīng)典模型。
表2 不同模型在數(shù)據(jù)集wordsim240詞相似度任務(wù)上的評測結(jié)果
模型與人工打分的相關(guān)系數(shù)*100CBOW55.85Skip-gram53.42GloVe48.22義項(xiàng)不敏感(遍歷的訓(xùn)練集為HowNet詞典)56.93義項(xiàng)不敏感(遍歷的訓(xùn)練集為語料庫)57.48義項(xiàng)敏感(遍歷的訓(xùn)練集為語料庫)57.03
實(shí)驗(yàn)結(jié)果初步顯示:
(1) 即使在“義項(xiàng)不敏感(遍歷的訓(xùn)練集為HowNet詞典)”的配置下,我們的模型效果也能比所有的基線模型(CBOW,Skip-gram和GloVe)要好。分析其原因,我們發(fā)現(xiàn): 通過義原向量來預(yù)測詞向量的做法對于較高頻詞并沒有明顯提升,因?yàn)檫@些詞在基線模型中已經(jīng)得到了非常充分的訓(xùn)練,但是對于較低頻詞,我們的模型能夠通過對應(yīng)義原在較高頻詞中的訓(xùn)練來提升較低頻詞的向量質(zhì)量,從而達(dá)至更好的效果。
(2) 在“義項(xiàng)不敏感(遍歷的訓(xùn)練集為語料庫)”的配置下,大規(guī)模語料庫上的訓(xùn)練使詞的更新次數(shù)正比于其出現(xiàn)的頻度,這導(dǎo)致高頻詞對應(yīng)的義原得到更充分的訓(xùn)練,因此實(shí)驗(yàn)效果得以進(jìn)一步的提升。
(3) 在“義項(xiàng)敏感(遍歷的訓(xùn)練集為語料庫)”的配置下,這種理論上更“精致”的模型并未如愿取得比(2)更好的實(shí)驗(yàn)效果。
3.2 詞義消歧任務(wù)
我們從SemEval2007中文詞義消歧任務(wù)的公開數(shù)據(jù)集中選取了六個(gè)詞(“把握”,“材料”,“老”,“沒有”,“突出”和“研究”)的96個(gè)實(shí)例作為測試集,以測試義項(xiàng)向量的表現(xiàn)。
我們采用了隨機(jī)選擇義項(xiàng)、Li等[8]的樸素Bayes分類,Wang等[9]的PageRank(目前中文詞義消歧任務(wù)上最好的無監(jiān)督學(xué)習(xí)方法之一。該方法首先根據(jù)HowNet中義原的樹狀結(jié)構(gòu)來構(gòu)建一個(gè)圖,然后在這個(gè)圖上運(yùn)行PageRank算法得到最終的消歧結(jié)果)作為基線模型。表3給出了不同模型在數(shù)據(jù)集上取得的實(shí)驗(yàn)結(jié)果。
表3 不同模型在SemEval2007中文詞義消歧任務(wù)上的評測結(jié)果
模型平均準(zhǔn)確率隨機(jī)選擇義項(xiàng)0.24Li等的樸素Bayes0.44Wang等的PageRank0.54義項(xiàng)不敏感(遍歷的訓(xùn)練集為HowNet詞典)0.56義項(xiàng)不敏感(遍歷的訓(xùn)練集為語料庫)0.57義項(xiàng)敏感(遍歷的訓(xùn)練集為語料庫)0.58
實(shí)驗(yàn)結(jié)果初步顯示:
(1) 我們提出的各個(gè)模型都比目前最好的PageRank模型效果要好。
(2) 與詞相似任務(wù)時(shí)的情況略有不同,“義項(xiàng)敏感(遍歷的訓(xùn)練集為語料庫)”配置取得了比“義項(xiàng)不敏感(遍歷的訓(xùn)練集為語料庫)”稍好一點(diǎn)的實(shí)驗(yàn)效果。
這里基于最近鄰視角,通過觀察若干實(shí)例加深對實(shí)驗(yàn)結(jié)果的感性認(rèn)識(shí)。實(shí)際上,由于我們的模型生成的義原向量、義項(xiàng)向量和詞向量都是在一個(gè)空間的,所以義原、義項(xiàng)和詞這三者之間,借助義原這個(gè)橋梁是完全打通的,在語義計(jì)算上可以自由“穿越”。
“穿越”可以沿著任意一個(gè)方向“由此及彼”。如表4顯示了與給定義項(xiàng)和義原最近鄰的詞的實(shí)例(通過計(jì)算相應(yīng)向量之間的夾角余弦)??梢钥闯鏊傻牧x項(xiàng)向量和義原向量具有一定的合理性(呼應(yīng)本文開篇所說的第二個(gè)困難問題)。
表4 義項(xiàng)向量和義原向量的最近鄰詞示例
續(xù)表
義項(xiàng)或義原最近鄰詞包袱(義項(xiàng)2)紙卷,裝袋,紙箱,包裝,油紙physical|物質(zhì)鐵磁,電導(dǎo),電導(dǎo)率,基態(tài),表征wrap|包扎捆扎,塑料紙,布條,包裝紙,抖開包袱(義項(xiàng)3)抖開,紅綢子,綢布,捆扎,油布tool|用具光閃閃,紅綢子,抖開,放置,鼓弄wrap|包扎捆扎,塑料紙,布條,包裝紙,抖開
“穿越”也可以“由己及己”。如表5顯示了與給定義原最近鄰的義原。
最后我們還是回到詞向量,進(jìn)行一次最為期待的“由己及己”的“穿越”: 給定一個(gè)詞,尤其是較低頻詞,觀察其最近鄰詞(呼應(yīng)本文開篇所說的第一個(gè)困難問題)。下面我們進(jìn)一步來看使用這些義項(xiàng)向量來模擬低頻詞的向量的結(jié)果。
表5 義原向量之間最近鄰示例
表6顯示,經(jīng)典的CBOW模型對于這些詞的訓(xùn)練效果并不好,而我們的模型通過義原向量卻可以有效捕捉到低頻詞的語義(其中“匡謬”一例最為典型)。我們注意到,HowNet全部103 843個(gè)詞中,在SogouT中頻度小于100的詞有35 274個(gè)(超過33%),可見我們的模型的受益面是相當(dāng)大的。
表6 低頻詞的最近鄰詞示例
本文的主要目的是以HowNet為例,探討并強(qiáng)調(diào)在表示學(xué)習(xí)模型中引入人工知識(shí)庫的必要性和有效性?!皫缀鯊牧汩_始”(almost from scratch)是神經(jīng)網(wǎng)絡(luò)語言模型所標(biāo)榜、推崇的一種學(xué)習(xí)方式,也是其大“秀”自己強(qiáng)大學(xué)習(xí)能力“肌肉”的一種展示方式。但是必須清醒地認(rèn)識(shí)到,這種方式并不能包打天下,對某些類型的任務(wù)不是“自足”的(如本文的義項(xiàng)向量學(xué)習(xí)任務(wù)),也存在其“阿喀琉斯之踵”(如本文的低頻詞向量學(xué)習(xí)任務(wù)),再強(qiáng)大的力量也無法自己舉起自己,必須借助“外力”才能擺脫其局限性。而各類人工知識(shí)庫就是我們必須依賴同時(shí)也是可以依賴的“外力”。一個(gè)充分融合了人工知識(shí)庫(理想狀態(tài)應(yīng)該是統(tǒng)籌了多個(gè)相關(guān)人工知識(shí)庫,包括語言知識(shí)庫和世界知識(shí)庫)的神經(jīng)網(wǎng)絡(luò)語言模型能以一種無監(jiān)督學(xué)習(xí)的方式坐收基本面上“幾乎從零開始”和特定任務(wù)上“站在巨人的肩膀上”之利,往往能夠避免或者大大緩解新的人工投入,從而取得事半功倍之效。
科學(xué)合理地構(gòu)造此類模型不是輕而易舉的,需要匠心獨(dú)運(yùn),如HowNet中義原系統(tǒng)的結(jié)構(gòu)信息在本文提出的模型中就還沒有用上。此類工作應(yīng)該成為我們今后研究的重點(diǎn)。
[1] 董強(qiáng),董振東.《知網(wǎng)》[DB]. http://www.keenage.com.
[2] Wang Y, Liu Z, Sun M. Incorporating Linguistic Knowledge for Learning Distributed Word Representations[J]. PloS one, 2015. 10(4): e0118437.
[3] Chen X, Liu Z, Sun M. A Unified Model for Word Sense Representation and Disambiguation[C]//Proceedings of EMNLP. 2014: 1025-1035.
[4] Rothe S, Schütze H. AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes[C]//Proceedings of ACL. 2015: 1793-1803.
[5] 唐共波, 于東荀, 恩東. 基于知網(wǎng)義原詞向量表示的無監(jiān)督詞義消歧方法[J]. 中文信息學(xué)報(bào), 2015,29(6): 23-29.
[6] Mikolov T, Yih W, Zweig G. Linguistic Regularities in Continuous Space Word Representations[C]//Proceedings of HLT-NAACL. 2013: 746-751.
[7] Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[C]//Proceedings of EMNLP. 2014: 1532-1543
[8] Li W, McCallum A. Semi-supervised Sequence Modeling with Syntactic Topic Models[C]//Proceedings of AAAI. 2005: 813.
[9] Wang J, Liu J, Zhang P. Chinese Word Sense Disambiguation with PageRank and HowNet[C]//Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing,2008.
Embedding for Words and Word Senses Based on Human Annotated Knowledge Base: A Case Study on HowNet
SUN Maosong1,2, CHEN Xinxiong1
(1. State Key Lab. of Intelligent Technology and Systems, National Lab. on Information Science and Technology, Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China;2. Beijing Advanced Innovation Center for Imaging Technology, Capital Normal University, Beijing 100048, China)
This paper aims to address the necessity and effectiveness of encoding a human annotated knowledge base into a neural network language model, using HowNet as a case study. Traditional word embedding is derived from neural network language model trained on a large-scale unlabeled text corpus, which suffers from the quality of resulting vectors of low frequent words is not satisfactory, and the sense vectors of polysemous words are not available. We propose neural network language models that can systematically learn embedding for all the semantic primitives defined in HowNet, and consequently, obtain word vectors, in particular for low frequent words, and word sense vectors in terms of the semantic primitive vectors. Preliminary experimental results show that our models can improve the performance in tasks of both word similarity and word sense disambiguation. It is suggested that the research on neural network language models incorporating human annotated knowledge bases would be a critical issue deserving our attention in the coming years.
word embedding; word sense embedding; sematic primitive embedding; HowNet; neural network language model
孫茂松(1962—),教授,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué),機(jī)器學(xué)習(xí),互聯(lián)網(wǎng)智能。E-mail:sms@mail.tsinghua.edu.cn陳新雄(1988—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:amiucxx@gmail.com
1003-0077(2016)06-0001-06
2016-09-27 定稿日期: 2016-10-16
國家社會(huì)科學(xué)基金(13&ZD190);國家自然科學(xué)基金(61133012)
TP391
A
編者按: 中國中文信息學(xué)會(huì)于2016年10月14—16日在山東省煙臺(tái)市魯東大學(xué)召開“第十五屆全國計(jì)算語言學(xué)會(huì)議(CCL2016)”。會(huì)議的程序委員會(huì)向本刊推薦了一批優(yōu)秀論文,編輯部得到授權(quán),其中的28篇在本期發(fā)表,以饗讀者。