袁書寒,向 陽
(同濟大學(xué) 電子與信息工程學(xué)院,上海 201804)
詞匯語義表示研究綜述
袁書寒,向 陽
(同濟大學(xué) 電子與信息工程學(xué)院,上海 201804)
構(gòu)建能夠表達語義特征的詞語表示形式是自然語言處理的關(guān)鍵問題。該文首先介紹了基于分布假設(shè)和基于預(yù)測模型的詞匯語義表示方法,并給出目前詞表示方法的評價指標;進而介紹了基于詞匯表示所蘊含的語義信息而產(chǎn)生的新應(yīng)用;最后,對詞匯語義表示研究的方法和目前面臨的問題進行了分析和展望。
詞匯表示;語義;分布假設(shè);深度學(xué)習(xí)
語義是語言形式所要表達的內(nèi)在含義,體現(xiàn)了人對語言的反映和認識。讓計算機理解自然語言的內(nèi)容是自然語言處理領(lǐng)域研究的最高目標。由于自然語言具有模糊性、歧義性、復(fù)雜性等特點[1],使得計算機理解人類語言、了解其中語義十分困難。詞匯作為文本的基本組成單元,是自然語言處理研究的最小對象,建立適當(dāng)?shù)脑~匯語義表示方式是實現(xiàn)自然語言理解的基礎(chǔ)。
利用計算機實現(xiàn)詞匯的語義表示并不是表達抽象的語言語義,而是一種計算模型。但是,由于自然語言本身的復(fù)雜性,沒有一套完備的理論可用于指導(dǎo)詞匯語義的模型化;因此,不同的詞匯語義表示方法本質(zhì)是依據(jù)語言的特點構(gòu)建適合的模型,使得模型可以盡可能保持詞語語義的完整性。本文介紹了主要的詞匯語義表示方法,給出了詞匯語義表示的測評標準,接著介紹了基于詞匯語義表示的新應(yīng)用,最后闡述了詞語語義表示的研究趨勢并展望了下一步工作。
煤礦機械工作環(huán)境較差,加劇了煤礦機械的磨損程度。煤礦企業(yè)因為機械磨損造成的損失無法計量。不僅有工作環(huán)境導(dǎo)致的機械磨損,還與我國和煤礦機械設(shè)計技術(shù)水平以及機械后續(xù)維修技術(shù)較為滯后有關(guān),機械抗磨技術(shù)上不完善,導(dǎo)致機械使用壽命較短。如何減少機械磨損,提高機械使用壽命,是煤礦機械設(shè)計中應(yīng)注意的問題,還有研究抗磨措施,提高機械使用效率,實現(xiàn)煤礦產(chǎn)量的提高,減少煤礦企業(yè)的經(jīng)濟損失等問題。
詞匯作為自然語言的基本單位,研究其語義表示形式旨在建立合適的詞語表示模型;目前,利用向量空間模型將詞語映射為語義空間中的向量,將詞語表示成計算機可操作的向量形式是詞匯語義表示的主要思路?;跇?gòu)建向量空間模型所采用的基本假設(shè)不同,詞匯語義表示方法可分為基于分布的表示方法和基于預(yù)測的表示方法。
2.1 基于分布的表示方法
燃油熱值與生物燃料中的氧含量具有線性關(guān)系,隨著含氧量的增加,熱值下降。十六烷值(CN值)是燃料自燃能力的無量綱指標,和燃油的著火延遲相關(guān)。高 CN值燃油在和空氣按比例充分混合前發(fā)生燃燒,導(dǎo)致不完全燃燒比例增加和碳煙排放量升高;CN值太低,發(fā)動機可能發(fā)生失火、溫度過高、暖機時間過長、不完全燃燒等現(xiàn)象。生物燃料一般具有較高的CN值,且隨著碳鏈長度的增加而增大,從C10:0增加到C18:0,CN值升高將近一倍,不飽和度的增加會降低燃料的CN值。粘度和表面張力也是燃油的關(guān)鍵參數(shù),對燃油噴射的初次和二次霧化有著重要影響,也影響到燃油顆粒直徑和噴射距離[12]。
基于分布的表示方法源自詞的分布假設(shè)(Distributional Hypothesis),即詞的上下文內(nèi)容相似,則詞匯本身的含義也相似[2],利用詞—上下文共現(xiàn)次數(shù)刻畫詞匯語義,因此也稱作基于計數(shù)的方法。由于詞的上下文體現(xiàn)了詞匯的使用方式,而不同語義的詞匯其使用方式是不同的,因此利用分布假設(shè)實現(xiàn)的詞匯表示間接反映了詞的語義。該方法包括三個步驟: 1)選擇合適的刻畫詞匯語義的空間分布矩陣; 2)依據(jù)不同的權(quán)重計算方法給矩陣賦值; 3)對矩陣進行降維。最終,降維后得到的矩陣即為詞匯語義表示矩陣,矩陣的每一行為詞的表示向量。
作為教師,可能都有一個體會:凡是在學(xué)習(xí)上有濃厚的興趣,求知欲強,積極主動參與教育教學(xué)活動的學(xué)生,他們的學(xué)習(xí)效率就高,成績也優(yōu)秀。這雖已成為廣大教師的共識,但學(xué)生學(xué)習(xí)興趣不濃的問題依然存在。解決這一老生常談的問題,作為一名初中語文教師,我是從以下幾方面去努力的:
利用反向傳播算法更新遞歸神經(jīng)網(wǎng)絡(luò)的參數(shù)時,假如輸入模型的時間序列過長,則會出現(xiàn)梯度消失問題(vanishing gradient problem)或梯度爆炸問題(exploding gradients problem)[21]。為了避免這些問題,學(xué)者提出一種新的遞歸神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)[22-23],與經(jīng)典的遞歸神經(jīng)網(wǎng)絡(luò)不同,該模型設(shè)置記憶單元(Memory cell),該記憶單元在輸入、輸出和自鏈接層上增加輸入門(Input gate)、輸出門(Output gate)和忽略門(Forget gate),用于篩選記憶單元中需要保存或過濾的信息,因此適合訓(xùn)練輸入較長時序的詞。利用該模型不僅可以得到詞匯的語義表示向量,還可以訓(xùn)練語句的表示[24]。
圖1 詞匯分布表示方式
雖然詞-上下文共現(xiàn)矩陣F中C?W,但當(dāng)面對大規(guī)模語料庫時,矩陣F不可避免的面臨高維稀疏問題。因而,在得到原始的語義空間矩陣后,需要對矩陣進行降維,以降低計算的復(fù)雜度。目前在詞語表示研究中主要應(yīng)用的降維方法包括主成分分析(Principle Component Analysis,PCA)[4]和獨立成分分析(Independent Component Analysis,ICA)[5]等。文獻[6]則改進傳統(tǒng)PCA利用歐式距離判斷降維矩陣和原矩陣相似度的方法,基于Hellinger距離對矩陣進行降維,由于Hellinger距離更適合度量離散數(shù)值,因此降維后的詞表示向量有更好的效果。
基于分布的詞匯語義表示方法以海量文本數(shù)據(jù)為基礎(chǔ),通過上下文分布的共現(xiàn)頻率描述詞匯的語義,利用該方法得到的詞匯語義表示向量在計算詞匯相似度上有較好的結(jié)果,但是利用上下文分布信息間接刻畫詞匯語義和詞匯的深層語義并不相同。因此,該方法得到的詞匯語義表示對類比推理等深層語義關(guān)系的發(fā)現(xiàn)并不理想。
2.2 基于預(yù)測的表示方法
傳統(tǒng)的基于多層神經(jīng)網(wǎng)絡(luò)計算詞表示向量,計算量較大,訓(xùn)練時間往往需要幾天甚至數(shù)周[14,25],因而在詞匯語義表示問題上,研究能夠較好表達詞匯語義的簡單模型成為近兩年的研究重點。
近年來,伴隨著深度學(xué)習(xí)技術(shù)發(fā)展[8-10],表示學(xué)習(xí)(Representation Learning)或非監(jiān)督的特征學(xué)習(xí)(Unsupervised Feature Learning)成為自然語言處理領(lǐng)域重要的研究方向[11]。在詞匯語義表示研究中,特征學(xué)習(xí)的目的是通過非監(jiān)督的方法從大規(guī)模語料庫中自動學(xué)習(xí)出詞匯的語義表示向量,進而以詞向量為特征應(yīng)用于自然語言處理的各類監(jiān)督學(xué)習(xí)任務(wù)中。因此,具有良好語義特征的詞匯表示向量是后續(xù)任務(wù)的重要基礎(chǔ)。目前,基于預(yù)測的詞匯語義表示方法,依據(jù)神經(jīng)網(wǎng)絡(luò)模型的不同,可以分為基于前向神經(jīng)網(wǎng)絡(luò)的方法、基于遞歸神經(jīng)網(wǎng)絡(luò)的方法和基于淺層神經(jīng)網(wǎng)絡(luò)的方法等。
我國具備地質(zhì)條件復(fù)雜的特征,不同地區(qū)之間的氣候環(huán)境差異比較突出,也正是因為這一特征導(dǎo)致我國水旱災(zāi)害的影響性比較高,對于我國的工業(yè)、農(nóng)業(yè)生產(chǎn)以及人民群眾的生命財產(chǎn)安全形成了嚴重的影響。水文情報預(yù)報技術(shù)屬于防汛抗旱的有效技術(shù)支撐,但是其需要借助大量且復(fù)雜的技術(shù)設(shè)備,隨著各種技術(shù)的不斷發(fā)展近些年水文情況預(yù)報技術(shù)水平得到了質(zhì)的飛躍,但是仍然存在一定的改進空間。對此,探討水文情況預(yù)報技術(shù)在防汛抗旱工作中的應(yīng)用與改進措施具備顯著現(xiàn)實意義。
2.2.1 基于前向神經(jīng)網(wǎng)絡(luò)的方法
基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞表示向量源自神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Model)[12]。語言模型的目的是為了訓(xùn)練語料庫中詞出現(xiàn)的聯(lián)合概率分布,以達到預(yù)測下一個出現(xiàn)的詞的目的。圖2為神經(jīng)網(wǎng)絡(luò)語言模型的結(jié)構(gòu)圖[12],其中Cwi為詞表示向量。
圖2 神經(jīng)網(wǎng)絡(luò)語言模型
在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)語言模型中,訓(xùn)練的目的是為了提高詞的聯(lián)合概率分布,但是由于利用反向傳播算法[13]可以更新詞匯表示向量。因此,在文獻[14]中,作者基于前向神經(jīng)網(wǎng)絡(luò)語言模型,先隨機初始化訓(xùn)練語料庫的詞向量表示,構(gòu)造詞典表示矩陣C∈RW*d,其中W為詞典中詞的個數(shù),d為詞向量的維度。模型定義滑動窗口nwin構(gòu)建模型的輸入向量s=(Cwt-n+1,Cwt-n+2,…,Cwt-1)。為了無監(jiān)督的訓(xùn)練語料庫中詞表示向量,假設(shè)在語料庫中套用滑動窗口產(chǎn)生的短句s為正例樣本,同時將滑動窗口中的某個詞隨機替換為詞典中的任一詞所產(chǎn)生的錯誤短句為負樣本。模型假設(shè)正例樣本的得分比負例樣本的得分高,例如,
fscore(我是中國人)>fscore(我大學(xué)中國人)
模型以式(1)所示的Hinge loss為目標函數(shù),該目標函數(shù)的目的是在正樣本和負樣本間構(gòu)造一個最大的分類邊界。
(1)
其中,S為訓(xùn)練語料庫中套用滑動窗口后長度為nwin的短句,W為詞典的集合,s為訓(xùn)練語料庫中的正例樣本,sw為負例樣本。
2.2.2 基于遞歸神經(jīng)網(wǎng)絡(luò)的方法
在骨盆修復(fù)儀中安裝有固定的氣囊,通過智能系統(tǒng)控制氣囊(如圖三),有節(jié)奏的加壓放松牽拉骨盆的擠壓,進而改善骨盆寬度。隨著氣囊加壓,將骨盆及大腿部兩側(cè)的肌肉向里擠壓,這時臀部自然而然的上升。氣囊加壓作用于人體,通過外力促進作用,模仿人手工的骨盆修復(fù)按摩,由外向里輕輕推壓,將骨盆修復(fù)到產(chǎn)婦生產(chǎn)前的狀態(tài)。確保修復(fù)的質(zhì)量與效果,滿足不同使用者的修復(fù)要求。
由于遞歸神經(jīng)網(wǎng)絡(luò)具有一定的時序性和記憶性,利用遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞語的語義表示向量符合語言的形式。如圖3所示,不同于前向神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)將語料庫中的每個詞,按順序逐個輸入模型中[15-16]。與前向神經(jīng)網(wǎng)絡(luò)類似,利用遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練語言模型[15,17-19]通過隨時間演化的反向傳播算法(Backpropagation Through Time,BPTT)[20]更新模型的參數(shù)和輸入詞向量,得到詞匯語義表示向量。
圖3 遞歸神經(jīng)網(wǎng)絡(luò)
最基本的語義空間矩陣類型為詞—上下文共現(xiàn)矩陣F∈RW×C,其中W為語料庫中詞庫的大小,C為詞上下文特征的大??;矩陣的每一行Fw是詞w的向量表示,矩陣的每一列Fc表示上下文詞語。在確定矩陣F的行、列屬性后,需要對F各行各列的fij賦值;其中最簡單的方法是給矩陣賦二元數(shù)值,即判斷詞wi的上下文窗口中是否出現(xiàn)詞cj,出現(xiàn)為1,不出現(xiàn)為0。另一種方式則如圖1所示,計算詞wi的上下文窗口中出現(xiàn)詞cj的次數(shù)作為fij的值[3]。目前,點互信息(Pointwise Mutual Information,PMI)[2]是計算詞—上下文共現(xiàn)矩陣值的常用方法,其基本思路是統(tǒng)計詞及其上下文詞在文本中同時出現(xiàn)的概率,如果概率越大,其相關(guān)性就越緊密,點互信息的值也就越大。
由此看來,肥料利用率、有機肥替代、減施增效等政策引導(dǎo),使高能耗的復(fù)合肥產(chǎn)業(yè)面臨轉(zhuǎn)型,其結(jié)果將導(dǎo)致復(fù)合肥進入產(chǎn)業(yè)調(diào)整和行業(yè)“洗牌”,使鉀肥等上游原料企業(yè)經(jīng)受考驗。
2.2.3 基于淺層神經(jīng)網(wǎng)絡(luò)的方法
基于預(yù)測的表示方法源自神經(jīng)網(wǎng)絡(luò)語言模型。語言模型的目的是在給定上文的情況下,預(yù)測下一個詞出現(xiàn)的概率。該方法基于人工神經(jīng)網(wǎng)絡(luò)的神經(jīng)元分布假設(shè)[7],將詞匯表示為一個低維實值向量,每一維看作詞的一個特征,這種詞語表示方法也稱作詞嵌入(Word Embeddings)。
(1) Word2vec模型
詞表示向量的類比推理能力是評價詞表示向量的另一個重要指標。在文獻[26]給出的測試數(shù)據(jù)集中,每一個測試數(shù)據(jù)由(a,b)與(c,d)兩組詞對組成,表示為a:b→c:d的形式,解釋為“a類比于b正如c類比于d”。為了驗證詞向量的類比能力,在給出a,b,c的情況下,以通過式(7)從訓(xùn)練的詞庫中準確找出詞d*的正確率作為判斷詞表示向量在類比問題上質(zhì)量的標準。文獻[37]進一步豐富原有測試數(shù)據(jù),公開了WordRep測試數(shù)據(jù)集,該數(shù)據(jù)集包含一千多萬條語義類比詞對和五千多萬條句法對比詞對,利用該數(shù)據(jù)集可以測試詞表示向量在類比推理問題上的泛化能力。
3)附屬工程系統(tǒng)龐大。綜合管廊內(nèi)設(shè)置通風(fēng)、燃氣、電力、排水等附屬工程系統(tǒng),由控制中心集中控制,實現(xiàn)全智能化運行。另外還有一部分屬于開放式走道,作為日常人行通道。
(2)
圖4 word2vec模型
Skip-gram模型的目標則是給定目標詞wi預(yù)測上下文的詞wc。Skip-gram模型也可分為三層,輸入層為目標詞的詞表示向量vwi,投影層為復(fù)制輸入層的詞表示向量vwi,輸出層則是給定目標詞預(yù)層上下文詞的概率。
(3)
文獻[28]則進一步證明基于負采樣方法訓(xùn)練Skip-gram模型得到的詞表示向量等價于利用Shifted PPMI構(gòu)建詞-上下文共現(xiàn)矩陣并對其SVD降維后得到的詞表示向量。這一發(fā)現(xiàn)說明兩類詞匯語義表示方法存在一定的聯(lián)系,也為解釋神經(jīng)網(wǎng)絡(luò)模型提供了思路。
(2) Log Bilinear模型
在計算匹配得分之后,模型以最大化式(6)為目標函數(shù),利用Noise-Contrastive Estimation(NCE)[31]算法更新模型的參數(shù)θ=(C,vw.qw),得到詞的表示向量。
(6)
若將式(6)進一步簡化,不設(shè)置位置權(quán)重矩陣Ci和偏移量b,而是對上下文矩陣求平均,則模型簡化為CBOW模型。
4.2 知識庫鏈接預(yù)測與關(guān)系挖掘
利用淺層神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞匯表示向量不僅極大提高了模型的訓(xùn)練速度,在語義表示能力上也得到了改進。這說明在詞匯表示問題上,深度學(xué)習(xí)模型并不是越復(fù)雜效果越好,直觀的想法,簡單的模型往往能取得很好的結(jié)果。但是,同其他神經(jīng)網(wǎng)絡(luò)模型一樣,由于模型僅利用局部上下文作為輸入,缺乏對全局統(tǒng)計信息的利用,依然有進一步改進的空間。
對詞匯語義表示方法的研究近年來涌現(xiàn)大量出色的研究成果,在此不一一列舉。本節(jié)列舉的這些工作體現(xiàn)了詞匯表示在語義表達能力上的發(fā)展,說明了其重要性和生命力。
因為語言本身具有模糊性和主觀性,對詞匯的解釋可以處于不同的立場和背景中,因而無法簡單的判斷詞匯語義表示好或不好。由于目前沒有一個標準數(shù)據(jù)集或評價指標能夠直接判斷詞匯語義表示的質(zhì)量,因而,通常從不同的角度間接檢驗詞匯表示向量語義表達的能力。常用的判斷詞語表示質(zhì)量的指標包括: 詞語相似度計算、詞類比推理能力評價以及將詞語表示向量應(yīng)用于具體問題所帶來的結(jié)果變化。
3.1 詞匯相似度計算
詞匯表示的質(zhì)量可以通過計算詞之間的相似程度來判斷,好的詞匯表示方法能夠反映詞的相似程度。目前,余弦相似度是判斷兩個詞語表示向量相似程度的基本方法,余弦夾角反映兩個詞的距離遠近。在計算訓(xùn)練得到的詞表示向量相似度之后,通過與人工標注的詞語相似度數(shù)據(jù)集進行比較,計算斯皮爾曼相關(guān)系數(shù)(Spearman’s rank correlation)[32],檢驗詞匯相似度計算的準確性。目前,廣泛使用的人工標注詞語相似度的數(shù)據(jù)集有: WordSimilarity-353[33]、MEN[34]、SimLex-999[35]和RW(Rare Word)[36]等。其中,WordSimilarity-353和SimLex-999是最常見的測試數(shù)據(jù)集,其主要標注了名詞、動詞和形容詞間的相似度,而SimLex-999嚴格依據(jù)詞匯的詞義相似程度標注分數(shù),而不是詞間的相關(guān)性。例如,(clothes(衣服)—closet(衣櫥)),在WordSimilarity-353中標記為8分,在SimLex-999中的評分為1.96。這也說明隨著詞匯語義表示研究的發(fā)展,詞匯表示模型逐漸能體現(xiàn)語義特征,對測試數(shù)據(jù)本身也提出了新的要求。
3.2 詞的類比推理
為了切實提高我院學(xué)生能力,本文根據(jù)我院物聯(lián)網(wǎng)工程專業(yè)教學(xué)現(xiàn)狀,從學(xué)生的實際情況出發(fā),結(jié)合CDIO教育理念,對《崗位技能實訓(xùn)》課程深入進行教學(xué)改革?!秿徫患寄軐嵱?xùn)》課程是我校物聯(lián)網(wǎng)工程專業(yè)的核心課程,在學(xué)生學(xué)習(xí)大部分課程之后的第七學(xué)期開設(shè),以提高學(xué)生綜合運用所學(xué)知識完成項目開發(fā)、培養(yǎng)學(xué)生之間的團隊協(xié)作能力為主要目的;同時為了使學(xué)生能夠從學(xué)校到工作有一個適應(yīng)轉(zhuǎn)變的過程,該課程不適宜采用偏重理論教學(xué)、以教師為中心的方式,應(yīng)該以學(xué)生為主體、盡可能地為學(xué)生創(chuàng)造一個項目開發(fā)訓(xùn)練環(huán)境,增加實踐環(huán)節(jié),使其能系統(tǒng)化地分析運用所學(xué)知識、與其她成員合作完成課程實訓(xùn)內(nèi)容。
Mikolov等人[26-27]提出的Word2vec模型由于其訓(xùn)練得到的詞向量有很好的語義特性得到廣泛的關(guān)注。如圖4所示,該模型包括連續(xù)詞袋模型(Continue Bag Of Words,CBOW)和Skip-gram模型兩種詞向量的訓(xùn)練方法。在Word2vec模型中,存在上下文詞表示矩陣MWc∈Rw*d和目標詞表示矩陣MWi∈Rw*d。
(7)
3.3 其他應(yīng)用指標
在前向神經(jīng)網(wǎng)絡(luò)語言模型中,模型需要定義一個固定的上下文窗口,該窗口大小確定了模型輸入或輸出的詞匯個數(shù);但是直觀上,語言是一種序列模型,語言本身具有一定延續(xù)性,因此需要一個能刻畫時序特征的模型表示語言的特性。
由于詞匯語義表示的目的是為了解決自然語言處理中的實際問題,因而可以將詞向量作為輸入,考察其對實際任務(wù)的影響,并依此評價詞匯表示的質(zhì)量。若通過詞向量對任務(wù)的結(jié)果有提升,則認為詞向量本身質(zhì)量較高,反之亦然。目前,主要考察的自然語言處理任務(wù)有[6,14,38-41]: 詞義消歧(Word Sense Disambiguation,WSD)、詞性標注(Part of Speech, POS)、命名實體識別(Name Entity Recognition,NER)、語義角色標注(Semantic Role Labeling, SRL)、分塊(Chunking)和完成語句(Sentence Completion)等。該方式可以看作一種半監(jiān)督的學(xué)習(xí)機制,先利用大規(guī)模語料庫無監(jiān)督的訓(xùn)練詞表示向量,進而將預(yù)訓(xùn)練得到的詞向量作為其他監(jiān)督學(xué)習(xí)問題的輸入,考察其對最終結(jié)果的影響,從而評價詞表示向量的質(zhì)量。
通過搭建各種測試場景進行牽引供電系統(tǒng)供電能力測試。測試前,對車輛負載特征進行分析,并聯(lián)合設(shè)計單位對牽引供電系統(tǒng)和車輛的負荷特性進行分析,包括對牽引供電系統(tǒng)的各種運行模式所對應(yīng)的負荷運行進行編排;重點對接觸網(wǎng)在不同運行方式(雙邊供電、單邊供電、大雙邊供電)下的供電能力進行檢驗,并記錄AW0(空載)、AW3(超載)等不同載荷列車的起動電流波形;同時觀察牽引供電設(shè)備(DC 1 500 V開關(guān)柜及保護、鋼軌電位限制裝置等)是否發(fā)生誤動作,以確保牽引供電系統(tǒng)的供電能力滿足標準及設(shè)計要求;復(fù)核設(shè)計單位關(guān)于運營過程中的負載狀態(tài),以確保線路安全運營。
詞語表示向量可以廣泛應(yīng)用于解決各類實際問題,除了可以應(yīng)用于3.3節(jié)中提到各類自然語言處理的任務(wù)中,基于詞表示向量本身所具有的語義表達能力,近兩年產(chǎn)生了新的應(yīng)用方向。
4.1 語義組合(Semantic Composition)
語義組合的目的是將簡單的詞語進行組合以表達復(fù)雜語句的語義,而整體語義可以看作是部分語義的組合函數(shù)。因此,語義組合是實現(xiàn)語義表示從詞匯級別向句子級別擴展的重要手段。語義組合函數(shù)定義如式(8)所示。[42]
p=f(u,v,R,K)
(8)
其中,u,v表示待組合部分,R表示u,v間的關(guān)系,K表示用于語義組合的其他上下文知識。其中最簡單的組合方式為線性組合[42],該方法定義基于加法p=u+v或乘法p=u·v的組合函數(shù)實現(xiàn)語義組合。但由于其無法體現(xiàn)詞語組合的順序,近年來基于遞歸自編碼(Recursive Auto-encoder)[43-44]和卷積神經(jīng)網(wǎng)絡(luò)[45-46]的非線性組合方法得到深入研究,并在同義語句判斷、情感分析等評價指標中取得很好的結(jié)果,是未來重要的研究方法。
通過競賽可以提高學(xué)生學(xué)習(xí)數(shù)學(xué)的信心。在競賽當(dāng)中,共同體成員可以互相合作,溝通交流,這有助于共同體的長久發(fā)展。對于在競賽中獲獎的教師團隊來說,能增強他們的職業(yè)幸福感與工作積極性。
知識庫(Knowledge Base)中包含大量實體和實體間關(guān)系信息,是實現(xiàn)智能問答、知識推理的重要基礎(chǔ),但是現(xiàn)有的知識庫遠不完整,如何豐富現(xiàn)有知識庫一直是學(xué)術(shù)界研究的熱點。由于詞向量具有較好的類比推理能力,因而有研究利用詞表示向量實現(xiàn)實體間的關(guān)系發(fā)現(xiàn)或鏈接預(yù)測,從而達到知識庫完善的目的[47-54]。利用詞匯語義表示實現(xiàn)知識庫鏈接預(yù)測與關(guān)系挖掘的基本思路是將實體表示為對應(yīng)的詞匯表示向量,將實體間的關(guān)系看作詞匯間的某種映射關(guān)系,并利用現(xiàn)有的知識庫訓(xùn)練實體間的關(guān)系映射形式,從而實現(xiàn)鏈接預(yù)測與關(guān)系抽取。基于詞匯語義表示向量的鏈接預(yù)測與關(guān)系抽取在自然語言和結(jié)構(gòu)化的知識數(shù)據(jù)中建立了聯(lián)系,從而可以不再依賴于人工參與而極大豐富現(xiàn)有的知識庫。
從語言學(xué)角度分析,語言基礎(chǔ)知識由語音、詞匯、語法這三大要素構(gòu)成。這三大要素貫穿于二語學(xué)習(xí)的整個過程之中。當(dāng)二語學(xué)習(xí)者在語言學(xué)習(xí)過程中受到母語的影響時也往往表現(xiàn)在以下方面:
4.3 機器翻譯
詞匯語義表示還可以應(yīng)用于機器翻譯中?;谏疃葘W(xué)習(xí)的機器翻譯模型[55-57]的基本思路是認為對于訓(xùn)練語料中的原始語言Ss和目標語言St,若兩種語言表達相同的意思則有相同的抽象特征表示,因而將輸入的原始語言詞序列編碼(encode)成其特征表示Rs,進而對Rs解碼(decode)為目標語言的詞語序列,若在訓(xùn)練過程中出現(xiàn)與目標語言詞St中詞序列不匹配的情況,則更新模型的參數(shù)和詞表示向量。以詞匯語義表示為基礎(chǔ),利用深度學(xué)習(xí)模型實現(xiàn)機器翻譯不僅提高了翻譯的準確性還減少了訓(xùn)練過程中的人工參與。
總體而言,針對詞匯語義表示的研究主要集中在兩方面: 1)提出新的模型,以提高詞匯語義表達能力; 2)針對實際應(yīng)用問題,在解決特定任務(wù)時構(gòu)建適合詞匯表示的新模型。除此之外,伴隨大數(shù)據(jù)時代的來臨,訓(xùn)練樣本呈現(xiàn)出海量多元異構(gòu)的特點,該領(lǐng)域發(fā)展還有一些新的變化趨勢。
首先,在利用海量文本數(shù)據(jù)非監(jiān)督的訓(xùn)練詞匯語義表示向量的基礎(chǔ)上,結(jié)合外部知識資源以提高詞匯語義表示質(zhì)量得到越來越多的關(guān)注[58-60];WordNet、Freebase等知識資源,包含了自然語言上下文中沒有的語義信息,因此用該方法訓(xùn)練得到的詞表示向量具有更豐富的語義。充分利用現(xiàn)有的知識數(shù)據(jù)源,將更多的語義信息作為模型的輸入,是未來進一步提高詞向量語義表達能力的重要手段。
其次,針對詞匯語義表示向量的訓(xùn)練不僅局限于文本數(shù)據(jù),而是結(jié)合圖像等數(shù)據(jù)源實現(xiàn)多模態(tài)(multi-modal)學(xué)習(xí),得到多模態(tài)的聯(lián)合特征表示,進而實現(xiàn)圖像識別、圖像的文本描述生成[61-65];雖然詞匯表示向量并不是模型的訓(xùn)練目標,但是通過該模型得到的詞表示向量因為融合了圖像的信息,能同時捕捉文本和圖像的語義信息。詞匯的語義表示已經(jīng)不僅局限在自然語言處理領(lǐng)域,它還和圖像處理、語音識別等領(lǐng)域結(jié)合,推動了其他應(yīng)用領(lǐng)域的發(fā)展。
此外,伴隨模型本身復(fù)雜度的提高,計算性能成為模型能否應(yīng)用于實際問題的關(guān)鍵。依賴于新的計算框架的提出和計算機自身的發(fā)展,目前在解決計算性能問題上主要有兩種思路: 1)利用Map-Reduce[66]框架,構(gòu)建大規(guī)模的分布式神經(jīng)網(wǎng)絡(luò)計算集群[67],提高模型的計算速度;2)利用GPU加速計算,由于深度學(xué)習(xí)屬于計算密集型模型,邏輯控制語句較少,利用GPU可以極大提高計算效率,已經(jīng)成為模型訓(xùn)練重要的技術(shù)手段[68-70]。
詞匯作為語言的基本單元,計算機能夠表示詞語、理解詞語含義是實現(xiàn)自然語言理解的重要基礎(chǔ)。詞語的表示可以歸結(jié)為兩大類: 基于分布的方法和基于預(yù)測的方法。基于分布的方法主要統(tǒng)計詞的上下文共現(xiàn)次數(shù),因而具有更好的統(tǒng)計意義和更快的訓(xùn)練速度,但是該方法得到的詞表示向量僅捕捉詞之間的相關(guān)性;而基于預(yù)測的方法主要基于神經(jīng)網(wǎng)絡(luò)語言模型,該方法適合于大規(guī)模語料庫,且得到的詞向量具有更好的類比、推理等能力;但是該方法訓(xùn)練時間相對較長且沒有很好利用詞的統(tǒng)計信息。本文介紹了該領(lǐng)域近幾年國際上最新的研究成果,綜述了詞匯語義表示訓(xùn)練的各類模型和方法,常用的評價標準以及最新的應(yīng)用方向和發(fā)展趨勢。
(1)滿載緊急制動減速:輸送機在緊急制動過程中各處的膠帶張力均應(yīng)大于零,嚴防膠帶松弛、撒煤或疊帶事故。F1= 484.15 kN,F(xiàn)2= 285.2 kN ,F(xiàn)3=156 kN;
詞表示方法雖然是傳統(tǒng)的研究領(lǐng)域,但是伴隨著新方法的引入又產(chǎn)生了新的活力。目前已經(jīng)取得了一定的成果,但仍面臨著很多的挑戰(zhàn)。
組織結(jié)構(gòu)電鏡觀察結(jié)果如圖3。新鮮克氏原螯蝦的肌肉組織結(jié)構(gòu)緊密,組織間間隙較小。液體冷卻介質(zhì)急凍克氏原螯蝦肌肉組織與新鮮克氏原螯蝦的肌肉組織結(jié)構(gòu)類似,組織間間隙較小。這表明,在液體冷卻介質(zhì)急凍克氏原螯蝦過程中,水在肌肉細胞組織中沒有形成具有破壞性的冰晶體。而常規(guī)冷凍克氏原螯蝦的肌肉組織間隙大,這是由于水在肌肉細胞組織中形成了具有破壞性的冰晶體造成的。
1) 盡管實驗顯示基于神經(jīng)網(wǎng)絡(luò)得到的詞表示向量比基于詞分布假設(shè)得到的詞表示向量要好[71],但是利用神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練詞表示向量的可解釋性有待進一步研究,這其中包括神經(jīng)網(wǎng)絡(luò)模型本身的可解釋性以及訓(xùn)練得到的詞表示向量的可解釋性。
2) 目前對詞匯語義表示質(zhì)量的評價是通過其在相似、類比等問題上的表現(xiàn)間接的進行評價,缺乏明確直接的檢驗詞表示語義的標準,詞表示向量的質(zhì)量評估是一個重要的研究方向。
3) 由于構(gòu)建詞表示向量的方法大多基于詞的上下文,因此詞匯語義表示更傾向于表達詞的相關(guān)性,而不是詞義的相似性,與真實的語義更不同,構(gòu)建能表達語義的詞表示模型是詞語表示研究的最終目的。
關(guān)于什么是語義,如何通過計算機表達語義,目前學(xué)術(shù)界沒有定論。基于向量空間的詞匯語義表示方法雖然是目前最有效的表達詞語特征的方式,但是依然有其局限性,能夠表達詞語語義的表示方法還需進一步的探索和研究。
[1] 孫茂松, 劉挺, 姬東鴻, 等. 語言計算的重要國際前沿 [J]. 中文信息學(xué)報, 2014, 28(1): 1-8.
[2] Turney P, Pantel P. From Frequency to Meaning?: Vector Space Models of Semantics [J]. Journal of Artificial Intelligence Research, 2010, 37: 141-188.
[3] Sahlgren M. The Word-Space Model: using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-dimensional vector spaces [D]. Stockholm University, 2006.
[4] Bishop C M. Pattern Recognition and Machine Learning [M]. 2006.
[5] Vayrynen J J, Honkela T. Word Category Maps based on Emergent Features Created by ICA [J]. Proceedings of the STeP, 2004, 19: 173-185.
[6] Lebret R, Collobert R. Word Embeddings through Hellinger PCA [C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. 2014: 482-490.
[7] Hintor G E, Mcclelland J L, Rumelhart D E. Distributed representations [J]. Parallel Distributed Processing: Explorations in the Microstructure of Cognition, 1986, 1: 77-109.
[8] Hinton G E, Salakhutdinov R R. Reducing the Dimensionality of Data with Neural Networks [J]. Science, 2006, 313: 504-507.
[9] Bengio Y. Learning deep architectures for AI [J]. Foundations and Trends in Machine Learning, 2009, 2(1): 1-127.
[10] Bengio Y. Deep Learning of Representations: Looking Forward [C]//Proceedings of the International Conference on Statistical Language and Speech Processing. 2013: 1-37.
[11] Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013, 35(8): 1798-1828.
[12] Bengio Y, Ducharme R, Vincent P,et al. A Neural Probabilistic Language Model [J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.
[13] Rojas R. The Backpropagation Algorithm [G]. Neural Networks - A Systematic Introduction, 1996.
[14] Collobert R, Weston J, Bottou L,et al. Natural Language Processing (almost) from Scratch [J]. Journal of Machine Learning Research, 2011(12): 2493-2537.
[15] Tomas M, Karafiat M, Burget L et al. Recurrent neural network based language model [C]//Proceedings of INTERSPEECH, 2010: 1045-1048.
[16] Sutskever I, Martens J, Hinton G. Generating Text with Recurrent Neural Networks [C]//Proceedings of the 28th International Conference on Machine Learning, 2011:1017-1024.
[17] Tomas M. Statistical Language Models based on Neural Networks [D]. Brno University of Technology, 2012.
[18] Yao K, Zweig G. Recurrent Neural Networks for Language Understanding [C]//Proceedings of INTERSPEECH, 2013: 2524-2528.
[19] Mikolov T, Kombrink S, Burget L,et al. Extensions of recurrent neural network language model [C]//Proceedings of ICASSP, 2011: 5528-5531.
[20] Boden M. A guide to recurrent neural networks and backpropagation [R]. 2002: 1-10.
[21] Bengio Y, Simard P, Frasconi P. Learning long-term dependencies with gradient descent is difficult [J]. Neural Networks, IEEE Transactions on, 1997, 5(2): 157-166.
[22] Hochreiter S, Schmidhuber J. Long short-term memory [J]. Neural computation, 1997, 9(8): 1735-1780.
[23] Graves Alex. Supervised Sequence Labelling with Recurrent Neural Networks [M]. 2012.
[24] Palangi H, Deng L, Shen Y等. Deep Sentence Embedding Using the Long Short Term Memory Network: Analysis and Application to Information Retrieval [J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(4): 694-707.
[25] Turian J, Ratinov L, Bengio Y. Word representations?: A simple and general method for semi-supervised learning [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 2010: 384-394.
[26] Mikolov T, Corrado G, Chen K,et al. Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of Workshop at ICLR, 2013.
[27] Mikolov T, Yin W, Zweig G. Linguistic regularities in continuous space word representations [C]//Proceedings of NAACL-HLT, 2013: 746-751.
[28] Omer L, Yoav G. Neural Word Embeddings as Implicit Matrix Factorization [C]//Proceedings of NIPS, 2014:2177-2185.
[29] Mnih A. A fast and simple algorithm for training neural probabilistic language models[C]//Proceedings of the 29th International Conference on Machine Learning. 2012.
[30] Mnih A, Kavukcuoglu K. Learning word embeddings efficiently with noise-contrastive estimation [C]//Proceedings of NIPS, 2013: 2265-2273.
[31] GUTMANN M U, HYV?RINEN A. Noise-contrastive Estimation of Unnormalized Statistical Models, with Applications to Natural Image Statistics[J]. J. Mach. Learn. Res., 2012, 13(1): 307-361.
[32] Spearman’s rank correlation coefficient[J]. Wikipedia, the free encyclopedia, .
[33] Finkelstein L, Gabrilovich E, Matias Y,et al. Placing Search in Context: The Concept Revisited [J]. ACM Trans. Inf. Syst., 2002, 20(1): 116-131.
[34] Bruni E, Boleda G, Baroni M,et al. Distributional Semantics in Technicolor [C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 2012: 136-145.
[35] Hill F, Reichart R, Korhonen A. SimLex-999: Evaluating Semantic Models with (Genuine) Similarity Estimation [R], 2014.
[36] Luong M, Manning C D. Better Word Representations with Recursive Neural Networks for Morphology [C]//Proceedings of CoNLL, 2013: 104-113.
[37] Gao B, Bian J, Liu T-Y. WordRep: A Benchmark for Research on Learning Word Representations[J]. arXiv:1407.1640 [cs], 2014.
[38] Collobert R, Weston J. A Unified Architecture for Natural Language Processing?: Deep Neural Networks with Multitask Learning[C]//Proceedings of the 25th International Conference on Machine Learning, 2008: 160-167.
[39] Erk K, Mccarthy D, Gaylord N. Measuring Word Meaning in Context [J]. Computational Linguistics, 2013, 39(3): 511-554.
[40] Jacob A, Dan K. How much do word embeddings encode about syntax [C]//Proceedings of ACL, 2014:822-827.
[41] Zweig G, Burges C. The Microsoft Research Sentence Completion Challenge [R]. MSR-TR-2011-129, 2011.
[42] Mitchell J, Lapata M. Composition in Distributional Models of Semantics [J]. Cognitive Science, 2010, 34(8): 1388-1429.
[43] Socher R, Huval B, Manning D,et al. Semantic Compositionality through Recursive Matrix-Vector Spaces[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2012: 1201-1211.
[44] Scoher R, Perelygin A, Wu Y,et al. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank [C]//Proceedings of EMNLP, 2013: 1631-1642.
[45] Kalchbrenner N, Grefenstette E, Blunsom P. A Convolutional Neural Network for Modelling Sentences [C]//Proceedings of ACL, 2014: 655-665.
[46] Wenpeng Y, Hinrich S. Convolutional Neural Network for Paraphrase Identification [C]//Proceedings of NAACL, 2015: 901-911.
[47] Bordes A, Weston J, Collobert R,et al. Learning Structured Embeddings of Knowledge Bases[C]//Proceedings of the Twenty-Fifth AAAI Conference on Artificial Intelligence, 2011:301-306.
[48] Bordes A, Usunier N, Garcia A,et al. Translating Embeddings for Modeling Multi-relational Data [C]//Proceedings of NIPS, 2013: 2787-2795.
[49] Weston J, Bordes A, Yakhnenko O,et al. Connecting Language and Knowledge Bases with Embedding Models for Relation Extraction[C]//Proceedings of EMNLP, 2013: 1366-1371.
[50] Jason W. Embeddings for KB and text epresentation, extraction and question answering [R]. 2014.
[51] Ruiji F, Jiang G, Bing Q. Learning Semantic Hierarchies via Word Embeddings [C]//Proceedings of ACL, 2014: 1199-1209.
[52] Bordes A, Globot X, Weston J et al. Joint learning of words and meaning representations for open-text semantic parsing [C]//Proceedings of the International Conference on Artificial Intelligence and Statistics. 2012.
[53] Wang Z, Zhang J, Feng J et al. Knowledge Graph Embedding by Translating on Hyperplanes[C]//Proceedings of the AAAI. 2014.
[54] Garcia A, Bordes A, Usunier N et al. Combining Two and Three-Way Embeddings Models for Link Prediction in Knowledge Bases [J]. Journal of Artificial Intelligence Research. 2016, 55: 715-742
[55] Cho K, Van M, Bahdanau D et al. On the Properties of Neural Machine Translation: Encoder-Decoder Approaches[J]. arXiv:1409.1259 [cs, stat], 2014.
[56] Sutskever I, Vinyals O, Le V. Sequence to Sequence Learning with Neural Networks [C]//Proceedings of NIPS, 2014:310-3112.
[57] Cho K, Van M, Gulcehre C et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation [C]//Proceedings of EMNLP, 2014: 1724--1734.
[58] Mo Y, Mark D. Improving Lexical Embeddings with Semantic Knowledge [C]//Proceedings of ACL, 2014: 545-550.
[59] Bain J, Gao B, LIU T-Y. Knowledge-Powered Deep Learning for Word Embedding[C]//Proceedings of ECML, 2014: 132-148.
[60] Omer L, Yoav G. Dependency-Based Word Embeddings [C]//Proceedings of ACL, 2014: 302-308.
[61] Bruni E, Baroni M. Multimodal Distributional Semantics [J]. Journal of Arti?cial Intelligence Research, 2014, 49: 1-47.
[62] Kiros R, Salakhutdinov R, Zemel R. Multimodal Neural Language Models[C]//Proceedings of ICML, 2014: 595-603.
[63] Kiros R, Salakhutdinov R, Zemel S. Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models [J]. TACL, 2015.
[64] Srivastava N, Salakhutdinov R. Multimodal Learning with Deep Boltzmann Machines [C]//Proceedings of NIPS, 2013.
[65] Vinyals O, Toshev A, Bengio S等. Show and Tell: A Neural Image Caption Generator[C]//Proceedings of CVPR, 2014: 3156-3164.
[66] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters [J]. Commun. ACM, 2008, 51(1): 107-113.
[67] Dean J, Corrado G, Monga R,et al. Large Scale Distributed Deep Networks[C]//Proceedings of NIPS. 2012: 1223-1231.
[68] Collobert R, Kavukcuoglu K, Farabet C. Torch7: A Matlab-like Environment for Machine Learning [C]//Proceedings of NIPS Workshop, 2011.
[69] Jia Y, Shelhamer E, Donahue J,et al. Caffe: Convolutional Architecture for Fast Feature Embedding[C]//Proceedings of ACM international conference on Multimedia, 2014.
[70] Bastien F, Lamblin P, Pascanu R,et al. Theano: new features and speed improvements[M]. 2012.
[71] Baroni M, Dinu G, Kruszewski G. Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors [C]//Proceedings of the 52nd ACL. 2014: 238-247.
A Review on Lexical Semantic Representation
YUAN Shuhan, XIANG Yang
(School of Electronics and Information Engineering, Tongji University, Shanghai 201804, China)
Constructing the words representation which could express the semantic features is the key problem of Natural Language Processing. In this paper, we first introduce the lexical semantic representation based on the distributional hypothesis and prediction model, and describe the evaluations methods of words representation. Then we review the new applications based on the semantic information of words representation. Finally, we discuss the development directions and exiting problems of lexical semantic representation.
words representation; semantic; distributional hypothesis; deep learning
袁書寒(1987—),博士研究生,主要研究領(lǐng)域為自然語言處理、深度學(xué)習(xí)。E?mail:4e66@tongji.edu.cn向陽(1962—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域為語義計算、云計算、管理信息系統(tǒng)。E?mail:shxiangyang@tongji.edu.cn
2015-06-03 定稿日期: 2015-08-31
國家重點基礎(chǔ)研究發(fā)展計劃(973計劃)(2014CB340404);上海市科委科研計劃項目(14511108002);國家自然科學(xué)基金(71171148,71571136);上海市科委基礎(chǔ)研究項目(16JC1403000)
1003-0077(2016)05-0001-08
TP391
A