來斯惟,徐立恒,陳玉博,劉 康,趙 軍
(中國科學(xué)院自動化研究所 模式識別國家重點(diǎn)實驗室,北京100190)
詞是“最小的能獨(dú)立運(yùn)用的語言單位”[1],由于中文具有大字符集連續(xù)書寫的特點(diǎn),如果不進(jìn)行分析,計算機(jī)則無法得知中文詞的確切邊界,從而很難理解文本中所包含的語義信息。因此,中文分詞是自然語言處理中的一個關(guān)鍵的基礎(chǔ)技術(shù),是其他中文應(yīng)用,例如,命名實體識別、句法分析、語義分析等的前期文本處理關(guān)鍵環(huán)節(jié),其性能的優(yōu)劣對于中文信息處理尤為重要。
傳統(tǒng)對于中文分詞的研究比較豐富,例如,最大正向匹配、最大逆向匹配、雙向匹配等基于詞典的匹配方法。然而,由于語言的復(fù)雜性,中文文本中存在大量的詞邊界歧義與未登錄詞(OOV)。僅僅是基于詞典的匹配方法無法有效地解決以上兩個中文分詞中的關(guān)鍵難點(diǎn)問題。所以越來越多的方法關(guān)注基于字的中文分詞?;谧值闹形姆衷~方法基本假設(shè)是一個詞語內(nèi)部文本高內(nèi)聚,而詞語邊界與外部文字低耦合。每一個詞都可以通過其所在的上下文特征進(jìn)行表示,通過統(tǒng)計模型可以很好的判別當(dāng)前字在構(gòu)詞過程中的作用(詞的開始、中間、結(jié)束或是單字詞)。通過大量實驗表明這種基于字的中文分詞方法要明顯優(yōu)于基于詞典匹配的分詞方法。然而,基于字標(biāo)注的分詞方法的問題在于:傳統(tǒng)的字表示特征,無論是一元特征(Unigram)或是二元特征(Bigram),都很難有效表示目標(biāo)字,使得統(tǒng)計模型不能有效地理解每個字的含義。另外,所有的特征表示都是基于詞袋子模型,然而這樣表示模型有兩個較為明顯的缺點(diǎn):1)語義鴻溝問題。通過詞袋子模型,我們沒法直接知道“麥克風(fēng)”和“話筒”描述的是同樣的事物。2)低頻詞的問題。在使用詞袋子特征訓(xùn)練模型時,低頻詞由于出現(xiàn)次數(shù)較少,往往只被訓(xùn)練的極少的次數(shù),容易造成訓(xùn)練不足,也非常有可能過擬合。因此如何對于中文文本中每個字進(jìn)行建模,并自動的抽取字的表示特征是基于字表示的分詞方法中的一個難點(diǎn)問題。
然而,近些年隨著深度學(xué)習(xí)(Deep Learning)的興起,特征表示學(xué)習(xí)(Feature Representation Learning)逐步成為機(jī)器學(xué)習(xí)的一個新興分支。深度學(xué)習(xí)是利用深層神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)出數(shù)據(jù)的一種表示。自2006年Hinton[2]提出深度學(xué)習(xí)后,該方法在語音、圖像領(lǐng)域均取得了驚人的成果。已有工作表明,隨著網(wǎng)絡(luò)層數(shù)的加深,深度學(xué)習(xí)算法可以學(xué)習(xí)出越來越抽象的數(shù)據(jù)表示。在這種特征的基礎(chǔ)上進(jìn)一步地進(jìn)行模型的學(xué)習(xí),可以顯著地提高分類的性能。在自然語言處理任務(wù)中,深度學(xué)習(xí)也已經(jīng)廣泛地應(yīng)用于命名實體識別(NER)、詞性標(biāo)注(POS Tagging)、情感分類(Sentiment Classification)等任務(wù),并有一定優(yōu)勢。然而在中文分詞任務(wù)中,還未見針對深度學(xué)習(xí)的應(yīng)用研究成果。因此本文試圖將深度學(xué)習(xí)應(yīng)用于中文分詞任務(wù),來探討其是否可以有效地提高分詞的性能。
具體地,我們利用基于詞的稠密向量表示方法[3],將一個字用n維實數(shù)向量來描述。同時采用SENNA[4]在海量無標(biāo)注數(shù)據(jù)來無監(jiān)督的訓(xùn)練每個字的稠密特征表示向量,并以此作為特征,應(yīng)用于分詞算法中。經(jīng)過多組實驗比對,我們的方法的效果相對于人工設(shè)計特征的最大熵算法有一定的競爭力。
文本章節(jié)安排具體如下:第2節(jié)介紹了分詞及詞的表示學(xué)習(xí)的相關(guān)工作;第3節(jié)介紹了基于字表示的分詞算法框架;第4節(jié)介紹一種在大規(guī)模語料上無監(jiān)督學(xué)習(xí)出字的稠密表示的方法;第5節(jié)為實驗及分析;最后對本文工作進(jìn)行了總結(jié),并指出將來工作的方向。
傳統(tǒng)分詞方法依賴詞典匹配,并通過貪心算法截取可能的最大長度詞進(jìn)行有限的歧義消除。常用的貪心策略有正向最大匹配法、逆向最大匹配法和雙向匹配等。然而,基于詞典方法存在兩個明顯的缺陷,即不能很好地處理詞邊界歧義和未登錄詞(OOV)。為了解決中文分詞的這兩個關(guān)鍵問題,許多研究工作集中到了基于字標(biāo)注的機(jī)器學(xué)習(xí)中文分詞方法。
基于字的中文分詞方法基本假設(shè)是一個詞語內(nèi)部文本高內(nèi)聚,而詞語邊界與外部文字低耦合。通過統(tǒng)計機(jī)器學(xué)習(xí)方法學(xué)習(xí)判斷詞界是當(dāng)前中文分詞的主流做法?,F(xiàn)有工作大多使用序列標(biāo)注模型執(zhí)行BMES標(biāo)注。Xue等人提出了基于HMM模型的字標(biāo)注中文分詞方法[5]。劉群等提出一種基于層疊隱馬模型的漢語詞法分析方法[6]。該方法引入角色HMM識別未登錄詞,使用Viterbi算法標(biāo)注出全局最優(yōu)的角色序列。同時,該方法還提出了一種基于N-最短路徑的策略進(jìn)行切分排歧。Wang等人使用基于字分類的CRF模型進(jìn)行中文詞法分析[7]。對基于字標(biāo)注中文分詞方法的改進(jìn)包括引入更多的標(biāo)簽和設(shè)計更多高效的特征[8-9]、聯(lián)合使用產(chǎn)生式模型和判別式模型以融合兩者的優(yōu)點(diǎn)[10]以及將無監(jiān)督方法中使用的特征引入有監(jiān)督方法中[11]等。然而,傳統(tǒng)統(tǒng)計機(jī)器學(xué)習(xí)方法往往依賴于人工設(shè)計的特征,而一個特征是否有效需要多次嘗試與選擇。因此人工設(shè)計一系列好的特征既費(fèi)時又費(fèi)力。
近年來,隨著深度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法的突破[2],基于神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)方法得到了蓬勃的發(fā)展。在自然語言處理領(lǐng)域,表示學(xué)習(xí)的目標(biāo)是要將最小的語義單位表示成一個n維向量,向量中的每一維表示某種隱含(latent)的句法或語義信息。Collobert等人在2011年發(fā)布了首個基于表示學(xué)習(xí)的多任務(wù)學(xué)習(xí)系統(tǒng)SENNA[4]。它將詞性標(biāo)注、命名實體識別、句法分析和語義角色標(biāo)注任務(wù)融合于一個框架,運(yùn)用神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)序列標(biāo)注模型,進(jìn)行自動的特征學(xué)習(xí),從而避免了繁瑣的人工特征設(shè)計過程。此后,基于深度神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)方法被應(yīng)用于句法分析[12]、復(fù)述檢測[13]、語義分析[14]以及情感分類任務(wù)[15],并取得了巨大的成功。在不需要人工參與設(shè)計有效特征的情況下,表示學(xué)習(xí)方法相比于傳統(tǒng)有監(jiān)督模型取得了等價于或更好的成績。
中文分詞的訓(xùn)練語料中,英文與數(shù)字的出現(xiàn)次數(shù)較少(甚至有可能26個英文字母中有的字母未在訓(xùn)練集中出現(xiàn)過)。為了簡化處理流程,本文使用了一個簡單的數(shù)據(jù)預(yù)處理步驟,將所有的連續(xù)數(shù)字字符替換成一個專用的數(shù)字標(biāo)記“NUMBER”,將所有連續(xù)的英文字母替換成一個專用的英文單詞標(biāo)記“WORD”。如訓(xùn)練語料“中國/教育/與/科研/計算機(jī)網(wǎng)/(/CERNET/)/已/連接/了/200/多/所/大學(xué)”經(jīng)過預(yù)處理步驟將會變成“中國/教育/與/科研/計算 機(jī) 網(wǎng)/(/WORD/)/已/連 接/了/NUMBER/多/所/大學(xué)”。其中NUMBER和 WORD在訓(xùn)練時都當(dāng)作一個字符來考慮。
圖1 算法基本結(jié)構(gòu)圖
這種方法在一定程度上丟失了部分語義信息,會對分詞精度產(chǎn)生負(fù)面的影響。但是在訓(xùn)練語料不充分的情況下,該預(yù)處理可以簡化后續(xù)步驟,將實驗重心放在處理漢字詞語上。
借鑒Bengio等人[3]的思想,本文將每個漢字用一個n維實數(shù)向量來表示(后文簡稱字向量)。字向量初始化為一個隨機(jī)的小實數(shù)值,在訓(xùn)練過程中,每個字的字向量會進(jìn)行更新,最后根據(jù)訓(xùn)練目標(biāo)的不同,字向量之間的相似度也會有所不同。具體可見第4節(jié)實驗部分。
與其他基于字的分詞方法相似,本文也采用BMES體系對漢字進(jìn)行標(biāo)注。對于單字詞,其標(biāo)簽為S;對于多字詞,詞中的第一個漢字標(biāo)簽為B,最后一個漢字標(biāo)簽為E,中間字的標(biāo)簽為M。對訓(xùn)練數(shù)據(jù)的每個字進(jìn)行標(biāo)注后,本文采用一種3層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對每個字進(jìn)行訓(xùn)練,其結(jié)構(gòu)如圖1所示。
對于句子中的每個字的標(biāo)簽分類任務(wù),本文選取上下文以及當(dāng)前字,共w個字作為特征。其中上文和下文均為(w-1)/2個字。圖中最下方為這w個字的原始文本,經(jīng)過第一層,將每個字轉(zhuǎn)換成其字向量表示υi,并把w個字連接成一個wn維的向量υ。該wn維的向量是神經(jīng)網(wǎng)絡(luò)的輸入層。隱藏層h的設(shè)計與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)一致,輸入層的wn個節(jié)點(diǎn)與隱藏層的H 個節(jié)點(diǎn)之間兩兩均有邊連接。隱藏層選用tanh函數(shù)作為激活函數(shù)。輸出層一共有4個節(jié)點(diǎn),使用softmax[16]歸一化后,分別表示這個字被打上B、M、E、S標(biāo)簽的概率。
網(wǎng)絡(luò)結(jié)構(gòu)可以形式化的表示為:
其中U為輸入層到隱藏層的權(quán)重,V為隱藏層到輸出層的權(quán)重。這兩層均可理解為簡單的矩陣相乘。最后使用softmax函數(shù)可以將輸出o轉(zhuǎn)換成標(biāo)簽概率p。
網(wǎng)絡(luò)的訓(xùn)練目標(biāo)使用傳統(tǒng)的最大似然估計法,即求出一組參數(shù)θ,并最大化:
其中參數(shù)θ包含各個字的字向量υ以及兩個網(wǎng)絡(luò)中的參數(shù)矩陣U和V。訓(xùn)練中這里使用了樸素的隨機(jī)梯度下降法。
在有監(jiān)督的學(xué)習(xí)中,往往會遇到低頻字訓(xùn)練不充分的問題。無論在傳統(tǒng)的淺層模型(如最大熵、CRF)中,還是第3節(jié)描述的以神經(jīng)網(wǎng)絡(luò)為框架的模型中,低頻字只會在極少量的樣本中出現(xiàn)。因此,如果引入一個更大的語料,從這個語料中學(xué)習(xí)出各個字更豐富的信息,并加入有監(jiān)督學(xué)習(xí)中,將有可能極大地提高有監(jiān)督學(xué)習(xí)的訓(xùn)練效果。
字表示的無監(jiān)督訓(xùn)練Collobert等人[4]和 Mnih等人[17]均提出過。Joseph[18]對這兩種方法進(jìn)行了更公平的比較,結(jié)果表明,Collobert的方法略勝一籌。在中文中,尚未看到類似的比較,因此本文直接使用Collobert的方法訓(xùn)練字向量。
在無監(jiān)督字表示訓(xùn)練中,我們?nèi)匀皇褂萌鐖D1所示的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。不同之處在于,最后一層只輸出一個得分,而并不輸出4個標(biāo)簽的概率。該得分的含義為這個連續(xù)的字序列是否是一個正常的詞序列。所謂的正常序列,是相對隨機(jī)序列而言的。語料中真實存在的序列均認(rèn)為是正常序列,而一個隨機(jī)從字典中選取若干個字生成的序列,則認(rèn)為是非正常序列。
由于這個想法與語言模型非常相似,因此在文獻(xiàn)[4]中也被稱作語言模型。實際上,Collobert的方法與傳統(tǒng)的語言模型略有差別。傳統(tǒng)意義上,語言模型是給定了前若干個字/詞,預(yù)測下一個字/詞。而在這種方法中,并不需要預(yù)測下一個字,只需知道一個序列是否是正常序列。在無監(jiān)督訓(xùn)練階段,我們希望一個正常的序列可以得到高分,而一個非正常的序列,我們希望它的分?jǐn)?shù)更小。
在實際操作中,正樣本可以直接從語料中選取得到,而負(fù)樣本則需要構(gòu)造。如果負(fù)樣本直接從字典中選取若干個隨機(jī)字符,則容易生成完全沒有可讀性的字符串。這些字符串會離分類面非常的遠(yuǎn),這會造成一些略有“語病”的句子,被分類成正常的句子。為了解決這個問題,使得負(fù)樣本更接近真實的分界面,本文的負(fù)樣本由一個真實的序列隨機(jī)替換一個字得到。類似的方法在文獻(xiàn)[4]和文獻(xiàn)[18]中提出過。文獻(xiàn)[4]替換了一個序列中最中間的詞,而文獻(xiàn)[18]替換了一個序列中最后的詞,取得的效果類似。本文在實驗中替換的是中間字。
記x為一組正常的字序列,則fθ(x)表示網(wǎng)絡(luò)的輸出。每個負(fù)樣本記作xw,表示一個正常的序列x中將中間的字替換為w。同樣地,負(fù)樣本的輸出為fθ(xw)。
無監(jiān)督訓(xùn)練階段,這里使用成對訓(xùn)練的方法,即最小化如下目標(biāo):
式中,X為從語料集中選取出了所有連續(xù)的w個字,D表示字典。
與監(jiān)督學(xué)習(xí)階段相同,這里也采用隨機(jī)梯度下降法進(jìn)行訓(xùn)練,最后只使用其詞向量部分。
通過無監(jiān)督訓(xùn)練得到的字表示通常有兩種用法。一、作為神經(jīng)網(wǎng)絡(luò)模型的初始值。二、加入到現(xiàn)有的淺層模型中,如最大熵模型。
文獻(xiàn)[4]將無監(jiān)督學(xué)習(xí)得到的詞向量作為有監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)中的初始值,大幅度提高了其有監(jiān)督學(xué)習(xí)的訓(xùn)練效果。這一思想與音頻、圖像領(lǐng)域在深度學(xué)習(xí)中,對深層神經(jīng)網(wǎng)絡(luò)的初始值使用受限玻爾茲曼機(jī)進(jìn)行無監(jiān)督的初始化非常類似。由于神經(jīng)網(wǎng)絡(luò)是一個非凸優(yōu)化的問題,局部極值點(diǎn)非常的多,好的初始值可以使其最后收斂到一個更好的解,同時也能在一定程度上抑制訓(xùn)練的過擬合。
本節(jié)無監(jiān)督訓(xùn)練得到的字向量同樣可以直接作為第3節(jié)中字向量的初始值用于訓(xùn)練。對于網(wǎng)絡(luò)結(jié)構(gòu)中的U、V矩陣,仍然使用隨機(jī)的初始值。
文獻(xiàn)[18]在英語中使用詞向量作為擴(kuò)展特征,提升了命名實體識別(NER)和語塊分析(Chunking)的效果。其方法較為直接,在最大熵做序列標(biāo)注問題時,直接將周圍共w個詞的詞向量直接加入改詞特征向量中。
在第5節(jié)的實驗中,我們同時嘗試了以上兩種思路。
實驗中,我們以最大熵模型作為基準(zhǔn),嘗試了本文描述的若干種方法,并進(jìn)行比較。
在實驗中,我們需要確定w的大小,即認(rèn)為上下文窗口中共w個字會對當(dāng)前字的標(biāo)簽產(chǎn)生主要影響。文獻(xiàn)[19]中通過大量實驗表明窗口5個字可以覆蓋真實文本中99%以上的情況。因此本文也取w為5,即使用上文兩個字、下文兩個字與當(dāng)前字。
從訓(xùn)練時間和小規(guī)模測試的結(jié)果考慮,本文所有實驗字向量的維度均為50。
在有監(jiān)督學(xué)習(xí)部分,本文使用的語料為Sighan 2005bakeoff的分詞語料。選取其中北京大學(xué)標(biāo)注的數(shù)據(jù)用于訓(xùn)練、驗證和測試。
原始語料只包含了訓(xùn)練集與測試集,在實驗前,我們將原始語料的訓(xùn)練集前90%當(dāng)作我們自己的訓(xùn)練集,最后10%當(dāng)作開發(fā)集。測試集保持不變。最后訓(xùn)練集共有1626187個字,驗證集包含了160898個字,測試集有168973字。
在非監(jiān)督實驗中,我們使用了兩個語料,第一個語料(實驗中稱“小語料”)直接采用了北京大學(xué)標(biāo)注的數(shù)據(jù)中的訓(xùn)練集,共179萬字。第二個語料(實驗中稱“大語料”)在第一個語料的基礎(chǔ)上,加入了搜狗新聞?wù)Z料的精簡版,其中涉及教育、文化、軍事等一共10個類型的新聞?wù)Z料。刪除其中有亂碼的句子后,最后得到的語料一共有2723萬字。
非監(jiān)督訓(xùn)練中,需要確定一個字典,字典從大語料中出現(xiàn)的1萬多個字中,選取出現(xiàn)次數(shù)大于等于5次的所有字。剩下的字全都使用“unknown”特殊標(biāo)記替代。一共5449字。
實驗中,所有的最大熵模型均使用liblinear工具包計算。而神經(jīng)網(wǎng)絡(luò)實驗由自己編寫的代碼完成,在訓(xùn)練集上訓(xùn)練,當(dāng)開發(fā)集準(zhǔn)確率達(dá)到最大值時,停止訓(xùn)練,取該模型用于測試。
基準(zhǔn)實驗使用分詞中較為常用的最大熵模型,特征選用一元及二元特征。
對于字ck,其特征向量具體包括:
· 一元特征ci,其中i為{k-2,k-1,k,k+1,k+2},如果ci超出了句子的邊界,則使用一個特殊的符號“padding”來代替。
以上所有特征的權(quán)重均為1。
基準(zhǔn)實驗一共有兩個,第一個實驗只使用了上述的一元特征,在后文中稱作“最大熵一元特征”;第二個實驗同時使用了一元特征和二元特征,在后文中稱作“最大熵二元特征”。
以上兩個基準(zhǔn)實驗均使用最大熵算法進(jìn)行訓(xùn)練和測試。對字標(biāo)簽進(jìn)行預(yù)測后,使用viterbi算法搜索最優(yōu)路徑。
為了展示神經(jīng)網(wǎng)絡(luò)模型以及字表示對于實驗的影響,本文設(shè)計了多組對比實驗。
(1)監(jiān)督網(wǎng)絡(luò)。使用第3節(jié)中所述的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行監(jiān)督分詞,其初始值選用均勻分布的隨機(jī)數(shù)。
(2)監(jiān)督網(wǎng)絡(luò)+小語料字向量。在上一個實驗的基礎(chǔ)上,使用第4章描述的方法在179萬字的小語料上訓(xùn)練得到的字向量作為初始值,訓(xùn)練分詞網(wǎng)絡(luò)。
(3)監(jiān)督網(wǎng)絡(luò)+大語料字向量。字向量使用2723萬字的大語料訓(xùn)練得到,其余同上一個實驗。
(4)大語料字向量最大熵。使用大語料訓(xùn)練生成的字向量作為特征,使用最大熵算法訓(xùn)練字標(biāo)注器。在實驗中,本文設(shè)定窗口大小為5,字向量的維度為50,因此每個字均有250個特征,各特征的權(quán)重對應(yīng)窗口中每個字字向量的各維分量。
(5)隨機(jī)字向量最大熵。將每個字的字向量替換成50個隨機(jī)數(shù),重復(fù)上一個實驗。
(6)最大熵二元特征+字向量。使用大語料訓(xùn)練生成的字向量作為額外特征加入到“最大熵二元特征”實驗中。即每個字的特征為一元特征、二元特征以及250個字向量特征。
實驗結(jié)果如表1所示。
表1中列舉了本文所做的一共8組實驗。其中#1和#2為上一節(jié)中描述的兩個基準(zhǔn)實驗。#3到 #8依次為上一節(jié)中描述的各個實驗。
#1和 #2為傳統(tǒng)的最大熵分詞方法得到的結(jié)果,與前人論文得到的結(jié)果相同,使用最大熵模型配合二元特征可以取得非常好的效果,該方法在Sighan 2005的評測中,可以排到第三名。
表1 實驗結(jié)果
#3和 #6相比,有巨大的優(yōu)勢,這里主要有兩點(diǎn)原因:第一,當(dāng)特征數(shù)較少時,非線性的神經(jīng)網(wǎng)絡(luò)相比線性的最大熵模型有優(yōu)勢(與之相對的,如果特征數(shù)很多時,如 #2中使用的二元特征,非線性模型無論是訓(xùn)練時間還是測試時間都會非常長);第二,神經(jīng)網(wǎng)絡(luò)模型在反向傳播時,可以修改詞向量,這相比直接把詞向量作為輸入特征的最大熵模型更為靈活。
#3、#4、#5的比較中可以看出,無監(jiān)督訓(xùn)練得到的字向量在作為有監(jiān)督訓(xùn)練初始值時,可以顯著地提升有監(jiān)督學(xué)習(xí)的效果。其中 #4雖然采用了無監(jiān)督的數(shù)據(jù)進(jìn)行訓(xùn)練,但實際上訓(xùn)練數(shù)據(jù)來自北京大學(xué)標(biāo)注語料,因此可以看作是封閉訓(xùn)練的結(jié)果。#5只能看作開放訓(xùn)練的結(jié)果。
#2和 #8中可以看出,將字向量作為附加特征輔助最大熵模型,效果幾乎沒有提升(只在小數(shù)點(diǎn)后第4位略有提升)。
#6和 #7的對比實驗。值得注意的是,即使使用隨機(jī)數(shù)來描述一個字,也可以取得超過純猜測的效果(不到0.25的準(zhǔn)確率)
字向量除了通過在有監(jiān)督學(xué)習(xí)中看出其效果之外,可以直接通過字之間的相似度,看出其效果。表2展示了有監(jiān)督學(xué)習(xí)得到的字向量,以及不同大小語料無監(jiān)督學(xué)習(xí)得到的字向量的比較。這里選取了“一”、“李”、“江”、“急”這4個字。從對比中,可以很明顯的看出,無監(jiān)督方式學(xué)習(xí)得到的相似字,與原字在深層語義上更為相關(guān)。而且語料越大,這個效果越明顯。
表2 各字向量得到的“一”、“李”、“江”、“急”的最相似的字
事實上,神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時對初始值及各個參數(shù)是十分敏感的,包括隨機(jī)梯度下降法中使用的學(xué)習(xí)速率,都會對結(jié)果造成影響。本實驗中借鑒了文獻(xiàn)[20]的方法,使用固定的學(xué)習(xí)速率,各層的學(xué)習(xí)速率與該層輸入節(jié)點(diǎn)數(shù)的平方根成反比??赡軗Q用其他的參數(shù),可以獲得更好的訓(xùn)練效果,甚至超過最大熵模型的效果。但是由于時間有限,本文并不能嘗試各種不同的優(yōu)化方案。同樣地,對于無監(jiān)督階段,如果采用更大的語料,更充分的訓(xùn)練,也應(yīng)當(dāng)能取得更顯著的效果。
本文得出如下結(jié)論:字向量的表示是一種較好的特征,使用字向量配合神經(jīng)網(wǎng)絡(luò)實現(xiàn)的分詞,相比一元特征有較大的優(yōu)勢。但是這種方法目前還不能取代人工設(shè)計特征,即使是簡單的二元特征。隨著數(shù)據(jù)量的增大,無監(jiān)督學(xué)習(xí)得到的字向量也會越來越實用,相信使用更豐富的無監(jiān)督訓(xùn)練語料,可以得到更有用的字向量。
本文探索了一種基于表示學(xué)習(xí)的中文分詞方法。我們首先在大規(guī)模中文語料中學(xué)習(xí)字的語義向量表示,然后將學(xué)得的語義向量應(yīng)用于有監(jiān)督的中文分詞。實驗表明,表示學(xué)習(xí)是一種有效的中文分詞方法,并在該領(lǐng)域展現(xiàn)出一定的潛力。然而我們發(fā)現(xiàn),它尚不能取代傳統(tǒng)基于人工設(shè)計特征的有監(jiān)督機(jī)器學(xué)習(xí)方法。對表示學(xué)習(xí)方法的改進(jìn)包括修改神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、修改網(wǎng)絡(luò)的目標(biāo)函數(shù)和使用更好的優(yōu)化算法等。相信通過不斷的改進(jìn),表示學(xué)習(xí)算法可以成為一種較實用的中文分詞方法。
[1]漢語信息處理詞匯01部分:基本術(shù)語(GB12200.1-90)6[S],中國標(biāo)準(zhǔn)出版社,1991。
[2]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[3]Bengio Y,Schwenk H,Senécal J S,et al.Neural probabilistic language models[M].Innovations in Machine Learning.Springer Berlin Heidelberg,2006:137-186.
[4]Collobert R,Weston J,Bottou L,et al.Natural language processing(almost)from scratch[J].The Journal of Machine Learning Research,2011,12:2493-2537.
[5]Xue N.Chinese word segmentation as character tagging[J].Computational Linguistics and Chinese Language Processing,2003,8(1):29-48.
[6]劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機(jī)研究與發(fā)展,2004,41(8):1421-1429.
[7]Peng F,F(xiàn)eng F,McCallum A.Chinese segmentation and new word detection using conditional random fields[C]//Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics,2004:562.
[8]Tang B,Wang X,Wang X.Chinese Word Segmentation Based on Large Margin Methods[J].Int.J.of A-sian Lang.Proc.,2009,19(2):55-68.
[9]Zhao H,Huang C N,Li M,et al.Effective tag set selection in Chinese word segmentation via conditional random field modeling[C]//Proceedings of PACLIC.2006,20:87-94.
[10]Wang K,Zong C,Su K Y.A character-based joint model for Chinese word segmentation[C]//Proceedings of the 23rd International Conference on Computational Linguistics.Association for Computational Linguistics,2010:1173-1181.
[11]Zhao H,Kit C.Integrating unsupervised and supervised word segmentation:The role of goodness measures[J].Information Sciences,2011,181(1):163-183.
[12]Socher R,Lin C C,Ng A,et al.Parsing natural scenes and natural language with recursive neural networks[C]//Proceedings of the 28th International Conference on Machine Learning (ICML-11).2011:129-136.
[13]Socher R,Huang E H,Pennin J,et al.Dynamic pooling and unfolding recursive autoencoders for paraphrase detection[C]//Proceedings of Advances in Neural Information Processing Systems.2011:801-809.
[14]Bordes A,Glorot X,Weston J,et al.Joint learning of words and meaning representations for open-text semantic parsing[C]//Proceedings of International Conference on Artificial Intelligence and Statistics.2012:127-135.
[15]Socher R,Pennington J,Huang E H,et al.Semi-supervised recursive autoencoders for predicting sentiment distributions[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:151-161.
[16]Bridle J S.Probabilistic interpretation of feedforward classification network outputs,with relationships to statistical pattern recognition[M].Neurocomputing.Springer Berlin Heidelberg,1990:227-236.
[17]Mnih A,Hinton G E.A scalable hierarchical distributed language model[C]//Proceedings of Advances in neural information processing systems.2008:1081-1088.
[18]Turian J,Ratinov L,Bengio Y.Word representations:a simple and general method for semi-supervised learning[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Association for Computational Linguistics,2010:384-394.
[19]黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報,2007,21(3):8-19.
[20]Plaut D C,Hinton G E.Learning sets of filters using back-propagation[J].Computer Speech &Language,1987,2(1):35-61.