王 聞 慧
(戰(zhàn)略支援部隊(duì)信息工程大學(xué)洛陽(yáng)校區(qū) 河南 洛陽(yáng) 471003)
名詞短語(yǔ)識(shí)別是自然語(yǔ)言處理(Natural Language Processing,NLP)的基礎(chǔ)性任務(wù)之一,是近年來(lái)研究者持續(xù)關(guān)注的重要研究課題。名詞短語(yǔ)是組成句子基本的語(yǔ)言單元,是文本信息的重要攜帶者,同時(shí)也是各類短語(yǔ)中數(shù)量最多、構(gòu)成復(fù)雜度最高、識(shí)別困難最大的一類。作為高于詞而低于句子層面的中間結(jié)構(gòu),短語(yǔ)在表達(dá)上含有比詞更明確且穩(wěn)定的意義,而在結(jié)構(gòu)構(gòu)成上遠(yuǎn)不如句子復(fù)雜多變。因此,名詞短語(yǔ)識(shí)別不僅為進(jìn)一步實(shí)現(xiàn)句法分析奠定基礎(chǔ),也可為自然語(yǔ)言處理更高層次的應(yīng)用性任務(wù)如機(jī)器翻譯、信息檢索、自動(dòng)文摘等提供有力支持。在越南語(yǔ)自然語(yǔ)言處理任務(wù)中,名詞短語(yǔ)識(shí)別同樣起著基礎(chǔ)性作用。
在越南語(yǔ)名詞短語(yǔ)識(shí)別任務(wù)中,主要面臨以下三個(gè)難題:(1) 除了相互嵌套,越南語(yǔ)名詞短語(yǔ)還存在定語(yǔ)后置的現(xiàn)象,因而相對(duì)于漢語(yǔ)名詞短語(yǔ),越南語(yǔ)名詞短語(yǔ)內(nèi)部結(jié)構(gòu)更為復(fù)雜;(2) 同漢語(yǔ)一樣,越南語(yǔ)缺乏形態(tài)標(biāo)記,動(dòng)詞短語(yǔ)作定語(yǔ)與動(dòng)詞短語(yǔ)作謂語(yǔ)的情況在形式表達(dá)上完全一樣,造成對(duì)越南語(yǔ)名詞短語(yǔ)識(shí)別時(shí)存在很大的歧義消解難題;(3) 越南語(yǔ)名詞短語(yǔ)繁多,未登錄越南語(yǔ)名詞短語(yǔ)在測(cè)試語(yǔ)料中占比非常高,對(duì)未登錄越南語(yǔ)名詞短語(yǔ)的識(shí)別是越南語(yǔ)名詞短語(yǔ)識(shí)別面臨的根本性問(wèn)題。
針對(duì)上述問(wèn)題,本文采取了融入越南語(yǔ)名詞短語(yǔ)邊界信息的解決思路。通過(guò)將越南語(yǔ)名詞短語(yǔ)邊界信息向量化,并將其融入深度學(xué)習(xí)模型中,在一定程度上解決了越南語(yǔ)名詞短語(yǔ)內(nèi)部構(gòu)成復(fù)雜、缺乏形態(tài)標(biāo)記、未登錄詞占比高的識(shí)別難題。
目前,越南語(yǔ)名詞短語(yǔ)識(shí)別的相關(guān)研究還比較薄弱,無(wú)論是越南國(guó)內(nèi)學(xué)者還是國(guó)際學(xué)者,對(duì)越南語(yǔ)名詞短語(yǔ)識(shí)別的研究成果還比較少。文獻(xiàn)[1]針對(duì)越南語(yǔ)標(biāo)注語(yǔ)料缺失的問(wèn)題,采用先簡(jiǎn)單規(guī)則過(guò)濾,后進(jìn)行人工校對(duì)的方法對(duì)9 000個(gè)句子進(jìn)行了名詞短語(yǔ)標(biāo)注,并分別用隨機(jī)條件場(chǎng)(Conditional Random Fields,CRFs)、支持向量機(jī)(Support Vector Machine,SVM)、Online Passive-Aggressive Learning等判別模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果顯示,在這三種模型中CRFs效果最好。文獻(xiàn)[2]在越南語(yǔ)樹庫(kù)上依據(jù)樹深度重新定義了越南語(yǔ)名詞短語(yǔ),并將詞性特征、詞匯正字法特征融入到CRF模型中,實(shí)驗(yàn)結(jié)果顯示詞性特征、詞匯正字法特征能夠有效提升越南語(yǔ)名詞短語(yǔ)的識(shí)別效果。文獻(xiàn)[3]針對(duì)越南語(yǔ)組塊識(shí)別任務(wù),將越南語(yǔ)名詞組塊的詞性組合特征作為約束條件,并將其融入到CRF模型中,取得了較好的識(shí)別效果。
在漢語(yǔ)名詞短語(yǔ)識(shí)別方面,近年來(lái)的研究較為豐富,主要方法有早期的基于規(guī)則的識(shí)別方法,之后的傳統(tǒng)統(tǒng)計(jì)方法與近年興起的深度學(xué)習(xí)識(shí)別方法。規(guī)則方法方面,主要是通過(guò)語(yǔ)言學(xué)家對(duì)名詞短語(yǔ)內(nèi)部結(jié)構(gòu)特征、邊界規(guī)律特征的總結(jié)[4],依據(jù)詞性組合序列[5]、詞類信息[6]、句法結(jié)構(gòu)信息[7]和語(yǔ)義關(guān)系[8]等制定相應(yīng)規(guī)則進(jìn)行識(shí)別研究。盡管基于規(guī)則的識(shí)別方法對(duì)語(yǔ)言特征的利用程度最高,但語(yǔ)言現(xiàn)象的復(fù)雜性難以用規(guī)則窮盡,規(guī)則的增多同樣帶來(lái)時(shí)空復(fù)雜度的上升。隨著統(tǒng)計(jì)模型的出現(xiàn),短語(yǔ)識(shí)別方法也向統(tǒng)計(jì)以及統(tǒng)計(jì)與規(guī)則相結(jié)合的方法轉(zhuǎn)變。例如采用SVM[9]、最大熵模型[10]、CRF[11]以及混合模型[12-13]的識(shí)別方法,結(jié)果表明單靠詞性和詞匯本身信息在識(shí)別效果上具有一定的局限性。文獻(xiàn)[14]在以往研究的基礎(chǔ)上提出了最長(zhǎng)名詞短語(yǔ)的定義,對(duì)其內(nèi)部結(jié)構(gòu)以及外部分布特征進(jìn)行了分析研究,并由此提出一種基于歸約的漢語(yǔ)最長(zhǎng)名詞短語(yǔ)識(shí)別方法。文獻(xiàn)[15]提出一種融合了神經(jīng)網(wǎng)絡(luò)、傳統(tǒng)統(tǒng)計(jì)模型與規(guī)則的名詞短語(yǔ)識(shí)別方法,得到了89%的準(zhǔn)確率。
綜合而言,目前對(duì)越南語(yǔ)名詞短語(yǔ)的識(shí)別研究還不夠,主要存在三點(diǎn)不足:(1) 對(duì)越南語(yǔ)名詞短語(yǔ)的界定和描述較為模糊;(2) 僅采用傳統(tǒng)統(tǒng)計(jì)模型來(lái)進(jìn)行識(shí)別,沒有將深度學(xué)習(xí)模型應(yīng)用到越南語(yǔ)名詞短語(yǔ)識(shí)別任務(wù)中;(3) 僅采用了詞形特征、正字法特征與詞性特征來(lái)進(jìn)行識(shí)別,而對(duì)越南語(yǔ)名詞短語(yǔ)語(yǔ)言學(xué)規(guī)律的挖掘和應(yīng)用還不足。
針對(duì)上述三點(diǎn)不足,本文首先明確對(duì)越南語(yǔ)名詞短語(yǔ)的界定。在此基礎(chǔ)上,對(duì)語(yǔ)料庫(kù)中越南語(yǔ)名詞短語(yǔ)的邊界規(guī)律進(jìn)行統(tǒng)計(jì)調(diào)查,并提出了兩種將越南語(yǔ)名詞短語(yǔ)邊界信息向量化的方法。通過(guò)將向量化的邊界信息融入Bi-LSTM+CRF模型,提升了模型對(duì)越南語(yǔ)名詞短語(yǔ)的識(shí)別效果,一定程度上彌補(bǔ)了研究空白。
本文從定語(yǔ)類型上去除介詞短語(yǔ)、句子作定語(yǔ)的部分,只考慮除這兩類以外的其他類型成分作定語(yǔ)的情況。一是由于介詞短語(yǔ)結(jié)構(gòu)固定,通常表示為“介詞+其他類型短語(yǔ)”,因此在識(shí)別名詞短語(yǔ)的基礎(chǔ)上再對(duì)其后介詞短語(yǔ)進(jìn)行識(shí)別的方法更為有效。二是句子作定語(yǔ)的情況涉及到的不再是短語(yǔ)層面的識(shí)別問(wèn)題,而關(guān)系到更高層面的句法分析。
通過(guò)對(duì)語(yǔ)料庫(kù)(約含越南語(yǔ)名詞短語(yǔ)30 000個(gè))中越南語(yǔ)名詞短語(yǔ)的鄰接詞與鄰接詞性進(jìn)行統(tǒng)計(jì),可以得到越南語(yǔ)名詞短語(yǔ)的邊界規(guī)律。對(duì)頻數(shù)排名前十的越南語(yǔ)名詞短語(yǔ)左鄰接詞的統(tǒng)計(jì)結(jié)果如表1所示。表中第一列是越南語(yǔ)名詞短語(yǔ)左鄰接詞詞形,第二列是該詞占語(yǔ)料庫(kù)中全部越南語(yǔ)名詞短語(yǔ)左鄰接詞的比率,第三列為累計(jì)占比。對(duì)頻數(shù)排名前十的越南語(yǔ)名詞短語(yǔ)右鄰接詞的相應(yīng)統(tǒng)計(jì)結(jié)果如表2所示。
表1 越南語(yǔ)名詞短語(yǔ)左鄰接詞詞形統(tǒng)計(jì)結(jié)果
在表1中,“NULL”表示該越南語(yǔ)名詞短語(yǔ)為句子開頭,其不具有左鄰接詞。從表1中可以看到,越南語(yǔ)名詞短語(yǔ)左鄰接詞分布較為集中,排名頻數(shù)前五的左鄰接詞占到了越南語(yǔ)名詞短語(yǔ)全部左鄰接詞的34.55%,排名前十的則占到了50.28%。從表2中可以看到,越南語(yǔ)名詞短語(yǔ)右鄰接詞規(guī)律性非常明顯,排名頻數(shù)前五的右鄰接詞占到了越南語(yǔ)名詞短語(yǔ)全部右鄰接詞的46.95%,排名前十的則占到了56.91%。
表2 越南語(yǔ)名詞短語(yǔ)右鄰接詞詞形統(tǒng)計(jì)結(jié)果
此外,本文還對(duì)越南語(yǔ)名詞短語(yǔ)左右鄰接詞性進(jìn)行了統(tǒng)計(jì),由于詞性是對(duì)詞的一種歸類,對(duì)越南語(yǔ)名詞短語(yǔ)左右鄰接詞性的統(tǒng)計(jì)能進(jìn)一步說(shuō)明越南語(yǔ)名詞短語(yǔ)的邊界規(guī)律。對(duì)頻數(shù)排名前五的越南語(yǔ)名詞短語(yǔ)左右鄰接詞性的統(tǒng)計(jì)結(jié)果分別如表3、表4所示。
表3 越南語(yǔ)名詞短語(yǔ)左鄰接詞詞性統(tǒng)計(jì)結(jié)果
在表3中,“NULL”表示該越南語(yǔ)名詞短語(yǔ)為句子開頭,其不具有左鄰接詞性。從表3中可以看出,越南語(yǔ)名詞短語(yǔ)的左鄰接詞性主要集中在介詞、動(dòng)詞、標(biāo)點(diǎn)和連詞上,排名前五的左鄰接詞性就占全部越南語(yǔ)名詞短語(yǔ)左鄰接詞性的89.93%。從表4中可以看出,越南語(yǔ)名詞短語(yǔ)的右鄰接詞性較左鄰接詞性更為集中,排名前五的右鄰接詞性就占全部越南語(yǔ)名詞短語(yǔ)右鄰接詞性的94.79%。
表4 越南語(yǔ)名詞短語(yǔ)右鄰接詞詞性統(tǒng)計(jì)結(jié)果
綜上,越南語(yǔ)名詞短語(yǔ)的鄰接詞與鄰接詞性規(guī)律性非常明顯,該邊界信息是對(duì)越南語(yǔ)名詞短語(yǔ)進(jìn)行識(shí)別的重要依據(jù),在越南語(yǔ)名詞短語(yǔ)識(shí)別中充分挖掘和利用這種邊界信息能夠促進(jìn)對(duì)越南語(yǔ)名詞短語(yǔ)的識(shí)別效果。
本節(jié)采用Google在2013年開發(fā)的Word2Vector模型預(yù)訓(xùn)練獲取越南語(yǔ)詞向量,并使用Python的Gensim開源工具包作為Word2Vector模型的代碼實(shí)現(xiàn)。詞向量訓(xùn)練語(yǔ)料方面,本文選用了越南語(yǔ)維基語(yǔ)料。
Word2Vector是神經(jīng)概率語(yǔ)言模型(Neural Probabilistic Language Model)的一種實(shí)現(xiàn),其中包含了CBOW與Skip-gram兩種模型,如圖1所示。
圖1 Word2Vector 模型
Word2Vector可以在構(gòu)建神經(jīng)概率語(yǔ)言模型的同時(shí)得到每個(gè)詞所對(duì)應(yīng)的詞向量。其中:CBOW模型是通過(guò)上下文來(lái)預(yù)測(cè)當(dāng)前詞;而Skip-gram模型則是通過(guò)當(dāng)前詞來(lái)預(yù)測(cè)上下文。在CBOW模型中,模型的訓(xùn)練目標(biāo)就是最大化如下對(duì)數(shù)似然函數(shù):
(1)
式中:C表示訓(xùn)練文本中的所有詞集合;Context(w)表示詞w在文本中的上下文。而在Skip-gram模型中,則將Context(w)與w的因果關(guān)系進(jìn)行了轉(zhuǎn)換。
來(lái)斯惟[16]在2016年研究表明:當(dāng)用于訓(xùn)練詞向量的語(yǔ)料規(guī)模達(dá)到百兆級(jí)時(shí),CBOW模型要好于Skip-gram模型。因此,本文采用越南語(yǔ)維基語(yǔ)料作為訓(xùn)練詞向量的語(yǔ)料規(guī)模,其達(dá)到了百兆級(jí),采取CBOW模型來(lái)訓(xùn)練得到詞向量。
本文采用Bi-LSTM+CRF模型作為越南語(yǔ)名詞短語(yǔ)識(shí)別模型,模型整體架構(gòu)如圖2所示。
圖2 Bi-LSTM+CRF模型
作為循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種變體,雙向長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)(Bidirectional Long-Short-Term Memory,Bi-LSTM)通過(guò)增加門限機(jī)制,在一定程度上緩解了RNN存在的梯度彌散和梯度爆炸問(wèn)題。由圖2可以看出,Bi-LSTM利用了正向和反向兩個(gè)序列方向上的信息,從而能夠更好地將上下文信息融入到模型中,因此在處理序列標(biāo)注任務(wù)時(shí)表現(xiàn)優(yōu)異。
但Bi-LSTM存在沒有考慮輸出值間轉(zhuǎn)移概率的問(wèn)題,因而在設(shè)計(jì)上存在先天缺陷。為此,通過(guò)在Bi-LSTM上增加CRF層,可以將輸出值間的轉(zhuǎn)移概率納入到模型中,從而解決上述問(wèn)題。本文通過(guò)TensorFlow平臺(tái)搭建Bi-LSTM+CRF模型,完成模型的代碼實(shí)現(xiàn)。
從2.2節(jié)中可知,與越南語(yǔ)名詞短語(yǔ)鄰接的詞具有某種程度的規(guī)律性,這對(duì)越南語(yǔ)名詞短語(yǔ)本身的邊界確定具有重要價(jià)值。在深度學(xué)習(xí)學(xué)習(xí)框架下,如何將該邊界信息融入神經(jīng)網(wǎng)絡(luò)對(duì)越南語(yǔ)名詞短語(yǔ)的識(shí)別具有很大的意義。通過(guò)對(duì)越南語(yǔ)名詞短語(yǔ)的邊界信息向量化,本文對(duì)深度學(xué)習(xí)模型提出了兩種優(yōu)化方法:(1) 將每個(gè)詞向量與預(yù)訓(xùn)練所得的NP(名詞短語(yǔ),Noun Phrase)向量的相似度融入了模型,即邊界相似度向量(Border Similarity Vector,BS Vector);(2) 將每個(gè)詞向量與預(yù)訓(xùn)練所得的每一個(gè)標(biāo)簽類別向量的相似度融入了模型,即標(biāo)簽相似度向量(Label Similarity Vector,LS Vector)。
3.3.1融入BSVector的Bi-LSTM+CRF模型
本文采取預(yù)訓(xùn)練的方式獲取NP向量。通過(guò)將訓(xùn)練集中標(biāo)注的越南語(yǔ)名詞短語(yǔ)全部替換為“N-P”,并將替換后的訓(xùn)練集融合到越南語(yǔ)詞向量訓(xùn)練集中進(jìn)行訓(xùn)練,從而在同一個(gè)向量空間內(nèi)獲得了越南語(yǔ)詞向量與NP向量。這種方式可以將越南語(yǔ)名詞短語(yǔ)的內(nèi)部結(jié)構(gòu)隱去,而將名詞短語(yǔ)的邊界信息突顯出來(lái)。
在一個(gè)向量空間內(nèi),計(jì)算測(cè)試語(yǔ)料中每個(gè)詞與NP向量的歐式距離,可以獲得該詞與NP向量的相似度,本文將其稱之為BS Vector,該向量只有一維。由于在訓(xùn)練NP向量時(shí)隱去了名詞短語(yǔ)的內(nèi)部結(jié)構(gòu),從而在訓(xùn)練中可以將整個(gè)名詞短語(yǔ)的上下文信息(即邊界信息)體現(xiàn)在NP向量中,而每個(gè)詞與NP向量的相似度就能一定程度上體現(xiàn)該詞與名詞短語(yǔ)的鄰接信息,從而實(shí)現(xiàn)將名詞短語(yǔ)的邊界信息向量化。對(duì)每一個(gè)詞而言,其BS Vector的計(jì)算表示如下:
(2)
式中:VBS表示BS Vector,wk表示當(dāng)前詞的詞向量的第k維;NPk表示NP向量的第k維;n表示詞向量與NP向量的維度。在本文中,詞向量與NP向量的維度都為50維,n為50。
將測(cè)試語(yǔ)料中每個(gè)詞的詞向量與其相應(yīng)的BS Vector前后連接形成Bi-LSTM+CRF模型的輸入層。在融入BS Vector條件下,Bi-LSTM+CRF模型的輸入層如圖3所示。
圖3 融入BS Vector的輸入層
3.3.2融入LSVector的Bi-LSTM+CRF模型
除了將整個(gè)越南語(yǔ)名詞短語(yǔ)替換為“N-P”,從而訓(xùn)練得到NP向量,還可以將訓(xùn)練語(yǔ)料中整個(gè)越南語(yǔ)名詞短語(yǔ)內(nèi)部的各個(gè)組成詞分別替換為其對(duì)應(yīng)的標(biāo)簽“B-NP”或者“I-NP”,將非越南語(yǔ)名詞短語(yǔ)組成成分的其他詞替換為“O”,從而獲得與訓(xùn)練集相對(duì)應(yīng)的標(biāo)簽語(yǔ)料。將該標(biāo)簽語(yǔ)料與訓(xùn)練越南語(yǔ)詞向量的語(yǔ)料合并進(jìn)行訓(xùn)練,可以在同一個(gè)向量空間得到預(yù)訓(xùn)練的越南語(yǔ)詞向量與各個(gè)標(biāo)簽向量。
在同一個(gè)向量空間內(nèi),通過(guò)計(jì)算測(cè)試語(yǔ)料中每個(gè)詞與各個(gè)標(biāo)簽向量的歐式距離,可以獲得該詞與三個(gè)標(biāo)簽向量的相似度,由這三個(gè)相似度可以組成一個(gè)向量,本文將其稱之為L(zhǎng)S Vector,該向量有三維。三個(gè)不同的標(biāo)簽從本質(zhì)上是對(duì)語(yǔ)料中每個(gè)詞匯所對(duì)應(yīng)類別的一種劃分,可以一定程度上體現(xiàn)名詞短語(yǔ)的邊界信息。由于將訓(xùn)練語(yǔ)料中的每個(gè)詞替換為其對(duì)應(yīng)的標(biāo)簽,從而可以將體現(xiàn)越南語(yǔ)名詞短語(yǔ)邊界規(guī)律的三個(gè)標(biāo)簽的信息融入到每個(gè)標(biāo)簽向量中。而每個(gè)詞與這三個(gè)體現(xiàn)越南語(yǔ)名詞短語(yǔ)邊界信息的標(biāo)簽向量的相似度就能一定程度上體現(xiàn)該詞與越南語(yǔ)名詞短語(yǔ)的鄰接信息,進(jìn)而實(shí)現(xiàn)將越南語(yǔ)名詞短語(yǔ)的邊界規(guī)律向量化。LS Vector的計(jì)算表示如下:
(3)
式中:VLS表示LS Vector;wk表示當(dāng)前詞的詞向量的第k維;L1k表示“B-NP”標(biāo)簽向量的第k維;L2k表示“I-NP”標(biāo)簽向量的第k維;L3k表示“O”標(biāo)簽向量的第k維;n表示詞向量與標(biāo)簽向量的維度。在本文中,詞向量與標(biāo)簽向量的維度都為50維,n為50。
通過(guò)將測(cè)試語(yǔ)料中每個(gè)詞的詞向量與其對(duì)應(yīng)的LS Vector前后連接,形成融合了名詞短語(yǔ)邊界信息的聯(lián)合向量作為Bi-LSTM+CRF模型的輸入層。在融入LS Vector的條件下,Bi-LSTM+CRF模型的輸入層如圖4所示。
圖4 融入LS Vector的輸入層
越南語(yǔ)名詞短語(yǔ)標(biāo)注語(yǔ)料匱乏,即使在公開評(píng)測(cè)任務(wù)越南語(yǔ)及語(yǔ)音處理會(huì)議(Vietnamese Language and Speech Processing,VLSP)中,也只有越南語(yǔ)組塊標(biāo)注語(yǔ)料。為此,本文選用維基百科語(yǔ)料來(lái)進(jìn)行越南語(yǔ)名詞短語(yǔ)人工標(biāo)注和校對(duì),最終形成越南語(yǔ)名詞短語(yǔ)標(biāo)注語(yǔ)料的總詞數(shù)為201 417個(gè)。本文將該語(yǔ)料按照3∶1的比例劃分為訓(xùn)練集與測(cè)試集,現(xiàn)就語(yǔ)料的情況介紹如下:語(yǔ)料中共有越南語(yǔ)名詞短語(yǔ)29 189個(gè),其中訓(xùn)練語(yǔ)料中含有名詞短語(yǔ)21 699個(gè),測(cè)試語(yǔ)料中含有名詞短語(yǔ)7 490個(gè),其中測(cè)試語(yǔ)料中有5 792個(gè)名詞短語(yǔ)屬于未在訓(xùn)練語(yǔ)料中出現(xiàn)過(guò)的未登錄越南語(yǔ)名詞短語(yǔ)。在測(cè)試語(yǔ)料中,去除重復(fù)的越南語(yǔ)名詞短語(yǔ),共有名詞短語(yǔ)類型6 272種,其中有5 318種名詞短語(yǔ)類型屬于未登錄越南語(yǔ)名詞短語(yǔ)。從這些數(shù)據(jù)中可以看出,未登錄越南語(yǔ)名詞短語(yǔ)在語(yǔ)料中占比非常高。
本文采用了IOB2標(biāo)注集,對(duì)越南語(yǔ)名詞短語(yǔ)的起始詞標(biāo)注為“B-NP”,對(duì)越南語(yǔ)名詞短語(yǔ)的非起始詞標(biāo)注為“I-NP”,對(duì)非越南語(yǔ)名詞短語(yǔ)組成的其他詞標(biāo)注為“O”。
本文采用的評(píng)價(jià)指標(biāo)及相應(yīng)計(jì)算公式如表5所示。
表5 評(píng)價(jià)指標(biāo)
在表5中,準(zhǔn)確率P是指標(biāo)注準(zhǔn)確率,即在所有標(biāo)簽中標(biāo)注正確的比率;越南語(yǔ)名詞短語(yǔ)識(shí)別準(zhǔn)確率PNP是指對(duì)越南語(yǔ)名詞短語(yǔ)整體的識(shí)別準(zhǔn)確率,只有對(duì)整個(gè)越南語(yǔ)名詞短語(yǔ)內(nèi)的所有組成詞識(shí)別正確才算對(duì)該名詞短語(yǔ)識(shí)別正確;越南語(yǔ)名詞短語(yǔ)識(shí)別召回率RNP是對(duì)越南語(yǔ)名詞短語(yǔ)整體識(shí)別的召回率;越南語(yǔ)名詞短語(yǔ)識(shí)別F-value則綜合評(píng)價(jià)對(duì)越南語(yǔ)名詞短語(yǔ)整體的識(shí)別效果;越南語(yǔ)名詞短語(yǔ)識(shí)別類別召回率RT則排除了對(duì)某一名詞短語(yǔ)的反復(fù)識(shí)別成功而造成的識(shí)別效果虛高的情況,從越南語(yǔ)名詞短語(yǔ)類別的角度真實(shí)反映對(duì)越南語(yǔ)名詞短語(yǔ)的識(shí)別情況;未登錄越南語(yǔ)名詞短語(yǔ)識(shí)別召回率RUK則用來(lái)評(píng)價(jià)模型對(duì)未登錄詞的識(shí)別效果,是評(píng)價(jià)模型泛化能力的重要指標(biāo),由于對(duì)越南語(yǔ)名詞短語(yǔ)的識(shí)別的難點(diǎn)和關(guān)鍵點(diǎn)都在于對(duì)未登錄詞的識(shí)別,該指標(biāo)也是反映模型識(shí)別效果的重要指標(biāo);未登錄越南語(yǔ)名詞短語(yǔ)類別識(shí)別召回率RUKT則排除了對(duì)同一未登錄越南語(yǔ)名詞短語(yǔ)的反復(fù)識(shí)別造成的RUK虛高的情況,從類別的角度評(píng)價(jià)模型對(duì)未登錄越南語(yǔ)名詞短語(yǔ)的識(shí)別效果,該指標(biāo)同樣也是評(píng)價(jià)模型泛化能力的重要指標(biāo)。
本文使用Bi-LSTM+CRF模型作為識(shí)別模型,采用預(yù)訓(xùn)練的詞向量作為其輸入,并以此識(shí)別結(jié)果作為本文的基線標(biāo)準(zhǔn)。在此基礎(chǔ)上,本文分別將BS Vector與LS Vector融入到模型輸入層中,通過(guò)將實(shí)驗(yàn)結(jié)果與基線標(biāo)準(zhǔn)進(jìn)行對(duì)比,驗(yàn)證本文提出的兩種將越南語(yǔ)名詞短語(yǔ)邊界信息融入深度學(xué)習(xí)框架的有效性。
模型在各實(shí)驗(yàn)條件下對(duì)越南語(yǔ)名詞短語(yǔ)的識(shí)別效果如表6所示。
表6 實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)
從表6可以看出,在只有詞向量作為模型輸入的情況下,模型對(duì)越南語(yǔ)名詞短語(yǔ)的識(shí)別效果較好,其中F-value達(dá)到了0.816 9,RUK達(dá)到了72.76%,RUKT達(dá)到了73.49%。在測(cè)試語(yǔ)料中未登錄越南語(yǔ)名詞短語(yǔ)占比達(dá)77.33%的情況下,這樣的識(shí)別效果證明了Bi-LSTM+CRF模型的泛化能力。
本文針對(duì)越南語(yǔ)名詞短語(yǔ)識(shí)別任務(wù),通過(guò)對(duì)語(yǔ)料中越南語(yǔ)名詞短語(yǔ)的鄰接詞與鄰接詞性進(jìn)行統(tǒng)計(jì),揭示了越南語(yǔ)名詞短語(yǔ)的邊界規(guī)律,該邊界信息對(duì)越南語(yǔ)名詞短語(yǔ)的識(shí)別具有重大價(jià)值。本文提出了兩種將越南語(yǔ)名詞短語(yǔ)的邊界信息融入深度學(xué)習(xí)模型中的方法:(1) 通過(guò)計(jì)算每個(gè)詞與預(yù)訓(xùn)練NP向量的相似度得到BS Vector;(2) 計(jì)算每個(gè)詞與預(yù)訓(xùn)練所得的每一個(gè)標(biāo)簽類別向量的相似度得到LS Vector。針對(duì)這兩種方法,本文設(shè)計(jì)了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果顯示,這兩種將越南語(yǔ)名詞短語(yǔ)邊界信息融入深度學(xué)習(xí)模型的方法都能有效提升模型對(duì)越南語(yǔ)名詞短語(yǔ)的識(shí)別效果,其中LS Vector對(duì)模型識(shí)別效果的提升比BS Vector要更大一些。
本文采用了先進(jìn)行調(diào)查獲取語(yǔ)言學(xué)規(guī)律,然后再探索將該語(yǔ)言學(xué)規(guī)律融入現(xiàn)有模型的思路,有效地提升了現(xiàn)有模型的識(shí)別效果。本文的研究思路和方法不僅有效提升了越南語(yǔ)名詞短語(yǔ)的識(shí)別效果,而且對(duì)其他語(yǔ)種、其他領(lǐng)域相似任務(wù)的開展都具有較強(qiáng)的參考和借鑒意義。
計(jì)算機(jī)應(yīng)用與軟件2019年12期