国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合手工特征與雙向LSTM結(jié)構(gòu)的中文分詞方法研究

2019-01-11 06:00:12車萬翔
智能計算機與應(yīng)用 2019年1期
關(guān)鍵詞:分詞字符雙向

徐 偉, 車萬翔, 劉 挺

(哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001)

0 引 言

詞作為“最小的能獨立運用的語言單位”[1],通常是上層自然語言處理任務(wù)的基礎(chǔ)輸入。分詞結(jié)果的好壞,將直接影響到上層應(yīng)用的效果。

考慮到中文詞語之間沒有明顯的分隔符,因此想要獲得較好的分詞效果則并非易事。在2002年之前,學(xué)術(shù)界普遍使用基于規(guī)則或者基于統(tǒng)計的詞典匹配方法,典型的如正向最大匹配、逆向最大匹配等[2]。2002年,Xue等人[3]首次提出了基于字標(biāo)注的方法,次年,又使用最大熵模型實現(xiàn)的系統(tǒng)參加Backoff-2003評測[4],取得優(yōu)異成績,從此,基于字符標(biāo)注的中文分詞方法即已迅速吸引了學(xué)界的廣泛關(guān)注?;谧謽?biāo)注的方法首先將分詞結(jié)果(詞序列)轉(zhuǎn)變?yōu)闃?biāo)簽序列,然后通過序列標(biāo)注模型學(xué)習(xí)字符序列與標(biāo)簽序列的關(guān)系來完成分詞。詞序列轉(zhuǎn)換為標(biāo)簽序列依據(jù)的是每個字符在詞語中出現(xiàn)的位置(詞位)。目前常使用詞位標(biāo)簽集為{B,M,E,S},其中,B表示字出現(xiàn)在詞語的開始位置(Begin),相應(yīng)的M、E分別表示字出現(xiàn)在詞語的中間(Middle)和結(jié)尾(End),標(biāo)簽S表示單字成詞(Single)。字符序列、詞序列和標(biāo)簽序列的關(guān)系如圖1所示。在基于字標(biāo)注的方法成為主流后,學(xué)術(shù)界即已開始著重研究特征工程和序列標(biāo)注模型改進(jìn)。常見的特征包括n-gram特征、詞典特征、字符類別特征和字符重疊信息等[5],模型一般為CRFs[6]或結(jié)構(gòu)化感知器[7]等。2011年,Collobert等人[8]提出了一套針對詞性標(biāo)注、命名實體識別和語義角色標(biāo)注的通用網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)算法。以此為起點,基于深度神經(jīng)網(wǎng)絡(luò)的中文分詞(序列標(biāo)注模型)研究即已陸續(xù)涌現(xiàn),并獲得蓬勃發(fā)展。所使用的網(wǎng)絡(luò)結(jié)構(gòu)包括多層感知器(Multi-Layer Perceptron, MLP)[9]、最大間隔張量網(wǎng)絡(luò)(Max-Margin Tensor Neural Network, MMTNN)[10]、GRNN(Gated Recursive Neural Network)[11]、長短時記憶網(wǎng)絡(luò)(Long-Short Term Memory, LSTM)[12]以及雙向LSTM(Bidirectional LSTM, Bi-LSTM)[13]、雙向LSTM-CRFs[14]等。在深度學(xué)習(xí)的浪潮下,研究者們普遍忽視了手工特征,大多數(shù)模型僅使用當(dāng)前位置的字符信息(unigram)作為輸入。但仍有部分學(xué)者的研究表明,在MLP或MMTNN網(wǎng)絡(luò)中加入bigram特征可以顯著提升模型的效果[9-10]。

圖1 字符序列、詞序列和標(biāo)簽序列示例

Fig.1Examplesofcharactersequence,wordsequenceandlabelsequence

研究認(rèn)為,手工特征作為人類知識的體現(xiàn),對模型而言是非常有價值的。本文將當(dāng)下熱門的雙向LSTM結(jié)構(gòu)與手工特征相融合,試圖說明結(jié)合手工特征和深度神經(jīng)網(wǎng)絡(luò)的模型,相比傳統(tǒng)中文分詞方法以及不使用額外特征的深度神經(jīng)網(wǎng)絡(luò)模型效果更加優(yōu)異。

1 融合手工特征與雙向LSTM結(jié)構(gòu)的中文分詞方法

研究中,首先展示模型整體結(jié)構(gòu),隨后依次探討了手工特征融入方法、雙向LSTM結(jié)構(gòu)以及標(biāo)簽預(yù)測方法,最后給出本次研究在模型中所使用的手工特征。研究可得剖析論述如下。

1.1 模型整體結(jié)構(gòu)

從宏觀上,本文的模型結(jié)構(gòu)可以分為3個層次。第一層將手工特征轉(zhuǎn)變?yōu)檫B續(xù)值向量,將該層稱為輸入層;第二層為表示學(xué)習(xí)層,通過雙向LSTM結(jié)構(gòu)設(shè)計得出各位置間輸入向量的特征組合;第三層為標(biāo)簽預(yù)測層,完成標(biāo)簽預(yù)測,模型的整體結(jié)構(gòu)如圖2所示。

1.2 手工特征融入神經(jīng)網(wǎng)絡(luò)模型的方法

手工特征一般可分為離散特征和連續(xù)值特征2類。對于深度神經(jīng)網(wǎng)絡(luò),其輸入一般是連續(xù)實值向量。因此離散特征往往需要轉(zhuǎn)換為實值向量才能輸入給神經(jīng)網(wǎng)絡(luò)。而對于連續(xù)值特征,可以有2種處理方式。一種是將連續(xù)值直接輸入給網(wǎng)絡(luò),另一種是將連續(xù)值離散化,轉(zhuǎn)換為離散特征進(jìn)行處理。通常而言,將連續(xù)值離散化能夠解決輸入稀疏的問題,有利于模型泛化。文中就采用了離散化連續(xù)值特征的策略,因此手工特征都成為了離散特征的形式。

將離散特征轉(zhuǎn)換為連續(xù)實值向量,一般是通過映射表的形式完成的。以unigram特征為例,記所有unigram構(gòu)成字典D,n=|D|為字典大小,即unigram個數(shù)。首先對D中每個unigram編號為0,1,…,n-1,設(shè)某個unigram為u,則i=Du即為u對應(yīng)的編號;接著建立一個編號到值向量的映射表M,Mi就表示編號為i的unigram對應(yīng)的實值向量。

由于選擇使用了多種類型的手工特征,在每種特征均已生成了特征值到實值向量的映射后,還需要將這些向量組合起來,研究中采取拼接的方法將所有類型的特征向量組合成為一個輸入向量。

整個將手工特征(離散特征)轉(zhuǎn)換為連續(xù)實值向量的過程如圖3所示。轉(zhuǎn)換流程過后,就達(dá)到了將手工特征融入神經(jīng)網(wǎng)絡(luò)的目的,而這也是整個輸入層面臨的工作任務(wù)。

圖2 模型整體結(jié)構(gòu)圖

圖3 手工特征(離散特征)轉(zhuǎn)變?yōu)檫B續(xù)實值向量的流程

Fig.3Theprocessofmanulfeaturesturningtocontinousreal-valuevector

1.3 雙向LSTM結(jié)構(gòu)

雙向LSTM結(jié)構(gòu)更準(zhǔn)確的表述是在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)中以LSTM作為RNN單元的結(jié)構(gòu)。

循環(huán)神經(jīng)網(wǎng)絡(luò)是一種處理時序輸入的網(wǎng)絡(luò)結(jié)構(gòu)。RNN結(jié)構(gòu)理論上只包含一個RNN單元,該單元將在時間維度上反復(fù)循環(huán)地處理輸入序列,并由此而得名。RNN單元接口和在時間序列上的展開效果如圖4所示。RNN考慮了前一個時刻的輸出,因此被認(rèn)為能夠記錄輸入序列的歷史信息。

RNN單元有多種類型。簡易的RNN單元只是將輸入向量x和前一個時刻的狀態(tài)ht-1進(jìn)行非線性組合,在訓(xùn)練較長的輸入序列時容易出現(xiàn)梯度消失或者梯度爆炸的問題,難以訓(xùn)練模型。針對此問題,Hochreiter等人[15]專門提出了LSTM單元,在LSTM單元內(nèi)部引入了控制門和記憶單元,較大程度上解決了訓(xùn)練過程中可能出現(xiàn)的梯度問題。此外,其特征組合的能力也因其內(nèi)部結(jié)構(gòu)的復(fù)雜而更顯強大。

圖4 RNN單元接口(左)以及在時間序列上的展開效果(右)

Fig.4RNNcellinterface(left)andtheexpandingeffectontimesequence(right)

在RNN的基礎(chǔ)上,Schuster等人[16]擴展出了雙向RNN結(jié)構(gòu),圖5就提供了雙向RNN結(jié)構(gòu)在長度為3的時間序列上的展開效果。由于前向單元能夠編碼歷史信息,而后向單元可以融合未來的信息,因此理論上雙向RNN結(jié)構(gòu)在每個位置上都能夠看到全局的信息。顯而易見,這個特性對中文分詞任務(wù)是非常重要的。

圖5 雙向RNN的展開結(jié)構(gòu)

雙向LSTM結(jié)構(gòu)搭建了本次研究模型中的表示學(xué)習(xí)層。該層用于設(shè)計生成各位置間輸入特征向量的組合,并在每個位置上輸出特征組合結(jié)果。

1.4 標(biāo)簽預(yù)測方法

在標(biāo)簽預(yù)測層,研究將在每個位置獨立預(yù)測標(biāo)簽。就是說,對每個位置上表示學(xué)習(xí)層的輸出向量均需經(jīng)過Softmax操作才可運算得到每個標(biāo)簽的概率。需要注意的是,研究在每個位置上選取標(biāo)簽是在滿足標(biāo)簽限制關(guān)系下概率最大的那個。舉例來說,假設(shè)前一個位置的標(biāo)簽為S,那么依據(jù)詞位標(biāo)簽的限制關(guān)系,當(dāng)前位置的合法標(biāo)簽候選集就是{B,S},研究會從該集合中選取概率最大的作為預(yù)測結(jié)果。

1.5 手工特征選擇

研究在模型中使用的手工特征包括unigram、bigram、詞典特征和字符類別特征。這里,針對其研究要點可逐一闡釋分述如下。

(1)unigram特征。即是當(dāng)前位置的字符特征,代表著原始的輸入信息。

(2)bigram特征。為當(dāng)前位置字符和下一個位置字符構(gòu)成的bigram表示。特別指出,研究中可令尾后字符(最后一個位置的后一個位置字符,在原始輸入中并不存在)的表示為EOS,用來與輸入序列中最后一個位置的字符構(gòu)成bigram。bigram表示對于中文分詞尤為重要,因其不僅蘊含著語言模型的信息,同時有助于擴大輸入空間,令模型在標(biāo)簽預(yù)測時更加容易。LSTM單元由于兼顧了上一個位置的狀態(tài)輸出,因此理論上能夠自動捕獲一定量的bigram信息,這也是目前研究者們試圖通過復(fù)雜化網(wǎng)絡(luò)結(jié)構(gòu)來使得模型僅根據(jù)原始輸入序列(unigram特征)就能做出良好預(yù)測的理由。但是,和把學(xué)習(xí)bigram特征的工作交給模型相比,直接輸入bigram信息顯然可使模型預(yù)測更趨便捷。

(3)詞典特征。使得模型具有了融合詞典信息的能力。在抽取詞典特征前,首先需要構(gòu)建一個詞典,這既可以從訓(xùn)練集中統(tǒng)計得到,也可以由外部指定。特別地,通過外部指定特定領(lǐng)域的詞典,模型將具有一定的領(lǐng)域適應(yīng)能力。在詞表構(gòu)建成功后,接下來就在輸入句子的每個位置上對構(gòu)建的詞表做最大正向匹配,得到在每個位置上以此位置字符開始的詞的最大長度Ls、經(jīng)過(不包含詞首、尾)此位置的詞的最大長度Lp和以此位置字符結(jié)尾的詞的最大長度Le,接著將對這3個長度值進(jìn)行離散化,設(shè)計操作如下:

(1)

(4)字符類別特征。研究將會判斷當(dāng)前位置的字符是否是{數(shù)字類,標(biāo)點類,字母類}中的某一種。如果是,則取對應(yīng)的字符類別,否則取值為“其它類”。該特征從字符類別的角度為字符提供了泛化表示,使模型的泛化能力更強。

2 實驗結(jié)果與分析

在本次實驗中采用的數(shù)據(jù)集為人民日報1998年上半年數(shù)據(jù)(約30萬行、七百萬詞)和微博數(shù)據(jù)(約五萬七千行、一百萬詞)的合并集,具體訓(xùn)練集、開發(fā)集和測試集信息可見表1。該數(shù)據(jù)集規(guī)模較大,能夠充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)的能力。

表1 中文分詞數(shù)據(jù)集詳情

為了直觀比較模型效果,研究中使用了2個基準(zhǔn)線模型。第一個模型為哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心發(fā)布的LTP工具[17]。與中文模型相比,LTP使用相似的手工特征,但通過結(jié)構(gòu)化感知器來擬合數(shù)據(jù),屬于線性模型。第二個基準(zhǔn)線模型為僅使用unigram特征的雙向LSTM模型,除輸入特征不同外,其余部分與本文的模型結(jié)構(gòu)完全一致。為了敘述方便,研究中將unigram的雙向LSTM記為Uni-Bi-LSTM,將本文的的模型記為All-Bi-LSTM。

實驗參數(shù)上,對于LTP,設(shè)定使用默認(rèn)參數(shù)完成訓(xùn)練;Uni-Bi-LSTM和All-Bi-LSTM的參數(shù)設(shè)置可見表2。

研究中選擇使用F1值作為評價指標(biāo),實驗結(jié)果詳見表3。根據(jù)實驗結(jié)果,融合手工特征和雙向LSTM結(jié)構(gòu)的方法取得了最優(yōu)的效果,且相比其余2種方法提升明顯。LTP作為傳統(tǒng)中文分詞方法的代表,在開發(fā)集和測試集上均取得了不錯的效果,但是其在測試集上的F1值相比在開發(fā)集上低0.13個百分點,高于Uni-Bi-LSTM的0.11和All-Bi-LSTM的0.07,這表明在此數(shù)據(jù)集上基于Bi-LSTM的方法泛化能力更強。僅使用unigram特征的Uni-Bi-LSTM方法效果最差,相比All-Bi-LSTM在開發(fā)集上低1.65個百分點,測試集上低1.69個百分點。這表明僅是通過雙向LSTM結(jié)構(gòu)去自動學(xué)習(xí)輸入中的特征還是不夠的,引入手工特征能夠顯著提升模型效果。最后,同樣基于手工特征,使用Bi-LSTM結(jié)構(gòu)的All-Bi-LSTM方法比使用結(jié)構(gòu)化感知器的LTP效果優(yōu)異,在開發(fā)集和測試集上分別高0.28和0.34個百分點,這說明Bi-LSTM結(jié)構(gòu)的特征組合能力更加強大。

表2 Uni-Bi-LSTM和All-Bi-LSTM參數(shù)設(shè)計

注:學(xué)習(xí)率在{0.01, 0.05, 0.1}三個候選值中搜索,取在開發(fā)集上取得最優(yōu)效果的值作為最終參數(shù)值。

表3 實驗結(jié)果

3 結(jié)束語

本文探討了將手工特征和雙向LSTM結(jié)構(gòu)相融合的中文分詞方法,該方法既融入了人類的先驗知識,又引入了深度神經(jīng)網(wǎng)絡(luò)模型對于輸入特征的組合能力。實驗結(jié)果表明,本文的方法相比傳統(tǒng)基于手工特征的方法有較大提升,相比不使用額外手工特征的雙向LSTM模型則有長足可觀的大幅提升。這也進(jìn)一步驗證了本文提出的融合手工特征和雙向LSTM結(jié)構(gòu)的中文分詞方法的有效性。

猜你喜歡
分詞字符雙向
雙向度的成長與自我實現(xiàn)
出版人(2022年11期)2022-11-15 04:30:18
尋找更強的字符映射管理器
字符代表幾
一種USB接口字符液晶控制器設(shè)計
電子制作(2019年19期)2019-11-23 08:41:50
結(jié)巴分詞在詞云中的應(yīng)用
智富時代(2019年6期)2019-07-24 10:33:16
消失的殖民村莊和神秘字符
值得重視的分詞的特殊用法
一種軟開關(guān)的交錯并聯(lián)Buck/Boost雙向DC/DC變換器
一種工作頻率可變的雙向DC-DC變換器
基于雙向預(yù)測的圖像去噪
河南科技(2014年19期)2014-02-27 14:15:24
罗平县| 连云港市| 塔城市| 义乌市| 建始县| 临沭县| 临猗县| 大关县| 万载县| 江北区| 师宗县| 凉城县| 会理县| 七台河市| 繁昌县| 韶山市| 合水县| 泰兴市| 武夷山市| 叙永县| 阿合奇县| 休宁县| 呼伦贝尔市| 蒙城县| 乌拉特前旗| 长汀县| 遂川县| 万全县| 苗栗县| 大姚县| 凌云县| 罗源县| 兴义市| 赤峰市| 麦盖提县| 分宜县| 蓝田县| 澳门| 连城县| 福贡县| 宜兰县|