方芳,王石,王亞,符建輝,曹存根*
(1.中國科學(xué)院計算技術(shù)研究所,智能信息處理重點實驗室,北京 100190;2.中國科學(xué)院大學(xué),北京 100049)
名詞短語(Noun Phrase,簡稱NP)識別是自然語言處理和文本挖掘領(lǐng)域的基礎(chǔ)問題之一,在句法分析、主干提取、語義分析、知識獲取、信息檢索等眾多領(lǐng)域都有重要的意義,是完成這些任務(wù)的基礎(chǔ)工作。已有的名詞短語識別更多著眼于命名實體的識別,目標(biāo)是正確識別人名、機(jī)構(gòu)名、地名短語(有時包含時間、數(shù)量詞),范圍較窄且不能完全解決含動詞名詞短語。而在所有名詞短語中,含有動詞的名稱短語識別尤為困難,往往存在很多歧義。
本文的目標(biāo)是識別含動詞的名詞短語,并幫助FSTD[1]進(jìn)行知識抽取,通過對問題和語料的考察,發(fā)現(xiàn)包含動詞的名詞短語識別中主要包含了以下難點。
1)分詞錯誤
目前的分詞工具經(jīng)常會產(chǎn)生一些錯誤,包括分詞和詞性標(biāo)注的錯誤,尤其是含動詞名詞短語中的動詞,常會被標(biāo)記為動詞。而這些會對含動詞名詞短語識別帶來很大影響。
2)邊界確定
確定名詞短語的左右邊界是名詞短語識別的關(guān)鍵。有些名詞短語會伴隨搭配信息一起出現(xiàn),而這一方法對本文的研究目標(biāo)含動詞名詞短語同樣適用。例如“在/p 后期/n 維護(hù)/v 方面/n”, 其中“在/p”和“方面/n”是名詞短語左右邊界。
3)VN和NV結(jié)構(gòu)的名詞短語
含動詞名詞短語中,有一類特殊的結(jié)構(gòu)V+N和N+V。這兩種情況很難確定其動詞V是短語的一部分還是句子中的謂語動詞。例如,“運行/v 內(nèi)存/n”可能是指偏正結(jié)構(gòu)的名詞短語, 或者“運行”與“內(nèi)存”構(gòu)成動賓結(jié)構(gòu)的動詞短語。同理,“機(jī)器/n 學(xué)習(xí)/v”可能表示名詞短語,指一種算法,或者“學(xué)習(xí)”與“機(jī)器”構(gòu)成主謂結(jié)構(gòu)。
4)標(biāo)記數(shù)據(jù)少
目前公開的已標(biāo)記名詞短語數(shù)據(jù)集只有少量用于命名實體識別的數(shù)據(jù),并沒有適合本文工作的數(shù)據(jù),因此如何在很少的訓(xùn)練數(shù)據(jù)下完成含動詞名詞短語識別也是一個難題。
含動詞名詞短語識別與命名實體識別、術(shù)語識別有相似的地方。識別方法可以分為4類,分別是語言學(xué)方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法和混合方法。
1)基于語言學(xué)的方法
基于句法進(jìn)行名詞短語識別的主要思想是將短語當(dāng)作滿足特定句法的一種形式[2],利用句法結(jié)構(gòu)確定可能的名詞單元。Petasis等[3]采用句法分析樹辨別上下文環(huán)境的方法,從而獲取實體的名稱。另外一種方法是使用詞匯的模式來識別名詞短語,Justeson等[4]將介名短語、形名短語和名名短語作為候選術(shù)語。Shih-Hung[5]利用詞匯的內(nèi)部結(jié)構(gòu)來建立中文本體分類關(guān)系的系統(tǒng),并提出一些模板,如:A+Na, Na+Nb, A+Nc, Na+Nc 等。
2)基于統(tǒng)計的方法
Hanks等[6]利用互信息度量詞組頻繁共現(xiàn)的程度,抽取詞語的固定組合和搭配。Bender等[7]提出信息熵模型進(jìn)行實體名稱識別。Collier等[8]提出了一種基于隱馬爾科夫模型識別的新方法,識別生物醫(yī)學(xué)領(lǐng)域的概念。劉群[9]提出一種層疊的隱馬爾科夫模型,將漢語分詞、詞性標(biāo)注、切分排歧和未登錄詞識別集成到一個理論框架中。向曉雯[10]在條件隨機(jī)場模型(CRF)中利用改進(jìn)的標(biāo)準(zhǔn)集對命名實體進(jìn)行識別。Zhou等[11]提出了一種利用條件隨機(jī)場CRFs模型進(jìn)行字一級分詞和詞一級命名實體識別的兩階段識別方法。
3)基于神經(jīng)網(wǎng)絡(luò)的方法
隨著深度學(xué)習(xí)和人工智能的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的命名實體識別也取得了較好的成果。目前存在很多基于神經(jīng)網(wǎng)絡(luò)的命名實體識別方法。Collobert等[12]使用長短時記憶模型(LSTM)進(jìn)行了命名實體識別的研究。Chiu等[13]在英文環(huán)境中使用雙向LSTM提取文本全局特征,再使用 CNNs 提取單詞的特征來進(jìn)行命名實體的識別。Kuru等[14]使用Stacked bidirectional LSTMs 提取文本全局特征進(jìn)行命名實體識別。
4)混合的方法
Frantzi[15]提出了一種結(jié)合語言學(xué)和統(tǒng)計學(xué)知識進(jìn)行術(shù)語抽取的方法。常衛(wèi)麗[16]在CRFs模型中加入領(lǐng)域本體。陳萬禮[17]結(jié)合同義詞詞典、百科資源等產(chǎn)生初始候選實體集合,利用Ranking SVM對候選集進(jìn)行排序,從而得到目標(biāo)實體。另外還存在神經(jīng)網(wǎng)絡(luò)與統(tǒng)計相結(jié)合的方式,其中包含了LSTM與CRF[18]以及雙向LSTM與CRF相結(jié)合的方式[19],這兩種結(jié)合方式在LSTM層后接入CRF層來做句子級別的標(biāo)簽預(yù)測,使得標(biāo)注不再是對各個詞語獨立分類。Ma等人[20-22]提出了深度學(xué)習(xí)與其他方法相融合的方式。
為了解決以上難題并完成對含動詞名詞短語的識別工作,本文采用神經(jīng)網(wǎng)絡(luò)、規(guī)則、統(tǒng)計融合的方法。首先,對語料進(jìn)行預(yù)處理,其中包括詞性、助詞、時間、數(shù)量詞等內(nèi)容的糾正或合并;其次,根據(jù)已有的命名實體數(shù)據(jù)集使用雙向LSTM與條件隨機(jī)場的方法進(jìn)行含動詞命名實體識別;然后根據(jù)百度詞條對含動詞名詞短語進(jìn)行識別;接著,基于固定搭配、語義分類和描述框架中(Framework of Semantic Taxonomy and Description, 簡稱FSTD)的文法[1]對含動詞名詞短語進(jìn)行識別;最后對提出的方法進(jìn)行實驗和分析。
因為中文句子并不像英文存在天然的空格邊界,中文語句在計算機(jī)處理之前需要進(jìn)行分詞和詞性標(biāo)注。而分詞和詞性標(biāo)注存在很多問題,因此在含動詞名詞短語識別之前對語料進(jìn)行預(yù)處理,其中包括了符號的處理,詞性的修正,時間、英文、數(shù)字、成語等識別合并。
分詞和詞性標(biāo)注錯誤會影響含動詞名詞短語的識別,因此預(yù)處理時會進(jìn)行簡單詞性修正。
1) 助詞、助動詞的詞性修正
助詞,是附著在其他詞匯、詞組或是句子上作輔助之用。協(xié)助主要動詞構(gòu)成謂語的詞叫助動詞。使用助詞和助動詞詞表對助詞和助動詞進(jìn)行詞性修正,并標(biāo)記為u和vu。
2) 根據(jù)詞性處理規(guī)則進(jìn)行詞性修改
通過觀察發(fā)現(xiàn)分詞后語句會包含很多不符合語言學(xué)的情況,例如“還是”、“只有”是連續(xù)的連詞,而分詞會將其拆分開。因此根據(jù)語言學(xué)特點設(shè)計詞性處理規(guī)則。
規(guī)則庫的格式如下:
原句需滿足的規(guī)則串 → 操作名稱(參數(shù))
目前已存在的部分規(guī)則如下。
符號解釋:以下表達(dá)式的詞類和規(guī)則中存在特殊的符號,解釋如下: *:表示任意字符 ?:表示單個字符 |:表示或詞類:!有前面的副詞詞類 = 只|還|已|既|又 !是前面的副詞詞類 = 于|但|只|而|可|還|若|是!稱呼詞類 = 女士|先生|小姐|男士|夫人|太太|同志|教授|博士|園長|經(jīng)理|老師|總裁|工程師…規(guī)則:幾乎/d+是/v+*/v -> 替代(幾乎是/d,幾乎/d 是/v) 自主/v + */v -> 替代(自主/vd,自主/v)!是前面的副詞詞類+是/v -> 拼接(,/c) 準(zhǔn)備/v + */v -> 替代(準(zhǔn)備/vd,準(zhǔn)備/v)!有前面的副詞詞類+有/v -> 拼接(,/d) ?/v+!稱呼詞類 -> 拼接(,!稱呼詞類>,/n)直/d+到/v -> 拼接(<直,到>,/c) 慎/*+*/v -> 拼接(<慎,*>,/v) 易/*+*/v -> 拼接(<易,*>,/v)
3) 其他詞性修正
除了以上的詞性修正,還有一些特殊詞的詞性,包括符號、英文以及形容詞。具體的修正方式如下:如果待判定詞為符號類型,詞性標(biāo)注不是w,詞性修改為w。如果待判定詞含有英文字符,則詞性改為nx。將“的”字后動詞的詞性更改為形容詞詞性a。
中文語句在分詞以后,成對符號中的內(nèi)容常常會被分開,而內(nèi)容被分開會影響語義解析,因此首先將成對符號里的內(nèi)容進(jìn)行合并。
其中成對符號包括《》,“”, "", (), (), 【】, [], ‘’,", 「」, <>等。
語素詞是常見的被過度細(xì)分的一類詞語,成語和疊詞在分詞的時候也往往會被分開。本文設(shè)計了合并方法,解決這三種問題。
1) 語素詞合并
根據(jù)語素詞表,判定合并帶語素詞的詞,如“加強(qiáng)/v 版/g”,將其合并成一個詞,并將其詞性進(jìn)行修改。
2) 成語、疊詞合并
成語和疊詞是中文中很特殊的兩類詞,目前的分詞系統(tǒng)常會將其分割開,因此要對分割的成語和疊詞進(jìn)行合并。通過考察和收集,已形成成語詞典和疊詞詞典。遍歷句子中的所有詞,如果存在成語和疊詞則進(jìn)行合并。
數(shù)量詞即數(shù)量形容詞,是表示數(shù)、量或程度的形容詞。時間則是表示時間的短語。而在中文語句中,一些型號或者名稱中常包含字母和數(shù)字的字符串,或包含英文單詞,而這些在分詞時經(jīng)常會被分隔開,為了后續(xù)的含動詞名詞短語識別,需將其進(jìn)行合并。
對三種類型的識別,采用基于規(guī)則的方式,其中wi表示句子中的詞,/表示詞性。
w1/m+w2/m→w1 w2/mw1/m+w2/q(量詞詞典中存在w2)→ w1w2/mqw1/mq + 特殊字符w2 + w3/q→ w1w2 w3/mqw1/m + w2/*(w2是時間量詞)→ w1w2/tw1/m + w2/t→w1 w2/tw1/t + w2/t + … + wn/t→w1 w2…wn/tw1/nx + w2/m(w2不含中文) w1 w2/nw1/nx + w2/w→ w1 w2/nw1/m(w1不含中文) + w2/nx→w1 w2/nw1/nx + w2/nx + … + wn/nx→w1 w2…wn/n
雖然含動詞名詞短語的識別與命名實體識別(Named Entity Recognition,簡稱NER)目標(biāo)不相同,但是命名實體識別可以幫助處理命名實體中包含動詞的情況,還可以幫助后面對其他含動詞名詞短語的識別。本文使用基于字的BiLSTM-CRF方法進(jìn)行含動詞命名實體識別,使用公開的命名實體mrsa數(shù)據(jù)進(jìn)行訓(xùn)練。
mrsa數(shù)據(jù)使用BIO標(biāo)注方法,即B-PER、I-PER代表人名首字、人名非首字,B-LOC、I-LOC代表地名首字、地名非首字,B-ORG、I-ORG代表組織機(jī)構(gòu)名首字、組織機(jī)構(gòu)名非首字,O代表該字不屬于命名實體的一部分。
以句子為單位,將含有n個字的句子(字的序列)記作矩陣x,其中xi表示句子中字的字向量。
x=(x1,x2,…,xn) .
模型的第一層是embedding層,將句子中的每個字由one-hot向量映射為低維的向量Xi∈d,其中d為embedding的維度。設(shè)置dropout以防止過擬合。
(h1,h2,…,hn)∈n×m.
因為設(shè)置了dropout,此時接入一個線性層,將隱狀態(tài)向量從m維映射到k維,k為標(biāo)注集的標(biāo)簽數(shù),從而得到自動提取的句子特征,記作矩陣p=(p1,p2,…,pn)∈n×k.其中pi∈k的每一維pij可以看作將第i個字分類到第j個標(biāo)簽的概率。
模型的第三層是CRF層,進(jìn)行句子級的序列標(biāo)注。CRF層的參數(shù)是一個(k+2)×(k+2)的矩陣A,Aij表示的是從第i個標(biāo)簽到第j個標(biāo)簽的轉(zhuǎn)移概率,此時對一個位置進(jìn)行標(biāo)注利用此前已經(jīng)標(biāo)注過的標(biāo)簽,加2是因為句子首部和尾部分別添加一個起始狀態(tài)和一個終止?fàn)顟B(tài)。如果記一個長度等于句子長度的標(biāo)簽序列y=(y1,y2,…,yn),由此句子x的標(biāo)簽y的概率為
(1)
因此整個序列的分值等于每個字的分值之和,而每個位置的分值由兩部分得到,一部分是由LSTM輸出的pi決定,另一部分則由CRF的轉(zhuǎn)移矩陣A決定。利用Softmax歸一化后的概率是:
(2)
模型訓(xùn)練時最大化對數(shù)似然函數(shù),下式(3)給出了對一個訓(xùn)練樣本(x,yx)的對數(shù)似然:
(3)
模型在預(yù)測時使用動態(tài)規(guī)劃的Viterbi算法來求解最優(yōu)路徑,即
y*=arg maxy′score(x,y′) .
(4)
整個模型的結(jié)構(gòu)如圖1所示。
Fig.1 Named Entity Recognition Model of BiLSTM+CRF圖1 BiLSTM+CRF命名實體識別模型
百度百科是百度公司推出的內(nèi)容開放的網(wǎng)絡(luò)百科全書,而百科詞條是對整個百科內(nèi)容的定義。本文從百度百科獲取了超過五百萬詞條,利用百度詞條可以幫助對含動詞名詞短語進(jìn)行識別。
識別含動詞名詞短語過程中,首先需要對動詞進(jìn)行驗證,確定當(dāng)前待判定動詞是謂語動詞還是名詞短語的一部分以及待判定動詞是否具有名詞性。
3.1.1 可更改動詞驗證
該驗證主要是判定動詞是否是名詞短語的一部分,具體的驗證方式如下。
1) 形式動詞判斷
形式動詞指不具有實在意義而只能用動名詞或以動名詞為中心語的偏正短語作賓語的動詞。因此如果句子中存在形式動詞和另一個動詞,兩個動詞都不需要再進(jìn)行識別。
2) 句賓動詞判斷
中文中存在一些動詞后接完整的句子作為賓語,該類語句理應(yīng)存在多個動詞,因此如果語句中存在句賓動詞,則不再對其動詞進(jìn)行識別。例如“墻機(jī)/n 業(yè)務(wù)/n 也/d 受益于/v 環(huán)保/j 壓力/n 銷量/n 快速/d 增長/v”語句中,“受益于”后跟的賓語成分是一個完整語句。
3) 兼語連動判斷
兼語句是由兼語短語充當(dāng)謂語或獨立成句的句子。它的謂語是由動賓短語套接主謂短語構(gòu)成的,動賓短語的賓語兼做主謂短語的主語。而連動句,兩個動詞短語互不作成分,共同作謂語,但在語義上有目的和方式、原因和結(jié)果等關(guān)系,位置順序不能相互顛倒。
因此兼語和連動句理應(yīng)存在多個動詞,如果語句是兼語連動句,則不再識別兩類句子中的含動詞名詞短語。
3.1.2 動詞的名詞性驗證
判斷動詞是否具有名詞性是含動詞名詞短語識別中很重要的一步,因為所有含動詞的名詞短語識別工作都要保證動詞具有名詞性。假設(shè)待判定的動詞為v。
1) 根據(jù)計算所詞表判斷
計算所詞表由中科院計算所設(shè)計,該詞表包含常見詞可能的詞性。利用該詞表,如果當(dāng)前v在詞表中同時具有名詞和動詞的詞性,則認(rèn)為v具有名詞性。
2) 根據(jù)名詞語義特性判斷
根據(jù)名詞語義特性判斷v是否具有名詞特性。
① 統(tǒng)計語料中所有符合“v'+mq+[n|a]+v(結(jié)尾)”結(jié)構(gòu)的句子,當(dāng)超過一定次數(shù),則認(rèn)為v具有名詞性;
② 統(tǒng)計語料中所有符合“在+[a|n]+v+上|方面”結(jié)構(gòu)的句子,當(dāng)超過一定次數(shù),則認(rèn)為v具有名詞性。
當(dāng)動詞通過驗證則使用百度詞條進(jìn)行含動詞名詞短語的識別,具體過程如下:
① 定義當(dāng)前待驗證的詞為W
W=wi…wj,i=1…L;j=i+1…L,
(5)
其中,wi是句子中第i個詞,wj是句子中的第j個詞,W是從第i個到第j個連續(xù)詞形成的一個詞;L是句子中詞的總數(shù)。
② 通過百度詞典驗證合并
如果百度詞條中存在W,則W作為可合并候選項;如果W不在百度詞條中,則統(tǒng)計以W為結(jié)尾或開頭的百度詞條,當(dāng)大于閾值,則W作為可合并候選項。
如果W是候選項,繼續(xù)移位j,形成W’,驗證W’,如果W’也成為候選項,則使用最長優(yōu)先匹配和最多優(yōu)先匹配的原則,放棄W。
對可合并候選項進(jìn)行邊界驗證和NP驗證(驗證方法參見4.2和4.3),如果通過驗證,則合并W’并修改詞性為NP。
定義1.最長優(yōu)先匹配原則。當(dāng)W1與W2同時滿足條件,如果W1包含W2且W1的長度大于W2的長度,則優(yōu)先選擇W1。
定義2.最多優(yōu)先匹配原則。當(dāng)W1與W2同時滿足條件,如果W1出現(xiàn)次數(shù)大于W2,則優(yōu)先選擇W1。
通過對語料的觀察以及總結(jié)的名詞短語出現(xiàn)特點,發(fā)現(xiàn)很多名詞短語會出現(xiàn)在特定詞語之間,這些特定詞語可以認(rèn)為是名詞短語的語義邊界。因此語義邊界是一種識別名詞短語很好的一種方式,這樣也同樣可以用來識別含動詞名詞短語,且使用邊界會是一種很好的識別方式。
中文語句中,存在很多固定搭配,這些固定搭配可以作為含動詞名詞短語的自然語義邊界,因此可以通過這些固定搭配識別含動詞名詞短語。表1給出部分固定搭配。
表1 部分固定搭配邊界信息
在FSTD中,文法槽定義了適用于某動詞的語義文法,而文法中也定義了很多搭配,同樣這些搭配可以被用作識別含動詞名詞短語的邊界,該邊界稱為FSTD邊界。表2列出了FSTD文法中的部分含動詞名詞短語邊界實例,表中的非終結(jié)符“
表2 部分FSTD邊界信息
使用固定搭配邊界以及FSTD邊界識別含動詞名詞短語仍需要考慮其名詞短語中含有動詞的難點,因此識別過程中要進(jìn)行驗證才能保證含動詞名詞短語識別的準(zhǔn)確性。其中驗證包括對邊界進(jìn)行邊界驗證,從而確定邊界是否合理,同時還要驗證通過邊界獲取的含動詞名詞短語是否合理,即名詞短語再驗證。
驗證邊界是否合適,主要是驗證邊界前后兩個詞的粘著性,如果兩個詞的粘著性較強(qiáng),則認(rèn)為兩個詞不可被分割,即邊界不成立。具體驗證方法如下
1) 根據(jù)邊界結(jié)果,分別抽取左右邊界的前后兩個詞,組成兩個詞對;
2) 通過二元組資源(該資源是從1.5T的已分詞語句中得到,該資源統(tǒng)計了所有兩個詞同時出現(xiàn)的次數(shù)),找出上述兩個詞對的數(shù)目;
3) 如果其中一對的數(shù)目超過閾值,則放棄根據(jù)該邊界識別得到的含動詞名詞短語結(jié)果;
4) 如果兩個詞對都不超過閾值,繼續(xù)利用統(tǒng)計驗證,如果存在一個詞對通過驗證,則放棄根據(jù)該邊界識別得到的含動詞名詞短語結(jié)果;
5) 對識別得到的含動詞名詞短語進(jìn)行短語再驗證,如果無法通過驗證,放棄識別結(jié)果;
6) 如果除了邊界以及邊界內(nèi)的內(nèi)容,不再存在其他動詞,則放棄該識別結(jié)果。
當(dāng)識別出含動詞名詞短語后,需要再次判斷是否可以將含動詞名詞短語中的動詞進(jìn)行詞性修改或該含動詞名詞短語是否合適。
1) 如果當(dāng)前含動詞名詞短語中的動詞是形式動詞,則放棄該含動詞名詞短語;
2) 如果當(dāng)前含動詞名詞短語中的動詞后面跟“著、了、過、完”等詞,則該動詞為謂語動詞,放棄該含動詞名詞短語;
3) 如果當(dāng)前含動詞名詞短語中的動詞前接“來、去、到”等詞,則放棄該短語;
4) 如果當(dāng)前含動詞名詞短語中的動詞前有副詞修飾,則該動詞為謂語動詞,放棄該含動詞名詞短語。
5.1.1 數(shù)據(jù)集
本文使用的數(shù)據(jù)皆來源于web,包含了新聞、產(chǎn)品描述以及電影等數(shù)據(jù)。隨機(jī)抽取125個包含多個動詞的語句進(jìn)行測試,超過60%的句子的總詞數(shù)超過10。首先對句子進(jìn)行分詞,而后對句子使用人工手工標(biāo)注的方式,將詞性標(biāo)注為動詞但與前詞或后詞構(gòu)成為名詞短語的情況定義為含動詞名詞短語。
因為本文的方法中包括使用神經(jīng)網(wǎng)絡(luò)對含動詞的命名實體進(jìn)行識別,因此選擇公開的msra數(shù)據(jù)庫進(jìn)行訓(xùn)練。
5.1.2 度量標(biāo)準(zhǔn)
本文使用基本的度量標(biāo)準(zhǔn),包括準(zhǔn)確率、召回率以及F1值,具體的公式如下所示
(6)
(7)
(8)
其中,VNPcorrect表示識別正確的含動詞名詞短語,VNPrecognition表示識別出的所有含動詞名詞短語,VNPactual表示句子中實際包含的含動詞名詞短語。
5.2.1 實驗結(jié)果
本文的目標(biāo)是對含動詞的名詞短語進(jìn)行識別,尤其是為了語義解析和知識抽取這一終極目標(biāo),需要消除名詞短語中的動詞對謂語動詞的影響。
本文使用基于神經(jīng)網(wǎng)絡(luò)的方法,該方法需要使用已標(biāo)記的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,目前并沒有已標(biāo)記的中文含動詞名詞短語數(shù)據(jù),因此使用公開的已標(biāo)記命名實體識別數(shù)據(jù)識別含動詞的命名實體識別。
但即使沒有基于神經(jīng)網(wǎng)絡(luò)的命名識別,本文的方法依然可以達(dá)到一個很好的結(jié)果。本文進(jìn)行兩組實驗來說明即使沒有已標(biāo)記的先驗數(shù)據(jù),本文提出的方法依然可以得到一個很好的結(jié)果。一組實驗包含基于神經(jīng)網(wǎng)絡(luò)的含動詞命名實體識別,第二組則不包含,最后一組則是單純使用LSTM+CRF的方法在NER的公開數(shù)據(jù)上訓(xùn)練。通過實驗得到的實驗結(jié)果如表3所示。在測試的125句中,通過人工標(biāo)注得到包含動詞的名詞短語有152個,不添加使用LSTM+CRF進(jìn)行NER的情況,抽取到136個含動詞名詞短語,其中正確的是120個,而添加LSTM+CRF進(jìn)行NER操作增加了2個抽取正確的含動詞名詞短語,而單純使用LSTM+CRF的方法,因為更多的是對命名實體的識別,因此結(jié)果中只抽取了正確的15個含動詞的名詞短語。
表3 實驗結(jié)果
通過實驗,可以看出本文提出方法的有效性,而對比實驗說明即使沒有已標(biāo)記的訓(xùn)練數(shù)據(jù),本文方法也可以達(dá)到一個不錯的效果,而加入命名實體識別可以幫助提高準(zhǔn)確率。圖2給出兩條通過LSTM+CRF方法進(jìn)行NER帶來幫助的事例,黑色加粗表示因為加入LSTM+CRF而識別正確的名詞短語。
Fig.2 An Example of Improving the Accuracy by NER by LSTM+CRF圖2 LSTM+CRF進(jìn)行NER提高精度的事例
5.2.2 實驗結(jié)果分析
通過實驗可以看出,本文提出的方法并不依賴于大量已標(biāo)記的含動詞名詞短語數(shù)據(jù),只是依靠外部資源以及公開的命名實體數(shù)據(jù)就可以達(dá)到較好的效果。如果有標(biāo)記的含動詞名詞短語數(shù)據(jù)則可以達(dá)到更好的結(jié)果。當(dāng)然本文的方法還存在問題,主要的原因有以下幾個方面。
1) 分詞問題
雖然本文提出的方法已經(jīng)就此問題進(jìn)行了處理,但是依然還有未能解決的問題,而這個問題會對含動詞名詞短語的識別結(jié)果帶來很大的影響;
2) 中間結(jié)果傳遞錯誤
本文提出的方法有些使用了中間結(jié)果,這些結(jié)果并沒有做到100%正確,而且同一個結(jié)果在不同的語句會存在不同結(jié)果的情況,因此錯誤率也會傳遞到名詞短語識別的結(jié)果中。
3) 連續(xù)多動詞問題
含動詞名詞短語中,有些短語包含連續(xù)多個動詞,這種情況的短語識別難度更大,如果該類型短語與謂語動詞相連,在判定動詞屬于名詞短語還是謂語動詞時會帶來更大困難。
在使用FSTD進(jìn)行語義解析和知識抽取之前需要對句子進(jìn)行含動詞名詞短語識別。已有的名詞短語識別更多著眼于命名實體的識別,而本文的目標(biāo)是識別含動詞名詞短語,主要包含了分詞和詞性標(biāo)注問題、邊界確定、標(biāo)記數(shù)據(jù)少等難點。
為了解決以上難題,本文采用神經(jīng)網(wǎng)絡(luò)與規(guī)則、統(tǒng)計相結(jié)合的方法。首先對數(shù)據(jù)進(jìn)行包括詞性、助詞、時間、數(shù)量詞等內(nèi)容的糾正或合并;而后使用雙向LSTM與條件隨機(jī)場融合的方法對語句進(jìn)行含動詞命名實體識別;接著使用百度詞條、固定搭配、FSTD文法對含動詞名詞短語進(jìn)行識別;最后對提出的方法實驗并分析。最終實驗表明我們的方法具有89%的準(zhǔn)確率以及80%的召回率。