孫 甜,陳海濤,呂學(xué)強,游新冬
1(北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101)
2(北京信息科技大學(xué) 外國語學(xué)院,北京 100192)
新能源主要是指可再生、可持續(xù)的非傳統(tǒng)清潔環(huán)保能源.新能源產(chǎn)業(yè)主要是指將太陽能、地?zé)崮堋L(fēng)能、海洋能、生物質(zhì)能和核聚變能等非傳統(tǒng)能源產(chǎn)業(yè)化的一種高新技術(shù)產(chǎn)業(yè)[1].基于1995-2019年全球以及中國專利公開的新能源產(chǎn)業(yè)數(shù)據(jù)信息統(tǒng)計,中國新能源專利總申請量為423134件,全球新能源專利總申請量為1734849件,年均申請增長率保持穩(wěn)定,這表明世界各國政府和企業(yè)的大力關(guān)注和支持[2].如何推動中國專利文獻走向世界,更快速更準確地翻譯專利文本成為一個值得關(guān)注的問題.
當(dāng)前專利文獻的翻譯方式主要有兩種,一種是經(jīng)由專業(yè)領(lǐng)域人士的翻譯,但高質(zhì)量翻譯是一項高要求且耗時的生產(chǎn)任務(wù),對人類翻譯專家的要求較高,能滿足該要求的合格翻譯人才比較缺乏,況且由于專利文獻具有新穎性、可靠性和權(quán)威性的特點,翻譯人員在翻譯過程中需要利用領(lǐng)域術(shù)語表來把握對領(lǐng)域術(shù)語的準確翻譯,術(shù)語庫的構(gòu)建就顯得尤為重要.另一種翻譯方式是先對專利文本進行機器翻譯,然后再進行譯后編輯,據(jù)統(tǒng)計,市面上翻譯引擎對專利文本的翻譯經(jīng)常存在語義缺失、語義不準確、術(shù)語錯誤等問題,其中術(shù)語錯誤更是占了翻譯錯誤的很大比例[3],這就對機器翻譯技術(shù)提出了更高的要求,如何利用術(shù)語詞表改進機器翻譯的質(zhì)量值得深入研究.無論是人工翻譯還是機器翻譯,都離不開領(lǐng)域術(shù)語庫的構(gòu)建,這些現(xiàn)象都凸顯了領(lǐng)域術(shù)語抽取的重要性.
專利文獻中的領(lǐng)域術(shù)語為專利文獻分析提供了結(jié)構(gòu)化知識單元,這些領(lǐng)域術(shù)語為查閱人員準確且快捷的掌握專利方向及其核心技術(shù)帶來了很大的方便.從專利文獻中自動抽取術(shù)語,構(gòu)建術(shù)語庫的過程,對于機器翻譯[4]、對話系統(tǒng)[5]、信息檢索[6]等方面發(fā)揮著重要的基礎(chǔ)性作用.隨著科學(xué)技術(shù)的不斷發(fā)展、大量新能源領(lǐng)域?qū)@谋镜牟粩嗌暾?,新能源領(lǐng)域術(shù)語的抽取需求也在與日俱增,往日依靠人工方法收集和傳統(tǒng)機器學(xué)習(xí)算法來抽取領(lǐng)域術(shù)語的方法也往往有其自身的局限性,還有很大的改善空間,利用深度學(xué)習(xí)實現(xiàn)更高效、更準確的自動抽取領(lǐng)域術(shù)語的方法已經(jīng)成為必然的發(fā)展趨勢.
針對新能源領(lǐng)域?qū)@谋具M一步提升術(shù)語抽取準確率的任務(wù),本文提出了基于BERT-BiLSTM-CRF的新能源專利術(shù)語抽取方法,主要包括以下3個貢獻點:1)構(gòu)建了一個新能源領(lǐng)域?qū)@谋镜恼Z料庫以及領(lǐng)域詞典,包含3002條新能源專利語料以及26873個術(shù)語詞匯.2)提出了基于BERT-BiLSTM-CRF的新能源專利術(shù)語抽取研究方法,通過BERT預(yù)訓(xùn)練模型對新能源專利文本進行文本向量化,以更好地捕捉文本的語義,與其他深度學(xué)習(xí)抽取模型相比,本文提出的方法在準確率、召回率和F1值均有了顯著提升.3)在新能源專利文本語料上的實驗表明,本文提出的方法能有效識別字符較多的新能源專利長序列術(shù)語,對領(lǐng)域詞典的構(gòu)建起到了很大的幫助作用.
領(lǐng)域術(shù)語的抽取作為一項基礎(chǔ)性的研究,國內(nèi)外也已經(jīng)有許多學(xué)者對其抽取方法做了很多工作,研究方法主要包括基于規(guī)則、統(tǒng)計以及規(guī)則與統(tǒng)計兩者相結(jié)合的方法.2010年周浪等人[7]通過分析詞組型術(shù)語的特點及其在語料中的分布特征,使用子串歸并、搭配檢驗和領(lǐng)域相關(guān)度計算技術(shù)3個方法有效提升了低頻術(shù)語和基礎(chǔ)術(shù)語的排序位置,但缺陷在于研究者需具備豐富的語言知識來制定抽取術(shù)語所用的語言規(guī)則,語言學(xué)規(guī)則制定難度大,耗時耗力.2014年劉輝等人[8]分析了通訊領(lǐng)域的術(shù)語,并根據(jù)其特點制定規(guī)則進行人工標(biāo)注,使用基于字符級特征的條件隨機場進行實現(xiàn),分別達到了80.9%、75.6%、78.2%的精確率、召回率和F值.這種方法雖然優(yōu)于將詞和詞性作為特征來進行抽取,但是不利于在大規(guī)模語料上進行,因為規(guī)則制定需要具備領(lǐng)域知識的專家,而且人工標(biāo)注比較耗時耗力.2015年何宇[9]選取了6種特征,分別是詞、詞長、詞性、依存關(guān)系、詞典位置和停用詞作為特征模板,利用條件隨機場模型有效抽出了新能源汽車領(lǐng)域的術(shù)語,但該方法只提高了短術(shù)語抽取的效果,對長術(shù)語的抽取仍存在缺陷.綜上所述,利用基于統(tǒng)計和規(guī)則的方法雖然取得了一定的效果,但專業(yè)領(lǐng)域的中文術(shù)語實體識別仍舊依賴人工界定的特征和領(lǐng)域?qū)I(yè)知識,術(shù)語的識別精確率和召回率因受到特定領(lǐng)域情境的限制而無法推廣應(yīng)用.
神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法和基于規(guī)則或統(tǒng)計機器學(xué)習(xí)的方法相比,有更強的泛化能力,更少依賴人工特征選擇的優(yōu)點.深度神經(jīng)網(wǎng)絡(luò)采用基于詞向量的特征表示,把詞向量作為深度神經(jīng)網(wǎng)絡(luò)的輸入,自動學(xué)習(xí)文本上下文深層語義信息,把術(shù)語抽取任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù),很大程度上減少了對人工特征和領(lǐng)域知識的依賴.2015年Huang等人[10]構(gòu)建了Bi-LSTM-CRF模型,BiLSTM模型用于獲取輸入文本到深層隱藏特征并輸出,將BiLSTM的輸出作為CRF模型的輸入,實現(xiàn)了對文本信息的序列標(biāo)注.2017年Gridach[11]首次在生物醫(yī)學(xué)領(lǐng)域利用BiLSTM-CRF實現(xiàn)了字符級神經(jīng)網(wǎng)絡(luò)的命名實體識別并達到了90.27%的準確率.2018年孫娟娟等人[12]構(gòu)建了Character-LSTM-CRF實體識別模型,并以字向量作為模型的輸入,避免了分詞不準確對命名實體識別效果造成的影響,實現(xiàn)了對漁業(yè)領(lǐng)域命名實體識別的研究.2019年武惠等人[13]提出了一種基于實例的遷移學(xué)習(xí)算法,將源域的知識遷移到目標(biāo)域,有效緩解了對人工特征和專家知識的依賴,在小規(guī)模數(shù)據(jù)集上取得了80.0%的F值.2019年張應(yīng)成等人[14]應(yīng)用包含詞向量層、BiLSTM網(wǎng)絡(luò)層、CRF層結(jié)構(gòu)的BiLSTM-CRF模型,以50000條招標(biāo)平臺上的招標(biāo)文件為語料,對招標(biāo)人、招標(biāo)編號、招標(biāo)代理進行了識別,F(xiàn)1值最高達到了87.86%.他的研究也進一步指出,BiLSTM方法優(yōu)于LSTM方法,并且引入CRF算法可以給不同模型帶來程度不等的效果提升.2019年馬建紅等人[15],提出了一種基于attention的雙向長短時記憶網(wǎng)絡(luò)與條件隨機場相結(jié)合的領(lǐng)域術(shù)語抽取模型,并使用基于詞典與規(guī)則相結(jié)合的方法對結(jié)果進行校正,準確率可達到86%以上.2020年李靈芳等人[16]利用中文電子病歷提出了BERT-BiLSTM-CRF命名實體識別模型,在準確率、召回率、F1值3個方面都有顯著提升.
鑒于近年來BERT預(yù)訓(xùn)練語言模型[17]在英文自然語言處理(NLP)任務(wù)中的優(yōu)異表現(xiàn),自動挖掘隱含特征可以有效解決發(fā)現(xiàn)新詞的特點,同時減少人工定義特征和對領(lǐng)域知識過度依賴的問題.本文從深度學(xué)習(xí)的角度出發(fā),提出基于BERT-BiLSTM-CRF的新能源專利術(shù)語抽取模型.該模型首先利用BERT中文預(yù)訓(xùn)練向量將新能源專利文本轉(zhuǎn)為字符級嵌入向量訓(xùn)練出單詞的字符集特征,然后將字符集特征輸送到BiLSTM模型進行訓(xùn)練,更深層次地挖掘?qū)@谋局行g(shù)語與其它詞匯之間的語義信息,更好地捕捉前后文隱含的信息,最后與CRF層相結(jié)合,解決輸出標(biāo)簽之間的依賴關(guān)系問題,得到全局最優(yōu)的術(shù)語標(biāo)記序列.
近年來不依賴人工特征的端到端BiLSTM-CRF模型成為術(shù)語識別的主流模型,隨著自然語言處理在深度神經(jīng)網(wǎng)絡(luò)模型研究的不斷深入,不少研究指出,經(jīng)過預(yù)訓(xùn)練的詞嵌入模型能更好理解文本語義信息,應(yīng)用到專業(yè)術(shù)語識別這一類的命名實體識別任務(wù)中能取得不錯的效果,提升后續(xù)實驗任務(wù)的準確性.
BERT-BiLSTM-CRF新能源專利術(shù)語抽取模型整體結(jié)構(gòu)如圖1所示,首先是BERT預(yù)訓(xùn)練語言模型層,被標(biāo)注的字符級語料經(jīng)過該層將每個字符轉(zhuǎn)化為低維詞向量.其次是BiLSTM層,將上一層輸出的詞向量序列輸入到這一層進行語義編碼,自動提取句子特征.最后是CRF層,利用這一層解碼輸出概率最大的預(yù)測標(biāo)簽序列,得到每個字符的標(biāo)注類型,對序列中的實體提取分類,最終實現(xiàn)新能源領(lǐng)域?qū)@g(shù)語的抽取.該模型與其他深度學(xué)習(xí)術(shù)語抽取模型相比最主要的區(qū)別是利用了Google在大規(guī)模中文語料上習(xí)得的BERT預(yù)訓(xùn)練中文向量,因為其更強的上下文長距離語義學(xué)習(xí)能力,可以更好地解決字向量一詞多義的問題,更深層次挖掘新能源領(lǐng)域?qū)@谋镜奶卣?,為下游任?wù)提供更豐富的語義信息.
圖1 BERT-BiLSTM-CRF新能源專利術(shù)語抽取模型
從one-hot語言模型的提出,再到Word2Vec[18]、Glove[19],近幾年又有ELMO[20]、GPT[21]到BERT預(yù)訓(xùn)練模型的出現(xiàn),語言模型的發(fā)展對文本語義的表征理解越來越充分.2018年Devlin等人提出的BERT模型綜合了ELMO和GPT兩者的優(yōu)勢,利用Transformer[22]的編碼器作為語言模型的基礎(chǔ),從前后兩個方向捕獲句子的信息,self-Attention機制獲取單詞與單詞之間的語義權(quán)重,相應(yīng)生成的字嵌入分布式表示具有更強的語義表征優(yōu)勢.
Transformer之所以具有較強的特征提取能力,是由于其內(nèi)部的多頭注意力機制.self-attention機制主要是根據(jù)同一個句子中詞與詞之間的關(guān)聯(lián)程度調(diào)整權(quán)重系數(shù)矩陣來獲取詞的表征,也就是說,BERT模型對每個單詞編碼時,都會考慮到句子中其他單詞的語義權(quán)重,因此具有很強的編碼能力.具體操作可以解釋為:首先向量經(jīng)過3個不同的全連接層,得到Q,K,V3個向量,然后Q和KT進行矩陣相乘得到單詞和其他單詞相關(guān)程度的向量QKT.最后將標(biāo)準化的QKT放入到softmax激活函數(shù)中,得到詞與詞之間的關(guān)聯(lián)度向量,再乘以V得到最終向量,如公式(1)所示:
(1)
再通過多頭結(jié)構(gòu)拼接向量結(jié)果:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
(2)
(3)
為了使網(wǎng)絡(luò)更容易訓(xùn)練,Transformer還引入了殘差連接和層歸一化:
(4)
FFN=max(0,xW1+b1)W2+b2
(5)
為了解決注意力機制不提取時序特征這個問題,Transformer在數(shù)據(jù)預(yù)處理前加入了位置編碼,并與輸入向量數(shù)據(jù)進行求和,得到句子中每個字的相對位置.
(6)
(7)
最后,BERT將位置嵌入和詞嵌入拼接起來作為模型輸入,如圖2所示.
圖2 Transformer的編碼器
LSTM的全稱是Long Short Term Memory,它是循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的一種變體,巧妙地運用了門控概念實現(xiàn)長期記憶,有效解決了RNN訓(xùn)練時所產(chǎn)生的梯度爆炸或梯度消失的題,非常適合文本類時序特征的數(shù)據(jù),單元結(jié)構(gòu)如圖3所示.
圖3 LSTM單元結(jié)構(gòu)
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
(8)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
(9)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
(10)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
(11)
ht=ottanh(ct)
(12)
改進的LSTM通過門控機制實現(xiàn)長時序類型數(shù)據(jù)的編碼,但是單向的LSTM只能對數(shù)據(jù)從一個方向編碼,即無法編碼從后到前的信息,這就導(dǎo)致句子語義理解不充分.BiLSTM綜合考慮了正向特征提取和逆向特征提取,構(gòu)建了兩個方向相反的隱藏層,通過這種方式,BiLSTM可以更好地捕捉雙向的語義依賴,取得更好的語義表達效果.
輸出的預(yù)測標(biāo)簽之間的依賴關(guān)系也是術(shù)語抽取很重要的一個方面.比如以“I-TERM”作為單詞首詞的標(biāo)簽就是一個非法標(biāo)簽,因為一個單詞只可能是兩種情況,一種是術(shù)語,標(biāo)簽是“B-TERM”,一種不是術(shù)語,標(biāo)簽是“O-TERM”,利用條件隨機場模型[23]則可以規(guī)避這種非法情況的發(fā)生.通過為預(yù)測的標(biāo)簽添加一些約束,通過概率轉(zhuǎn)移矩陣捕捉標(biāo)簽之間的依賴關(guān)系,排除非法用語的情況,獲得一個最優(yōu)的預(yù)測序列,彌補BiLSTM的缺點.
對于任一給定的輸入序列X=(x1,x2,…,xn),其對應(yīng)標(biāo)簽序列Y=(y1,y2,…,yn)的CRF評估分數(shù)函數(shù)可以由公式(13)表示:
(13)
公式中的W表示轉(zhuǎn)移分數(shù)矩陣,Wyi-1,yi表示標(biāo)簽yi-1轉(zhuǎn)移到標(biāo)簽yi的分數(shù),Pi,yi表示第i個詞xi映射到標(biāo)簽yi的非歸一化概率.
預(yù)測序列概率p(Y|X)可以通過如下的softmax函數(shù)來進行計算:
(14)
兩頭取對數(shù)得到預(yù)測序列的似然函數(shù):
(15)
(16)
本文利用BERT-BiLSTM-CRF模型抽取面向新能源領(lǐng)域的專利術(shù)語,整體流程如圖4所示,主要包括以下幾個方面,分別是新能源領(lǐng)域?qū)@谋緮?shù)據(jù)集的獲取與處理、新能源領(lǐng)域術(shù)語詞典的構(gòu)建、語料的自動標(biāo)注及人工校對、模型訓(xùn)練和結(jié)果評測.
圖4 實驗整體流程圖
本文實驗所采用的新能源領(lǐng)域的專利文本是從SooPAT網(wǎng)站(1)http://www.soopat.com/上下載下來,然后經(jīng)過處理手工構(gòu)建的語料.以“新能源”、“太陽能”、“風(fēng)能”、“生物質(zhì)能”、“地?zé)崮堋?、“核能”為關(guān)鍵詞對新能源專利進行搜索,將獲取下來的專利文本按一定規(guī)則進行預(yù)處理,以句號為分隔符將摘要和權(quán)利要求書進行切分,并進行標(biāo)點符號規(guī)范化處理,隨機挑選其中3002條數(shù)據(jù)用作實驗對象,2101條句子用于訓(xùn)練,601條用于驗證,300條用于測試.
新能源領(lǐng)域術(shù)語集的構(gòu)建大致可以分為兩類:一類是對現(xiàn)有術(shù)語資源的整理,主要參考了《GB/T 10097-2018地?zé)崮苄g(shù)語》《GB/T 30366-2013生物質(zhì)術(shù)語》《GB/T 33543.1-2017海洋能術(shù)語第1部分通用》《GB/T 24548-2009燃料電池電動汽車術(shù)語》等標(biāo)準文件中所包含的術(shù)語詞條以及專業(yè)詞典、相關(guān)論著、權(quán)威網(wǎng)站涉及到的專業(yè)術(shù)語等.另一類是對新能源專利文本里涉及的術(shù)語進行手工識別和整理.篩選的標(biāo)準參考了標(biāo)準文件中的樣式,術(shù)語需要具有領(lǐng)域代表性、單義性、準確性和簡明性,根據(jù)實際情況,對新能源領(lǐng)域術(shù)語集進行了修正和更新,術(shù)語樣例展示如表1所示.通過對以上資料進行整理及人工篩選,總共得到新能源領(lǐng)域術(shù)語26873個,其中訓(xùn)練集中包含6206個術(shù)語,驗證集中包含術(shù)語2122個,測試集中包含術(shù)語1145個,數(shù)據(jù)集統(tǒng)計如表2所示.
表1 術(shù)語樣例展示
表2 數(shù)據(jù)集統(tǒng)計信息
為了減少人工標(biāo)注的成本,本文采用基于以上手工構(gòu)建的領(lǐng)域術(shù)語表自動標(biāo)注訓(xùn)練語料和測試語料中的術(shù)語,先利用jieba庫對新能源語料按自定義詞典進行分詞,然后采用代碼匹配的方式自動標(biāo)注術(shù)語,如算法1所示.由于新能源領(lǐng)域詞典中的術(shù)語數(shù)量有限,不可能涵蓋文本中的全部術(shù)語,另外術(shù)語實體存在縮寫、嵌套、中英文混合等情況,本文的數(shù)據(jù)在自動標(biāo)注以后又人工校對了一遍,把與新能源領(lǐng)域不相關(guān)的術(shù)語詞處理掉.采用BIO三元標(biāo)注的方法,B-TERM表示術(shù)語實體的第一個詞,I-TERM表述術(shù)語實體的非首字,O表示當(dāng)前字符不是術(shù)語實體.表3是新能源術(shù)語實體的示例標(biāo)注,每一行是一個字及其對應(yīng)的標(biāo)簽,之間用空格分開,句與句之間用空行隔開.
表3 新能源專利文本標(biāo)注樣例
算法1.Bert Char Tagging
Infile:each line is segmented by terms
Outfile:BERT-tagged format file
1.terms ← list of new energy terms
2.forline in Infiledo
3. word_list ← Split line with space separator
4.forword in word_listdo
5.iflen(word)==1then
6. Outfile ← word+O-TERM
7.elseif
8. Outfile ← word+B-TERM
9.forw in word[1:len(word)-1]do
10. Outfile ← word+I-TERM
11.endfor
12. Outfile ← word+I-TERM
13.else
14.forw in worddo
15. Outfile ← word+O
16.endfor
17.endif
18. Outfile ← “ ”
19.endfor
20.endfor
本文采取了準確率(P)、召回率(R)和F1值3個指標(biāo)來驗證所提出模型的有效性,具體計算如公式(17)-公式(19)所示:
(17)
(18)
(19)
4.3.1 實驗環(huán)境配置
BERT-BiLSTM-CRF新能源專利術(shù)語抽取模型的運行環(huán)境為64位Ubuntu16.04操作系統(tǒng),具體實驗的訓(xùn)練環(huán)境如表4所示.
表4 訓(xùn)練環(huán)境配置
4.3.2 實驗參數(shù)配置
本文實驗采用了Google提供的BERT中文預(yù)訓(xùn)練BERT-base模型,transformer有12層,隱藏層維度為768,12個attention-head,共110M個參數(shù).實驗中BERT模型參數(shù)設(shè)置batchsize為32,dropout為0.5,learning_rate為1e-5,BiLSTM中前后隱藏狀態(tài)維度為128,clip為0.5,使用Adam優(yōu)化器最小化模型損失,具體超參數(shù)設(shè)定如表5所示.
表5 參數(shù)設(shè)置
4.3.3 實驗結(jié)果
為了驗證BERT-BiLSTM-CRF模型對新能源專利術(shù)語抽取結(jié)果的有效性,本文選取了以下兩種模型進行實驗對比.模型1是BiLSTM-CRF模型,該模型是序列標(biāo)注領(lǐng)域的經(jīng)典模型,采用傳統(tǒng)預(yù)訓(xùn)練好的詞向量,對輸入字符序列進行上下文語義的學(xué)習(xí),然后通過CRF模型輸出全局最優(yōu)的標(biāo)記序列.模型2是基于Glove字嵌入結(jié)合LSTM-CRF模型,先使用Glove預(yù)訓(xùn)練模型完成詞向量訓(xùn)練,接著BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)使用Glove輸出的文本詞嵌入向量繼續(xù)訓(xùn)練.模型3是本文所研究的基于BERT-BiLSTM-CRF新能源專利術(shù)語抽取模型.實驗對比結(jié)果如表6所示,可以看到模型1達到了84.79%的F1值,模型2比模型1提高了約5個百分點,BERT-BiLSTM-CRF新能源專利術(shù)語抽取模型在準確率、召回率和F1值較其它兩個模型都有較高的提升,F(xiàn)1達到了92.28%.為了更加進一步直觀地對比3個模型在準確率,召回率和F1值的實驗效果,圖5列出了各個對比實驗的的柱狀圖結(jié)果:
表6 基于深度神經(jīng)網(wǎng)絡(luò)的術(shù)語抽取模型實驗結(jié)果
圖5 3種術(shù)語抽取模型實驗結(jié)果
4.3.4 實驗分析
通過圖5和表6的結(jié)果我們可以看出,本文所提出的基于BERT-BiLSTM-CRF的新能源專利術(shù)語抽取模型在精確率、召回率和F1值3方面均優(yōu)于其它模型.表7是3種模型對3個不同句子術(shù)語抽取結(jié)果的展示.可以觀察到,模型1僅使用了BiLSTM-CRF模型,雖然得到了84.79%的F1值,能抽取出句子中部分的新能源領(lǐng)域的專利術(shù)語,但是抽取的結(jié)果不夠全面,還有一些字符數(shù)量較長的術(shù)語未識別出來,最終抽取效果還有提高的空間.模型2在實驗1的基礎(chǔ)之上加入了Glove字嵌入向量,實驗的準確率提高了5.44%,召回率提高了5.14%,F(xiàn)1值提高了5.28%.由此可以得出,加入字嵌入的詞向量更好地結(jié)合了上下文,對提高新能源領(lǐng)域?qū)@g(shù)語的抽取起到了一定的作用,但由于Glove模型是基于詞語進行的分詞,可能會存在專業(yè)術(shù)語詞切分不當(dāng)、術(shù)語之間邊界切分不準確而導(dǎo)致詞向量學(xué)習(xí)效果不佳的問題,術(shù)語抽取結(jié)果不全.為了解決這個問題,本文所提出的BERT-BiLSTM-CRF新能源領(lǐng)域術(shù)語抽取模型是基于字粒度的,不存在分詞錯誤帶來的影響,因此對文本語義的理解會更加透徹,最終實驗取得了92.28%的F1值.而且在實際新能源專利文本術(shù)語抽取中能夠有效地識別出字符較多的新能源專利長序列術(shù)語,如表7中黑色加粗的字體所示,說明BERT預(yù)訓(xùn)練語言模型生成的字向量能更好地學(xué)習(xí)到術(shù)語詞與其他詞語之間的關(guān)系,取得比傳統(tǒng)的詞嵌入向量更加準確的術(shù)語實體抽取效果.
表7 3種術(shù)語抽取模型結(jié)果的樣例說明
通過在新能源領(lǐng)域?qū)@谋旧系膶嶒烌炞C,本文設(shè)計的經(jīng)過預(yù)訓(xùn)練之后的基于BERT-BiLSTM-CRF的新能源專利術(shù)語抽取模型不需要在模型中添加人工特征,僅僅通過利用程序自動標(biāo)注語料,然后需要少量的人工校對成本,就能夠取得有競爭力的實驗效果,節(jié)省了大量的人力物力.在實際的新能源專利文本的術(shù)語抽取中,尤其是針對字符數(shù)量較多的新能源專利術(shù)語也能有效抽出,因此具有較好的跨領(lǐng)域、跨行業(yè)應(yīng)用前景
綜上所述,本文針對新能源領(lǐng)域中文術(shù)語的抽取任務(wù),構(gòu)建了一個新能源領(lǐng)域?qū)@谋镜恼Z料庫和術(shù)語詞典,提出了一種基于深度學(xué)習(xí)的BERT-BiLSTM-CRF新能源專利術(shù)語抽取方法,通過對比實驗結(jié)果可以得出,利用BERT對新能源專利文本進行向量化,能有效提高術(shù)語抽取結(jié)果的準確率,抽取效果優(yōu)于當(dāng)前主流的深度學(xué)習(xí)術(shù)語抽取模型,并在新能源領(lǐng)域?qū)@谋拘g(shù)語抽取中得到了實際應(yīng)用,可以識別出字符較多的新能源專利長序列術(shù)語.本文下一步的工作重點是繼續(xù)擴大領(lǐng)域核心詞典,在現(xiàn)有模型抽取結(jié)果的基礎(chǔ)上制定高效可行的規(guī)則篩選新能源術(shù)語,自動標(biāo)注并訓(xùn)練更大規(guī)模的新能源領(lǐng)域?qū)@g(shù)語抽取模型,進一步提高模型的泛化性,從而構(gòu)建更豐富的新能源領(lǐng)域?qū)@g(shù)語詞典.