国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融入BERT的企業(yè)年報(bào)命名實(shí)體識(shí)別方法

2021-03-02 13:30:18張靖宜賀光輝劉亞?wèn)|
關(guān)鍵詞:年報(bào)語(yǔ)料庫(kù)注意力

張靖宜, 賀光輝, 代 洲, 劉亞?wèn)|

(1. 上海交通大學(xué) 電子信息與電氣工程學(xué)院, 上海 200240; 2. 南方電網(wǎng)物資有限公司, 廣州 510641)

命名實(shí)體識(shí)別作為自然語(yǔ)言處理領(lǐng)域中的一項(xiàng)重要技術(shù),與關(guān)系抽取[1]、事件抽取[2]、問(wèn)答系統(tǒng)等其他自然語(yǔ)言處理任務(wù)的基礎(chǔ)相關(guān).其主要負(fù)責(zé)準(zhǔn)確、自動(dòng)識(shí)別指定語(yǔ)料中實(shí)體(專有名詞或有價(jià)值的短語(yǔ))的邊界并劃分實(shí)體類別.對(duì)企業(yè)年報(bào)進(jìn)行命名實(shí)體識(shí)別可獲得企業(yè)的基本信息和財(cái)務(wù)數(shù)據(jù),為企業(yè)評(píng)價(jià)系統(tǒng)提供數(shù)據(jù)支撐,有助于企業(yè)掌握行業(yè)發(fā)展現(xiàn)狀和趨勢(shì)、規(guī)劃發(fā)展方向、評(píng)估合作伙伴等.因此,準(zhǔn)確識(shí)別企業(yè)年報(bào)中的命名實(shí)體是建立企業(yè)評(píng)價(jià)系統(tǒng)的重要途徑.

目前,命名實(shí)體識(shí)別方法包括:基于規(guī)則和字典、統(tǒng)計(jì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí).其中,基于規(guī)則和字典的方法需要手動(dòng)建立知識(shí)庫(kù)和字典,耗時(shí)長(zhǎng)且移植性差.基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法應(yīng)用較廣泛,如隱馬爾科夫模型(HMM)、條件隨機(jī)場(chǎng)(CRF)、最大熵模型(ME)等,但以上方法需要人工設(shè)定特征模板,對(duì)語(yǔ)料庫(kù)的依賴性較大且對(duì)特征選取要求較高.與基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法相比,基于深度學(xué)習(xí)的方法能自動(dòng)獲取語(yǔ)料特征,命名實(shí)體識(shí)別的性能更好.由于命名實(shí)體的標(biāo)簽之間的依賴關(guān)系較強(qiáng),所以Huang等[3]將雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)和CRF結(jié)合,所得模型能夠利用過(guò)去和將來(lái)的信息更好地挖掘上下文關(guān)系.Chiu等[4-5]將BiLSTM和卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)合,所得模型能夠更好地利用前、后綴的字符級(jí)特征,減少人工構(gòu)造特征.Cho等[6]提出了門控循環(huán)單元(GRU),其比長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)少一個(gè)門,結(jié)構(gòu)更簡(jiǎn)單,訓(xùn)練速度更快.王潔等[7]將字向量作為輸入,利用BiGRU-CRF模型提取會(huì)議名稱的語(yǔ)料特征,發(fā)現(xiàn)與LSTM相比,GRU的訓(xùn)練時(shí)間減少了15%.Bharadwaj等[8]在BiLSTM-CRF模型的基礎(chǔ)上融入注意力機(jī)制,使模型更關(guān)注于對(duì)當(dāng)前輸出貢獻(xiàn)大的字符.Cao等[9]提出利用對(duì)抗遷移學(xué)習(xí)框架進(jìn)行命名實(shí)體識(shí)別,通過(guò)提取不同任務(wù)中的共享詞邊界信息并利用自注意力機(jī)制,學(xué)習(xí)句子中任意2個(gè)字符之間的依賴關(guān)系.Vaswani等[10]提出了利用自注意力機(jī)制快速并行的一種包含編碼器和解碼器的轉(zhuǎn)換器(Transformer)模型.Devlin等[11]提出了能夠更好獲取字符、詞語(yǔ)和句子級(jí)別關(guān)系特征的基于轉(zhuǎn)換器的雙向編碼器表示(BERT)預(yù)訓(xùn)練語(yǔ)言模型.

對(duì)企業(yè)年報(bào)進(jìn)行識(shí)別的難點(diǎn)主要如下:① 專業(yè)財(cái)務(wù)術(shù)語(yǔ)、企業(yè)名稱實(shí)體繁多.其中,如凈利潤(rùn)、營(yíng)業(yè)收入等財(cái)務(wù)術(shù)語(yǔ)的專業(yè)性較強(qiáng);企業(yè)名稱包括以“有限公司”“集團(tuán)”等為尾的全稱和僅包含企業(yè)名稱關(guān)鍵信息的簡(jiǎn)稱;② 數(shù)值信息多且數(shù)字實(shí)體的識(shí)別難度大,如“公司2011年末總資產(chǎn)和歸屬于上市公司股東的所有者權(quán)益分別為 170 704.67 萬(wàn)元和 156 542.08 萬(wàn)元”,需要正確識(shí)別出財(cái)務(wù)術(shù)語(yǔ)對(duì)應(yīng)的數(shù)值信息及其單位;③ 財(cái)務(wù)數(shù)值相對(duì)于上年變化趨勢(shì)的描述方式多變,如下降10%、同上年持平等;④ 企業(yè)年報(bào)語(yǔ)料庫(kù)規(guī)模較小,僅為1998年人民日?qǐng)?bào)語(yǔ)料庫(kù)的19.28%.

針對(duì)以上問(wèn)題,提出BERT-BiGRU-Attention-CRF融合模型.在基礎(chǔ)模型BiGRU-CRF上引入BERT預(yù)訓(xùn)練語(yǔ)言模型,并在大型語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練學(xué)習(xí)語(yǔ)義特征,補(bǔ)足企業(yè)年報(bào)語(yǔ)料庫(kù)的特征,克服語(yǔ)料庫(kù)規(guī)模小的問(wèn)題.同時(shí),BERT利用Transformer模型提升自身模型的抽取能力,能夠更好地明確實(shí)體邊界.此外,在BiGRU-CRF模型中引入注意力機(jī)制,便于理解句子結(jié)構(gòu),從而充分挖掘上下文的語(yǔ)義信息,進(jìn)一步提升實(shí)體的識(shí)別性能.

1 企業(yè)年報(bào)數(shù)據(jù)集的構(gòu)建

目前,關(guān)于企業(yè)年報(bào)的命名實(shí)體識(shí)別方法的研究較少,且缺乏實(shí)驗(yàn)測(cè)試所需的典型數(shù)據(jù)集,因此本文利用網(wǎng)絡(luò)爬蟲技術(shù)抓取企業(yè)官方年報(bào),自行構(gòu)建和標(biāo)注該領(lǐng)域的數(shù)據(jù)集.具體構(gòu)建步驟如下:

(1) 數(shù)據(jù)預(yù)處理.利用正則表達(dá)式從每份年報(bào)中自動(dòng)提取出“企業(yè)經(jīng)營(yíng)概況”標(biāo)題下的語(yǔ)段.

(2) 實(shí)體類別確立.構(gòu)建企業(yè)評(píng)價(jià)系統(tǒng)需要從企業(yè)年報(bào)中獲取企業(yè)的基本信息和經(jīng)營(yíng)狀況.其中,基本信息包括年份和企業(yè)名稱共兩類實(shí)體;通過(guò)閱讀企業(yè)年報(bào)和利用詞頻-逆文檔頻次(TF-IDF)算法[12]提取關(guān)鍵詞的方式,選取與“利潤(rùn)”和“收入”相關(guān)的財(cái)務(wù)指標(biāo)概括企業(yè)的經(jīng)營(yíng)狀況.自行標(biāo)注的實(shí)體共7大類,如表1所示.

表1 企業(yè)年報(bào)實(shí)體Tab.1 Entities of enterprise annual report

(3) 標(biāo)注體系.實(shí)驗(yàn)采用的標(biāo)注體系為BIO.其中,B代表實(shí)體的起始位置,I代表實(shí)體中除起始位置的其他部分,O代表非實(shí)體部分.需要預(yù)測(cè)的實(shí)體共15小類,標(biāo)注示例如表2所示.

表2 標(biāo)注示例Tab.2 A example of labeling

2 BERT-BiGRU-Attention-CRF模型

本模型由BERT預(yù)訓(xùn)練語(yǔ)言模型、BiGRU網(wǎng)絡(luò)、注意力機(jī)制和CRF層構(gòu)成.首先,把輸入字符的字向量、文本向量和位置向量之和作為BERT的輸入.利用BERT獲取上下文語(yǔ)義信息,把融合語(yǔ)義后的輸出向量輸入到BiGRU網(wǎng)絡(luò)進(jìn)行編碼,前向GRU網(wǎng)絡(luò)學(xué)習(xí)未來(lái)特征,反向GRU網(wǎng)絡(luò)學(xué)習(xí)歷史特征.然后,將挖掘得到的全局特征,即t時(shí)刻的隱藏狀態(tài)(ht)作為輸出,并利用注意力機(jī)制補(bǔ)足局部特征,預(yù)測(cè)出輸入文本序列與標(biāo)簽之間的關(guān)系.最后,利用CRF進(jìn)行解碼預(yù)測(cè)標(biāo)簽之間的合理性關(guān)系,輸出最佳標(biāo)簽序列,模型結(jié)構(gòu)如圖1所示.

圖1 BERT-BiGRU-Attention-CRF模型結(jié)構(gòu)Fig.1 Structure of BERT-BiGRU-Attention-CRF model

2.1 BERT預(yù)訓(xùn)練語(yǔ)言模型

BERT預(yù)訓(xùn)練語(yǔ)言模型將深度學(xué)習(xí)的思想融入語(yǔ)言模型中,可將詞表征為向量形式, 從而獲取詞語(yǔ)之間的相似度[13].在雙向Transformer編碼器(見圖2)的基礎(chǔ)上,該模型提出了“掩碼(Masked)語(yǔ)言模型”和“下一句預(yù)測(cè)模型”.Masked語(yǔ)言模型通過(guò)對(duì)語(yǔ)料中15%的信息進(jìn)行遮蓋,最大程度地使模型在每1個(gè)詞上都能夠?qū)W習(xí)到全局語(yǔ)境下的表征,從而令BERT獲得的相關(guān)詞向量更貼合語(yǔ)境.具體遮蓋方法為80%的遮蓋信息替換為[MASK];10%的遮蓋信息替換為任意詞;剩余10%的遮蓋信息保持不變.同時(shí),BERT也借鑒了Skip-thoughts中的句子預(yù)測(cè)方法[14],可以學(xué)習(xí)句子級(jí)別的語(yǔ)義關(guān)系:為每個(gè)預(yù)測(cè)樣例選擇1個(gè)句子對(duì)A和B,讓模型預(yù)測(cè)A和B是否先后近鄰,從而將“下一句預(yù)測(cè)”問(wèn)題轉(zhuǎn)化為二分類問(wèn)題.其中,50%的B為A的下一個(gè)句子,標(biāo)記為“IsNext”;剩余50% 的B為語(yǔ)料庫(kù)中的1個(gè)隨機(jī)句子,標(biāo)記為“NotNext”.具體編碼過(guò)程如下所示.

圖2 Transformer編碼器結(jié)構(gòu)Fig.2 Structure of Transformer encoder

首先,將輸入序列X=(x1,x2, …,xT) 經(jīng)過(guò)詞嵌入(EL)和位置編碼(PE)加和后作為Transformer編碼器的輸入:

Xe=EL(X)+PE(X)

(1)

式中:Xe為經(jīng)過(guò)詞嵌入和位置編碼后的輸入序列.位置編碼提供每個(gè)字符的位置信息, 以便Transformer理解句中字詞的順序關(guān)系.詞語(yǔ)在句子中的位置不同可能導(dǎo)致語(yǔ)義不同,因此需要對(duì)序列中詞語(yǔ)的位置進(jìn)行編碼:

(2)

(3)

式中: pos為詞語(yǔ)在句子中的位置;dmodel為PE的維度.

為了提取多重語(yǔ)意含義,輸入向量需要經(jīng)過(guò)1個(gè)多頭自注意力機(jī)制層:

(4)

(5)

式中:dk為輸入向量的維度.利用注意力權(quán)重對(duì)字向量進(jìn)行加權(quán)線性組合,使每個(gè)字向量都含有當(dāng)前句子內(nèi)所有字向量的信息.

然后,對(duì)上一步的輸出做一次殘差連接(X1)和層歸一化:

X1=Xe+Attention(Q,K,V)

(6)

(7)

最后,將經(jīng)過(guò)殘差連接和層歸一化處理后的信息輸入到前饋神經(jīng)網(wǎng)絡(luò)中,重復(fù)進(jìn)行一次殘差連接和層歸一化后輸出.

2.2 BiGRU神經(jīng)網(wǎng)絡(luò)

GRU是LSTM的變體.相比于由3個(gè)門函數(shù)(輸入門、遺忘門和輸出門)構(gòu)成的LSTM,GRU僅由2個(gè)門函數(shù)構(gòu)成,即更新門(輸入門和遺忘門的結(jié)合體,決定過(guò)去傳遞到未來(lái)的信息量)和重置門(決定過(guò)去信息的被遺忘量).2個(gè)門控機(jī)制能夠保存長(zhǎng)期序列中的信息,決定哪些信息能夠作為門控循環(huán)單元的輸出.此外,GRU具有模型精簡(jiǎn)、計(jì)算速度快、參數(shù)少等優(yōu)勢(shì),在小樣本數(shù)據(jù)集上的泛化效果更好.GRU的具體結(jié)構(gòu)如圖3所示,表達(dá)如下:

(8)

圖3 GRU結(jié)構(gòu)Fig.3 Structure of GRU

2.3 注意力機(jī)制層

BiGRU網(wǎng)絡(luò)在獲取語(yǔ)料局部特征上存在不足.因此,本文利用注意力機(jī)制學(xué)習(xí)句子中任意2個(gè)字符之間的依賴關(guān)系,獲取句子的內(nèi)部結(jié)構(gòu)信息.注意力機(jī)制使命名實(shí)體識(shí)別模型更專注于挖掘與當(dāng)前時(shí)刻輸出相關(guān)的輸入信息和局部信息.利用注意力機(jī)制對(duì)BiGRU層輸出的特征向量(hj)進(jìn)行權(quán)重(atj)分配,計(jì)算得到t時(shí)刻BiGRU和注意力機(jī)制層共同輸出的特征向量(ct),并作為最后的輸出:

(9)

式中:etj為對(duì)齊模型;v、w和m為權(quán)重向量.

2.4 CRF層

BiGRU層雖然可以學(xué)習(xí)上下文之間的特征信息,選出最大概率值的標(biāo)簽作為輸出,但是不能獲取輸出標(biāo)簽之間的依賴關(guān)系,可能導(dǎo)致2個(gè)相同標(biāo)簽相互接連.而CRF具有轉(zhuǎn)移特征,能夠考慮輸出標(biāo)簽之間的順序性.因此,選擇CRF作為BiGRU和注意力機(jī)制的輸出層.

(10)

式中:pi,yi為第i個(gè)位置標(biāo)簽輸出為yi的概率;Ayi,yi+1為從標(biāo)簽yi轉(zhuǎn)移到y(tǒng)i+1的轉(zhuǎn)移概率.對(duì)于每一個(gè)X′,得到所有可能的標(biāo)簽序列的分?jǐn)?shù),則歸一化結(jié)果和損失函數(shù)分別為

(11)

ln(p(y|x′))=s(X′,y)-

(12)

最后,利用維特比(Viterbi)算法[15]得到最佳預(yù)測(cè)標(biāo)簽序列:

y*=argmax(s(X,y))

(13)

Viterbi算法利用動(dòng)態(tài)規(guī)劃算法解決CRF的預(yù)測(cè)問(wèn)題,可以尋找概率最大狀態(tài)路徑.

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集及標(biāo)注體系

實(shí)驗(yàn)搜集了近5年的企業(yè)年報(bào),涵蓋 2 927 家公司,共 13 129 份.經(jīng)過(guò)數(shù)據(jù)清洗和預(yù)處理后,按照6∶2∶2的比例將其劃分為訓(xùn)練集、測(cè)試集和開發(fā)集.表3為企業(yè)年報(bào)數(shù)據(jù)集的詳細(xì)結(jié)構(gòu),表4為數(shù)據(jù)集中實(shí)體類別個(gè)數(shù)分布.

表3 企業(yè)年報(bào)數(shù)據(jù)集結(jié)構(gòu)Tab.3 Dataset structure of enterprise annual report

表4 實(shí)體類別個(gè)數(shù)分布Tab.4 Number distribution of entity categories

3.2 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置

在Python 3.7.3和Tensorflow 1.13.1框架下進(jìn)行模型的訓(xùn)練和測(cè)試.實(shí)驗(yàn)利用BERT-Base模型,其含有12個(gè)Transformer層,768維隱層和12頭多頭注意力機(jī)制.GRU網(wǎng)絡(luò)的隱層設(shè)為128維.注意力機(jī)制層設(shè)置為50維,最大序列長(zhǎng)度設(shè)置為256.優(yōu)化函數(shù)采用Adam,學(xué)習(xí)率設(shè)置為5×10-5,dropout層設(shè)置為0.5.

3.3 評(píng)估標(biāo)準(zhǔn)

實(shí)驗(yàn)利用精確率(P)、召回率(R)和F1值共3個(gè)指標(biāo)評(píng)價(jià)7大類實(shí)體的命名實(shí)體識(shí)別效果,3個(gè)評(píng)價(jià)指標(biāo)的計(jì)算方法如下:

P=a/b

(14)

R=a/c

(15)

F1=2PR/(P+R)

(16)

式中:a為正確識(shí)別實(shí)體數(shù);b為識(shí)別實(shí)體總數(shù);c為所有實(shí)體總數(shù).

4 實(shí)驗(yàn)結(jié)果與分析

BERT-BiGRU-Attention-CRF模型對(duì)不同實(shí)體的識(shí)別效果如表5所示.其中 “年份”“企業(yè)名稱”“財(cái)務(wù)術(shù)語(yǔ)”“利潤(rùn)類/收入類數(shù)值”實(shí)體有較高的P、R和F1值.模型對(duì)“利潤(rùn)類/收入類數(shù)值同上年變化趨勢(shì)”實(shí)體的識(shí)別性能相對(duì)較差,主要是由于該類實(shí)體表達(dá)形式較復(fù)雜,包括純文字表達(dá)、文字和數(shù)字組合表達(dá)等,且描述變化趨勢(shì)的文字表達(dá)形式多樣.對(duì)此,可以通過(guò)深入的劃分實(shí)體、融合詞典特征和改進(jìn)模型等方式,令實(shí)體學(xué)習(xí)更多語(yǔ)義特征.

為了驗(yàn)證BERT-BiGRU-Attention-CRF模型在企業(yè)年報(bào)命名實(shí)體識(shí)別中的優(yōu)異性,在同一數(shù)據(jù)集上,分別對(duì)CRF、 BiGRU-CRF、BiGRU-Attention-CRF和BERT-BiGRU-CRF模型進(jìn)行實(shí)驗(yàn),對(duì)比結(jié)果如表6所示.此外,利用雷達(dá)圖顯示不同實(shí)體在不同模型上的F1值,如圖4所示.由圖4可知,BERT-BiGRU-Attention-CRF模型在7大類實(shí)體上的F1值都處于較高水平,說(shuō)明該模型在企業(yè)年報(bào)領(lǐng)域的識(shí)別性能高于其他模型.

表5 不同實(shí)體識(shí)別效果Tab.5 Recognition effect of different entities %

表6 不同模型實(shí)驗(yàn)結(jié)果Tab.6 Experimental result of different models %

圖4 不同實(shí)體在不同模型上的F1值(%)Fig.4 F1 values of different entities in different models (%)

不同模型結(jié)合不同實(shí)體的具體分析如下:

(1) CRF模型是基于統(tǒng)計(jì)的命名實(shí)體識(shí)別方法,由于CRF是在分詞的基礎(chǔ)上通過(guò)設(shè)置特征模板獲取語(yǔ)料的特征,所以對(duì)“企業(yè)名稱”“財(cái)務(wù)術(shù)語(yǔ)”“利潤(rùn)類/收入類數(shù)值”和“利潤(rùn)類/收入類數(shù)值同上年變化趨勢(shì)”這4類屬于未登錄詞的實(shí)體識(shí)別效果較差,其F1值均在68%以下.

(2) 相比于CRF模型,BiGRU-CRF模型整體的F1值提高了12.3%,且對(duì)未登錄詞實(shí)體的邊界劃分更準(zhǔn)確.這是因?yàn)槲吹卿浽~實(shí)體的構(gòu)成較復(fù)雜、詞長(zhǎng)較長(zhǎng),CRF特征模板只能在有限的窗口范圍內(nèi)進(jìn)行提取,而BiGRU網(wǎng)絡(luò)可以更好地利用上下文的語(yǔ)義特征,如更善于區(qū)分 “凈利潤(rùn)”和“歸屬于母公司的凈利潤(rùn)”這類易混淆詞語(yǔ)、識(shí)別出更多完整的企業(yè)名稱和簡(jiǎn)稱.

(3) 相比于BiGRU-CRF模型,BiGRU-Attention-CRF模型的F1值提高了2.38%.句子中不同的字詞和上下文的關(guān)聯(lián)程度不同,而注意力機(jī)制可以關(guān)注更多的局部特征,特別是和當(dāng)前輸出有關(guān)聯(lián)的信息,如識(shí)別句“實(shí)現(xiàn)凈利潤(rùn)13億元”中的“利潤(rùn)類數(shù)值”實(shí)體,詞語(yǔ)“凈利潤(rùn)”與實(shí)體的關(guān)聯(lián)程度大于詞語(yǔ)“實(shí)現(xiàn)”,則注意力機(jī)制會(huì)更關(guān)注 “凈利潤(rùn)”和實(shí)體之間的關(guān)系.

(4) 相比于BiGRU-CRF模型,BERT-BiGRU-CRF模型的F1值提高了6.96%;相比于BiGRU-Attention-CRF模型,BERT-BiGRU-Attention-CRF模型的F1值提高了6.18%,具體反映為“收入類數(shù)值”和“利潤(rùn)類數(shù)值同上年變化趨勢(shì)”2類實(shí)體的F1值分別提高10.38%和25.31%.這2類實(shí)體和上下文之間的關(guān)聯(lián)較強(qiáng),且表達(dá)方式較靈活,如在字詞級(jí)別方面,“數(shù)值”實(shí)體中單位的表示方式有元、萬(wàn)元、億元等;在句子級(jí)別方面,“數(shù)值同上年變化趨勢(shì)”實(shí)體有文字-數(shù)字結(jié)合(漲幅/增長(zhǎng)/下降+百分比)和純文字描述(創(chuàng)下新高、扭虧為盈)共2種表達(dá)方式.此外,融入BERT模型的企業(yè)年報(bào)命名識(shí)別方法更能夠結(jié)合語(yǔ)義找到數(shù)值和財(cái)務(wù)術(shù)語(yǔ)的映射關(guān)系,尤其適用于同時(shí)包含2個(gè)數(shù)值的句字,如“營(yíng)業(yè)收入和主營(yíng)業(yè)務(wù)收入分別為13萬(wàn)元和10萬(wàn)元”.綜上可知,BERT通過(guò)在大型語(yǔ)料庫(kù)上學(xué)習(xí)獲得更多語(yǔ)義特征,可以對(duì)企業(yè)年報(bào)這一小規(guī)模語(yǔ)料庫(kù)進(jìn)行特征補(bǔ)足;其利用雙向Transformer結(jié)構(gòu)進(jìn)行基于上下文語(yǔ)境的深度雙向語(yǔ)義理解,提高特征抽取的能力和邊界不明顯且表述靈活實(shí)體的識(shí)別效果.此外,BERT能夠?qū)W習(xí)字符級(jí)、詞級(jí)和句子級(jí)關(guān)系特征,可以更全面地理解句子語(yǔ)義.

5 結(jié)語(yǔ)

企業(yè)年報(bào)命名實(shí)體識(shí)別為企業(yè)評(píng)價(jià)系統(tǒng)的建設(shè)提供了基本企業(yè)信息和經(jīng)營(yíng)情況的數(shù)據(jù)支撐.本文提出了BERT-BiGRU-Attention-CRF模型.在基礎(chǔ)模型BiGRU-CRF上引入BERT預(yù)訓(xùn)練語(yǔ)言模型,以獲得與上下文有關(guān)聯(lián)的雙向特征表示,更加深刻地理解語(yǔ)義,克服了企業(yè)年報(bào)語(yǔ)料庫(kù)規(guī)模小、實(shí)體專業(yè)性和映射關(guān)系強(qiáng)的問(wèn)題.然后,采用注意力機(jī)制改進(jìn)BiGRU-CRF模型,使模型可以選擇性地關(guān)注重要信息,提高信息的有效關(guān)注率.自建企業(yè)年報(bào)語(yǔ)料庫(kù)的識(shí)別結(jié)果表明:BERT-BiGRU-Attention-CRF模型能夠較好地識(shí)別企業(yè)年報(bào)中的實(shí)體,可以達(dá)到95.45%的精確率和91.99%的召回率以及93.68%的F1值,能夠滿足應(yīng)用需求.在后續(xù)研究中,將擴(kuò)大語(yǔ)料庫(kù)規(guī)模,進(jìn)一步完善并規(guī)范企業(yè)年報(bào)的實(shí)體標(biāo)注,提取更多有價(jià)值的實(shí)體,并在保證性能的基礎(chǔ)上,對(duì)模型結(jié)構(gòu)進(jìn)行簡(jiǎn)化.

猜你喜歡
年報(bào)語(yǔ)料庫(kù)注意力
我刊2021年影響因子年報(bào)
我刊2021年影響因子年報(bào)
我刊2021年影響因子年報(bào)
讓注意力“飛”回來(lái)
《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
A Beautiful Way Of Looking At Things
上市公司2015年年報(bào)重要數(shù)據(jù)
基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開發(fā)與實(shí)現(xiàn)
洞口县| 佛坪县| 铁岭市| 中方县| 广饶县| 长岛县| 固阳县| 静宁县| 永定县| 托克逊县| 尉氏县| 盐池县| 密山市| 鄂托克前旗| 南乐县| 兴业县| 丹凤县| 墨竹工卡县| 广宗县| 汽车| 涞源县| 托克逊县| 六盘水市| 油尖旺区| 肥乡县| 潼南县| 铁岭市| 贵州省| 绥化市| 天全县| 济宁市| 包头市| 汝南县| 通辽市| 平原县| 米泉市| 新民市| 济源市| 南昌市| 鞍山市| 万荣县|