陳月月,李燕,帥亞琦,徐麗娜,鐘昕妤
摘要:分詞作為中文自然語(yǔ)言處理中的基礎(chǔ)和關(guān)鍵任務(wù),其分詞效果的好壞會(huì)直接影響后續(xù)各項(xiàng)自然語(yǔ)言處理任務(wù)的結(jié)果。本文基于BERT-CRF的分詞模型利用通用領(lǐng)域數(shù)據(jù)集與醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,分別取得F1值0.898和0.738的實(shí)驗(yàn)結(jié)果。
關(guān)鍵詞:BERT;CRF;中文分詞;自然語(yǔ)言處理
中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)35-0004-03
自然語(yǔ)言處理(Natural Language Processing, NLP)是研究計(jì)算機(jī)理解和自然語(yǔ)言生成的信息處理[1]。隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)算法被廣泛應(yīng)用于各項(xiàng)自然語(yǔ)言處理任務(wù)中。分詞作為自然語(yǔ)言處理中的基礎(chǔ)和關(guān)鍵任務(wù),其結(jié)果會(huì)直接影響后續(xù)命名實(shí)體識(shí)別、關(guān)系抽取等自然語(yǔ)言處理相關(guān)工作的準(zhǔn)確性[2]。由于神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的自學(xué)習(xí)性和自適應(yīng)性,有助于提高中文分詞模型的性能,因此,現(xiàn)有的中文分詞模型大都結(jié)合了神經(jīng)網(wǎng)絡(luò)算法對(duì)分詞模型進(jìn)行構(gòu)建。
分詞的目的是將一個(gè)完整的句子分割為詞語(yǔ)級(jí)別[3]。不同于英文中以空格為分詞符號(hào)的分詞,在中文文本中,詞與詞之間沒(méi)有明確的分詞標(biāo)記,其以連續(xù)字符串的形式呈現(xiàn),且存在一詞多義和語(yǔ)境不同意義不同的現(xiàn)象。因此,做好中文分詞工作對(duì)處理所有的中文自然語(yǔ)言處理任務(wù)有著至關(guān)重要的作用。
1 相關(guān)工作
分詞模型是自然語(yǔ)言處理中最基本的語(yǔ)言處理模型之一。中文的語(yǔ)言結(jié)構(gòu)復(fù)雜,難以準(zhǔn)確地進(jìn)行詞語(yǔ)識(shí)別[4]。因此,中文分詞成為分詞任務(wù)中的熱點(diǎn)話題。中文分詞方法可以分為傳統(tǒng)的分詞方法和基于神經(jīng)網(wǎng)絡(luò)的分詞方法。
傳統(tǒng)的分詞方法包括基于詞典規(guī)則的方法和基于統(tǒng)計(jì)的方法?;谠~典規(guī)則的方法就是按照中文文本的順序?qū)⑵淝蟹殖蛇B續(xù)詞序,然后根據(jù)規(guī)則以及連續(xù)詞序是否在給定的詞典中來(lái)決定連續(xù)詞序?是否為最終的分詞結(jié)果[5]?;谠~典規(guī)則方法構(gòu)建的分詞模型分詞速度快、容易實(shí)現(xiàn),且其在特定領(lǐng)域分詞的準(zhǔn)確率較高,但其高度依賴詞典規(guī)則,針對(duì)詞典規(guī)則中未登錄詞的識(shí)別效果差。基于統(tǒng)計(jì)方法構(gòu)建的分詞模型,其主要思想是把字符序列中的每個(gè)詞都看作由字組成,計(jì)算字符序列中任意相鄰字符出現(xiàn)的概率,概率值越大則說(shuō)明相鄰字符成詞的可能性越大[6]?;诮y(tǒng)計(jì)方法構(gòu)建的分詞模型可以很好地識(shí)別未登錄詞,但模型復(fù)雜度高,存在人工特征提取工作量大、容易過(guò)擬合等問(wèn)題。
鑒于傳統(tǒng)分詞方法的各種不足,近年來(lái),隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的分詞方法逐漸成為分詞任務(wù)處理中的研究熱點(diǎn)?;谏窠?jīng)網(wǎng)絡(luò)的分詞方法構(gòu)建的分詞模型,其主要思想是將輸入序列中詞向量的元素值作為模型參數(shù),并使用神經(jīng)網(wǎng)絡(luò)和訓(xùn)練數(shù)據(jù)的學(xué)習(xí)來(lái)獲取模型的參數(shù)值。神經(jīng)網(wǎng)絡(luò)充分利用了文本自身所具有的有序性和詞共現(xiàn)信息的優(yōu)勢(shì),具有很強(qiáng)的自學(xué)習(xí)性和自適應(yīng)性,可以自動(dòng)從原始數(shù)據(jù)中提取特征,而無(wú)須人工構(gòu)造特征,避免了人工設(shè)置特征的局限性[7]。因此,神經(jīng)網(wǎng)絡(luò)算法在自然語(yǔ)言處理任務(wù)中得到了廣泛的應(yīng)用。張文靜等[8]提出了一種基于Lattice-LSTM的中文分詞模型,該模型集成了多粒度的分詞信息,在多粒度的中文分詞任務(wù)中取得了優(yōu)異的性能表現(xiàn);胡曉輝等[3]利用雙向LSTM可以提取輸入序列前后信息和卷積神經(jīng)網(wǎng)絡(luò)能夠提取文本局部特征信息的特點(diǎn),提出了基于BiLSTM-CNN-CRF的中文分詞模型,在中文分詞任務(wù)中取得了較好的效果。
2 基本原理
本文采用基于BERT-CRF的中文分詞模型對(duì)文本進(jìn)行分詞處理。模型結(jié)構(gòu)如圖1所示。主要包含基于BERT的詞嵌入層和CRF條件隨機(jī)場(chǎng)模型層。其中,BERT的詞嵌入層用于提取輸入文本序列的上下文信息;CRF用于進(jìn)行最后的序列標(biāo)注,將輸入的數(shù)據(jù)標(biāo)注成B、M、E、S的向量形式。
2.1 BERT詞嵌入層
BERT是從Transformer中衍生出來(lái)的預(yù)訓(xùn)練模型,2018年由Google團(tuán)隊(duì)提出。BERT模型采用深層雙向的Transformer組件來(lái)進(jìn)行模型構(gòu)建,打破了單向融合上下文的限制,生成了融合上下文信息的深層雙向語(yǔ)言表征[9]。BERT的結(jié)構(gòu)如圖2所示,其中,E1、E2…En為輸入向量; T1、T2…Tn為經(jīng)過(guò)多層Transformer編碼器后的輸出向量。
BERT預(yù)訓(xùn)練模型憑借龐大的語(yǔ)料庫(kù)和強(qiáng)大的計(jì)算能力,在獲得通用語(yǔ)言模型和表示的基礎(chǔ)上,結(jié)合任務(wù)語(yǔ)料對(duì)模型進(jìn)行微調(diào)[10],可以很好地完成各類文本處理任務(wù),成為當(dāng)前各類自然語(yǔ)言處理任務(wù)中的研究熱點(diǎn)和核心技術(shù)。
2.2 CRF條件隨機(jī)場(chǎng)模型層
CRF條件隨機(jī)場(chǎng)模型是由Lafferty等[6]提出的一種序列標(biāo)記模型,它結(jié)合了最大熵模型(Maximum Entropy)和隱馬爾可夫模型(Hidden Markov Model,HMM)的特點(diǎn),能夠充分考慮標(biāo)簽之間的依存關(guān)系,避免了標(biāo)記偏執(zhí)和最大熵模型局部?jī)?yōu)化的問(wèn)題,克服了HMM輸出獨(dú)立性假設(shè)的缺點(diǎn),可以很好地完成分詞等其他序列標(biāo)注任務(wù)。因此,現(xiàn)有的分詞模型大都結(jié)合了CRF模型,模型結(jié)構(gòu)如圖3所示。
根據(jù)CRF的定義,CRF條件隨機(jī)場(chǎng)模型是輸入隨機(jī)變量X和輸出隨機(jī)變量Y的條件概率分布模型。其中,X為輸入變量,表示要標(biāo)記的字符序列;Y是表示標(biāo)注序列(也稱為狀態(tài)序列)的輸出變量。
3 實(shí)驗(yàn)及分析
3.1 數(shù)據(jù)集
本實(shí)驗(yàn)中的通用數(shù)據(jù)集來(lái)自SIGHAN 2005第二屆中文分詞任務(wù)中的Peking University數(shù)據(jù)集(簡(jiǎn)稱PKU數(shù)據(jù)集);中文醫(yī)學(xué)領(lǐng)域數(shù)據(jù)(Chinese Medical Corpus,CMC)來(lái)自《國(guó)醫(yī)大師治療中風(fēng)經(jīng)典醫(yī)案》療病叢書(shū)中所記錄的醫(yī)案數(shù)據(jù)。
按照9:1的比例將通用領(lǐng)域和中文醫(yī)學(xué)領(lǐng)域訓(xùn)練數(shù)據(jù)分割為訓(xùn)練集和驗(yàn)證集。
3.2 實(shí)驗(yàn)設(shè)置
本實(shí)驗(yàn)的環(huán)境參數(shù)和模型訓(xùn)練參數(shù)設(shè)置如表1和表2所示。其中,模型訓(xùn)練的迭代次數(shù)(epoch_num)為20次。實(shí)驗(yàn)中涉及通用領(lǐng)域訓(xùn)練語(yǔ)料和醫(yī)學(xué)領(lǐng)域訓(xùn)練語(yǔ)料,針對(duì)兩個(gè)不同領(lǐng)域的數(shù)據(jù)集均使用BERT-CRF分詞模型對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練。所有數(shù)據(jù)采用BMES四詞位標(biāo)注法進(jìn)行標(biāo)注,各標(biāo)注的具體含義如表3所示。
3.3 評(píng)價(jià)指標(biāo)
試驗(yàn)結(jié)果評(píng)估指標(biāo)采用查準(zhǔn)率(Precision,P)、召回率(Recall,R)和F1值,各項(xiàng)指標(biāo)的計(jì)算公式為:
[F1=2PRR+P]? ? ? ? ? ? ? ? ? ? ? ? ? (1)
[P=TPTP+FP]? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
[R=TPTP+FN]? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
式中:TP表示分詞正確的詞數(shù);TP+FP表示分詞的總詞數(shù);TP+FN表示標(biāo)準(zhǔn)分詞集中的詞數(shù)。
3.4 結(jié)果分析
本次實(shí)驗(yàn)分別利用PKU數(shù)據(jù)集和CMC數(shù)據(jù)集對(duì)BERT-CRF分詞模型進(jìn)行訓(xùn)練,其訓(xùn)練結(jié)果如圖4和圖5所示,兩個(gè)數(shù)據(jù)集實(shí)驗(yàn)結(jié)果的對(duì)比如表4所示。
由表4可以看出,基于BERT-CRF的中文分詞模型的分詞效果在通用領(lǐng)域數(shù)據(jù)集上的分詞結(jié)果更好。這是因?yàn)椴徽撌腔谀姆N分詞方法來(lái)構(gòu)建分詞模型,其分詞的效果都依賴于大規(guī)模的訓(xùn)練數(shù)據(jù),但由于目前醫(yī)學(xué)領(lǐng)域開(kāi)放的數(shù)據(jù)集較少,且數(shù)據(jù)專業(yè)性強(qiáng),很難獲得大量標(biāo)注的訓(xùn)練數(shù)據(jù),導(dǎo)致模型訓(xùn)練不夠完全,無(wú)法達(dá)到模型所期望的最佳分詞效果。因此,若想在醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集上獲得更好的分詞效果,需要增加醫(yī)學(xué)領(lǐng)域的訓(xùn)練數(shù)據(jù),并對(duì)模型進(jìn)行進(jìn)一步的優(yōu)化和訓(xùn)練,使得模型能夠更好地理解醫(yī)學(xué)領(lǐng)域的中文文本,從而發(fā)揮模型的最佳分詞性能。
4 結(jié)束語(yǔ)
針對(duì)自然語(yǔ)言處理中的中文分詞任務(wù),本文利用BERT-CRF的模型探究同一模型在不同領(lǐng)域數(shù)據(jù)集上的分詞效果,分別在PKU數(shù)據(jù)集和CMC數(shù)據(jù)集上進(jìn)行模型訓(xùn)練,得到F1值分別為0.898和0.738的實(shí)驗(yàn)結(jié)果,證明了該模型在通用領(lǐng)域數(shù)據(jù)集上的分詞效果更好。
參考文獻(xiàn):
[1] ISO/IEC.Information technology—artificial intelligence—artificial intelligence concepts and terminology:ISO/IEC TR 24372:2021(E)[S].2021
[2] WANG K,ZONG C,SU K Y.A character-based joint model for Chinese word segmentation[C]//23rd International Conference on Computational Linguistics,2010:1173-1181.
[3] 胡曉輝,朱志祥.基于深度學(xué)習(xí)的中文分詞方法研究[J].計(jì)算機(jī)與數(shù)字工程,2020,48(3):627-632.
[4] 王若佳,趙常煜,王繼民.中文電子病歷的分詞及實(shí)體識(shí)別研究[J].圖書(shū)情報(bào)工作,2019,63(2):34-42.
[5] WU A.Word segmentation in sentence analysis[C]//Proceedings of 1998 International Conference on Chinese Information Processing.Beijing:Chinese Webster F.What information society?[J].The Information Society,1994,10(1):1-23.
[6] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data [C]//Proceedings of the Eighteenth International Conference on Machine Learning.San Francisco.Morgan Kaufmann Publishers Inc,2001:282-289.
[7] 姚茂建,李晗靜,呂會(huì)華,等.基于BI_LSTM_CRF神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注中文分詞方法[J].現(xiàn)代電子技術(shù),2019,42(1):95-99.
[8] 張文靜,張惠蒙,楊麟兒,等.基于Lattice-LSTM的多粒度中文分詞[J].中文信息學(xué)報(bào),2019,33(1):18-24.
[9] 何濤,陳劍,聞?dòng)⒂?基于BERT-CRF模型的電子病歷實(shí)體識(shí)別研究[J].計(jì)算機(jī)與數(shù)字工程,2022,50(3):639-643.
[10] 王海寧.自然語(yǔ)言處理技術(shù)發(fā)展[J].中興通訊技術(shù),2022,28(2):59-64.
【通聯(lián)編輯:唐一東】