国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT模型的航天科技開源情報(bào)分類

2021-04-09 05:11:00孔凡芃劉旭紅劉秀磊
關(guān)鍵詞:開源情報(bào)類別

孔凡芃,劉旭紅,劉秀磊,李 晗

(1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100192;2.北京信息科技大學(xué) 數(shù)據(jù)與科學(xué)情報(bào)分析實(shí)驗(yàn)室,北京 100192;3.北京大學(xué) 北大方正集團(tuán)有限公司數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100101)

0 引言

近年來航天事業(yè)迅猛發(fā)展,開源情報(bào)[1]的價(jià)值與日俱增,互聯(lián)網(wǎng)上航天科技開源情報(bào)的爆炸式增長(zhǎng)為情報(bào)的快速分類帶來嚴(yán)峻挑戰(zhàn),提升相關(guān)情報(bào)的分類準(zhǔn)確率對(duì)于提高航天領(lǐng)域科研人員的工作效率具有重大意義。

航天科技開源情報(bào)的分類本質(zhì)上屬于文本分類問題。目前文本分類技術(shù)已經(jīng)較為成熟,常見的主流方法有以卷積神經(jīng)網(wǎng)絡(luò)(CNN)[2]與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[3]為基礎(chǔ)的深度學(xué)習(xí)模型,如文獻(xiàn)[2]中提出的TextCNN模型,利用多個(gè)不同大小的卷積核提取句子中的關(guān)鍵信息,從而能夠更好地捕捉局部相關(guān)性。文獻(xiàn)[4]提出的R-CNN算法,首次將深度學(xué)習(xí)應(yīng)用于目標(biāo)檢測(cè)中,將目標(biāo)檢測(cè)的驗(yàn)證指標(biāo)mAP提升了30%,并大大減少了計(jì)算量。但上述模型在訓(xùn)練過程需要大量語(yǔ)料,且耗費(fèi)較多時(shí)間與硬件資源。后續(xù)出現(xiàn)了基于遷移學(xué)習(xí)的模型,如Word2Vec[5]、GloVe[6]、FastText[7]等。上述模型可以對(duì)少量語(yǔ)料進(jìn)行預(yù)訓(xùn)練,生成詞向量后用于下游NLP任務(wù),緩解了由于部分領(lǐng)域語(yǔ)料過少而導(dǎo)致訓(xùn)練效果較差的問題。Transformer[8]等語(yǔ)言模型架構(gòu)的提出,及相關(guān)方法如GPT[9]、BERT[10]、ULMFiT[11]的使用,使得遷移學(xué)習(xí)在下游NLP任務(wù)如文本分類中取得突破性進(jìn)展。

在航天領(lǐng)域文本分類研究中,張亞超[12]提出基于注意力機(jī)制的TextRCNN-A文本分類算法,不僅可以捕捉上下文內(nèi)容信息,還可以更好地消除單詞歧義。徐建忠等[13]結(jié)合貝葉斯算法與Web技術(shù)研發(fā)了一套服務(wù)器—客戶端模式的航天文本分類系統(tǒng)。郭頌[14]提出了基于支持向量機(jī)的航天領(lǐng)域文本分類算法,并設(shè)計(jì)了航天領(lǐng)域內(nèi)不同類別信息的多分類流程框架。上述模型均在一定程度上提升了航天科技開源情報(bào)分類任務(wù)的準(zhǔn)確率。

由于航天科技開源情報(bào)中存在大量專有名詞且相關(guān)文本內(nèi)容較長(zhǎng),本文結(jié)合這些特點(diǎn),提出了一種基于BERT模型的航天科技開源情報(bào)分類算法。該算法通過BERT提取航天科技開源情報(bào)的關(guān)鍵特征,并將獲取到的關(guān)鍵特征輸入到Softmax分類器中進(jìn)行分類。通過與其他算法的分類效果進(jìn)行對(duì)比,結(jié)果表明本文所提算法在航天科技開源情報(bào)分類上的準(zhǔn)確率最高。

1 分類算法

本文提出的基于BERT的航天科技開源情報(bào)分類算法主要由文本預(yù)處理、特征提取與分類兩部分構(gòu)成。

1.1 文本預(yù)處理

借鑒文獻(xiàn)[15]中文本預(yù)處理的方法,對(duì)航天科技開源情報(bào)數(shù)據(jù)中的無效信息進(jìn)行清理,主要包括去除指定的無用符號(hào)、去除停用詞、去除非文本數(shù)據(jù)及去除無意義文本。去除指定的無用符號(hào)是指使用替換文本中指定的字符,從而去除文本中大量重復(fù)的符號(hào);去除停用詞指的是去除文本中存在的大量“是”、“的”等對(duì)文本意思表達(dá)無效的詞,從而使模型可以更好地?cái)M合實(shí)際的語(yǔ)義特征,增加模型的泛化能力。由于航天科技開源情報(bào)原始數(shù)據(jù)中附帶有大量HTML標(biāo)簽、URL地址等非文本數(shù)據(jù),所以需要清除這些對(duì)分類無效的內(nèi)容。此外,文本中存在的廣告、版權(quán)信息等內(nèi)容也不該作為特征被模型所學(xué)習(xí),所以也需要去除掉。

1.2 特征提取與分類

由于航天科技開源情報(bào)句子較長(zhǎng)的特點(diǎn)制約了相關(guān)情報(bào)分類的效果,而BERT內(nèi)含的雙向Transformer機(jī)制可以有效地兼顧上下文語(yǔ)義信息,有利于全面提取航天科技開源情報(bào)的特征,所以本文提出基于BERT的航天科技開源情報(bào)分類算法進(jìn)行相關(guān)文本的分類。

BERT模型以雙向Transformer機(jī)制為基礎(chǔ),在處理一個(gè)詞時(shí),能夠考慮到詞的上下文信息,以獲得上下文語(yǔ)義,其模型架構(gòu)如圖1所示。

圖1 模型架構(gòu)

圖1中,Ei為第i個(gè)字對(duì)應(yīng)的輸入;Trm表示Transformer機(jī)制。由于Transformer機(jī)制是一次性讀取輸入的整個(gè)文本序列,而不是從左到右或從右到左地按順序讀取,這一特性使得模型能夠基于字詞的兩側(cè)學(xué)習(xí),相當(dāng)于雙向的功能;Ti為輸出的隱藏層向量,該向量可用于下游分類任務(wù)。

1.2.1 算法輸入層

算法的初始輸入是預(yù)處理后的航天科技開源情報(bào)文本。首先在文本中每個(gè)句子的頭部加上開始標(biāo)志“[CLS]”,在句子的尾部加上結(jié)束標(biāo)志“[SEP]”,將進(jìn)行特殊化處理后的句子輸入模型中進(jìn)行向量化表示以用于分類,文本的向量化在BERT模型的輸入層實(shí)現(xiàn)。在輸入文本進(jìn)行向量化表示前,設(shè)置的最大句子長(zhǎng)度嘗試了64、128、256等不同的維度。模型具體輸入由Token Embeddings、Segment Embeddings、Position Embeddings三部分組成,如圖2所示。

圖2 模型的輸入表示

例如,輸入的航天科技開源情報(bào)內(nèi)容為“[CLS]進(jìn)行電子攻擊[SEP]”,首先通過字典映射得到句子中每個(gè)字的數(shù)學(xué)表達(dá)token_id[101,150,454,1268,835,2879,2713,……],然后通過查詢字向量表將“進(jìn)行電子攻擊”中每個(gè)字轉(zhuǎn)換為向量表示Token Embeddings,最后與Segment Embeddings、Position Embeddings進(jìn)行線性相加從而構(gòu)成雙向Transformer機(jī)制的輸入。

1.2.2 Transformer層

BERT利用Transformer的Encoder部分來接收文本作為模型輸入,結(jié)構(gòu)如圖3所示。

圖3 Transformer Encoder層

本文中的Transformer Encoder機(jī)制通過使用Multi-head Self-attention機(jī)制來幫助神經(jīng)網(wǎng)絡(luò)捕捉到航天科技開源情報(bào)更豐富的特征和信息。Multi-head Self-attention機(jī)制以Attention機(jī)制為基礎(chǔ),重復(fù)多次線性變換與點(diǎn)積計(jì)算的過程來實(shí)現(xiàn)Multi-head,這樣做可以讓模型在不同的表示子空間里學(xué)習(xí)到相關(guān)信息。以“進(jìn)行電子攻擊”為例進(jìn)行Attention的可視化來驗(yàn)證Multi-head關(guān)注上下文信息的能力,如圖4、5所示。

圖4 One head可視化結(jié)果

圖5 Two head可視化結(jié)果

圖4、5中不同顏色塊代表不同Attention頭的結(jié)果,顏色越深,Attention值越大,線條顏色表示不同字之間注意的強(qiáng)度。從圖4 One head可視化結(jié)果可以看出“電”這個(gè)字只能學(xué)習(xí)到和“電”的依賴關(guān)系,而圖5 Two head的結(jié)果中“電”可以同時(shí)學(xué)到“電”、“子”的依賴關(guān)系,驗(yàn)證了Multi-head可以從不同的表示子空間里學(xué)習(xí)相關(guān)信息。

針對(duì)航天科技開源情報(bào)文本內(nèi)容較長(zhǎng)且存在較多專有名詞的特點(diǎn),使用Multi-head Self-attention機(jī)制能夠更好地關(guān)注專有名詞及上下文語(yǔ)義信息,從而提升航天科技開源情報(bào)的分類效果。

經(jīng)過雙向Transformer機(jī)制處理后提取出的特征向量還需輸送到分類器中進(jìn)行分類。本文使用Softmax分類器來進(jìn)行航天科技開源情報(bào)特征的分類。

1.2.3 Softmax分類層

Softmax分類器是為解決多分類問題而提出的模型,屬于廣義線性模型。假設(shè)BERT最終輸出的文本向量X={x1,x2,…,xn},按照本文航天科技開源情報(bào)具有5個(gè)類別的情況,則類別Y={A,B,C,D,E}。將文本向量X輸入至Softmax分類器中,經(jīng)過Softmax函數(shù)進(jìn)行歸一化計(jì)算,得到每個(gè)文本向量X對(duì)應(yīng)到每個(gè)類別的概率P={PA,PB,PC,PD,PE},比較每個(gè)類別概率的大小,選擇其中概率最大的類別作為X文本最終的分類。

1.3 算法訓(xùn)練流程

結(jié)合航天科技開源情報(bào)特點(diǎn)調(diào)整模型參數(shù)并進(jìn)行模型訓(xùn)練,主要步驟如下:

步驟一:加載預(yù)訓(xùn)練模型。即下載的“BERT-Base,Chinese”模型。

步驟二:處理訓(xùn)練數(shù)據(jù)。在文本中每個(gè)句子的開頭加上“[CLS]”符號(hào),在每個(gè)句子結(jié)尾加上“[SEP]” 符號(hào)。

步驟三:構(gòu)造Transformer輸入。對(duì)于每個(gè)字所對(duì)應(yīng)的Token Embeddings、Segment Embeddings和Position Embeddings線性相加。

步驟四:訓(xùn)練模型。設(shè)定好模型訓(xùn)練中的學(xué)習(xí)率、最大文本長(zhǎng)度等超參數(shù),在預(yù)訓(xùn)練模型的基礎(chǔ)上,將BERT輸出的特征向量輸送至Softmax層中得出分類結(jié)果,后續(xù)依據(jù)原始標(biāo)簽以及輸出的結(jié)果進(jìn)行反向傳播,調(diào)整模型內(nèi)部參數(shù),使模型能夠更加全面準(zhǔn)確地提取航天科技開源情報(bào)文本特征。

模型訓(xùn)練過程偽代碼如圖6所示。

2 實(shí)驗(yàn)

2.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)數(shù)據(jù)來源于國(guó)防科技網(wǎng)站中存在的公開科工資訊,相關(guān)網(wǎng)站由國(guó)家某重點(diǎn)實(shí)驗(yàn)研究所提供,總數(shù)據(jù)量為16 617條,主要分為兵器工業(yè)、船舶工業(yè)、電子工業(yè)、航空工業(yè)以及航天工業(yè)5大類。各類別數(shù)據(jù)分布情況如表1所示。

通過隨機(jī)采樣的方式,將每個(gè)類別的航天科技開源情報(bào)數(shù)據(jù)按照8∶1∶1的比例進(jìn)行訓(xùn)練集、驗(yàn)證集與測(cè)試集的劃分,樣本中包括類別號(hào)與帶有類別標(biāo)簽的文本內(nèi)容兩部分。

本文首先使用訓(xùn)練集進(jìn)行模型的訓(xùn)練,然后在驗(yàn)證集上進(jìn)行模型的評(píng)估,并不斷調(diào)整模型參數(shù),直到模型找到最佳參數(shù),最后利用測(cè)試集進(jìn)行模型的測(cè)試,測(cè)試樣本上的誤差作為泛化誤差的近似,從而得到泛化能力較強(qiáng)的模型。

2.2 實(shí)驗(yàn)參數(shù)

本文所用BERT預(yù)訓(xùn)練語(yǔ)言模型的網(wǎng)絡(luò)結(jié)構(gòu)共有12層,隱藏層有768個(gè)神經(jīng)單元,采用12頭模式,共有110 M參數(shù)。由于BERT預(yù)訓(xùn)練模型對(duì)中文文本中存在的共有特點(diǎn)進(jìn)行學(xué)習(xí),不具針對(duì)性,因此為得到針對(duì)航天科技開源情報(bào)特點(diǎn)的模型,本文在預(yù)訓(xùn)練模型基礎(chǔ)上進(jìn)行微調(diào),使用航天科技開源情報(bào)進(jìn)行模型訓(xùn)練,以更好學(xué)習(xí)相關(guān)文本信息。本文微調(diào)時(shí)設(shè)置模型參數(shù)隨機(jī)失活率為0.1、模型Epoch為3、學(xué)習(xí)率為5e-5。

2.3 實(shí)驗(yàn)結(jié)果

在預(yù)訓(xùn)練模型的基礎(chǔ)上,設(shè)置每個(gè)batch大小為16,每條文本最大長(zhǎng)度為256個(gè)字符,模型訓(xùn)練過程中的損失與準(zhǔn)確率如圖7、圖8所示。

在此參數(shù)下,模型最后在測(cè)試集上的準(zhǔn)確率為91.35%,各個(gè)類別預(yù)測(cè)結(jié)果的詳細(xì)數(shù)據(jù)如表2所示。

由表2可知,航空工業(yè)類別的F1值最高,兵器工業(yè)類別的F1值最低??紤]到航空工業(yè)數(shù)據(jù)量是兵器工業(yè)的7倍多,推測(cè)數(shù)據(jù)量的多少在一定程度上影響了模型擬合的效果。因此依據(jù)數(shù)據(jù)量存在的不均衡性特點(diǎn),在上述模型基礎(chǔ)上,本文進(jìn)一步探究均衡與非均衡數(shù)據(jù)量對(duì)模型的分類影響,同時(shí)將模型的最大文本長(zhǎng)度設(shè)置為64、128、256個(gè)字符進(jìn)行對(duì)比,評(píng)價(jià)指標(biāo)主要采用F1值,結(jié)果如表3所示。

由表3可以看出,多數(shù)類別在非均衡數(shù)據(jù)集情況下的F1值優(yōu)于均衡數(shù)據(jù)集情況,其中航空工業(yè)與航天工業(yè)類別在非均衡情況下的F1值均高于均衡情況,而兵器工業(yè)類別在非均衡情況下的F1值卻大部分低于均衡情況,結(jié)合航空工業(yè)、航天工業(yè)類別數(shù)據(jù)量與兵器工業(yè)數(shù)據(jù)量的差值進(jìn)行考慮,推測(cè)數(shù)據(jù)量對(duì)模型分類效果具有一定影響,該結(jié)論與上述表2結(jié)論相一致。另外,從表3還可以看出隨著最大文本長(zhǎng)度的增加,模型分類的F1值隨之增高。

不同文本長(zhǎng)度下,模型在均衡與非均衡數(shù)據(jù)集上的分類準(zhǔn)確率如圖9所示。

從圖9可以看出,隨最大文本長(zhǎng)度的增大,均衡與非均衡數(shù)據(jù)集情況下的模型分類準(zhǔn)確率均隨之增高,但增長(zhǎng)幅度隨之減小??傮w來看,模型在非均衡情況下的預(yù)測(cè)結(jié)果優(yōu)于均衡情況。

為驗(yàn)證文本算法的有效性,在非均衡數(shù)據(jù)集基礎(chǔ)上,使用航天科技開源情報(bào)數(shù)據(jù)微調(diào)模型,本文簡(jiǎn)稱FT_BERT模型,并將該模型與目前部分主流語(yǔ)言模型在航天科技開源情報(bào)文本分類任務(wù)中的表現(xiàn)做了對(duì)比。在實(shí)驗(yàn)過程中為各模型設(shè)置了相同的基本超參數(shù):隨機(jī)失活率為0.5,Epoch為 20,學(xué)習(xí)率為 e-3,最大文本長(zhǎng)度為256。各模型在測(cè)試集上的準(zhǔn)確率如表4所示。

從表4可以看出,相較于其他模型,F(xiàn)T_BERT模型在測(cè)試集上的準(zhǔn)確率最高。另外,TextRCNN模型在航天科技開源情報(bào)領(lǐng)域的文本分類任務(wù)中表現(xiàn)也較好,其分類準(zhǔn)確率超過了90%。同時(shí)本文對(duì)比了在測(cè)試集上各模型在不同類別下的F1值,其結(jié)果如表5所示。

表5 測(cè)試集上各模型在不同類別的F1值

從表5可以看出,與其他模型相比,F(xiàn)T_BERT模型在5個(gè)類別上的F1值均為最高,說明其分類效果最好。雖然TextRCNN在測(cè)試集上的準(zhǔn)確率較高,但在“電子工業(yè)”類別的表現(xiàn)卻不如TextRNN模型,這一定程度上表明TextRCNN模型在“電子工業(yè)”類別的分類中,模型中的CNN部分弱化了RNN部分的特征提取能力。

3 結(jié)束語(yǔ)

本文在航天科技開源情報(bào)分類任務(wù)中,利用相關(guān)開源情報(bào)的特點(diǎn)進(jìn)行BERT模型的訓(xùn)練并利用訓(xùn)練后的模型進(jìn)行特征提取,隨后采用Softmax分類器進(jìn)行特征分類?;趯?shí)驗(yàn)所用數(shù)據(jù)存在的不均衡性,設(shè)計(jì)數(shù)據(jù)量均衡與非均衡情況下的對(duì)比實(shí)驗(yàn),結(jié)果表明數(shù)據(jù)量不均衡時(shí)模型的表現(xiàn)結(jié)果優(yōu)于均衡情況。通過將本文所提模型與其他常見主流語(yǔ)言模型在航天科技開源情報(bào)文本分類任務(wù)中的表現(xiàn)進(jìn)行對(duì)比,證明了本文所提模型在相關(guān)分類任務(wù)中的有效性。

另外,本文實(shí)驗(yàn)所用數(shù)據(jù)集中存在一些圖片信息,但本文尚未針對(duì)相關(guān)圖片進(jìn)行研究,同時(shí)由于硬件限制,本文考慮的文本長(zhǎng)度在256個(gè)字符以內(nèi),下一步研究考慮在該算法的基礎(chǔ)上融入圖片信息用來豐富句子特征表示,同時(shí)考慮更長(zhǎng)的文本長(zhǎng)度,以提高相關(guān)文本分類效果。

猜你喜歡
開源情報(bào)類別
情報(bào)
情報(bào)
情報(bào)
五毛錢能買多少頭牛
大家說:開源、人工智能及創(chuàng)新
開源中國(guó)開源世界高峰論壇圓桌會(huì)議縱論開源與互聯(lián)網(wǎng)+創(chuàng)新2.0
服務(wù)類別
開源計(jì)算機(jī)輔助翻譯工具研究
交接情報(bào)
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
阳山县| 万山特区| 镇雄县| 高淳县| 荆门市| 大竹县| 丰都县| 讷河市| 拜城县| 水城县| 五寨县| 什邡市| 榆社县| 吉水县| 临高县| 准格尔旗| 鄄城县| 阳山县| 凌云县| 通渭县| 司法| 康乐县| 武威市| 武川县| 巴林左旗| 南平市| 遂昌县| 巨野县| 临安市| 故城县| 聂拉木县| 宝丰县| 山丹县| 闽清县| 青冈县| 广南县| 新沂市| 中方县| 崇州市| 哈密市| 同心县|