国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于對(duì)抗網(wǎng)絡(luò)的農(nóng)業(yè)生物質(zhì)材料檢測(cè)領(lǐng)域命名實(shí)體識(shí)別

2021-08-31 09:31李洋邢林林蔡紅珍徐航蘇展鵬
農(nóng)業(yè)與技術(shù) 2021年16期
關(guān)鍵詞:生物質(zhì)實(shí)體神經(jīng)網(wǎng)絡(luò)

李洋邢林林蔡紅珍徐航蘇展鵬

(1.山東理工大學(xué)農(nóng)業(yè)工程與食品科學(xué)學(xué)院,山東 淄博 255000;2.山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255000)

引言

農(nóng)業(yè)生物質(zhì)材料是指以植物及加工產(chǎn)品和廢棄物作為基本原料,通過高技術(shù)手段進(jìn)行加工變?yōu)樾阅軆?yōu)異、節(jié)能環(huán)保的新屬性材料。對(duì)于生物質(zhì)[1]能源的開發(fā)和利用,農(nóng)業(yè)生物質(zhì)材料的應(yīng)用可以使農(nóng)業(yè)由數(shù)量型向質(zhì)量型進(jìn)行轉(zhuǎn)變,推進(jìn)農(nóng)業(yè)的可持續(xù)發(fā)展,實(shí)現(xiàn)美麗鄉(xiāng)村建設(shè);農(nóng)業(yè)生物質(zhì)材料有諸多優(yōu)點(diǎn),如種類多、分布廣、儲(chǔ)量豐富等,這給材料的制備和研發(fā)提供了源頭支持。

隨著技術(shù)的進(jìn)步,越來越多的農(nóng)業(yè)生物質(zhì)新材料在市場(chǎng)上出現(xiàn),但是對(duì)于其屬性的檢測(cè)有很多問題。如,在送檢過程當(dāng)中,用戶很難找到適合自己材料屬性檢測(cè)的服務(wù)提供商,并且服務(wù)提供商在提供服務(wù)過程中會(huì)對(duì)材料的尺寸大小作出嚴(yán)格要求,對(duì)于生物質(zhì)材料而言,不同規(guī)模的材料可能呈現(xiàn)出的屬性效果會(huì)略有差異。在尋找服務(wù)的過程中,材料的保存與儲(chǔ)藏也會(huì)影響材料的屬性效果,這也對(duì)生物質(zhì)材料的檢測(cè)提出了時(shí)效性的要求。

目前許多學(xué)者開始關(guān)注農(nóng)業(yè)信息技術(shù)的重要性,并提出了相應(yīng)的技術(shù)方法,但大多數(shù)是從理論角度出發(fā)而忽略了農(nóng)業(yè)信息挖掘技術(shù)的實(shí)際應(yīng)用。很多線上生物質(zhì)材料檢測(cè)平臺(tái)對(duì)于服務(wù)的描述過于單一,無法使用戶精確地檢索信息,因此,本文通過引入對(duì)抗訓(xùn)練和自注意力機(jī)制命名實(shí)體識(shí)別技術(shù)可以幫助用戶挖掘產(chǎn)業(yè)信息,提升農(nóng)業(yè)檢測(cè)服務(wù)效率,降低工作成本。

1 相關(guān)技術(shù)

1.1 農(nóng)業(yè)生物質(zhì)材料命名實(shí)體識(shí)別任務(wù)

命名實(shí)體識(shí)別技術(shù)是自然語言處理的基礎(chǔ)任務(wù),利用網(wǎng)絡(luò)模型識(shí)別出某一概念的實(shí)例,如人名、地名、機(jī)構(gòu)名稱等,其演變過程也是由最初基于規(guī)則的方法到目前深度學(xué)習(xí)的方法。目前,農(nóng)業(yè)領(lǐng)域的命名實(shí)體識(shí)別技術(shù)也隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展而不斷更新,趙鵬飛等[2]通過引入自注意力機(jī)制來解決農(nóng)業(yè)領(lǐng)域文本實(shí)體標(biāo)記不一致的問題,并通過比較不同數(shù)據(jù)庫之間的識(shí)別效果,發(fā)現(xiàn)其準(zhǔn)確率得到一定提升。宋林鵬[3]等通過對(duì)比傳統(tǒng)CRF和基于詞向量的雙向長短期記憶網(wǎng)絡(luò)模型來提升對(duì)于農(nóng)業(yè)轉(zhuǎn)移技術(shù)中的識(shí)別提取效果。李想等[4]針對(duì)農(nóng)業(yè)平臺(tái)問答效率問題,提取數(shù)據(jù)庫中關(guān)鍵實(shí)體,利用條件隨機(jī)場(chǎng)技術(shù)進(jìn)行自動(dòng)構(gòu)建關(guān)聯(lián)三元組,提升了模型的識(shí)別準(zhǔn)確率。郭旭超等[5]針對(duì)農(nóng)業(yè)病蟲害命名實(shí)體識(shí)別技術(shù),提出一種基于注意力機(jī)制和部首嵌入的神經(jīng)網(wǎng)絡(luò)模型,利用卷積神經(jīng)網(wǎng)絡(luò)提取農(nóng)業(yè)實(shí)體的部首特征,進(jìn)而通過長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)來保證實(shí)體輸出結(jié)果的準(zhǔn)確率。Guo X等[6]提出一種多尺度局部上下文特征和自注意力機(jī)制的中文命名實(shí)體識(shí)別模型,通過不同核大小的卷積神經(jīng)網(wǎng)絡(luò)提取上下文特征,采取自注意力機(jī)制來緩解Bi-LSTM-CRF在遠(yuǎn)程依賴上的限制。

1.2 實(shí)體標(biāo)注任務(wù)

實(shí)體標(biāo)注任務(wù)[7]作為自然語言處理當(dāng)中較為簡單的基礎(chǔ)步驟,用于解決數(shù)據(jù)文本中字符的分類問題。實(shí)體標(biāo)注是將文本序列中的每個(gè)信息單元進(jìn)行有規(guī)則的標(biāo)記,一般待標(biāo)注的序列表示為X=x1,x2,x3…xn,對(duì)于不同領(lǐng)域的任務(wù),實(shí)體標(biāo)注的形式也不同。分詞任務(wù)的標(biāo)注和實(shí)體識(shí)別的實(shí)體標(biāo)注不相同,分詞任務(wù)只是將實(shí)體定義為開始、結(jié)束、單一實(shí)體等;而命名實(shí)體識(shí)別任務(wù)要將實(shí)體分為符合概念定義的序列。

1.3 對(duì)抗訓(xùn)練

對(duì)抗訓(xùn)練[8]是通過定義的生成器與判別器之間的互相博弈來輸出更加準(zhǔn)確的結(jié)果,計(jì)算公式:

(1)

式中,X為輸入信息;δ為輸入信息的擾動(dòng);y為樣本的標(biāo)簽;L(fθ(X+δ),y)為在樣本X上添加擾動(dòng)δ,進(jìn)而通過max(L)進(jìn)行優(yōu)化目標(biāo)。

在農(nóng)業(yè)生物質(zhì)領(lǐng)域數(shù)據(jù)集中,命名實(shí)體識(shí)別任務(wù)和分詞任務(wù)共享著較多的邊界信息,每個(gè)任務(wù)都有自己特有的信息特征,因此對(duì)抗訓(xùn)練的方式可以過濾掉分詞任務(wù)中的特有信息,將共享信息融入到命名實(shí)體識(shí)別任務(wù)中,提升輸出結(jié)果的準(zhǔn)確率。

李靜等[9]通過局部對(duì)抗訓(xùn)練的方法來解決實(shí)體內(nèi)部邊界信息的歧義問題,通過對(duì)抗訓(xùn)練增強(qiáng)神經(jīng)網(wǎng)絡(luò)模型對(duì)于邊界信息的識(shí)別能力,提高了樣本的輸出質(zhì)量。張慶林等[10]通過互補(bǔ)對(duì)抗學(xué)習(xí)的方法,提高分類器的魯棒性能和泛化性能。董哲等[11]首先引入BERT來獲取字向量,并通過對(duì)抗訓(xùn)練的方式來降低中文分詞任務(wù)對(duì)于命名實(shí)體識(shí)別任務(wù)的噪聲影響。

本文在對(duì)抗訓(xùn)練階段,通過在每一次的迭代過程中選擇實(shí)體識(shí)別任務(wù)或者分詞任務(wù)進(jìn)行參數(shù)的更新,選擇Adam優(yōu)化器來優(yōu)化損失,計(jì)算過程:

Loss=LossNER·I(X)+LossCWS·(1-I(X))+γLossAdv

(2)

1.4 神經(jīng)網(wǎng)絡(luò)模型

LSTM長短期記憶網(wǎng)絡(luò)作為循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的變體,有效解決了在循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的訓(xùn)練過程當(dāng)中所產(chǎn)生的梯度爆炸和梯度消失問題,其結(jié)構(gòu)如圖1所示;但是單向的長短期記憶網(wǎng)絡(luò)在同一時(shí)間內(nèi)處理數(shù)據(jù)集的上下文語義信息,而且LSTM針對(duì)有序的數(shù)據(jù)集,只能處理方向?yàn)閺那跋蚝蟮恼Z義信息,對(duì)于從后往前的信息則無法獲取。

圖1 LSTM結(jié)構(gòu)圖

在更細(xì)粒度的分類時(shí),如對(duì)于強(qiáng)程度的褒義、弱程度的褒義、中性、弱程度的貶義、強(qiáng)程度的貶義的5分類任務(wù)需要注意情感詞、程度詞、否定詞之間的交互,本文采用的前后雙向長短期記憶網(wǎng)絡(luò)Bi-LSTM能夠更好地捕獲雙向的語義依賴。LSTM模型的計(jì)算過程可以分為以下幾個(gè)步驟:

Bi-LSTM[12]神經(jīng)網(wǎng)絡(luò)模型相較于傳統(tǒng)的自然語言處理方法,其優(yōu)勢(shì)在于雙向的LSTM模型不僅可以更好地利用以前的上下文信息,還可以利用未來的上下文信息。在實(shí)際的命名實(shí)體識(shí)別任務(wù)當(dāng)中,由于應(yīng)用場(chǎng)景眾多,所以預(yù)測(cè)過程可能會(huì)使用到整個(gè)序列的輸入信息。

1.5 條件隨機(jī)場(chǎng)

Bi-LSTM雙向長短期記憶模型在命名實(shí)體識(shí)別任務(wù)中可以很好處理長距離的語義關(guān)系,但是對(duì)于臨近的標(biāo)簽依賴關(guān)系,Bi-LSTM則無法處理,因此通過添加CRF條件隨機(jī)場(chǎng)能夠有效地解決這一問題。CRF是通過考慮詞向量特征,計(jì)算條件可能性的概率模型。CRF條件隨機(jī)場(chǎng)可以在相鄰的標(biāo)簽信息關(guān)系中找到最優(yōu)的預(yù)測(cè)序列,從而保證預(yù)測(cè)標(biāo)簽的合法性。Bi-LSTM-CRF總體結(jié)構(gòu)如圖2所示。

圖2 Bi-LSTM-CRF結(jié)構(gòu)圖

對(duì)于一個(gè)輸入序列Z={z1,z2…,zn},在命名實(shí)體識(shí)別框架中所得到的預(yù)測(cè)序列為Y={y1,y2…,yn},得到預(yù)測(cè)序列Score函數(shù):

(3)

式中,A為分?jǐn)?shù)轉(zhuǎn)移矩陣,表示前一標(biāo)簽到下一標(biāo)簽的分?jǐn)?shù);P為模型輸出矩陣,計(jì)算一個(gè)實(shí)體的得分情況。預(yù)測(cè)序列Y的產(chǎn)生概率:

(4)

采用極大似然估計(jì)原理,通過取對(duì)數(shù)得到預(yù)測(cè)序列Y的似然函數(shù):

(5)

基于極大似然估計(jì)原理,優(yōu)化目標(biāo)函數(shù):

(6)

1.6 自注意力機(jī)制

生物質(zhì)材料檢測(cè)領(lǐng)域文本語句相對(duì)較長,Bi-LSTM在訓(xùn)練的過程中丟失關(guān)鍵數(shù)據(jù)信息。而且中文字詞在不同的語義環(huán)境中所呈現(xiàn)的含義也不同,注意力機(jī)制的主要目的在于根據(jù)目標(biāo)信息去關(guān)注部分細(xì)節(jié)而不是基于全局進(jìn)行分析,因此多頭注意力機(jī)制的引入可以緩解LSTM在訓(xùn)練過程中的遺失問題,提高檢驗(yàn)檢測(cè)領(lǐng)域的識(shí)別效果。主要公式:

(7)

(8)

多頭注意力機(jī)制的表達(dá)式:

Multihead(Q,K,V)=Concat(head1,…,headn)WO

(9)

式中,Q、K、V分別代表從一開始輸入的向量矩陣。

2 結(jié)果與分析

2.1 數(shù)據(jù)集

本文所采用的數(shù)據(jù)集通過網(wǎng)絡(luò)爬取各大檢驗(yàn)檢測(cè)網(wǎng)站的生物質(zhì)材料檢測(cè)信息,選取檢測(cè)機(jī)構(gòu)名稱、檢測(cè)內(nèi)容及位置信息作為實(shí)驗(yàn)?zāi)繕?biāo),訓(xùn)練集共包含標(biāo)簽數(shù)量178834,測(cè)試集標(biāo)簽數(shù)量為47106,其數(shù)據(jù)樣例如表1所示。

表1 數(shù)據(jù)文本樣例

2.2 數(shù)據(jù)標(biāo)注

2.2.1 標(biāo)簽標(biāo)注方式及結(jié)果

本文采用BIO的標(biāo)注方式,B表示單位實(shí)體的開始,I表示實(shí)體的剩余部分,而O則表示非實(shí)體類型。由于數(shù)據(jù)集中選擇檢測(cè)機(jī)構(gòu)、檢測(cè)內(nèi)容和檢測(cè)設(shè)備作為識(shí)別目標(biāo),所以標(biāo)注方式共有7種,其標(biāo)注結(jié)果如表2所示。

表2 標(biāo)注結(jié)果

2.2.2 分詞與實(shí)體識(shí)別任務(wù)標(biāo)簽比較

通過對(duì)于農(nóng)業(yè)生物質(zhì)材料檢測(cè)領(lǐng)域的數(shù)據(jù)分析,發(fā)現(xiàn)分詞任務(wù)與實(shí)體識(shí)別任務(wù)都有著不同的邊界信息,如果單純采用簡單的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,很難取得良好的實(shí)驗(yàn)效果,因此通過引入對(duì)抗訓(xùn)練來減少分詞任務(wù)和命名實(shí)體識(shí)別之間的共享信息問題。

表3 NER與CWS對(duì)比

2.3 實(shí)驗(yàn)環(huán)境

本文所采用的實(shí)驗(yàn)環(huán)境基于Tensorflow搭建,具體配置如表4所示。

表4 實(shí)驗(yàn)環(huán)境

為使得本文所采用的方法及神經(jīng)網(wǎng)絡(luò)模型識(shí)別效果最優(yōu),本文選擇了多種超參數(shù)設(shè)置并在公開訓(xùn)練集上進(jìn)行實(shí)驗(yàn)效果對(duì)比,經(jīng)對(duì)比發(fā)現(xiàn)部分參數(shù)的設(shè)置確實(shí)會(huì)對(duì)實(shí)驗(yàn)效果產(chǎn)生影響,其中不同學(xué)習(xí)率對(duì)于輸出結(jié)果影響較為明顯,如圖3所示。因此,本文的參數(shù)設(shè)置為字詞向量維度100,學(xué)習(xí)率0.001,dropout為0.1,batch size為20,lstm層為100。

圖3 不同學(xué)習(xí)率對(duì)比

2.4 評(píng)價(jià)指標(biāo)

選擇準(zhǔn)確率Precision、召回率Recall、F1值作為本文實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)。準(zhǔn)確率和召回率是廣泛應(yīng)用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的2個(gè)度量值,F(xiàn)1值是二者的綜合評(píng)價(jià)手段,計(jì)算公式:

(10)

(11)

(12)

2.5 實(shí)驗(yàn)結(jié)果

對(duì)于農(nóng)業(yè)生物質(zhì)材料數(shù)據(jù)集按照7∶3的比例劃分為訓(xùn)練集和測(cè)試集,不同標(biāo)簽的實(shí)驗(yàn)結(jié)果如表5所示。

表5 生物質(zhì)材料文本識(shí)別效果

根據(jù)實(shí)驗(yàn)結(jié)果,采用對(duì)抗訓(xùn)練的模型所呈現(xiàn)的識(shí)別效果要優(yōu)于其余方法,這表明對(duì)抗訓(xùn)練的引入影響了普通樣本的分類能力,提升了神經(jīng)網(wǎng)絡(luò)的魯棒性,其輸出結(jié)果如表6所示。

表6 輸出結(jié)果樣例

3 結(jié)論

本文通過引入對(duì)抗網(wǎng)絡(luò)和自注意力機(jī)制應(yīng)用于命名實(shí)體識(shí)別技術(shù)提升農(nóng)業(yè)信息識(shí)別效果,爬取了各大農(nóng)業(yè)生物質(zhì)檢測(cè)領(lǐng)域相關(guān)數(shù)據(jù),針對(duì)檢測(cè)機(jī)構(gòu)名稱、檢測(cè)設(shè)備和檢測(cè)內(nèi)容進(jìn)行數(shù)據(jù)分析和標(biāo)簽標(biāo)注工作;實(shí)驗(yàn)效果表明,本文所提出的模型效果與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型相比,呈現(xiàn)出更好的效果。但目前實(shí)驗(yàn)所爬取的數(shù)據(jù)相對(duì)不夠完善,部分?jǐn)?shù)據(jù)存在標(biāo)簽缺失遺漏等問題,因此在后續(xù)的研究工作中,應(yīng)當(dāng)提升數(shù)據(jù)質(zhì)量,不斷完善數(shù)據(jù)規(guī)模,優(yōu)化實(shí)驗(yàn)?zāi)P汀?/p>

隨著中國農(nóng)業(yè)的不斷發(fā)展,各類不同特性的農(nóng)業(yè)生物質(zhì)材料在市場(chǎng)上出現(xiàn),加快了農(nóng)業(yè)高效率轉(zhuǎn)化的步伐,因此對(duì)于農(nóng)業(yè)生物質(zhì)材料的屬性檢測(cè)也為創(chuàng)造高效、優(yōu)質(zhì)、低耗的農(nóng)業(yè)生產(chǎn)體系起到了推動(dòng)性的作用,也是完善農(nóng)業(yè)信息挖掘技術(shù)的供需匹配、服務(wù)解耦和個(gè)性化推薦的關(guān)鍵步驟。

猜你喜歡
生物質(zhì)實(shí)體神經(jīng)網(wǎng)絡(luò)
生物質(zhì)揮發(fā)分燃燒NO生成規(guī)律研究
《生物質(zhì)化學(xué)工程》第九屆編委會(huì)名單
《造紙與生物質(zhì)材料》(英文)2020年第3期摘要
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
生物質(zhì)碳基固體酸的制備及其催化性能研究
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
喀什市| 丹凤县| 滕州市| 黄冈市| 清原| 永宁县| 南投市| 喜德县| 沂南县| 略阳县| 昌邑市| 平凉市| 庄河市| 南康市| 康乐县| 清徐县| 林州市| 蓝田县| 新龙县| 邯郸县| 启东市| 资溪县| 永丰县| 榆树市| 盘山县| 井陉县| 高雄县| 渝中区| 筠连县| 江陵县| 保德县| 陇西县| 滨州市| 乌海市| 广南县| 高尔夫| 桐梓县| 永年县| 东宁县| 竹溪县| 铜鼓县|