国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于ERNIE-BiLSTM-CRF 模型的土壤肥力命名實體識別研究

2023-10-12 01:23:04周樂樂陳磊季豐任竹劉楠楠
園藝與種苗 2023年9期
關鍵詞:土壤肥力命名實體

周樂樂,陳磊,季豐,任竹,劉楠楠

(安徽省農(nóng)業(yè)科學院農(nóng)業(yè)經(jīng)濟與信息研究所,安徽合肥 230001)

近些年,數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,計算機硬件性能不斷增強,計算機算法理論也不斷突破,尤其是大數(shù)據(jù)時代的到來,許多電子文檔類的自然語言呈現(xiàn)在我們周圍,在人類自然語言文本里提取出相關實體、屬性、關系等這類高層次結構化的語義信息來處理每個行業(yè)中的一些問題正是現(xiàn)階段的研究熱點[1-2]。種植業(yè)與每個人息息相關,土壤情況是種植業(yè)的基本。掌握土壤肥力情況是因地種植的前提條件。而現(xiàn)有的土壤肥力數(shù)據(jù)比較分散,種植戶們想快速直接地了解當?shù)赝寥婪柿η闆r較為困難。多數(shù)情況下種植戶們都還是根據(jù)經(jīng)驗施肥,這就導致了施肥不科學的情況。

為了將分散的土壤肥力數(shù)據(jù)利用起來,可以通過建立土壤肥力的知識圖譜。土壤肥力知識圖譜是將不同地區(qū)的土壤肥力信息按照土壤肥力屬性關聯(lián)組合而成的巨大信息網(wǎng)。通過構建土壤肥力知識圖譜建立一套土壤肥力知識問答系統(tǒng),使用者可以通過土壤肥力知識問答系統(tǒng)獲取需要了解的地區(qū)的土壤肥力指標情況,能更加高效快捷地獲得針對性土壤肥力的信息,并將其作為決策依據(jù)。

土壤肥力命名實體識別是構建土壤肥力知識圖譜中至關重要的一個步驟。首先預定義需要識別對象的語義類別,命名實體識別就是指在文本數(shù)據(jù)集中利用算法自動識別出預定義過的需要識別的對象[3]。此外,在信息檢索、問答系統(tǒng)、機器翻譯等方向也常用到命名實體識別[4]。土壤肥力命名實體識別流程見圖1??紤]土壤肥力文本的特點:(1)中文數(shù)據(jù)集文本字詞比較隨意[5];(2)土壤肥力的屬性較多,存在別名和英文縮寫;(3)為便于土壤肥力知識問答系統(tǒng)的建立,需要將土壤肥力知識信息在語言理解中進行整合。因此本文使用了一種基于ERNIE-BiLSTM-CRF 模型的土壤肥力命名實體識別技術。

圖1 土壤肥力命名實體識別流程

ERNIE-BiLSTM-CRF 模型,采用ERNIE(enhanced language representation with informative entities)模型對土壤肥力信息預訓練并進行向量表示,利用BiLSTM(bidirectional long short term memory)學習ERNIE 預訓練語言模型輸出的字向量特征,并對獲得的所有可能的標簽序列計分,計分后將所有標簽序列輸入CRF(condition random field),通過CRF 層解碼生成最優(yōu)序列結果輸出。

該研究結合中國知網(wǎng)中文獻提供的土壤肥力數(shù)據(jù),構建了基于文獻數(shù)據(jù)的土壤肥力領域語料集,并應用于安徽省土壤肥力知識問答系統(tǒng)中。試驗結果表明本文構建的ERNIE-BiLSTM-CRF 模型在準確率P、召回率R、F1值方面均取得了較好的效果。

1 相關工作

命名實體識別方法大致可以分為以下3 類方法[6]。

1.1 基于規(guī)則的方法

這種方法的基礎是依靠人為制定句法、語法、詞匯模式和特定領域知識等各個方面的相關規(guī)則,在涉及字典不多的情況下可考慮使用這種方法。但特定領域規(guī)則、字典不完備導致召回率低。另外每個領域的準則一般都是不通用的,換一個領域就需要再次制定相關規(guī)則和字典,系統(tǒng)很難遷移使用。

1.2 基于統(tǒng)計的方法

將訓練集中含有的語義信息統(tǒng)計分析,從中挖掘出各種詞、上下文和語義等相關特征[7],這種方式對選取特征方面要求比較高,受語料庫制約,大規(guī)模通用的語料庫較少[8]。

1.3 基于深度學習方法

在這種學習方法中命名實體識別被當成序列標注處理,通過大量語料學習出標注模型,標注句子的每個位置[9]。

基于深度學習方法的優(yōu)點有:命名實體識別時基于深度學習非線性的特性,由輸入至輸出形成非線性映射。深度學習模型能夠基于大量的數(shù)據(jù)使用非線性激活函數(shù)學習,從而獲取復雜度更高的精致的特征;深度學習不會涉及很高復雜度的特征工程[10],能夠在輸入的文本里自動發(fā)掘信息并且學習信息的表示,這樣自動學習的效果相較于傳統(tǒng)方法也是有優(yōu)勢的;深度命名實體識別模型是端到端的,避免流水線類模型中國年各模塊間誤差傳播,能夠承載復雜度更高的內(nèi)部設計,得到更好的效果。

2 ERNIE-BiLSTM-CRF 模型

文中提出的ERNIE-BiLSTM-CRF 模型由3 部分組成,具體結構如圖2。

圖2 ERNIE-BiLSTM-CRF 模型結構

(1)ERNIE 層:在ERNIE 層預訓練處理過的土壤肥力數(shù)據(jù)集,將輸入的文本向量化;(2)BiLSTM 層:在BiLSTM層訓練ERNI 預訓練模型輸出的向量化標簽,提取出文本特征,將一切可能的標簽序列評分并輸出;(3)CRF 層:在CRF 層解碼BiLSTM 層輸出的所有標簽序列并獲取其中分值最高的標簽序列,此最優(yōu)標簽序列做為模型的最終輸出,即為最終的實體標簽序列。

2.1 ERNIE 預訓練語言模型

最初很長一段時間內(nèi),在自然語言處理方面,都是利用Word2Vec 等詞向量的方法處理文本編碼需求。但這種這種處理后的文本上下文是沒有關聯(lián)的,這樣在進行自然突然處理任務的時候就非常局限。另外,有些詞會有多種表達意思,使用這種方法進行預訓練,后期也無法解決表達具體意思的問題。為了解決一個詞語會有多種表達意思的問題,ELMo 率先設計出一種可以表達文本上下文間關聯(lián)的方法。再后來,諸如GPT、BERT 之類的預訓練模型也陸續(xù)出現(xiàn),自然語言處理進入動態(tài)預訓練技術時代[11]。

近期,針對BERT 模型只學習與語言文本相關的信息,并沒有把知識信息整合其中的問題,清華大學與華為的研究學者設計了ERNIE 模型,該模型利用知識圖譜提升預訓練效果[11]。在知識驅動型的任務中ERNIE 預訓練語言模型的效果會比BERT 模型更好。因此,結合文中需要處理土壤肥力信息并用于安徽省土壤肥力知識問答系統(tǒng),選擇通過ERNIE 處理土壤肥力語料,能夠將上下文與知識實體的信息同時聚合,構建知識化語言表征模型。

ERNIE 預訓練語言模型的結構如圖3。ERNIE 是基于多層雙向transformer 編碼器構建,使用的是全attention 機制[12]。attention 機制與人為分析句子的方式比較相似,主要按照關鍵信息點來分析理解整句話表達的意思,使用的原理是

圖3 ERNIE 模型結構

公式(1)里,Q,K,V 表示輸入字向量矩陣;dk表示輸入向量的維度。

計算時,transformer 編碼器采用一個計算步驟把句子里任何兩個詞進行聯(lián)系,再將所有的詞表示通過加權求和,權重則通過softmax 層將此詞表示和被編碼的詞表示進行點積獲得[12],這樣就能夠很大程度地減小遠距離依賴特征間距離,提升特征的有效使用率。

ERNIE 預訓練語言模型經(jīng)過3 個掩碼階段處理達到對實體概念知識的學習、強化句子里完整概念的語義表示的功能[13]。

(1)基本遮蔽掩碼階段。把每個句子當作基本的語言單位序列,以每個字為單位施行遮蔽[13]。此階段只是在字的層面上施行的隨機性遮蔽,對高層語義還無法完全建模。

(2)短語級遮蔽階段。把每個句子中的短語當作基本的遮蔽單位,以短語為單位施行遮蔽。選取句子里的短語,把其含有的每個字使用[mask]標記和預測[14]。通過這種方式能夠較好地保留短語信息。

(3)實體級遮蔽階段。先分析每句話含有的命名實體,包含人員、地點、組織、產(chǎn)品等[14]。再通過隨機選取的方式,選取句子里的實體,對實體里每個字使用[mask]標記和預測。

在通過上述3 個掩碼遮蔽處理之后,獲取的詞表示形式含有豐富的語義信息,句子里成分間的關聯(lián)性以及重要成分包含的語義信息都能夠較好地保存下來。

2.2 BiLSTM 層

RNN(Recurrent Neural Network)結構由輸入層、隱藏層和輸出層3 個模塊所組成[15]。相較于其他普通的神經(jīng)網(wǎng)絡結構,該結構特別之處是它的隱藏層之間是前后相連接的。這種相對特別的網(wǎng)絡結構能夠保存序列里前文信息,因此RNN 結構常被使用在命名實體識別工作中[16]。RNN 結構在處理序列數(shù)據(jù)時對數(shù)據(jù)長度并沒有進行限制,但是過長的序列會導致梯度爆炸的情況[17]。為了防止這種情況的發(fā)生,Hochreiter 等在傳統(tǒng)的RNN 結構的基礎上設計了LSTM(Long Short-Term Memory)網(wǎng)絡[18]。

LSTM 單元結構在傳統(tǒng)RNN 基礎上進行了優(yōu)化,是由輸入門、遺忘門及輸出門3 個門單元模塊組成[13],其具體的結構如圖4 所示。

圖4 LSTM 單元結構

LSTM 結構處理數(shù)據(jù)時把前一刻的輸入做此刻的輸出,再利用Sigmoid 激活函數(shù)來激活輸入的數(shù)據(jù),3 部分的公式分別如下:

公式(2)(3)(4)中,it、ft、ot依次表示LSTM 單元結構中輸入門、遺忘門和輸出門3 個門單元,σ 表示Sigmoid 激活函數(shù),xt是輸入的字符向量表示,ht-1表示LSTM 結構上個時刻隱藏層狀態(tài),Ct-1表示LSTM 結構上個時刻的細胞狀態(tài),b 則表示偏置向量。細胞狀態(tài)的更新公式如下:

公式(5)中,·為逐元素乘法,tanh 函數(shù)即為雙曲正切激活函數(shù)。LSTM 單元隱藏層狀態(tài)的更新過程公式如下:

由上可知,一個LSTM 單元結構針對的都是上個時刻的狀態(tài),這樣處理僅學習到文本里的歷史信息,無法學習到未來信息。但是,在實體識別工作中,實體的標簽不僅會有歷史信息的影響,未來信息也會影響實體的標簽。為了學習到文本里的歷史信息和未來信息,該試驗在這一階段選用BiLSTM 模型,模型結構如圖5 所示。

圖5 BiLSTM 結構

該試驗使用BiLSTM 模型將上一步驟中ERNIE 預訓練的輸出作為輸入,對其進行正向LSTM 訓練與反向LSTM 訓練,分別獲得和2 個向量,再將這兩個向量拼接,這樣得到BiLSTM 輸出序列既能夠學習到文本中的歷史信息,又能夠學習到文本中的未來信息,比單獨的LSTM更加充分地提取文本特征。

2.3 CRF 層

如圖6 所示,通過BiLSTM 層處理后,并不能獲取標簽出現(xiàn)順序等限制關系并且輸出的標簽也不能組成完整的實體序列標簽。所以還要在預測過程中引入各標簽的限制關系。

圖6 BiLSTM 輸出標簽

CRF 屬于一種概率化無向圖模型。利用CRF 可以在預測過程中引入標簽之間的限制關系,以保證最后輸出標簽的合理性[16]。具體做法是,假設X={x1,x2,…,xn}、y={y1,y2,…,yn}分別是BiLSTM 層輸入和對應輸出的序列。計算標簽序列得分的公式如下:

公式(7)中,W 是轉移矩陣,yi是xi對應的輸出,yi+1是xi+1對應的輸出,Wyi,yi+1是表示標簽從yi轉移到y(tǒng)i+1的得分,Pi+1,yi+1表示輸入序列第i+1 個字對應標簽yi+1的得分。再對標簽序列y 的概率進行計算,計算公式如下:

公式(8)中,YX是一切可能標簽組成的集合。計算出概率最大的標簽集合,將其做為最終的輸出序列標簽。

3 結果與分析

3.1 數(shù)據(jù)集

該試驗涉及數(shù)據(jù)集為土壤肥力數(shù)據(jù)集。土壤肥力數(shù)據(jù)集是根據(jù)中國知網(wǎng)1980 年1 月至2021 年7 月間的學術期刊文獻,通過過濾條件“SU=(土壤)×(肥力+測土配方+土壤養(yǎng)分+全氮+全磷+全鉀+pH+有效磷+有效氮+有機質(zhì)+黏粒+砂粒+粉粒)NOT TI=(訂閱+訂購+征文+征稿+稿約+聲明+啟事+通知+須知+通訊+論文索引)”篩選出包含土壤肥力十大指標數(shù)值的文獻,并存為UTF-8純文本格式。將其中地址、數(shù)值、關系進行標注。試驗中,訓練集使用720 條,驗證集使用180 條,測試集使用90 條。

ERNIE-BiLSTM-CRF 模型在處理短文本命名實體識別上具有很大的優(yōu)勢,但是在處理長文本實體識別上效果就沒有那么好。~因此在試驗前需要將大量的土壤肥力長文本進行處理,提取出數(shù)據(jù)集長文本里對試驗有用的語句,去除其中的無關語句。

假如有一段這樣表述的長文本:“試驗地區(qū)選在安徽省長豐縣崗集鎮(zhèn)周山村,時間為2020 年,該區(qū)原土壤養(yǎng)分如表2。xxxxxx,xxxxx。由圖3 可知,試驗處理后的土壤pH為5.01,處理之后pH 下降?!逼渲小皒xxxxx,xxxxx”代表中間還有很多漢字。

通過這段長文本內(nèi)容,找到“安徽省長豐縣崗集鎮(zhèn)周山村”這種地址字符串,一直循環(huán)下去,直到找到最近的句號,立即停止,這樣就可以獲得“試驗地區(qū)選在安徽省長豐縣崗集鎮(zhèn)周山村,時間為2020 年,該區(qū)原土壤養(yǎng)分如表2?!边@樣含有地址的文本。之后再循環(huán)剩余的句子,找到類似“5.01”這種數(shù)值字符串,同樣,在遇到句號立即停止循環(huán),這樣循環(huán)得到最終的“由圖3 可知,試驗處理后的土壤pH 為5.01,處理之后pH 下降?!边@樣含有數(shù)值的文本。再將獲得的文本進行拼接,得到一段新的短文本“試驗地區(qū)選在安徽省長豐縣崗集鎮(zhèn)周山村,時間為2020 年,該區(qū)原土壤養(yǎng)分如表2。由圖3 可知,試驗處理后的土壤pH 為5.01,處理之后pH 下降?!?/p>

通過上面的方法,可以將數(shù)據(jù)集中長文本處理為短文本,如表1 所示,與開始的長文本對比,去除了其中許多無用的文本,只提取其中與試驗相關的短文本。再使用ERNIE-BiLSTM-CRF 模型進行土壤肥力命名實體識別,極大地降低了長文本的干擾,提高試驗的有效性。

表1 長文本處理后得到的短文本

3.2 試驗環(huán)境與參數(shù)

該試驗環(huán)境見下表2。

表2 試驗環(huán)境

ERNIE-BiLSTM-CRF 模型參數(shù)設置見表3。

表3 模型參數(shù)

3.3 評價指標

在該試驗中,通過準確率P、召回率R、F1值這3 個通用指標評價土壤肥力命名實體識別的試驗效果。3 種評價指標越高,代表模型的準確率、召回率和綜合性能越好。各評價指標的計算公式為:

3.4 結果與分析

為了驗證試驗結果,通過長文本處理數(shù)據(jù)集后,再分別使用HMM 模型、CRF 模型、BiLSTM 模型、BiLSTM-CRF模型、ERNIE-BiLSTM-CRF 模型的土壤肥力命名實體識別實驗,結果見表4。由試驗結果數(shù)據(jù)可知,文中使用的ERNIE-BiLSTM-CRF 模型在正確率、召回率和F1值都高于其他幾個模型,并且分別達到92.85%、92.00%、92.59%,取得了均高于92%的數(shù)值,文中使用的ERNIE-BiLSTM-CRF模型在處理土壤肥力命名實體識別中有很大的優(yōu)勢。

表4 不同模型的試驗結果

4 結語

針對傳統(tǒng)土壤肥力解析方法效率低、遷移能力差、長文本處理的問題,文中提出了ERNIE-BiLSTM-CRF 模型。為了達到更理想的土壤肥力命名實體識別,在使用模型前,將土壤肥力數(shù)據(jù)集中長文本處理為短文本。ERNIE-BiLSTM-CRF模型首先通過ERNIE 預訓練模型生成基于上下文語義的字向量,提升了字向量的表征能力,再通過BiLSTM 層學習向量特征,最后通過CRF 層解碼得到最優(yōu)標簽序列,提升土壤肥力命名實體識別的效果。文中模型處理了長文本命名實體識別問題,并且不需要人為制定相關規(guī)則、特征模板,實驗結果取得了最高的F1值,為92.59%,能夠有效識別出土壤肥力的各種實體信息。本研究還利用本文提出的模型構建土壤肥力知識圖譜,把分散的土壤肥力數(shù)據(jù)利用起來。下一步工作計劃,檢驗文中模型在實際使用效果,根據(jù)使用情況進一步改進算法。另外持續(xù)地搜集新的土壤肥力數(shù)據(jù),更新數(shù)據(jù)集,提供更加準確的土壤肥力數(shù)據(jù)以及更加科學的施肥建議。

猜你喜歡
土壤肥力命名實體
命名——助力有機化學的學習
前海自貿(mào)區(qū):金融服務實體
中國外匯(2019年18期)2019-11-25 01:41:54
拉薩市土壤肥力變化趨勢與改良策略
有一種男人以“暖”命名
東方女性(2018年3期)2018-04-16 15:30:02
為一條河命名——在白河源
散文詩(2017年17期)2018-01-31 02:34:08
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
哲學評論(2017年1期)2017-07-31 18:04:00
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”
安吉白茶園土壤肥力現(xiàn)狀分析
茶葉(2014年4期)2014-02-27 07:05:15
不同有機物料培肥對渭北旱塬土壤微生物學特性及土壤肥力的影響
景谷| 崇义县| 吉首市| 衡南县| 松桃| 明星| 京山县| 西峡县| 阜阳市| 灵台县| 资兴市| 修水县| 遵义市| 栖霞市| 彩票| 鞍山市| 新乡县| 剑川县| 东光县| 金华市| 香格里拉县| 买车| 万源市| 安化县| 滕州市| 漳浦县| 河津市| 平谷区| 高台县| 全南县| 大理市| 通化县| 崇信县| 沧州市| 洛阳市| 富锦市| 丹寨县| 新民市| 苗栗市| 安新县| 伊金霍洛旗|