依力達(dá)爾·依明
摘要:特定領(lǐng)域的命名實體識別方法在不同的領(lǐng)域中都會存在很大的差別。不同領(lǐng)域的文本具有其自身的不同的特性,這致使目前已有領(lǐng)域的識別方法很難滿足識別新的特定領(lǐng)域的發(fā)展需求。針對在特定新領(lǐng)域中所存在的問題,提出了以隨機(jī)場、半監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)相結(jié)合的方法為基礎(chǔ)對特定領(lǐng)域的命名實體的識別方法進(jìn)行研究,從而形成一個特定的領(lǐng)域命名實體框架,進(jìn)而能夠滿足各個不同領(lǐng)域的命名實體識別方法的需求。這篇文章選用了幾乎在所有特定領(lǐng)域中都能夠通用的方法構(gòu)建特征,從而實現(xiàn)了對特定領(lǐng)域的命名實體識別方法的研究。
關(guān)鍵詞:特定領(lǐng)域;命名實體;識別方法;研究
中圖分類號:TP399 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)08-0208-03
特定領(lǐng)域中最基本的信息單位是命名實體,命名實體不僅是文本原有名稱的縮寫,也是文本的唯一標(biāo)識,它往往能夠涵蓋文章的主要內(nèi)容。命名實體的識別是現(xiàn)代自動化識別技術(shù)中的一門最基礎(chǔ)又極其重要的技術(shù)。最近幾年,對特定領(lǐng)域的命名實體進(jìn)行現(xiàn)代化自動識別時已經(jīng)非常的普遍了。在生物領(lǐng)域的命名實體識別,文獻(xiàn)針對不同的事物領(lǐng)域采用了不同的生物向量機(jī),并且以隱馬爾可夫?qū)ι镝t(yī)學(xué)命名實體識別為基礎(chǔ)開展了生物領(lǐng)域的命名實體識別;文獻(xiàn)并且以隱馬爾可夫?qū)ι镝t(yī)學(xué)命名實體為基礎(chǔ)提出了一種產(chǎn)品命名的實體識別方法,從而實現(xiàn)漢語文本命名的識別;文獻(xiàn)在軍事領(lǐng)域方面,將機(jī)場的隨機(jī)條件和規(guī)則相結(jié)合的方式實現(xiàn)了對軍事領(lǐng)域的實體命名識別;文獻(xiàn)在音樂領(lǐng)域方面,以隱馬爾可夫?qū)ι镝t(yī)學(xué)命名實體為基礎(chǔ)提出了歌手名和歌曲名等進(jìn)行了實體識別;文獻(xiàn)在醫(yī)學(xué)領(lǐng)域方面,使用了將條件隨機(jī)任何規(guī)則相結(jié)合的方式從而實現(xiàn)了醫(yī)學(xué)領(lǐng)域的命名實體識別。
為了能夠驗證這篇文章所采用方法的科學(xué)性與正確性,實驗部分做了反復(fù)多次的實驗,從而確保準(zhǔn)確率達(dá)到相應(yīng)的標(biāo)準(zhǔn)。經(jīng)過一系列的實驗研究發(fā)現(xiàn)該方法在交通領(lǐng)域中得到了實現(xiàn)了的命名實體識別效果,從而驗證了該實驗方法可以在實驗的過程中應(yīng)用。
1 特定領(lǐng)域命名實體識別方法的相關(guān)知識
由于各個文本在不同的領(lǐng)域中都有其不同的特點(diǎn)[1],所以文章所闡述的命名實體方法只能適用于特定領(lǐng)域的命名實體識別。如果將這些領(lǐng)域的命名實例方法應(yīng)用于其他領(lǐng)域的命名實體識別,識別的效果將會意想不到的下降。所以這篇文章針對在命名實體中存在的問題進(jìn)行了分析.從而提出了一種將條件隨機(jī)場監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)相結(jié)合的計算方法,既然形成了一個可以適用于特定領(lǐng)域的命名實體識別的技術(shù)框架[2]。這個實驗在開展的過程中所采用的是將各領(lǐng)域的文本的基本特征和基本構(gòu)建進(jìn)行結(jié)合的方法,然后在隨意的條件下對特定領(lǐng)域的命名實體進(jìn)行識別,然后再使用人工對低于閾值的文本進(jìn)行標(biāo)注。
1.1 條件隨機(jī)場
條件隨機(jī)場指的是一些研究人員以隱馬爾可夫?qū)嶒灪妥畲箪啬P蛯嶒灋榛A(chǔ)提出的一種概率判別模型。概率判別模型可以很快地判別出眾多序列中的特征,從而可以用來克服隱馬爾可夫模型中嚴(yán)格的強(qiáng)獨(dú)立性假設(shè)問題。與此同時[3],條件隨機(jī)場通過對全局統(tǒng)一規(guī)劃可以得出最優(yōu)輸出點(diǎn)的條件概率,從而可以有效地克服隱馬爾可夫模型中出現(xiàn)問題標(biāo)記的現(xiàn)象。
組合參考頻率系統(tǒng)也被稱為馬爾可夫條件隨機(jī)場,它可以用來定義:在一組特定的觀察序列中,可以將該觀察序列記為X,給一個標(biāo)記序列的連接記為Y。然后使用馬爾可夫條件隨機(jī)場將該條件區(qū)別看作為沒有條件的無向圖模型[4]。雖然條件無向圖的模型結(jié)構(gòu)非常隨意,但是因為一階鏈結(jié)構(gòu)在計算的過程中非常的簡單,所以在建立條件無向圖的模型結(jié)構(gòu)時一般會采用一階鏈結(jié)構(gòu)。組合參考頻率系統(tǒng)可以看為一階鏈狀無向圖模型的各輸出點(diǎn)之間的分隔,并且都存在一階鏈狀無向圖模型可以體現(xiàn)出馬爾科夫獨(dú)立性,如圖1所示:
通過圖1的一階鏈狀無向圖模型我們可以計算出Y的條件概率。
1.2 半監(jiān)督學(xué)習(xí)算法和主動學(xué)習(xí)算法
半監(jiān)督學(xué)習(xí)算法又被稱為自訓(xùn)練算法。半監(jiān)督學(xué)習(xí)算法是指將有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)算法進(jìn)行結(jié)合的一種統(tǒng)計計算學(xué)方法??梢酝ㄟ^將大量的標(biāo)注和未標(biāo)注的語料進(jìn)行分類和自主練習(xí),并且整個計算過程都是自動化不需要人力的參與。關(guān)于城市城軌交通領(lǐng)域方面的文本,如果采用人工的方法對語料進(jìn)行標(biāo)注[5],不僅會嚴(yán)重地降低城市城軌交通的運(yùn)行效率,反而會浪費(fèi)大量的時間。因此為了能夠減少用人工對語料進(jìn)行標(biāo)注的方法使用,就需要多采用組合參考頻率系統(tǒng)進(jìn)行反復(fù)的訓(xùn)練,必要時還可以結(jié)合半監(jiān)督學(xué)習(xí)算法,從而組建一個具有較強(qiáng)泛化能力的模型。
這篇文章采用半監(jiān)督學(xué)習(xí)算法,基本流程如下所示:
輸入:已經(jīng)標(biāo)注的訓(xùn)練集標(biāo)記為L特征集合標(biāo)記為V.沒有被標(biāo)注的訓(xùn)練集標(biāo)記為U。
(1)利用已經(jīng)標(biāo)記的訓(xùn)練集L在特征集合v上可以現(xiàn)在出模型Cl。
(2)再利用模型C1對沒有標(biāo)記的訓(xùn)練集U進(jìn)行命名實體的識別,并計算沒有標(biāo)記的訓(xùn)練集U的置信度。
(3)從沒有標(biāo)記的訓(xùn)練集U中選擇出高于閾值的一個樣本u加入已經(jīng)被標(biāo)記的訓(xùn)練集L中,最后從沒有標(biāo)記的訓(xùn)練集U中刪除高于閾值的樣本u。
(4)之后的計算就需要依照以上三個步驟反復(fù)地進(jìn)行,最后得出最簡化的計算模型。
如果想要在計算的過程中采用半監(jiān)督學(xué)習(xí)算法的方式[6],就需要選擇初始分類器具有高的分類精準(zhǔn)性。如果計算人員不能夠保證初始分類器具有高度的分類精準(zhǔn)性,并且在計算的過程中沒有人工的干預(yù),那么就會導(dǎo)致在反復(fù)計算的過程中出現(xiàn)錯誤積累的現(xiàn)象,從而導(dǎo)致分類器的訓(xùn)練實驗失效。
與半監(jiān)督學(xué)習(xí)算法相比較,主動學(xué)習(xí)算法的優(yōu)勢在于它能夠自動的選擇有利的訓(xùn)練模型將沒有標(biāo)注的樣本進(jìn)行標(biāo)注,從而在反復(fù)計算的過程中盡量減小標(biāo)注成本和分類學(xué)習(xí)的計算規(guī)模。研究人員已經(jīng)將主動學(xué)習(xí)算法應(yīng)用到語言處理領(lǐng)域中[7],比如將文本語言進(jìn)行分類、構(gòu)建沒有標(biāo)記的語料庫、語言實體的命名與識別等。再次與半監(jiān)督學(xué)習(xí)算法相比較,半監(jiān)督學(xué)習(xí)算法與主動學(xué)習(xí)算法兩者最大的區(qū)別在于:半監(jiān)督學(xué)習(xí)算法不需要人工的干預(yù),通過自身所選定的訓(xùn)練模型來選擇置信度高并且沒有被標(biāo)注的數(shù)據(jù)進(jìn)行利用;而主動學(xué)習(xí)算法在計算的過程中,能夠自動化的選取最有價值的標(biāo)注樣本加入已經(jīng)標(biāo)注過的樣本中。
2 以條件隨機(jī)場為基礎(chǔ)的命名實體識別
2.1 分詞和標(biāo)注
這篇文章采用的是我們國家最具有權(quán)威性的分詞系統(tǒng)ICT_CLAS[8]。應(yīng)用中國權(quán)威的中文分詞系統(tǒng)ICT-CLAS對城軌交通進(jìn)行分詞處理,并且其詞性的標(biāo)注結(jié)果將作為條件隨機(jī)場學(xué)習(xí)的重要特點(diǎn)。這篇文章使用字母符號為(A.B.C.D)集合對特定的領(lǐng)域文本實體的第一字符、中間字符和最后一個字符的集合中部分進(jìn)行標(biāo)注,還需要確保集合中的每一個字符都是{A.B.C.D)字母符號集合中的一種。
2.2 建立特征模板和函數(shù)
在條件隨機(jī)場訓(xùn)練模型中,選擇和建立合適的特征模板將對模板的性能產(chǎn)生十分重要的影響[9]。特定領(lǐng)域中的文本將有其文本自身的特定性,為了使得所建立的模板適用于各個特定的領(lǐng)域中,這篇文章將使用以下四種基本特征建立特征模板和函數(shù)。
(1)選擇合適的詞特征。分詞后的每一個詞都可以作為模板的特征,因為詞特征本身的特征就可以很好的反映出該文本獨(dú)有的特性,所以選擇合適的詞特征就能夠代表已經(jīng)選擇了選擇合理的模板特征[10]。
(2)詞性特征。這篇文章在對詞特征進(jìn)行分類的過程中也對詞特征進(jìn)行了標(biāo)注。經(jīng)過一系列列的實驗研究表明,用詞性特征來建立條件隨機(jī)機(jī)場可以很好地提高模板的計算性能。
(3)英文字母以及數(shù)字的特征。在很多特定的領(lǐng)域進(jìn)行實體命名的過程中都會有一些數(shù)字[9]。比如:在醫(yī)學(xué)領(lǐng)域中的“化學(xué)藥物1.2”、城軌交通領(lǐng)域中的“飛馳號CRH381B”等。因為在實體命名的過程中加上一些數(shù)字可以有利于區(qū)分同一領(lǐng)域中的不同事物,所以使很多特定領(lǐng)域在進(jìn)行實體命名的過程中,都會加入英文字母和一些數(shù)字。
(4)上下文特征。通過觀察序列的數(shù)值來看清序列本質(zhì),序列本身可以包含很多語言和文本信息。通過大量的實驗研究表明,在實驗范圍大的條件下,只運(yùn)用訓(xùn)練的上下文特征也能夠訓(xùn)練出性能比較好的模型。
本文將上面所提到的四種文本普遍含有的特征融合在一起構(gòu)成了還有特殊性能的特征模板。建立特征模板的目的就是為了獲得所需要的可以普遍使用的函數(shù),而獲得特征函數(shù)的性能在一定程度上也將取決于本篇文章對城軌交通文本的識別效果。
3 將半監(jiān)督學(xué)習(xí)和自動學(xué)習(xí)相融合所獲得的命名實體的識別辦法
在現(xiàn)有的命名實體識別的范圍中,以條件隨機(jī)場和半監(jiān)督算法相結(jié)合的命名實體方式非常的多見[11-13]。正如這篇文章所提及的半監(jiān)督算法會從沒有標(biāo)記的本集U中選出一個置信度高于閾值一個的u來加入沒有被標(biāo)注的樣本L中。正在計算的理論角度來看,當(dāng)所選中集合中的數(shù)量擴(kuò)大之后,就需要建立新的數(shù)據(jù)模型Dn。但是在新添加的訓(xùn)練樣本中有一部分的數(shù)據(jù)對提高新建的數(shù)據(jù)模型Dn性能沒有起到任何作用。因為這些數(shù)據(jù)是在原有的樣本中被標(biāo)記出來的,所以所添加的數(shù)據(jù)在原有的數(shù)據(jù)模型中屬于多余部分。除此之外,因為已經(jīng)有了特定領(lǐng)域缺乏豐富的分詞標(biāo)注,所以使得現(xiàn)有的分詞領(lǐng)域系統(tǒng)不在適用于特定領(lǐng)域系統(tǒng),進(jìn)而導(dǎo)致特定領(lǐng)域系統(tǒng)的分詞出現(xiàn)準(zhǔn)確性低的現(xiàn)象[14]。根據(jù)上面講述的兩點(diǎn)來看,若在命名實體識別的過程中僅應(yīng)用半監(jiān)督學(xué)習(xí)和自動學(xué)習(xí)相融合的方法,模型在反復(fù)循環(huán)計算的過程中不僅會降低計算的速度,而且會使計算的錯誤反復(fù)的積累。然而,如果將半監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)算法進(jìn)行結(jié)合,可以很好地克服在計算過程中出現(xiàn)的這種不良現(xiàn)象[15]。因為主動學(xué)習(xí)算法可以將不能被原模型進(jìn)行標(biāo)注的數(shù)據(jù)進(jìn)行人工標(biāo)記,然后再將標(biāo)記好的數(shù)據(jù)重新放入到新的訓(xùn)練模型中。這樣不僅能夠減少分類器在分類過程中出現(xiàn)的錯誤,而且也能夠?qū)崿F(xiàn)原有的模型在特定領(lǐng)域中的使用。
3.1 在置信度基礎(chǔ)上的主動學(xué)習(xí)
這篇文章將不能被原有模型進(jìn)行標(biāo)記的數(shù)據(jù)稱為有效數(shù)據(jù),并且這些樣本存在于沒有被標(biāo)記的數(shù)據(jù)中。在這里我們可以使用置信度將這些數(shù)據(jù)選擇出來作為有效數(shù)據(jù)。通過一系列的就算得到圖2所示的計算結(jié)構(gòu)模型。
該結(jié)構(gòu)模型的算法流程圖如下所示:
輸入已獲得標(biāo)記的樣本集為L;沒有被標(biāo)記的樣本集稱為U。
(1)獲取少量已經(jīng)被標(biāo)注的語料看作為l。
(2)使用條件隨機(jī)場對L進(jìn)行訓(xùn)練練習(xí),產(chǎn)生條件隨機(jī)場模型Dn。
(3)使用條件隨機(jī)場模型Dn對U命名實體進(jìn)行命名識別,并對U命名實體進(jìn)行標(biāo)注結(jié)果的置信度估算,即獲得一個條件概率為P(YIU)。
(4)選擇由U本集中置信度低于閾值的數(shù)據(jù)作為有效數(shù)據(jù),并將這些有效數(shù)據(jù)標(biāo)記為useful。
(5)然后再對有效數(shù)據(jù)useful進(jìn)行標(biāo)記,標(biāo)記好的數(shù)據(jù)稱為u。
(6)再把這些標(biāo)記好的數(shù)據(jù)又加入樣本集中L,并從沒有被標(biāo)記的樣本集U中刪除。
(7)將上面所闡述的六個過程進(jìn)行反復(fù)的計算,直至所計算的模型Dn處于收斂狀態(tài)。
最后輸出的數(shù)據(jù)模型為Dn。
4 該實驗的結(jié)果以及實驗結(jié)果分析
為了能夠有效地驗證該實驗結(jié)果是科學(xué)和準(zhǔn)確的,這篇文章采用了城軌交通的方式來進(jìn)行了驗證。相對交通的方式包括地鐵、高鐵和磁懸浮列車等。并且因為目前國內(nèi)沒有統(tǒng)一的城軌交通語料庫,所以就需要通過人工進(jìn)行語料庫的收集。這篇文章所需要的數(shù)據(jù)來源于很多的新聞報道和報紙以及網(wǎng)絡(luò)信息,一共設(shè)計了200片科學(xué)性的文章。并且本次實驗所采用了非常著名的條件隨機(jī)場開源工具和實驗方法,而且還使用了半監(jiān)督學(xué)習(xí)計算方法和主動學(xué)習(xí)計算方法,雖然實現(xiàn)了對城市交通軌道的命名實體識別。
這次實驗采用了四組實驗對比,分別使用了半監(jiān)督學(xué)習(xí)計算方法和主動學(xué)習(xí)方法以及三種學(xué)習(xí)計算方法相結(jié)合的方式進(jìn)行反復(fù)重復(fù)的計算。
5 結(jié)束語
本文提出的是在條件隨機(jī)場的條件下,將半監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)計算方法相結(jié)合的方法對特定的領(lǐng)域進(jìn)行命名識別。這種方法使用半監(jiān)督學(xué)習(xí)中的半監(jiān)督算法的條件隨意機(jī)場進(jìn)行反復(fù)的運(yùn)算,并且在其反復(fù)運(yùn)算的過程中選擇出置信度低于閾值的有效數(shù)據(jù),并將這些有效數(shù)據(jù)加入已經(jīng)被標(biāo)注的樣本中。這種計算方法結(jié)合了主動學(xué)習(xí)算法的理論。并且該計算方法在城軌交通命名方面得到了很好的命名實體識別結(jié)果。這篇文章不僅使用了最基本的技術(shù)文本特征和基礎(chǔ)構(gòu)建對特定的領(lǐng)域我們進(jìn)行隨機(jī)訓(xùn)練,而且選擇和增加不同領(lǐng)域的多種特征是下一次實驗的研究重點(diǎn)。為了使特定領(lǐng)域的命名實體識別方法研究得更加深層入,這需要研究人員結(jié)合不同領(lǐng)域的多種特點(diǎn)進(jìn)行研究。總而言之,將特定領(lǐng)域的命名實體識別方法不斷地進(jìn)行突破與創(chuàng)新是推動特定領(lǐng)域命名實體識別方法的快速進(jìn)步的基礎(chǔ)。
參考文獻(xiàn):
[1]張磊,特定領(lǐng)域的命名實體識別方法的研究[J].計算機(jī)與現(xiàn)代化,2018(3):60-64.
[2]張寧.面向特定領(lǐng)域的命名實體識別技術(shù)研究[D].杭州:浙江大學(xué),2018.
[3]張磊.特定領(lǐng)域命名實體識別通用方法的研究[D].北京:北京交通大學(xué),2018.
[4]何曉藝.面向領(lǐng)域文本知識實體識別及關(guān)系抽取的關(guān)鍵技術(shù)研究[D].石家莊:河北科技大學(xué),2018.
[5]劉璟.中文命名實體識別方法研究[J].電腦知識與技術(shù),2019,15(9):179-180.
[6]張曉海,操新文,高源.基于深度學(xué)習(xí)的作戰(zhàn)文書命名實體識 別[J].指揮控制與仿真,2019,41(4):22-26.
[7]王路路,艾山·吾買爾,吐爾根·依布拉音,等.基于深度神經(jīng)網(wǎng)絡(luò)的維吾爾文命名實體識別研究[J].中文信息學(xué)報,2019,33(3):64-70.
[8]趙鴻陽.基于深度學(xué)習(xí)的電子病歷命名實體識別的研究與實現(xiàn)[J].軟件,2019,40(8):208-211.
[9]張祥偉,李智.基于多特征融合的中文電子病歷命名實體識別[J].軟件導(dǎo)刊,2017,16(2):128-131.
[10]高甦,金佩,張德政.基于深度學(xué)習(xí)的中醫(yī)典籍命名實體識別研究[J].情報工程,2019,5(1):113-123.
[11]宋希良,韓先培,孫樂.面向新類型人名識別的數(shù)據(jù)增強(qiáng)方法[J].中文信息學(xué)報,2019,33(6):72-79.
[12]原旎,盧克治,袁玉虎,等.基于深度表示的中醫(yī)病歷癥狀表型命名實體抽取研究[J].世界科學(xué)技術(shù)一中醫(yī)藥現(xiàn)代化,2018,20(3):355-362.
[13]張海楠,伍大勇,劉悅,等.基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別[J].中文信息學(xué)報,2017,31(4):28-35.
[14]祖木然提古麗·庫爾班,艾山·吾買爾,中文命名實體識別模型對比分析[J].現(xiàn)代計算機(jī),2019(14):3-7.
[15]徐梓豪.基于統(tǒng)計模型的中文命名實體識別方法研究及應(yīng)用[D].北京:北京化工大學(xué),2017.
【通聯(lián)編輯:唐一東】