李嘉茜 張麗瑋
摘要:目前,專利數(shù)量快速增長,單純依靠人工進行專利查閱,很難及時獲取專利中的創(chuàng)新資源。實體作為知識的一種,是目前最能直接體現(xiàn)專利的知識。實體識別除了專利獨有的技術(shù)詞、功效詞抽取,還有在其他領(lǐng)域通用的命名實體等信息的提取。并且隨著計算機技術(shù)的創(chuàng)新,大量學(xué)者將現(xiàn)代科學(xué)技術(shù)方法投入到專利文本知識挖掘中。因此,如何從海量專利文本中挖掘有價值的知識成為專利領(lǐng)域研究的新契機。旨在總結(jié)專利文本實體種類以及其抽取方法,并從研究對象、技術(shù)過程等角度來闡述現(xiàn)狀,探索專利文本實體識別工作的新方向。
關(guān)鍵詞:專利文本;實體識別;深度學(xué)習(xí)
一、前言
隨著知識產(chǎn)權(quán)在企業(yè)人心中地位的上升,人人更加注重知識產(chǎn)權(quán)保護,所以大量的專利信息充斥著網(wǎng)絡(luò)。據(jù)知識產(chǎn)權(quán)局的統(tǒng)計,2022年上半年我國實用新型專利就達到了147萬。除了數(shù)量的龐大,專利數(shù)據(jù)也因其更易獲取、專業(yè)權(quán)威而被選中作為知識庫來源。因此,有關(guān)人員需要花費大量時間閱讀和分析專利文獻,獲取專利中蘊藏的知識[1],這與如今快節(jié)奏時代的高效率目標存在矛盾。所以面對大量的專利文本,如何更高效的獲取專利中的知識信息是一個值得關(guān)注的問題。
實體識別是知識抽取的一種,也是關(guān)系抽取,領(lǐng)域詞典構(gòu)建的前提。并且專利文本中的實體是專利的顯著標識,可以快速鎖定研究領(lǐng)域。隨著計算機的發(fā)展,實體識別技術(shù)也多樣化,目前多數(shù)研究都是使用機器自主學(xué)習(xí)的方法來提取專利實體。專利實體的提取,不僅可以提高閱讀者獲取知識的效率,還可以在當(dāng)前專業(yè)領(lǐng)域構(gòu)建知識圖譜。本文將分析、利用現(xiàn)有文章,對現(xiàn)有論文進行梳理與總結(jié),并按照專利實體研究對象和技術(shù)實現(xiàn)方法這兩個維度進行分析。
二、實體識別研究對象
專利類的實體知識可以分為通用實體和專業(yè)實體。通用實體是指在專利領(lǐng)域中通用的實體知識,不具備領(lǐng)域特性。比如董文斌[2]在開放領(lǐng)域的實體識別包括公開號、申請人、分類號、發(fā)明人等實體。專業(yè)實體與之相反,包括:術(shù)語[3]、關(guān)鍵詞[4]、命名實體。其中術(shù)語是專利中出現(xiàn)最多的詞語,在不同領(lǐng)域的專利文本中,術(shù)語是區(qū)分各個領(lǐng)域的標志。比如孫甜[5]在新能源領(lǐng)域提出的術(shù)語“新能源汽車車門、連接板”。除了術(shù)語實體,關(guān)鍵詞抽取也常常作為知識進行研究。通過關(guān)鍵詞可以快速獲取文本主題,方便讀者檢索與理解。文獻[7]利用專利文本構(gòu)建領(lǐng)域背景,利用計算機去學(xué)習(xí)背景知識,從而做到可以自動識別關(guān)鍵詞的效果。除了上述幾種專業(yè)實體,命名實體類也是重點研究對象。在專利領(lǐng)域中需要考慮所需的處理任務(wù)來分析實體種類,比如董文斌[2]專利中將實體分為:零部件名、形狀構(gòu)造和功效詞。本文將上述實體進行分類,如表1所示。
三、實體識別關(guān)鍵技術(shù)
但隨著大數(shù)據(jù)時代的到來,傳統(tǒng)以規(guī)則提取的方法在實際應(yīng)用中的通用性差,目前只用來輔助主流方法來提高整體的準確率。因此本文將以基于統(tǒng)計學(xué)習(xí)和機器學(xué)習(xí)這兩種技術(shù)進行分析。
(一)基于統(tǒng)計學(xué)習(xí)
除了最早的人工提取規(guī)則方法,更為先進的是使用統(tǒng)計學(xué)方法C-value,該方法主要依靠詞頻特征來選擇專利術(shù)語,但是對于詞頻低的專利術(shù)語不能做到很好的篩選。俞琰等人[6]在術(shù)語抽取的基礎(chǔ)上,還加入了論文關(guān)鍵詞知識的特征,將依靠詞頻的C-value方法準確度提高了26%[7]。還有研究者以文本外部的數(shù)據(jù)作為輔助來自動抽取專利文本中的知識。Yadav[8]利用TextRank算法,學(xué)習(xí)網(wǎng)站的標注標簽功能,將標簽作為外部知識引入到文本抽取中。此外,比較多的文章是利用維基百科里面的詞條作為獨立概念,再通過統(tǒng)計權(quán)重來鏈接各個知識概念,利用知識間的語義抽取關(guān)鍵詞[9]?;诮y(tǒng)計學(xué)習(xí)的方法通用性強,無需標注數(shù)據(jù),但是準確率依賴目標語料庫的規(guī)模和質(zhì)量,需要進一步改進。
(二)基于機器學(xué)習(xí)
針對基于機器學(xué)習(xí)的實體識別技術(shù),本文將按照特征提取、模型訓(xùn)練這兩步進行分析。
1.特征抽取
特征抽取是將非結(jié)構(gòu)化文本結(jié)構(gòu)化的重要步驟,在模型訓(xùn)練前都需要對目標文本進行特征提取。根據(jù)文本特征的不同,可以結(jié)合詞頻特征、位置特征、詞性特征等。除了按照詞語粒度進行提取,針對于語句等級的特征提取也是很有必要的。如語句長度特征和語義特征:馬建紅[10]將語義角色標注作為一個提取有效特征的工具,借助Chinese PropBank(CPB)標注方式來對專利文本進行句法分析。上述特征的提取方式都是人工抽取,耗時也更依賴人工標注。而使用詞向量不僅可以表示整個句子特征,還省去了人工提取特征的步驟。最初的詞向量是基于計算機的隨機抽取,盡管經(jīng)模型訓(xùn)練可以較好地表達詞義,但是不能與其他任務(wù)通用。因此,谷歌在2018年發(fā)明了BERT預(yù)訓(xùn)練模型[11]。使用預(yù)訓(xùn)練模型自動創(chuàng)建特征值,很好的保留了語義之間的關(guān)系,有更好的泛化能力[12]。由于特征是為了更好的將非結(jié)構(gòu)化文本結(jié)構(gòu)化,所以為了更好的表達專利文本,董文斌[2]提出了特征融合,即將BERT訓(xùn)練后的特征與句子特征、詞語特征等信息按照對應(yīng)權(quán)重相加,再投入到后續(xù)模型中。使得該方法在在實體識別中準確率提高了8個百分點[5]。雖然詞向量省去人工標注的步驟,但是該特征的提取需要大量數(shù)據(jù)做準備,對于領(lǐng)域數(shù)據(jù)量低的文本不友好。
2.模型選擇
在對非結(jié)構(gòu)化的專利文本進行特征提取后,下一步就該應(yīng)用到模型中進行訓(xùn)練。下面將模型訓(xùn)練分為統(tǒng)計機器學(xué)習(xí)模型和深度學(xué)習(xí)模型。
(1)統(tǒng)計機器學(xué)習(xí)模型:在機器學(xué)習(xí)算法中,賴鴻昌[13]使用了CRF模型(conditional random field,條件隨機場)來識別專利中化合物和生物實體,組合了三種特征:字符特征、例模式特性、上下文特征。這一模型保留了隱馬爾科夫模型的優(yōu)點,也避免了最大熵馬爾科夫模型的基本限制?;诮y(tǒng)計機器學(xué)習(xí)的模型跨領(lǐng)域能力弱,目前還不成熟,需要進一步優(yōu)化。
(2)深度學(xué)習(xí)模型:在當(dāng)前知識抽取中,實體識別是使用深度學(xué)習(xí)最多的方向。它包括在一個詞序列中檢測指向一個預(yù)定義實體的詞匯單位,從而確定它所指向的實體的類型。而深度學(xué)習(xí)方法就是對目標文本中的實體進行分類,并且克服了采用傳統(tǒng)統(tǒng)計機器學(xué)習(xí)方法提取知識的缺點。在模型訓(xùn)練過程中,Lstm[14](長短期記憶網(wǎng)絡(luò))是研究者常用的神經(jīng)網(wǎng)絡(luò)模型。Bilstm(雙向長短期記憶網(wǎng)絡(luò))是LSTM的變體,可以從前后兩個方向進行記憶,對長句子有更好的表現(xiàn)。Deng[15]在LSTM基準模型的基礎(chǔ)上,加入了CRF條件隨機場模型,用于解決實體標注順序的問題,取得了不錯的效果。但是原之安等人[16]驗證了BiLSTM對實體識別模型的負向影響:即在同樣的CRF模型基礎(chǔ)上使用Bilstm,會使得F1值降低。由此可見,面對不同的專利文本,應(yīng)該使用有針對性的方法來提高模型效果,而不是簡單的疊加。除此之外,Transformer模型作為自注意力機制的升級版,也對專利文本的實體識別起到積極作用:如王宇暉[17]在專利數(shù)據(jù)集上驗證了Transformer模型相比BiLSTM模型準確率提高了4個百分點?;谏疃葘W(xué)習(xí)的實體識別方法可以無需人工篩選實體特征,不僅降低了人工成本,還有助于將專利實體和上下文相結(jié)合。但該方法依賴于復(fù)雜的深度學(xué)習(xí)模型,需要非常大量的標注數(shù)據(jù)或標注句子以及較長的訓(xùn)練時間,且模型的跨領(lǐng)域泛化能力較弱。不過,總體而言,基于深度學(xué)習(xí)的抽取方法仍表現(xiàn)出了不錯的性能,該方法將會成為接下來幾年研究者的熱點研究方向。
綜上,表2 從實體識別技術(shù)分類、代表模型/算法、主要優(yōu)缺點及適用情況等宏觀角度對專利實體識別方法進行了對比分析。
四、結(jié)語
在技術(shù)方面,從特征眾多的統(tǒng)計機器學(xué)習(xí)方法,再到特征自動抽取的深度學(xué)習(xí)方法,模型的效率、準確率也在進一步提高。但是目前的技術(shù)提升都是在特征提取堆積、模型疊加、規(guī)則糾正這幾方面改進,學(xué)者很難跳出這個局限。而尤其針對專利文本,缺少一種針對專利文本特點而創(chuàng)新的方法[18]。畢竟專利文本在數(shù)量、格式、內(nèi)容上與其他文本都有很大的不同,這一點也是本人在今后研究者需要探索的。
在應(yīng)用方面,從整個數(shù)據(jù)信息來的角度看,專利文獻作為眾多科學(xué)技術(shù)文獻類型的一種,擁有眾多的領(lǐng)域分支,盡管實體識別在準確率上進一步提升,但是文本標注是不可避免的,每一個專利領(lǐng)域有不同的特點,所以在通用領(lǐng)域的應(yīng)用值得進一步挖掘。在后續(xù)應(yīng)用中,對關(guān)系知識的抽取以及如何將各領(lǐng)域等其他來源的知識與知識圖譜融合起來,形成內(nèi)容更為豐富、內(nèi)涵更為深入、時效性更強的知識圖譜是值得關(guān)注的一個研究方向。H
參考文獻
[1]馬建紅,張明月,趙亞男.面向創(chuàng)新設(shè)計的專利知識抽取方法[J].計算機應(yīng)用,2016,36(02):465-471.
[2]董文斌,戰(zhàn)洪飛,余軍合,等.機械產(chǎn)品專利知識的提取和應(yīng)用[J].機械制造, 2021,59(08):1-8.
[3]俞琰,陳磊,姜金德,等.融合論文關(guān)鍵詞知識的專利術(shù)語抽取方法[J].圖書情報工作,2020,64(14):104-111.
[4]俞琰,朱晟忱.融入限定關(guān)系的專利關(guān)鍵詞抽取方法[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2022,6(10):57-67.
[5]孫甜,陳海濤,呂學(xué)強,等.新能源專利文本術(shù)語抽取研究[J].小型微型計算機系統(tǒng),2022,43(05):950-956.
[6]張芳叢,秦秋莉,姜勇,等.基于RoBERTa-WWM-BiLSTM-CRF的中文電子病歷命名實體識別研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2022,6(Z1):251-262.
[7]何陽宇,晏雷,易綿竹,李宏欣.融合CRF與規(guī)則的老撾語軍事領(lǐng)域命名實體識別方法[J].計算機工程,2020,46(08):297-304.
[8]Yadav V, Bethard S. A Survey on Recent Advances in Named Entity Recognition from Deep Learning models[J].2019.
[9]Grineva M P, Grinev M N, Lizorkin D A. Extracting key terms from noisy and multitheme documents[C]// The Web Conference. ACM,2009.
[10]馬建紅,張明月,趙亞男.面向創(chuàng)新設(shè)計的專利知識抽取方法[J].計算機應(yīng)用,2016,36(02):465-471.
[11]Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J].2018.
[12]李建,靖富營,劉軍.基于改進BERT算法的專利實體抽取研究——以石墨烯為例[J].電子科技大學(xué)學(xué)報,2020,49(06):883-890.
[13]賴鴻昌,朱禮軍,徐碩.面向?qū)@幕衔锖蜕飳嶓w識別系統(tǒng)[J].情報工程,2015,1(04):95-103.
[14]Hochreiter, S. Schmidhuber, J.Long Short-Term Memory. Neural computation, 1997,9,1735-1780.
[15]Deng Na, Fu Hao, Chen Xu. Named Entity Recognition of Traditional Chinese Medicine Patents Based on BiLSTM-CRF[J].WIRELESS COMMUNICATIONS & MOBILE COMPUTING,2021.
[16]原之安,彭甫镕,谷波,等.面向標注數(shù)據(jù)稀缺專利文獻的科技實體識別[J].鄭州大學(xué)學(xué)報(理學(xué)版),2021,53(04):61-68.
[17]王宇暉,杜軍平,邵鎣俠.基于Transformer與技術(shù)詞信息的知識產(chǎn)權(quán)實體識別方法[J].智能系統(tǒng)學(xué)報,2023,18(01):186-193.
[18]Puccetti Giovanni, Chiarello Filippo, Fantoni Gualtiero . A simple and fast method for Named Entity context extraction from patents[J]. Expert Systems With Applications,2021,184.