面向?qū)＠谋镜膶嶓w識別研究綜述

2023-04-29 15:43:36李嘉茜張麗瑋

信息系統(tǒng)工程 2023年2期

李嘉茜　張麗瑋

摘要：目前，專利數(shù)量快速增長，單純依靠人工進行專利查閱，很難及時獲取專利中的創(chuàng)新資源。實體作為知識的一種，是目前最能直接體現(xiàn)專利的知識。實體識別除了專利獨有的技術(shù)詞、功效詞抽取，還有在其他領(lǐng)域通用的命名實體等信息的提取。并且隨著計算機技術(shù)的創(chuàng)新，大量學(xué)者將現(xiàn)代科學(xué)技術(shù)方法投入到專利文本知識挖掘中。因此，如何從海量專利文本中挖掘有價值的知識成為專利領(lǐng)域研究的新契機。旨在總結(jié)專利文本實體種類以及其抽取方法，并從研究對象、技術(shù)過程等角度來闡述現(xiàn)狀，探索專利文本實體識別工作的新方向。

關(guān)鍵詞：專利文本；實體識別；深度學(xué)習(xí)

一、前言

隨著知識產(chǎn)權(quán)在企業(yè)人心中地位的上升，人人更加注重知識產(chǎn)權(quán)保護，所以大量的專利信息充斥著網(wǎng)絡(luò)。據(jù)知識產(chǎn)權(quán)局的統(tǒng)計，2022年上半年我國實用新型專利就達到了147萬。除了數(shù)量的龐大，專利數(shù)據(jù)也因其更易獲取、專業(yè)權(quán)威而被選中作為知識庫來源。因此，有關(guān)人員需要花費大量時間閱讀和分析專利文獻，獲取專利中蘊藏的知識[1]，這與如今快節(jié)奏時代的高效率目標存在矛盾。所以面對大量的專利文本，如何更高效的獲取專利中的知識信息是一個值得關(guān)注的問題。

實體識別是知識抽取的一種，也是關(guān)系抽取，領(lǐng)域詞典構(gòu)建的前提。并且專利文本中的實體是專利的顯著標識，可以快速鎖定研究領(lǐng)域。隨著計算機的發(fā)展，實體識別技術(shù)也多樣化，目前多數(shù)研究都是使用機器自主學(xué)習(xí)的方法來提取專利實體。專利實體的提取，不僅可以提高閱讀者獲取知識的效率，還可以在當(dāng)前專業(yè)領(lǐng)域構(gòu)建知識圖譜。本文將分析、利用現(xiàn)有文章，對現(xiàn)有論文進行梳理與總結(jié)，并按照專利實體研究對象和技術(shù)實現(xiàn)方法這兩個維度進行分析。

二、實體識別研究對象

專利類的實體知識可以分為通用實體和專業(yè)實體。通用實體是指在專利領(lǐng)域中通用的實體知識，不具備領(lǐng)域特性。比如董文斌[2]在開放領(lǐng)域的實體識別包括公開號、申請人、分類號、發(fā)明人等實體。專業(yè)實體與之相反，包括：術(shù)語[3]、關(guān)鍵詞[4]、命名實體。其中術(shù)語是專利中出現(xiàn)最多的詞語，在不同領(lǐng)域的專利文本中，術(shù)語是區(qū)分各個領(lǐng)域的標志。比如孫甜[5]在新能源領(lǐng)域提出的術(shù)語“新能源汽車車門、連接板”。除了術(shù)語實體，關(guān)鍵詞抽取也常常作為知識進行研究。通過關(guān)鍵詞可以快速獲取文本主題，方便讀者檢索與理解。文獻[7]利用專利文本構(gòu)建領(lǐng)域背景，利用計算機去學(xué)習(xí)背景知識，從而做到可以自動識別關(guān)鍵詞的效果。除了上述幾種專業(yè)實體，命名實體類也是重點研究對象。在專利領(lǐng)域中需要考慮所需的處理任務(wù)來分析實體種類，比如董文斌[2]專利中將實體分為：零部件名、形狀構(gòu)造和功效詞。本文將上述實體進行分類，如表1所示。

三、實體識別關(guān)鍵技術(shù)

但隨著大數(shù)據(jù)時代的到來，傳統(tǒng)以規(guī)則提取的方法在實際應(yīng)用中的通用性差，目前只用來輔助主流方法來提高整體的準確率。因此本文將以基于統(tǒng)計學(xué)習(xí)和機器學(xué)習(xí)這兩種技術(shù)進行分析。

（一）基于統(tǒng)計學(xué)習(xí)

除了最早的人工提取規(guī)則方法，更為先進的是使用統(tǒng)計學(xué)方法C-value，該方法主要依靠詞頻特征來選擇專利術(shù)語，但是對于詞頻低的專利術(shù)語不能做到很好的篩選。俞琰等人[6]在術(shù)語抽取的基礎(chǔ)上，還加入了論文關(guān)鍵詞知識的特征，將依靠詞頻的C-value方法準確度提高了26%[7]。還有研究者以文本外部的數(shù)據(jù)作為輔助來自動抽取專利文本中的知識。Yadav[8]利用TextRank算法，學(xué)習(xí)網(wǎng)站的標注標簽功能，將標簽作為外部知識引入到文本抽取中。此外，比較多的文章是利用維基百科里面的詞條作為獨立概念，再通過統(tǒng)計權(quán)重來鏈接各個知識概念，利用知識間的語義抽取關(guān)鍵詞[9]?；诮y(tǒng)計學(xué)習(xí)的方法通用性強，無需標注數(shù)據(jù)，但是準確率依賴目標語料庫的規(guī)模和質(zhì)量，需要進一步改進。

（二）基于機器學(xué)習(xí)

針對基于機器學(xué)習(xí)的實體識別技術(shù)，本文將按照特征提取、模型訓(xùn)練這兩步進行分析。

1.特征抽取

特征抽取是將非結(jié)構(gòu)化文本結(jié)構(gòu)化的重要步驟，在模型訓(xùn)練前都需要對目標文本進行特征提取。根據(jù)文本特征的不同，可以結(jié)合詞頻特征、位置特征、詞性特征等。除了按照詞語粒度進行提取，針對于語句等級的特征提取也是很有必要的。如語句長度特征和語義特征：馬建紅[10]將語義角色標注作為一個提取有效特征的工具，借助Chinese PropBank（CPB）標注方式來對專利文本進行句法分析。上述特征的提取方式都是人工抽取，耗時也更依賴人工標注。而使用詞向量不僅可以表示整個句子特征，還省去了人工提取特征的步驟。最初的詞向量是基于計算機的隨機抽取，盡管經(jīng)模型訓(xùn)練可以較好地表達詞義，但是不能與其他任務(wù)通用。因此，谷歌在2018年發(fā)明了BERT預(yù)訓(xùn)練模型[11]。使用預(yù)訓(xùn)練模型自動創(chuàng)建特征值，很好的保留了語義之間的關(guān)系，有更好的泛化能力[12]。由于特征是為了更好的將非結(jié)構(gòu)化文本結(jié)構(gòu)化，所以為了更好的表達專利文本，董文斌[2]提出了特征融合，即將BERT訓(xùn)練后的特征與句子特征、詞語特征等信息按照對應(yīng)權(quán)重相加，再投入到后續(xù)模型中。使得該方法在在實體識別中準確率提高了8個百分點[5]。雖然詞向量省去人工標注的步驟，但是該特征的提取需要大量數(shù)據(jù)做準備，對于領(lǐng)域數(shù)據(jù)量低的文本不友好。

2.模型選擇

在對非結(jié)構(gòu)化的專利文本進行特征提取后，下一步就該應(yīng)用到模型中進行訓(xùn)練。下面將模型訓(xùn)練分為統(tǒng)計機器學(xué)習(xí)模型和深度學(xué)習(xí)模型。

（1）統(tǒng)計機器學(xué)習(xí)模型：在機器學(xué)習(xí)算法中，賴鴻昌[13]使用了CRF模型（conditional random field，條件隨機場）來識別專利中化合物和生物實體，組合了三種特征：字符特征、例模式特性、上下文特征。這一模型保留了隱馬爾科夫模型的優(yōu)點，也避免了最大熵馬爾科夫模型的基本限制?；诮y(tǒng)計機器學(xué)習(xí)的模型跨領(lǐng)域能力弱，目前還不成熟，需要進一步優(yōu)化。

（2）深度學(xué)習(xí)模型：在當(dāng)前知識抽取中，實體識別是使用深度學(xué)習(xí)最多的方向。它包括在一個詞序列中檢測指向一個預(yù)定義實體的詞匯單位，從而確定它所指向的實體的類型。而深度學(xué)習(xí)方法就是對目標文本中的實體進行分類，并且克服了采用傳統(tǒng)統(tǒng)計機器學(xué)習(xí)方法提取知識的缺點。在模型訓(xùn)練過程中，Lstm[14]（長短期記憶網(wǎng)絡(luò)）是研究者常用的神經(jīng)網(wǎng)絡(luò)模型。Bilstm（雙向長短期記憶網(wǎng)絡(luò)）是LSTM的變體，可以從前后兩個方向進行記憶，對長句子有更好的表現(xiàn)。Deng[15]在LSTM基準模型的基礎(chǔ)上，加入了CRF條件隨機場模型，用于解決實體標注順序的問題，取得了不錯的效果。但是原之安等人[16]驗證了BiLSTM對實體識別模型的負向影響：即在同樣的CRF模型基礎(chǔ)上使用Bilstm，會使得F1值降低。由此可見，面對不同的專利文本，應(yīng)該使用有針對性的方法來提高模型效果，而不是簡單的疊加。除此之外，Transformer模型作為自注意力機制的升級版，也對專利文本的實體識別起到積極作用：如王宇暉[17]在專利數(shù)據(jù)集上驗證了Transformer模型相比BiLSTM模型準確率提高了4個百分點?；谏疃葘W(xué)習(xí)的實體識別方法可以無需人工篩選實體特征，不僅降低了人工成本，還有助于將專利實體和上下文相結(jié)合。但該方法依賴于復(fù)雜的深度學(xué)習(xí)模型，需要非常大量的標注數(shù)據(jù)或標注句子以及較長的訓(xùn)練時間，且模型的跨領(lǐng)域泛化能力較弱。不過，總體而言，基于深度學(xué)習(xí)的抽取方法仍表現(xiàn)出了不錯的性能，該方法將會成為接下來幾年研究者的熱點研究方向。

綜上，表2 從實體識別技術(shù)分類、代表模型/算法、主要優(yōu)缺點及適用情況等宏觀角度對專利實體識別方法進行了對比分析。

四、結(jié)語

在技術(shù)方面，從特征眾多的統(tǒng)計機器學(xué)習(xí)方法，再到特征自動抽取的深度學(xué)習(xí)方法，模型的效率、準確率也在進一步提高。但是目前的技術(shù)提升都是在特征提取堆積、模型疊加、規(guī)則糾正這幾方面改進，學(xué)者很難跳出這個局限。而尤其針對專利文本，缺少一種針對專利文本特點而創(chuàng)新的方法[18]。畢竟專利文本在數(shù)量、格式、內(nèi)容上與其他文本都有很大的不同，這一點也是本人在今后研究者需要探索的。

在應(yīng)用方面，從整個數(shù)據(jù)信息來的角度看，專利文獻作為眾多科學(xué)技術(shù)文獻類型的一種，擁有眾多的領(lǐng)域分支，盡管實體識別在準確率上進一步提升，但是文本標注是不可避免的，每一個專利領(lǐng)域有不同的特點，所以在通用領(lǐng)域的應(yīng)用值得進一步挖掘。在后續(xù)應(yīng)用中，對關(guān)系知識的抽取以及如何將各領(lǐng)域等其他來源的知識與知識圖譜融合起來，形成內(nèi)容更為豐富、內(nèi)涵更為深入、時效性更強的知識圖譜是值得關(guān)注的一個研究方向。H

參考文獻

[1]馬建紅，張明月，趙亞男.面向創(chuàng)新設(shè)計的專利知識抽取方法[J].計算機應(yīng)用，2016，36（02）：465-471.

[2]董文斌，戰(zhàn)洪飛，余軍合，等.機械產(chǎn)品專利知識的提取和應(yīng)用[J].機械制造， 2021，59（08）：1-8.

[3]俞琰，陳磊，姜金德，等.融合論文關(guān)鍵詞知識的專利術(shù)語抽取方法[J].圖書情報工作，2020，64（14）：104-111.

[4]俞琰，朱晟忱.融入限定關(guān)系的專利關(guān)鍵詞抽取方法[J].數(shù)據(jù)分析與知識發(fā)現(xiàn)，2022，6（10）：57-67.

[5]孫甜，陳海濤，呂學(xué)強，等.新能源專利文本術(shù)語抽取研究[J].小型微型計算機系統(tǒng)，2022，43（05）：950-956.

[6]張芳叢，秦秋莉，姜勇，等.基于RoBERTa-WWM-BiLSTM-CRF的中文電子病歷命名實體識別研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn)，2022，6（Z1）：251-262.

[7]何陽宇，晏雷，易綿竹，李宏欣.融合CRF與規(guī)則的老撾語軍事領(lǐng)域命名實體識別方法[J].計算機工程，2020，46（08）：297-304.

[8]Yadav V， Bethard S. A Survey on Recent Advances in Named Entity Recognition from Deep Learning models[J].2019.

[9]Grineva M P， Grinev M N， Lizorkin D A. Extracting key terms from noisy and multitheme documents[C]// The Web Conference. ACM，2009.

[10]馬建紅，張明月，趙亞男.面向創(chuàng)新設(shè)計的專利知識抽取方法[J].計算機應(yīng)用，2016，36（02）：465-471.

[11]Devlin J， Chang M W， Lee K， et al. BERT： Pre-training of Deep Bidirectional Transformers for Language Understanding[J].2018.

[12]李建，靖富營，劉軍.基于改進BERT算法的專利實體抽取研究——以石墨烯為例[J].電子科技大學(xué)學(xué)報，2020，49（06）：883-890.

[13]賴鴻昌，朱禮軍，徐碩.面向?qū)＠幕衔锖蜕飳嶓w識別系統(tǒng)[J].情報工程，2015，1（04）：95-103.

[14]Hochreiter， S. Schmidhuber， J.Long Short-Term Memory. Neural computation， 1997，9，1735-1780.

[15]Deng Na， Fu Hao， Chen Xu. Named Entity Recognition of Traditional Chinese Medicine Patents Based on BiLSTM-CRF[J].WIRELESS COMMUNICATIONS & MOBILE COMPUTING，2021.

[16]原之安，彭甫镕，谷波，等.面向標注數(shù)據(jù)稀缺專利文獻的科技實體識別[J].鄭州大學(xué)學(xué)報（理學(xué)版），2021，53（04）：61-68.

[17]王宇暉，杜軍平，邵鎣俠.基于Transformer與技術(shù)詞信息的知識產(chǎn)權(quán)實體識別方法[J].智能系統(tǒng)學(xué)報，2023，18（01）：186-193.

[18]Puccetti Giovanni， Chiarello Filippo， Fantoni Gualtiero . A simple and fast method for Named Entity context extraction from patents[J]. Expert Systems With Applications，2021，184.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向?qū)＠谋镜膶嶓w識別研究綜述