閆琪琪 張海軍
摘要:論文梳理總結了目前術語自動抽取的研究現狀,分析討論了術語自動抽取的研究方法,通過對術語抽取方法剖析和比較,提出了目前研究中存在的問題和發(fā)展趨勢,這對后續(xù)的中文領域術語自動抽取的研究具有一定的指導意義。
關鍵詞:術語自動抽?。恢形男畔⑻幚?;研究現狀
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2014)28-6716-03
術語是人類智慧在語言中的結晶,它凝聚了領域知識的精髓。領域術語使用過程中,由于術語標準化工作沒有及時對新產生術語進行規(guī)范化處理,導致各領域術語混亂,領域內部和領域間的科學交流困難重重。因此,開展術語庫自動構建和術語規(guī)范化已迫在眉睫,利用計算機手段開展術語抽取和規(guī)范化工作已成為術語學研究和自然語言處理中的重要問題[1]。研究將從領域術語自動抽取方法、術語抽取研究中存在的問題及術語抽取研究發(fā)展趨勢幾個部分展開。
1 中文領域術語抽取研究現狀及發(fā)展趨勢
自動術語抽取是從特定的領域文本中抽取體現領域核心術語詞匯的過程。目前中文術語抽取的研究中通常綜合考慮術語的語言特征和術語領域特征。主要體現在候選術語提取和候選術語過濾階段的工作中,術語抽取的一般流程如下圖:
術語抽取流程反映了術語抽取工作開展的一般步驟。選擇合適的領域語料是開展術語抽取工作的必要條件;預處理的處理方式與術語抽取采用的方法有直接關系,主要是生語料的格式轉化、去噪、分詞及詞性標注等;采用統(tǒng)計或規(guī)則的方法從語料中提取候選術語,通過統(tǒng)計參數或規(guī)則過濾候選術語以獲取領域術語列表。候選術語提取階的詞典資源主要有,普通詞語前綴后綴詞典、停用詞詞典等。
1.1 領域術語自動抽取方法研究
1.1.1 基于詞典與規(guī)則的方法
基于詞典的方法就是利用現有術語資源定位術語在文本中的出現,一定程度上來說,術語本身就是術語最基本的語言特征,它本身包含著術語的最大信息。基于規(guī)則的方法就是利用術語語言特征進行術語抽取的方法。研究[2]借助一般詞典和種子擴展方法自動識別單詞術語,實驗表明該方法是有效的,但召回率較低。研究[3]借助早期的語法過濾器,較之前研究使用的語法規(guī)則寬松,能夠匹配更多不同語言結構的術語,提高了術語抽取的召回率,但降低了準確率。研究[4]運用正則表達式的字符串匹配功能對特定數據庫中的術語實現抽取,證明了簡化正則表達式規(guī)則能提高特定應用的需求匹配效率,研究將抽取效率提高1倍左右。
詞典與規(guī)則的方法對特定領域和特定類型的術語抽取具有良好的效果。此類方法有準確率高、處理過程簡單、計算量小等特點,但術語構詞規(guī)則靈活、表達方式復雜且存在術語變體和領域新詞等問題,致使術語的語言規(guī)則難以把握,術語規(guī)則庫構造困難。目前國內外純基于規(guī)則的術語抽取研究很少,它在術語抽取研究中多用于低頻術語抽取和準確率提高。
1.1.2 基于統(tǒng)計的方法
基于統(tǒng)計的方法[5-7]以統(tǒng)計理論為基礎,從概率意義上衡量多字單元是否為術語。術語的統(tǒng)計特征有兩類,一是術語單元性即術語作為獨立的語言單位具有穩(wěn)定的語言結構;二是術語領域特性即測度詞匯單元與特定領域之間的相關程度。
融合多統(tǒng)計特征的統(tǒng)計模型是目前主流的統(tǒng)計方法,選擇符合領域術語特征的統(tǒng)計參數是對術語抽取研究的有效嘗試?;诮y(tǒng)計的方法適用于大規(guī)模語料、容易實現自動化且對不同領域的適應性很強,但存在依賴分詞結果、易受測試語料規(guī)模影響、缺乏語義邏輯等問題。
1.1.3 規(guī)則與統(tǒng)計相結合的方法
規(guī)則與統(tǒng)計相結合的方法又稱混合方法,此類方法是從經驗主義和理性主義兩方面對術語進行量度的,即采用了統(tǒng)計方法適用于大規(guī)模語料的特征,又融合了語言規(guī)則精確度高的特征用于提取領域術語?;旌戏椒?,特別是統(tǒng)計機器學習模型,是目前領域術語抽取研究的重點和熱點。研究[8]提出的基于質子串分解的方法,使用參數F-MI抽取簡單質詞,質子串分解方法抽取復雜結構合詞,有效的提高術語抽取的準確率。研究[9]的研究中采用的IC-value方法從逆文檔頻率、公共破碎字串和術語長度三個方面改進了C-value方法,實驗證明500詞內的抽回術語準確率和召回率分別為77.8%和29.81%,此算法能有效識別長術語和公共破碎字串,但對低頻術語的識別能力較差。條件隨機場(CRFs)兼具最大熵模型(ME)和隱馬爾科夫模型(HMM)的特征,是目前標注和切分序列數據效果最好的機器學習模型。研究[10]以CRFs為依托,融合了詞性、詞典、領域頻率等術語特征,并采用交叉驗證方法確定模型訓練參數,準確率、召回率分別為84.61%、80.5%。但此方法需要合適的訓練集對模型參數進行訓練,而訓練集構建耗費大量的時間和人力,且不同領域訓練集也不同,這就導致了訓練模型的可移植性很差。
混合方法是當前術語抽取研究的主流方法。此類方法吸取統(tǒng)計方法適用于大規(guī)模語料處理的特征并融合了規(guī)則方法抽取精度高等優(yōu)點,在對領域語料整理、領域概念和領域特征分析的基礎上,選擇符合領域特征的統(tǒng)計參數與語言規(guī)則,有效提高了術語抽取的準確率和召回率。
1.2 領域術語抽取工作中存在的問題
1) 依賴分詞及詞性標注的準確度
由于專業(yè)領域詞匯的缺乏,在分詞過程中,專業(yè)領域詞匯常會被錯誤的切分成多個單詞或形成單詞碎片。目前的一些研究直接對分詞結果進行統(tǒng)計作為候選術語,忽略了可能存在的分詞錯誤對術語單元性和領域性造成的破壞。
2) 過分依賴前景知識(領域詞典)
Krauthammer(2004)曾對詞典術語抽取方法進行實驗,結果表明由于詞典易受到靈活的語言表達和術語變體的影響,此類方法不但領域移植性較差而且術語識別率較低。針對術語抽取詞典方法中存在的問題,研究[11]提出了不依賴領域詞典的術語抽取算法,取得了一定的效果。
3) 重視領域特征而忽視了術語的單元性特征
術語單元性和領域性是術語的兩個基本統(tǒng)計指標,為了有效的提高領域術語抽取的召回率和準確率,術語抽取研究應對術語單元性和領域性兩方面給予同等的關注。研究[12]表明集成術語的單元特征和領域特征能有效提高術語抽取的準確率。
1.3 領域術語抽取研究發(fā)展趨勢
多策略融合無疑是提升術語抽取效果的有效途徑,其基本思想即不同術語抽取策略間的補充。目前基于多策略術語抽取方法主要有兩個方面:一是融合多種規(guī)則和術語統(tǒng)計參數的多策略融合術語抽取方法;二是統(tǒng)計機器學習方法融合多種術語特征。多種統(tǒng)計特征結合術語構詞規(guī)則的術語抽取方法已成為術語抽取研究的主要方向,研究[13]提出的NC-value參數和互信息結合的方法,集中識別三字以上的長術語,實驗表明此方法在準確率和召回率均獲得了一定的提升。而研究[14]提出一種雙層HMM算法,利用HMM有效的解決語法規(guī)則的概率存在和窮舉局限性問題,實驗表明此方法具有良好的性能。
關注自然語言處理各領域中的最新研究動態(tài),將相關領域的研究策略向術語自動抽取進行有效的遷移是對術語自動抽取研究的一種有意義的探索。此外領域術語抽取是從領域文本中獲取代表領域核心概念的詞語集合,如果術語抽取能夠在抽取術語的同時構建術語的內涵和外延,實現從領域術語短語數據到知識的價值轉化,將對術語抽取相關研究具有極其重要的意義。
2 結束語
領域術語抽取的研究與實現是一個復雜的過程,從領域術語研究的整體視角對各類方法和關鍵技術進行探討,并對目前研究中存在問題的反思,對于不同特征識別算法的有效融合具有重要的理論意義。
參考文獻:
[1] 馮志偉.現代術語學引論[M].北京:商務印書館,2011.
[2] 段國成.基于CCD的術語抽取研究[D].鄭州:鄭州大學,2007.
[3] Sui Z, Chen Y, Wei Z. Automatic recognition of Chinese scientific and technological terms using integrated linguistic knowledge[C]//Natural Language Processing and Knowledge Engineering, 2003. Proceedings. 2003 International Conference on. IEEE, 2003: 444-451.
[4] 姚振軍,黃德根.正則表達式在漢英對照中國文化術語抽取中應用[J].大連理工大學學報,2010,2:140-144.
[5] 周浪,馮沖,黃河燕.一種面向術語抽取的短語過濾技術[J].計算機工程與應用,2009,45(19):9-11.
[6] 潘虹,徐朝軍.LCS算法在術語抽取中的應用研究[J].情報學報,2010,29(5):853-857.
[7] 周浪,張亮,馮沖,等.基于詞頻分布變化統(tǒng)計的術語抽取方法[J].計算機科學,2009,36(5):177-180.
[8] 何婷婷,張勇.基于質子串分解的中文術語自動抽取[J].計算機工程,2006,32(23):188-190.
[9] 胡阿沛,張靜,劉俊麗.基于改進C-value方法的中文術語抽取[J].現代圖書情報技術,2013,(02):24-29.
[10] 李麗雙,黨延忠.基于條件隨機場的汽車領域術語抽取[J].大連理工大學學報,2013,53(2):267-272.
[11] 王衛(wèi)民,賀冬春,符建輝.基于種子擴充的專業(yè)術語識別方法研究[J].計算機應用研究,2012,29(11):4105-4107.
[12] Kang Jingjing, Liu Tao, Hu He. Discovering Chinese compound term using termhood and unithood measure[C]//IEEE 2011 Sixth Annual China Grid Conference Dalian,2011:60-67.
[13] 梁穎紅,張文靜.基于混合策略的高精度長術語自動抽取[J].中文信息學報,2009,23(6):26-30.
[14] 岑詠華,韓哲.基于隱馬爾科夫模型的中文術語識別研究[J].現代圖書情報技術,2008,12:54-58.