国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向軍事領(lǐng)域的土耳其語術(shù)語自動(dòng)抽取研究

2022-01-12 02:35張貴林易綿竹李宏欣閆丹輝孫玥瑩
中國科技術(shù)語 2022年1期

張貴林 易綿竹 李宏欣 閆丹輝 孫玥瑩

摘 要:文章以土耳其語軍事領(lǐng)域術(shù)語語言特征研究為基礎(chǔ),提出一種規(guī)則與統(tǒng)計(jì)相結(jié)合的術(shù)語抽取方法,先后通過關(guān)鍵詞、停止詞、形態(tài)分析序列模式、點(diǎn)互信息、左右信息熵和臨接詞綴等特征對(duì)單語文本中的候選項(xiàng)進(jìn)行篩選,在W-data和N-data大小兩組單語文本中進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法能夠有效地從實(shí)驗(yàn)數(shù)據(jù)中抽取土耳其語軍事術(shù)語。

關(guān)鍵詞:土耳其語軍事術(shù)語;過濾詞典;自動(dòng)抽取方法

中圖分類號(hào):H512;H083;E91? 文獻(xiàn)標(biāo)識(shí)碼:A? DOI:10.12339/j.issn.1673-8578.2022.01.003

Research on Auto-Extraction of Turkish Terminology in Military Field//ZHANG Guilin, YI Mianzhu, LI Hongxin, YAN Danhui, SUN Yueying

Abstract: Based on the analysis on the linguistic features of Turkish military terminologies, we proposed a terminology extraction method using combination of rules and statistics algorithm, and experimentally verified this method on monolingual W-data and N-data. The candidate items in the monolingual text are filtered through keywords, stop words, morphological analysis sequence pattern, pointwise mutual information, left and right information entropy and adjacency suffixes. Our results show that the proposed method can effectively extract Turkish military terminologies from the experimental data.

Keywords: Turkish terminology extraction; filtering dictionary; automatic extraction methodologies

引言

當(dāng)今世界各學(xué)科發(fā)展迅速,術(shù)語規(guī)模也隨之不斷增量擴(kuò)容,完全依靠人工抽取術(shù)語非常耗時(shí)耗力。為了快速高效構(gòu)建或維護(hù)術(shù)語詞典,人們提出了很多術(shù)語自動(dòng)抽取方法,如左右信息熵與互信息算法、word2vector相似詞算法、BERT-BiLSTM-CRF融合方法等[1-2],這些方法雖然能夠取得一定的效果,但遠(yuǎn)非完美,自動(dòng)獲取的術(shù)語仍然需要人工檢查和驗(yàn)證,在本質(zhì)上,術(shù)語自動(dòng)抽取仍是一個(gè)半自動(dòng)實(shí)現(xiàn)的過程。因此,如何利用知識(shí)庫來改善術(shù)語抽取性能而減輕人工篩選的工作量是術(shù)語自動(dòng)抽取研究的一個(gè)重要方向。

術(shù)語學(xué)家或翻譯人員先前編制的術(shù)語詞典,其本身詞法、語法和語義等領(lǐng)域?qū)傩詫?duì)動(dòng)態(tài)發(fā)展的術(shù)語具有天然的指導(dǎo)作用,在自動(dòng)抽取術(shù)語過程中,對(duì)相關(guān)特征的提取和利用有助于提高術(shù)語抽取的效果。基于這一前提,本文提出根據(jù)現(xiàn)有土耳其語軍事術(shù)語詞典中術(shù)語的語言學(xué)特征,構(gòu)建術(shù)語抽取關(guān)鍵詞、停止詞和形態(tài)分析序列模式列表,采用語言學(xué)規(guī)則與統(tǒng)計(jì)方法相結(jié)合的策略,利用背景語料中的點(diǎn)互信息、左右信息熵和臨接詞綴來實(shí)現(xiàn)土耳其語軍事領(lǐng)域術(shù)語的自動(dòng)抽取。

論文第一部分簡要介紹了術(shù)語的定義和術(shù)語自動(dòng)抽取的常見方法;第二部分主要闡述了軍事術(shù)語自動(dòng)抽取的具體方法、策略及相關(guān)算法,分析了土耳其語軍事術(shù)語特有的語言學(xué)特征,構(gòu)建了用于術(shù)語自動(dòng)抽取的相關(guān)知識(shí)庫;第三部分基于背景語料進(jìn)行了土耳其語軍事術(shù)語自動(dòng)抽取實(shí)驗(yàn),通過實(shí)驗(yàn)結(jié)果評(píng)測和分析,驗(yàn)證了本文所提方法的有效性;第四部分對(duì)全文進(jìn)行總結(jié),并對(duì)今后的研究方向進(jìn)行了展望。

1 術(shù)語定義及術(shù)語自動(dòng)抽取方法概述

1.1 術(shù)語的定義

術(shù)語是表示科學(xué)、藝術(shù)、專業(yè)或?qū)W科等領(lǐng)域知識(shí)相關(guān)特定概念的詞匯,在句子中一般作主語和謂語[3]。術(shù)語通常與特定的單一概念、對(duì)象、事件或狀態(tài)相對(duì)應(yīng),多為復(fù)合型名詞結(jié)構(gòu),在某一特定學(xué)科范圍內(nèi)具有單義性特點(diǎn),是確保領(lǐng)域?qū)<抑g有效溝通的基本信息承載單元,也是翻譯質(zhì)量評(píng)估中被廣泛使用的多維質(zhì)量度量標(biāo)準(zhǔn)的核心范疇之一[4]。軍事術(shù)語可視為軍事領(lǐng)域的專門用語,與一般詞語相比,在軍事領(lǐng)域使用的頻率較高,在其他領(lǐng)域使用的情況則很少,具有十分明顯的領(lǐng)域流通性。

1.2 術(shù)語自動(dòng)抽取常見方法

術(shù)語自動(dòng)抽取方法歸納起來可分為基于規(guī)則、基于統(tǒng)計(jì)、規(guī)則與統(tǒng)計(jì)相結(jié)合的方法三大類。基于規(guī)則的方法主要是利用現(xiàn)有術(shù)語資源的語言學(xué)特征,總結(jié)設(shè)置術(shù)語抽取的規(guī)則模板,然后通過模式匹配的方式完成候選術(shù)語的識(shí)別和抽取,如文獻(xiàn)[5]。這類方法對(duì)受限領(lǐng)域特定類型的術(shù)語抽取效果較好,且在準(zhǔn)確率方面具有一定的優(yōu)勢,但缺點(diǎn)是規(guī)則的制定通常需要一定規(guī)模的受限領(lǐng)域標(biāo)記語料的支持,且要求規(guī)則制定者具備較強(qiáng)的語言功底和背景知識(shí),當(dāng)規(guī)則設(shè)置出現(xiàn)偏差時(shí),容易出現(xiàn)覆蓋面不全和規(guī)則之間相互沖突的情況?;诮y(tǒng)計(jì)的術(shù)語抽取方法又可分為基于統(tǒng)計(jì)學(xué)的方法和基于詞向量機(jī)器學(xué)習(xí)的方法[6-8],其主要思想是根據(jù)統(tǒng)計(jì)特征,通過概率判斷出多詞字符串是否為穩(wěn)定的語言結(jié)構(gòu),并衡量組成成分與領(lǐng)域特征之間的關(guān)聯(lián)程度。相比于規(guī)則方法,統(tǒng)計(jì)方法的領(lǐng)域適應(yīng)性較強(qiáng),自動(dòng)化程度較高,但容易受到測試語料規(guī)模和質(zhì)量的影響。規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,主要利用兩種方法各自的優(yōu)點(diǎn),通過先抽取、后篩選的步驟來完成候選術(shù)語的抽取,其中統(tǒng)計(jì)和規(guī)則的使用順序并不固定,通常取決于研究內(nèi)容的具體需要。混合方法從理性主義和經(jīng)驗(yàn)主義融合角度出發(fā),可有效提高術(shù)語抽取的準(zhǔn)確率和召回率,是領(lǐng)域術(shù)語抽取研究最為主流的方法,也是目前研究的重點(diǎn)和熱點(diǎn)。

2 基于混合方法的術(shù)語抽取策略

識(shí)別詞語搭配和抽取關(guān)鍵術(shù)語的一種常見方法是通過詞性標(biāo)記序列(句法模式)來過濾或篩選候選術(shù)語,繼而找出與序列模式相匹配的可能成為術(shù)語的詞組。本文結(jié)合土耳其語自身的特點(diǎn),將土耳其語形態(tài)分析序列模式作為語言學(xué)規(guī)則,通過關(guān)鍵詞、常見停止詞、形態(tài)分析序列模式、點(diǎn)互信息、左右信息熵和臨接詞綴等篩選方法來實(shí)現(xiàn)術(shù)語抽取。其中,關(guān)鍵詞、停止詞和形態(tài)分析序列模式的確定均以術(shù)語詞典中術(shù)語的詞法、語法和語義特征為基礎(chǔ),系統(tǒng)主要包括基于末尾關(guān)鍵詞的候選項(xiàng)抽取、基于常見停止詞的候選項(xiàng)篩選、基于形態(tài)分析序列模式的候選項(xiàng)篩選、基于點(diǎn)互信息閾值的候選項(xiàng)篩選和左右信息熵閾值篩選五大模塊,術(shù)語抽取過程和整體框架如圖1所示。

2.1 軍事術(shù)語詞典的選取

軍事領(lǐng)域術(shù)語的意義較為寬泛。在一篇典型的軍事領(lǐng)域文本中,通常不僅會(huì)包括軍事領(lǐng)域的特定術(shù)語,一定也會(huì)出現(xiàn)其他領(lǐng)域的相關(guān)術(shù)語。目前領(lǐng)域術(shù)語知識(shí)庫的構(gòu)建大多在領(lǐng)域?qū)傩砸阎臄?shù)據(jù)集上完成,術(shù)語領(lǐng)域?qū)傩試?yán)重依賴數(shù)據(jù)集領(lǐng)域?qū)傩员旧恚g(shù)語領(lǐng)域?qū)傩詴?huì)跟隨數(shù)據(jù)集變化而發(fā)生改變。為了盡量保證術(shù)語的軍事領(lǐng)域?qū)傩?,本文主要以土耳其外交?013年3月發(fā)布的英-土雙語軍事領(lǐng)域術(shù)語詞表(第2版)為研究對(duì)象,并對(duì)比分析不同領(lǐng)域的術(shù)語詞典,選取并確定術(shù)語抽取關(guān)鍵詞、篩選停止詞和形態(tài)分析序列模式。對(duì)比分析數(shù)據(jù)還包括土耳其國家機(jī)場管理局航空術(shù)語詞典(2011版)和土耳其信息與通信技術(shù)管理局發(fā)布的《信息與通信技術(shù)術(shù)語指南》,用以驗(yàn)證不同領(lǐng)域術(shù)語之間的異同點(diǎn)。

2.2 土耳其語軍事術(shù)語的語言學(xué)特征分析

術(shù)語自動(dòng)抽取可分為單詞型術(shù)語抽取和多詞型術(shù)語抽取兩類,前者研究范疇通常與關(guān)鍵詞抽取相同,可屬同一過程,多詞型術(shù)語抽取則一般為術(shù)語抽取研究的重點(diǎn)和難點(diǎn)。馮志偉曾在《現(xiàn)代術(shù)語學(xué)引論》中提出,以組成術(shù)語的單詞個(gè)數(shù)為度量單位,大部分術(shù)語分布于2~6詞之間[9]。為此,本文對(duì)土耳其語三類術(shù)語詞典中的多詞型術(shù)語分別進(jìn)行了統(tǒng)計(jì),其分布狀況如圖2所示??梢钥吹剑?dāng)術(shù)語長度超過6之后,術(shù)語個(gè)數(shù)急劇下降,其中二詞型和三詞型術(shù)語占比最高,兩者相加在不同術(shù)語詞典中占比分別為74.8%(軍事)、57.6%(航空)和74.1%(通信),而長度為6以內(nèi)的所有術(shù)語總占比則高達(dá)99.25%(軍事)、99.27%(航空)和98.98%(通信)。因此,本文在研究過程中主要對(duì)長度不超過6的術(shù)語進(jìn)行分析。

為了驗(yàn)證同一術(shù)語的多領(lǐng)域?qū)傩?,本文?duì)三種術(shù)語詞典中重復(fù)出現(xiàn)的術(shù)語個(gè)數(shù)進(jìn)行了統(tǒng)計(jì)。其中,軍事領(lǐng)域術(shù)語詞典與航空領(lǐng)域術(shù)語詞典中共同出現(xiàn)的術(shù)語個(gè)數(shù)最多,軍事領(lǐng)域術(shù)語詞典與信息通信領(lǐng)域詞典中共同出現(xiàn)的術(shù)語個(gè)數(shù)較少,同時(shí)具有三種領(lǐng)域?qū)傩缘男g(shù)語個(gè)數(shù)則更少,且術(shù)語長度均未超過4,具有三種領(lǐng)域?qū)傩缘男g(shù)語為alc(接收器)、küresel seyrüsefer uydu sistemi(全球?qū)Ш叫l(wèi)星系統(tǒng))、kesintisiz gü kayna(不間斷供電電源)、elektromanyetik uyumluluk(電磁兼容)、haberle

瘙 塂

me(通信)、ses frekans(音頻)、 seyrüsefer(導(dǎo)航)、tahmini var

瘙 塂

zaman(預(yù)計(jì)抵達(dá)時(shí)間)和飛行情報(bào)中心(uu

瘙 塂

bilgi merkezi)。從語義角度來看,除了多義詞alc之外,上述術(shù)語大多具有較為穩(wěn)定的單義性,術(shù)語的多領(lǐng)域?qū)傩源蠖嗖粫?huì)對(duì)術(shù)語的領(lǐng)域約束性產(chǎn)生大的影響。

土耳其語軍事術(shù)語大多數(shù)為復(fù)合型名詞結(jié)構(gòu),且一個(gè)術(shù)語整體的句法功能均與該術(shù)語最后一個(gè)單詞的句法功能保持一致。鑒于以上兩點(diǎn),本文集中對(duì)兩類詞表加以對(duì)比分析,一是術(shù)語詞典整體詞頻表,二是多詞型術(shù)語最后一個(gè)單詞的詞頻表,統(tǒng)計(jì)結(jié)果顯示,在不進(jìn)行詞形還原的情況下,不同末尾詞在上述三類詞典中同時(shí)出現(xiàn)的個(gè)數(shù)占比分別為33.42%(通信)、37.98%(軍事)和54.65%(航空),此時(shí),術(shù)語表的規(guī)模越大,相同末尾詞個(gè)數(shù)則越少,而當(dāng)進(jìn)行詞形還原之后,三者占比分別增至74.15%(通信)、60.45%(軍事)和59.76%(航空),此時(shí),術(shù)語表的規(guī)模越大,相同末尾詞占比則越高。造成這一結(jié)果的主要原因是,末尾詞除了決定術(shù)語語法范疇之外,還可以承載語義的概念層次功能,這類詞匯大多可以用來構(gòu)建表達(dá)同一層次概念的不同術(shù)語,如圖3所示,在上述軍事術(shù)語詞典中具有相同末尾詞的術(shù)語個(gè)數(shù)可達(dá)數(shù)十乃至上百,在具體的文本中,可以根據(jù)需要通過這些詞匯來構(gòu)建新的術(shù)語。由于術(shù)語詞典本身的領(lǐng)域約束性,構(gòu)成軍事術(shù)語的這些末尾詞可作為核心詞匯直接用作面向軍事領(lǐng)域文本的術(shù)語抽取關(guān)鍵詞。

在軍事術(shù)語詞典整體詞頻表的統(tǒng)計(jì)上,經(jīng)航空和通信領(lǐng)域詞頻表篩選之后,軍事術(shù)語詞頻表中剩余單詞表現(xiàn)出很強(qiáng)的軍事領(lǐng)域特征,如表1中列出的使用頻率最高的前20個(gè)單詞,在語義層面上,這些詞匯甚至可以直接作為單詞型術(shù)語納入軍事術(shù)語詞典,可直接列入關(guān)鍵詞詞表。根據(jù)統(tǒng)計(jì)結(jié)果顯示,在三類術(shù)語詞典中均有使用的單詞,其領(lǐng)域?qū)傩耘c使用頻次緊密相關(guān),即單詞相對(duì)使用頻次越高則領(lǐng)域?qū)傩栽綇?qiáng),相反則越弱,比如,單詞ke?if(偵查)在軍事術(shù)語詞典中出現(xiàn)的次數(shù)為43,在通信術(shù)語詞典中出現(xiàn)的次數(shù)為2,其軍事領(lǐng)域?qū)傩悦黠@強(qiáng)于通信領(lǐng)域;而當(dāng)相對(duì)頻次相當(dāng)時(shí),即在不同領(lǐng)域術(shù)語詞典中出現(xiàn)頻次都很多,則證明該單詞具有很強(qiáng)的多領(lǐng)域?qū)傩?,比如,單詞sistem(系統(tǒng))在不同術(shù)語詞典中出現(xiàn)的次數(shù)分別為115(軍事)、76(航空)和161(通信),即在不同領(lǐng)域文本中單詞sistem使用的頻次都很多,我們很難僅僅通過頻次來確定單詞的具體領(lǐng)域歸屬。雖然如此,由于單詞sistem具有很強(qiáng)的術(shù)語構(gòu)建能力,且現(xiàn)實(shí)中用于術(shù)語抽取的文本數(shù)據(jù)集的領(lǐng)域?qū)傩源蠖嘁阎?,單詞本身的術(shù)語屬性+數(shù)據(jù)集領(lǐng)域?qū)傩匀钥纱笾乱暈樵搯卧~屬于某一特定領(lǐng)域。

在形態(tài)分析的統(tǒng)計(jì)上,我們首先對(duì)軍事術(shù)語詞典多詞型術(shù)語的最后一個(gè)單詞進(jìn)行形態(tài)分析,統(tǒng)計(jì)結(jié)果顯示noun+a3sg+p3sg+nom(名詞第三人稱單數(shù)領(lǐng)屬格)是使用最為頻繁的形態(tài)句法標(biāo)記,緊接著是noun+a3sg+pnon+nom(名詞原形),然后是noun+a3pl+p3sg+nom(名詞第三人稱復(fù)數(shù)領(lǐng)屬格),三者使用頻次分別為2858、1042和174,在整個(gè)形態(tài)分析結(jié)果列表中的總占比達(dá)85.52%。如果單從詞性角度來看,名詞性單詞占比高達(dá)98.34%,符合術(shù)語大多數(shù)為復(fù)合型名詞結(jié)構(gòu)的這一論斷,在確定關(guān)鍵詞和抽取術(shù)語時(shí),充分利用這一特點(diǎn)在一定程度上將有助于提高術(shù)語抽取的效率。在三類術(shù)語詞典中,軍事術(shù)語形態(tài)分析序列模式總數(shù)為1306,通信術(shù)語形態(tài)分析序列模式總數(shù)為1987,航空術(shù)語形態(tài)分析序列模式總數(shù)為591。通過軍事/通信、軍事/航空、軍事/通信+航空三種形式兩兩對(duì)比發(fā)現(xiàn),三者中均有的形態(tài)分析序列模式總數(shù)為430,其中,與使用最頻繁的前十位形態(tài)分析序列模式相符的軍事術(shù)語個(gè)數(shù)為2246,占術(shù)語總數(shù)的44.31%;軍事術(shù)語獨(dú)有形態(tài)分析序列模式總數(shù)為876,單個(gè)模式最高使用頻次為15,使用頻次為1的獨(dú)有序列模式總數(shù)為760,占術(shù)語總數(shù)的14.99%。對(duì)比結(jié)果顯示,基于軍事術(shù)語詞典構(gòu)建的形態(tài)分析序列模式具有一定的領(lǐng)域特征,但與領(lǐng)域?qū)傩暂^強(qiáng)的獨(dú)有模式相比,使用頻次高的通用形態(tài)分析序列模式對(duì)術(shù)語抽取的影響會(huì)更大。在進(jìn)行候選術(shù)語篩選時(shí),形態(tài)分析序列模式對(duì)術(shù)語領(lǐng)域?qū)傩跃哂幸欢ǖ募s束性,但效果有限。

2.3 關(guān)鍵詞選取

在關(guān)鍵詞的選取上,本文從功能角度將關(guān)鍵詞分為末尾關(guān)鍵詞和非末尾關(guān)鍵詞兩大類,末尾關(guān)鍵詞作為核心詞直接用于術(shù)語抽取索引詞,而非末尾關(guān)鍵詞則作為領(lǐng)域關(guān)鍵詞用于新關(guān)鍵詞的發(fā)現(xiàn)。語言學(xué)家約翰·加斯特森(John Justeson)提出一種通過選擇頻率最高的雙詞詞組,結(jié)合詞性模式過濾“可能短語”進(jìn)行短語和關(guān)鍵詞識(shí)別的方法[10]。本文借鑒這一方法,首先通過頻次獲得候選詞組,之后基于形態(tài)分析序列模式過濾出符合條件的候選短語,然后再使用非末尾關(guān)鍵詞進(jìn)行篩選并保留具有軍事領(lǐng)域?qū)傩缘暮蜻x短語,最后通過這些短語篩出術(shù)語詞典中沒有的末尾關(guān)鍵詞。需要指出的是,軍事術(shù)語詞典中多詞型術(shù)語名詞性結(jié)構(gòu)的占比高達(dá)98.34%,因此,名詞短語對(duì)于識(shí)別關(guān)鍵詞更加有用,在某種程度上多詞型術(shù)語的抽取可視為對(duì)名詞短語的抽取,本文在關(guān)鍵詞的設(shè)置上也以名詞為主。

2.4 停止詞的選取

自然語言領(lǐng)域泰斗肯尼斯·丘吉(Kenneth Church)在其研究中曾提到,最常見的詞通常會(huì)帶來最大的麻煩[11]。通過這些常見詞選取的停止詞,在被用于篩選術(shù)語時(shí)往往可以起到事半功倍的效果。本文在軍事領(lǐng)域術(shù)語停止詞的選取上遵循上述理念,通過軍事領(lǐng)域術(shù)語詞典和大規(guī)模單語數(shù)據(jù)集來構(gòu)建一種常見停止詞詞表,在選取常見停止詞時(shí),數(shù)據(jù)集中出現(xiàn)次數(shù)很少或較少的單詞不納入停止詞范圍之內(nèi)。

本文選取的單語數(shù)據(jù)集總字?jǐn)?shù)為5761.09萬,單詞個(gè)數(shù)為67.65萬,為了對(duì)常見詞進(jìn)行區(qū)分,我們首先對(duì)詞頻表中頻次最高的前2000個(gè)單詞和詞頻表中頻次大于1000的單詞進(jìn)行對(duì)比分析,結(jié)果顯示,數(shù)據(jù)集中頻次最高的前2000個(gè)單詞總字?jǐn)?shù)為3293.43萬,占比達(dá)57.17%,頻次大于1000的單詞字?jǐn)?shù)為997.53,占比達(dá)17.31%,兩者相加占數(shù)據(jù)集總字?jǐn)?shù)比例高達(dá)74.47%,而頻次大于1000的單詞在總單詞中的占比僅為1.08%。為了確定常見停止詞的篩選范圍,本文選取了9個(gè)不同節(jié)點(diǎn)分別對(duì)單詞個(gè)數(shù)占比和單詞字?jǐn)?shù)占比進(jìn)行統(tǒng)計(jì),結(jié)果如圖4所示,在前6萬個(gè)單詞中,隨著單詞個(gè)數(shù)的逐漸增加,單詞個(gè)數(shù)占比呈先陡后平趨勢,單詞個(gè)數(shù)占比從節(jié)點(diǎn)4開始明顯變化??紤]到常見停止詞的“常見”屬性,本文通過在節(jié)點(diǎn)3和節(jié)點(diǎn)4之間取平均值的方法來設(shè)置篩選范圍,即篩選范圍控制在前7500個(gè)單詞之內(nèi),這一數(shù)值與頻次大于1000的單詞個(gè)數(shù)大致相當(dāng)。

停止詞篩選過程共包括三個(gè)步驟:第一步使用軍事術(shù)語詞典詞頻表過濾常見詞詞表,保留剩余常見詞;第二步使用軍事術(shù)語形態(tài)句法標(biāo)記表過濾剩余常見詞匯,形態(tài)句法標(biāo)記不同的詞匯直接視為常見停止詞;第三步篩除剩余候選常見停止詞中的形容詞和動(dòng)名詞詞匯,利用通信術(shù)語詞典、航空術(shù)語詞典和軍事術(shù)語名詞原形詞典過濾同形詞,剩余詞匯直接視為常見停止詞,將第二步和第三步篩選的常見停止詞合并之后,常見停止詞個(gè)數(shù)由7500個(gè)減少至5132個(gè)。

2.5 形態(tài)分析序列模式的選取

根據(jù)統(tǒng)計(jì),在土耳其語軍事術(shù)語詞典中長度為2~6之間的名詞性術(shù)語占絕大多數(shù),總占比約為99.25%×98.34%=97.6%,為盡量提高術(shù)語抽取的整體準(zhǔn)確率,本文主要以軍事術(shù)語詞典中名詞性形態(tài)分析序列為研究對(duì)象選擇和構(gòu)建形態(tài)分析序列篩選模式。原則上,通過對(duì)術(shù)語詞典進(jìn)行形態(tài)分析獲取的形態(tài)分析序列可直接作為術(shù)語篩選模式,但由于一個(gè)土耳其語名詞性術(shù)語在句子中往往會(huì)有多種不同的表現(xiàn)形式,例如,土耳其語軍事術(shù)語 ate

瘙 塂

destei(火力支援)在句子中的形態(tài)同時(shí)可以有ate

瘙 塂

desteiyle(通過火力支援)或ate

瘙 塂

desteimizi(我們的火力支援)等,在不能有效進(jìn)行詞簇化處理的情況下,很難通過直接獲取的篩選模式識(shí)別所有“可能短語”,為解決這一問題,本文采用類詞簇化的做法,同時(shí)使用關(guān)鍵詞原形、第三人稱單數(shù)領(lǐng)屬格和第三人稱復(fù)數(shù)領(lǐng)屬格抽取“可能短語”,然后再用于形態(tài)序列模式的篩選。我們通過實(shí)驗(yàn)對(duì)直接獲取的形態(tài)分析序列模式的有效性進(jìn)行了驗(yàn)證,結(jié)果發(fā)現(xiàn)在術(shù)語詞典中出現(xiàn)次數(shù)很少的形態(tài)分析序列模式并不一定能夠起到術(shù)語篩選的效果,例如,軍事術(shù)語kar

瘙 塂

ate

瘙 塂

(火力反擊)的形態(tài)分析序列模式為后置詞+名詞(Postp Noun),后置詞nce和sonra與關(guān)鍵詞ate

瘙 塂

同時(shí)出現(xiàn)的概率也很高,通過上述形態(tài)分析序列很難過濾掉類似的字符串,但考慮到符合這一模式的術(shù)語總體占比很小,且大部分類似術(shù)語已在詞典中給出,因此,直接從列表中刪除具有類似特點(diǎn)的形態(tài)分析序列,可有效提高形態(tài)分析序列模式篩選效果。

2.6 基于統(tǒng)計(jì)方法的候選術(shù)語篩選

經(jīng)過關(guān)鍵詞、停止詞和形態(tài)分析序列模式等方法過濾篩選之后,為進(jìn)一步提高剩余候選術(shù)語的準(zhǔn)確率,本文采取設(shè)置點(diǎn)互信息和左右信息熵閾值的方式,排除一些單詞間凝合度低的“候選短語”。

1)點(diǎn)互信息

在語言信息處理領(lǐng)域,通過點(diǎn)互信息和平均點(diǎn)互信息來度量單詞間相關(guān)度是一種非常常見的方法[12]?;バ畔ⅲ∕I)來自于信息論,表示兩個(gè)隨機(jī)變量X,Y共享的信息量,是針對(duì)隨機(jī)變量計(jì)算得出的一個(gè)平均值,在已知任一變量的情況下,對(duì)另外一個(gè)變量的不確定性會(huì)相應(yīng)減少,互信息的計(jì)算公式為:

MI(X,Y)=∑x∈X,y∈Yp(x,y)log2p(x,y)p(x)p(y)

相對(duì)互信息的隨機(jī)變量,點(diǎn)互信息(PMI)則是計(jì)算兩個(gè)具體事件之間的互信息,其計(jì)算公式為:

PMI(X,Y)=log2p(x,y)p(x)p(y)

為了更加直觀地理解上述公式,在點(diǎn)互信息計(jì)算公式中,本文將x,y直接視為文本中相鄰出現(xiàn)的兩個(gè)單詞,p(x,y)指的是單詞x和單詞y相鄰出現(xiàn)的概率,p(x)和p(y)分別為單詞x在文本中出現(xiàn)的概率和單詞y在文本中出現(xiàn)的概率。根據(jù)統(tǒng)計(jì)結(jié)果,可直接通過公式計(jì)算得出單詞x和單詞y之間的互信息,當(dāng)單詞x和單詞y相互獨(dú)立的情況下,單詞x和單詞y相鄰出現(xiàn)的概率p(x,y)=p(x)p(y)=0,PMI=0。p(x,y)相比于p(x)p(y)越大,表示兩個(gè)單詞之間的聚合程度越高。據(jù)此,在需要對(duì)兩個(gè)以上單詞間的聚合程度進(jìn)行計(jì)算時(shí),公式中的分子則變?yōu)槎嘣~串在文本中出現(xiàn)的概率,分母則變?yōu)槎嘣~串全部拆分形式出現(xiàn)概率之和的平均值,此時(shí)計(jì)算結(jié)果即為平均點(diǎn)互信息,其計(jì)算公式如下:

PMI(w1…wn)=log2(p(w1…wn)Avp)

Avp=1n-1×∑n-1i=1p(w1…wi)p(wi+1…wn)

上述公式中,n代表多詞串中單詞的總個(gè)數(shù),p(w1…wn)是詞串w1…wn在本文中出現(xiàn)的概率;i為非負(fù)整數(shù),i從1開始取值,一直到n,p(w1…wi)p(wi+1…wn)表示拆分后字符串p(w1…wi)和字符串p(wi+1…wn)在文本中相鄰出現(xiàn)的概率。本文研究對(duì)象針對(duì)長度為2~6之間的名詞性術(shù)語,因此,i和n的取值范圍分別為6>i≥1,6≥n≥2。

2) 左右信息熵

通常判斷一個(gè)多詞字符串可以成詞的一個(gè)條件是這個(gè)字符串會(huì)在很多語境中出現(xiàn)。信息熵就是用來衡量字符串所處語境豐富程度的一個(gè)指標(biāo),熵越大則無序程度越高,字符串越具有獨(dú)立性。對(duì)于任一字符串X,其信息熵可表示為:

H(X)=-∑x∈Xp(x)log2(p(x))

其中,p(x)是字符串x出現(xiàn)的概率。我們?cè)O(shè)任意字符串S=w1w2…wi,稱w1為字符串w2…wi-1的左鄰接詞,wi為字符串w2…wi-1的右鄰接詞。如果字符串w2…wi-1的左右鄰接詞豐富多樣,即在很多語境中出現(xiàn),那么該字符串成為一個(gè)術(shù)語的概率就大,如果左右鄰接詞單調(diào)貧乏,即出現(xiàn)語境不夠豐富,那么該字符串成為一個(gè)術(shù)語的概率就小?;谏鲜鲈?,本文通過字符串w2…wi-1的左右鄰接詞出現(xiàn)頻次來計(jì)算左右信息熵,設(shè)左信息熵為Hl,右信息熵為Hr,兩者的計(jì)算表達(dá)式則可表示成:

Hl(w1w2…wi-1)=-∑x∈Xp(w1w2…wi-1)log2(p(w1w2…wi-1))

Hr(w2…wi-1wi)=-∑x∈Xp(w2…wi-1wi)log2(p(w2…wi-1wi))

其中,p(w1w2…wi)≈f(w1w2…wi)/∑f(wl),且w1∈wl;p(w2…wi-1wi;f(w2…wi-1wi)/∑f(wr),且wi∈wr。如果左右信息熵達(dá)到一定的閾值,則我們認(rèn)為字符串w2…wi-1可以是一個(gè)完整的術(shù)語。

3 實(shí)驗(yàn)與評(píng)測

3.1 實(shí)驗(yàn)數(shù)據(jù)

為了保證實(shí)驗(yàn)數(shù)據(jù)具有更強(qiáng)的軍事領(lǐng)域?qū)傩裕覀兪紫壤镁W(wǎng)絡(luò)爬蟲從多家網(wǎng)站抽取了500萬土耳其語單語語句,然后,再以軍事領(lǐng)域術(shù)語詞典為基礎(chǔ)從上述語句中篩選了9.5萬個(gè)相關(guān)語句,并將其定義為對(duì)比實(shí)驗(yàn)熟語料(W-data)。其次,為了增加實(shí)驗(yàn)驗(yàn)證效果,我們還通過土耳其國防工業(yè)網(wǎng)構(gòu)建了一個(gè)包含3400個(gè)單語語句的小規(guī)模生語料文本(N-data),內(nèi)容主要涉及武器裝備研發(fā)現(xiàn)狀與未來發(fā)展方向,用于對(duì)比不同文本對(duì)術(shù)語抽取效果造成的具體影響。

3.2 評(píng)價(jià)指標(biāo)

為了驗(yàn)證篩選術(shù)語的效果和性能,論文采用查全率(precision)、查準(zhǔn)率(recall)和F值(F-Measure)三個(gè)常見指標(biāo)來進(jìn)行評(píng)測:

查準(zhǔn)率(P)指的是通過算法選定的候選術(shù)語(TP+FP)中,預(yù)測正確的術(shù)語(TP)所占百分比:

P=TPTP+FP×100%

查全率(R)指的是通過算法預(yù)測正確的術(shù)語(TP)個(gè)數(shù),在真實(shí)情況下所有正確術(shù)語中(TP+FN)所占的百分比:

R=TPFP+FN×100%

F值(F)是查準(zhǔn)率和查全率之間的加權(quán)調(diào)和平均值,這一數(shù)值越大,篩選方法的效果就越好:

F=2×P×RP+R×100%

3.3 結(jié)果分析

在自動(dòng)抽取術(shù)語時(shí),受背景文本的影響,查全率和查準(zhǔn)率經(jīng)常會(huì)產(chǎn)生動(dòng)態(tài)變化,為盡量減輕人力負(fù)擔(dān)并保持術(shù)語的領(lǐng)域?qū)傩?,本文將軍事術(shù)語詞典的查全率視為隨點(diǎn)互信息閾值變化的近似查全率,F(xiàn)值的大小僅由點(diǎn)互信息閾值和查準(zhǔn)率決定。在W-data測試集中,統(tǒng)計(jì)結(jié)果顯示軍事術(shù)語的點(diǎn)互信息值最小值為-2.11,最大為19.45,隨著點(diǎn)互信息數(shù)值的不斷增大,召回率呈先平穩(wěn)后急劇下降的趨勢,而準(zhǔn)確率則呈逐漸上升趨勢,根據(jù)計(jì)算,當(dāng)點(diǎn)互信息閾值超過5時(shí)召回率與準(zhǔn)確率乘積最大,閾值為10時(shí)F值達(dá)到峰值;左信息熵最大值為8.03,右信息熵最大值為7.49,當(dāng)左右信息熵閾值為3時(shí)召回率與準(zhǔn)確率乘積最大,同時(shí)F值也達(dá)到峰值??紤]到右臨接詞綴的影響,我們將點(diǎn)互信息閾值設(shè)置為10,左右信息熵閾值設(shè)置為2.5,兩者取交集時(shí)共篩選出151個(gè)候選項(xiàng),其中116個(gè)為詞典內(nèi)術(shù)語,23個(gè)為詞典外術(shù)語,術(shù)語自動(dòng)抽取實(shí)際正確率達(dá)92.05%,抽取的部分詞典外術(shù)語實(shí)例如表3所示。

術(shù)語抽取本質(zhì)上是一項(xiàng)檢索任務(wù),在面向此類任務(wù)時(shí),通常需要在保證召回率的情況下盡量提升準(zhǔn)確率。為了盡可能快速全面地獲得術(shù)語,一般做法是根據(jù)不同參數(shù)的閾值各抽取一次候選術(shù)語,合并之后去重再進(jìn)行人工篩選??紤]到互信息、左右信息熵和右臨接詞綴之間的互補(bǔ)性,本文在合并前分別篩除右信息熵小于0和右臨接詞綴頻次為1的候選項(xiàng),在通過點(diǎn)互信息閾值提取的候選術(shù)語中篩除了485個(gè)候選項(xiàng),其中包含11個(gè)軍事術(shù)語,根據(jù)計(jì)算此時(shí)召回率為31%,F(xiàn)值為0.27,相較未刪除前F值提高了4.4個(gè)百分點(diǎn);在通過左右信息熵閾值提取的候選術(shù)語中篩除了76個(gè)候選項(xiàng),其中包含11個(gè)軍事術(shù)語,此時(shí)召回率為39.95%,F(xiàn)值為0.27,相較未刪除前F值提高了0.8個(gè)百分點(diǎn)。兩者合并之后,共抽取候選術(shù)語1636個(gè),術(shù)語抽取召回率增至57.47%,這一結(jié)果很好地證明了點(diǎn)互信息和左右信息熵的功能互補(bǔ)性。

在不同數(shù)據(jù)集中,點(diǎn)互信息和左右信息熵的閾值會(huì)伴有一定的變化,由于N-data數(shù)據(jù)集規(guī)模較小,因此在設(shè)置閾值時(shí)我們?nèi)赃x擇參考詞典術(shù)語的分布規(guī)律,以盡量保證實(shí)驗(yàn)具有較好的召回率,根據(jù)統(tǒng)計(jì)結(jié)果,我們將點(diǎn)互信息閾值設(shè)置為4,左右信息熵閾值設(shè)置為2.5,同時(shí)在點(diǎn)互信息篩選結(jié)果中刪除左信息熵小于0.5和右相鄰詞綴小于0的候選項(xiàng),對(duì)經(jīng)閾值篩選得到的候選術(shù)語進(jìn)行人工標(biāo)注后,術(shù)語抽取結(jié)果如表4所示。根據(jù)實(shí)驗(yàn)結(jié)果我們發(fā)現(xiàn),在N-data中,點(diǎn)互信息篩選的候選術(shù)語可完全覆蓋通過左右信息熵抽取的術(shù)語,即當(dāng)實(shí)驗(yàn)數(shù)據(jù)規(guī)模較小時(shí),受到字符串出現(xiàn)頻次較小的影響,左右信息熵的篩選效果遠(yuǎn)小于點(diǎn)互信息,但因具有較高的篩選準(zhǔn)確率,在減輕人工篩選工作量方面仍能發(fā)揮一定作用。在抽取的正確術(shù)語中,除了非短語和軍事術(shù)語之外,還包括科技、航海、航空、通信、機(jī)械和電子等多個(gè)專業(yè)領(lǐng)域的相關(guān)術(shù)語,通過領(lǐng)域術(shù)語占比來看,N-data數(shù)據(jù)集具有明顯的軍事領(lǐng)域?qū)傩?,本文提出的土耳其語軍事術(shù)語抽取方法具有一定的準(zhǔn)確性和實(shí)用性。

4 結(jié)語

針對(duì)土耳其語豐富的自然語言特征,本文提出一種基于語言學(xué)規(guī)則與統(tǒng)計(jì)技術(shù)相結(jié)合的軍事領(lǐng)域術(shù)語抽取方法。該方法通過語言學(xué)家構(gòu)建的軍事術(shù)語詞典構(gòu)建術(shù)語篩選關(guān)鍵詞、停止詞和形態(tài)分析序列模式列表,發(fā)掘土耳其語軍事術(shù)語在背景語料中的分布規(guī)律,并以此為基礎(chǔ)設(shè)置單詞點(diǎn)互信息和左右信息熵閾值,結(jié)合候選項(xiàng)鄰接詞綴頻次,在大小不同的兩種數(shù)據(jù)集上展開實(shí)驗(yàn),最終成功實(shí)現(xiàn)了土耳其語軍事術(shù)語的有效抽取。在實(shí)驗(yàn)過程中,我們發(fā)現(xiàn)術(shù)語抽取結(jié)果與背景語料本身、篩選列表設(shè)置和統(tǒng)計(jì)數(shù)據(jù)閾值的設(shè)定關(guān)系緊密,當(dāng)實(shí)驗(yàn)數(shù)據(jù)規(guī)模較小時(shí),一般很難通過統(tǒng)計(jì)學(xué)特征有效抽取低頻術(shù)語,尤其是低頻候選長術(shù)語。因此,在背景語料規(guī)模受限的情況下,如何優(yōu)化停止詞、關(guān)鍵詞和形態(tài)分析序列模式列表,進(jìn)而提高低頻術(shù)語識(shí)別和抽取的效果,是我們需要進(jìn)一步研究的方向。

參考文獻(xiàn)

[1] 吳俊,程垚,郝瀚,等. 基于BERT嵌入BiLSTM-CRF模型的中文專業(yè)術(shù)語抽取研究[J]. 情報(bào)學(xué)報(bào),2020,394(4):409-418.

[2] 孫甜,陳海濤,呂學(xué)強(qiáng),等. 新能源專利文本術(shù)語抽取研究[J/OL]. 小型微型計(jì)算機(jī)系統(tǒng), 網(wǎng)絡(luò)首發(fā)時(shí)間:2021-05-12 08∶31∶22.

[3] SZLK T[S]. Ankara: Türk Dil Kurumu Yaynlar, 2011.

[4] DORU G. Automatic Term Extraction from Turkish to Engish Medical Corpus[J]. EUROPHRAS, 2019: 157-166.

[5] WENDT M, BUSCHER C,HERTA C. Extracting Domain Terminologies from the World Wide Web[C]. Proceedings of Fifth Web as Corppus Workshop(WAC5), 2009.

[6] 董洋溢,李偉華,于會(huì). 文本特征和復(fù)合統(tǒng)計(jì)量的領(lǐng)域術(shù)語抽取方法[J]. 西北工業(yè)大學(xué)學(xué)報(bào),2017,35(4):729-735.

[7] CHATZITHEODOROU K, KAPPATOS V. Hybrid extraction of multi word terms: an application on vibration-based condition monitoring technique[J]. Mathematical Models in Engineering. 2021,7(2):1-9.

[8] SONG X Y, FENG A, WANG W K, et al. Multidimensional Self-Attention for Aspect Term Extraction and Biomedical Named Entity Recognition[J]. Mathematical Problems in Models in Engineering. 2020: 1-6.

[9] 馮志偉.現(xiàn)代術(shù)語學(xué)引論[M].增訂本. 北京:商務(wù)印書館,2011.

[10] JUSTESON J S, KATZ S M. Principled Disambiguation: Discriminating Adjective Senses with Modified Nouns[J].Computational Linguistics. 1995,21(1):1-27.

[11] GALE W A, CHURCH K W. A Program For Aligning Sentences In Bilingual Corpora[J]. Proceedings of the 29th Annual Meeting of the Association of Computational Linguistics.1993,19(1):75-102.

[12] 耿升華.新詞識(shí)別和熱詞排名方法研究[D]. 重慶:重慶大學(xué)計(jì)算機(jī)學(xué)院碩士論文,2013.

作者簡介:張貴林(1982—),男,博士研究生,戰(zhàn)略支援部隊(duì)信息工程大學(xué)洛陽校區(qū)學(xué)員,研究方向?yàn)檎Z言信息處理,主要從事形態(tài)學(xué)、術(shù)語學(xué)、語料資源構(gòu)建和機(jī)器翻譯等方面的研究。通信方式:guilin_1982@163.com。

易綿竹(1964—),男,戰(zhàn)略支援部隊(duì)信息工程大學(xué)洛陽校區(qū)教授、博士生導(dǎo)師、語言信息處理方向研究生教學(xué)指導(dǎo)組組長,兼任中國中文信息學(xué)會(huì)理事、國家社會(huì)科學(xué)基金項(xiàng)目和教育部學(xué)位與研究生教育發(fā)展中心學(xué)位論文通信評(píng)審專家等職,曾在俄羅斯伊爾庫茨克國立大學(xué)和普希金俄語學(xué)院訪學(xué),獲俄聯(lián)邦語文科學(xué)博士學(xué)位,享受博士后待遇,主要從事計(jì)算語言學(xué)、本體語義學(xué)及術(shù)語學(xué)研究,主持完成國家級(jí)和部委級(jí)重點(diǎn)科研課題10余項(xiàng),在國內(nèi)外學(xué)術(shù)期刊發(fā)表論文近百篇,出版著作、譯作和辭書8部,獲省部級(jí)以上學(xué)術(shù)獎(jiǎng)勵(lì)和榮譽(yù)稱號(hào)10余項(xiàng)。通信方式:13373781261@163.com。

李宏欣(1983—),男,博士,戰(zhàn)略支援部隊(duì)信息工程大學(xué)洛陽校區(qū)副教授,研究方向?yàn)榱孔有畔⑴c基礎(chǔ)數(shù)學(xué),在國內(nèi)外學(xué)術(shù)期刊發(fā)表論文數(shù)十篇。通信方式:lihongxin830@163.com。