国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)聯(lián)規(guī)則的術(shù)語自動抽取研究*

2014-12-03 08:27:58王昊賢李廣建
圖書與情報(bào) 2014年5期
關(guān)鍵詞:置信度術(shù)語關(guān)聯(lián)

王昊賢 李廣建

(北京大學(xué)信息管理系 北京 100871)

術(shù)語自動抽取是自然語言信息處理中的一項(xiàng)重要課題,在機(jī)器翻譯、信息檢索、詞典編纂、文本分類和自動文摘等領(lǐng)域中有重要的作用。目前,人們已經(jīng)從多個(gè)方面提出了各種方法,并且不斷有新的方法出現(xiàn)。本文的目的是研究關(guān)聯(lián)規(guī)則算法抽取術(shù)語的可行性及優(yōu)勢。

1 相關(guān)研究

國內(nèi)外研究人員已經(jīng)通過大量的研究工作取得了一系列的成果。歸納起來,術(shù)語自動提取的方法可以分為基于語言學(xué)知識的方法、基于統(tǒng)計(jì)學(xué)原理的方法以及基于語言學(xué)知識和統(tǒng)計(jì)學(xué)原理結(jié)合的方法。

1.1 基于語言學(xué)知識的自動抽取方法

基于語言學(xué)知識的方法,又稱為基于規(guī)則的方法。所謂的“規(guī)則”指的是術(shù)語的詞法模式、詞形特征、語義信息等,利用這些知識可以從語料中抽取出術(shù)語或者識別術(shù)語在語料中的位置。基于語言學(xué)知識的術(shù)語自動抽取研究主要集中在上個(gè)世紀(jì)90年代,以Justeson&Katz算法為代表,該算法首先確定一系列語言性質(zhì)的規(guī)則,然后用這些規(guī)則來識別文本中的術(shù)語。較為成熟的自動術(shù)語抽取系統(tǒng)有 FASTR 系統(tǒng)、Termight系統(tǒng)、Termino 系統(tǒng)、Nodalida 系統(tǒng)、Clarit系統(tǒng)、Heid-96 系統(tǒng)、Lexter 系統(tǒng)和 Naulleau-98 系統(tǒng)等。

1.2 統(tǒng)計(jì)學(xué)原理的抽取方法

基于統(tǒng)計(jì)學(xué)原理的抽取方法,主要利用統(tǒng)計(jì)學(xué)的原理計(jì)算出文本的各種統(tǒng)計(jì)信息,并利用統(tǒng)計(jì)結(jié)果選取術(shù)語。在線系統(tǒng)Term Extraction通過簡單統(tǒng)計(jì)基本詞頻來實(shí)現(xiàn)術(shù)語識別。Termextractor系統(tǒng)也是如此,通過統(tǒng)計(jì)選取高頻詞為術(shù)語。RIDF算法則不同,該算法關(guān)注低頻詞,在逆文檔頻率(IDF)的基礎(chǔ)上,利用Poisson檢驗(yàn)來確定術(shù)語;互信息方法也是一種比較常用的術(shù)語抽取算法,它利用兩個(gè)或兩個(gè)以上的詞之間的互信息度,來決定這些詞匯是否組成一個(gè)復(fù)合詞,即它們是否組成了一個(gè)術(shù)語。

1.3 基于語言學(xué)知識與統(tǒng)計(jì)學(xué)原理結(jié)合的抽取方法

目前,單純運(yùn)用語言學(xué)知識或者統(tǒng)計(jì)學(xué)原理的抽取方法并不多見,因?yàn)?,基于語言學(xué)知識的方法和基于統(tǒng)計(jì)學(xué)的方法雖各有優(yōu)勢,但也有明顯缺點(diǎn)。因此,有很多研究將基于語言學(xué)知識的方法與統(tǒng)計(jì)學(xué)原理的方法結(jié)合起來,力爭揚(yáng)長避短。例如,將統(tǒng)計(jì)學(xué)的策略融入到基于語言知識的抽取方法中去,將二者有效地結(jié)合,可以顯著改善術(shù)語抽取系統(tǒng)的性能。這方面的代表方法是C-value/NC-value方法,該方法綜合運(yùn)用結(jié)合語言知識和統(tǒng)計(jì)信息來提取由多個(gè)詞匯組成的術(shù)語。C-value/NC-value方法包括了兩個(gè)步驟,首先,用C-value方法計(jì)算詞匯的出現(xiàn)頻率測量,找出多詞候選術(shù)語,然后利用NC-value方法根據(jù)詞的上下文信息,最終確定要抽取的術(shù)語。近年來,機(jī)器學(xué)習(xí)的方法是這類基于語言學(xué)知識與統(tǒng)計(jì)學(xué)原理結(jié)合的抽取方法的一個(gè)重要發(fā)展方向,并取得了較好的抽取效果,它主要通過利用計(jì)算機(jī)對先前知識進(jìn)行學(xué)習(xí)(訓(xùn)練),利用這些訓(xùn)練的經(jīng)驗(yàn)來對后續(xù)的文本進(jìn)行相應(yīng)的抽取,得出準(zhǔn)確術(shù)語。

2 關(guān)聯(lián)規(guī)則方法及其抽取術(shù)語的可行性分析

2.1 關(guān)聯(lián)規(guī)則的基本原理

韓家煒在《數(shù)據(jù)挖掘概念與技術(shù)》一書中給出了關(guān)聯(lián)規(guī)則的確切定義:

項(xiàng)的集合 I={I,I,I,…,I},數(shù)據(jù)庫中事務(wù)的集合T={t,t,t,…,t},每個(gè)事務(wù) t則是項(xiàng)的集合,即 t?I。若X→Y,滿足 X?I,Y?I,且 X∩Y=φ,則 X→Y 為 T 中的關(guān)聯(lián)規(guī)則。

關(guān)聯(lián)規(guī)則中,支持度(Support)是指T中的事務(wù)同時(shí)包含X、Y的百分比:

置信度(Confidence)是指T中事務(wù)已經(jīng)包含X的情況下,包含Y的百分比:

若關(guān)聯(lián)規(guī)則X→Y,同時(shí)滿足支持度大于最小支持度Support(X→Y)>minSupport和置信度大于最小置信度Confidence(X→Y)>minConfidence,則認(rèn)為關(guān)聯(lián)規(guī)則 X→Y是有趣的,即為強(qiáng)關(guān)聯(lián)規(guī)則,其中,最小支持度和最小置信度的閾值均人為設(shè)定。關(guān)聯(lián)規(guī)則挖掘就是在事務(wù)集合中挖掘強(qiáng)關(guān)聯(lián)規(guī)則。

關(guān)聯(lián)規(guī)則關(guān)注兩個(gè)事項(xiàng)的共同出現(xiàn),或者說在前驅(qū)出現(xiàn)的條件下,后繼也出現(xiàn),其經(jīng)典應(yīng)用是發(fā)現(xiàn)顧客的購買規(guī)律(如沃爾瑪超市發(fā)現(xiàn)的“啤酒和紙尿褲”的購買規(guī)律),在圖書館中進(jìn)行書目推薦以及火災(zāi)分析、交通事故處理、森林病害蟲預(yù)測和肺腸合病醫(yī)案用藥規(guī)律研究等。

2.2 術(shù)語構(gòu)成基本原理

術(shù)語是特定領(lǐng)域中概念的語言表示,它可以是字、詞語或者字母與數(shù)碼符號。按照術(shù)語的構(gòu)成,可將術(shù)語分為簡單術(shù)語和復(fù)雜術(shù)語。簡單術(shù)語,就是指僅由一個(gè)單詞構(gòu)成的術(shù)語。例如:“信息 (information)”、“天 (sky)”、“雨(rain)”等。這樣的簡單術(shù)語不能再分解為更小的具有獨(dú)立含義的單元。復(fù)雜術(shù)語,則是指由兩個(gè)或更多單詞或語素按照一定的語法或語義結(jié)構(gòu)組成的術(shù)語。例如:“信息檢索 (information retrieval)”、“復(fù)雜系統(tǒng) (complex system)”、“計(jì)算機(jī)系統(tǒng)理論(computer system theory)”等,其中“信息檢索(information retrieval)”是由“信息(information)”和“檢索(retrieval)”構(gòu)成,“復(fù)雜系統(tǒng)(complex system)”是由“復(fù)雜(complex)”和“系統(tǒng)(system)”構(gòu)成。

2.3 關(guān)聯(lián)規(guī)則抽取術(shù)語的適用性

從以上關(guān)聯(lián)規(guī)則的定義可以看出,事務(wù)組合(X→Y)滿足最小的支持度和置信度,就可以稱之為“規(guī)則”,這就說明關(guān)聯(lián)規(guī)則中強(qiáng)調(diào)的是事項(xiàng)(即上述定義中的“項(xiàng)”I)的共同出現(xiàn),或者說在前驅(qū)出現(xiàn)的條件下后繼出現(xiàn)。

術(shù)語的基本構(gòu)成方式與關(guān)聯(lián)規(guī)則方法關(guān)注的內(nèi)容具有一定的契合點(diǎn),例如,如果我們把構(gòu)成復(fù)雜術(shù)語的每個(gè)單詞或語素(以下簡稱詞匯)看作是“項(xiàng)”,那么,能共同構(gòu)成一個(gè)復(fù)雜術(shù)語的若干個(gè)詞匯(項(xiàng))必定會同時(shí)出現(xiàn),因而可以根據(jù)詞匯之間的關(guān)聯(lián)程度來達(dá)到提取復(fù)雜術(shù)語的目的。不過,與一般的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)中僅強(qiáng)調(diào)“共現(xiàn)”有所不同,構(gòu)成復(fù)雜術(shù)語的詞匯之間必須具備位置相鄰性,而不是單純的“共現(xiàn)”,也就是說,在經(jīng)典的關(guān)聯(lián)規(guī)則方法中引入項(xiàng)之間的鄰接性限定,是關(guān)聯(lián)規(guī)則應(yīng)用于術(shù)語抽取的關(guān)鍵。

由此,術(shù)語抽取中的關(guān)聯(lián)規(guī)則可以表述為:若詞匯X與詞匯Y依次鄰接出現(xiàn),且滿足最小的支持度和最小的置信度,則可以認(rèn)為詞匯X和詞匯Y按照XY的次序,組成復(fù)雜術(shù)語。其中,關(guān)鍵的兩個(gè)參數(shù)即支持度和置信度可以這樣理解,支持度體現(xiàn)了詞匯鄰接出現(xiàn)的頻率,支持度高,說明詞匯鄰接組合出現(xiàn)的次數(shù)多,這樣鄰接出現(xiàn)的詞匯往往就會組成一個(gè)術(shù)語。置信度是指在詞匯X出現(xiàn)的條件下,詞匯Y緊跟其后出現(xiàn)的概率,或者在詞匯Y出現(xiàn)的條件下,詞匯X恰好出現(xiàn)它前面的概率,置信度越高,說明詞匯X和詞匯Y的組成一個(gè)復(fù)雜術(shù)語的可能性越大。所以,可以這樣給支持度和置信度下定義:

支持度為詞匯X和詞匯Y依次鄰接出現(xiàn)的概率,即:

其中,N為用于術(shù)語抽取的文本的句數(shù)。

置信度為在詞匯X出現(xiàn)的條件下,詞匯Y緊跟X后出現(xiàn)的概率或詞匯Y出現(xiàn)的條件下,詞匯X和詞匯Y依次鄰接出現(xiàn)的概率,即

如此,一個(gè)復(fù)雜術(shù)語的抽取將涉及到一個(gè)置信度的集合C,如果抽取者更重視召回率(Recall),置信度可取集合中的最大值(confidence=max(C)),并將它與預(yù)定的最小置信度比較,這樣的取值強(qiáng)調(diào)在置信度集合C中“存在”比最小置信度大的值,能夠保證召回率。

如果抽取者更重視準(zhǔn)確率(Precision),置信度可取集合中的最小值(confidence=min(C)),并將它與預(yù)定的最小置信度比較,這樣的取值強(qiáng)調(diào)在置信度集合C中的“所有”值均比最小置信度大,能夠保證準(zhǔn)確率。

如果抽取者的要求比較苛刻,需要召回率和準(zhǔn)確率均較高,但由于召回率和準(zhǔn)確率呈反比例關(guān)系,取最大值和最小值的方法均不可取,必須選取最大值和最小值之間的合理的數(shù)值,這個(gè)值可以為置信度集合的算數(shù)平均數(shù)、幾何平均數(shù)以及中位數(shù)等。

這里給出的置信度的定義,與經(jīng)典的關(guān)聯(lián)規(guī)則不同,它不涉及“前驅(qū)”和“后繼”的概念,在術(shù)語抽取中區(qū)分詞匯的“前驅(qū)”和“后繼”的意義不大。這里的置信度是指多個(gè)詞匯組成新的復(fù)雜術(shù)語的可能性的大小。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)基本條件與內(nèi)容

實(shí)驗(yàn)的基本條件如表1所示。

3.2 用關(guān)聯(lián)規(guī)則方法進(jìn)行術(shù)語抽取的實(shí)驗(yàn)過程及結(jié)果

(1)基本結(jié)果展示

表2是利用關(guān)聯(lián)規(guī)則FT-tree算法,對圖書館學(xué)情報(bào)學(xué)領(lǐng)域中英文文摘進(jìn)行術(shù)語抽取所得到的部分術(shù)語。

(2)中英文對照實(shí)驗(yàn)

從理論上講,中英文在利用關(guān)聯(lián)規(guī)則進(jìn)行抽取時(shí)僅有預(yù)處理部分有所不同。中文不像英文那樣詞與詞之間存在著空格,因此在預(yù)處理時(shí)需要對中文進(jìn)行分詞。在中英文對照實(shí)驗(yàn)中,對圖書館與情報(bào)學(xué)領(lǐng)域的全部中英文數(shù)據(jù)進(jìn)行了抽取,實(shí)驗(yàn)使用了49種最小支持度和最小置信度組合,得到了49種抽取結(jié)果,表3列出了這49種抽取結(jié)果中最高的F-measure值、召回率值或準(zhǔn)確率值(最高項(xiàng)用陰影標(biāo)識)及它們對應(yīng)的支持度與置信度取值。

表1 實(shí)驗(yàn)基本條件表

從表3中可以看出,在應(yīng)用關(guān)聯(lián)規(guī)則進(jìn)行術(shù)語抽取時(shí),可以通過合理配置參數(shù)(最小支持度和最小置信度)而得到滿意的效果,而且,無論是對于中文文本,還是英文文本,都可以通過配置不同的最小支持度和最小置信度來獲得較好的抽取效果。這說明,用關(guān)聯(lián)規(guī)則方法進(jìn)行術(shù)語抽取不存在語言依賴,如果不考慮不同語言在預(yù)處理階段有較大的差別,關(guān)聯(lián)規(guī)則方法可以用于抽取任何一種語言中的術(shù)語。

表2 輸出結(jié)果表

表3 中英文對照表

(3)數(shù)據(jù)量大小對照實(shí)驗(yàn)

分別以10條、100條、1000條圖書館學(xué)與情報(bào)學(xué)的英文數(shù)據(jù)作為抽取對象,每一種數(shù)據(jù)量都可以得到49種抽取結(jié)果,表4列出了這些結(jié)果中最高F-measure值、召回率值或準(zhǔn)確率值(最高項(xiàng)用陰影標(biāo)識)及它們對應(yīng)的支持度與置信度取值。

表4 數(shù)據(jù)量大小對照表

從表4中可以看出,關(guān)聯(lián)規(guī)則方法不適用對數(shù)據(jù)量過小的數(shù)據(jù)集進(jìn)行抽取,相反,數(shù)據(jù)量越大,抽取效果越好,而且,對于不同數(shù)量的數(shù)據(jù)集,同樣可以通過配置不同的參數(shù)來達(dá)到用戶最滿意的效果。

(4)不同學(xué)科數(shù)據(jù)對照實(shí)驗(yàn)

實(shí)驗(yàn)過程中,除圖書館與情報(bào)學(xué)數(shù)據(jù)之外,還增加了數(shù)學(xué)和地球科學(xué)的數(shù)據(jù),分別對這三種學(xué)科的數(shù)據(jù)進(jìn)行術(shù)語抽取,對每一個(gè)學(xué)科的抽取結(jié)果,做與表3或表4相同的統(tǒng)計(jì)分析,得到表5的結(jié)果。

表5 不同學(xué)科對照表

從表5可以看出,用關(guān)聯(lián)規(guī)則方法對各個(gè)學(xué)科的文本進(jìn)行抽取,均能得到較好的結(jié)果,這說明,關(guān)聯(lián)規(guī)則應(yīng)用于術(shù)語抽取不存在學(xué)科依賴,即使用關(guān)聯(lián)規(guī)則進(jìn)行術(shù)語抽取不存在學(xué)科限制。在本實(shí)驗(yàn)中,由于不同的學(xué)科具有不同的數(shù)據(jù)量,同時(shí),各個(gè)學(xué)科的術(shù)語結(jié)構(gòu)、已知術(shù)語等有所區(qū)別,因而達(dá)到最佳抽取結(jié)果的參數(shù)配置(最小支持度和最小置信度)也有所不同,這再次證明,合理的參數(shù)配置是將關(guān)聯(lián)規(guī)則應(yīng)用于術(shù)語抽取的關(guān)鍵問題之一。

3.3 關(guān)聯(lián)規(guī)則方法與其他方法的對比實(shí)驗(yàn)及結(jié)果

以圖書館學(xué)與情報(bào)學(xué)領(lǐng)域1000條英文文摘數(shù)據(jù)為處理對象,分別用互信息(基于統(tǒng)計(jì)學(xué)原理方法)、Justeson&Katz算法(基于語言學(xué)知識方法)、C-value算法(基于語言學(xué)和統(tǒng)計(jì)學(xué)結(jié)合方法)以及關(guān)聯(lián)規(guī)則的FT-tree算法進(jìn)行術(shù)語抽取,以下是實(shí)驗(yàn)過程中算法的實(shí)現(xiàn)難度、算法所需資源以及算法抽取效果等三方面比較結(jié)果。

(1)算法實(shí)現(xiàn)難度比較

算法實(shí)現(xiàn)難度是算法實(shí)用性的標(biāo)志之一。表6列出了實(shí)驗(yàn)中使用的四種算法的核心代碼量、核心內(nèi)容和人為參與情況。

從表6可以看出,關(guān)聯(lián)規(guī)則有著較小的代碼量,但各個(gè)算法的核心代碼量不存在數(shù)量級上的明顯差別。在需要加載的內(nèi)容方面,C-value/NC-value和Justeson&Katz算法需要加載規(guī)則,這類算法需要很強(qiáng)的先驗(yàn)知識,關(guān)聯(lián)規(guī)則和互信息方法則不需要過多的規(guī)則,僅在在預(yù)處理部分做停用詞拆分和已知術(shù)語切分即可。值得一提的是,四種算法均必須人為控制參數(shù),而且這些參數(shù)都是至關(guān)重要的。從總體上看,關(guān)聯(lián)規(guī)則方法擁有較小的代碼量,較簡單的抽取步驟和少量必須的人為參與,因此,關(guān)聯(lián)規(guī)則應(yīng)用于術(shù)語抽取有著易于實(shí)現(xiàn)的優(yōu)勢。

表6 算法實(shí)現(xiàn)難度比較表

(2)算法所需資源比較

運(yùn)行算法時(shí)所需計(jì)算機(jī)資源的多少,是算法可用性的重要表現(xiàn)。計(jì)算機(jī)資源最重要的是時(shí)間和空間資源。以1000條圖書館學(xué)與情報(bào)學(xué)英文數(shù)據(jù)(大小為1028kb)為處理對象,統(tǒng)計(jì)各算法在術(shù)語抽取時(shí)的時(shí)間消耗以及最大內(nèi)存占用量,結(jié)果如表7所示。

表7 資源占用比較表

從表7中可以看出,F(xiàn)T-tree(關(guān)聯(lián)規(guī)則)和互信息算法具有明顯的運(yùn)行時(shí)間優(yōu)勢,C-value/NC-value和Justeson&Katz算法除進(jìn)行基本詞頻統(tǒng)計(jì)和參數(shù)控制外還需要進(jìn)行規(guī)則的加載和篩選,因而時(shí)間消耗較大。在占用內(nèi)存方面,F(xiàn)T-tree(關(guān)聯(lián)規(guī)則)和互信息算法同樣有明顯優(yōu)勢,C-value/NC-value和Justeson&Katz算法所使用的規(guī)則庫必需常駐內(nèi)存,同時(shí),為了滿足規(guī)則匹配的需要,這兩種算法還要求對每個(gè)詞進(jìn)行詞性的標(biāo)注等,所以其所需內(nèi)存較大。這一結(jié)果表明,關(guān)聯(lián)規(guī)則算法在算法的可用性即占用計(jì)算機(jī)資源方面具有一定優(yōu)勢。

(3)算法抽取效果比較

算法的抽取效果是評價(jià)算法優(yōu)劣的重要方面。此部分實(shí)驗(yàn),是中英文對照實(shí)驗(yàn)中的運(yùn)行結(jié)果。算法的參數(shù)配置,關(guān)聯(lián)規(guī)則選取本節(jié)數(shù)據(jù)量大小對照實(shí)驗(yàn)運(yùn)行結(jié)果F-measure值最高的一組支持度和置信度,其他算法的參數(shù)配置來源于相應(yīng)的參考文獻(xiàn)[1,13,14]。算法的抽取效果從準(zhǔn)確率、召回率和F-measure三個(gè)指標(biāo)進(jìn)行評價(jià),結(jié)果如表8所示。

表8 算法抽取效果比較表

從表8中可以看出,Justeson&Katz算法的準(zhǔn)確率要高于其他算法,C-value/NC-value算法和關(guān)聯(lián)規(guī)則算法的準(zhǔn)確率次之,互信息方法的準(zhǔn)確率最低。而實(shí)驗(yàn)結(jié)果的召回率與準(zhǔn)確率結(jié)果相反,Justeson&Katz算法的召回率最低,互信息方法的召回率達(dá)到了1。F-measure是綜合評價(jià)準(zhǔn)確率和召回率的指標(biāo),C-value/NC-value算法的F-measure值最高,其次為關(guān)聯(lián)規(guī)則算法以及Justeson&Katz算法,互信息算法的F-measure值最低。綜合來看,就1000條的數(shù)據(jù)量來講,關(guān)聯(lián)規(guī)則算法取得了不錯(cuò)的抽取效果,但還有一定的進(jìn)步空間。

4 結(jié)語

本文討論了基于關(guān)聯(lián)規(guī)則的復(fù)雜術(shù)語抽取方法,從理論上看,關(guān)聯(lián)規(guī)則的基本原理決定了它在充分解決“序”的條件下,可以很好的完成術(shù)語的識別和抽取問題。從實(shí)踐上看,關(guān)聯(lián)規(guī)則的方法的確可以正確抽取出術(shù)語,而且,通過與現(xiàn)有算法的比較,可以發(fā)現(xiàn),關(guān)聯(lián)規(guī)則在算法實(shí)現(xiàn)難度和占用資源方面具有非常明顯的優(yōu)勢。而且,關(guān)聯(lián)規(guī)則在術(shù)語抽取時(shí)沒有學(xué)科和語言的依賴性,這一點(diǎn),是基于規(guī)則的方法所不能比擬的。我們的下一步工作將進(jìn)一步分析如何合理配置參數(shù)以及各種關(guān)聯(lián)規(guī)則算法用于術(shù)語抽取時(shí)的特點(diǎn),包括效率、效果和限制條件。

[1] Justeson J, Katz S.Technical Terminology: some Linguistic Properties and an Algorithm for Identification in Text[J].Natural Language Engineering,1995,1(1):9-27.

[2] Jacquemin C.Recycling Terms into a Partial Parser[C].Proceedings of NALP’94,1994:113-118.

[3] Dagan I, Church K.Termight: Identifying and Translating Technical Terminology[C].4th Conference on Applied Natural Language Processing,1994:34-40.

[4] Andy L.Automatic Recognition of Complex Terms:Problems and the TERMINO Solution [J].In Terminolo-gy: Applications in Interdisciplinary Communication,1994,1(1):147-170.

[5] Arppe A.Term Extraction from Unrestricted Text[C].10th Nordic Conference of Computational Linguistics,1995.

[6] Chengxiang Z, Xiang T, Frayling MN.Evaluation of Syntactic Phrase Index CLARIT[C].Proceedings of TREC-5,1996.

[7] Ulrich H, Jauss S, Katja K.Term Extration with Standard Tools for Corpus Exploration:Experience from German[C].4th International Congress on Terminology and Knowledge Engieering,1996:139-150.

[8] Bourigault D, Mullier GI, Gros C.Lexter, A Natural Language Processing Tool for Terminology Extraction[C].7th EUEALEX International Congress on Lexicography,1996:771-779.

[9] Naulleau E.Profile-guided Terminology Extraction[C].the TKE’99: Terminology and Knowledge Engineering,1999:222-240.

[10] Herman E, Chomsky N.Term Extraction [EB/OL].[2014-07-02].http://fivefilters.org/term-extraction/.

[11] Sclano F, Velardi P.Termextractor: a web application to learnthe shared terminology of emergentweb communities[C].the 3rd International Coference on Interoperability for Enterprise Software and Applications,2007.

[12] Church K,Gale W.Inverse Document Frequency (IDF):A Measure of Deviations from Poisson [C].the 3rd Workshop on Very Large Corpora.Cambridge,Massachusetts, USA,1995:121-130.

[13] Frantzi K, Ananiadou S.Extracting Nested Collocations[C].Proceedings of the 16thinternational conference on computational linguistics,Coling 96,1996:41-46.

[14] Frantzi K, Ananiadou S, Mima H.Automatic recognition of multi-word terms:the C-value/NC-value method [J].InternationJournalonDigitalLibraries,2000,3(2):115-130.

[15] 辛欣,李涓子.文本信息抽取平臺的設(shè)計(jì)與實(shí)現(xiàn)——基于機(jī)器學(xué)習(xí)[A].第七屆中文信息處理國際會議論文集[C].中國中文信息學(xué)會,2007:7.

[16] 韓家煒.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2013.

[17] 陳定權(quán),朱維鳳.關(guān)聯(lián)規(guī)則與圖書館書目推薦[J].情報(bào)理論與實(shí)踐,2009,(6):81-84.

[18] 徐曉楠,張曉珺,張偉等.北京市火災(zāi)關(guān)聯(lián)規(guī)則分析[J].安全與環(huán)境學(xué)報(bào),2010,(3):151-156.

[19] 羅五明,韓平陽.車輛事故關(guān)聯(lián)規(guī)則的提?。跩].交通與計(jì)算機(jī),2003,(2):17-19.

[20] 任長偉,尚艷英,曹彥榮.基于GIS與空間關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘在森林病蟲害預(yù)測中的應(yīng)用初探[A].中國地理信息系統(tǒng)協(xié)會.第四屆海峽兩岸GIS發(fā)展研討會暨中國GIS協(xié)會第十屆年會論文集[C],2006:6.

[21] 林煒爍,紀(jì)立金,高思華.基于關(guān)聯(lián)規(guī)則的肺腸合病醫(yī)案用藥規(guī)律探索[J].世界中醫(yī)藥,2014,(4):401-404.

[22] Zhang Z, Iria J, Brewster C, Ciravegna F.Java Automatic Term Extraction toolkit[EB/OL].[2017-07-02].https://jatetoolkit.googlecode.com/svn/trunk/2.0Alpha.

猜你喜歡
置信度術(shù)語關(guān)聯(lián)
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
有感于幾個(gè)術(shù)語的定名與應(yīng)用
從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
多假設(shè)用于同一結(jié)論時(shí)綜合置信度計(jì)算的新方法?
語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
沾化县| 禹城市| 东乌珠穆沁旗| 武宣县| 宜宾县| 阜南县| 晋城| 开阳县| 射阳县| 黄石市| 浮山县| 许昌县| 石渠县| 临城县| 阿拉善左旗| 嘉黎县| 日喀则市| 祁门县| 彰武县| 吉林市| 唐海县| 华阴市| 揭阳市| 汕尾市| 商河县| 吕梁市| 汶上县| 肃南| 乌恰县| 阿合奇县| 榆林市| 抚顺市| 涪陵区| 永和县| 黑龙江省| 拉孜县| 灵石县| 循化| 如皋市| 平和县| 资兴市|