国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主動學(xué)習(xí)的本體概念關(guān)系判斷

2013-10-15 01:38:30張桂平李文博王裴巖
中文信息學(xué)報 2013年4期
關(guān)鍵詞:樣例反例本體

張桂平,李文博,王裴巖

(沈陽航空航天大學(xué) 知識工程中心,遼寧 沈陽,110136)

1 引言

本體可以促進(jìn)各種領(lǐng)域之間的交流,這種交流實(shí)現(xiàn)了給定領(lǐng)域中不同知識的重用和共享。在人工智能界,Gr uber[1]給出了本體的一個最為流行的定義,即“本體是概念模型的明確的規(guī)范說明”。目前本體的構(gòu)建方法主要分為三種:自動構(gòu)建、半自動構(gòu)建和手工構(gòu)建。自動構(gòu)建會產(chǎn)生大量的噪聲數(shù)據(jù)而且所得本體的可信度得不到保障[2];手工構(gòu)建需要領(lǐng)域?qū)<业膮⑴c,費(fèi)時、費(fèi)力。因此如何利用知識獲取技術(shù)半自動地構(gòu)建本體是一個重要研究方向[3],半自動構(gòu)建也稱輔助構(gòu)建。

近年來,本體輔助構(gòu)建的研究有很多。David等人[4]采用基于模板的方法無監(jiān)督地構(gòu)建領(lǐng)域術(shù)語樹來構(gòu)建領(lǐng)域本體。Tao Jiang等人[5]首先對文本語料進(jìn)行語法分析得到本體概念以及它們之間的關(guān)系,然后利用關(guān)聯(lián)規(guī)則算法確定概念關(guān)系是否正確。文獻(xiàn)[6 先構(gòu)建核心領(lǐng)域本體,然后利用通用本體Wor d Net來擴(kuò)展領(lǐng)域本體。雖然半自動構(gòu)建本體取得了很好的效果,但是人工標(biāo)注的問題仍然是本體構(gòu)建中不小的瓶頸。

本文提出基于主動學(xué)習(xí)的本體關(guān)系輔助構(gòu)建方法,對邊緣采樣、熵采樣、最不確信采樣等主動學(xué)習(xí)查詢生成策略進(jìn)行了比較研究,并討論了在三種不同樣本初始情況下主動學(xué)習(xí)技術(shù)的應(yīng)用,從而實(shí)現(xiàn)了在概念關(guān)系判定過程中對用戶反饋信息的有效利用,使得在較少的訓(xùn)練樣例的情況下可獲得較高的本體關(guān)系推薦結(jié)果。

2 相關(guān)研究

對于本體概念關(guān)系的判斷,常用的方法有:基于模板、詞典和關(guān)聯(lián)規(guī)則挖掘的方法等。基于模板的方法往往準(zhǔn)確率低,且模式的獲取是否完備對結(jié)果影響較大。Kavalec[7]等人利用關(guān)聯(lián)概念動詞出現(xiàn)的頻率來挖掘概念間的非分類關(guān)系,但該方法未考慮句子的結(jié)構(gòu)信息,效果并不理想。Faure等人[8]用聚類方法獲取概念間關(guān)系,但該方法只能劃分出概念所屬關(guān)系的集合,不能明確給出概念間的確切關(guān)系。文獻(xiàn)[9]采用改進(jìn)的BM25相似度計算方法為用戶提供參考文本,并提出基于概念最短距離的分類樣本提取方法,進(jìn)而為用戶提供概念關(guān)系的推薦。該方法能有效地輔助用戶判斷概念間關(guān)系,但用戶對系統(tǒng)每次給出的推薦結(jié)果都要做出決策,當(dāng)需要判斷大量概念關(guān)系時,人為工作量仍很大。

主動學(xué)習(xí),也稱 “query lear ning”,是機(jī)器學(xué)習(xí)領(lǐng)域中的一個分支領(lǐng)域[10],它用于那些標(biāo)注樣例較難獲取或者代價昂貴,而未標(biāo)注樣例較容易獲取的情況。很多研究中都有主動學(xué)習(xí)的應(yīng)用:Settles和Craven[11]分析了主動學(xué)習(xí)方法在序列標(biāo)注任務(wù)中的應(yīng)用;車萬翔等人[12]在中文依存句法分析中加入主動學(xué)習(xí)來減少人工的標(biāo)注量;陳榮等[13]在圖像分類任務(wù)中加入了主動學(xué)習(xí)方法,使得系統(tǒng)提高了圖像分類問題中訓(xùn)練樣本選擇的效率。文獻(xiàn)[14]采用基于字的CRF模型獲取候選術(shù)語集合,并利用主動學(xué)習(xí)方法從候選術(shù)語集合中選擇概念推薦給用戶來獲取領(lǐng)域本體概念。

本文針對文獻(xiàn)[9]的研究做了進(jìn)一步擴(kuò)展,利用航空百科詞典作為數(shù)據(jù)源,把主動學(xué)習(xí)技術(shù)加入到本體概念關(guān)系判斷任務(wù)中,使得在關(guān)系的輔助判斷中進(jìn)一步減少人為工作量。并且本文還對主動學(xué)習(xí)中不確定性采樣的各個算法做了詳細(xì)的對比分析,驗(yàn)證了不確定性采樣在本體概念關(guān)系判斷中的有效應(yīng)用。

3 概念關(guān)系輔助判斷方法

3.1 基于知識獲取技術(shù)的本體概念關(guān)系判斷

文獻(xiàn)[9]針對非領(lǐng)域人員在沒有領(lǐng)域背景知識的情況下,采用改進(jìn)的BM25相似度算法為用戶提供參考文本,還利用概念的最短距離信息提取分類樣本,并利用KNN分類算法為用戶提供概念關(guān)系的推薦。本文利用KNN的分類結(jié)果,在概念關(guān)系判斷中加入主動學(xué)習(xí)技術(shù),使系統(tǒng)選取那些有潛在價值的樣例予以標(biāo)注,期望能在較小訓(xùn)練集合的情況下獲得較高的關(guān)系推薦準(zhǔn)確率。

3.2 主動學(xué)習(xí)方法

不確定性采樣(Uncertainty Sampling)是主動學(xué)習(xí)算法中應(yīng)用最普遍的查詢策略[10],它選取當(dāng)前分類器最不確定的樣例進(jìn)行標(biāo)注。本文選取不確定性中的最不確信采樣、基于閾值的采樣、邊緣采樣和基于熵的采樣,并與隨機(jī)采樣對比,以下介紹這幾種采樣算法。

1)隨機(jī)采樣(rando m sa mpling):不考慮類別的后驗(yàn)概率,隨機(jī)選取樣例。

2)基于閾值的采樣(t hreshold sampling):選取類別后驗(yàn)概率在0.4到0.6之間的樣例。

3)最不確信采樣(least confident sampling):僅標(biāo)注結(jié)果中最不確信樣例,如式(1)所示。

4)邊緣采樣(margin sampling):基于邊緣采樣的主動學(xué)習(xí)公式如式(2)所示。

這里的Pθ(|x)和Pθ|x)表示類別分值最高的前兩類的后驗(yàn)概率。

5)基于熵的采樣(entr opy sa mpling):基于熵采樣主動學(xué)習(xí)樣本選擇準(zhǔn)則如式(3)所示。

其中,yi代表KNN計算結(jié)果中的各個類別。

以上幾種采樣的實(shí)際應(yīng)用中,基于閾值采樣與最不確信采樣在二分類問題上獲得了很好的結(jié)果[15],并且研究者驗(yàn)證了邊緣采樣和基于熵的采樣在多分類情況下的有效性[16-17]。

4 主動學(xué)習(xí)在本體關(guān)系輔助判斷中的應(yīng)用

本文在本體概念關(guān)系判斷中加入了主動學(xué)習(xí)技術(shù),使得系統(tǒng)能最大限度地減少人為工作量,提高本體的構(gòu)建速度。根據(jù)航空本體概念間類別的劃分體系,“部件關(guān)系”、“屬性關(guān)系”等這樣的類別稱為正例,而在劃分體系之外或者根本沒有關(guān)系的類別稱為反例。經(jīng)分析得到,初始樣例集合可分為表1中的幾種情況。

表1 不同的初始樣例規(guī)劃

根據(jù)表1中初始樣例的不同情況,概念的關(guān)系判斷就是一個多分類問題,對于初始正反樣例充足的情況,可以直接多分類。Sophia Katrenko等人[18]認(rèn)為,關(guān)系抽取可以看作是具有兩個步驟的過程:識別存在關(guān)系的證據(jù)和檢查是否存在關(guān)系。那么針對本文的問題,可以先進(jìn)行二分類,判斷概念間有沒有關(guān)系,如果有關(guān)系,則可以再多分類,看看兩個概念間是哪種關(guān)系。本文針對不同的初始樣例,提出了A、B、C三種策略,將主動學(xué)習(xí)技術(shù)應(yīng)用到本體概念關(guān)系半自動構(gòu)建中,這三種策略具體描述如下。

策略A:針對初始樣本正反例充足的情況,首先利用3.2節(jié)中的主動學(xué)習(xí)方法生成查詢,進(jìn)行多分類。然后對語料進(jìn)行二分類,去除反例后對剩余的有關(guān)系概念對進(jìn)行多分類,以此判斷有關(guān)系的概念具體屬于哪類關(guān)系。策略A的主動學(xué)習(xí)方法偽代碼如圖1所示。

圖1 策略A 中主動學(xué)習(xí)偽代碼

策略B:針對初始樣本僅有正例的情況,首先采用相似度策略的主動采樣方法,從未標(biāo)注集合中選取反例,每次選取最不相似的5個樣例作為反例集合加入到初始樣本中,當(dāng)反例集合達(dá)到與策略A中的反例相當(dāng)?shù)臄?shù)目時停止采樣,然后重復(fù)A中的實(shí)驗(yàn)。策略B的主動學(xué)習(xí)偽代碼如圖2所示。

圖2 策略B 中主動學(xué)習(xí)偽代碼

策略C 針對缺乏初始樣例的情況,根據(jù)詞對共現(xiàn)文檔的信息以及詞對在共現(xiàn)文檔中的距離信息選取正反例,選取的規(guī)則如下:

1.共現(xiàn)文檔多,并且在文檔中距離近的詞對作為正例集;

2.共現(xiàn)文檔少,并且在文檔中距離遠(yuǎn)的詞對作為反例集;

當(dāng)采用上述策略標(biāo)注的正反例集合達(dá)到與策略A、B中的正反例集合數(shù)目相當(dāng)時停止標(biāo)注,然后重復(fù)A中的實(shí)驗(yàn)。

5 實(shí)驗(yàn)結(jié)果與分析

5.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)采用《航空百科詞典》作為數(shù)據(jù)源,共7892篇文檔。預(yù)定義5類概念關(guān)系,它們?yōu)椋翰考P(guān)系、材料關(guān)系、用途關(guān)系、制造與工藝關(guān)系和屬性關(guān)系。人工標(biāo)注1300對概念?;凇逗娇瞻倏圃~典》抽取的樣例說明如表2所示。

表2 抽取樣例的說明

本文在文獻(xiàn)[9]的基礎(chǔ)上加入主動學(xué)習(xí)技術(shù),選取標(biāo)注語料的30%作為測試概念關(guān)系集,把剩余70%語料分為兩部分:1.為基礎(chǔ)(f oundation)語料;2.為查詢(query)語料。其中f oundation與quer y語料的比例為1∶3。策略A、B、C利用不同的主動學(xué)習(xí)策略分別進(jìn)行六分類、二分類和五分類。其中六分類與二分類迭代次數(shù)為60,因?yàn)檫^濾了沒有關(guān)系的類別,所以剩余的五分類的迭代次數(shù)為50。實(shí)驗(yàn)中每種主動學(xué)習(xí)策略每次采樣10對概念,并且三種策略均進(jìn)行5次交叉驗(yàn)證。

其中,三種策略在二分類時均采用基于閾值和最不確信的采樣算法,得到二分類的最好結(jié)果,去除其中被分為反例的部分,剩余語料利用邊緣采樣和基于熵采樣再進(jìn)行五分類。衡量結(jié)果的準(zhǔn)確率定義如式(4所示。

5.2 實(shí)驗(yàn)結(jié)果與分析

5.2.1 實(shí)驗(yàn)結(jié)果

策略A正反例充足的情況下,得到的六分類與二分類如圖3、4所示。

圖3 策略A的六分類結(jié)果

圖4 策略A的二分類結(jié)果

從圖3中看到,六分類中邊緣采樣得到了最高結(jié)果,最高準(zhǔn)確率為74.5%。從圖4看到,策略A的二分類中基于閾值的采樣要比最不確信的結(jié)果好,最高準(zhǔn)確率達(dá)到了84.9%,選取此時關(guān)系推薦結(jié)果中的正例進(jìn)行五分類,結(jié)果如圖5所示。

圖5 策略A的五分類結(jié)果

通過圖5看到,邊緣采樣在迭代30次時,分類準(zhǔn)確率達(dá)到了83.6%,并且邊緣采樣的效果要優(yōu)于基于熵的采樣。策略B在缺少反例的情況下,得到的六分類與二分類的結(jié)果如圖6、7所示。

圖6 策略B的六分類結(jié)果

圖7 策略B的二分類結(jié)果

圖8 策略B的五分類結(jié)果

從圖6看到,策略B的六分類中,最不確信采樣與邊緣采樣取得了優(yōu)于其他采樣的效果,最高準(zhǔn)確率達(dá)到了78.8%。從圖7看到,二分類中最不確信采樣的效果要明顯優(yōu)于閾值采樣,算法在迭代到30次后收斂,準(zhǔn)確率最高接近94%。從圖8看到,在策略B的五分類中,基于邊緣采樣與熵采樣的效果相當(dāng),準(zhǔn)確率在迭代35次后就達(dá)到90%以上,曲線在迭代45次后收斂。策略C在缺少標(biāo)注樣例情況下,根據(jù)詞對共現(xiàn)文檔的信息及詞對在共現(xiàn)文檔中的距離信息選取正反例,再重復(fù)策略A的實(shí)驗(yàn),得到的六分類與二分類的結(jié)果如圖9、10所示。

圖9 策略C的六分類結(jié)果

圖10 策略C的二分類結(jié)果

策略C的六分類結(jié)果曲線相對平緩,最高關(guān)系推薦準(zhǔn)確率在52.7%。二分的準(zhǔn)確率結(jié)果在迭代25次后下降,其中最不確信采樣的結(jié)果好于閾值采樣的結(jié)果,最高準(zhǔn)確率達(dá)到了75.1%。策略C的五分類結(jié)果如圖11所示。將本文三種策略實(shí)驗(yàn)語料用文獻(xiàn)[9中的方法求出準(zhǔn)確率,并與這三種策略去除反例后的準(zhǔn)確率對比,其中文獻(xiàn)[9]的方法用“Z”表示,結(jié)果如圖12所示。

圖11 策略C的五分類結(jié)果

圖12 三種策略與Z方法對比

策略C的五分類中基于熵采樣的結(jié)果好些,最高準(zhǔn)確率達(dá)到了70.4%。說明策略C的方法對于沒有任何初始樣例的情況起到了一定的作用。圖12中,縱坐標(biāo)表示標(biāo)注樣例的數(shù)目,橫坐標(biāo)表示三種方法與Z的方法比較,其中策略A的語料用Z方法實(shí)驗(yàn)得出的準(zhǔn)確率為83.2%,策略B為94.1%,策略C為66.7%。通過圖12的對比看到,三種策略在取得相同準(zhǔn)確率的同時,人標(biāo)注的樣例明顯減少,從而驗(yàn)證了主動學(xué)習(xí)技術(shù)在本體概念關(guān)系判斷中的有效性。

5.2.2 實(shí)驗(yàn)分析

對于策略A與策略B,兩者不同的是反例的選取方法,分別計算策略A、B中正、反例的相似度,相似度計算采用余弦相似度計算方法,結(jié)果如表3所示。

表3 策略A、B中正反例集相似度

通過結(jié)果可以看出,策略B的反例集與正例集的相似度結(jié)果只有1.3%,而策略A卻達(dá)到了40%以上,這樣在二分類過程中,策略A對于測試集合的正例和反例的區(qū)分能力明顯不如策略B好,所以策略B的二分類優(yōu)于策略A。也正是由于策略B中二分類有效地過濾了反例,所以策略B的五分類結(jié)果的準(zhǔn)確率要高于策略A。綜合上述,策略A中的反例是人工給出的,具有一定的不確定性和隨機(jī)性,而策略B中通過最小相似度的主動學(xué)習(xí)策略選取的反例具有一定指導(dǎo)性,所以策略B的效果很理想。

策略C中,雖然取得了一定效果,但是當(dāng)主動學(xué)習(xí)算法迭代到一定次數(shù)后,曲線出現(xiàn)了下降。分析得到策略C的反例中,例如,[機(jī)輪:殲擊轟炸機(jī)]、[減震器:殲擊機(jī)]、[機(jī)輪:強(qiáng)擊機(jī)、[機(jī)輪:轟炸機(jī)]等幾組概念,它們共現(xiàn)在同一文檔中,并且概念間的距離遠(yuǎn),根據(jù)策略C中的規(guī)則他們被認(rèn)為沒有任何關(guān)系,但是它們共現(xiàn)的句子是舉例說明這幾種飛機(jī)及其組成的部件,顯然它們之間應(yīng)該是“部件關(guān)系”,在選取的反例集合中這樣的例子還有很多。

6 結(jié)語

本文依據(jù)關(guān)系判斷任務(wù)特點(diǎn),并從實(shí)際應(yīng)用角度出發(fā),討論了在三種不同樣本初始情況下主動學(xué)習(xí)技術(shù)的應(yīng)用,對比分析了三種策略實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)驗(yàn)證了主動學(xué)習(xí)在本體關(guān)系輔助判斷任務(wù)中的有效性,并且實(shí)現(xiàn)了在概念關(guān)系判定過程中對用戶反饋信息的有效利用,在本體關(guān)系構(gòu)建任務(wù)中,利用較少的訓(xùn)練樣例獲得了較高的關(guān)系推薦準(zhǔn)確率。

在未來的研究中,可以針對策略C的方法做進(jìn)一步改進(jìn),不僅是通過統(tǒng)計信息,還可以加入一些啟發(fā)式知識來指導(dǎo)選取樣例,這樣可以在大大減少人為工作量的同時提高本體的構(gòu)建效率。

[1]Thomas R Gruber.A translation approach to portable ontologies[J].Knowledge Acquisition,1993,5(2):199-220.

[2]何琳,侯漢清.基于統(tǒng)計自然語言處理技術(shù)的領(lǐng)域本體半自動構(gòu)建研究[J].情報學(xué)報,2009,28(2):201-207.

[3]杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述[J].軟件學(xué)報,2006,17(9):1837-1847.

[4]David Sanchez,Antonio Moreno.Patter n-based Automatic Taxono my Lear ning fr om the Web[J].AI Co mmunications.2008,21(1):27-48.

[5]Tao Jiang,Ah-Hwee Tan,Ke Wang.Mining Generalized Associations of Semantic Relations fr o m Textual Web Content[J].IEEE Transactions on Knowledge and Data Engineering,2007,19(2):164-179.

[6]徐力斌,劉宗田,周文,等.基于 Wor d Net和自然語言處理技術(shù)的半自動領(lǐng)域本體構(gòu)建[J].計算機(jī)科學(xué),2007,34(6):219-222.

[7]Kavalec M,Svate K V.A study on auto mated relation labeling in ontology learning[J].Buitelaar P,Cimiano P,Magnini B,eds.Ontology Lear ning fro m Text:Methods,Evaluation and Applications.Amster dam:IOS Press,2005.

[8]Faure D Nedellec C.A cor pus-based conceptual clustering method f or verb frames and ontology acquisition[C]//Velardi P,ed.Proc.of the LREC Workshop on Adapting Lexical and Cor pus Resources to Sublanguages and Applications Granada:LREC,1998:5-12.

[9]張曉瑩,張桂平,王裴巖.領(lǐng)域本體構(gòu)建中關(guān)系輔助判

斷技術(shù)研究[C]//中國計算語言學(xué)研究前沿進(jìn)展(2009-2011).中國:中文信息學(xué)會,2011:276-282.

[10]Burr Settles.Active Lear ning Literature Survey[R].Co mputer Sciences Technical Report,University of Wisconsin-Madison,2009.

[11]B Settles,M Craven.An analysis of active learning strategies for sequence labeling tasks[C]//Proceedings of the Conference on Empirical Met hods in Natural Language Processing (EMNLP),USA:ACL Press,2008:1070-1079.

[12]車萬翔,張梅山,劉挺.基于主動學(xué)習(xí)的中文依存句法分析[J].中文信息學(xué)報,2012,26(2):18-22.

[13]陳榮,曹永鋒,孫洪.基于主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的多類圖像分類[J].自動化學(xué)報,2011,37(8):954-962.

[14]Guiping ZHANG Xiaoying ZHANG Peiyan WANG,et al.Study on Assistant Concept Acquisition in Domain Ontology Construction for Chinese Texts[C]//Proceedings of 7t h Inter national Conference on Natural Language Processing and Knowledge Engineering.Japan:2011:177-182.

[15]A Culotta,A Mc Callum.Reducing labeling effort f or stuctured prediction tasks [C]//Proceedings of the National Conference on Artificial Intelligence(AAAI),USA:AAAI Press,2005:746-751.

[16]T Scheffer,C Deco main,S Wrobel.Active hidden Markov models f or inf or mation extraction[C]//Proceedings of the International Conference on Advances in Intelligent Data Analysis(CAIDA).Springer-Verlag,2001:309-318.

[17]R Hwa.Sample selection for statistical parsing[J].Computational Linguistics,2004,30(3):253-276.

[18]Katrenko S,Adriaans P.Learning Relations from Bio medical Cor pora Using Dependency Tree Levels[C]//Proceedings of the BENELEARN conference.Springer-Verlag,2007:61-80.

猜你喜歡
樣例反例本體
Abstracts and Key Words
樣例復(fù)雜度與學(xué)習(xí)形式對不同數(shù)量樣例學(xué)習(xí)的影響
幾個存在反例的數(shù)學(xué)猜想
樣例呈現(xiàn)方式對概念訓(xùn)練類別表征的影響
對姜夔自度曲音樂本體的現(xiàn)代解讀
“樣例教學(xué)”在小學(xué)高年級數(shù)學(xué)中的應(yīng)用
活用反例擴(kuò)大教學(xué)成果
利用學(xué)具構(gòu)造一道幾何反例圖形
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
樣例教學(xué)法回歸課堂教學(xué)之新認(rèn)識
布尔津县| 泊头市| 娄底市| 方山县| 洪湖市| 石棉县| 利川市| 皮山县| 新闻| 合山市| 兴安盟| 丹巴县| 紫金县| 呼图壁县| 漠河县| 安塞县| 青岛市| 中江县| 图木舒克市| 柘城县| 天祝| 长汀县| 盐边县| 石景山区| 阜城县| 沧州市| 平利县| 都匀市| 肥城市| 海门市| 锡林浩特市| 泰兴市| 银川市| 万年县| 大庆市| 昭通市| 孝昌县| 翁牛特旗| 乐安县| 佛教| 读书|