国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Web弱指導(dǎo)的本體概念實(shí)例及屬性的同步提取

2010-06-05 08:35穗志方
中文信息學(xué)報(bào) 2010年1期
關(guān)鍵詞:實(shí)例本體準(zhǔn)確率

康 為,穗志方

(1. 北京大學(xué) 計(jì)算語言學(xué)研究所,北京 100871;

2. 北京大學(xué) 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)

1 引言

Ontology可以看作是概念和概念之間關(guān)系組織起來的結(jié)構(gòu),而其中Instance-of和Attribute-of是最基本的兩種關(guān)系。作為本體學(xué)習(xí)的重要部分,本體概念實(shí)例提取和屬性提取的研究越來越受到重視。

Hearst提出了利用句法模式從文本中得到上下位關(guān)系的方法[1],利用的句法模式如“such NPoas NPi,…,NPn-i(or|and) other NPn”等,這種方法能夠取得較高的準(zhǔn)確率,但是基于單一文本的實(shí)例提取往往會(huì)出現(xiàn)數(shù)據(jù)稀疏的問題。文獻(xiàn)[2]從Web上提取候選概念屬性,并將判別屬性看作分類問題,利用兩個(gè)有指導(dǎo)的分類器來進(jìn)行分類。文獻(xiàn)[3-4,8]利用無指導(dǎo)或弱指導(dǎo)的方法從非結(jié)構(gòu)化的Web文本中提取概念實(shí)例,文獻(xiàn)[6]使用無指導(dǎo)的方法從半結(jié)構(gòu)化的HTML文檔中提取屬性和屬性值對,文獻(xiàn)[6]利用弱指導(dǎo)的方法從結(jié)構(gòu)化的Web文檔中提取概念屬性,近年來隨著Wikipedia的不斷發(fā)展,基于Wikipedia的屬性提取也受到關(guān)注[7]。

上述的研究大多關(guān)注于單獨(dú)的概念實(shí)例提取或?qū)傩蕴崛∪蝿?wù),而沒有同時(shí)進(jìn)行概念實(shí)例提取和屬性提取,只有文獻(xiàn)[8]利用弱指導(dǎo)方法從Web文檔和搜索引擎查詢?nèi)罩局蝎@取開放領(lǐng)域的概念的實(shí)例和屬性。本文提出了一種基于Web弱指導(dǎo)的本體概念實(shí)例和屬性的同步提取方法,利用小規(guī)模的種子實(shí)例和屬性集,從Web上自動(dòng)獲取實(shí)例和屬性共現(xiàn)的上下文模式,并利用種子實(shí)例和屬性的關(guān)聯(lián)性來評價(jià)這些模式。進(jìn)一步,本文提出兩種方法來評價(jià)提取的候選實(shí)例和屬性。第一,利用概念實(shí)例和屬性的關(guān)聯(lián)性來互相評價(jià)對方的準(zhǔn)確度;第二,利用候選實(shí)例或候選屬性與種子實(shí)例或?qū)傩栽谏舷挛哪J椒植忌系南嗨贫葋碓u價(jià)準(zhǔn)確度。在疾病類實(shí)驗(yàn)結(jié)果表明,人工確認(rèn)候選實(shí)例的準(zhǔn)確率在前500個(gè)結(jié)果達(dá)到94%,前1 000個(gè)結(jié)果的準(zhǔn)確率也高達(dá)93%。

本文的組織結(jié)構(gòu)如下:第二章主要介紹基于Web的本體概念實(shí)例和屬性同步提取的基本思想;第三章介紹實(shí)例和屬性提取的關(guān)鍵技術(shù);第四章介紹實(shí)驗(yàn)設(shè)置及對實(shí)驗(yàn)結(jié)果的分析評價(jià);最后一章是本文工作的總結(jié)。

2 基于Web的本體概念實(shí)例和屬性同步提取的基本思想

2.1 基本思想

本體是對某個(gè)領(lǐng)域中的概念的形式化的明確的表示。從語義上分析,實(shí)例表示的就是對象,而概念表示的則是對象的集合。譬如一個(gè)醫(yī)學(xué)本體中,“疾病”是一個(gè)概念,而具體的疾病“感冒”、“高血壓”等是“疾病”的實(shí)例,這些實(shí)例都有一些共同的特征和屬性,譬如疾病的實(shí)例都有“癥狀”、“治療”、“病因”等屬性,這些屬性是用來描述概念及其實(shí)例的本質(zhì)特征。因此,概念實(shí)例和概念的屬性之間具有密切的關(guān)系,具有相同屬性集合的對象可以認(rèn)為是同一概念的實(shí)例,而一個(gè)概念的實(shí)例具有相同的屬性集合。在領(lǐng)域語料中,概念的實(shí)例往往和其屬性描述同時(shí)出現(xiàn)。本文以Web作為語料,利用少量的種子實(shí)例和種子屬性,提取實(shí)例和屬性共現(xiàn)的上下文模式,并進(jìn)一步利用上下文模式同時(shí)提取概念實(shí)例和屬性。本文的工作主要圍繞著以下三個(gè)問題進(jìn)行解決:

1) 如何解決概念實(shí)例和屬性提取中的數(shù)據(jù)稀疏問題?

基于上下文模式進(jìn)行信息提取,往往會(huì)出現(xiàn)數(shù)據(jù)稀疏的問題,而以Web作為語料就可以較好的解決這一問題。由于Web上信息傳播、共享的便捷性,Web上的信息具有很大的冗余性。對于人而言,這種冗余性會(huì)影響信息獲取的效率,而對于基于模式的信息提取任務(wù),由于Web信息的冗余性,在單一文本中會(huì)出現(xiàn)數(shù)據(jù)稀疏的模式,在Web中則可以出現(xiàn)很多次,因此Web信息的冗余性恰恰可以用來解決數(shù)據(jù)稀疏的問題[9]。進(jìn)一步,本文通過自動(dòng)構(gòu)造查詢請求,利用Google搜索引擎返回的排序靠前的檢索結(jié)果作為語料來提取概念實(shí)例和屬性。

2) 如何評估候選模式的準(zhǔn)確性?

概念實(shí)例和屬性往往出現(xiàn)在特定的上下文模式中,本文利用種子概念實(shí)例和屬性構(gòu)造如“IH1AH2”(I為種子實(shí)例,A為種子屬性,H1和H2是上下文)的查詢請求,在Google返回的檢索結(jié)果中自動(dòng)提取實(shí)例和屬性共現(xiàn)的上下文模式,通過這種方式提取的模式有很多是不準(zhǔn)確的,因此我們利用種子實(shí)例與屬性的關(guān)聯(lián)性來評價(jià)候選模式的準(zhǔn)確性,越能體現(xiàn)種子實(shí)例和屬性的模式越準(zhǔn)確。例如,對于上下文模式P =“I的A及”,種子實(shí)例“感冒”和種子屬性“癥狀”在P上的關(guān)聯(lián)性表現(xiàn)為,“感冒”和“癥狀”出現(xiàn)在Web時(shí)“感冒的癥狀及”在Web上出現(xiàn)的概率,綜合所有這樣的種子實(shí)例和屬性的組合情況,就能夠評價(jià)出模式P反映種子實(shí)例與屬性關(guān)聯(lián)性的程度。

3) 如何評價(jià)提取的概念實(shí)例和屬性?

由于Web信息的復(fù)雜性,利用Web提取的候選概念實(shí)例和屬性時(shí)不可避免的有一些噪音,因此需要對候選實(shí)例和屬性進(jìn)行可靠性的評價(jià)。本文從兩個(gè)方面對候選進(jìn)行評價(jià)。第一,利用概念實(shí)例和屬性之間的密切關(guān)系來相互評價(jià)候選實(shí)例和屬性。譬如,對于概念“疾病”,我們有種子屬性“癥狀”、“治療”和“病因”,真正的疾病實(shí)例相比于不是疾病的候選實(shí)例與這些種子屬性有更為密切的關(guān)系,我們用PMI-IR來衡量這種密切的關(guān)系[10]。第二,利用候選實(shí)例(或候選屬性)和種子實(shí)例(或種子屬性)在上下文模式集合′上分布的相似度來評價(jià)候選實(shí)例(或候選屬性)。譬如,對于疾病的種子實(shí)例“感冒”、“高血壓”、“鼻炎”,候選實(shí)例“牙結(jié)石”比“科學(xué)正確”更接近種子實(shí)例的上下文分布。本文綜合了以上兩種評價(jià)方法,既考慮了概念實(shí)例和屬性的密切關(guān)系,又把提取對象與其種子的聯(lián)系也作為度量。

2.2 整體框架

基于Web的本體概念實(shí)例和屬性同步提取方法,其輸入是少量的種子實(shí)例和種子屬性,在Web上,利用種子實(shí)例和屬性提取上下文模式并進(jìn)行評價(jià),利用模式提取候選實(shí)例和候選屬性并進(jìn)行評價(jià),最終得到排序后的概念實(shí)例列表和屬性列表。系統(tǒng)的框架如圖1所示,它包括三個(gè)主要模塊。

圖1 基于Web的本體概念實(shí)例和屬性同步提取方法框架

1) 上下文模式的提取和評價(jià)模塊:該模塊提取概念實(shí)例和屬性共現(xiàn)的上下文模式,并且利用Google評價(jià)提取的模式。

2) 候選實(shí)例的提取和評價(jià)模塊:在該模塊中,利用種子屬性和1)中提取的上下文模式構(gòu)造查詢請求,利用Google返回的結(jié)果提取候選實(shí)例,并用基于與種子屬性PMI-IR和種子實(shí)例相似度的可靠性評價(jià)方法來評價(jià)候選實(shí)例,并擴(kuò)充種子實(shí)例集合。

3) 候選屬性的提取和評價(jià)模塊:該模塊利用擴(kuò)充的種子實(shí)例集合和1)中提取的上下文模式構(gòu)造查詢請求,利用Google的結(jié)果提取候選屬性,并用與2)相似的方法評價(jià)候選屬性。

3 關(guān)鍵技術(shù)

3.1 基于Web的上下文模式的提取和評價(jià)

? 上下文模式的提取

實(shí)例與屬性的關(guān)系其實(shí)是一種“I具有A”的關(guān)系,如“感冒的癥狀有”、“高血壓的治療需要”等就體現(xiàn)了這種關(guān)系,因此我們試圖提取出形如“IH1AH2”的上下文模式,其中I是概念實(shí)例,A是屬性,H1和H2是在語料中出現(xiàn)頻次高于閾值F、并且長度小于閾值L的上下文片段。本文利用小規(guī)模種子集,構(gòu)造出給Google搜索引擎的查詢請求,利用Google API獲得每個(gè)查詢排名前100的結(jié)果,把Google返回結(jié)果的網(wǎng)頁標(biāo)題和結(jié)果片段(Snippets)作為提取上下文模式的語料集,記為Corpus P。然后提取“IH1AH2”類型的模式,將得到的模式集合記為。

? 上下文模式的評價(jià)

(1)

其中,(,γ)表示將模式“IH1AH2”中的I和A替換為具體的i和a,Hits(q)表示將q作為查詢詞在Google中檢索得到的結(jié)果數(shù)目。我們將score(γ)小于給定閾值的模式排除,得到最終的模式集合′,再將′中的γ的權(quán)重歸一化為score′(γ)。

3.2 概念實(shí)例提取及評價(jià)

? 提取概念實(shí)例候選

基于2.1中提取的上下文模式和種子屬性,我們用具體的種子屬性a替換上下文模式“IH1AH2”中的“A”,并構(gòu)造查詢請求query =“*H1aH2”,我們通過在Google中檢索query得到符合模式的結(jié)果,記做Corpus I。在Corpus I中依據(jù)模式集合′抽取概念實(shí)例候選,我們采用如下的策略:首先,我們以Corpus I中的句子為單位進(jìn)行抽取,我們只選擇所有以“*H1AH2”作為開頭的句子,抽取其中匹配“*”的部分,記為集合。然后,進(jìn)一步對集合中的字符串S進(jìn)行處理,我們使用前綴和后綴停用詞表去掉S中的噪音前綴和后綴,并只保留長度在2到10之間的字符串,經(jīng)過上面的篩選,我們最終得到候選概念實(shí)例集合ξ。

? 候選概念實(shí)例可靠性評價(jià)

通過上下文模式提取出來的概念實(shí)例候選不可避免的會(huì)包含噪音,因此需要對候選實(shí)例進(jìn)行置信度的評價(jià)。本文提出了兩種方法來評價(jià)候選實(shí)例:

1) 基于實(shí)例候選和種子屬性PMI-IR的評價(jià)方法

一個(gè)合法的概念實(shí)例應(yīng)該和種子屬性的相關(guān)程度很大,因此我們用實(shí)例候選和種子屬性的互信息來衡量實(shí)例候選的置信程度。本文中使用Google搜索引擎統(tǒng)計(jì)實(shí)例候選和種子的PMI-IR來計(jì)算實(shí)例候選的可靠性P(i),如公式(2)、(3)所示:

(2)

(3)

其中,P(i)是候選實(shí)例的可靠性,P(a)是屬性的可靠性,Hits(q)是以q作為Google的檢索詞得到的結(jié)果數(shù)目,(i,a)是以i和a同時(shí)作為Google檢索的關(guān)鍵詞,N是Web上所有文本的數(shù)目。

2) 基于實(shí)例候選和種子實(shí)例相似度的評價(jià)方法

(4)

其中,Hits(α,γ)是以α,γ共同作為Google的檢索詞得到的結(jié)果數(shù)目,score′(γ)是2.1中計(jì)算的模式γ的權(quán)值,N是Web上所有文本的數(shù)目。得到所有種子實(shí)例的特征向量后,把它們相加并做歸一化得到一個(gè)參照特征向量vs。

ii) 用i)中描述的方法為所有的候選實(shí)例Icand構(gòu)造特征向量vc。

iii) 使用Jensen-Shannon divergence[11]計(jì)算候選實(shí)例特征向量vc和參照特征向量vs的相似度,并根據(jù)計(jì)算的相似度對候選實(shí)例進(jìn)行排序。

3.3 屬性提取及評價(jià)

與概念實(shí)例提取類似,屬性提取也分為提取候選屬性和評價(jià)候選屬性兩個(gè)部分。

? 提取屬性候選

在提取屬性時(shí),我們把實(shí)例提取之后置信度高的實(shí)例候選添加到實(shí)例種子集中。利用Google返回檢索結(jié)果Corpus A,我們選擇所有匹配上下文模式“IH1*H2”的句子,抽取其中匹配“*”的部分,記為集合′。對′中的字符串S只保留長度在2到8之間并且出現(xiàn)頻次大于給定閾值的字符串,經(jīng)過上面的篩選,我們最終得到候選概念實(shí)例集合ξ′。

? 屬性候選可靠性評價(jià)

1) 基于候選屬性與種子實(shí)例PMI-IR的評價(jià)

基于PMI-IR的屬性候選可靠性評價(jià)與實(shí)例候選相似,有所不同的是種子實(shí)例集合添加了置信度小于1的實(shí)例,公式(5)描述了候選屬性a置信度的評價(jià):

(5)

其中pmi(a,i)與公式(3)中的pmi(i,a)相等。

2) 基于候選屬性與種子屬性相似度的評價(jià)

候選屬性的可靠性也可以用其余種子屬性的相似度來衡量,相似度計(jì)算的步驟也分為三個(gè):i) 利用種子屬性構(gòu)造參照特征向量。ii) 為候選屬性構(gòu)造特征向量。iii) 計(jì)算候選屬性特征向量和參照特征向量的相似度,并根據(jù)計(jì)算的相似度對候選實(shí)例進(jìn)行排序。

4 實(shí)驗(yàn)分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文使用Google API作為獲得Web語料的工具,在構(gòu)造查詢請求后,我們把Google返回的檢索結(jié)果的標(biāo)題和上下文片段作為提取上下文模式、實(shí)例和屬性的語料。本文在醫(yī)學(xué)領(lǐng)域的概念“疾病”上進(jìn)行了實(shí)驗(yàn),我們使用的初始種子實(shí)例集為{感冒、高血壓、鼻炎、頸椎病、腎結(jié)石},初始的種子屬性集為{癥狀、治療、病因}。

本文中使用一個(gè)領(lǐng)域?qū)<胰斯ばS嗊^的,基于美國國立醫(yī)學(xué)圖書館編撰的《醫(yī)學(xué)主題詞表》(MESH)的現(xiàn)代醫(yī)學(xué)領(lǐng)域Ontology作為實(shí)例和屬性提取的黃金標(biāo)準(zhǔn)。作為標(biāo)準(zhǔn)的現(xiàn)代醫(yī)學(xué)領(lǐng)域Ontology中包含3 904個(gè)疾病實(shí)例,其中有148中常見疾病。我們使用準(zhǔn)確率、覆蓋率來評價(jià)實(shí)例提取,用準(zhǔn)確率評價(jià)屬性提取的結(jié)果。其中,對于準(zhǔn)確率的評價(jià)采用了人工確認(rèn)的方法,對每個(gè)自動(dòng)提取的概念實(shí)例都一一進(jìn)行人工確認(rèn)。由于我們無法真正得到我們提取的實(shí)例和屬性在整個(gè)Web上的召回率,本文中采用了覆蓋率作為替代的方法,這里的覆蓋率是指我們提取的實(shí)例與作為黃金標(biāo)準(zhǔn)的本體中的實(shí)例的交集占黃金標(biāo)準(zhǔn)中實(shí)例的比例。

4.2 概念實(shí)例提取的實(shí)驗(yàn)結(jié)果

我們在概念“疾病”上進(jìn)行實(shí)例提取的實(shí)驗(yàn),結(jié)果得到2 200個(gè)候選實(shí)例,其中有315個(gè)疾病實(shí)例在全部疾病的黃金標(biāo)準(zhǔn)中出現(xiàn),覆蓋率達(dá)到了8.1%,有58個(gè)實(shí)例在常見病的黃金標(biāo)準(zhǔn)中出現(xiàn),覆蓋率達(dá)到了39.2%。表1中給出了實(shí)例提取的覆蓋率。人工確認(rèn)候選實(shí)例的準(zhǔn)確率在前500個(gè)結(jié)果達(dá)到94%,前1 000個(gè)結(jié)果的準(zhǔn)確率也高達(dá)93%,自動(dòng)提取實(shí)例的準(zhǔn)確率在圖1中給出。

表1 實(shí)例提取在黃金標(biāo)準(zhǔn)實(shí)例上的覆蓋率

從結(jié)果中我們可以看出在Web上自動(dòng)提取的概念實(shí)例已經(jīng)覆蓋了相當(dāng)程度的常見病,同時(shí)相比于標(biāo)準(zhǔn)本體,也有315個(gè)實(shí)例被提取出來,但是標(biāo)準(zhǔn)本體在構(gòu)造時(shí)也并不能囊括所有的疾病實(shí)例,在我們提取的結(jié)果中有相當(dāng)一部分實(shí)例經(jīng)過人工確認(rèn)是合法的疾病實(shí)例,而這些實(shí)例并不在標(biāo)準(zhǔn)本體中,表2給出了實(shí)例提取的結(jié)果與黃金標(biāo)準(zhǔn)比較的情況。

表2 實(shí)例提取結(jié)果與黃金標(biāo)準(zhǔn)比較

圖1 實(shí)例自動(dòng)提取的準(zhǔn)確率

從圖1可以發(fā)現(xiàn),經(jīng)過排序后的候選實(shí)例的前 1 000 個(gè)結(jié)果準(zhǔn)確率都達(dá)到了92%以上,而前 2 000 個(gè)結(jié)果的準(zhǔn)確率也維持在85%,準(zhǔn)確率下降的原因在于經(jīng)過我們的排序,置信度高的實(shí)例候選大多排在了前面,而置信度低的實(shí)例大多集中在后面。文獻(xiàn)[4]利用人工選擇的模式在規(guī)模為60 000 000的Web文檔集合上提取概念“公司”和“國家”的實(shí)例,他們對提取的實(shí)例進(jìn)行抽樣并人工確認(rèn)其準(zhǔn)確性,在“公司”上抽取的實(shí)例有1 116個(gè),準(zhǔn)確率為90%。對比上述研究的實(shí)驗(yàn)結(jié)果,我們的方法利用較少的資源,在提取出更多實(shí)例的同時(shí),準(zhǔn)確率依然維持較高的水平。

4.3 屬性提取的實(shí)驗(yàn)結(jié)果

圖2 屬性自動(dòng)提取的準(zhǔn)確率

我們在概念“疾病”上進(jìn)行實(shí)驗(yàn),前30個(gè)結(jié)果的準(zhǔn)確率都達(dá)到了60%以上,前20達(dá)到70%,前5個(gè)結(jié)果最高,達(dá)到了80%。屬性自動(dòng)提取的準(zhǔn)確率在圖2中給出。文獻(xiàn)[8]利用弱指導(dǎo)方法從Web文檔和搜索查詢?nèi)罩局蝎@取開放領(lǐng)域的概念的實(shí)例和屬性,其提取的排名前20的候選屬性的平均準(zhǔn)確率達(dá)到了67%,相比于文獻(xiàn)[8]中使用了5千萬個(gè)查詢?nèi)罩竞?千萬個(gè)Web文檔,本文的方法使用的資源規(guī)模要小很多,但是卻取得了相當(dāng)?shù)臏?zhǔn)確率。相比于概念實(shí)例,一個(gè)概念的屬性的數(shù)目要遠(yuǎn)遠(yuǎn)小于概念實(shí)例的數(shù)目,因此屬性提取的準(zhǔn)確率較實(shí)例提取要低一些。

5 結(jié)論

本文提出了一種基于Web弱指導(dǎo)的本體概念實(shí)例和屬性的同步提取方法,利用小規(guī)模的種子實(shí)例和屬性集,自動(dòng)從Web上獲取概念實(shí)例和屬性共現(xiàn)的上下文模式,并利用種子實(shí)例和屬性的關(guān)聯(lián)性來評價(jià)這些模式。在根據(jù)上下文模式提取候選概念實(shí)例和屬性后,本文利用概念實(shí)例和屬性的關(guān)聯(lián)性以及候選實(shí)例或候選屬性與種子實(shí)例或?qū)傩栽谏舷挛哪J椒植忌系南嗨贫葋碓u價(jià)準(zhǔn)確度。以Web作為語料進(jìn)行實(shí)例和屬性提取,充分的利用了Web信息的冗余性,可以有效的克服單一文本中的數(shù)據(jù)稀疏問題。實(shí)驗(yàn)結(jié)果表明,本文方法提取出的概念實(shí)例和屬性準(zhǔn)確度較高,能夠有效的輔助本體的自動(dòng)構(gòu)建。

[1] M. Hearst. Automatic Acquisition of Hyponyms from Large Text Corpora[C]//Proceedings of the 14th International Conference on Computational Linguistics [C]. Nantes, France, 1992:539-545.

[2] M. Poesio, A. Almuhareb. Identifying Concept Attributes Using a Classifier[C]//Proceedings of the ACL-SIGLEX Workshop on Deep Lexical Acquisition. Ann Arbor, 2005:18-27.

[3] O. Etzioni, M. Cafarella, D. Downey,等. Unsupervised Named-Entity Extraction from the Web: An Experimental Study [J]. Artificial Intelligence, June 2005, 165:91-134.

[4] M.J. Cafarella, D. Downey, S. Soderland, O. Etzioni. KnowItNow: Fast, Scalable Information Extraction from the Web[C]//Proceedings of HLT/EMNLP. Vancouver, October 2005:563-570.

[5] N. Yoshinaga, K. Torisawa. Open-Domain Attribute-Value Acquisition from Semi-Structured Texts[C]//Proceedings of the OntoLex 2007. Busan, South-Korea, November 11th, 2007.

[6] S. Ravi, M. Pasca. Using Structured Text for Large-Scale Attribute Extraction[C]//Proceedings of the 17th International Conference on Information and Knowledge Management(CIKM-08). Napa Valley, California, USA, October 2008: 1183-1192.

[7] G. Cui, Q. Lu, W. Li, Y. Chen. Automatic Acquisition of Attributes for Ontology Construction[C]//ICCPOL2009, Springer, 2009:248-259.

[8] M. Pasca, B.V. Durme. Weakly-Supervised Acquisition of Open-Domain Classes and Class Attributes from Web Documents and Query Logs[C]//Proceedings of the ACL-08: HLT. Columbus, Ohio, USA, June 2008: 19-27.

[9] F. Keller, M. Lapata, O. Ourioupina. Using The Web to Overcome Data Sparseness[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Philadelphia, July 2002: 230-237.

[10] P. Turney. Mining the Web for Synonyms: PMI-IR Versus LSA on TOEFL[C]//Proceedings of the 12th ECML-2001). Freiburg, Germany, September, 2001: 491-502.

[11] L. Lee. Measures of Distributional Similarity[C]//Proceedings of the 37th Annual Meeting of the Association of Computational Linguistics (ACL-99). College Park, Maryland, 1999: 25-32.

猜你喜歡
實(shí)例本體準(zhǔn)確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
眼睛是“本體”
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
基于本體的機(jī)械產(chǎn)品工藝知識(shí)表示
完形填空Ⅱ
完形填空Ⅰ
專題
Care about the virtue moral education