基于Web弱指導(dǎo)的本體概念實(shí)例及屬性的同步提取

2010-06-05 08:35穗志方

中文信息學(xué)報(bào) 2010年1期

康為，穗志方

(1. 北京大學(xué) 計(jì)算語言學(xué)研究所，北京 100871；

2. 北京大學(xué) 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室，北京 100871)

1 引言

Ontology可以看作是概念和概念之間關(guān)系組織起來的結(jié)構(gòu)，而其中Instance-of和Attribute-of是最基本的兩種關(guān)系。作為本體學(xué)習(xí)的重要部分，本體概念實(shí)例提取和屬性提取的研究越來越受到重視。

Hearst提出了利用句法模式從文本中得到上下位關(guān)系的方法[1]，利用的句法模式如“such NPoas NPi,…,NPn-i(or|and) other NPn”等，這種方法能夠取得較高的準(zhǔn)確率，但是基于單一文本的實(shí)例提取往往會(huì)出現(xiàn)數(shù)據(jù)稀疏的問題。文獻(xiàn)[2]從Web上提取候選概念屬性，并將判別屬性看作分類問題，利用兩個(gè)有指導(dǎo)的分類器來進(jìn)行分類。文獻(xiàn)[3-4，8]利用無指導(dǎo)或弱指導(dǎo)的方法從非結(jié)構(gòu)化的Web文本中提取概念實(shí)例，文獻(xiàn)[6]使用無指導(dǎo)的方法從半結(jié)構(gòu)化的HTML文檔中提取屬性和屬性值對，文獻(xiàn)[6]利用弱指導(dǎo)的方法從結(jié)構(gòu)化的Web文檔中提取概念屬性，近年來隨著Wikipedia的不斷發(fā)展，基于Wikipedia的屬性提取也受到關(guān)注[7]。

上述的研究大多關(guān)注于單獨(dú)的概念實(shí)例提取或?qū)傩蕴崛∪蝿?wù)，而沒有同時(shí)進(jìn)行概念實(shí)例提取和屬性提取，只有文獻(xiàn)[8]利用弱指導(dǎo)方法從Web文檔和搜索引擎查詢?nèi)罩局蝎@取開放領(lǐng)域的概念的實(shí)例和屬性。本文提出了一種基于Web弱指導(dǎo)的本體概念實(shí)例和屬性的同步提取方法，利用小規(guī)模的種子實(shí)例和屬性集，從Web上自動(dòng)獲取實(shí)例和屬性共現(xiàn)的上下文模式，并利用種子實(shí)例和屬性的關(guān)聯(lián)性來評價(jià)這些模式。進(jìn)一步，本文提出兩種方法來評價(jià)提取的候選實(shí)例和屬性。第一，利用概念實(shí)例和屬性的關(guān)聯(lián)性來互相評價(jià)對方的準(zhǔn)確度；第二，利用候選實(shí)例或候選屬性與種子實(shí)例或?qū)傩栽谏舷挛哪Ｊ椒植忌系南嗨贫葋碓u價(jià)準(zhǔn)確度。在疾病類實(shí)驗(yàn)結(jié)果表明，人工確認(rèn)候選實(shí)例的準(zhǔn)確率在前500個(gè)結(jié)果達(dá)到94%，前1 000個(gè)結(jié)果的準(zhǔn)確率也高達(dá)93%。

本文的組織結(jié)構(gòu)如下：第二章主要介紹基于Web的本體概念實(shí)例和屬性同步提取的基本思想；第三章介紹實(shí)例和屬性提取的關(guān)鍵技術(shù)；第四章介紹實(shí)驗(yàn)設(shè)置及對實(shí)驗(yàn)結(jié)果的分析評價(jià)；最后一章是本文工作的總結(jié)。

2 基于Web的本體概念實(shí)例和屬性同步提取的基本思想

2．1 基本思想

本體是對某個(gè)領(lǐng)域中的概念的形式化的明確的表示。從語義上分析，實(shí)例表示的就是對象，而概念表示的則是對象的集合。譬如一個(gè)醫(yī)學(xué)本體中，“疾病”是一個(gè)概念，而具體的疾病“感冒”、“高血壓”等是“疾病”的實(shí)例，這些實(shí)例都有一些共同的特征和屬性，譬如疾病的實(shí)例都有“癥狀”、“治療”、“病因”等屬性，這些屬性是用來描述概念及其實(shí)例的本質(zhì)特征。因此，概念實(shí)例和概念的屬性之間具有密切的關(guān)系，具有相同屬性集合的對象可以認(rèn)為是同一概念的實(shí)例，而一個(gè)概念的實(shí)例具有相同的屬性集合。在領(lǐng)域語料中，概念的實(shí)例往往和其屬性描述同時(shí)出現(xiàn)。本文以Web作為語料，利用少量的種子實(shí)例和種子屬性，提取實(shí)例和屬性共現(xiàn)的上下文模式，并進(jìn)一步利用上下文模式同時(shí)提取概念實(shí)例和屬性。本文的工作主要圍繞著以下三個(gè)問題進(jìn)行解決：

1) 如何解決概念實(shí)例和屬性提取中的數(shù)據(jù)稀疏問題？

基于上下文模式進(jìn)行信息提取，往往會(huì)出現(xiàn)數(shù)據(jù)稀疏的問題，而以Web作為語料就可以較好的解決這一問題。由于Web上信息傳播、共享的便捷性，Web上的信息具有很大的冗余性。對于人而言，這種冗余性會(huì)影響信息獲取的效率，而對于基于模式的信息提取任務(wù)，由于Web信息的冗余性，在單一文本中會(huì)出現(xiàn)數(shù)據(jù)稀疏的模式，在Web中則可以出現(xiàn)很多次，因此Web信息的冗余性恰恰可以用來解決數(shù)據(jù)稀疏的問題[9]。進(jìn)一步，本文通過自動(dòng)構(gòu)造查詢請求，利用Google搜索引擎返回的排序靠前的檢索結(jié)果作為語料來提取概念實(shí)例和屬性。

2) 如何評估候選模式的準(zhǔn)確性？

概念實(shí)例和屬性往往出現(xiàn)在特定的上下文模式中，本文利用種子概念實(shí)例和屬性構(gòu)造如“IH1AH2”(I為種子實(shí)例，A為種子屬性，H1和H2是上下文)的查詢請求，在Google返回的檢索結(jié)果中自動(dòng)提取實(shí)例和屬性共現(xiàn)的上下文模式，通過這種方式提取的模式有很多是不準(zhǔn)確的，因此我們利用種子實(shí)例與屬性的關(guān)聯(lián)性來評價(jià)候選模式的準(zhǔn)確性，越能體現(xiàn)種子實(shí)例和屬性的模式越準(zhǔn)確。例如，對于上下文模式P =“I的A及”，種子實(shí)例“感冒”和種子屬性“癥狀”在P上的關(guān)聯(lián)性表現(xiàn)為，“感冒”和“癥狀”出現(xiàn)在Web時(shí)“感冒的癥狀及”在Web上出現(xiàn)的概率，綜合所有這樣的種子實(shí)例和屬性的組合情況，就能夠評價(jià)出模式P反映種子實(shí)例與屬性關(guān)聯(lián)性的程度。

3) 如何評價(jià)提取的概念實(shí)例和屬性？

由于Web信息的復(fù)雜性，利用Web提取的候選概念實(shí)例和屬性時(shí)不可避免的有一些噪音，因此需要對候選實(shí)例和屬性進(jìn)行可靠性的評價(jià)。本文從兩個(gè)方面對候選進(jìn)行評價(jià)。第一，利用概念實(shí)例和屬性之間的密切關(guān)系來相互評價(jià)候選實(shí)例和屬性。譬如，對于概念“疾病”，我們有種子屬性“癥狀”、“治療”和“病因”，真正的疾病實(shí)例相比于不是疾病的候選實(shí)例與這些種子屬性有更為密切的關(guān)系，我們用PMI-IR來衡量這種密切的關(guān)系[10]。第二，利用候選實(shí)例(或候選屬性)和種子實(shí)例(或種子屬性)在上下文模式集合′上分布的相似度來評價(jià)候選實(shí)例(或候選屬性)。譬如，對于疾病的種子實(shí)例“感冒”、“高血壓”、“鼻炎”，候選實(shí)例“牙結(jié)石”比“科學(xué)正確”更接近種子實(shí)例的上下文分布。本文綜合了以上兩種評價(jià)方法，既考慮了概念實(shí)例和屬性的密切關(guān)系，又把提取對象與其種子的聯(lián)系也作為度量。

2．2 整體框架

基于Web的本體概念實(shí)例和屬性同步提取方法，其輸入是少量的種子實(shí)例和種子屬性，在Web上，利用種子實(shí)例和屬性提取上下文模式并進(jìn)行評價(jià)，利用模式提取候選實(shí)例和候選屬性并進(jìn)行評價(jià)，最終得到排序后的概念實(shí)例列表和屬性列表。系統(tǒng)的框架如圖1所示，它包括三個(gè)主要模塊。

圖1 基于Web的本體概念實(shí)例和屬性同步提取方法框架

1) 上下文模式的提取和評價(jià)模塊：該模塊提取概念實(shí)例和屬性共現(xiàn)的上下文模式，并且利用Google評價(jià)提取的模式。

2) 候選實(shí)例的提取和評價(jià)模塊：在該模塊中，利用種子屬性和1)中提取的上下文模式構(gòu)造查詢請求，利用Google返回的結(jié)果提取候選實(shí)例，并用基于與種子屬性PMI-IR和種子實(shí)例相似度的可靠性評價(jià)方法來評價(jià)候選實(shí)例，并擴(kuò)充種子實(shí)例集合。

3) 候選屬性的提取和評價(jià)模塊：該模塊利用擴(kuò)充的種子實(shí)例集合和1)中提取的上下文模式構(gòu)造查詢請求，利用Google的結(jié)果提取候選屬性，并用與2)相似的方法評價(jià)候選屬性。

3 關(guān)鍵技術(shù)

3.1 基于Web的上下文模式的提取和評價(jià)

? 上下文模式的提取

實(shí)例與屬性的關(guān)系其實(shí)是一種“I具有A”的關(guān)系，如“感冒的癥狀有”、“高血壓的治療需要”等就體現(xiàn)了這種關(guān)系，因此我們試圖提取出形如“IH1AH2”的上下文模式，其中I是概念實(shí)例，A是屬性，H1和H2是在語料中出現(xiàn)頻次高于閾值F、并且長度小于閾值L的上下文片段。本文利用小規(guī)模種子集，構(gòu)造出給Google搜索引擎的查詢請求，利用Google API獲得每個(gè)查詢排名前100的結(jié)果，把Google返回結(jié)果的網(wǎng)頁標(biāo)題和結(jié)果片段(Snippets)作為提取上下文模式的語料集，記為Corpus P。然后提取“IH1AH2”類型的模式，將得到的模式集合記為。

? 上下文模式的評價(jià)

(1)

其中，(,γ)表示將模式“IH1AH2”中的I和A替換為具體的i和a，Hits(q)表示將q作為查詢詞在Google中檢索得到的結(jié)果數(shù)目。我們將score(γ)小于給定閾值的模式排除，得到最終的模式集合′，再將′中的γ的權(quán)重歸一化為score′(γ)。

3.2 概念實(shí)例提取及評價(jià)

? 提取概念實(shí)例候選

基于2.1中提取的上下文模式和種子屬性，我們用具體的種子屬性a替換上下文模式“IH1AH2”中的“A”，并構(gòu)造查詢請求query =“*H1aH2”，我們通過在Google中檢索query得到符合模式的結(jié)果，記做Corpus I。在Corpus I中依據(jù)模式集合′抽取概念實(shí)例候選，我們采用如下的策略：首先，我們以Corpus I中的句子為單位進(jìn)行抽取，我們只選擇所有以“*H1AH2”作為開頭的句子，抽取其中匹配“*”的部分，記為集合。然后，進(jìn)一步對集合中的字符串S進(jìn)行處理，我們使用前綴和后綴停用詞表去掉S中的噪音前綴和后綴，并只保留長度在2到10之間的字符串，經(jīng)過上面的篩選，我們最終得到候選概念實(shí)例集合ξ。

? 候選概念實(shí)例可靠性評價(jià)

通過上下文模式提取出來的概念實(shí)例候選不可避免的會(huì)包含噪音，因此需要對候選實(shí)例進(jìn)行置信度的評價(jià)。本文提出了兩種方法來評價(jià)候選實(shí)例：

1) 基于實(shí)例候選和種子屬性PMI-IR的評價(jià)方法

一個(gè)合法的概念實(shí)例應(yīng)該和種子屬性的相關(guān)程度很大，因此我們用實(shí)例候選和種子屬性的互信息來衡量實(shí)例候選的置信程度。本文中使用Google搜索引擎統(tǒng)計(jì)實(shí)例候選和種子的PMI-IR來計(jì)算實(shí)例候選的可靠性P(i)，如公式(2)、(3)所示：

(2)

(3)

其中，P(i)是候選實(shí)例的可靠性，P(a)是屬性的可靠性，Hits(q)是以q作為Google的檢索詞得到的結(jié)果數(shù)目，(i,a)是以i和a同時(shí)作為Google檢索的關(guān)鍵詞，N是Web上所有文本的數(shù)目。

2) 基于實(shí)例候選和種子實(shí)例相似度的評價(jià)方法

(4)

其中，Hits(α,γ)是以α,γ共同作為Google的檢索詞得到的結(jié)果數(shù)目，score′(γ)是2.1中計(jì)算的模式γ的權(quán)值，N是Web上所有文本的數(shù)目。得到所有種子實(shí)例的特征向量后，把它們相加并做歸一化得到一個(gè)參照特征向量vs。

ii) 用i)中描述的方法為所有的候選實(shí)例Icand構(gòu)造特征向量vc。

iii) 使用Jensen-Shannon divergence[11]計(jì)算候選實(shí)例特征向量vc和參照特征向量vs的相似度，并根據(jù)計(jì)算的相似度對候選實(shí)例進(jìn)行排序。

3.3 屬性提取及評價(jià)

與概念實(shí)例提取類似，屬性提取也分為提取候選屬性和評價(jià)候選屬性兩個(gè)部分。

? 提取屬性候選

在提取屬性時(shí)，我們把實(shí)例提取之后置信度高的實(shí)例候選添加到實(shí)例種子集中。利用Google返回檢索結(jié)果Corpus A，我們選擇所有匹配上下文模式“IH1*H2”的句子，抽取其中匹配“*”的部分，記為集合′。對′中的字符串S只保留長度在2到8之間并且出現(xiàn)頻次大于給定閾值的字符串，經(jīng)過上面的篩選，我們最終得到候選概念實(shí)例集合ξ′。

? 屬性候選可靠性評價(jià)

1) 基于候選屬性與種子實(shí)例PMI-IR的評價(jià)

基于PMI-IR的屬性候選可靠性評價(jià)與實(shí)例候選相似，有所不同的是種子實(shí)例集合添加了置信度小于1的實(shí)例，公式(5)描述了候選屬性a置信度的評價(jià)：

(5)

其中pmi(a,i)與公式(3)中的pmi(i,a)相等。

2) 基于候選屬性與種子屬性相似度的評價(jià)

候選屬性的可靠性也可以用其余種子屬性的相似度來衡量，相似度計(jì)算的步驟也分為三個(gè)：i) 利用種子屬性構(gòu)造參照特征向量。ii) 為候選屬性構(gòu)造特征向量。iii) 計(jì)算候選屬性特征向量和參照特征向量的相似度，并根據(jù)計(jì)算的相似度對候選實(shí)例進(jìn)行排序。

4 實(shí)驗(yàn)分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文使用Google API作為獲得Web語料的工具，在構(gòu)造查詢請求后，我們把Google返回的檢索結(jié)果的標(biāo)題和上下文片段作為提取上下文模式、實(shí)例和屬性的語料。本文在醫(yī)學(xué)領(lǐng)域的概念“疾病”上進(jìn)行了實(shí)驗(yàn)，我們使用的初始種子實(shí)例集為{感冒、高血壓、鼻炎、頸椎病、腎結(jié)石}，初始的種子屬性集為{癥狀、治療、病因}。

本文中使用一個(gè)領(lǐng)域?qū)＜胰斯ばＳ嗊^的，基于美國國立醫(yī)學(xué)圖書館編撰的《醫(yī)學(xué)主題詞表》(MESH)的現(xiàn)代醫(yī)學(xué)領(lǐng)域Ontology作為實(shí)例和屬性提取的黃金標(biāo)準(zhǔn)。作為標(biāo)準(zhǔn)的現(xiàn)代醫(yī)學(xué)領(lǐng)域Ontology中包含3 904個(gè)疾病實(shí)例，其中有148中常見疾病。我們使用準(zhǔn)確率、覆蓋率來評價(jià)實(shí)例提取，用準(zhǔn)確率評價(jià)屬性提取的結(jié)果。其中，對于準(zhǔn)確率的評價(jià)采用了人工確認(rèn)的方法，對每個(gè)自動(dòng)提取的概念實(shí)例都一一進(jìn)行人工確認(rèn)。由于我們無法真正得到我們提取的實(shí)例和屬性在整個(gè)Web上的召回率，本文中采用了覆蓋率作為替代的方法，這里的覆蓋率是指我們提取的實(shí)例與作為黃金標(biāo)準(zhǔn)的本體中的實(shí)例的交集占黃金標(biāo)準(zhǔn)中實(shí)例的比例。

4.2 概念實(shí)例提取的實(shí)驗(yàn)結(jié)果

我們在概念“疾病”上進(jìn)行實(shí)例提取的實(shí)驗(yàn)，結(jié)果得到2 200個(gè)候選實(shí)例，其中有315個(gè)疾病實(shí)例在全部疾病的黃金標(biāo)準(zhǔn)中出現(xiàn)，覆蓋率達(dá)到了8.1%，有58個(gè)實(shí)例在常見病的黃金標(biāo)準(zhǔn)中出現(xiàn)，覆蓋率達(dá)到了39.2%。表1中給出了實(shí)例提取的覆蓋率。人工確認(rèn)候選實(shí)例的準(zhǔn)確率在前500個(gè)結(jié)果達(dá)到94%，前1 000個(gè)結(jié)果的準(zhǔn)確率也高達(dá)93%，自動(dòng)提取實(shí)例的準(zhǔn)確率在圖1中給出。

表1 實(shí)例提取在黃金標(biāo)準(zhǔn)實(shí)例上的覆蓋率

從結(jié)果中我們可以看出在Web上自動(dòng)提取的概念實(shí)例已經(jīng)覆蓋了相當(dāng)程度的常見病，同時(shí)相比于標(biāo)準(zhǔn)本體，也有315個(gè)實(shí)例被提取出來，但是標(biāo)準(zhǔn)本體在構(gòu)造時(shí)也并不能囊括所有的疾病實(shí)例，在我們提取的結(jié)果中有相當(dāng)一部分實(shí)例經(jīng)過人工確認(rèn)是合法的疾病實(shí)例，而這些實(shí)例并不在標(biāo)準(zhǔn)本體中，表2給出了實(shí)例提取的結(jié)果與黃金標(biāo)準(zhǔn)比較的情況。

表2 實(shí)例提取結(jié)果與黃金標(biāo)準(zhǔn)比較

圖1 實(shí)例自動(dòng)提取的準(zhǔn)確率

從圖1可以發(fā)現(xiàn)，經(jīng)過排序后的候選實(shí)例的前 1 000 個(gè)結(jié)果準(zhǔn)確率都達(dá)到了92%以上，而前 2 000 個(gè)結(jié)果的準(zhǔn)確率也維持在85%，準(zhǔn)確率下降的原因在于經(jīng)過我們的排序，置信度高的實(shí)例候選大多排在了前面，而置信度低的實(shí)例大多集中在后面。文獻(xiàn)[4]利用人工選擇的模式在規(guī)模為60 000 000的Web文檔集合上提取概念“公司”和“國家”的實(shí)例，他們對提取的實(shí)例進(jìn)行抽樣并人工確認(rèn)其準(zhǔn)確性，在“公司”上抽取的實(shí)例有1 116個(gè)，準(zhǔn)確率為90%。對比上述研究的實(shí)驗(yàn)結(jié)果，我們的方法利用較少的資源，在提取出更多實(shí)例的同時(shí)，準(zhǔn)確率依然維持較高的水平。

4.3 屬性提取的實(shí)驗(yàn)結(jié)果

圖2 屬性自動(dòng)提取的準(zhǔn)確率

我們在概念“疾病”上進(jìn)行實(shí)驗(yàn)，前30個(gè)結(jié)果的準(zhǔn)確率都達(dá)到了60%以上，前20達(dá)到70%，前5個(gè)結(jié)果最高，達(dá)到了80%。屬性自動(dòng)提取的準(zhǔn)確率在圖2中給出。文獻(xiàn)[8]利用弱指導(dǎo)方法從Web文檔和搜索查詢?nèi)罩局蝎@取開放領(lǐng)域的概念的實(shí)例和屬性，其提取的排名前20的候選屬性的平均準(zhǔn)確率達(dá)到了67%，相比于文獻(xiàn)[8]中使用了5千萬個(gè)查詢?nèi)罩竞?千萬個(gè)Web文檔，本文的方法使用的資源規(guī)模要小很多，但是卻取得了相當(dāng)?shù)臏?zhǔn)確率。相比于概念實(shí)例，一個(gè)概念的屬性的數(shù)目要遠(yuǎn)遠(yuǎn)小于概念實(shí)例的數(shù)目，因此屬性提取的準(zhǔn)確率較實(shí)例提取要低一些。

5 結(jié)論

本文提出了一種基于Web弱指導(dǎo)的本體概念實(shí)例和屬性的同步提取方法，利用小規(guī)模的種子實(shí)例和屬性集，自動(dòng)從Web上獲取概念實(shí)例和屬性共現(xiàn)的上下文模式，并利用種子實(shí)例和屬性的關(guān)聯(lián)性來評價(jià)這些模式。在根據(jù)上下文模式提取候選概念實(shí)例和屬性后，本文利用概念實(shí)例和屬性的關(guān)聯(lián)性以及候選實(shí)例或候選屬性與種子實(shí)例或?qū)傩栽谏舷挛哪Ｊ椒植忌系南嗨贫葋碓u價(jià)準(zhǔn)確度。以Web作為語料進(jìn)行實(shí)例和屬性提取，充分的利用了Web信息的冗余性，可以有效的克服單一文本中的數(shù)據(jù)稀疏問題。實(shí)驗(yàn)結(jié)果表明，本文方法提取出的概念實(shí)例和屬性準(zhǔn)確度較高，能夠有效的輔助本體的自動(dòng)構(gòu)建。

[1] M. Hearst. Automatic Acquisition of Hyponyms from Large Text Corpora[C]//Proceedings of the 14th International Conference on Computational Linguistics [C]. Nantes, France, 1992:539-545.

[2] M. Poesio, A. Almuhareb. Identifying Concept Attributes Using a Classifier[C]//Proceedings of the ACL-SIGLEX Workshop on Deep Lexical Acquisition. Ann Arbor, 2005:18-27.

[3] O. Etzioni, M. Cafarella, D. Downey，等. Unsupervised Named-Entity Extraction from the Web: An Experimental Study [J]. Artificial Intelligence, June 2005, 165:91-134.

[4] M.J. Cafarella, D. Downey, S. Soderland, O. Etzioni. KnowItNow: Fast, Scalable Information Extraction from the Web[C]//Proceedings of HLT/EMNLP. Vancouver, October 2005:563-570.

[5] N. Yoshinaga, K. Torisawa. Open-Domain Attribute-Value Acquisition from Semi-Structured Texts[C]//Proceedings of the OntoLex 2007. Busan, South-Korea, November 11th, 2007.

[6] S. Ravi, M. Pasca. Using Structured Text for Large-Scale Attribute Extraction[C]//Proceedings of the 17th International Conference on Information and Knowledge Management(CIKM-08). Napa Valley, California, USA, October 2008: 1183-1192.

[7] G. Cui, Q. Lu, W. Li, Y. Chen. Automatic Acquisition of Attributes for Ontology Construction[C]//ICCPOL2009, Springer, 2009:248-259.

[8] M. Pasca, B.V. Durme. Weakly-Supervised Acquisition of Open-Domain Classes and Class Attributes from Web Documents and Query Logs[C]//Proceedings of the ACL-08: HLT. Columbus, Ohio, USA, June 2008: 19-27.

[9] F. Keller, M. Lapata, O. Ourioupina. Using The Web to Overcome Data Sparseness[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Philadelphia, July 2002: 230-237.

[10] P. Turney. Mining the Web for Synonyms: PMI-IR Versus LSA on TOEFL[C]//Proceedings of the 12th ECML-2001). Freiburg, Germany, September, 2001: 491-502.

[11] L. Lee. Measures of Distributional Similarity[C]//Proceedings of the 37th Annual Meeting of the Association of Computational Linguistics (ACL-99). College Park, Maryland, 1999: 25-32.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡