国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分布的詞匯級(jí)語(yǔ)義相關(guān)度計(jì)算綜述

2014-04-29 12:39:54孫叔琦楊沐昀

孫叔琦 楊沐昀

摘 要:在數(shù)字化智能信息處理領(lǐng)域,詞匯級(jí)語(yǔ)言對(duì)象在語(yǔ)義上的相關(guān)關(guān)系可以為多種研究問題提供有效的特征線索。語(yǔ)義相關(guān)度計(jì)算是語(yǔ)義相關(guān)關(guān)系的量化手段,而基于分布相似度的計(jì)算方法是一類最典型的方法。這類方法將語(yǔ)言對(duì)象被轉(zhuǎn)化為語(yǔ)義空間上的一個(gè)分布,通過分布的相似性評(píng)估對(duì)應(yīng)語(yǔ)言對(duì)象的語(yǔ)義相關(guān)度。本文詳細(xì)介紹了基于上下文分布、基于知識(shí)資源元素分布兩種形式的代表性方法,并從基礎(chǔ)資源的規(guī)模、質(zhì)量、可擴(kuò)展性三個(gè)角度,對(duì)這些方法進(jìn)行了總結(jié)。

關(guān)鍵詞: 語(yǔ)義相關(guān)度;詞匯級(jí);知識(shí)資源;分布相似度

中圖法分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-2163(2014)05-

A Survey of Word-level Semantic Relatedness Computation based on Distribution

SUN Shuqi, YANG Muyun

(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)

Abstract:In the domain of digital intelligent information processing, the semantic relationship between word-level objects provides effective evidences for a variety of research questions. Semantic relatedness computation is the quantification manner of semantic relationships, among which the typical one is the distribution based approach. It converts linguistic objects to distributions over a semantic space, and evaluates two objects semantic relatedness by examining the similarity between their corresponding distributions. This paper introduces in detail two representative approaches, such as the method based on context distribution, and knowledge resource element distribution, therefore summarizes them from the viewpoints of their fundamental resources scale, quality and expandability.

Keywords:Semantic Relatedness; Word Level; Knowledge Source; Distribution Similarity

0 引 言

在數(shù)字化智能信息處理領(lǐng)域,詞匯級(jí)語(yǔ)言對(duì)象在語(yǔ)義上的相關(guān)關(guān)系可以為多種研究問題提供有效的特征線索。這里的“詞匯級(jí)語(yǔ)言對(duì)象”包括詞匯,以及詞匯在知識(shí)資源中對(duì)應(yīng)的條目,如WordNet義項(xiàng)、維基百科詞條,等等。自然語(yǔ)言處理研究直接涉及到詞匯級(jí)語(yǔ)言對(duì)象之間的比較,因此也是詞匯級(jí)語(yǔ)義相關(guān)度計(jì)算最自然、最直接的應(yīng)用熱點(diǎn)之一。而與其切實(shí)相關(guān)的自然語(yǔ)言處理任務(wù)則主要包括了詞義消歧、詞法替換、復(fù)述、辭典構(gòu)建、語(yǔ)言模型估計(jì),等等方面,由此對(duì)其開展深度研究即有著重要的學(xué)術(shù)價(jià)值和實(shí)際意義。

語(yǔ)義相關(guān)度計(jì)算是語(yǔ)義相關(guān)關(guān)系的量化手段,而在既有研究工作中,堪稱典型的一類計(jì)算則是基于分布相似度的方法。在基于分布相似度的語(yǔ)義相關(guān)度計(jì)算中,語(yǔ)義相關(guān)關(guān)系即指語(yǔ)言對(duì)象在一些特定方面上的相似性。此時(shí),語(yǔ)言對(duì)象將轉(zhuǎn)化為一個(gè)多維度的定量指標(biāo)表示,并可視作語(yǔ)義空間上的一個(gè)分布。而且,語(yǔ)言對(duì)象對(duì)應(yīng)的分布越相近,語(yǔ)義相關(guān)度就會(huì)越高。

語(yǔ)義空間及空間上分布的形式就是此類相關(guān)度計(jì)算算法的主要區(qū)分標(biāo)志之一?,F(xiàn)有研究工作中,典型的分布形式包含兩種:(1)上下文分布;(2)知識(shí)資源元素分布。其中,基于上下文分布的方法主要針對(duì)于詞匯,使用詞匯的上下文統(tǒng)計(jì)信息對(duì)其加以表示,所處上下文較相近的詞匯在語(yǔ)義上就會(huì)呈現(xiàn)較大相關(guān)。而基于知識(shí)資源元素分布的方法則既可以計(jì)算知識(shí)資源條目之間的語(yǔ)義相關(guān)度,也可以計(jì)算與這些條目對(duì)應(yīng)的詞匯之間的語(yǔ)義相關(guān)度。此類方法使用知識(shí)資源條目本身的特定元素(如關(guān)鍵詞、關(guān)鍵短語(yǔ)、超鏈接,甚至條目本身)表示語(yǔ)言對(duì)象,兩個(gè)語(yǔ)言對(duì)象在知識(shí)層面上重疊越多,語(yǔ)義上就越相關(guān)。

本文分別在第1、2節(jié)綜述了基于上下文分布與基于知識(shí)資源元素分布的典型計(jì)算方法。最后,在第3節(jié),本文從基礎(chǔ)資源的規(guī)模、質(zhì)量、可擴(kuò)展性三個(gè)角度,對(duì)這些方法進(jìn)行了分析和討論。

1基于上下文分布的方法

上下文分布一般用于計(jì)算詞匯之間的語(yǔ)義相關(guān)度。這一類方法的理論基礎(chǔ)是Firth在文獻(xiàn)[1]提出的上下文假設(shè):詞匯的語(yǔ)義可以由其伴生上下文環(huán)境而實(shí)現(xiàn)等價(jià)代表。詞匯的上下文環(huán)境體現(xiàn)的是人們?cè)趯?shí)際語(yǔ)言交流中使用該詞匯的具體途徑,并且兩個(gè)詞匯的使用方式越接近,在語(yǔ)義上就越相關(guān)。通過在大規(guī)模語(yǔ)料中統(tǒng)計(jì)詞匯所處的上下文環(huán)境,可以得到每個(gè)詞匯的上下文分布,而兩個(gè)詞匯的語(yǔ)義相關(guān)度則可通過比較二者對(duì)應(yīng)的上下文分布并綜合后得出最終結(jié)果。在既有研究工作中,常見的上下文環(huán)境包括文本窗口共現(xiàn)型上下文、句法依存關(guān)系型上下文兩種。下面將依次給出其分析及論述。

1.1 基于文本窗口共現(xiàn)型上下文的方法

基于1987-1989年的華爾街日?qǐng)?bào)語(yǔ)料(約4050萬詞),Dagan等人使用了二元文法(相當(dāng)于長(zhǎng)度為2的單側(cè)文本窗口)概率分布列P(W|wi)作為詞匯wi的上下文,并使用K-L距離計(jì)算兩個(gè)詞匯的分布相似度[2]。與wi分布相似的詞匯用于估計(jì)語(yǔ)料中未觀察到的bigram概率Punseen(wj|wi)。Schütze和Pederson則使用長(zhǎng)度為40的文本窗口,在TipsterB類語(yǔ)料[3](約45萬獨(dú)立詞匯)上統(tǒng)計(jì)了各詞匯的文本窗口共現(xiàn)型上下文,并通過兩次聚類和一次奇異值分解(SVD),將每個(gè)詞匯的上下文分布轉(zhuǎn)化為一個(gè)20維的實(shí)數(shù)向量,進(jìn)而將其應(yīng)用于文檔檢索[4]。Rapp還使用長(zhǎng)度為3和5的文本窗口,在不列顛國(guó)家語(yǔ)料(BNC,約1億詞)[5]上統(tǒng)計(jì)了每個(gè)詞匯wi的上下文分布{(w1, Ai1),...,(wN, AiN)},其中N為語(yǔ)料中的獨(dú)立詞匯個(gè)數(shù),而共現(xiàn)強(qiáng)度Aij即是在原始共現(xiàn)頻率的基礎(chǔ)上加入了一個(gè)基于熵的變換,具體計(jì)算可如式(1)所示[6]。

(1)

其中,fij表示詞匯wi、wj的共現(xiàn)頻率,cj表示wj在語(yǔ)料中的頻率。

共現(xiàn)詞匯分布在經(jīng)過奇異值分解并降至300維后,Rapp再次使用了對(duì)應(yīng)分布之間的余弦相似度和曼哈頓距離兩個(gè)度量而計(jì)算了兩個(gè)詞匯的語(yǔ)義相關(guān)度。Agirre等人又在更大的語(yǔ)料(10億網(wǎng)頁(yè),約1.6×1012詞)上統(tǒng)計(jì)了詞匯的上下文分布(窗口長(zhǎng)度從2到8不等)、使用χ2檢驗(yàn)以確定兩個(gè)詞匯的共現(xiàn)強(qiáng)度,而且同樣以兩個(gè)詞匯上下文分布的余弦相似度作為二者的語(yǔ)義相關(guān)度[7]。此外,除了文本窗口中的詞匯,文本窗口本身也可作為詞匯的上下文。Agirre即使用了以詞匯w為中心、左右長(zhǎng)度各N個(gè)詞(1≤N≤7)的文本窗口作為w的上下文,由此取得了比使用窗口中詞匯作為上下文更好的相關(guān)度計(jì)算效果[7]。Reisinger和Monney也使用了類似的方法,獨(dú)特之處則在于研究對(duì)相似的文本窗口進(jìn)行了聚類[8]。

1.2基于句法依存關(guān)系型上下文的方法

句法依存關(guān)系型上下文考察的是一個(gè)詞匯在依存句法結(jié)構(gòu)中的支配詞或從屬詞?;诰浞ǚ治鼋Y(jié)果,一個(gè)詞匯的句法依存關(guān)系型上下文主要由包含該詞匯的所有依存關(guān)系三元組構(gòu)成。例如句子“習(xí)近平就加快發(fā)展職業(yè)教育作出重要指示”中,“指示”的上下文即為dobj(作出,指示)和amod-1(重要,指示) ,具體地dobj表示直接賓語(yǔ),amod-1表示被形容詞修飾。

一些研究者集中針對(duì)名詞與動(dòng)詞之間的依存關(guān)系展開了有關(guān)工作。Hindle就以1987年美聯(lián)社語(yǔ)料(約600萬詞)為基礎(chǔ),并根據(jù)名詞與動(dòng)詞之間的主謂關(guān)系和謂賓關(guān)系(即obj(Verb,Noun)和subj(Verb,Noun)形式的上下文)計(jì)算了名詞之間的語(yǔ)義相關(guān)度[9],具體則如式(10)所示。

(2)

名詞n1、n2的語(yǔ)義相關(guān)度由關(guān)于動(dòng)詞v的賓語(yǔ)相關(guān)度robj和主語(yǔ)相關(guān)度rsubj構(gòu)成并聯(lián)合確定,二者的定義形式類似。現(xiàn)以賓語(yǔ)相關(guān)度robj為例,定義可見于式(3)。

(3)

其中,Iobj(v,n)為名詞n與動(dòng)詞v在謂賓關(guān)系下的點(diǎn)互信息,詳細(xì)計(jì)算如式(4)所示,式中星號(hào)表示所有動(dòng)詞(或名詞)。

(4)

接下來,Dagan等人和Lee則從其早期的工作[2]出發(fā),將基于bigram的上下文統(tǒng)計(jì)及分布相似度計(jì)算方法應(yīng)用到動(dòng)詞、名詞的謂賓結(jié)構(gòu)上[10-11]:與名詞n在謂語(yǔ)上相似的其他名詞用于估計(jì)在語(yǔ)料中未觀察到的謂賓關(guān)系概率Punseen(v|n)。而基于這種概率預(yù)測(cè)方式,Lee又在偽詞義消歧問題(通過名詞選擇搭配動(dòng)詞)上比較了多種分布相似度指標(biāo)的平均錯(cuò)誤率,并提出了一個(gè)新的分布相似度指標(biāo):α-skew差異,這樣就達(dá)到了顯著優(yōu)于其他指標(biāo)的出色效果[11]。

另一些研究者則并不限定依存關(guān)系的類型。Lin在文獻(xiàn)[9]的基礎(chǔ)上擴(kuò)展了依存關(guān)系的覆蓋范圍(考察句子中全部的依存關(guān)系r),進(jìn)而提出了一種改進(jìn)的分布相似度計(jì)算指標(biāo)[12],計(jì)算過程如式(5)所示,其中Ir(w′,w)表示w′、w在依存關(guān)系r下的點(diǎn)互信息,Tr(w)={w′:Ir(w,w′)>0}。

(5)

由于引入了全部依存關(guān)系,式(5)支持任意詞匯之間的語(yǔ)義相關(guān)度計(jì)算;同時(shí),相對(duì)于式(2),式(5)通過引入分母懲罰了那些在大量關(guān)系中、與大量詞匯的點(diǎn)互信息都較高的詞匯。Lin 在共計(jì)約 6 400 萬詞的華爾街日?qǐng)?bào)、圣何塞信使報(bào)和美聯(lián)社新聞?wù)Z料上統(tǒng)計(jì)、計(jì)算了詞匯語(yǔ)義相關(guān)度,并將其與Hindle 的算法[9]進(jìn)行了對(duì)比研究。而在Lin之前,Grefenstette也引入了所有依存關(guān)系以統(tǒng)計(jì)詞匯的上下文分布[13]。但不同之處在于,Grefenstette是以集合的形式表示上下文分布(無權(quán)重),再使用上下文集合之間的Tanimoto距離[14]來計(jì)算語(yǔ)義相關(guān)度的。

此外,還有一些研究者嘗試使用更長(zhǎng)的依存路徑,即多個(gè)連續(xù)依存關(guān)系的疊加表示詞匯的上下文。雖然長(zhǎng)路徑的表達(dá)能力強(qiáng)于單一的依存關(guān)系,但顯然面臨著數(shù)據(jù)稀疏的問題——越長(zhǎng)的路徑,在語(yǔ)料中出現(xiàn)的次數(shù)就越少。為了解決數(shù)據(jù)稀疏問題,研究者們對(duì)依存路徑進(jìn)行了各種類型的簡(jiǎn)化。基于不列顛國(guó)家語(yǔ)料,Padó和Lapata在對(duì)路徑經(jīng)過的詞性與依存關(guān)系的類型加以限制的情況下,使用了終點(diǎn)相同,但長(zhǎng)度不限的依存路徑構(gòu)成詞匯上下文[15-16]。所有終點(diǎn)相同的依存路徑將視為等價(jià),因此一個(gè)詞匯的上下文分布最終轉(zhuǎn)化為關(guān)于路徑終點(diǎn)詞匯一個(gè)向量。Padó和Lapata又使用了1 000個(gè)高頻詞匯作為可能的路徑終點(diǎn),并使用了余弦相似度和α-skew差異比較兩個(gè)詞匯對(duì)應(yīng)的1 000維向量,由此而獲取語(yǔ)義相關(guān)度。Agirre等人則選擇忽略依存路徑上的具體依存關(guān)系,只使用支配詞、從屬詞的序列表示詞匯的上下文[7]。一個(gè)詞匯的上下文由其在依存路徑上的最多三個(gè)支配詞和最多一個(gè)從屬詞而共同構(gòu)成。Thater等人更在Gigaword語(yǔ)料上集中考察了長(zhǎng)度為2的依存路徑,即以詞匯w的二階依存關(guān)系r′(w′′,w′)?r(w′,w)作為其上下文[17-18]。為了緩解數(shù)據(jù)稀疏問題,Thater等人選擇忽略第二層依存關(guān)系中的關(guān)系詞w′,而在分布權(quán)重的計(jì)算中也對(duì)應(yīng)地將其邊緣化,量化計(jì)算可如式(6)所示。

(6)

其中,R、W分別為依存關(guān)系、詞匯的全集,Ir(w′,w)表示w′、w在依存關(guān)系r下的點(diǎn)互信息,er,r′,w′′為w上下文分布的基向量,即使用依存路徑上的兩個(gè)依存關(guān)系和終點(diǎn)詞匯作為w的上下文。

2基于知識(shí)資源元素分布的方法

在基于知識(shí)資源元素分布的方法中,語(yǔ)言對(duì)象的表達(dá)形式不再是其使用方式(上下文分布),而是其對(duì)應(yīng)于知識(shí)資源中的條目(如WordNet義項(xiàng))或條目中的一些關(guān)鍵元素(如在線百科文章中的超鏈接)的分布。兩個(gè)語(yǔ)言對(duì)象共享的知識(shí)資源元素越多,也就具有更大相關(guān)性。

知識(shí)資源條目的內(nèi)容作為一種最直接的可利用元素,一般用來計(jì)算條目本身之間的語(yǔ)義相關(guān)度。Lesk通過比較WordNet義項(xiàng)釋義(gloss)中的詞匯分布獲得兩個(gè)義項(xiàng)之間的語(yǔ)義相關(guān)度——重疊的詞匯越多,二者就越相關(guān)[19]。Banerjee和Pedersen從兩個(gè)方面改進(jìn)了Lesk的方法[20]:

(1)對(duì)于長(zhǎng)度為n的連續(xù)重疊部分,設(shè)定其對(duì)相關(guān)度的貢獻(xiàn)為n2而非Lesk方法中的n,因?yàn)閚較為罕見;

(2)不但考慮目標(biāo)義項(xiàng)s1、s2本身的重疊,也考慮其相關(guān)義項(xiàng)r(s1)、r(s2)之間的重疊,其計(jì)算結(jié)果如式(7)所示。其中,RELPAIRS表示一組預(yù)先選定的 WordNet關(guān)系對(duì)(設(shè)義項(xiàng)s與其本身之間有 gloss 關(guān)系:gloss(s) = s),score表示兩個(gè)義項(xiàng)的重疊分?jǐn)?shù)。

(15)

Ho?art等人提出了KORE(keyphraseoverlaprelatedness)算法,根據(jù)詞條中關(guān)鍵短語(yǔ)分布計(jì)算了維基百科詞條(原始文獻(xiàn)中稱之為實(shí)體)之間的語(yǔ)義相關(guān)度[21]。對(duì)詞條e,關(guān)鍵短語(yǔ)集合Pe來自于其中的連接錨文本以及參考文獻(xiàn)的標(biāo)題,關(guān)鍵短語(yǔ)p∈Pe本身以及短語(yǔ)中的每個(gè)詞匯w∈p均有關(guān)于e的權(quán)重?e(p)和γe(w),并將其分別定義為p、e的互信息以及w關(guān)于e的tf-idf。兩個(gè)詞條e、f之間語(yǔ)義相關(guān)度的計(jì)算方法則如式(8)所示。

(8)

其中,PO(p,q)表示關(guān)鍵短語(yǔ)p、q的重疊程度,定義為二者對(duì)應(yīng)詞匯集合之間的帶權(quán)Jaccard系數(shù),其計(jì)算實(shí)現(xiàn)可如式(9)所示。

(9)

在超鏈接豐富的知識(shí)資源,如在線百科全書中,超鏈接的分布也是一種語(yǔ)義表示形式。Turdakov和Velikhov使用與其他詞條之間的超鏈接(包括出鏈和入鏈)分布表示維基百科詞條,不同種類的超鏈接權(quán)重也將有所不同,如“seealso”連接的權(quán)重較高,而與日期、時(shí)間詞條之間鏈接的權(quán)重最低。最后,詞條之間的語(yǔ)義相關(guān)度使用鏈接分布之間的Dice系數(shù)計(jì)算[22]。Milne和Witten在文獻(xiàn)[23]中即主要考慮維基百科詞條的入鏈,并提出了兩個(gè)詞條語(yǔ)義相關(guān)度計(jì)算方法。第一個(gè)方法使用入鏈的分布表示詞條,而與文獻(xiàn)[22]不同的是,入鏈的權(quán)重是自動(dòng)計(jì)算的,并定義為idf,兩個(gè)詞條的語(yǔ)義相關(guān)度隨之將定義為對(duì)應(yīng)入鏈分布的余弦相似度。第二個(gè)方法使用所有入鏈e的集合(不考慮權(quán)重)Ie表示e,兩個(gè)詞條e、f之間的語(yǔ)義相關(guān)度則定義為對(duì)應(yīng)詞條之間的谷歌距離,如式(10)所示,其中N表示維基百科中詞條總數(shù)。

(10)

Milne和Witten的實(shí)驗(yàn)顯示第二個(gè)方法在預(yù)測(cè)詞匯語(yǔ)義相關(guān)度時(shí)效果明顯好于第一個(gè)方法,而兩個(gè)方法的結(jié)合還可更進(jìn)一步地提高最終效果。

知識(shí)資源條目本身也可以作為一個(gè)整體參與語(yǔ)義表示。Hughes和Ramage[24],以及Agirre等人[7]將WordNet中的義項(xiàng)與詞匯轉(zhuǎn)化為圖狀互聯(lián)結(jié)構(gòu),并通過以目標(biāo)詞匯為起點(diǎn)的隨機(jī)漫步算法獲取一個(gè)關(guān)于義項(xiàng)的概率分布作為該詞匯的語(yǔ)義表示。特別地,在比較兩個(gè)詞匯的義項(xiàng)分布時(shí),Hughes和Ramage提出了Zero-KL指標(biāo)。該指標(biāo)是α-skew差異的變體,其效果在實(shí)驗(yàn)中好于后者,以及余弦相似度等指標(biāo)。在維基百科上,Gabrilovich和Markovitch有、又相應(yīng)提出了顯語(yǔ)義分析(explicitsemanticanalysis)方法,以支持任意粒度的文本語(yǔ)義相關(guān)度計(jì)算[25]。Gabrilovich和Markovitch使用維基百科詞條全集{c1,c2,...,cN}的分布?dj?表示文本T,而且將兩段文本的語(yǔ)義相關(guān)度定義為對(duì)應(yīng)分布的余弦相似度。設(shè)向量?vi?中,vi為wi在T={wi}上的tf-idf,而?kj?為wi的倒排向量,表示wi在維基百科詞條cj∈{c1,c2,...,cN}上的tf-idf,則詞條cj在T對(duì)應(yīng)的分布中的權(quán)重為 。除以上研究外,Yazdani和Popescu-Belis還結(jié)合了隨機(jī)漫步算法和顯語(yǔ)義分析的理念,再通過隨機(jī)漫步獲取維基百科詞條之間的相關(guān)度,又借助了遷移學(xué)習(xí)的方式將文本片段表示成詞條的分布,并計(jì)算得到語(yǔ)義相關(guān)度[26]。

3結(jié)束語(yǔ)

從資源上看,基于分布相似度的詞匯級(jí)語(yǔ)義相關(guān)度計(jì)算方法依賴的資源主要分為兩大類:結(jié)構(gòu)化的知識(shí)資源,以及非結(jié)構(gòu)化的文本資源。其中,基于結(jié)構(gòu)化知識(shí)資源的方法以專家資源、(高級(jí))用戶生成內(nèi)容為依據(jù),知識(shí)資源在構(gòu)建時(shí)遵循的設(shè)計(jì)規(guī)則將直接作為此類方法的指導(dǎo)信息?;诜墙Y(jié)構(gòu)化文本資源的方法則以語(yǔ)言對(duì)象在實(shí)際使用時(shí)的相互聯(lián)系作為依據(jù),指導(dǎo)信息間接體現(xiàn)在對(duì)詞法、句法等語(yǔ)言現(xiàn)象中。

從規(guī)模上講,限于人力,知識(shí)資源對(duì)語(yǔ)言對(duì)象的覆蓋率不會(huì)太高,尤其是對(duì)傳統(tǒng)的詞法網(wǎng)絡(luò),如WordNet而言。借助用戶群體力量維護(hù)與擴(kuò)充的在線百科全書以及對(duì)應(yīng)的知識(shí)庫(kù)資源雖在一定程度上緩解了人力上的局限,但依舊沒有改變其對(duì)高質(zhì)量領(lǐng)域知識(shí)的內(nèi)在需求。相比之下,非結(jié)構(gòu)文本資源是人類語(yǔ)言在信息系統(tǒng)中的自然產(chǎn)物,不需要有目的性地加以構(gòu)建與整理,規(guī)模上也遠(yuǎn)大于結(jié)構(gòu)化的知識(shí)資源。

從質(zhì)量上講,知識(shí)資源無疑要好于多數(shù)文本資源,但文本資源的規(guī)模彌補(bǔ)了其質(zhì)量的不足。在語(yǔ)義相關(guān)度計(jì)算問題上,基于知識(shí)資源的方法在效果上也并無絕對(duì)優(yōu)勢(shì)[7],再加上對(duì)覆蓋率的考慮,綜合而論,基于文本資源的方法實(shí)際上的可用性將更強(qiáng)。

從可擴(kuò)展性上講,知識(shí)資源在不同領(lǐng)域上的豐富度與質(zhì)量是不同的,但很大程度上取決于構(gòu)建者的主觀選擇。領(lǐng)域上的差異影響了算法的通用性,而在真正需要特定領(lǐng)域內(nèi)的語(yǔ)義相關(guān)度的時(shí)候,強(qiáng)領(lǐng)域相關(guān)的知識(shí)資源又不易構(gòu)建。相形之下,文本資源在不同領(lǐng)域上的豐富度雖然也不盡相同,但由于普通文本是語(yǔ)言、知識(shí)在數(shù)字化系統(tǒng)中最基本的表達(dá)形式,當(dāng)面臨新領(lǐng)域(包括新語(yǔ)言)上的新問題時(shí),文本資源就將是最先可用,并應(yīng)最先嘗試使用的有效資源。

總結(jié)起來,由于當(dāng)前大規(guī)模文本語(yǔ)料越來越容易獲取,基于文本資源的語(yǔ)義相關(guān)度計(jì)算方法擁有一定的優(yōu)勢(shì)。但是另一方面,知識(shí)資源中的一些特殊元素(如超鏈接、引用關(guān)系等)卻為語(yǔ)義相關(guān)度計(jì)算提供了獨(dú)具特色的特征線索。已有一些研究工作正嘗試著將這兩類方法結(jié)合使用[7],這在未來即成為一個(gè)值得研究的重要方向。

參考文獻(xiàn):

[1] Firth J R. A Synopsis of Linguistic Theory 1930-55[M]. Studies in Linguistic Analysis (special volume of the Philological Society). Oxford: The PhilologicalSociety, 1957,1952-59:1–32.

[2] DAGAN I, PEREIRA F, LEE L. Similarity-based estimation of Word cooccurrence probabilities[C]//Proceedings of the 32nd Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics,1994:272–278.

[3] HARMAN D. Overview of the First TREC Conference[C]//Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA: ACM, 1993:36–47.

[4] SCHUTZE H, PEDERSEN J O. A cooccurrence-based thesaurus and two applications to information retrieval[J]. Inf. Process. Manage., 1997, 33(3):307–318.

[5] The British National Corpus, version 3 (BNC XML Edition)[EB/OL]. [2014-05-27]. http://www.natcorp.ox.ac.uk/.

[6] RAPP R. Word sense discovery based on sense descriptor dissimilarity[C]//Proceedings of the Ninth Machine Translation Summit. East Stroudsburg, PA, USA: AMTA,2003:315–322.

[7] AGIRRE E, ALFONSECA E, HALL K, et al. A study on similarity and relatedness using distributional and Wordnet-based approaches[C]//Proceedings of Human LanguageTechnologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2009:19–27.

[8] REISINGER J, MOONEY R J. Multi-prototype vector-space models of Word meaning[C]//Human Language Technologies: The 2010 Annual Conference of the NorthAmerican Chapter of the Association for Computational Linguistics. Stroudsburg,PA, USA: Association for Computational Linguistics, 2010:109–117.

[9] HINDLE D. Noun classification from predicate-argument structures[C]//Proceedings of the 28th Annual Meeting on Association for Computational Linguistics. Stroudsburg,PA, USA: Association for Computational Linguistics, 1990:268–275.

[10] DAGAN I, LEE L, PEREIRA F C N. Similarity-based models of Word cooccurrence probabilities[J]. Mach. Learn., 1999, 34(1-3):43–69.

[11] LEE L. Measures of distributional similarity[C]//Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics,1999:25–32.

[12] LIN D. Automatic retrieval and clustering of similar Words[C]//Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17thInternational Conference on Computational Linguistics - Volume 2. Stroudsburg,PA, USA: Association for Computational Linguistics, 1998:768–774.

[13] GREFENSTETTE G. SEXTANT: Exploring unexplored contexts for semantic extraction from syntactic analysis[C]//Proceedings of the 30th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association forComputational Linguistics, 1992:324–326.

[14] ROGERS D J, TANIMOTO T T. A computer program for classifying plants[J]. Science, 1960, 132(3434):1115–1118.

[15] PADó S, LAPATA M. Constructing semantic space models from parsed corpora[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics - Volume 1. Stroudsburg, PA, USA: Association for Computational Linguistics,2003:128–135.

[16] PADó S, LAPATA M. Dependency-based construction of semantic space models[J].Comput. Linguist., 2007, 33(2):161–199.

[17] THATER S, DINU G, PINKAL M. Ranking paraphrases in context[C]//Proceedings of the 2009 Workshop on Applied Textual Inference. Stroudsburg, PA, USA: Associationfor Computational Linguistics, 2009:44–47.

[18] THATER S, F¨uRSTENAU H, PINKAL M. Contextualizing Semantic Representations UsingSyntactically Enriched Vector Models[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010:948–957.

[19] LESK M. Automatic sense disambiguation using machine readable dictionaries:how to tell a pine cone from an ice cream cone[C]//Proceedings of the 5th Annual International Conference on Systems Documentation. New York, NY, USA: ACM,1986:24–26.

[20] BANERJEE S, PEDERSEN T. Extended gloss overlaps as a measure of semantic relatedness[C]//Proceedings of the 18th International Joint Conference on Artificial Intelligence.San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2003:805–810.

[21] HOFFART J, SEUFERT S, NGUYEN D B, et al. KORE: Keyphrase overlap relatedness for entity disambiguation[C]//Proceedings of the 21st ACM International Conferenceon Information and Knowledge Management. New York, NY, USA: ACM,2012:545–554.

[22] TURDAKOV D, VELIKHOV P. Semantic relatedness metric for Wikipedia concepts based on link analysis and its application to Word sense disambiguation[C]//KUZNETSOV S D, PLESHACHKOV P, NOVIKOV B, et al. Proceedings of the Spring Young Researchers Colloquium On Database and Information Systems, SYRCoDIS08.Saint-Petersburg, Russia: CEUR-WS.org, 2008.

[23] MILNE D, WITTEN I H. An effective, low-cost measure of semantic relatedness obtained from Wikipedia links[C]// //Proceeding of AAAI Workshop on Wikipedia and Artificial Intelligence: an Evolving Synergy. Palo Alto, California, USA: AAAI Press, 2008:25–30.

[24] HUGHES T, RAMAGE D. Lexical semantic relatedness with random graph walks[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in NaturalLanguage Processing and Computational Natural Language Learning (EMNLPCoNLL).Stroudsburg, PA, USA: Association for Computational Linguistics,2007:581–589.

[25] GABRILOVICH E, MARKOVITCH S. Computing semantic relatedness using Wikipedia based explicit semantic analysis[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligence. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2007:1606–1611.

[26] YAZDANI M, POPESCU-BELIS A. Computing text semantic relatedness using the contents and links of a hypertext encyclopedia[J]. Artif. Intell., 2013, 194:176–202.

[27] BARONI M, LENCI A. Distributional memory: a general framework for corpus based semantics[J]. Comput. Linguist., 2010, 36(4):673–721.

[28] HALAWI G, DROR G, GABRILOVICH E, et al. Large-scale learning of word relatedness with constraints[C]//Proceedings of the 18th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining. New York, NY, USA: ACM,2012:1406–1414.

[29] JAIN A, PENNACCHIOTTI M. Open entity extraction from Web search query logs[C]//Proceedings of the 23rd International Conference on Computational Linguistics.Stroudsburg, PA, USA: Association for Computational Linguistics, 2010:510–518.

连南| 兖州市| 禄丰县| 贞丰县| 巴南区| 隆化县| 东平县| 北辰区| 东源县| 彩票| 广丰县| 葵青区| 东台市| 彭泽县| 永平县| 宣武区| 宁海县| 鄂尔多斯市| 石首市| 洞口县| 禹城市| 桓台县| 海伦市| 台湾省| 辰溪县| 赤峰市| 湄潭县| 东至县| 克拉玛依市| 新和县| 孝感市| 苏尼特左旗| 米易县| 巴林右旗| 文昌市| 温泉县| 绍兴市| 舒城县| 辽阳市| 哈尔滨市| 高安市|