国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于無監(jiān)督學習的部分-整體關系獲取

2014-07-14 02:45:28賈真何大可尹紅風李天瑞
關鍵詞:語料整體聚類

賈真,何大可,尹紅風,李天瑞

(1.西南交通大學信息科學與技術(shù)學院,四川 成都 610031;2.DOCOMO Innovations公司,加利福尼亞州帕羅奧圖 94304)

概念和概念間關系是領域本體的重要組成.概念間關系包括分類關系、屬性關系、部分-整體關系以及其他關系.目前對于分類關系和屬性關系的自動獲取已有廣泛的研究,而部分-整體關系獲取的研究工作相對較少.部分-整體關系表示的是整體概念(whole)和部分概念(part)之間的組成關系.部分-整體關系在語言學、認知科學和概念建模等不同領域都有著不同的定義[1-4].基于部分-整體關系的語義復雜性,Iris等認為部分-整體關系是多種關系的集合,而不是單一的一種關系[5].Winston等和Odell從語言學和人類的認知角度,將部分-整體關系分為6個不同的子類型[1,3].Keet等從概念建模和本體構(gòu)建角度提出一個形式化分類體系[4],該體系將部分-整體關系分為兩大類:滿足傳遞性的Mereologic關系和不滿足傳遞性的Meronymic關系.Mereologic關系包括:(1)步驟與過程間的包含關系(involved-in),如咀嚼與吃飯;(2)實體與2維區(qū)域的位于關系(located-in),如城市與地區(qū);(3)實體與3維區(qū)域的容納關系(contained-in),如工具與工具箱;(4)整體與功能部件之間的部分關系(structural-part-of),如引擎與汽車.Meronymic關系包括:(1)對象與集合間的成員關系(member-of),如球員與球隊;(2)對象與物質(zhì)間的構(gòu)成關系(constituted-of),如泥土與雕塑;(3)物質(zhì)之間的子量關系(sub-quantity-of),如米與公里;(4)實體與過程間的參與關系(participates-in),如酶與反應.該分類體系對部分-整體關系的語義類型進行了更加嚴格的區(qū)分.

對于部分-整體關系的抽取,目前主要采用有監(jiān)督和半監(jiān)督兩種方法.有監(jiān)督方法需要大量人工標注的含有部分-整體關系的語料作為訓練集.Girju等借助WordNet得到具有部分-整體關系的概念對,再從L.A.TIMES和SEMCOR語料庫中手工獲取表示部分-整體關系的lexico-syntactic模式,根據(jù)模式產(chǎn)生大量的訓練集實例,利用ISS方法學習部分-整體關系的分類規(guī)則,再從語料庫中獲取部分-整體關系[6];Willem等以503個部分-整體關系概念對為訓練集,利用搜索引擎檢索包括概念對的句子,從句子中學習模式,使用模式和人工編纂的詞典獲取給定部分(part)的整體概念(whole)[7].

半監(jiān)督方法以少量人工標注的部分-整體關系概念對為種子,采用迭代的方式從語料庫中獲取關系模式.Pantel等以少量概念對為種子,從語料庫中獲取可信度高的模式,利用模式獲取新的部分-整體關系實例,這些實例又成為新的種子,用來獲取新的模式[8].Ittoo等以維基百科條目文章為語料,首先以“contain”,“consist of”等模式從維基百科中抽取概念對,選擇出現(xiàn)次數(shù)最多的5個概念對作為種子,采用迭代的方式從維基百科中獲取表示部分-整體關系的可信度高的模式,再利用模式從特定領域文本中抽取部分-整體關系概念對[9].

在中文部分-整體關系抽取方面,文獻[10]給出一種利用搜索引擎獲取部分-整體關系語料的方法,該方法基于意圖構(gòu)造查詢,通過在查詢中加入與部分-整體關系相關的語境詞,從Web中獲取部分-整體關系語料.曹馨宇等在文獻[10]工作基礎上利用搜索引擎獲取與給定部分-整體關系有關的檢索結(jié)果作為語料,基于部分-整體關系在自然語言中的表述形式和漢語構(gòu)詞特點獲取可信度高的部分-整體關系[11].

現(xiàn)有部分-整體關系自動獲取方法主要基于有監(jiān)督學習和半監(jiān)督學習,這兩種方法都需要大量的人工干預,依賴人工標注的訓練語料、人工定義的部分-整體關系模式或關系種子.與以上方法不同,本文采用一種無監(jiān)督方法,該方法以領域文本為數(shù)據(jù)源,自動抽取概念對和概念對上下文模式、建立分布式語義模型,采用協(xié)同聚類算法將具有相同語義關系的概念對聚類,最后從聚類后的簇中提取部分-整體關系實例.

1 部分-整體關系獲取方法

1.1 方法概述

方法分為4個步驟:

(1)文本預處理:對語料進行分詞、詞性標注、命名實體標注和分句等自然語言預處理;

(2)建立分布式語義模型:從文本中抽取概念對和概念對模式,建立概念對和概念對模式的分布式語義模型;

(3)協(xié)同聚類:利用協(xié)同聚類算法,將具有相同語義關系的概念對聚類成簇;

(4)部分-整體關系提取:從聚類后的簇中提取部分-整體關系概念對.

1.2 文本預處理

使用西南交通大學耶寶分詞[12]對語料進行分詞、詞性標注、實體標注預處理.利用漢語分句標點符號(如句號、問號、感嘆號等)對語料進行分句.自然語言預處理的準確率對概念和概念間關系獲取準確率有著較大的影響.西南交通大學耶寶分詞切分準確率達到99.8%,能夠識別的實體類型達到20多種.

例如下面的句子:

西南交大為國家培養(yǎng)了近20萬名畢業(yè)生,為民族振興和國家富強,特別是軌道交通事業(yè)的發(fā)展做出了重大貢獻.

經(jīng)過預處理后為:

西南交大/nt為/p國家/n培養(yǎng)/v了/ule近/a二十萬名/mq畢業(yè)生/n,/w為/p民族/n振興/v和/cc國家/n富強/a,/w特別/d是/vshi軌道交通/nz事業(yè)/n的/ude1發(fā)展/vn做出/v了/ule重大/a貢獻/n./w

“/”后的符號是詞性標注或?qū)嶓w標注.例如,n是名詞性標注,v是動詞性標注,mq是數(shù)量詞實體標注,nt是機構(gòu)名實體標注.

1.3 建立分布式語義模型

分布式語義模型[13-15](distributional semantic model,DSM)源于分布式假設[16],即詞語間的語義相似性依賴于詞語所在上下文的相似性.根據(jù)分布式假設,若兩個概念對在上下文模式的分布上具有相似性,則這兩個概念對具有語義相似性.

1.3.1 基本概念

定義1(概念對) 概念對是由兩個概念組成的二元組:c=(X0,X1).

定義2(概念對模式) 概念對模式是含有概念對的文本模式:p=〈 l,X0,m,X1,r〉,其中,l、m 和r表示概念X0和X1的上下文.

定義3(句子序列) 經(jīng)過分詞、詞性標注與命名實體標注的句子用句子序列表示,句子序列是由一系列二元組組成的有序序列:

s=〈 (w1,t1),…,(wi,ti),…,(wn,tn)〉,

其中:wi表示詞語;ti表示wi的詞性標注或?qū)嶓w標注,?i∈[1,n].

定義4(k元模式)k元模式是由k個詞語、詞性標注或?qū)嶓w標注組成的有序序列:

其中:xi表示詞語、詞性標注或?qū)嶓w標注,?i∈[1,k].

例如,〈學校,學生〉是2元模式,〈學院,現(xiàn)有,教職工,mq〉 是4元模式.

定義5(分布式語義模型) 分布式語義模型是一個共現(xiàn)矩陣,矩陣中的行是概念對,列是概念對模式,矩陣中的元素是概念對模式出現(xiàn)頻次.

1.3.2 k 元模式提取算法

本文提出一種k元模式提取算法,利用該算法從語料中獲取概念對和概念對模式.k元模式提取算法的本質(zhì)是子序列提取,該算法從預處理后的句子序列(見定義3)中提取k元子序列,子序列中的項可以為詞語、詞性標注或?qū)嶓w標注.

從句子序列中提取k元模式時,由于詞語間距離越遠,關聯(lián)性越小,通過設定窗口W限制k元模式的提取范圍.k元模式提取算法步驟如下.

(1)初始時,窗口中的序號為1,2,…,W,從s中的第1項開始,提取序號為1的詞語(或詞性、實體標注)為1元模式;然后提取序號為2至W的詞語(或詞性、實體標注)與1元模式組成k元模式,k≤W.

(2)窗口向后滑動一項,窗口中的序號為2,3,…,W+1,提取序號為2的詞語(或詞性、實體標注)為1元模式,然后提取序號為3至W+1的詞語(或詞性、實體標注)與1元模式組成k元模式,k≤W.

例如,s=〈 (w1,t1),(w2,t2),(w3,t3),(w4,t4),(w5,t5)〉,窗口 W=3,當窗口在 s第 1 個項(w1,t1)時,提取k元模式如下:

1元模式:〈w1〉;

2元模式:〈w1,w2〉,〈w1,w3〉;

3元模式:〈w1,w2,w3〉.

窗口向后滑動一項,在s第2個項(w2,t2)時,提取k元模式如下:

1元模式:〈 w2〉;

2元模式:〈w2,w3〉,〈w2,w4〉;

3元模式:〈w2,w3,w4〉.

提取的模式均含有窗口中的第1個項,這樣在每個窗口中提取的k元模式都是不重復的.

當文本數(shù)量較大時,k元模式數(shù)量巨大,為了減少k元模式的數(shù)量,可以提取詞性(或?qū)嶓w標注),也可對詞性(或?qū)嶓w標注)進行限制,例如只提取名詞和動詞.

1.3.3 概念對與概念對模式提取

具有關系的概念對在句子中往往同時出現(xiàn),由于概念詞語都是名詞,僅抽取所有名詞的2元模式,并進行計數(shù),過濾低頻2元模式,保留高頻2元模式成為概念對.

概念對模式提取方法如下:

(1)對每一個句子序列,利用k元模式提取算法抽取k元模式(k=3,4,5),并對每個模式進行計數(shù);

(2)對于給定的概念對,從k元模式集合中提取概念對模式.

從滿足以下兩個條件的k元模式中提取概念對模式:第一,模式中包含概念對,并且每個概念在模式中只出現(xiàn)一次;第二,兩個概念在模式中是不連續(xù)的.這里要求兩個概念在模式中不連續(xù)是為了獲取兩個概念之間的關系詞語.

例如,若概念對c=(學校,學生),句子序列s=〈(學校,nis),(擁有,v),(學生,nnt),(大約,d),(2 萬人,mq)〉,當窗口 W=5,k=3 時,從句子序列中提取的k元模式有:

〈學校,擁有,學生〉,〈學校,擁有,大約〉,〈學校,擁有,mq〉 ,〈擁有,學生,大約〉,〈擁有,學生,mq〉 ,〈學生,大約,mq〉 .

滿足條件的概念對模式有:〈學校,擁有,學生〉.將模式中的概念分別用X0和X1代替,替換后的概念對模式變?yōu)?〈X0,擁有,X1〉.

本文獲取的概念對和概念對模式示例如表1所示.

1.2.1.2 患者方面:攜帶物品較多;文化層次普遍偏低,習慣物品亂堆放;對醫(yī)院規(guī)章制度和病房管理了解甚少,部分病人認為與自己無關。

表1 概念對與概念對模式示例Tab.1 Examples of concept pairs and concept pair patterns

1.4 協(xié)同聚類

根據(jù)分布式假設,若兩個概念對在模式的分布上具有相似性,則這兩個概念對具有語義相似性;同樣,若兩個模式在概念對的分布上具有相似性,則這兩個模式具有相似性.由于概念對-概念對模式矩陣中的行和列之間存在相關性,并且概念對-概念對模式矩陣具有高維稀疏性特點,本文采用協(xié)同聚類算法,通過行聚類和列聚類兩個步驟進行交叉迭代直至收斂.大多數(shù)協(xié)同聚類算法需要預先指定行簇數(shù)和列簇數(shù)[17],然而在無監(jiān)督學習中,由于預先不知道語料中有多少關系類別,無法預先指定行簇數(shù)和列簇數(shù),本文采用相似度閾值作為聚類條件,采用文獻[18]提出的 Sequential Co-clustering算法進行協(xié)同聚類.

1.5 部分-整體關系提取

1.5.1 方法思路

利用協(xié)同聚類算法將概念對聚類為若干個行簇,每個行簇代表一種關系類型.在無監(jiān)督方法中,并不知道語料中有哪些關系類型,也不知道聚類后每個簇代表何種語義關系,因此需要識別各個簇表達的關系類型.不同的關系類型語言表達方式不同,Hearst最早提出根據(jù)lexico-syntactic模式進行分類關系的識別[19].例如若名詞X和Y具有模式:“X是一種Y”或“X和其他Y”,說明X和Y具有分類關系,其中X是下位詞,Y是上位詞.Girju指出表達部分-整體關系的模式[6]有:“X 含有 Y”,“Y是X的成員”,“X由Y組成”等,從這些模式中可以得知X和Y具有部分-整體關系,其中X是整體,Y是部分.簇內(nèi)概念對對應大量的概念對模式,如果能夠從大量的模式中找出一個模式代表該簇的關系,那么就能夠根據(jù)該模式識別簇的關系類型,從而提取部分-整體關系或其他關系.本文利用L1正則化邏輯回歸模型選擇簇的特征,根據(jù)特征得到代表簇關系類型的模式.

1.5.2 關系模式提取

向量 xi=(xi1,xi2,…,xin)為概念對 ci的特征向量,pj為第 j個特征,xij為第 j個特征值,?j∈[1,n].將關系模式選擇問題轉(zhuǎn)化為類別特征選擇問題.由于L1正則化邏輯回歸能夠解決傳統(tǒng)邏輯回歸過擬合問題,并且有助于面向海量數(shù)據(jù)進行特征選擇,采用L1正則化邏輯回歸模型進行特征選擇.為了降低計算復雜度,將多分類問題簡化為二分類問題.首先將包含概念對較少的簇過濾掉,然后將要提取特征的簇作為一類,其他簇合并為另外一類.

對于二分類問題,給定數(shù)據(jù)集{xi,yi,其中,yi取值為0或1,特征向量xi隸屬于類別yi的后驗概率為

式中:β =(β1,β2,…,βn)為回歸模型參數(shù),根據(jù)已知類別的特征向量估計β.邏輯回歸可表示為如下優(yōu)化問題:

ln p(yixi)為對數(shù)似然函數(shù)(log-likelihood).將L1正則化應用于邏輯回歸,得到L1正則化邏輯回歸模型:

使用開源的Orthant-Wise Limited-memory Quasi-Newton算法[20]解決優(yōu)化問題;利用該算法得到各個簇的回歸模型參數(shù) β =(β1,β2,…,βn),選擇最大非零參數(shù)對應的模式為該簇的關系模式;最后人工從這些模式中識別表示部分-整體關系的模式.

2 實驗與分析

2.1 數(shù)據(jù)源

以領域文本為數(shù)據(jù)源,示例領域為高校領域.領域文本取自互動百科條目文章.互動百科是最大的中文網(wǎng)絡百科之一,網(wǎng)絡百科條目文章由相互協(xié)作的用戶產(chǎn)生,條目文章中包含大量的領域概念、概念間分類關系、屬性關系和部分-整體關系,為本體學習以及概念間關系自動獲取提供了豐富的數(shù)據(jù)源.我們從互動百科下載了5000篇高校領域的條目文章,并對文章進行了分詞、詞性標注、實體標注以及分句預處理.

實驗分為兩部分:概念對和概念對模式提取;部分-整體關系提取.

2.2 概念對和概念對模式提取

首先利用k元模式提取算法從句子序列集合中提取2元模式,窗口為8.由于動詞、形容詞和實體詞等不能作為概念性詞語,因此只提取名詞類詞語.從2元模式中選擇頻次大于200的詞語對作為概念對.然后,利用k元模式提取算法從句子序列集合中分別提取3元模式、4元模式和5元模式.窗口為8,提取動詞、名詞和實體詞,實體詞用實體標注代表,不提取形容詞、副詞等詞性的詞語.從3、4、5元模式中提取概念對模式.由于有些概念對沒有滿足條件的概念對模式,例如,某些概念對在模式中總是連續(xù)的,這些概念對被過濾掉,過濾低頻模式(頻次小于10的模式)后,最終獲得659個概念對,9927個概念對模式.

2.3 部分-整體關系提取

根據(jù)概念對和概念對模式構(gòu)建分布式語義模型后,利用協(xié)同聚類算法對概念對和概念對模式進行協(xié)同聚類.聚類后有一些行簇中的概念對很少,過濾概念對個數(shù)較少的行簇,然后利用Orthant-Wise Limited-memory Quasi-Newton算法獲得各個行簇的最大非零參數(shù),最大非零參數(shù)對應的模式即為簇的關系模式,再通過人工觀察提取表達部分-整體關系的模式.例如,行簇數(shù)為71,當列相似度閾值 θ=0.1,行相似度閾值 φ=0.1時,通過特征選擇得到71個關系模式,其中有3個模式:〈X0,建有,X1〉,〈X0,有,X1,mq〉 和〈X1,有,X0,mq〉 可能是表達部分-整體關系的模式,從這3個簇中共提取出53個概念對,其中有40個概念對是正確的部分-整體關系,準確率為75.47%.分別用準確率P、召回率R和綜合評價指標F值評價本文方法性能.

計算公式如下:

式中:V1為正確的關系個數(shù);V2為獲取的關系總個數(shù);V3為語料中的關系個數(shù).

評價過程是:首先在概念對中人工標注部分-整體關系,判斷兩個概念是否具有部分-整體關系的依據(jù)是Keet等對部分-整體關系的定義[4]和部分-整體關系的分類體系,在659個概念對中,人工標注了63個部分-整體關系;然后對抽取出來的關系進行準確率、召回率和F值統(tǒng)計.

當相似度閾值θ和φ取值不同時,抽取出來的部分-整體關系個數(shù)不同,關系抽取性能也不一樣.準確率、召回率和F值隨θ和φ變化的情況如圖1所示.

圖1 部分-整體關系抽取性能隨θ和φ的變化情況Fig.1 Part-whole relation extraction performance changes with θ and φ

圖1中橫坐標為列相似度閾值θ和行相似度閾值 φ 的取值,其中,θ的取值范圍為[0.1,0.5],φ 的取值范圍為[0.1,0.6].從圖中可以看出,準確率、召回率和F值隨θ和φ的變化而變化.關系抽取準確率在0.5~1.0之間波動;隨著θ和φ的增加,準確率趨于穩(wěn)定,召回率總體呈下降趨勢.當θ=0.1,φ =0.1 時,F(xiàn) 值達到68.97%.在某些相似度閾值下,關系模式中沒有表達部分-整體關系的模式(例如當 θ=0.1,φ =0.5;θ=0.4,φ =0.1;θ=0.5,φ =0.1),因此無法提取部分-整體關系.

將本文方法同傳統(tǒng)的聚類方法進行對比,傳統(tǒng)的聚類只對一個維度(行或列)進行聚類.這里對行向量進行聚類,聚類算法采用 Sequential Coclustering算法中聚類行(或列)的方法.聚類后采用L1正則化邏輯回歸分析為每個簇選擇特征,根據(jù)特征獲得關系模式,提取部分-整體關系.關系準確率、召回率和F值統(tǒng)計結(jié)果如圖2所示,其中行相似度閾值 φ 取值范圍為[0.1,0.9].

圖2 基于傳統(tǒng)聚類的部分-整體關系獲取性能Fig.2 Part-whole relation acquisition performance based on traditional clustering

從圖2中看出,隨著φ的增加,部分-整體關系獲取的準確率逐漸增加,當φ取值范圍為[0.3,0.7]時,F(xiàn) 值較高,F(xiàn) 值最高達到 55.77%,而協(xié)同聚類方法F值最高達到68.97%.

獲取的表達部分-整體關系模式主要有:〈X0,現(xiàn)有,X1〉,〈X0,有,mq,X1〉,〈X0,設有,X1,mq〉 ,〈X0,建有,X1〉,〈X1,包括,X0〉等等.部分-整體關系模式和部分-整體關系概念對示例如表2所示.

由于目前還沒有部分-整體關系標準數(shù)據(jù)集供檢驗本方法的效果,為了驗證本文方法的有效性,在同一個實驗數(shù)據(jù)集上采用模式匹配方法與本文方法進行對比.模式匹配方法是一種有監(jiān)督的方法,模式可以從已標注部分-整體關系的訓練數(shù)據(jù)中自動獲取,也可以人工制定.由于缺乏訓練數(shù)據(jù),我們采用的方法是:首先利用本文的特征選擇方法獲取部分-整體關系模式,然后從分布式語義模型共現(xiàn)矩陣中提取匹配部分-整體關系模式的概念對.

表2 關系模式與關系示例Tab.2 Examples of part-whole relation patterns and concept pairs

由于本文方法在 θ=0.1,φ =0.1時性能較好,我們利用該參數(shù)下獲取的部分-整體關系模式提取概念對.具有部分-整體關系模式的概念對共有42個,其中正確的部分-整體關系有32個,準確率為76.19%.兩種方法性能比較如表3所示.

表3 部分-整體關系抽取方法對比Tab.3 Comparison of methods for part-whole relation extraction %

從實驗結(jié)果看出,雖然模式匹配方法的準確率略高,但本文方法的召回率和F值比模式匹配方法要好.本文方法提取出來的部分-整體關系多于模式匹配方法,說明某些概念對雖然不具有部分-整體關系模式,但是在模式的分布上與部分-整體關系概念對具有相似性.模式匹配方法的缺點是一個模式可以表達多種不同的語義關系,并且模式匹配方法代價太大,可移植性差.基于種子的弱監(jiān)督方法[8-9]根據(jù)少量的關系實例作為種子獲得關系模式,利用模式提取新關系實例,根據(jù)新關系實例再獲取新的關系模式,其本質(zhì)和模式匹配方法一樣,并且抽取性能受到種子質(zhì)量的影響較大.

本文方法根據(jù)概念對在模式分布上的相似性判斷概念對之間的關系類型,不需要訓練數(shù)據(jù),也不需要人工定義關系模式或關系種子,僅在特征模式獲取階段需要少量人工干預,并且只要相似度閾值設置適當,就能取得較好的抽取效果.

3 結(jié)束語

本文基于分布性假設,建立概念對-概念對模式的語義分布式模型;利用協(xié)同聚類,將具有相同關系類型的概念對聚合成簇;通過L1正則化邏輯回歸模型提取聚類特征,利用特征獲得關系模式并提取代表部分-整體關系的簇.實驗結(jié)果表明,該方法不需要人工標注的語料庫,關系抽取性能優(yōu)于傳統(tǒng)聚類方法和模式匹配方法.隨著海量Web數(shù)據(jù)的產(chǎn)生,采用傳統(tǒng)的模式匹配方法或有監(jiān)督學習方法費時耗力,本文提出的利用無監(jiān)督方法、自動或半自動地進行關系獲取,無疑是一個有意義的研究方向.下一步工作包括:(1)研究改進算法,進一步提高部分-整體關系抽取的準確率;(2)研究利用該方法從海量數(shù)據(jù)中自動獲取其他關系類型.

[1]WINSTON M E,CHAFFIN R,HERRMANN D.A taxonomy of part-whole relations[J]. Cognitive Sciences,1987,11(4):417-444.

[2]GERSTL P,PRIBBENOW S.Midwinters,end games,and body parts:A classification of part-whole relations[J].International Journal of Human Computer Studies,1995,43(5/6):865-890.

[3]ODELL J. Six different kinds of composition[J].Journal of Object-Oriented Programming,1994,5(8):10-15.

[4]KEET C M,ARTALE A.Representing and reasoning over a taxonomy of part whole relations[J].Applied Ontology,2008,3(1):91-110.

[5]IRIS M,LUTOWITZ B,EVENS M.Relational models of the lexicon[M].Cambridge:Cambridge University Press,1989:261-288.

[6]GIRJU R, BADULESCU A, MOLDOVAN D.Automatic discovery of part whole relations[J].Computational Linguistics,2006,32(1):83-135.

[7]WILLEM R H,KOLB H,SCHREIBER G.A method for learning part whole relations[C]∥Proc.of the 5th International Semantic Web Conference.Athens:Springer's,2006:723-735.

[8]PANTEL P, PENNACCHIOTTI M. Espresso:leveraging generic patterns for automatically harvesting semantic relations[C]∥ Proc. of COLING/ACL-06 Joint Conference.Sydney:[s.n.],2006:113-120.

[9]ITTOO A,BOUMA G.Minimally-supervised extraction of domain-specific part-whole relations using Wikipedia as knowledge-base[J].Data & Knowledge Engineering,2013,85(5):57-79.

[10]曹馨宇,曹存根.從Web獲取部分整體關系語料的方法[J].中文信息學報,2011,25(5):17-23.CAO Xinyu,CAO Cungen.A method for acquiring corpus rich in part-whole relation from the Web[J].Journal of Chinese Information Processing, 2011,25(5):17-23.

[11]曹馨宇,曹存根,吳昱明.從Web中獲取部分整體關系[J].中文信息學報,2013,27(2):26-33.CAO Xinyu,CAO Cungen,WU Yuming.Acquiring part-whole relation from the Web[J]. Journal of Chinese Information Processing,2013,27(2):26-33.

[12]西南交通大學耶寶智慧中文分詞平臺[DB/OL].[2013-06-10].http://www.yebol.com.cn.

[13]LIN Dekang.Automatic retrieval and clustering of similar words[C]∥ Proc.of COLING/ACL-98 Joint Conference.Quebec:[s.n.],1998:768-774.

[14]WEEDS J,WEIR D,MCCARTHY D.Characterising measures of lexical distributional similarity[C]∥Proc.of COLING-04 Conference.Geneva:[s.n.],2004:1015.

[15]YU L C,CHAN C L,LIN Chaocheng,et al.Mining association language patterns using a distributional semantic model for negative life event classification[J].Journal of Biomedical Informatics,2011,44(4):509-518.

[16]HARRIS Z.Distributional structure[J].Word,1954,10(2/3):146-162.

[17]GU Quanquan, ZHOU Jie. Co-clustering on manifolds[C]∥ Proc. of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Paris:[s.n.],2009:359-367.

[18]BOLLEGALA D, MATSUO Y, ISHIZUKA M.Relational Duality:unsupervised extraction of semantic relations between entities on the Web[C]∥Proc.of WWW'10.Raleigh:[s.n.],2010:151-160.

[19]HEARST M A.Automatic acquisition of hyponyms from large text corpora[C]∥ Proc.of COLING-92.Nantes:[s.n.],1992:539-545.

[20]GALEN A,GAO Jianfeng.Scalable training of L1-regularized log-linear models[C]∥Proc.of ICML-07.Corvallis:[s.n.],2007:33-40.

猜你喜歡
語料整體聚類
歌曲寫作的整體構(gòu)思及創(chuàng)新路徑分析
流行色(2019年7期)2019-09-27 09:33:10
關注整體化繁為簡
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
設而不求整體代換
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
基于改進的遺傳算法的模糊聚類算法
華語電影作為真實語料在翻譯教學中的應用
改革需要整體推進
一種層次初始的聚類個數(shù)自適應的聚類方法研究
《苗防備覽》中的湘西語料
隆化县| 逊克县| 吴堡县| 新沂市| 建瓯市| 浮梁县| 岱山县| 吉木萨尔县| 洛隆县| 保山市| 洛川县| 卫辉市| 新营市| 鄂州市| 武定县| 华阴市| 永年县| 普定县| 武宁县| 满城县| 庆城县| 吉隆县| 井冈山市| 新蔡县| 阿荣旗| 舒兰市| 大邑县| 西城区| 龙门县| 明星| 齐河县| 九龙坡区| 清原| 高尔夫| 喀喇沁旗| 井冈山市| 惠州市| 巴东县| 高邮市| 临清市| 新平|