基于圖的查詢?nèi)罩緦?shí)體別名抽取方法

2013-10-15 01:37韓先培

中文信息學(xué)報(bào) 2013年5期

石貝，孫樂，韓先培

（中國(guó)科學(xué)院軟件研究所，北京100190）

1 引言

自然語言的多樣性決定同一實(shí)體能通過不同的別名來表達(dá)。實(shí)體的別名是指同一個(gè)實(shí)體的不同名稱。它主要包括縮略語、曾用名、拼音和其他語言的翻譯等。例如，“人人網(wǎng)”的別名有 “人人”、“校內(nèi)網(wǎng)”和“renren”等。別名抽取是指輸入一個(gè)實(shí)體的名稱，抽取并返回代表該實(shí)體的其他名稱。別名抽取的相關(guān)研究是自然語言處理的重要課題。它可以用于知識(shí)庫的構(gòu)建、機(jī)器翻譯、問答系統(tǒng)、信息檢索和實(shí)體鏈接等具體應(yīng)用中。例如，信息檢索面臨的一個(gè)重要問題就是相同的實(shí)體采用不同名稱從而造成檢索召回率的降低。使用抽取后的別名進(jìn)行查詢重構(gòu)可以解決這個(gè)問題。

目前別名抽取主要是利用已有的語料庫（采用別名、原名的平行語料庫或者經(jīng)過人為分詞和詞性標(biāo)注的語料庫）提取候選別名、原名集合，再利用別名、原名的上下文模板等字對(duì)齊規(guī)則進(jìn)行搜索匹配［1]，或者采用機(jī)器學(xué)習(xí)的方法選擇匹配對(duì)，最后輸出正確的原名、別名對(duì)。

這類方法主要存在兩個(gè)問題。

1）語料庫構(gòu)建困難

由于別名的多樣性（包含拼音、縮略語、翻譯、曾用名），構(gòu)建高覆蓋率的別名平行語料十分困難。例如，“中國(guó)建設(shè)銀行”的別名包含“建設(shè)銀行”、“建行”、“CBC”和“Jian She Yin Hang”等。我們沒有找到包含“中國(guó)建設(shè)銀行”上述所有別名的平行語料。

2）時(shí)效性差

社交網(wǎng)絡(luò)時(shí)代的來臨讓人與人在網(wǎng)上的溝通更加頻繁，從而使自然語言的經(jīng)濟(jì)性原則得到了充分利用?！癢eibo”、“KFC”、“神九”等各種新別名出現(xiàn)越來越頻繁。Web信息的日益膨脹使平行語料的構(gòu)建速度遠(yuǎn)遠(yuǎn)趕不上別名的產(chǎn)生速度。如何不通過平行語料，及時(shí)地抽取別名成為了一個(gè)挑戰(zhàn)。

隨著互聯(lián)網(wǎng)信息的不斷產(chǎn)生，利用用戶生成的內(nèi)容進(jìn)行別名抽取成為解決上述兩個(gè)問題的關(guān)鍵。本文提出了基于圖的查詢?nèi)罩緞e名抽取方法。首先，本文基于查詢和鏈接對(duì)應(yīng)的點(diǎn)擊信息，進(jìn)行一次迭代，獲取候選查詢集合。然后，本文基于＜別名—模板＞對(duì)和＜查詢—鏈接＞對(duì)構(gòu)成二層圖，采用隨機(jī)游走方法對(duì)候選別名進(jìn)行排序，抽取出權(quán)重較高的名稱作為實(shí)體的別名。

文章結(jié)構(gòu)安排如下：第2節(jié)介紹了別名抽取的相關(guān)方法；第3節(jié)首先介紹了算法的框架，然后詳細(xì)介紹查詢?nèi)罩局袃纱箢愑绊憚e名抽取的信息（上下文信息和查詢鏈接信息），并就各類信息的實(shí)際意義及計(jì)算方法進(jìn)行詳細(xì)說明，最后綜合利用這兩個(gè)信息特征，提出一個(gè)基于二層圖的別名抽取框架；第4節(jié)用實(shí)驗(yàn)對(duì)比各類信息的性能差異，并證明本文做法有效可行。第5節(jié)對(duì)本文進(jìn)行總結(jié)，分析并提出下一步的工作重點(diǎn)和研究問題。

2 相關(guān)工作

由于別名包括縮略語等形式，所以縮略語抽取的相關(guān)工作與別名抽取密切相關(guān)。Zhu等人針對(duì)單字人名、地名簡(jiǎn)稱，構(gòu)建了基于分類器的預(yù)測(cè)模型［2]。李斌等對(duì)漢語單字國(guó)名采取了統(tǒng)計(jì)評(píng)分法進(jìn)行識(shí)別［3]。Chang和Lai使用人工標(biāo)注的源短語、縮略語的平行語料庫作為訓(xùn)練數(shù)據(jù)，然后利用HMM來提取縮略語、源短語對(duì)［4]。Chang和Teng提出了基于HMM的概率恢復(fù)模型（SCR），用于將縮略語擴(kuò)展為源短語［5]。崔世起等利用生語料使用重復(fù)串搜索技術(shù)和詞性過濾，必要時(shí)加入人工干預(yù)，自動(dòng)提取縮略語和源短語對(duì)［6]。武子英等利用上下文語義信息，基于余弦相似度自動(dòng)抽取漢語縮略語［7]。Li等根據(jù)縮略語與源短語的共現(xiàn)現(xiàn)象，使用字對(duì)齊規(guī)則進(jìn)行自動(dòng)提取縮略語（僅處理單一類型的縮略語）［8]。上述方法目前只用于縮略語抽取，也可以用于別名的抽取，但是這些方法具有選用的語料庫時(shí)效性較差，規(guī)模較小，需要人工干預(yù)，且只解決縮略語抽取問題等缺陷。

Bollegala等人采用搜索引擎獲得候選人名別名的集合，然后利用SVM分類器進(jìn)行人名別名抽?。?]。Bhat等人采用LSA方法，利用不同的別名周圍具有相同的上下文特征，進(jìn)行別名抽取，但該方法有時(shí)效性低，運(yùn)算量大等缺點(diǎn)［10]。同上述方法相比，本文方法不僅使用了上下文信息，還使用了查詢鏈接信息，提高了抽取的準(zhǔn)確率。

對(duì)于上述方法需要平行語料，時(shí)效性低等缺點(diǎn)，本文提出了使用用戶查詢?nèi)罩?，自?dòng)抽取候選查詢，然后利用上下文信息和查詢鏈接點(diǎn)擊信息構(gòu)建二層圖，再使用隨機(jī)游走算法對(duì)圖中的候選別名進(jìn)行排序的方法。該方法不需要任何標(biāo)注數(shù)據(jù)和人工干預(yù)，并具有很好的時(shí)效性。

3 基于查詢?nèi)罩镜膭e名抽取算法

3.1 算法框架

在輸入原名e后，別名抽取的目標(biāo)是向用戶返回查詢?nèi)罩局袑?shí)體的別名｛a1，a2，…，ap｝。為了便于展示，全文將通過抽取“人人網(wǎng)”的別名這個(gè)例子對(duì)我們的方法進(jìn)行描述。相關(guān)定義如下：

· 輸入原名e：“人人網(wǎng)”；

· 已知由查詢記錄｛r1，r2，r3，…，rs｝構(gòu)成的文檔集合R。每一條記錄包含查詢（用q表示）和查詢對(duì)應(yīng)的點(diǎn)擊鏈接（用l表示）。例如，其中一條查詢記錄為“北京大學(xué) http：／／www.pku.edu.cn”；

· 目標(biāo)集合｛a1，a2，…，ap｝：“人人網(wǎng)”的別名構(gòu)成的集合。例如，“人人”，“校內(nèi)網(wǎng)”，“xiaonei”等別名所構(gòu)成的集合。

在查詢?nèi)罩局校覀冇^察到別名的特征主要包括以下兩類。

（1）和原名具有相同的上下文。例如，對(duì)于原名“人人網(wǎng)”，查詢?nèi)罩景罅坎樵儭叭巳司W(wǎng)首頁”，同時(shí)查詢?nèi)罩疽舶罅坎樵儭靶?nèi)網(wǎng)首頁”。因此，“人人網(wǎng)”和“校內(nèi)網(wǎng)”包含相同的上下文“＊首頁”。

（2）別名所構(gòu)成的查詢和原名所構(gòu)成的查詢被用戶點(diǎn)擊到同一鏈接。對(duì)于查詢“人人網(wǎng)地址”，其指向的鏈接為“http：／／www.renren.com”。對(duì)于查詢“校內(nèi)網(wǎng)地址”，其指向的鏈接也為“http：／／www.renren.com”。

圖1 基于圖的查詢?nèi)罩緞e名抽取算法框架

因此，利用這兩類特征，本文提出了基于圖的查詢?nèi)罩緞e名抽取算法，框架如圖1所示。

3.2 抽取候選查詢集合

實(shí)驗(yàn)中查詢?nèi)罩景哂嗖樵?，?shù)據(jù)量大，因此在別名抽取前需要對(duì)查詢?nèi)罩具M(jìn)行過濾，得到查詢記錄的子集——候選查詢集合Qc。候選查詢集合是有可能包含原名和別名的查詢所構(gòu)成的集合。我們的假設(shè)是，包含別名的查詢和包含原名的查詢至少指向一條共同的點(diǎn)擊鏈接?；诖思僭O(shè)，抽取“人人網(wǎng)”的候選查詢集合Qc的步驟如下。

1）將“人人網(wǎng)”和查詢?nèi)罩局械牟樵冎饤l匹配。如果“人人網(wǎng)”是查詢q的子串，則將q加入集合Q0中。Q0為包含原名“人人網(wǎng)”的查詢所構(gòu)成的集合。

2）對(duì)Q0中的每一個(gè)查詢q，獲得它對(duì)應(yīng)的點(diǎn)擊鏈接c（每一個(gè)查詢對(duì)應(yīng)的點(diǎn)擊鏈接可能有多個(gè)），將c加入鏈接集合C0中。

3）對(duì)C0中的每一條鏈接c，獲得c對(duì)應(yīng)的查詢q′，將q′加入候選查詢集合Qc中。

如圖2所示，我們利用了查詢—鏈接信息，生成了候選查詢集合Qc。Qc中的查詢有可能包含別名。

圖2 “人人網(wǎng)”候選查詢集合的生成過程

3.3 二層圖構(gòu)建

在獲取候選查詢集合Qc之后，我們需要抽取出Qc中的查詢所包含的別名，并對(duì)其排序。在此步驟中，本文首先構(gòu)建別名候選圖層，然后構(gòu)建查詢鏈接圖層，然后將這兩個(gè)圖層進(jìn)行鏈接，得到二層圖。最后采用隨機(jī)游走算法進(jìn)行排序，得到最終結(jié)果。

3.3.1 別名候選圖層的構(gòu)建

我們觀察到對(duì)于原名和別名，它們很可能共享相同的上下文。我們的假設(shè)是，如果一個(gè)查詢和包含原名的查詢有相同的上下文，那么這個(gè)查詢可能包含別名。在得到候選查詢集合Qc后，本文使用基于模板的Bootstrapping算法生成＜別名—模板＞對(duì)和＜模板—?jiǎng)e名＞對(duì)，然后構(gòu)建別名候選圖層。構(gòu)建過程如下。

1）將原名e加入命名集合N 中。將模板池W置空。

2）分析Qc中的每個(gè)查詢q，若q包含命名集合N 中的元素n，則抽取n的上下文，生成模板w。其中，在q的句首和句尾添加 “＜s＞”和“＜／s＞”標(biāo)簽作為開始標(biāo)記和結(jié)束標(biāo)記。例如，對(duì)于原名“人人網(wǎng)”，如果Qc中存在查詢“人人網(wǎng)首頁”，則生成模板“＜s＞＊首頁＜／s＞”。將模板w加入模板池W中，同時(shí)記錄＜別名—模板＞關(guān)系。為提高模板的有效性，減少隨機(jī)事件的影響，本文在這一階段過濾掉模板池中只出現(xiàn)過一次的模板。

3）依次取出模板池W 中的模板w。對(duì)于Qc中的每一條查詢q，若q匹配模板w，則抽取出候選別名a，并將a加入N 中，同時(shí)記錄＜模板—?jiǎng)e名＞關(guān)系。

4）重復(fù)第2步和第3步，直至沒有新的元素加入N中。

利用上述步驟得到的＜別名—模板＞對(duì)和＜模板—?jiǎng)e名＞對(duì)，對(duì)集合N和W 構(gòu)建二分圖。對(duì)每一個(gè)＜別名—模板＞對(duì)和＜模板—?jiǎng)e名＞對(duì)，在圖中添加相應(yīng)的邊來連接對(duì)應(yīng)的別名節(jié)點(diǎn)和模板節(jié)點(diǎn)。如圖3所示。

圖3 別名候選圖層的構(gòu)建示例

3.3.2 查詢鏈接圖層的構(gòu)建

為了驗(yàn)證使用查詢?nèi)罩具M(jìn)行別名抽取的有效性，我們對(duì)查詢?nèi)罩具M(jìn)行分析。我們抽取出查詢?nèi)罩局心承︰RL鏈接對(duì)應(yīng)的查詢，并按點(diǎn)擊次數(shù)進(jìn)行排序，如表1所示。

表1 查詢?nèi)罩局心承︰RL對(duì)應(yīng)的查詢

從表1中我們觀察到，在查詢?nèi)罩局?，?duì)于同一個(gè)鏈接“http：／／www.renren.com”或者 “http：／／www.sina.com.cn／”，其對(duì)應(yīng)的查詢（“人人網(wǎng)”和“xiaonei”，“sina”和“新浪網(wǎng)”）互為別名。因此，我們得到假設(shè)：對(duì)于同一個(gè)鏈接，如果它和幾個(gè)查詢有很強(qiáng)的關(guān)聯(lián)，那么這幾個(gè)查詢很可能包含同一實(shí)體對(duì)應(yīng)的別名。利用此假設(shè)，我們構(gòu)建查詢鏈接圖層的步驟如下。

1）對(duì)Qc中的每一個(gè)查詢q，將q加入查詢鏈接圖層中，同時(shí)將q對(duì)應(yīng)的鏈接l作為節(jié)點(diǎn)加入圖層中，并添加邊＜q，l＞。

2）對(duì)新添加的l，如果存在l對(duì)應(yīng)的查詢q不在圖層中，則將查詢q添加到圖層中，同時(shí)添加邊＜l，q＞。

重復(fù)上述兩步，直至沒有新的邊和節(jié)點(diǎn)加入此二分圖中，則構(gòu)建出如圖4所示的查詢鏈接圖層。

圖4 查詢鏈接圖層的構(gòu)建示例

3.3.3二層圖構(gòu)建

在構(gòu)建別名候選圖層和查詢鏈接圖層后，我們構(gòu)建一個(gè)二層圖。如圖5所示，上層為構(gòu)建好的別名候選圖層，EG＝｛EV，EE｝。EV是節(jié)點(diǎn)集合，包括原名e，候選別名a和包圍別名的模板w。EE是邊（evi，evj）的集合，（evi，evj）表示節(jié)點(diǎn)evi和evj之間的邊。下層為構(gòu)建好的查詢鏈接圖QG＝｛QV，QE｝，QV是節(jié)點(diǎn)集合，節(jié)點(diǎn)為查詢候選集合Qc中的查詢和鏈接，QE是下層節(jié)點(diǎn)之間的邊的集合，每個(gè)邊用日志中查詢和鏈接的共現(xiàn)來表示。如果用戶在查詢q時(shí)點(diǎn)擊鏈接l，則在q與l之間添加一條邊鏈接。上下兩層圖通過查詢和別名的包含關(guān)系連接。對(duì)于上層圖中的別名a，如果在下層圖中存在查詢q包含別名a，則在q和a之間添加一條邊（圖5中虛線所示）。

圖5 二層圖構(gòu)建示例

3.3.4 隨機(jī)游走算法

二層圖構(gòu)建完成之后，本文使用隨機(jī)游走算法計(jì)算圖中節(jié)點(diǎn)的權(quán)重［11]，然后對(duì)權(quán)重排序，返回排名靠前的別名節(jié)點(diǎn)。

假設(shè)該圖中節(jié)點(diǎn)的初始權(quán)重表示為式（1）：

其中w0i是編號(hào)為i的別名，模板，查詢或者鏈接的初始權(quán)重。該二層圖總共包含n個(gè)節(jié)點(diǎn)。則二層圖中邊的權(quán)重如式（2）所示：

其中ei，j表示節(jié)點(diǎn)i和j之間的邊的權(quán)重。針對(duì)不同的節(jié)點(diǎn)i和j，其權(quán)重的計(jì)算方式分為如下幾種情況。

1）如果i是別名或者原名，j是模板，那么我們使用別名i和模板j在Qc中的共現(xiàn)次數(shù)作為權(quán)重。

2）如果i是模板，j是別名或者原名，那么我們使用模板i和別名j在Qc中的共現(xiàn)次數(shù)作為權(quán)重。

3）如果i是查詢，j是點(diǎn)擊鏈接，那么我們使用在查詢?nèi)罩局衖和j的對(duì)應(yīng)點(diǎn)擊次數(shù)作為權(quán)重。

4）如果i是點(diǎn)擊鏈接，j是查詢，那么我們使用在查詢?nèi)罩局衖和j的對(duì)應(yīng)點(diǎn)擊次數(shù)作為權(quán)重。

5）如果i是別名或原名，j是查詢，那么我們使用Qc中別名或原名i被查詢j的包含次數(shù)作為權(quán)重。

6）如果i是查詢，j是別名或原名，那么我們使用Qc中查詢i包含別名或原名j的次數(shù)作為權(quán)重。

然后我們對(duì)W 進(jìn)行迭代更新，如式（3）所示。

其中norm（E）是E的正規(guī)化形式，Wt是W0經(jīng)過t次迭代之后的權(quán)重向量，λ∈（0，1）是一個(gè)自由參數(shù)，表示初始向量在更新節(jié)點(diǎn)權(quán)重時(shí)的權(quán)重。當(dāng)?shù)螖?shù)到達(dá)某個(gè)限定次數(shù)，或迭代結(jié)果趨于收斂，則停止迭代更新，作為各節(jié)點(diǎn)的最終權(quán)重。在本文實(shí)驗(yàn)中，默認(rèn)迭代50次。

在進(jìn)行初始權(quán)重賦值時(shí)，原名節(jié)點(diǎn)賦值為1，其余節(jié)點(diǎn)賦值為0。在迭代一定次數(shù)，得到各節(jié)點(diǎn)權(quán)重后，對(duì)別名節(jié)點(diǎn)進(jìn)行排序，輸出排序后的別名列表L。計(jì)算列表L節(jié)點(diǎn)權(quán)重之間梯度，將最大下降梯度之前的節(jié)點(diǎn)進(jìn)行返回。如圖6中例子所示，返回虛線之前的節(jié)點(diǎn)。

圖6 列表L節(jié)點(diǎn)返回示例

4 實(shí)驗(yàn)結(jié)果及相關(guān)分析

在這一節(jié)，我們?cè)u(píng)估了本文提出的方法，并將它同三個(gè)基準(zhǔn)實(shí)驗(yàn)進(jìn)行比較。同時(shí)，我們?cè)敿?xì)分析了實(shí)驗(yàn)結(jié)果。

4.1 數(shù)據(jù)集

本文實(shí)驗(yàn)數(shù)據(jù)集來自百度搜索查詢?nèi)罩緮?shù)據(jù)（2008年10月），共包含6515602個(gè)查詢。同時(shí)，本文共收集了500個(gè)原名。這500個(gè)原名主要包含機(jī)構(gòu)名（“中國(guó)建設(shè)銀行”等），品牌名（“索尼”等）和網(wǎng)站名（“新浪”，“人人網(wǎng)”）等。在該實(shí)驗(yàn)中，本文基于查詢?nèi)罩緦?duì)這些原名進(jìn)行別名抽取，并對(duì)抽取結(jié)果進(jìn)行人工評(píng)判。

4.2 評(píng)價(jià)方式

在該實(shí)驗(yàn)中，我們使用準(zhǔn)確率（Accuracy）對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)判。對(duì)結(jié)果集合S，其準(zhǔn)確率（Accuracy）如式（4）所示：

4.3 基準(zhǔn)實(shí)驗(yàn)

本文的三個(gè)基準(zhǔn)實(shí)驗(yàn)包括：

1）基于詞的上下文相似度的別名抽取方法（ConSim）。該方法抽取原名的上下文，構(gòu)成向量，然后計(jì)算候選詞的上下文向量與原名的上下文向量的余弦相似度，然后根據(jù)余弦相似度進(jìn)行排序，進(jìn)而抽取別名。

2）僅基于別名候選圖層，使用隨機(jī)游走算法對(duì)別名節(jié)點(diǎn)進(jìn)行排序的別名抽取方法（ExtGraph）。

3）僅基于查詢鏈接圖層，使用隨機(jī)游走算法對(duì)查詢節(jié)點(diǎn)進(jìn)行排序，直接將排序靠前的查詢結(jié)果作為別名（QGraph）。

本文提出的基于圖的查詢?nèi)罩緞e名抽取算法被記為（TwoGraph）。

4.4 結(jié)果與分析

在百度查詢?nèi)罩緮?shù)據(jù)上，四組實(shí)驗(yàn)結(jié)果如表2所示。

表2 四種別名抽取算法的實(shí)驗(yàn)結(jié)果比較

從表2可以得到如下結(jié)論。

1）四個(gè)方法中，我們的方法抽取別名效果最好。別名抽取效果比較結(jié)果為：TwoGraph＞QGraph＞ExtGraph＞ConSim。

2）和ExtGraph相比，TwoGraph在準(zhǔn)確率上提高14.8%。這說明使用上下文信息和查詢鏈接信息進(jìn)行別名抽取比僅僅使用上下文信息進(jìn)行別名抽取的效果要好。

3）和QGraph相比，TwoGraph在準(zhǔn)確率上提高9.0%。這說明使用上下文信息和查詢鏈接信息進(jìn)行別名抽取比只使用查詢鏈接信息進(jìn)行別名抽取的效果要好。

4）和ConSim相比，ExtGraph在準(zhǔn)確率上提高24.8%。這證明了我們使用隨機(jī)游走算法對(duì)構(gòu)建后的別名候選圖層進(jìn)行節(jié)點(diǎn)權(quán)重排序的有效性。

5）和ExtGraph相比，QGraph在準(zhǔn)確率上提高5.8%。這表示查詢?nèi)罩局械牟樵冩溄有畔⒈葎e名的上下文信息更加準(zhǔn)確。這可能因?yàn)椴樵內(nèi)罩局胁樵償?shù)目比較多，模板比較繁雜，所得到的上下文信息不如點(diǎn)擊信息更加準(zhǔn)確。

4.5 細(xì)節(jié)分析

當(dāng)輸入“人人網(wǎng)”后，TwoGraph系統(tǒng)抽取的別名列表top10如表3所示。

表3 “人人網(wǎng)”別名列表top10

從表3中可以看出，我們實(shí)驗(yàn)返回的結(jié)果包括了曾用名、拼音、縮略詞、URL和拼寫錯(cuò)誤。這表明了本文方法保證了別名抽取結(jié)果的多樣性。該結(jié)果也表明了該方法在抽取別名時(shí)，也抽取出了一些查詢?nèi)罩局械钠磳戝e(cuò)誤（“xiaone”）。這些拼寫錯(cuò)誤對(duì)系統(tǒng)性能產(chǎn)生了負(fù)面影響。

5 結(jié)論及下一步工作

本文針對(duì)目前別名抽取需要訓(xùn)練語料，時(shí)效性差這兩個(gè)問題，提出了基于圖的查詢?nèi)罩緞e名抽取方法。本文總結(jié)了查詢?nèi)罩镜膬纱箢愋畔ⅲㄉ舷挛哪０逍畔⒑筒樵冩溄有畔ⅲ⑻岢隽嘶谶@兩類信息的二層圖構(gòu)建算法，然后使用隨機(jī)游走算法計(jì)算候選別名權(quán)重，抽取出別名。實(shí)驗(yàn)表明：1）我們的方法可行有效，達(dá)到了71.8%的準(zhǔn)確率；2）使用查詢鏈接信息進(jìn)行別名抽取優(yōu)于使用上下文信息進(jìn)行別名抽取。這兩種信息的結(jié)合能獲得更好的別名抽取效果。下一步工作中，我們將過濾查詢?nèi)罩局械钠磳戝e(cuò)誤，從而降低其對(duì)別名抽取結(jié)果的負(fù)面影響；此外，如何解決查詢?nèi)罩局心承﹦e名的稀疏問題也是下一步的研究方向。

［1]劉友強(qiáng)，李斌，奚寧，等.基于雙語平行語料的中文縮略語提取方法［J].中文信息學(xué)報(bào)，2012，26（2）：69－74.

［2]Xiaodan Zhu，Mu Li，Jianfeng Gao，et al.Single Character Chinese Named Entity Recognition［C]／／Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing，ACL，2003.

［3]李斌，方芳.中文單字國(guó)名簡(jiǎn)稱的自動(dòng)識(shí)別［J].計(jì)算機(jī)工程與應(yīng)用，2006，42（28）：167－176.

［4]Jing－Shin Chang，Yu－Tso Lai.A preliminary study on probabilistic models for Chinese abbreviations［C]／／Proceedings of the 3rd SIGHAN Workshop on Chinese Language Processing，2004：9－16.

［5]Jing－Shin Chang，Wei－Lun Teng.Mining Atomic Chinese Abbreviation Pairs：A Probabilistic Model for Single Character Word Recovery［C]／／Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing，2006：17－24.

［6]崔世起，劉群，林守勛，等.中文縮略語自動(dòng)抽取初探［C]／／全國(guó)第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議（JSCL－2005）.

［7]武子英，鄭家恒.現(xiàn)代漢語縮略語自動(dòng)識(shí)別的方法研究［J].計(jì)算機(jī)工程與設(shè)計(jì)，2007，28（16）：4052－4054.

［8]Zhifei Li，David Yarowsky.Unsupervised Translation Induction for Chinese Abbreviations using Monolingual Corpora［C]／／Proceedings of ACL－08，2008：425－433.

［9]Danushka Bollegala，Yutaka Matsuo，Mitsuru Ishizuka.Extracting key phrases to disambiguate personal name queries in web search［C]／／Proceedings of CLIIR'06Proceedings of the Workshop on How Can Computational Linguistics Improve Information Retrieval，2006：17－24.

［10]Vinay Bhat，Tim Oates，Vishal Shanbhag，et al.Finding aliases on the web using latent semantic analysis［J].Data ＆ Knowledge Engineering，2004，49：129－143.

［11]Winston H Hsu， Lyndon S Kennedy，Shih－Fu Chang.Video search reranking through random walk over document－level context graph［C]／／Proceedings of MULTIMEDIA'07Proceedings of the 15th international conference on multimedia，2007：971－980.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡