国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

問答社區(qū)問句中多字詞表達提取

2014-09-06 10:13吳瑞紅呂學強
吉林大學學報(理學版) 2014年6期
關(guān)鍵詞:詞串互信息搜索引擎

吳瑞紅, 呂學強, 李 卓, 舒 燕

(1.北京信息科技大學 網(wǎng)絡文化與數(shù)字傳播北京市重點實驗室, 北京 100101;2.北京拓爾思信息技術(shù)股份有限公司, 北京 100101)

問答社區(qū)問句中多字詞表達提取

吳瑞紅1, 呂學強1, 李 卓1, 舒 燕2

(1.北京信息科技大學 網(wǎng)絡文化與數(shù)字傳播北京市重點實驗室, 北京 100101;
2.北京拓爾思信息技術(shù)股份有限公司, 北京 100101)

基于互動問答社區(qū)問句中多字詞表達和問句理解的關(guān)系, 提出針對互動問答社區(qū)問句進行多字詞表達抽取, 并基于互動問答社區(qū)問句中多字詞表達的特點, 提出適用于互動問答社區(qū)的多字詞表達提取方法.該方法在利用互信息和停用詞表的方法從問句中抽取候選多字詞表達的基礎上, 將候選多字詞表達分為正確串、殘缺串、冗余串和錯誤串4類, 借助搜索引擎對查詢串的優(yōu)化和候選多字詞表達在互聯(lián)網(wǎng)上的檢索結(jié)果, 設計候選多字詞表達校正方法, 實現(xiàn)對多字詞表達的提取.以新浪愛問知識人問題庫中的問句進行實驗, 結(jié)果表明, 多字詞表達抽取的準確率、召回率和F值分別達到84%,52%和0.64, 驗證了該方法的有效性.

多字詞表達; 問句理解; 互信息; 搜索引擎

多字詞表達(MWEs)指內(nèi)部結(jié)合緊密、使用穩(wěn)定、整體表示一個概念意義, 可作為一個固定短語使用的信息單元[1].多字詞表達廣泛存在于詞典中, 因其組成結(jié)構(gòu)多樣、成分復雜, 因此其提取是大規(guī)模自然語言處理技術(shù)發(fā)展的關(guān)鍵問題之一[2].多字詞表達也廣泛存在于日常交流中, 如食物宜忌、紅糖姜茶等, 這些多字詞表達在信息檢索、本體構(gòu)建、文本對齊和機器翻譯等領(lǐng)域應用廣泛.

近年來, 隨著互聯(lián)網(wǎng)的迅速發(fā)展, 互動問答社區(qū)應運而生, 互動問答社區(qū)的問句中蘊含大量的縮略語、歇后語、成語和慣用表達等多字詞表達, 它們是問句理解[3]的核心.由于給出回答的用戶人數(shù)眾多且回答質(zhì)量參差不齊, 因此對回答質(zhì)量進行自動判斷對用戶更加重要, 問句理解是進行這項工作的首要任務, 問句中多字詞表達提取也因此變得尤為緊迫.

針對多字詞表達提取的研究, 早期主要集中在詞語搭配方式上[4].Pecina[5]在MWEs測評提供的3種標準語料上針對德語中的Adj-N和PP-Veb搭配做實驗, 比較了55種不同的關(guān)聯(lián)方法, 實驗表明, 應用統(tǒng)計方法對多個不同的搭配進行融合比單個搭配抽取效果更好.文獻[6]研究表明, 互信息方法和對數(shù)似然比方法優(yōu)于其他統(tǒng)計方法.隨著語言學規(guī)則的發(fā)展, 統(tǒng)計方法與語言學規(guī)則相結(jié)合的方法被大量應用到多字詞表達抽取中.Ramisch等[7]以英語中人工構(gòu)建的Verb-Particle結(jié)構(gòu)和德語中人工構(gòu)建的Adj-N進行實驗, 發(fā)現(xiàn)加入語言學規(guī)則要比單純使用統(tǒng)計方法的效果更好; Al-Haj等[8]針對希伯來語提出結(jié)合語言學形態(tài)規(guī)則和句法規(guī)則對多字詞表達進行抽取, 結(jié)果表明, 應用語言學規(guī)則與統(tǒng)計結(jié)合的抽取效果更好; Tsvetkov等[9]針對希伯來語-英語語料中提出了雙語語料中語言學特征的融合方法, 提高了多字詞表達抽取的準確率; 文獻[10]通過引入詞典, 同樣提高了識別的準確率; Duan等[11]針對雙語語料中多字詞表達抽取, 從生物基因得到啟發(fā), 提出了一種生物啟發(fā)的多字詞表達抽取方法, 將最長公共子序列和語言學方法進行融合, 提高了雙語多字詞表達提取的效果.劉榮等[1]利用高頻詞和互信息對特定領(lǐng)域進行了多字詞表達提取.文獻[12]針對特定領(lǐng)域, 利用統(tǒng)計量和語言學規(guī)則提取多字詞表達; 胡玉溪[13]針對中英文雙語語料對多字詞表達進行研究, 取得了一定的進展.

上述方法均以較規(guī)范的語料庫作為研究對象, 對互動問答社區(qū)這種大眾參與的非正規(guī)文本語料中多字詞表達提取不完全適用.本文首次提出針對互動問答社區(qū)問句進行多字詞表達抽取, 且充分結(jié)合互動問答社區(qū)及社區(qū)問句中多字詞表達的特征提出互動問答社區(qū)問句中多字詞表達抽取的方法.

1 語料特點

互動問答社區(qū)即“互動式知識問答分享平臺”, 是目前備受關(guān)注的網(wǎng)絡應用, 其內(nèi)容來源于用戶, 并服務于用戶.新浪愛問知識人是中國第一個中文互動型問答產(chǎn)品, 為用戶提供發(fā)表提問、解答問題和搜索答案等服務.以愛問知識人為例, 分析問句特點如下:

圖1 問句在搜索引擎中的檢索結(jié)果Fig.1 Retrieval result of the questions in search engines

1) 互動問答社區(qū)屬于互聯(lián)網(wǎng)應用, 社區(qū)中的問句也屬于互聯(lián)網(wǎng)資源, 這些問句均可通過搜索引擎在互聯(lián)網(wǎng)上找到與其相同或相關(guān)的資源.如問題: “得了白內(nèi)障, 怎么辦”在百度搜索引擎中的部分檢索結(jié)果如圖1所示.

2) 互動問答社區(qū)中的真實問題與傳統(tǒng)問答系統(tǒng)中的問題不同, 傳統(tǒng)問答系統(tǒng)中的問題一般直切主題, 而互動問答社區(qū)中的真實問題一般會先對要提問主題的一段場景進行描述, 然后加一個或幾個與所述場景相關(guān)的問題.

例1“我家女兒6.5歲, 前兩天帶她測了骨齡和成長激素, 醫(yī)生說她的骨齡與年齡相符, 根據(jù)測試結(jié)果孩子只能長到1.53~1.55 cm, 不知這種測試準不準確? 能不能改變? 應該怎樣才能讓她再長高一點?”

例2“大家好, 我有過敏性鼻炎, 原來一直沒有明顯癥狀, 但從去年開始一直犯不停, 尤其是在辦公室, 尷尬極了!我也知道這個病不是能夠徹底治愈的, 但是希望大家出主意, 能減緩癥狀即可, 不至于在辦公室鼻涕流不停就行了.拜托了!”

由此可見, 互動問答社區(qū)的問句與一般問句不同, 蘊含豐富的提問背景信息, 用戶為了清晰、準確地描述所在場景, 通常會選擇豐富的多字詞表達進行闡述, 因此多字詞表達對互動問答社區(qū)中的問句理解具有重要作用.

3) 問句中表達不規(guī)范, 語言描述簡練、隨意.

例3“以前不知道從幾歲開始 我的2棵虎牙都有點向外生長 有點暴起 可現(xiàn)在我都22了 這段時間我發(fā)現(xiàn)我又在長大牙 這到?jīng)]什么 不過下面的還好 上面兩邊的大牙都在向外長 而且很斜 現(xiàn)在都已經(jīng)頂?shù)娇谇槐诹?吃東西有時候要咬到 影響太大了 有高手給我提提建議呀 要不要去拔掉 但是我想 大牙對于吃東西那么重要 要是拔掉了 以后老了就沒牙了 老火啊”.

例3中用戶的表達非常隨意: 沒有添加任何標點符號, 而且存在多處句子成分不完整的情況, 如:“不過下面的還好”、“要不要去拔掉”等.由于漢語語法的復雜性和現(xiàn)有漢語詞法、句法理論體系的不完備, 對表達不規(guī)范的問句做詞法、句法、語義分析準確率非常低, 所以在互動問答社區(qū)中的多字詞表達研究中, 傳統(tǒng)相對正規(guī)的語料上基于語言學規(guī)則提取多字詞表達的方法并不適用.

4) 問句中出現(xiàn)大量普通文本語料中不常出現(xiàn)或出現(xiàn)頻率較低的詞語, 如: 高手、幫忙、解答和咨詢等.

多字詞表達蘊含于問句中, 多字詞表達具有如下特點:

1) 多字詞表達由術(shù)語、命名實體、專有名詞和縮略語等組成, 利用現(xiàn)有分詞工具[14]進行分詞時, 準確率較低, 通常被切分成多個單元.

例4“磷酸 肌 酸 激酶 英文 名 CK 結(jié)果 1596 狀態(tài) 單位 U/L 參考范圍 24~195 肌 酸 激酶 同工酶 英文 名 CK-MB 37 U/L & lt; 24 是 心臟病 嗎 ? ? 是 檢查 出來 的”.

例4中, 多字詞表達“磷酸肌酸激酶”被切分成“磷酸”、“肌”、“酸”、“激酶”; “肌酸激酶同工酶”被切分成“肌”、“酸”、“激酶”、“同工酶”.

2) 由于問句中用戶表達不規(guī)范和多字詞表達成分復雜, 此時的多字詞表達一般很難找到規(guī)范語料庫中多字詞表達的搭配規(guī)則.

例5“不/d 知道/v 安/g 基酸/n 對/p 乙肝/n 有/v 沒/d 有/v 害處/n ?/w 還/d 請/v 各/r 位/q 專家/n 指點/v!”.

例6“我/r 老婆/n 懷孕/v 八/m 個/q 月/n 了/y, /w 一直/d 喝/g 的/u 都/d 是/v 圣/g 元/q 的/u, /w 現(xiàn)在/t 優(yōu)/g 聰/g 都/d 出/v 問題/n 了/y,/w 不知/v 優(yōu)/g 博/g 孕婦/n 奶粉/n 到底/d 有/v 沒/d 有/v 問題/n, /w 急/ad 死/v 人/n 了/y, /w 請/v 各位/r 知道/v 的/u 多多/d 指教/v !/w 謝謝/v !/w”.

圖2 多字詞表達“白內(nèi)障”在搜索引擎中的檢索結(jié)果Fig.2 Retrieval result of the MEWs “cataract”

一般語料中的多字詞表達遵循一定的搭配規(guī)律, 如n+v型等的詞性搭配規(guī)律.例5和例6中, “安/g 基酸/n”的詞性構(gòu)成規(guī)則為“g+n”, “圣/g 元/q”的詞性構(gòu)成規(guī)則為“g+q”, “優(yōu)/g 聰/g”的詞性構(gòu)成規(guī)則為“g+g”, “優(yōu)/g 博/g 孕婦/n 奶粉/n”的詞性構(gòu)成規(guī)則為“g+g+n+n”.問句中多字詞表達不遵循一般多字詞表達詞性構(gòu)成規(guī)則.

3) 由于互動問答社區(qū)的問句屬于互聯(lián)網(wǎng)資源, 問句中蘊含的多字詞表達在互聯(lián)網(wǎng)上有其相關(guān)的資源, 如問句“得了白內(nèi)障, 怎么辦”中的多字詞表達“白內(nèi)障”在搜索引擎中的檢索結(jié)果如圖2所示.

2 候選多字詞表達的生成

從問句中多字詞表達的構(gòu)成特點1)可見, 多字詞表達一般由多個有序詞串組合而成, 組成多字詞表達的多個有序詞串在語料庫中出現(xiàn)的頻次較大, 其間的結(jié)合緊密度也較大; 而不能組成多字詞表達的有序詞串在語料庫中出現(xiàn)的頻次較小, 其間的結(jié)合緊密度也較小, 因此通過計算有序詞串間的結(jié)合緊密度可判定有序詞串是否組成多字詞表達.

詞串間的結(jié)合緊密度通過互信息體現(xiàn), 受候選詞串各自詞頻及其共現(xiàn)詞頻的影響, 而在語料中存在一些類似“高手幫忙”、“怎么回事”的詞, 這些詞出現(xiàn)頻次較高, 但缺乏實際區(qū)分性意義, 本文將這些詞統(tǒng)稱為問句型停用詞.在結(jié)合緊密度較高的一部分詞組中, 不可避免地包含有問句型停用詞, 因此, 為了提高多字詞表達抽取的準確率, 本文結(jié)合問句特點構(gòu)建問句型停用詞表對詞串進行過濾.用以上方法生成的詞串中含有很多公共子串, 為了提高多字詞表達抽取的準確率, 減少對后續(xù)工作的影響, 需要對候選詞串進行合并, 進而得到候選多字詞表達.

2.1基于互信息的詞串生成

互信息能較好地度量詞串間的結(jié)合緊密程度, 對于詞串X和Y, 互信息計算方法如下:

(1)

多字詞表達至少包含2個字, 根據(jù)劉榮等[12]的統(tǒng)計, 2~4個切分單元構(gòu)成的多字詞表達已占94%, 本文以2~4個切分單元為主要研究對象.為此, 將二元互信息擴展為多元詞串內(nèi)部的互信息.對于多元詞串內(nèi)部的互信息, 采用Magerman等[15]提出的廣義互信息概念進行計算, 對于詞串x1…xn(2≤n≤4), 互信息計算公式為

(2)

互信息越高, 表明X和Y相關(guān)性越大, 詞串X和Y組成多字詞表達的可能性就越大.通過該方法可初步選定共現(xiàn)可能性較大的詞串.設置閾值, 將互信息值大于設定閾值的詞串作為候選詞串, 過濾掉小于該閾值的詞串.

2.2問句型停用詞過濾

由互動問答社區(qū)問句中的特點4)可知, 在互動問答社區(qū)問句文本中, 存在很多不同于新聞語料等普通文本語料的常用搭配, 這些搭配出現(xiàn)的頻次較高, 且內(nèi)部結(jié)合緊密度也較高, 但這些搭配缺乏實際意義, 并不是多字詞表達, 它們對多字詞表達提取帶來干擾.如問句: “我兒子得了腸炎, 請高手幫忙?急急!!”, 此句中“高手幫忙”會被識別, 在問句中還有很多類似的搭配.人工觀察語料中出現(xiàn)的此類停用詞, 可結(jié)合常用停用詞和問句中的停用詞構(gòu)建適合問句特征的停用詞表.為了減少這些詞語對多字詞表達提取帶來的影響, 可利用構(gòu)建的停用詞表, 將含停用詞的候選詞串刪除.

2.3融合公共子串的候選多字詞表達生成

經(jīng)過詞串生成和停用詞過濾后的詞串中存在大量的公共子串, 若不對其進行處理, 會產(chǎn)生眾多無意義的詞串, 不僅會降低識別的準確率, 而且會產(chǎn)生大量重復計算.候選詞串合并包含: 1) 具有包含關(guān)系的子串合并; 2) 具有公共子串的相鄰候選串合并.具有公共子串的相鄰候選詞串是指將候選詞串按照其在語料中首次出現(xiàn)的順序排序后, 相鄰具有公共子串的詞串.互為包含關(guān)系的子串是指兩詞串之間存在包含與被包含的關(guān)系, 如在本文中互為包含關(guān)系的子串體現(xiàn)在部分三字詞詞串被四字詞詞串包含, 部分二字詞詞串被三字詞詞串或四字詞詞串包含.這部分詞串合并方法為: 將被四字詞詞串包含的三字詞詞串刪除, 被三字詞串和四字詞詞串包含的二字詞詞串刪除.

具有公共子串的相鄰詞串合并: 為了減少合并的次數(shù), 降低計算的復雜度需先對四字詞詞串進行合并, 然后是三字詞詞串和二字詞詞串.對于去除了互為包含關(guān)系的子串, 先將候選詞串按照其在語料中出現(xiàn)的順序排序, 然后合并窗口為window, 合并方法為: 在window個詞串范圍內(nèi),n字詞詞串stri=“ti,1ti,2…ti,n”, stri+1=“ti+1,1ti+1,2…ti+1,n”, 其中ti,j(1≤i

3 多字詞表達校正

分析得到的候選多字詞表達, 存在如下4類詞串.

1) 正確串: 內(nèi)部結(jié)合緊密、使用穩(wěn)定、完整的、具有獨立意義的多字詞表達, 如“非結(jié)合膽紅素”、“氯化鈉滴眼液”等.

2) 殘缺串: 完整多字詞表達的一部分詞串, 一般不具備獨立語義, 在語言結(jié)構(gòu)上不具備完整結(jié)構(gòu), 如“丙氨酸氨基轉(zhuǎn)移酶”被處理成“丙氨酸氨基轉(zhuǎn)移”、“乳酸左氧氟沙星”被處理成“乳酸左氧氟沙”.

3) 冗余串: 完整多字詞表達是其子串, 有的具有獨立語義, 有的不具有獨立語義, 如“參考范圍”被處理成“106參考范圍”、“女貞子”被處理成“女貞子12克”.

4) 錯誤串: 不具備任何語義的串或包含錯別字的串.如“瓶六味”、“勁椎病”等.

多字詞表達校正是指對候選多字詞表達進行類型判別和更正, 包括對正確串的識別、殘缺串的補全、冗余串中蘊含正確串的抽取和錯誤串的去除.根據(jù)互動問答社區(qū)是互聯(lián)網(wǎng)資源的特點和問句中多字詞表達的構(gòu)成特點可知, 問句中多字詞表達抽取不適合用語言學規(guī)則進行抽取, 因此, 本文利用問句中多字詞表達在互聯(lián)網(wǎng)資源中有其相關(guān)檢索結(jié)果的特點, 提出一種新思路: 結(jié)合不同類型候選多字詞表達在搜索引擎中查詢優(yōu)化和搜索結(jié)果中的分布特征進行多字詞表達校正.

3.1基于互聯(lián)網(wǎng)的多字詞表達類型判別

候選多字詞表達類型判別是指區(qū)分出候選多字詞表達的類型, 包括正確串、冗余串、殘缺串和錯誤串4種類型.

搜索引擎在對查詢串進行檢索前, 通常先對查詢串進行優(yōu)化, 這些優(yōu)化方式包括查詢擴展和重構(gòu)等.查詢優(yōu)化對多字詞表達抽取具有很大幫助; 重構(gòu)可將部分冗余串進行切分, 也能對部分殘缺串進行一定補足.搜索引擎返回的搜索結(jié)果是與查詢串最相關(guān)的信息, 問句及其中的多字詞表達來源于互聯(lián)網(wǎng), 可借助查詢返回結(jié)果校正多字詞表達.將候選多字詞表達作為查詢串在搜索引擎中進行檢索, 獲取候選多字詞表達在搜索引擎檢索結(jié)果中的前20條結(jié)果標題及摘要信息, 作為搜索結(jié)果語料.

3.1.1 候選多字詞表達在搜索結(jié)果中的出現(xiàn)規(guī)律 記待判別類型的候選多字詞表達為candiateExp, 對每個候選多字詞表達進行如下定義.

定義1將candiateExp的搜索結(jié)果語料按中英文標點符號和空格進行劃分后形成的單元稱為詞串單元.

定義2將candiateExp搜索結(jié)果語料劃分成詞串單元后, 該詞串單元在所有詞串單元中出現(xiàn)的次數(shù)稱為詞串單元頻次.

定義3詞串單元-頻次對集合定義為SenPairSet={〈s1,c1〉,〈s2,c2〉,…,〈sn,cn〉}, 其中:n為candiateExp搜索結(jié)果語料中詞串單元的個數(shù);si(1≤i≤n)為任一詞串單元;ci為詞串單元si的頻次; len(si)為si的長度.

定義4切分單元來源于兩種切分方法: 正向切分和逆向切分.正向切分指將candiateExp從左向右刪除字, 直至僅剩下兩個字; 逆向切分指將candiateExp從右向左刪除字, 直至僅剩下兩個字.將每次刪除后剩下的單元稱為切分單元.

定義5切分單元-頻次對集合記為CandiateExpSet, 獲取candiateExp的切分單元及切分單元在candiateExp搜索結(jié)果語料中的頻次, 形成candiateExp的切分單元-頻次對集合,CandiateExpSet={〈splitCan1,splitCanNum1〉,〈splitCan2,splitCanNum2〉,…,〈splitCann,splitCanNumn〉},其中: splitCanj(1≤j≤n)為candiateExp的任一切分單元; splitCanNumj為splitCanj(1≤j≤n)在candiateExp搜索結(jié)果中出現(xiàn)的頻次;n為切分單元的總個數(shù).

正確多字詞表達是一種具有穩(wěn)定性、特指性的語義概念單元, 它通常會被互聯(lián)網(wǎng)知識庫收錄, 表現(xiàn)在檢索結(jié)果中是該多字詞表達的下一個詞串單元中包含“百科”二字; 還有一部分正確多字詞表達雖未被互聯(lián)網(wǎng)知識庫收錄, 但卻在檢索結(jié)果中多次獨立成為一個詞串單元, 可利用這兩條規(guī)則對正確多字詞表達進行判別.冗余串中包含正確多字詞表達, 搜索引擎在對冗余串進行檢索時, 會對其進行一定的切分, 使冗余串作為一個整體在檢索結(jié)果中出現(xiàn)的頻次會很低, 而冗余串的切分單元在搜索結(jié)果中出現(xiàn)的頻次會相對較高.殘缺串是正確多字詞表達的子串, 將其在搜索引擎中檢索時, 搜索引擎會對殘缺串進行一定的補全, 表現(xiàn)在檢索結(jié)果上是殘缺串可能在一定的窗口范圍內(nèi), 與詞串單元存在被包含關(guān)系, 且該詞串單元在搜索結(jié)果中多次獨立出現(xiàn); 此外, 殘缺串在搜索結(jié)果語料中出現(xiàn)的次數(shù)相對較高, 且殘缺串的切分單元出現(xiàn)次數(shù)均大于或等于殘缺串的出現(xiàn)次數(shù).錯誤串不含有任何語義或包含錯別字, 其在搜索結(jié)果中的出現(xiàn)規(guī)律不明顯, 因此不作為單獨類型進行判斷.

3.1.2 基于規(guī)則的候選多字詞表達類型判別 根據(jù)不同類型候選多字詞表達在搜索結(jié)果中出現(xiàn)的規(guī)律, 候選多字詞表達類型判別較易解決.

1) 正確多字詞表達判別規(guī)則.

正確多字詞表達在搜索結(jié)果中出現(xiàn)的規(guī)律有兩個特點, 相應判別規(guī)則為:

① 在candiateExp搜索結(jié)果語料劃分成的詞串單元中, candiateExp為一個詞串單元, 且candiateExp緊鄰的下一個詞串單元包含“百科”二字, 則candiateExp為正確多字詞表達;

② 若存在candidateExp∈SenPairSet, 即在SenPairSet集合中存在si, 使得candidateExp=si; 且SenPairSet集合中ci高于一定閾值FreqThreshold, 則candidateExp為正確多字詞表達.

2) 殘缺串判別規(guī)則.

記c(candidateExp)為candidateExp在檢索結(jié)果中出現(xiàn)的頻次, 殘缺串在搜索結(jié)果中出現(xiàn)的規(guī)律也有兩個特點, 殘缺串類型判別規(guī)則為:

① 若集合SenPairSet存在〈si,ci〉, 使得candidateExp是si的子串,ci高于一定閾值FreqThreshold, 且len(si)-len(candidateExp)

② 在candidateExp的CandidateExpSet集合中, ?splitCanNumi≥c(candidateExp)(1≤i≤n), 且c(candidateExp)>FreqThreshold, 則candidateExp為殘缺串.

3) 冗余串判別規(guī)則.

冗余串在搜索結(jié)果中出現(xiàn)的頻次較低, 將在檢索結(jié)果中出現(xiàn)頻次低于閾值threshold的候選多字詞表達判斷為冗余串.綜合考慮候選多字詞表達在切分后所有切分單元出現(xiàn)的次數(shù), 候選多字詞表達為冗余串的類型判斷閾值為

其中: threshold為candiateExp的類型判斷閾值, 1≤j≤n;n為切分單元總個數(shù).若候選多字詞表達在搜索結(jié)果中出現(xiàn)規(guī)律不符合正確串、殘缺串和冗余串的判定規(guī)則, 則將其刪除, 不作為研究對象.

4) 候選多字詞表達類型判別算法.

綜合以上候選多字詞表達判別的規(guī)則, 候選多字詞表達類型判別算法如下.

輸入: 候選多字詞表達;

輸出: 已分類的候選多字詞表達;

① 讀入一條候選多字詞表達candidateExp;

② 將candidateExp作為查詢串在搜索引擎中進行搜索, 獲取搜索結(jié)果的前20條標題和摘要信息作為搜索結(jié)果語料;

③ 對搜索結(jié)果語料進行切分, 并獲取candidateExp的SenPairSet集合;

④ 判斷candidateExp出現(xiàn)的特點是否符合正確串判別規(guī)則, 如果符合, 判定candidateExp為正確串, 轉(zhuǎn)⑨; 否則轉(zhuǎn)⑤;

⑤ 對candidateExp進行切分, 統(tǒng)計切分單元頻次并構(gòu)建candidateExp的CandiateExpSet集合;

⑥ 判斷candidateExp出現(xiàn)的特點是否符合殘缺串的判別規(guī)則, 若符合, 判定candidateExp為殘缺串, 轉(zhuǎn)⑨; 否則轉(zhuǎn)⑦;

⑦ 根據(jù)式(3)計算冗余串類型判斷閾值threshold;

⑧ 如果candidateExp在搜索結(jié)果中出現(xiàn)的次數(shù)小于threshold, 則判斷其為冗余串; 否則將其刪除;

⑨ 如果讀完最后一個候選多字詞表達, 則退出; 否則轉(zhuǎn)①, 讀入下一條候選多字詞表達.

3.2殘缺串和冗余串的糾正

殘缺串和冗余串的糾正是將殘缺串和冗余串中蘊含的正確多字詞表達抽取出來.根據(jù)正確多字詞表達是冗余串的子串特點, 在冗余串的切分單元集合中, 必存在被包含的多字詞表達.因此, 對冗余串進行切分, 將切分出的子串作為殘缺串進行處理.

殘缺串的糾正是根據(jù)殘缺串相鄰出現(xiàn)字與殘缺串間的共現(xiàn)程度進行擴展, 若殘缺串與其相鄰字共現(xiàn)程度較大, 則認為該殘缺串與相鄰字同屬于一個多字詞表達.因此, 可用相鄰差率的概念衡量兩個詞串的共現(xiàn)程度, 相鄰差率是指一個詞串在語料中出現(xiàn)的頻數(shù)與相鄰字出現(xiàn)頻數(shù)的絕對差占該詞串頻數(shù)的比率.左、右相鄰差分別為詞串左側(cè)的相鄰差率和詞串右側(cè)的相鄰差率, 分別統(tǒng)計串左、右兩側(cè)相鄰出現(xiàn)的字及其頻數(shù), 記詞串str出現(xiàn)的頻數(shù)為f(str), 其左側(cè)相鄰出現(xiàn)的字l_str及其頻數(shù)為f(l_str), 則左相鄰差率leftRate計算方法為

同理, 串str右側(cè)相鄰出現(xiàn)的字r_str及其頻數(shù)為f(r_str), 右相鄰差率rightRate計算方法為

rightRate=|f(str)-f(r_str)|/f(str).

(5)

對殘缺串str的所有相鄰差率進行計算后, 形成左相鄰差率集合: leftRateSet={leftRate1,leftRate2,…,leftRateln}, 其中l(wèi)n為左相鄰差率的個數(shù).則左相鄰差率的閾值選取方法為

同理, 右相鄰差率閾值選擇方法為

其中rn為右相鄰差率的個數(shù).若str的相鄰差率小于閾值, 則向相應邊界添加一個字, 然后迭代計算其左右相鄰差率, 直至大于閾值或迭代次數(shù)大于一定次數(shù), 將擴展出的詞串作為糾正的多字詞表達.

對殘缺串進行補全時可能會由一個串得到多個串, 因此需要對得到的多字詞表達在原問句語料庫中進行驗證, 將不屬于原語料庫中的多字詞表達刪除, 最終得到多字詞表達列表.

4 實驗結(jié)果與分析

實驗選用新浪愛問知識人中健康與醫(yī)學領(lǐng)域已解決問題的154 003個問句作為實驗對象, 從中提取多字詞表達.

4.1實驗結(jié)果

本文采用多字詞表達抽取的準確率(precision,P)、召回率(recall,R)和F值(F-measure,F)評價指標對實驗結(jié)果進行評價, 計算方法為:

實驗中, 過濾掉在語料中出現(xiàn)次數(shù)小于3的字符串.選用多組實驗對參數(shù)進行最優(yōu)選擇, 最終選定結(jié)果為: 互信息閾值經(jīng)過實驗觀察, 選取-10作為閾值; 詞串合并窗口window為4; 判斷詞串單元獨立出現(xiàn)次數(shù)的閾值FreqThreshold=4, 判斷為殘缺串在搜索結(jié)果中出現(xiàn)的次數(shù)最低為10, 窗口window為3; 殘缺串補全迭代次數(shù)最多為4次.本文未將分詞詞表中已有的詞列入考察范圍, 實驗共獲取候選多字詞表達10 326個, 經(jīng)過本文方法處理, 最終獲得9 822個多字詞表達.

為驗證本文方法的有效性, 參考文獻[1]并結(jié)合本文語料的特點, 選用文獻[1]中提出的互信息和停用詞過濾方法作為對比實驗.隨機從實驗得到的多字詞表達列表中抽取1 000個多字詞表達, 人工標注其正確的個數(shù), 并計算其準確率; 再隨機從實驗語料中抽取1 000個多字詞表達, 統(tǒng)計其在實驗抽取的多字詞表達中正確識別的個數(shù), 計算其召回率.準確率、召回率和F值的計算結(jié)果列于表1.

表1 實驗結(jié)果對比Table 1 Comparison of experimental results

實驗過程中, 在對候選多字詞表達類型進行判別時, 被剔除的候選多字詞表達共有13個, 其余均被判別到3個類別中; 分別從正確串、冗余串、殘缺串類別中各隨機抽取500個多字詞表達, 統(tǒng)計其識別的準確率, 結(jié)果列于表2.

表2 3個類別的準確率對比Table 2 Three categories of precision comparison

選取部分候選多字詞表達和其經(jīng)過本文候選多字詞表達類型判斷、糾正后的結(jié)果列于表3.

表3 實驗抽取的部分多字詞表達對比Table 3 MWEs comparison of experimental results

4.2實驗分析

由表1可見, 對比實驗存在準確率和召回率均偏低的問題, 而本文方法中, 借助搜索引擎對候選多字詞表達進行類型判別, 并對其中的冗余串和殘缺串進行糾正, 使準確率和召回率都得到了提高, 表明本文方法具有較好的實驗效果.

由表2和表3可見, 對判別為正確串的多字詞表達, 識別準確率較好; 對殘缺串和冗余串的識別效果較未進行校正的結(jié)果有較大提高.由于將詞頻小于3的候選串過濾掉, 存在一些僅出現(xiàn)一次的人名、地名、機構(gòu)名等不能被識別出來, 導致召回率低; 停用詞表過濾時, 像“阿”等類別字, 對大部分詞串均是停用詞, 而對小部分的多字詞表達如“阿奇霉素”卻不是停用詞, 將這類詞作為停用詞, 也是導致召回率低的原因.在分析識別錯誤的多字詞表達時, 發(fā)現(xiàn)大部分不正確的多字詞表達類似: “谷丙轉(zhuǎn)氨酶58”等冗余串和不具有實際意義的錯誤串, 多字詞表達后加一個數(shù)字的情況主要是由于這兩部分經(jīng)常共現(xiàn)的緣故, 而錯誤串本身的統(tǒng)計特征不明顯, 是識別的難點.

綜上所述, 本文首次在互動問答社區(qū)的問句中進行多字體表達提取, 提出了互動問答社區(qū)問句中多字詞表達提取的方法.在分析互動問答社區(qū)中用戶提問問題特點的基礎上, 結(jié)合這些特點和已有的研究結(jié)果, 采用互信息方法及停用詞表的方法獲取問句中的候選多字詞表達.進一步分析了候選多字詞表達的特點, 并結(jié)合問句中多字詞表達屬于互聯(lián)網(wǎng)資源的特點, 提出了基于搜索引擎的多字詞表達校正方法.利用搜索引擎對查詢串的優(yōu)化和其在互聯(lián)網(wǎng)的搜索結(jié)果, 對候選多字詞表達進行類型判別, 并根據(jù)不同類型進行糾正, 最終在原語料中對得到的多字詞表達進行驗證, 達到了較好的實驗效果.

[1]劉榮, 王麗娟, 張志平, 等.利用高頻詞和互信息面向特定領(lǐng)域提取多字詞表達 [J].太原理工大學學報, 2009, 40(3): 210-214.(LIU Rong, WANG Lijuan, ZHANG Zhiping, et al.The Extraction of Multiword Expression in Special Field with High Frequency Words and Mutual Information [J].Journal of Taiyuan University of Technology, 2009, 40(3): 210-214.)

[2]Sag I A, Baldwin T, Bond F, et al.Multiword Expressions: A Pain in the Neck for NLP [C]//Proceedings of the Third International Conference on Computational Linguistics and Intelligent Text Processing.Berlin: Springer, 2002: 1-15.

[3]王恒.中文問答系統(tǒng)的研究與實現(xiàn) [D].哈爾濱: 哈爾濱工業(yè)大學, 2008.(WANG Heng.Research and Implement of Chinese Q & A System [D].Harbin: Harbin Institute of Technology, 2008.)

[4]Kenneth W C, Hanks P.Word Association Norms, Mutual Information and Lexicography (rev) [J].Comput Linguist, 1990, 16(1): 22-29.

[5]Pecina P.A Machine Learning Approach to Multiword Expression Extraction [C]//Proceedings of the LREC 2008 Workshop towards a Shared Task for Multiword Expressions.Marrakech, Morocco: [s.n.], 2008: 54-57.

[6]Aline V, Kordoni V, ZHANG Yi, et al.Validation and Evaluation of Automatically Acquired Multiword Expressions for Grammar Engineering [C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL).Prague, Chech: [s.n.], 2007: 1034-1043.

[7]Ramisch C, Schreiner P, Idiart M, et al.An Evaluation of Methods for the Extraction of Multiword Expressions [C]//Proceedings of the LREC 2008 Workshop towards a Shared Task for Multiword Expressions.Marrakech, Morocco: [s.n.], 2008: 50-53.

[8]Al-Haj H, Wintner S.Identifying Multi-word Expressions by Leveraging Morphological and Syntactic Idiosyncrasy [C]//Proceedings of the 23rd International Conference on Computational Linguistics.Beijing: IEEE, 2010: 10-18.

[9]Tsvetkov Y, Wintner S.Identification of Multi-word Expressions by Combining Multiple Linguistic Information Sources [C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing.Edinburgh, England: [s.n.], 2011: 836-845.

[10]Fazly A, Stevenson S.Automatically Constructing a Lexicon of Verb Phrase Idiomatic Combinations [C]//Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL).Trento, Italy: [s.n.], 2006: 337-344.

[11]DUAN Jianyong, ZHANG Mei, TONG Lijing, et al.A Hybrid Approach to Improve Bilingual Multiword Expression Extraction [C]//Advances in Knowledge Discovery and Data Mining.Berlin: Springer, 2009: 541-547.

[12]劉榮, 王奕凱.利用統(tǒng)計量和語言學規(guī)則提取多字詞表達 [J].太原理工大學學報, 2011, 42(2): 133-137.(LIU Rong, WANG Yikai.Extracting Multiword Expressions with Statistics and Linguistic Rules [J].Journal of Taiyuan University of Technology, 2011, 42(2): 133-137.)

[13]胡玉溪.基于雙語語料的漢語多詞表達抽取 [D].北京: 北京郵電大學, 2011.(HU Yuxi.Multi-word Expression Extraction Based on Chinese-English Bilingual Corpus [D].Beijing: Beijing University of Posts and Telecommunications, 2011.)

[14]ZHANG Huaping, YU Hongkui, XIONG Deyi, et al.HHMM-Based Chinese Lexical Analyzer ICTCLAS [C]//Proceedings of the 2nd SigHan Workshop on Chinese Language Processing.Sapporo, Japan: ACL, 2003: 184-187.

[15]Magerman D M, Marcus M P.Parsing a Natural Language Using Mutual Information Statistics [C]//National Conference on Artificial Intelligence.Palo Alto, USA: AAAI, 1990: 984-989.

ExtractionofMultiwordExpressionsinQuestionsofQuestionAnsweringCommunities

WU Ruihong1, Lü Xueqiang1, LI Zhuo1, SHU Yan2
(1.BeijingKeyLaboratoryofInternetCultureandDigitalDisseminationResearch,
BeijingInformationScienceandTechnologyUniversity,Beijing100101,China;
2.BeijingTRSInformationTechnologyCo.Ltd.,Beijing100101,China)

The multiword expressions (MWEs) in the questions of question answering communities have direct relationship with question interpretation.We first proposed the idea of extracting MWEs from the questions of question answering communities.According to the characteristics of multiword expressions in the questions, we proposed a method of extracting MWEs in questions of question answering communities.In this method, we first used mutual information method and stop words filtering method to get the candidate MWEs.Then we classified the candidate MWEs into four types: right string, incomplete string, redundancy string and error string.At last, with the help of query optimization in search engines and the candidate MWEs retrieval results on the internet, we designed a revising method to get the MWEs.We took the questions in Sina iask question library as the experimental corpus.And the results show that the precision, recall and theF-measure can reach 84%, 52%, 0.64 respectively, which proves the effectiveness of the proposed method.

multiword expressions; question interpretation; mutual information; search engine

2013-09-09.

吳瑞紅(1988—), 女, 漢族, 碩士研究生, 從事自然語言處理的研究, E-mail: ruihong0417@163.com.

國家自然科學基金(批準號: 61171159; 61271304)和北京市教委科技發(fā)展計劃重點項目暨北京市自然科學基金B(yǎng)類重點項目(批準號: KZ201311232037).

TP391.1

A

1671-5489(2014)06-1230-09

10.13413/j.cnki.jdxblxb.2014.06.25

韓 嘯)

猜你喜歡
詞串互信息搜索引擎
靈動的詞串,寫話的紐帶
報紙新聞標題中的“熱詞群”和“熱詞串”
基于互信息的貝葉斯網(wǎng)絡結(jié)構(gòu)學習
聯(lián)合互信息水下目標特征選擇算法
網(wǎng)絡搜索引擎亟待規(guī)范
改進的互信息最小化非線性盲源分離算法
基于增量式互信息的圖像快速匹配方法
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
基于Lucene搜索引擎的研究
學習者碩士學位論文中的詞串研究