国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

綜合多特征值相似度在參考咨詢問答系統(tǒng)中的應(yīng)用

2014-07-09 20:25申安來宋欣
山東工業(yè)技術(shù) 2014年4期
關(guān)鍵詞:相似度匹配權(quán)重

申安來 宋欣

【摘 要】自動(dòng)問答系統(tǒng)給某個(gè)提問提供簡(jiǎn)單而精確回答,與信息檢索任務(wù)和與信息提取任務(wù)極為不同。在自動(dòng)問答系統(tǒng)中存在多個(gè)難點(diǎn),其中,相似度是眾多學(xué)者關(guān)注的一個(gè)領(lǐng)域,本文是對(duì)句子相似度計(jì)算研究的一個(gè)探索,主要從漢語句子中涉及到的詞語、句法結(jié)構(gòu)和語義分析三個(gè)不同層次對(duì)句子的相似度計(jì)算進(jìn)行了研究,提出了一種綜合多特征的句子相似度計(jì)算方法。

【關(guān)鍵詞】自動(dòng)問答;相似度;匹配;權(quán)重

0 引言

自動(dòng)問答系統(tǒng)(Automatic Question and Answering System),是自然語言處理領(lǐng)域一個(gè)熱點(diǎn)問題,與傳統(tǒng)的搜索引擎相比,自動(dòng)問答系統(tǒng)能夠更好地滿足人們的檢索需求,目前國內(nèi)外已有許多不同專業(yè)領(lǐng)域或開放域的自動(dòng)問答系統(tǒng),大致可以分為以下幾種[1]:

(1)聊天機(jī)器人:采用自然語言的方式回答用戶提問的問題。原理是在對(duì)話庫中搜集各種句型和模板,然后提取用戶的問題中的關(guān)鍵詞,然后檢索對(duì)話庫,主要通過模式匹配的技術(shù)來檢索問題最佳答案。

(2)基于知識(shí)庫的自動(dòng)問答系統(tǒng):采用自然語言理解技術(shù)對(duì)用戶提問的問題在知識(shí)庫進(jìn)行檢索問題的答案。由于此類型的問答系統(tǒng)利用了自然理解技術(shù),并且是基于知識(shí)庫的檢索,因此它在一定程度上能夠?qū)崿F(xiàn)智能回答。但是,由于該類型的自動(dòng)問答系統(tǒng)依賴于知識(shí)庫,所提問的問題必須限定在知識(shí)庫的范圍內(nèi),一旦在知識(shí)庫的范圍外,系統(tǒng)的答疑性能就會(huì)很低,甚至為0,此類自動(dòng)問答系統(tǒng)經(jīng)常會(huì)出現(xiàn)知識(shí)庫瓶頸的情況。

(3)問答式檢索系統(tǒng):用戶采用自然語言的方式提交問題進(jìn)行檢索查詢,此類系統(tǒng)是從系統(tǒng)的文檔集合或者互聯(lián)網(wǎng)中檢索出相關(guān)的文本或者相關(guān)的網(wǎng)頁,并將這些文本或者網(wǎng)頁返回給用戶。目前典型的問答式檢索系統(tǒng)有麻省理工學(xué)院開發(fā)的Start 問答系統(tǒng)、密歇根大學(xué)開發(fā)的 AnswerBus 問答系統(tǒng)、美國 Askjeeves公司的 Askjeeves檢索系統(tǒng)等等,此類系統(tǒng)雖然允許用戶以自然語言的方式進(jìn)行提問,但是返回的結(jié)果只是相關(guān)的網(wǎng)頁,并沒有以自然語言方式把答案返回給用戶。

1 問答系統(tǒng)多種算法的特點(diǎn)

傳統(tǒng)搜索引擎中用戶提交查詢關(guān)鍵字以后,搜索引擎返回一系列與關(guān)鍵字相關(guān)的網(wǎng)頁HTML文檔,之后用戶需要從大量文檔資料中白己搜尋合適的信息;自動(dòng)問答系統(tǒng)根據(jù)用戶提交的查詢問題進(jìn)行處理,直接以簡(jiǎn)單的文本語句為答案進(jìn)行返回,用戶可以以最直接的方式獲得問題的結(jié)果。返回結(jié)果的準(zhǔn)確性以及簡(jiǎn)單化使得自動(dòng)問答系統(tǒng)具有更好的用戶體驗(yàn)。自動(dòng)問答系統(tǒng)傳統(tǒng)的處理方式為:首先,對(duì)用戶提交的問句進(jìn)行分析,主要進(jìn)行漢語分詞、句法分析等基礎(chǔ)工作:然后使用分析后的問句在給定的文檔集中進(jìn)行檢索,返回初始的結(jié)果集合;最后處理返回結(jié)果集,主要是采用信息抽取技術(shù),挖掘出結(jié)果集合中與問題相關(guān)的結(jié)果。這種方式雖然能夠返回用戶滿意的結(jié)果,但是卻存在一定的問題,主要表現(xiàn)在有較大的查詢延遲。在自動(dòng)問答系統(tǒng)中加入常問問題集,能夠有效的改善這種狀態(tài)。問題集中包含了用戶提問頻率較高的問題以及其對(duì)應(yīng)的答案,當(dāng)用戶提出問題后,系統(tǒng)首先查找FAQ問題庫集,如果庫中存在問題,則直接返回問題答案,這樣可以大大縮減用戶查詢的延遲,給用戶提供了一個(gè)方便、快捷地解答疑問的途徑,具有較強(qiáng)的實(shí)用價(jià)值。句子相似度計(jì)算在自動(dòng)問答系統(tǒng)中的應(yīng)用主要體現(xiàn)在用戶問句與常問問題庫中問句的匹配,指用戶的問句與常問問題庫中的問句進(jìn)行相似度計(jì)算,如果相似度計(jì)算的結(jié)果滿足一定的值則說明了兩個(gè)問句表達(dá)了類似的含義,是同一問題的不同描述,它們共享同一答案,可以直接將問題庫中答案返回給用戶。

經(jīng)過多位學(xué)者多年的研究,我們可以發(fā)現(xiàn)當(dāng)前的問答系統(tǒng)主要有以下幾點(diǎn)欠缺[2]:(1)在分詞方面采用基于詞典的分詞算法,或者借助于現(xiàn)有的分詞工具如中科院的 ICTCLAS,前者是能夠準(zhǔn)確劃分專業(yè)詞匯以及組合詞匯,但是經(jīng)常會(huì)出現(xiàn)某些詞在詞典中沒有找到,有的學(xué)者把這種詞叫做未登錄詞,導(dǎo)致不能正確的分詞,而后者即借助于現(xiàn)有的分詞工具不能準(zhǔn)確劃分專業(yè)詞匯以及組合詞匯;(2)在計(jì)算詞語相似度方面采用基于《知網(wǎng)》的語義相似度,或者采用基于領(lǐng)域本體的概念相似度,而這兩種計(jì)算詞語相似度方法各有優(yōu)缺點(diǎn),前者對(duì)于專業(yè)詞匯之間的語義相似度,特別是專業(yè)組合詞匯的語義相似度不能準(zhǔn)確的計(jì)算,因?yàn)椤吨W(wǎng)》沒有搜集專業(yè)組合詞匯;同樣后者對(duì)于常用詞匯的相似度的計(jì)算也有不足。

2 句子相似度算法

句子相似度計(jì)算是中文信息處理中的一項(xiàng)基本而核心的工作。它的研究受到人們的廣泛關(guān)注。由于其基礎(chǔ)工作的地位,決定了句子相似度計(jì)算的重要性,它被廣泛應(yīng)用于中文信息處理的各個(gè)方面,它的研究工作的開展?fàn)顩r對(duì)其他一些相關(guān)領(lǐng)域的工作起著決定性的作用。有的學(xué)者將句子相似度計(jì)算應(yīng)用于機(jī)器翻譯中,用以找出類似的譯文;還有的算法將句子相似度計(jì)算用于常問問題庫的問答系統(tǒng)中,通過相似度計(jì)算找到目標(biāo)問句的答案;同時(shí)還用于信息檢索領(lǐng)域,用來查找與目標(biāo)檢索相似的句子等。

傳統(tǒng)的句子相似度計(jì)算方法主要有三種[3],這三種方法都或多或少存在一些不夠完美的地方:一種是基于關(guān)鍵詞信息的方法,具有代表性的是基于向量空間模型的TF一IDF方法,這種方法是將文檔映射為向量空間中的一點(diǎn),這個(gè)點(diǎn)的坐標(biāo)由文檔中相互獨(dú)立的詞條組構(gòu)成,坐標(biāo)的值為文檔中的每一詞條,依據(jù)它在文檔中的重要程度被賦予的權(quán)值W,即(Wl,W2,…,Wn)為坐標(biāo)值。這樣就構(gòu)成詞條矢量,從而把向量空間中的矢量匹配問題用來解決文檔信息中的問句匹配問題。句子的相似度與向量空間的夾角成反比,即向量間的夾角越大,句子相似度越低,夾角越小,句子相似度就越高。向量空間模型的TF一IDF方法是對(duì)關(guān)鍵詞詞頻進(jìn)行統(tǒng)計(jì)的方法,要使統(tǒng)計(jì)效果很好地表現(xiàn)出來,句子中包含的詞語數(shù)量需要足夠得多,相關(guān)的詞語才會(huì)重復(fù)出現(xiàn),因此這種方法是以大規(guī)模語料做為基礎(chǔ)的。另外,TF一IDF方法對(duì)于同義詞以及一詞多義情況計(jì)算效果不太好,因?yàn)檫@種方法只考慮了詞語在上下文中的統(tǒng)計(jì)信息,而沒有考慮詞語蘊(yùn)含的語義信息。

基于語義信息的句子相似度計(jì)算方法是通過計(jì)算句子的詞語相似度從而得到句子的相似度[4]。句子詞語的相似度通過計(jì)算詞語對(duì)應(yīng)的概念在概念層次體系結(jié)構(gòu)中的距離得到的,概念間的距離又由概念的上下位、同義和反義關(guān)系得到。因此使用這種方法計(jì)算句子相似度時(shí)兩個(gè)句子中的詞語間需要具有一定的語義相關(guān)性,這種相關(guān)性建立在它們?cè)诟拍铋g的層次網(wǎng)絡(luò)中存在一條通路這樣的假設(shè)基礎(chǔ)上。基于語義信息的方法需要依賴于比較完備的大型語義詞典,這些詞典是按照概念間層次關(guān)系組織的。在英文方面,常用的具有代表性的語義詞典有wordNet等;漢語方面有《知網(wǎng)》(HowNet)《同義詞詞林》等。基于語義信息的句子相似度計(jì)算方法會(huì)因?yàn)檎Z義詞典的不全面和未登錄詞語義代碼的缺失而給計(jì)算結(jié)果帶來一定的誤差。另外,基于語義信息的句子相似度計(jì)算方法在計(jì)算句子相似度時(shí),沒有考慮句子的結(jié)構(gòu)信息,計(jì)算過程中采用了一種最大匹配法,準(zhǔn)確率還沒有達(dá)到使人滿意的程度。三是基于句法結(jié)構(gòu)信息的句子相似度計(jì)算方法,基于句法結(jié)構(gòu)信息的句子相似度計(jì)算方法又可分為結(jié)合詞序的方法和基于句法結(jié)構(gòu)分析的方法。結(jié)合詞序的方法具有代表性的是基于編輯距離的句子相似度計(jì)算方法?;诰浞ńY(jié)構(gòu)分析的方法典型的是基于語義依存的句子相似地方計(jì)算方法。這種基于句法結(jié)構(gòu)信息的句子相似度計(jì)算方法在計(jì)算句子相似度時(shí)把句法結(jié)構(gòu)信息納入相似度計(jì)算中,對(duì)句子理解更為充分,理論上是一種較為理想的的計(jì)算方法。這種方法的缺陷主要在于算法的正確性與句法分析技術(shù)的正確率禍合性太強(qiáng),而現(xiàn)在句法分析的技術(shù)還有待完善,從而導(dǎo)致該種方法的準(zhǔn)確率難以提高,使得方法實(shí)用性不強(qiáng)。因此,針對(duì)現(xiàn)有句子相似度計(jì)算方法考慮不全面的問題,本文提出了一種改進(jìn)的句子相似度計(jì)算方法,即綜合多特征的句子相似度計(jì)算方法,這種方法在計(jì)算句子相似度時(shí)綜合考慮句子所包含的詞語信息、詞語的語義信息和句法結(jié)構(gòu)信息,利用句子的深層信息和表層信息,加權(quán)整合特征權(quán)值,對(duì)目前句子相似度計(jì)算會(huì)起到一定的促進(jìn)作用。

綜合多特征的句子相似度計(jì)算方法,在計(jì)算句子相似度時(shí)綜合考慮了句子的詞形信息、詞語語義信息和句子的句法結(jié)構(gòu)信息這三個(gè)層面的信息,這種方法在理論上是可行的:首先,計(jì)算句子相似度時(shí)可以分別根據(jù)句子的任一方面信息進(jìn)行計(jì)算,并且國內(nèi)外學(xué)者對(duì)這方面研究也比較成熟。也可以將句子的某些方面的信息綜合到一起來計(jì)算句子相似度,利用編輯距離和依存文法結(jié)合來計(jì)算句子相似度。由此可見,綜合多特征是可行的。其次,綜合多特征是合理的。因?yàn)椴捎媚骋环矫娴男畔⒂?jì)算句子相似度,其結(jié)果是有一定的使用范圍和局限性的;而采用多特征綜合的方法可以在某些場(chǎng)合彌補(bǔ)這種不足。最后,綜合多特征有時(shí)是必要的。在計(jì)算句子相似度的過程中,應(yīng)該針對(duì)不同的語料特征,利用不同的句子信息來計(jì)算句子相似度,而不應(yīng)該一層不變。比如:在有的領(lǐng)域,語義信息有很大的作用,基于語義信息的句子相似度方法正好可以解決這種問題;而在另外的領(lǐng)域,詞形信息有很大的作用,基于關(guān)鍵詞信息的方法效果不錯(cuò)。因此,針對(duì)不同性質(zhì)的語料中,各信息側(cè)重不同的特點(diǎn),有必要把多元信息綜合起來,在實(shí)際運(yùn)用過程中可以通過調(diào)整權(quán)重來處理更為廣泛的語料[5]。

3 結(jié)語

本文提出了一種綜合多特征的句子相似度計(jì)算方法。綜合多特征的句子相似度計(jì)算方法在計(jì)算句子相似度時(shí)綜合考慮了組成句子的詞形信息、詞語語義信息和句法結(jié)構(gòu)信息,利用句子的深層信息和表層信息,通過加權(quán)整合特征權(quán)值的方式,以期達(dá)到提高句子相似度計(jì)算準(zhǔn)確率的目的。為此,在計(jì)算兩個(gè)句子的句法結(jié)構(gòu)相似度時(shí),將綜合多特征的句相似度計(jì)算方法應(yīng)用于計(jì)算機(jī)領(lǐng)域問答系統(tǒng)的FAQ問句匹配中,從而驗(yàn)證算法的有效性。

【參考文獻(xiàn)】

[1]卜文娟.基于概念圖的中文問答系統(tǒng)的研究與實(shí)現(xiàn)[D].西北大學(xué),2010.

[2]夏天,樊孝忠,駱正華,等.改進(jìn)編輯距離算法與漢語句子相似度計(jì)算[C]//中國科協(xié)第2屆優(yōu)秀博十生學(xué)術(shù)年會(huì).蘇州:2004,444-449.

[3]胡國全,陳家駿,戴新宇,等.一種基于實(shí)例的漢英機(jī)器翻譯策略[J].計(jì)算機(jī)工程與設(shè)計(jì),2005(4):900-903.

[4]楊思春,陳家駿.中文自動(dòng)問答中句子相似度計(jì)算研究[J].情報(bào)學(xué)報(bào),2008,27(1):35-41.

[5]王永智.限定域中文問答系統(tǒng)關(guān)鍵技術(shù)的研究[D].東南大學(xué),2009.

[責(zé)任編輯:周娜]

猜你喜歡
相似度匹配權(quán)重
權(quán)重漲個(gè)股跌 持有白馬藍(lán)籌
改進(jìn)的協(xié)同過濾推薦算法
模糊Petri網(wǎng)在油田開發(fā)設(shè)計(jì)領(lǐng)域的應(yīng)用研究
中職學(xué)生職業(yè)性向測(cè)評(píng)維度與就業(yè)崗位匹配研究
基于新型雙頻匹配電路的雙頻低噪聲放大器設(shè)計(jì)
工程車輛柴油機(jī)與液力變矩器的功率匹配及優(yōu)化分析
氣質(zhì)類型在檔案工作中的應(yīng)用
相似度算法在源程序比較中的應(yīng)用
影響母線負(fù)荷預(yù)測(cè)的因素及改進(jìn)措施
各省輿情熱度榜
古丈县| 贵定县| 新邵县| 青铜峡市| 罗甸县| 宝坻区| 盐池县| 乐都县| 涡阳县| 周口市| 福海县| 且末县| 罗源县| 喀喇| 许昌市| 成安县| 尖扎县| 洞口县| 东乡县| 左云县| 长子县| 逊克县| 佛坪县| 安徽省| 德江县| 封开县| 永丰县| 喀喇沁旗| 北碚区| 大厂| 城步| 陆河县| 南康市| 德保县| 白河县| 桦川县| 威宁| 抚宁县| 洛隆县| 报价| 巨鹿县|