国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于句子多種特征的相似度計(jì)算模型

2016-11-07 18:27:42李秋明張衛(wèi)山張培穎
軟件導(dǎo)刊 2016年9期

李秋明++張衛(wèi)山++張培穎

摘要:句子相似度計(jì)算模型在基于實(shí)例的機(jī)器翻譯中有著舉足輕重的地位。提出了一種基于多特征加權(quán)的句子相似度計(jì)算模型,在對(duì)中文句子的詞形、詞序、句法和語(yǔ)義4種特征相似度計(jì)算的基礎(chǔ)上,融合這4種特征,通過(guò)采用不同的特征權(quán)重來(lái)調(diào)節(jié)不同特征對(duì)句子相似度計(jì)算的影響,使得句子相似度計(jì)算更加準(zhǔn)確。實(shí)驗(yàn)結(jié)果表明,該算法在計(jì)算句子相似度方面準(zhǔn)確性較高。

關(guān)鍵詞:句子相似度;詞語(yǔ)相似度;詞序相似度;句法相似度;語(yǔ)義相似度

DOIDOI:10.11907/rjdk.161604

中圖分類號(hào):TP301

文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2016)009000402

基金項(xiàng)目基金項(xiàng)目:山東省自然科學(xué)基金項(xiàng)目(ZR2014FQ018)

作者簡(jiǎn)介作者簡(jiǎn)介:李秋明(1981-),女,山東濟(jì)寧人,中國(guó)石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院碩士研究生,研究方向?yàn)樽匀徽Z(yǔ)言處理、句子相似度計(jì)算;張衛(wèi)山(1970-),男,山東萊陽(yáng)人,中國(guó)石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院教授,研究方向?yàn)榇髷?shù)據(jù)處理和普適云計(jì)算;張培穎(1981-),男,遼寧盤錦人,中國(guó)石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院講師,研究方向?yàn)樽匀徽Z(yǔ)言處理、未來(lái)網(wǎng)絡(luò)架構(gòu)和云計(jì)算。本文通訊作者為張培穎。

0引言

度量?jī)蓚€(gè)文本之間的語(yǔ)義相似度是自然語(yǔ)言處理領(lǐng)域中基礎(chǔ)的研究課題。兩個(gè)文本之間的語(yǔ)義相似度度量可以應(yīng)用在許多自然語(yǔ)言處理任務(wù)中,例如:文本抄襲檢測(cè)、查詢結(jié)果評(píng)價(jià)以及自動(dòng)問(wèn)答系統(tǒng)等。

由于中文句法表達(dá)的多樣性和中文標(biāo)注語(yǔ)料庫(kù)資源的缺乏,導(dǎo)致計(jì)算兩個(gè)句子的相似度非常困難。研究人員只能利用有限的語(yǔ)料資源和句子的表層特征進(jìn)行句子相似度計(jì)算。隨著自然語(yǔ)言處理技術(shù)的迅速發(fā)展,學(xué)者對(duì)句子之間的語(yǔ)義相似度提出了許多計(jì)算方法。這些方法按照對(duì)語(yǔ)句的分析程度分為基于統(tǒng)計(jì)的方法和基于知識(shí)的方法?;诮y(tǒng)計(jì)的方法借助大規(guī)模語(yǔ)料庫(kù)計(jì)算句子中的詞語(yǔ)或短語(yǔ)出現(xiàn)的頻次,或者利用N-Grammar的方法計(jì)算短語(yǔ)出現(xiàn)的頻次來(lái)度量?jī)蓚€(gè)句子之間的語(yǔ)義相似度。代表性方法有基于向量模型的方法[1]、句子相似模型和最相似句子查找算法[2];基于知識(shí)的方法主要是利用語(yǔ)義知識(shí)計(jì)算句子的相似度,比較有代表性的有:基于中文句子的依存關(guān)系計(jì)算句子之間的相似度[9]、多種層次融合的句子相似度計(jì)算模型[10]、一種改進(jìn)的句子相似度計(jì)算模型[11]。

本文主要從中文句子所包含的多種特征角度出發(fā),考慮中文句子的詞形、詞序、句法和語(yǔ)義4個(gè)方面特征,這4個(gè)特征在表達(dá)句子信息時(shí)各有側(cè)重、互為補(bǔ)充。實(shí)驗(yàn)數(shù)據(jù)表明,該算法在計(jì)算句子相似度方面具有較高的準(zhǔn)確率。

2實(shí)驗(yàn)結(jié)果分析

測(cè)試采用MSRP語(yǔ)料庫(kù)中的句子。MSRP語(yǔ)料庫(kù)中的句子是英文的,我們首先翻譯成中文,然后利用本文方法進(jìn)行句子相似度計(jì)算。

對(duì)比句子相似度算法有:TF-IDF方法、語(yǔ)義依存方法和本文方法,測(cè)試實(shí)驗(yàn)結(jié)果如表1所示。

從實(shí)驗(yàn)結(jié)果可以看出:本文提出的多特征融合句子相似度計(jì)算方法性能優(yōu)于語(yǔ)義依存的計(jì)算方法,原因在于該方法綜合考慮了中文句子中包含的詞語(yǔ)、詞序、句法和語(yǔ)義4種特征。我們對(duì)計(jì)算錯(cuò)誤的13對(duì)中文句子仔細(xì)分析,發(fā)現(xiàn)產(chǎn)生計(jì)算錯(cuò)誤的句子中包含未登錄詞,在進(jìn)行句法分析時(shí)出現(xiàn)了錯(cuò)誤。含有未登錄詞的句子在進(jìn)行語(yǔ)義計(jì)算時(shí)出現(xiàn)錯(cuò)誤,所以準(zhǔn)確率也隨之降低。

參考文獻(xiàn):

[1]張奇,黃萱菁,吳立德.一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[J].中文信息學(xué)報(bào),2004,19(2):9399.

[2]呂學(xué)強(qiáng),任飛亮,黃志丹,等.句子相似模型和最相似句子查找算法[J].東北大學(xué)學(xué)報(bào):自然科學(xué)版, 2003,24(6):531534.

[3]XIONG JING,LIU YUN TONG,YUAN DONG.Dependency syntactic tree supported sentence similarity computing[J].Information Technology Journal.2013,12(20):56855688.

[4]張培穎.多特征融合的語(yǔ)句相似度計(jì)算模型[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(26):136137.

[5]劉群,李素建.基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算[C].臺(tái)北:第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì),2002.

[6]夏天.中文信息相似度計(jì)算理論與方法[M].鄭州:河南科學(xué)技術(shù)出版社, 2009.

[7]江敏,肖詩(shī)斌,王弘蔚,等.一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2008,22(5):8489.

[8]趙彥鋒,周曉紅.領(lǐng)域本體的語(yǔ)義相似度算法研究[J].軟件導(dǎo)刊,2015,14(12):4952.

[9]李彬,劉挺,秦兵,等.基于語(yǔ)義依存的漢語(yǔ)句子相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用研究,2003,20(12):1517.

[10]南鉉國(guó),崔榮一.基于多層次融合的語(yǔ)句相似度計(jì)算模型[J].延邊大學(xué)學(xué)報(bào):自然科學(xué)版,2007,33(3):191194.

[11]楊思春.一種改進(jìn)的句子相似度計(jì)算模型[J].電子科技大學(xué)學(xué)報(bào),2006,35(6):956959.

[12]YUHUA LI, ZUHAIR BANDAR, DAVID MCLEAN ,et al.A method for measuring sentence similarity and its application to conversational agents[M].AAAI, 2004.

責(zé)任編輯(責(zé)任編輯:杜能鋼)

监利县| 都江堰市| 额尔古纳市| 邵阳市| 东安县| 翼城县| 安塞县| 怀集县| 育儿| 勃利县| 新郑市| 黄石市| 上高县| 怀集县| 浏阳市| 连平县| 长垣县| 上饶县| 松江区| 久治县| 永昌县| 资阳市| 鄱阳县| 商都县| 类乌齐县| 饶平县| 黔东| 建始县| 务川| 伊春市| 陆良县| 天镇县| 安庆市| 潞西市| 克山县| 新余市| 夏邑县| 利津县| 信丰县| 溧水县| 彭水|