基于句子多種特征的相似度計(jì)算模型

2016-11-07 18:27:42李秋明張衛(wèi)山張培穎

軟件導(dǎo)刊 2016年9期

李秋明++張衛(wèi)山++張培穎

摘要：句子相似度計(jì)算模型在基于實(shí)例的機(jī)器翻譯中有著舉足輕重的地位。提出了一種基于多特征加權(quán)的句子相似度計(jì)算模型，在對(duì)中文句子的詞形、詞序、句法和語(yǔ)義4種特征相似度計(jì)算的基礎(chǔ)上，融合這4種特征，通過(guò)采用不同的特征權(quán)重來(lái)調(diào)節(jié)不同特征對(duì)句子相似度計(jì)算的影響，使得句子相似度計(jì)算更加準(zhǔn)確。實(shí)驗(yàn)結(jié)果表明，該算法在計(jì)算句子相似度方面準(zhǔn)確性較高。

關(guān)鍵詞：句子相似度；詞語(yǔ)相似度；詞序相似度；句法相似度；語(yǔ)義相似度

DOIDOI：10.11907/rjdk.161604

中圖分類號(hào)：TP301

文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)文章編號(hào)：16727800（2016）009000402

基金項(xiàng)目基金項(xiàng)目：山東省自然科學(xué)基金項(xiàng)目（ZR2014FQ018）

作者簡(jiǎn)介作者簡(jiǎn)介：李秋明（1981-），女，山東濟(jì)寧人，中國(guó)石油大學(xué)（華東）計(jì)算機(jī)與通信工程學(xué)院碩士研究生，研究方向?yàn)樽匀徽Z(yǔ)言處理、句子相似度計(jì)算；張衛(wèi)山（1970-），男，山東萊陽(yáng)人，中國(guó)石油大學(xué)（華東）計(jì)算機(jī)與通信工程學(xué)院教授，研究方向?yàn)榇髷?shù)據(jù)處理和普適云計(jì)算；張培穎（1981-），男，遼寧盤錦人，中國(guó)石油大學(xué)（華東）計(jì)算機(jī)與通信工程學(xué)院講師，研究方向?yàn)樽匀徽Z(yǔ)言處理、未來(lái)網(wǎng)絡(luò)架構(gòu)和云計(jì)算。本文通訊作者為張培穎。

0引言

度量?jī)蓚€(gè)文本之間的語(yǔ)義相似度是自然語(yǔ)言處理領(lǐng)域中基礎(chǔ)的研究課題。兩個(gè)文本之間的語(yǔ)義相似度度量可以應(yīng)用在許多自然語(yǔ)言處理任務(wù)中，例如：文本抄襲檢測(cè)、查詢結(jié)果評(píng)價(jià)以及自動(dòng)問(wèn)答系統(tǒng)等。

由于中文句法表達(dá)的多樣性和中文標(biāo)注語(yǔ)料庫(kù)資源的缺乏，導(dǎo)致計(jì)算兩個(gè)句子的相似度非常困難。研究人員只能利用有限的語(yǔ)料資源和句子的表層特征進(jìn)行句子相似度計(jì)算。隨著自然語(yǔ)言處理技術(shù)的迅速發(fā)展，學(xué)者對(duì)句子之間的語(yǔ)義相似度提出了許多計(jì)算方法。這些方法按照對(duì)語(yǔ)句的分析程度分為基于統(tǒng)計(jì)的方法和基于知識(shí)的方法?；诮y(tǒng)計(jì)的方法借助大規(guī)模語(yǔ)料庫(kù)計(jì)算句子中的詞語(yǔ)或短語(yǔ)出現(xiàn)的頻次，或者利用N-Grammar的方法計(jì)算短語(yǔ)出現(xiàn)的頻次來(lái)度量?jī)蓚€(gè)句子之間的語(yǔ)義相似度。代表性方法有基于向量模型的方法[1]、句子相似模型和最相似句子查找算法[2]；基于知識(shí)的方法主要是利用語(yǔ)義知識(shí)計(jì)算句子的相似度，比較有代表性的有：基于中文句子的依存關(guān)系計(jì)算句子之間的相似度[9]、多種層次融合的句子相似度計(jì)算模型[10]、一種改進(jìn)的句子相似度計(jì)算模型[11]。

本文主要從中文句子所包含的多種特征角度出發(fā)，考慮中文句子的詞形、詞序、句法和語(yǔ)義4個(gè)方面特征，這4個(gè)特征在表達(dá)句子信息時(shí)各有側(cè)重、互為補(bǔ)充。實(shí)驗(yàn)數(shù)據(jù)表明，該算法在計(jì)算句子相似度方面具有較高的準(zhǔn)確率。

2實(shí)驗(yàn)結(jié)果分析

測(cè)試采用MSRP語(yǔ)料庫(kù)中的句子。MSRP語(yǔ)料庫(kù)中的句子是英文的，我們首先翻譯成中文，然后利用本文方法進(jìn)行句子相似度計(jì)算。

對(duì)比句子相似度算法有：TF-IDF方法、語(yǔ)義依存方法和本文方法，測(cè)試實(shí)驗(yàn)結(jié)果如表1所示。

從實(shí)驗(yàn)結(jié)果可以看出：本文提出的多特征融合句子相似度計(jì)算方法性能優(yōu)于語(yǔ)義依存的計(jì)算方法，原因在于該方法綜合考慮了中文句子中包含的詞語(yǔ)、詞序、句法和語(yǔ)義4種特征。我們對(duì)計(jì)算錯(cuò)誤的13對(duì)中文句子仔細(xì)分析，發(fā)現(xiàn)產(chǎn)生計(jì)算錯(cuò)誤的句子中包含未登錄詞，在進(jìn)行句法分析時(shí)出現(xiàn)了錯(cuò)誤。含有未登錄詞的句子在進(jìn)行語(yǔ)義計(jì)算時(shí)出現(xiàn)錯(cuò)誤，所以準(zhǔn)確率也隨之降低。

參考文獻(xiàn)：

[1]張奇，黃萱菁，吳立德.一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[J].中文信息學(xué)報(bào)，2004，19（2）：9399.

[2]呂學(xué)強(qiáng)，任飛亮，黃志丹，等.句子相似模型和最相似句子查找算法[J].東北大學(xué)學(xué)報(bào)：自然科學(xué)版， 2003，24（6）：531534.

[3]XIONG JING，LIU YUN TONG，YUAN DONG.Dependency syntactic tree supported sentence similarity computing[J].Information Technology Journal.2013，12（20）：56855688.

[4]張培穎.多特征融合的語(yǔ)句相似度計(jì)算模型[J].計(jì)算機(jī)工程與應(yīng)用，2010，46（26）：136137.

[5]劉群，李素建.基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算[C].臺(tái)北：第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)，2002.

[6]夏天.中文信息相似度計(jì)算理論與方法[M].鄭州：河南科學(xué)技術(shù)出版社， 2009.

[7]江敏，肖詩(shī)斌，王弘蔚，等.一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào)，2008，22（5）：8489.

[8]趙彥鋒，周曉紅.領(lǐng)域本體的語(yǔ)義相似度算法研究[J].軟件導(dǎo)刊，2015，14（12）：4952.

[9]李彬，劉挺，秦兵，等.基于語(yǔ)義依存的漢語(yǔ)句子相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用研究，2003，20（12）：1517.

[10]南鉉國(guó)，崔榮一.基于多層次融合的語(yǔ)句相似度計(jì)算模型[J].延邊大學(xué)學(xué)報(bào)：自然科學(xué)版，2007，33（3）：191194.

[11]楊思春.一種改進(jìn)的句子相似度計(jì)算模型[J].電子科技大學(xué)學(xué)報(bào)，2006，35（6）：956959.

[12]YUHUA LI， ZUHAIR BANDAR， DAVID MCLEAN ，et al.A method for measuring sentence similarity and its application to conversational agents[M].AAAI， 2004.

責(zé)任編輯（責(zé)任編輯：杜能鋼）

軟件導(dǎo)刊2016年9期

軟件導(dǎo)刊的其它文章: 《算法設(shè)計(jì)與分析》課程翻轉(zhuǎn)課堂教學(xué)模式探究 ; Scratch教學(xué)研究綜述 ; 混合學(xué)習(xí)模式及其實(shí)施要點(diǎn) ; 基于網(wǎng)絡(luò)資源的《物聯(lián)網(wǎng)工程導(dǎo)論》課程教學(xué)改革; Node.js與Express技術(shù)在計(jì)算機(jī)課程教學(xué)中的應(yīng)用 ; 《Oracle數(shù)據(jù)庫(kù)》課程教學(xué)模式探究 

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于句子多種特征的相似度計(jì)算模型