国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互譯特征詞對(duì)匹配的老一漢雙語(yǔ)句子相似度計(jì)算方法研究

2019-04-28 12:24李思卓周蘭江周楓張建安
現(xiàn)代電子技術(shù) 2019年24期

李思卓 周蘭江 周楓 張建安

摘要:句子相似度的計(jì)算在自然語(yǔ)言處理的各個(gè)領(lǐng)域有很廣泛的應(yīng)用,但跨語(yǔ)言的句子相似度計(jì)算方法卻非常少。文中提出一種基于互譯特征詞對(duì)匹配,構(gòu)建老一漢雙語(yǔ)句子相似度計(jì)算方法,改進(jìn)了傳統(tǒng)的依賴(lài)于詞形詞序通過(guò)計(jì)算相同詞個(gè)數(shù)和共有單詞的位置信息的相似度計(jì)算方法,充分考慮了老撾語(yǔ)和漢語(yǔ)句子中的詞匯互譯信息、相似概率,避免了由于特征詞位置導(dǎo)致的精度丟失。此方法用來(lái)最終識(shí)別相似度較高的老一漢雙語(yǔ)平行句對(duì),依據(jù)相似度對(duì)源句子和目標(biāo)句子進(jìn)行對(duì)齊,在老一漢雙語(yǔ)平行語(yǔ)料庫(kù)的建設(shè)中使用。實(shí)驗(yàn)結(jié)果表明,此方法在一定程度上提高了老一漢雙語(yǔ)句子相似度計(jì)算的準(zhǔn)確率。

關(guān)鍵詞:老一漢雙語(yǔ)詞典;相似度計(jì)算;算法改進(jìn);雙語(yǔ)句對(duì)識(shí)別;詞匯互譯;實(shí)驗(yàn)驗(yàn)證

中圖分類(lèi)號(hào):TN912.34-34

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1004-373X( 2019) 24-0079-05

0 引言

句子相似度計(jì)算是自然語(yǔ)言處理領(lǐng)域中比較重要的研究課題,在雙語(yǔ)語(yǔ)料中,句子相似度本身是對(duì)齊的基礎(chǔ)因素,而全局的優(yōu)化調(diào)整能進(jìn)一步提高對(duì)齊的正確率。因此,一直以來(lái)句子相似度計(jì)算都是自然語(yǔ)言處理領(lǐng)域中不斷研究的重點(diǎn)問(wèn)題。

在句子相似度計(jì)算研究方面,大致可以分為三類(lèi):基于表層信息,通常計(jì)算句子中詞形、詞序、句長(zhǎng)相似度等信息。邸書(shū)靈等對(duì)基于分詞的語(yǔ)句相似度計(jì)算進(jìn)行了改進(jìn),綜合考慮了詞形、詞序和句子長(zhǎng)度等多方面的信息[1]?;诰渥咏Y(jié)構(gòu),如基于詞類(lèi)串結(jié)構(gòu)、本體結(jié)構(gòu)[2]、詞性及詞性依存結(jié)構(gòu)[3]等。藍(lán)雁玲等通過(guò)計(jì)算詞性及詞性依存信息來(lái)把握句子間的相似性[4]。基于語(yǔ)義資源,主要通過(guò)已經(jīng)建成的語(yǔ)義資源考察詞間的語(yǔ)義關(guān)系[5]來(lái)計(jì)算句子相似度,如基于WordNet[6],HowNet或同義詞林來(lái)計(jì)算。

本文在前人研究的基礎(chǔ)上,針對(duì)雙語(yǔ)語(yǔ)料庫(kù)中的對(duì)齊塊(段落對(duì)齊或者篇章對(duì)齊)提出一種基于互譯特征詞對(duì)匹配,并結(jié)合構(gòu)建的老一漢雙語(yǔ)相似詞典的句子相似度計(jì)算方法,用來(lái)最終識(shí)別相似度高的老一漢雙語(yǔ)平行句對(duì),在老一漢雙語(yǔ)平行語(yǔ)料庫(kù)的建設(shè)中使用。

本文提取老一漢雙語(yǔ)的特征詞生成各自的特征詞列表,根據(jù)排序后的特征詞列表,選擇在列表中分布相近的詞匯作為候選相似對(duì),依據(jù)特征詞列表選取特定窗口的特征詞對(duì),最終生成候選相似對(duì)列表,并計(jì)算每一個(gè)相似對(duì)的相似概率。將候選相似對(duì)中的每一個(gè)相似對(duì)及其相似概率生成老一漢雙語(yǔ)相似詞典,并且根據(jù)特征詞在語(yǔ)料中的上下文不斷擴(kuò)充雙語(yǔ)詞典?;谧罱K的老一漢雙語(yǔ)相似詞典,可以得到漢語(yǔ)句子中每一個(gè)特征詞對(duì)應(yīng)的候選相似集合,得到相似結(jié)果。依據(jù)相似結(jié)果和每一個(gè)相似對(duì)的相似概率,得到老一漢雙語(yǔ)句子的相似度值。

1 篩選互譯特征詞

1.1 傳統(tǒng)的詞形詞序相似度計(jì)算方法

詞形相似度方法是通過(guò)計(jì)算兩個(gè)句子的詞形即相同詞的個(gè)數(shù)來(lái)比較相似度的。首先對(duì)兩個(gè)句子分詞,用SiArr和S7Arr兩個(gè)數(shù)組分別存放兩句子分詞后的單詞,然后再計(jì)算出兩個(gè)句子共同包含的單詞個(gè)數(shù)sum,若共有單詞出現(xiàn)次數(shù)不相同則取最小出現(xiàn)次數(shù)。Len (S1)表示S1分詞后的詞語(yǔ)數(shù),則兩個(gè)句子Si,S2詞形相似度計(jì)算公式為:

CSim( Si,S2)= sum/max( Len( S1), Len( S2)) (1)可以看出,詞形相似度取值范圍為[0,1]。

詞序相似度是通過(guò)共有單詞在兩個(gè)句子中所處的位置信息來(lái)反映兩個(gè)句子的相似度,首先計(jì)算出S1和S2中都出現(xiàn)且只出現(xiàn)一次的詞的集合onews。然后計(jì)算出onews中各個(gè)詞語(yǔ)依次出現(xiàn)在S2中的位置向量,計(jì)算出逆序數(shù)count。利用onews中的詞語(yǔ)在兩個(gè)句子中的順序來(lái)判斷詞序的相似度,容易得出詞序相似度取值范圍為[0,1]。詞形詞序的相似度能夠反映出兩個(gè)句子之間的相似程度,但在跨語(yǔ)言使用中并不是有很好的效果,必須轉(zhuǎn)化為同種語(yǔ)言使用,但是翻譯的過(guò)程中會(huì)導(dǎo)致計(jì)算的準(zhǔn)確率下降。

1.2 特征詞列表建立

無(wú)論哪種文本都存在一些沒(méi)有實(shí)際意義,但是使用頻率很高的虛詞和功能詞,這些詞往往對(duì)于句子的區(qū)分度不大。針對(duì)漢語(yǔ)和老撾語(yǔ)中的一些無(wú)實(shí)際作用的虛詞和功能詞,構(gòu)造停詞表,將這些詞在實(shí)際應(yīng)用中過(guò)濾掉。進(jìn)行特征詞篩選之前,首先對(duì)句子進(jìn)行預(yù)處理,進(jìn)行分詞,利用中科院開(kāi)源的SharpICTCLAS分詞系統(tǒng)[8]和本實(shí)驗(yàn)室開(kāi)發(fā)的Lao Word Segmentation( LaoWS)老撾語(yǔ)分詞系統(tǒng)分別對(duì)漢語(yǔ)文本和老撾語(yǔ)文本分詞,得到漢語(yǔ)和老撾語(yǔ)詞語(yǔ)序列。

TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù),用以評(píng)估字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。其中詞頻(TF)、逆向文件頻率(IDF)表示如下:

TFw=在某一類(lèi)中詞條w出現(xiàn)的次數(shù) (2)

該類(lèi)中所有的詞條數(shù)目

IDF=log 語(yǔ)料庫(kù)的文檔總數(shù)

(3)

包含詞條w的文檔數(shù)+1

TF-IDF= TF.IDF

(4)式(3)中,分母之所以加1是為了避免其為0。

在雙語(yǔ)語(yǔ)料庫(kù)的對(duì)齊塊中,如果一個(gè)源語(yǔ)言句子和一個(gè)目標(biāo)語(yǔ)言句子互為譯文,那么在這個(gè)句對(duì)里面頻率相同的詞匯可能是互為譯文的。在兩個(gè)句子中,相同詞、相近詞體現(xiàn)了兩個(gè)句子的共同點(diǎn),對(duì)兩個(gè)句子相似起到了較大的貢獻(xiàn)作用。本文將TF/IDF值作為篩選特征詞的依據(jù),分別按照TF/IDF值的大小對(duì)老撾語(yǔ)和漢語(yǔ)的特征詞列表中的特征詞進(jìn)行排序,在各自的列表中處于相似位置的詞很可能是互為譯文的。

2 相似度計(jì)算方法

2.1 候選相似對(duì)列表的建立

根據(jù)第一節(jié)得到的排序后的特征詞列表,選擇在列表中分布相近的詞匯作為候選相似對(duì),依次針對(duì)老撾語(yǔ)特征詞列表中的每一個(gè)特征詞,以對(duì)應(yīng)的漢語(yǔ)特征詞為中心選取特定數(shù)目的漢語(yǔ)特征詞,作為老撾語(yǔ)特征詞的候選相似;同理根據(jù)漢語(yǔ)特征詞列表中的每一個(gè)特征詞也選取特定數(shù)目的老撾語(yǔ)特征詞,作為其特征詞的候選相似。由于句子中特征詞之間的聯(lián)系取決于設(shè)定的窗口大小,為了更大限度地將特征詞的對(duì)應(yīng)關(guān)系建立出來(lái),本文將選取的窗口控制在[-2,2]之間。

根據(jù)老撾語(yǔ)和漢語(yǔ)的特征詞列表和候選相似生成候選相似對(duì)列表,此列表中的每一個(gè)相似對(duì)都是可能互為翻譯的老撾語(yǔ)特征詞和漢語(yǔ)特征詞,此時(shí)需要計(jì)算每一個(gè)相似對(duì)的相似概率。在一個(gè)相似對(duì)中,定義老撾語(yǔ)特征詞LWi、漢語(yǔ)特征詞CWj,則這兩個(gè)特征詞之間的相似概率計(jì)算方法如下:

由式(6)可以看出,對(duì)相似概率公式起主要作用的還是漢語(yǔ)和老撾語(yǔ)某個(gè)詞的詞頻,通過(guò)擴(kuò)大窗口來(lái)挑選候選相似可以提高相似概率計(jì)算的準(zhǔn)確性。但是一篇文章中,會(huì)存在某個(gè)詞只存在一次的情況,這樣利用式(6)進(jìn)行計(jì)算,會(huì)存在相似概率為logl=0,為了避免這種情況,將詞頻為1的詞進(jìn)行詞頻加1,防止由于詞頻太低導(dǎo)致句子相似度計(jì)算不正確的情況。

為了更形象地展示特征詞列表的建立過(guò)程,本文選取了老一漢雙語(yǔ)平行語(yǔ)料庫(kù)中的一段文本進(jìn)行實(shí)驗(yàn),將TF/IDF值作為篩選特征詞的依據(jù),構(gòu)建的特征詞列表如圖1所示。

當(dāng)特征詞列表構(gòu)建完成后,通過(guò)漢語(yǔ)一老撾語(yǔ)、老撾語(yǔ)一漢語(yǔ)兩種語(yǔ)言之間候選相似對(duì)的選?。ㄟx取窗口[-2,2]),本文選擇此窗口已經(jīng)能夠?qū)⒗蠐胝Z(yǔ)和漢語(yǔ)的上下文對(duì)應(yīng)關(guān)系盡可能多地包含其中。選取過(guò)程如下:圖1中已經(jīng)給出了特征詞列表,針對(duì)漢語(yǔ)的特征詞,根據(jù)選取窗口的大小,得到從漢語(yǔ)一老撾語(yǔ)的三個(gè)候選相似對(duì)。同理,對(duì)于對(duì)應(yīng)老撾語(yǔ)的特征詞,可以得到老撾語(yǔ)一漢語(yǔ)的三個(gè)候選相似對(duì)。通過(guò)從漢語(yǔ)一老撾語(yǔ)、老撾語(yǔ)一漢語(yǔ)兩個(gè)方向候選相似對(duì)的選取,能夠更大限度地將特征詞的對(duì)應(yīng)關(guān)系建立出來(lái)。相似概率之間的計(jì)算按照式(5)計(jì)算,最終構(gòu)建的部分候選相似對(duì)列表如圖2所示。若某個(gè)詞只存在一次,會(huì)導(dǎo)致相似概率的計(jì)算結(jié)果為0,因此對(duì)詞頻進(jìn)行加1,圖2左下角顯示。

2.2 老一漢雙語(yǔ)相似詞典的建立

通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),根據(jù)候選相似對(duì)列表中的每一個(gè)相似對(duì)生成最初老一漢雙語(yǔ)相似詞典,在控制的窗口內(nèi)選擇的相似對(duì)進(jìn)行計(jì)算后,在每6對(duì)或者8對(duì)相似對(duì)中,會(huì)出現(xiàn)相似概率相同的情況,相似概率越大,將其放在老一漢雙語(yǔ)句子中,兩個(gè)句子之間的相似度值也就越高,成為平行句對(duì)的可能性就越大。為了更大限度地將互譯關(guān)系體現(xiàn)出來(lái),本文將相似對(duì)概率相同的相似對(duì)也考慮進(jìn)去。選擇相似對(duì)概率相同的以及相似概率最大的相似對(duì)進(jìn)入到老一漢雙語(yǔ)詞典中,相似詞典中的每一個(gè)條目包括了老撾語(yǔ)和漢語(yǔ)特征詞對(duì)以及相似概率。

確定好最初老一漢雙語(yǔ)相似詞典之后,通過(guò)詞典中的特征詞在雙語(yǔ)語(yǔ)料中的上下文來(lái)擴(kuò)展雙語(yǔ)詞典,形成最終的老一漢雙語(yǔ)詞典。將雙語(yǔ)詞典中每一對(duì)特征詞對(duì)作為種子翻譯對(duì),如果在原文中發(fā)現(xiàn)經(jīng)常某個(gè)詞經(jīng)常同時(shí)出現(xiàn)在他們前面或者后面,那么將這個(gè)新的詞對(duì)作為新的種子翻譯對(duì)加入到雙語(yǔ)詞典中,這個(gè)過(guò)程是一個(gè)迭代的過(guò)程,直到不能再生成新的詞典條目為止。

同樣地,對(duì)于上文選取出的文本,在對(duì)相似對(duì)的選擇與老一漢雙語(yǔ)詞典的擴(kuò)充之后,篩選部分最終的老一漢雙語(yǔ)相似詞典如圖3所示。

2.3 老一漢雙語(yǔ)句子相似度計(jì)算

在得到最終的老.漢雙語(yǔ)相似詞典之后,通過(guò)查詢(xún)所擴(kuò)充之后的雙語(yǔ)詞典可以得到漢語(yǔ)句子中各個(gè)特征詞對(duì)應(yīng)的老撾語(yǔ)候選相似集合。假設(shè)漢語(yǔ)句子C=[CW1,CW2,…,CWn],老撾語(yǔ)句子L= [LW1,LW2,…,LWn]其中CWi和LWj分別表示漢語(yǔ)句子和老撾語(yǔ)句子中的第i個(gè)和第j個(gè)特征詞。則對(duì)于每一個(gè)漢語(yǔ)特征詞CWi都可以在相似詞典中找到對(duì)應(yīng)的老撾語(yǔ),即:L=[CW1{ LW1.1,…,LW1.n), CW2,…,CWn{LWn,1,…,LWn,n)],其中老撾語(yǔ)特征詞LWi,k,表示漢語(yǔ)特征詞CW;對(duì)應(yīng)的一個(gè)譯文。

利用老撾語(yǔ)特征詞在老撾語(yǔ)句子中的出現(xiàn)次數(shù)、漢語(yǔ)特征詞在漢語(yǔ)句子中的出現(xiàn)次數(shù)以及老撾語(yǔ)和漢語(yǔ)特征詞的相似概率計(jì)算老一漢雙語(yǔ)句子的相似度值。老一漢雙語(yǔ)句子相似度值計(jì)算公式為:

根據(jù)改進(jìn)后的式(8)可得到兩個(gè)句子的相似度值:

Simw( C,/)=0.336 589 961

通過(guò)實(shí)驗(yàn)可得,式(8)計(jì)算出的句子相似度值總是在[0,1]之間,句子中包含的特征詞越多,句子相似度值越大,準(zhǔn)確率越高。

3 實(shí)驗(yàn)結(jié)果與分析

本文實(shí)現(xiàn)的跨語(yǔ)言句子相似度的計(jì)算方法主要應(yīng)用在用來(lái)最終識(shí)別相似度高的老一漢雙語(yǔ)平行句對(duì),在老一漢雙語(yǔ)平行語(yǔ)料庫(kù)的建設(shè)中使用,可以很好地促進(jìn)各種漢老文化交流和雙方的發(fā)展。上述實(shí)驗(yàn)結(jié)果證明,兩個(gè)句子互譯特征詞對(duì)的匹配可以很好地反映出句子之間的相似程度,匹配越好,相似度越高。

在本實(shí)驗(yàn)室整理的老一漢雙語(yǔ)語(yǔ)料庫(kù)中分別抽取文學(xué)、歷史、教育、經(jīng)濟(jì)、社會(huì)等24個(gè)領(lǐng)域的相關(guān)文章,共630篇文章,從中人工抽取13 650個(gè)老漢雙語(yǔ)平行句對(duì)作為標(biāo)準(zhǔn)集,同時(shí)加入在各個(gè)領(lǐng)域中選取的一到兩篇非平行篇章作為噪音集,其中漢語(yǔ)句子共1 125個(gè),老撾語(yǔ)句子共1 035個(gè)。標(biāo)準(zhǔn)集和噪聲集合并得到14 775個(gè)漢語(yǔ)句子和14 685個(gè)老撾語(yǔ)句子作為測(cè)試集。

本文中首先從14 775個(gè)漢語(yǔ)句子中按順序抽出一個(gè)句子,然后計(jì)算這個(gè)句子與14 685個(gè)老撾語(yǔ)句子之間的相似度,并按照所得相似度的大小對(duì)老撾語(yǔ)測(cè)試集中的句子進(jìn)行排序并輸出相似度最大的老撾語(yǔ)句子,如果該句子是抽取的漢語(yǔ)句子在標(biāo)準(zhǔn)集中對(duì)應(yīng)的老撾語(yǔ)句子,則說(shuō)明這個(gè)句子的相似度計(jì)算是成功的,對(duì)老撾語(yǔ)句子做相同的操作。

雙語(yǔ)詞典資源是機(jī)器翻譯等自然語(yǔ)言處理領(lǐng)域中非常重要的基礎(chǔ)資源,它的詞匯量及翻譯質(zhì)量都會(huì)對(duì)實(shí)驗(yàn)結(jié)果評(píng)估指標(biāo)的準(zhǔn)確率造成直接影響。目前存在著已經(jīng)成熟的漢英雙語(yǔ)詞典、漢日雙語(yǔ)詞典等,但是缺乏已經(jīng)成熟的漢老雙語(yǔ)詞典。國(guó)內(nèi)互聯(lián)網(wǎng)上并沒(méi)有可用的漢老雙語(yǔ)詞典,通過(guò)國(guó)外老撾語(yǔ)網(wǎng)站及英語(yǔ)一老撾語(yǔ)雙語(yǔ)網(wǎng)站搜索到包含15 768個(gè)老撾語(yǔ)常用詞的老撾語(yǔ)單語(yǔ)詞典及大量的英老雙語(yǔ)詞典和一定規(guī)模的漢老雙語(yǔ)詞典。借助英漢雙語(yǔ)詞典當(dāng)作媒介,整理獲取到關(guān)于老撾語(yǔ)的單語(yǔ)言詞典及雙語(yǔ)詞典,最終獲得規(guī)模達(dá)到31 719個(gè)詞匯的漢老雙語(yǔ)詞典。老漢雙語(yǔ)詞典如圖5所示。在構(gòu)建的老一漢雙語(yǔ)詞典中,其中常用相關(guān)領(lǐng)域的詞典條目?jī)H有6 000多條,較多的幾乎都是一些學(xué)科的專(zhuān)有名詞以及地名等詞語(yǔ),日常生活中使用量較少。經(jīng)過(guò)篩選,日常使用的名詞和動(dòng)詞等占比不大,不足3 000條。人名、地名是雙語(yǔ)句子對(duì)齊的重要特征,但是它們大多為未登錄詞,無(wú)法利用雙語(yǔ)詞典進(jìn)行互譯匹配。因此,利用詞典在老一漢雙語(yǔ)句子相似度計(jì)算中實(shí)際實(shí)驗(yàn)結(jié)果收效甚微,不足以形成對(duì)比。

實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)如下:分別用本文提出的基于互譯特征詞對(duì)匹配的方法和基于詞形、基于詞序、基于構(gòu)建的老一漢雙語(yǔ)詞典的句子相似度方法做了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表1。本文采用的評(píng)價(jià)標(biāo)準(zhǔn)為P(準(zhǔn)確率),計(jì)算如下:

P=n/N×100%

(9)式中:P代表正確率;Ⅳ代表測(cè)試句子總數(shù);n代表測(cè)試結(jié)果正確的句子總數(shù)。

從上述的實(shí)驗(yàn)結(jié)果可以看出,本文提出的基于互譯特征詞對(duì)匹配的老一漢雙語(yǔ)句子相似度計(jì)算方法具有較高的準(zhǔn)確率,適合這種跨語(yǔ)言句子相似度計(jì)算。此方法改進(jìn)了傳統(tǒng)的依賴(lài)于詞形、詞序通過(guò)計(jì)算相同詞個(gè)數(shù)和共有單詞的位置信息的相似度計(jì)算方法,充分考慮了老撾語(yǔ)和漢語(yǔ)句子中的詞匯互譯信息,計(jì)算它們之間的相似概率,從老撾語(yǔ)一漢語(yǔ)、漢語(yǔ)一老撾語(yǔ)兩個(gè)方向上考慮詞對(duì)的互譯信息,并擴(kuò)大窗口,避免了由于特征詞位置導(dǎo)致的精度丟失。根據(jù)特征詞對(duì)之間的相似概率和構(gòu)建的老一漢雙語(yǔ)相似詞典,計(jì)算老一漢雙語(yǔ)句子相似度值,改進(jìn)了基于詞匯的方法,需要大規(guī)模的翻譯詞典,沒(méi)有通過(guò)翻譯來(lái)計(jì)算兩種語(yǔ)言的句子相似度,避免了由于翻譯的語(yǔ)料規(guī)模和質(zhì)量導(dǎo)致的精度丟失。

此方法用來(lái)最終識(shí)別相似度較高的老一漢雙語(yǔ)平行句對(duì),依據(jù)相似度對(duì)源句子和目標(biāo)句子進(jìn)行對(duì)齊,能夠簡(jiǎn)化句子對(duì)齊時(shí)的流程,從而提高句子對(duì)齊的效率,在老一漢雙語(yǔ)平行語(yǔ)料庫(kù)的建設(shè)中使用。

4 結(jié)語(yǔ)

本文提出的基于互譯特征詞對(duì)匹配,并結(jié)合構(gòu)建的老一漢雙語(yǔ)相似詞典的句子相似度計(jì)算方法,一定意義上提高了跨語(yǔ)言相似度計(jì)算的準(zhǔn)確率。但是由于特征詞對(duì)的匹配并不能完全反映一個(gè)句子所包含的所有語(yǔ)義信息,只是在句子的特征結(jié)構(gòu)方面進(jìn)行計(jì)算,沒(méi)有考慮詞語(yǔ)蘊(yùn)含的語(yǔ)義信息,對(duì)于同義詞以及一詞多義情況計(jì)算不佳,使得相似度計(jì)算的準(zhǔn)確率不高。所以為了達(dá)到更好的效果,將對(duì)本相似度計(jì)算方法進(jìn)行完善和擴(kuò)充,加入一些詞性和語(yǔ)義信息,可以把更能代表一個(gè)句子的詞賦予更高的權(quán)重,引入到相似度計(jì)算公式中,還需要進(jìn)一步研究老撾語(yǔ)句子的語(yǔ)法和語(yǔ)義的表示方式,隨著研究的深入,肯定還能發(fā)掘更多完善算法模型和提高計(jì)算精度的方法。

注:本文通訊作者為周蘭江。

參考文獻(xiàn)

[1]邸書(shū)靈,劉曉飛,李歡.基于分詞的語(yǔ)句相似度計(jì)算的改進(jìn)[J]石家莊鐵道大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,24(4):94-97.

DI Shuling, LIU Xiaofei, LI Huan. Improvement of sentencesimilaritv calculation based on participle [J]. Journal of Shijia-zhuang Railway University (Natural science edition), 2011. 24(4):94-97.

[2]劉宏哲.一種基于本體的句子相似度計(jì)算方法[J]計(jì)算機(jī)科學(xué),2013(1):251-256.

LIU Hongzhe. An ontology - based sentence similarity calcula-tion method[J]. Computer science. 2013(1): 251-256.

[3]鄧涵,朱新華,李奇,等,基于句法結(jié)構(gòu)與修飾詞的句子相似度計(jì)算[J],計(jì)算機(jī)工程,2017(9):240-244.

DENG Han. ZHU Xinhua, LI Qi,et al.Calculation of sen-tence similaritv based on syntactic structure and modifiers [J].Computer engineering, 2017(9):240-244.

[4]藍(lán)雁玲,陳建超.基于詞性及詞性依存的句子結(jié)構(gòu)相似度計(jì)算 [J]。計(jì)算機(jī)工程,2011( 10):47-49.

LAN Yanling, CHEN Jianchao. Sentence structure similaritycalculation based on part of speech and part of speech depen-dence [J]. Computer engineering, 2011( lO): 47-49.

[5]張艷杰,邵雄凱,劉建舟.一種基于語(yǔ)義與結(jié)構(gòu)的句子相似度計(jì)算方法J].湖北工業(yè)大學(xué)學(xué)報(bào),2015(5):82-85.

ZHANG Yanjie. SHAO Xiongkai, LIU Jianzhou.A method forcalculating sentence similarity based on semantics and struc-ture [J]. Journal of Huhei University of Technology. 2015(5):82-85.

[6]陳麗莎.白動(dòng)問(wèn)答系統(tǒng)中基于WordNet的句子相似度計(jì)算研究與實(shí)現(xiàn)[D],廣州:華南理工大學(xué),2014. CHEN Lisha. Research and implementation of sentence similar-ity computation based on WordNet in automatic question andanswer svstem [Dl. Guangzhou: South China University ofTechnology, 2014.

[7]李春梅,徐慶生,基于多特征的漢語(yǔ)句子相似度計(jì)算模型的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014(6):136-139.

LI Chunmei, XU Qingsheng. Research on Chinese sentencesimilarity computation model based on multi-features [J]. Com-puter technology and development, 2014(6): 136-139.

[8]王全民,曹建奇,王莉.一種基于多特征混合句子相似度計(jì)算的改進(jìn)[J].計(jì)算機(jī)與現(xiàn)代化,2015(7):31-33.

WANG Q M, CAO J Q, WANG L.Improvement of sentencesimilarity computation based on multi-feature mixture[J].Com-puter and modernization. 2015(7):31-33.

[9]李家南.IT領(lǐng)域問(wèn)答系統(tǒng)的研究與實(shí)現(xiàn)[D].廣州:華南理T大學(xué),2016.

LI Jianan. Research and implementation of QA system in ITfield [D]. Guangzhou: South China University of Technology,2016.

[10] PEI Jing, BAO Hong. Application of Chinese sentence similar-ity computation in FAQ [J]. Computer engineering, 2009, 35(17):46-48.

[11] ALIGULIYEV R M.A new sentence similarity measure andsentence hased extractive technique for automatic text summa-rization [J]. Expert systems with applications, 2009. 36(4):7764-7772.

作者簡(jiǎn)介:李思卓(1994-),女,陜西西安人,碩士,研究方向?yàn)樽匀徽Z(yǔ)言處理。

周蘭江(1964-),云南玉溪人,副教授,研究方向?yàn)樽匀徽Z(yǔ)言處理、機(jī)器翻譯、信息檢索。

宿松县| 水城县| 龙泉市| 资源县| 巴中市| 平度市| 波密县| 横峰县| 资阳市| 原平市| 宁海县| 定日县| 兴义市| 南阳市| 扶沟县| 桓台县| 句容市| 敖汉旗| 阿尔山市| 新民市| 三原县| 温州市| 乌兰浩特市| 应城市| 溧阳市| 准格尔旗| 仲巴县| 池州市| 玉田县| 临澧县| 沙河市| 东阳市| 临夏县| 福州市| 无棣县| 弥勒县| 敦煌市| 宁国市| 房山区| 华亭县| 什邡市|