喬劍敏,張仰森
(北京信息科技大學(xué)智能信息處理研究所,北京100192)
詞義標(biāo)注是語(yǔ)料庫(kù)建設(shè)中的一個(gè)關(guān)鍵環(huán)節(jié)。保證了詞義標(biāo)注的質(zhì)量,語(yǔ)料庫(kù)的應(yīng)用價(jià)值才能得到體現(xiàn),其應(yīng)用才能可靠、高效。要保證詞義標(biāo)注的質(zhì)量,對(duì)詞義標(biāo)注結(jié)果的檢驗(yàn)和處理,是非常重要的一環(huán),它為詞義標(biāo)注的質(zhì)量把關(guān)。只有這個(gè)關(guān)把好了,“商品”才能體現(xiàn)其價(jià)值,才能“出售”,否則,“商品”即使生產(chǎn)出來(lái)了,也沒(méi)有其使用價(jià)值。目前,詞義消歧的研究已有很多,有基于詞典的消歧[1],具體分為基于機(jī)讀詞典和義類(lèi)詞典的消歧,有基于規(guī)則的消歧[1],有基于語(yǔ)料庫(kù)的消歧,具體分為有指導(dǎo)的消歧方法[2]和無(wú)指導(dǎo)的消歧方法[2],還有各種綜合利用的方法[1]等,每種方法都有各自的優(yōu)缺點(diǎn),不能百分之百保證消歧正確。對(duì)詞義消歧結(jié)果的評(píng)判,停留在用精確率、召回率等指標(biāo)去評(píng)價(jià)一個(gè)詞義消歧算法或系統(tǒng)的好壞,對(duì)詞義消歧結(jié)果的校對(duì)也停留在人工校對(duì)上,而如何讓機(jī)器去校對(duì),并進(jìn)行錯(cuò)誤糾正,目前的研究還不多?;谶@些問(wèn)題,本文提出了詞義標(biāo)注一致性檢驗(yàn)的方法研究。
詞義標(biāo)注一致性檢驗(yàn),就是判斷同一詞語(yǔ)在上下文相同或相似的語(yǔ)境中,其詞義標(biāo)注是否一致。由于非多義詞只有一個(gè)意思,因此檢驗(yàn)其一致性只需看這個(gè)詞語(yǔ)的詞義標(biāo)注是否是它所屬的意思即可;而對(duì)多義詞,有幾個(gè)意思,判斷其一致性比較復(fù)雜,因此我們的一致性檢驗(yàn)針對(duì)多義詞進(jìn)行試驗(yàn)。由于名詞、動(dòng)詞等不同詞性的詞語(yǔ)在語(yǔ)句中有其各自的使用規(guī)律,且同一詞性的詞語(yǔ)也因詞語(yǔ)不同而使用規(guī)律不同,因此,不能將所有詞語(yǔ)一概而論,要區(qū)分對(duì)待。因此,我們抽取了10個(gè)動(dòng)詞多義詞進(jìn)行小范圍試驗(yàn)。這 10個(gè)動(dòng)詞多義詞來(lái)自待校驗(yàn)語(yǔ)料——《人民日?qǐng)?bào)》語(yǔ)料,該語(yǔ)料已進(jìn)行了詞語(yǔ)切分、詞性標(biāo)注及詞義標(biāo)注這些處理。我們的具體做法是:先將多義詞的語(yǔ)句從待校驗(yàn)語(yǔ)料中抽取出來(lái),通過(guò)語(yǔ)句相似度計(jì)算將相同或相似的語(yǔ)句聚類(lèi);同時(shí)另一方面,我們建立詞義標(biāo)注標(biāo)準(zhǔn)模式庫(kù),里面存有多義詞的標(biāo)注及對(duì)應(yīng)的賓語(yǔ)集合;最后,將經(jīng)過(guò)聚類(lèi)的語(yǔ)句與標(biāo)準(zhǔn)模式庫(kù)里的賓語(yǔ)進(jìn)行匹配,如果沒(méi)有直接匹配的賓語(yǔ),則通過(guò)詞語(yǔ)相似度計(jì)算去匹配,校驗(yàn)語(yǔ)料中的詞義標(biāo)注。系統(tǒng)的各模塊流程圖如圖1所示。
圖1 系統(tǒng)模塊流程圖
目前的語(yǔ)句相似度計(jì)算方法的研究已有很多,但經(jīng)理論分析及實(shí)驗(yàn)證明,這些方法都不適合真實(shí)語(yǔ)料中的語(yǔ)句相似度計(jì)算。因?yàn)檎Z(yǔ)料中的語(yǔ)句比較冗長(zhǎng),具有多重短句,語(yǔ)句格式層次多,語(yǔ)法不單一等特點(diǎn),所以分析起來(lái)比較困難。我們研究語(yǔ)句相似度計(jì)算方法,應(yīng)針對(duì)其所處的應(yīng)用系統(tǒng)的實(shí)際功能需求,從待研究對(duì)象的自身特征出發(fā)。同樣,我們?cè)u(píng)價(jià)一個(gè)語(yǔ)句相似度計(jì)算方法的好壞,也不是孤立評(píng)價(jià),而要看它是否滿(mǎn)足應(yīng)用系統(tǒng)的實(shí)際需要。因此,針對(duì)語(yǔ)料中的語(yǔ)句的自身特點(diǎn),本文提出了面向真實(shí)語(yǔ)料的語(yǔ)句相似度計(jì)算方法。
完整的一句話,我們抽取短句,短句是指中間有若干停頓的一個(gè)長(zhǎng)句中的一個(gè)斷句;然后在短句中抽取賓語(yǔ),對(duì)賓語(yǔ)利用《知網(wǎng)》進(jìn)行相似度計(jì)算,得到的結(jié)果就是兩句話的相似度;依據(jù)相似度值的高低對(duì)語(yǔ)句聚類(lèi),聚在一塊的語(yǔ)句為語(yǔ)境相同或相似的句群。
在進(jìn)行語(yǔ)料多義詞語(yǔ)句抽取時(shí),我們不是以完整的一句話為單位,而是以一個(gè)短句為單位進(jìn)行抽取。因?yàn)檎Z(yǔ)料中完整的一句話一般都包含若干短句,按照漢語(yǔ)的表達(dá)習(xí)慣,每個(gè)短句又可以表達(dá)一個(gè)意思,有自己獨(dú)立或完整的語(yǔ)法、格式,這些非多義詞所在的短句對(duì)表達(dá)多義詞的語(yǔ)境意思作用不大,甚至根本沒(méi)用;且由于短句可以自成一個(gè)獨(dú)立或完整的語(yǔ)法體系或一個(gè)意思表達(dá)體,則整個(gè)句子就是這些獨(dú)立體的順序組合體,而不是能夠抽取出單一的主謂賓等,所以通過(guò)分析完整句子來(lái)研究多義詞的語(yǔ)境意思不具有可行性,當(dāng)然排除完整句子只有一個(gè)短句組成的情況,比如語(yǔ)料中下面的句子:
應(yīng){ying4}/v!C 老撾人民民主共和國(guó)/ns主席/n 坎代?西潘敦/nr 的/ud 邀請(qǐng)/vn ,/w d 中國(guó)/ns 國(guó)家/n 主席/n 江/nrf 澤民/nrg 今天/t 乘/v!A 專(zhuān)機(jī)/n 抵達(dá)/v 萬(wàn)象/ns ,/w d 開(kāi)始/v 對(duì)/p 老撾/ns 進(jìn)行/vx國(guó)事/n 訪問(wèn)/vn
這個(gè)句子由三個(gè)短句組成,而我們要分析多義詞“乘”的語(yǔ)境,只需抽取第二個(gè)短句即可。
在抽取了多義詞所在的短句之后,經(jīng)過(guò)分析發(fā)現(xiàn),一句話中,在表達(dá)動(dòng)詞多義詞某個(gè)意思的語(yǔ)境時(shí),賓語(yǔ)起著決定性的作用。多義詞的某個(gè)意思,決定了它可以帶的賓語(yǔ)范疇,反過(guò)來(lái),通過(guò)賓語(yǔ),就可以判斷這個(gè)多義詞的語(yǔ)境。因此,在本文計(jì)算語(yǔ)句相似度時(shí),先通過(guò)一些規(guī)則確定賓語(yǔ)范圍,再對(duì)賓語(yǔ)進(jìn)行相似度計(jì)算,算得的值代表兩句話的相似度。如下兩句話:
(1)他/rr 高度/d 評(píng)價(jià)/v 普里馬科夫/nr在/p 任/v 俄/jn 外長(zhǎng)/n 和/c 總理/n期間/f 為{wei4}/p!B2 發(fā)展/v 中/jn 俄/jn
關(guān)系/n 所/us 做/v!2 的/ud 大量/m 工作/vn
(2)做/v!2 群眾/n 的/ud 思想/n 工作/vn
判斷這兩句話相似否,我們看賓語(yǔ)“工作”即可,兩句話中“做”的語(yǔ)境都是“做工作”。
那么語(yǔ)句中的其他成分對(duì)表達(dá)動(dòng)詞多義詞的語(yǔ)境意思有作用嗎?通過(guò)下面的分析,我們認(rèn)為這種作用不大。
按照漢語(yǔ)的表達(dá)習(xí)慣,一個(gè)完整正確的語(yǔ)句,不一定非要主謂賓俱全,或者多重主謂賓交叉出現(xiàn),或者主語(yǔ)、賓語(yǔ)不是單一的詞語(yǔ),而是又一個(gè)短句。另外,主語(yǔ)與謂語(yǔ)之間,可能夾雜很多附加成分,如補(bǔ)語(yǔ)、狀語(yǔ)等,因此,主語(yǔ)與謂語(yǔ)之間的銜接并不緊密,而謂語(yǔ)與賓語(yǔ)之間,賓語(yǔ)一般緊隨謂語(yǔ)之后,不會(huì)相距太遠(yuǎn),聯(lián)系較緊密?!度嗣袢?qǐng)?bào)》語(yǔ)料中的語(yǔ)句,多是幾個(gè)短句組成一句話,各個(gè)語(yǔ)句成分比較分散,主語(yǔ)與謂語(yǔ)之間的距離可能較遠(yuǎn),很多情況主語(yǔ)與謂語(yǔ)不在一個(gè)短句內(nèi),因此分析起主語(yǔ)來(lái)比較困難。再者,《人民日?qǐng)?bào)》文章是報(bào)道實(shí)事的,而不是關(guān)于故事、科幻等的,如:小草也會(huì)微笑,大樹(shù)也會(huì)說(shuō)話,因此排除一些擬人等特殊化用法,《人民日?qǐng)?bào)》語(yǔ)料語(yǔ)句的主語(yǔ)一般是人、組織等常規(guī)主語(yǔ);而且,不管主語(yǔ)是什么,只要是人,就可以配謂語(yǔ)“插”、“乘”、“吃”、“穿”等,沒(méi)有哪個(gè)主語(yǔ)專(zhuān)屬哪個(gè)謂語(yǔ)。至于語(yǔ)句的其他成分,如定語(yǔ)、狀語(yǔ)、補(bǔ)語(yǔ)等,在《人民日?qǐng)?bào)》的語(yǔ)料中,更是變化多端,難以分析。如:
?無(wú)主語(yǔ):
★ 而今/t ,/w d 轉(zhuǎn)變/v 思路/n 做/v!2 山水/n!1 文章/n 初/f 顯/v 成效/n,/w d 一個(gè)/mq 山水/n!1 相映成趣/iv 的/ud 新/a 蘭州/ns 漸漸/d “/wyz 立/v!2”/w yy 了/ul 起來(lái)/vq 。/w j
★為{wei4}/p!B1 這項(xiàng)/r 工程/n 所/us 做/v!2 的/ud 任何/rz 努力/an ,/w d都/d 會(huì)/vu!B2 使/v!2 安放/v 我們/rr 靈魂/n 的/ud 精神/n 家園/n 更加/dc 美好/a 。/w j
?主語(yǔ)與謂語(yǔ)不在一個(gè)短句內(nèi),相距較遠(yuǎn):
★為此/d ,/w d 上海/ns 交巡警/j 總隊(duì)/n 交通/n 科研/n 人員/n 深/d 挖/v潛力/n ,/w d 在/p 信號(hào)燈/n 上{shang5}/f!B “/w yz 做/v!2 ”/w yy 足/a 文章/n 。/w j
★問(wèn)題/n 是/v l!B1 明擺著/lv 的/ud,/w d 就/d 看{kan4}/v!B2 當(dāng)?shù)?s 有關(guān)/vn 部門(mén)/n 如何/ryw 查處/v 了/y ,/w d是/vl!B1 做/v!1 表面文章/ln ,/w d 還是/c 狠抓/v 落實(shí)/vn 。/w j
綜上所述,我們把判斷動(dòng)詞多義詞的意思的重點(diǎn)依據(jù),放在賓語(yǔ)上。抽取賓語(yǔ)的方法是通過(guò)大量的語(yǔ)句分析,總結(jié)出一些規(guī)則來(lái)實(shí)現(xiàn)的,具體如下:
?賓語(yǔ)一般為名詞,有時(shí)為代詞;
?當(dāng)緊挨待校驗(yàn)動(dòng)詞后面有另一個(gè)動(dòng)詞且再往后有“的”出現(xiàn),則將這個(gè)動(dòng)詞與“的”之間的詞語(yǔ)忽略掉;
例如:做/v!3 造福/v 人類(lèi)/n 的/ud事/n
不要/d f 做/v!2 破壞/v 和平/a 進(jìn)程/n的/ud 事/n
?緊挨待校驗(yàn)動(dòng)詞后面的詞語(yǔ)不是動(dòng)詞時(shí),則往后找動(dòng)詞,將找到的第二個(gè)動(dòng)詞后面的詞語(yǔ)忽略掉;
例如:還/d 應(yīng){ying1}/vu!B 看到/v 我們/rr 可以/vu 做/v!2 工作/vn 改善/v 客觀/n 環(huán)境/n 的/ud 一面/f
黨員/n 義務(wù)/n 卡/n 就/d 是/vl!B1農(nóng)村/n 黨員/n 把/p 每月/r 為{w ei4}/p!A 村民/n 群眾/n 所/us 做/v!2 的/ud事/n 記/v 在/p 各自/rr 的/ud 義務(wù)/n卡/n 上{shang5}/f!B
?如果詞“的”存在,且不是語(yǔ)句最后一個(gè)詞,則將“的”之前的詞語(yǔ)忽略掉;
例如:為{wei4}/p!B2 廠子/n 的/ud 興旺發(fā)達(dá)/lv 做/v!2 了/ul 不/df 少/a 力所能及/i 的/ud 工作/vn
?如果有兩個(gè)或兩個(gè)以上名詞連續(xù)挨著,則忽略掉前面的名詞,保留最后一個(gè)名詞;
例如:帶/v!1 著/uz 感情/n 做/v!2 思想/n 政治/n 工作/vn
?賓語(yǔ)一般出現(xiàn)在動(dòng)詞后面,所以開(kāi)一個(gè)窗口,截取待校驗(yàn)動(dòng)詞后面4個(gè)詞語(yǔ),判斷有沒(méi)有名詞,如果沒(méi)有名詞出現(xiàn),則截取該動(dòng)詞左邊兩個(gè)詞語(yǔ),判斷有沒(méi)有名詞,如果沒(méi)有,則認(rèn)為其余名詞距離該動(dòng)詞太遠(yuǎn),不能算作賓語(yǔ),認(rèn)為該動(dòng)詞沒(méi)有帶賓語(yǔ)。
例如:士兵/n 退役/vn 工作/vn 做/v!2得/ue 好不好/l
還有/v 很多/m 工作/vn 要/vu!2 做/v!2
另外有些語(yǔ)句,沒(méi)有名詞出現(xiàn),按沒(méi)有賓語(yǔ)處理。例如:做/v!2 得/ue 不/d f 到位/vi
經(jīng)過(guò)上述規(guī)則篩選,雖然我們開(kāi)設(shè)窗口,確定的是賓語(yǔ)的范圍,但往往也只有一個(gè)賓語(yǔ)被抽取出來(lái)。
確定了賓語(yǔ)的范圍之后,兩句話的相似度就歸結(jié)為賓語(yǔ)的相似度了。本文參考并改進(jìn)文獻(xiàn)[3-7]的方法,提出了如下語(yǔ)句相似度計(jì)算方法。我們也對(duì)別的語(yǔ)句相似度計(jì)算方法做了考察并設(shè)計(jì)程序進(jìn)行了實(shí)驗(yàn),但發(fā)現(xiàn)已有語(yǔ)句相似度計(jì)算方法并不適合《人民日?qǐng)?bào)》語(yǔ)料中的語(yǔ)句,因?yàn)椤度嗣袢請(qǐng)?bào)》語(yǔ)料中的語(yǔ)句有其自身特點(diǎn),所以我們提出了本文的賓語(yǔ)相似度代表語(yǔ)句相似度的計(jì)算方法。首先對(duì)《知網(wǎng)》進(jìn)行簡(jiǎn)單介紹。
3.2.1 《知網(wǎng)》中的知識(shí)表示方法
《知網(wǎng)》與一般的語(yǔ)義詞典不同,它對(duì)詞語(yǔ)的解釋不是通過(guò)具體的文字描述,而是通過(guò)“概念”和“義原”的結(jié)構(gòu)化的組織來(lái)進(jìn)行[8]。在《知網(wǎng)》中,對(duì)詞語(yǔ)的描述如圖2:
圖2.《知網(wǎng)》詞語(yǔ)定義結(jié)構(gòu)分解圖
一個(gè)詞語(yǔ)可以有一個(gè)或多個(gè)義項(xiàng)解釋,每個(gè)義項(xiàng)釋義叫“概念”,而每個(gè)概念又由一個(gè)或幾個(gè)“詞匯”通過(guò)一定的“法則”組織在一起來(lái)定義。這些“詞匯”即是“義原”。
上面提到的“法則”即是知識(shí)描述語(yǔ)言(Know ledge Database M ark-up Language即 KDM L),它有其自身的一套復(fù)雜的規(guī)范體系,用來(lái)組織義原對(duì)詞語(yǔ)義項(xiàng)進(jìn)行描述。
3.2.2 義原相似度的計(jì)算
《知網(wǎng)》將義原歸類(lèi),每個(gè)類(lèi)是一個(gè)樹(shù)狀結(jié)構(gòu),樹(shù)的節(jié)點(diǎn)代表義原。由于不在同一棵樹(shù)下的義原不屬同一類(lèi),按本文系統(tǒng)要求,則處在同一棵樹(shù)下的兩個(gè)義原具有一定的相似度,不在同一棵樹(shù)下的兩個(gè)義原相似度為0。
圖3 義原樹(shù)狀圖
如圖3所示,P1,P2代表兩個(gè)義原,P為它們向上追溯的第一個(gè)公共節(jié)點(diǎn)。則 P1和P2的相似度為:
α為可調(diào)節(jié)參數(shù),len1、len2為 P 到P1、P2的路徑長(zhǎng)度,deep(P)為P節(jié)點(diǎn)在整個(gè)義原樹(shù)中所處的層次(根節(jié)點(diǎn)為第一層),deep(tree)為這棵義原樹(shù)的深度。
將以P為根節(jié)點(diǎn)的子樹(shù)單獨(dú)拿出來(lái),自P節(jié)點(diǎn)往下分叉,每走一步,則代表P1,P2的差異多一個(gè),且一個(gè)差異賦予一個(gè)權(quán)值α,P處相似度為1,則用1減去差異α(len1+len2),剩下的為P1和 P2的共同部分,即相似度,這個(gè)相似度對(duì)于P子樹(shù)來(lái)說(shuō)是絕對(duì)的;又P子樹(shù)是整個(gè)義原樹(shù)的一部分,所以再乘以“部分在整體中所占的權(quán)重”,即deep(P)/deep(tree),最后所得結(jié)果為P1,P2在整個(gè)義原樹(shù)中的相對(duì)相似度。
3.2.3 概念相似度的計(jì)算
設(shè)概念d1由 t個(gè)義原P11,P12,P13…P1 t組成,概念d2由k個(gè)義原P21,P22,P23…P2k組成。
β1,β2為可調(diào)節(jié)參數(shù),β1+β2=1,β1>β2。
概念相似度的計(jì)算將第一獨(dú)立義原與剩余所有義原作為兩部分分別計(jì)算。《知網(wǎng)》里,概念的第一義原描述的是概念的最主要的屬性歸類(lèi),也是按本系統(tǒng)的功能而需要提取的詞語(yǔ)的屬性歸類(lèi),所以β1定義得比較大。
3.2.4 詞語(yǔ)相似度的計(jì)算
詞語(yǔ)W 1有n個(gè)概念定義:d11,d12,d13…d1n;W2有m個(gè)概念定義:d21,d22,d23…d2m。W1與W2的相似度取所有概念相似度中的最大值:
3.2.5 語(yǔ)料語(yǔ)句相似度的計(jì)算
語(yǔ)句相似度的計(jì)算歸于了賓語(yǔ)相似度計(jì)算,而抽取出的賓語(yǔ)范圍里,可能有不只一個(gè)賓語(yǔ),則將句1的n個(gè)賓語(yǔ)與句2的m個(gè)賓語(yǔ)兩兩配對(duì),進(jìn)行計(jì)算,最后取一個(gè)最大值,作為兩句話的相似度值,最大值對(duì)應(yīng)的兩個(gè)賓語(yǔ),分別為兩句話的賓語(yǔ)。
3.2.6 其他語(yǔ)句相似度的計(jì)算方法
目前,已有多種語(yǔ)句相似度計(jì)算方法,如:基于向量空間模型VSM的方法[9],基于語(yǔ)義依存的相似度計(jì)算方法[9],基于語(yǔ)義距離的句子相似度計(jì)算[9],多層次融合的相似度計(jì)算方法[10]等等。我們研究并設(shè)計(jì)了一種多層次融合的語(yǔ)句相似度計(jì)算方法,下面簡(jiǎn)單介紹。
Step1:關(guān)鍵詞抽取
一般認(rèn)為,一句話的關(guān)鍵詞包括名詞、代詞、動(dòng)詞和形容詞,這些詞即可表達(dá)一句話的主要意思,因此首先將待計(jì)算的語(yǔ)句進(jìn)行關(guān)鍵詞抽取。
Step2:基于詞表面特征相似度計(jì)算
一句話可以從不同的角度去研究,我們將詞形、句長(zhǎng)和結(jié)構(gòu)相似度歸為詞表面相似度。分別計(jì)算如下:
(1)詞形相似度
(2)句長(zhǎng)相似度
(3)結(jié)構(gòu)相似度
(4)基于詞表面特征相似度
將(1),(2),(3)三方面的相似度綜合起來(lái),得到基于詞表面特征的相似度。
Step3:語(yǔ)義相似度計(jì)算
計(jì)算完了詞表面特征的相似度,再利用《知網(wǎng)》計(jì)算語(yǔ)句的深層相似度,即語(yǔ)義方面的相似度。
Step4:詞表面特征和語(yǔ)義相似度的結(jié)合
我們從表層和里層分別考察完相似度后,將詞表面特征相似度和語(yǔ)義相似度結(jié)合起來(lái),得到語(yǔ)句相似度。
經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),這種語(yǔ)句相似度計(jì)算方法比較適合語(yǔ)句結(jié)構(gòu)比較規(guī)范,語(yǔ)句成分比較少的單句,對(duì)《人民日?qǐng)?bào)》語(yǔ)料的復(fù)雜語(yǔ)句并不適合。如:“我愛(ài)吃香蕉”和“我喜歡吃蘋(píng)果”的相似度為1.000 000;而對(duì)《人民日?qǐng)?bào)》里的語(yǔ)句,如:“他/rr 高度/d評(píng)價(jià)/v 普里馬科夫/nr 在/p 任/v 俄/jn外長(zhǎng)/n 和/c 總理/n 期間/f 為{wei4}/p!B2 發(fā)展/v 中/jn 俄/jn 關(guān)系/n 所/us做/v!2 的/ud 大量/m 工作/vn ”和“為{wei4}/p!B2 基本/ad 實(shí)現(xiàn)/v 兩/m 綱/n目標(biāo)/n 做/v!2 了/ul 大量/m 工作/vn ”的相似度為0.439 008。
因此,對(duì)《人民日?qǐng)?bào)》語(yǔ)料,我們?cè)O(shè)計(jì)了賓語(yǔ)相似度代表語(yǔ)句相似度的方法。
本系統(tǒng)的設(shè)計(jì)中,需要一個(gè)庫(kù)作為模板,來(lái)進(jìn)行一致性檢驗(yàn)。對(duì)于特定的謂語(yǔ),賓語(yǔ)既然決定了語(yǔ)句語(yǔ)境,則我們以賓語(yǔ)為基礎(chǔ),建立標(biāo)準(zhǔn)模式庫(kù)。
經(jīng)過(guò)對(duì)大量語(yǔ)句的分析,我們發(fā)現(xiàn),多義詞的每個(gè)釋義對(duì)應(yīng)的賓語(yǔ)有一定的規(guī)律,如:“做”有三個(gè)釋義,“(1)制做;寫(xiě)作”對(duì)應(yīng)的賓語(yǔ)大多為與書(shū)、文章有關(guān)的和具體物品;“(2)從事某種工作或活動(dòng)”對(duì)應(yīng)的賓語(yǔ)大多為事件、活動(dòng)之類(lèi)的;“(3)充當(dāng),擔(dān)任;用做;結(jié)成”對(duì)應(yīng)的賓語(yǔ)大多為人物之類(lèi)的。并且,對(duì)于特定的《人民日?qǐng)?bào)》語(yǔ)料,因語(yǔ)言有其自身特點(diǎn),許多賓語(yǔ)更是經(jīng)常、規(guī)律地出現(xiàn)。對(duì)照著聚過(guò)類(lèi)的語(yǔ)句,我們將語(yǔ)境相同或相似的語(yǔ)句的賓語(yǔ)放在同一個(gè)釋義下,但同一個(gè)釋義下的賓語(yǔ)對(duì)應(yīng)的語(yǔ)句語(yǔ)境不一定相同或相似。因此,我們將多義詞釋義及其對(duì)應(yīng)的賓語(yǔ)作為模式庫(kù)構(gòu)建的元素,其組織結(jié)構(gòu)如表1所示。每個(gè)多義詞的模式庫(kù)都放在一個(gè)獨(dú)立的文本文件里。
當(dāng)然,漢語(yǔ)語(yǔ)言變換很多,幾個(gè)月的《人民日?qǐng)?bào)》語(yǔ)料不可能將多義詞每個(gè)釋義對(duì)應(yīng)的賓語(yǔ)全部列舉,我們?cè)谝恢滦詸z驗(yàn)時(shí),如果沒(méi)有直接匹配的賓語(yǔ),則進(jìn)行詞語(yǔ)相似度計(jì)算,與模式庫(kù)里的某個(gè)賓語(yǔ)相似度最高,則跟這個(gè)賓語(yǔ)是屬于同一類(lèi)的賓語(yǔ),則匹配這個(gè)賓語(yǔ)歸屬的釋義。所以,模式庫(kù)里的每個(gè)賓語(yǔ)既可直接匹配,又可看作是某一類(lèi)賓語(yǔ)的代表、標(biāo)識(shí),每個(gè)賓語(yǔ)可作為一個(gè)模板。
總之,標(biāo)準(zhǔn)模式庫(kù)將語(yǔ)境相同或相似的語(yǔ)句的賓語(yǔ)放在同一釋義下,可直接匹配,也可通過(guò)相似度計(jì)算匹配,保證了后面一致性檢驗(yàn)的可操作性。
表1 模式庫(kù)結(jié)構(gòu)
系統(tǒng)設(shè)計(jì)的最后一步是一致性檢驗(yàn)。聚在一塊的句群是語(yǔ)境相同或相似的,將每個(gè)語(yǔ)句按照前述的方法抽取出賓語(yǔ),與標(biāo)準(zhǔn)模式庫(kù)對(duì)照,如果直接與模式庫(kù)賓語(yǔ)相匹配,則取該賓語(yǔ)對(duì)應(yīng)的釋義;如果沒(méi)有直接匹配到模式庫(kù)賓語(yǔ),則將抽取出的賓語(yǔ)與庫(kù)里的賓語(yǔ)進(jìn)行相似度計(jì)算,取相似度最高的值對(duì)應(yīng)的模式庫(kù)賓語(yǔ)所屬的釋義,相當(dāng)于與此賓語(yǔ)模板相匹配。取出語(yǔ)料原始標(biāo)注與匹配到的模式庫(kù)標(biāo)注對(duì)照,校驗(yàn)結(jié)果分6種情況,各種情況及其處理辦法如下描述所示:
對(duì)于聚類(lèi)的句群及系統(tǒng)校驗(yàn)后顯示在界面上的信息,人工也可進(jìn)行檢驗(yàn)并再糾正。界面上的信息經(jīng)確認(rèn)后:對(duì)于改正標(biāo)注之后的語(yǔ)句,寫(xiě)回到原語(yǔ)料,替換原語(yǔ)句;對(duì)于校驗(yàn)過(guò)程中發(fā)現(xiàn)的新賓語(yǔ),追加到模式庫(kù)里,擴(kuò)充、完善模式庫(kù)。
系統(tǒng)對(duì)上述6種情況分別有多少語(yǔ)句及校驗(yàn)的總語(yǔ)句數(shù)進(jìn)行統(tǒng)計(jì),并顯示在界面上,便于我們總結(jié) 、研究 。
實(shí)驗(yàn)中公式所用參數(shù)取值為:α=0.02,β1=0.7,β2=0.3。α,β1和 β2的值根據(jù)我們系統(tǒng)對(duì)詞語(yǔ)相似程度的要求,經(jīng)過(guò)對(duì)公式的演算推導(dǎo)得出;判定兩句話相似的閾值取為0.6,也是根據(jù)對(duì)大量相似語(yǔ)句的相似度值進(jìn)行考察總結(jié)得出;“*”表示一句話的開(kāi)始;“#”符號(hào)后面的詞語(yǔ)表示程序判斷出的作為兩句話賓語(yǔ)的詞語(yǔ)。本文抽取“做”這個(gè)多義詞的語(yǔ)句進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果的截圖如圖4、圖5所示。
圖4 “做”相似語(yǔ)句聚類(lèi)結(jié)果1
圖5 “做”相似語(yǔ)句聚類(lèi)結(jié)果2
一致性檢驗(yàn)的各種情況及統(tǒng)計(jì)信息如圖6、圖7所示。
圖6 校驗(yàn)結(jié)果顯示
圖7 統(tǒng)計(jì)結(jié)果
本文中,我們研究了賓語(yǔ)相似度代表語(yǔ)句語(yǔ)境相似度的計(jì)算方法,從語(yǔ)句聚類(lèi)的實(shí)驗(yàn)結(jié)果可以看出,效果總體上是令人滿(mǎn)意的。我們的聚類(lèi)要求是:語(yǔ)境相同的可以歸為一個(gè)大類(lèi),也可以歸為不同的類(lèi),這是因?yàn)椤吨W(wǎng)》對(duì)詞語(yǔ)的定義有其自身規(guī)則,我們是利用《知網(wǎng)》,而不是《知網(wǎng)》為我們的需求而量身定做的,所以我們主觀認(rèn)為相似的詞語(yǔ),計(jì)算出的相似度也可能不高,如“工作”和“事情”,相似度為0.367 500。所以以“工作”、“事情”為賓語(yǔ)的語(yǔ)句歸在了兩個(gè)類(lèi)里,但一個(gè)類(lèi)里的是相似的。下面本文逐層對(duì)不正確的結(jié)果進(jìn)行分析。
從賓語(yǔ)抽取的的準(zhǔn)確與否說(shuō)起:
1)抽取不準(zhǔn)確而導(dǎo)致計(jì)算錯(cuò)誤的,有以下幾種情況:
?是賓語(yǔ)抽取規(guī)則不完備,有待于進(jìn)一步研究、完善和擴(kuò)展;
?語(yǔ)料中的詞性標(biāo)注錯(cuò)誤,導(dǎo)致賓語(yǔ)抽取不準(zhǔn)確,這樣的情況比較少;
?語(yǔ)料中抽取出的語(yǔ)句也可能不完整,動(dòng)詞與賓語(yǔ)沒(méi)在一個(gè)短句里,但這樣的情況是很少數(shù)的。
2)抽取準(zhǔn)確,計(jì)算不準(zhǔn)確的,情況又有以下幾種:
?如上所述,《知網(wǎng)》中對(duì)詞語(yǔ)的定義不是為我們的需求量身打造,所以我們認(rèn)為不相似的詞語(yǔ),而計(jì)算出的結(jié)果卻是相似度高的,而我們認(rèn)為相似的詞語(yǔ),則結(jié)果可能是相似度偏低;
?抽取出的賓語(yǔ)可能不是一個(gè),所以非真正賓語(yǔ)對(duì)計(jì)算也具有干擾性;
?《知網(wǎng)》對(duì)詞語(yǔ)定義也存在不合理情況,也會(huì)導(dǎo)致詞語(yǔ)相似度計(jì)算不準(zhǔn)確。
在一致性檢驗(yàn)中,“做”總共有1 253句,為了方便觀察結(jié)果,我們?cè)谛r?yàn)之前,人工改造并記錄了一些各種情況的語(yǔ)句,按照前述情況的順序,校驗(yàn)結(jié)果如表2所示。
表2 校驗(yàn)結(jié)果統(tǒng)計(jì)
影響校驗(yàn)結(jié)果的因素主要有三個(gè):?賓語(yǔ)抽取的準(zhǔn)確否;?相似度計(jì)算的合理性;?模式庫(kù)賓語(yǔ)的代表性及規(guī)模。賓語(yǔ)抽取準(zhǔn)確是前提,如果不準(zhǔn)確了,自然結(jié)果不準(zhǔn)確;賓語(yǔ)抽取準(zhǔn)確了,相似度計(jì)算不合理,也找不到正確的義項(xiàng)標(biāo)注;相似度計(jì)算準(zhǔn)確了,模式庫(kù)賓語(yǔ)不具有代表性或賓語(yǔ)數(shù)量不夠,也同樣計(jì)算不出合理的相似度值,進(jìn)而匹配不到正確的標(biāo)注。
由表可見(jiàn),結(jié)果總體是令人滿(mǎn)意的。同時(shí),我們會(huì)在上述主要因素及其他方面加強(qiáng)改進(jìn)。
本文在語(yǔ)句聚類(lèi),標(biāo)準(zhǔn)模式庫(kù)建立,一致性檢驗(yàn)階段,非常重要的一個(gè)思想是,對(duì)一個(gè)指定動(dòng)詞,賓語(yǔ)代表了其語(yǔ)境意思,代表了其釋義。另一個(gè)重要工作是相似度的計(jì)算,本文分析研究真實(shí)語(yǔ)料的語(yǔ)句特點(diǎn),研究了現(xiàn)有的相似度計(jì)算方法,發(fā)現(xiàn)了兩者的不相適應(yīng)性,具體情況具體分析,進(jìn)而提出了本文的計(jì)算方法,將其放在本系統(tǒng)的應(yīng)用中,效果令人滿(mǎn)意。今后,本文需要更多的研究語(yǔ)料中的構(gòu)句規(guī)則、語(yǔ)法、詞語(yǔ)信息等方面的內(nèi)容,完備賓語(yǔ)抽取規(guī)則;另外,還要進(jìn)一步完善、擴(kuò)展標(biāo)準(zhǔn)模式庫(kù);同時(shí),進(jìn)一步改進(jìn)相似度計(jì)算。通過(guò)各方面改進(jìn),使系統(tǒng)功能更強(qiáng)。
[1] 李生,張晶,趙鐵軍,姚建民.詞義消歧研究的現(xiàn)狀與發(fā)展方向[J].計(jì)算機(jī)科學(xué),2001,28(9):95-98,封四.
[2] 商敏.漢語(yǔ)詞義消歧研究[D].大連:大連理工大學(xué)碩士論文,2007.
[3] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度的計(jì)算[OL].http://www.keenage.com.
[4] 張奇,黃萱菁,吳立德.一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[J].中文信息學(xué)報(bào),2005,19(2):93-99.
[5] 王榮波,池哲儒.基于詞類(lèi)串的漢語(yǔ)句子結(jié)構(gòu)相似度計(jì)算方法[J].中文信息學(xué)報(bào),2005,19(1):12-29.
[6] 李峰,李芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算——基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,21(3):99-105.
[7] 張玉娟.基于《知網(wǎng)》的句子相似度計(jì)算的研究[D].北京:中國(guó)地質(zhì)大學(xué)碩士論文,2006.
[8] 董振東.《知網(wǎng)》.http://www.keenage.com[DB/OL].
[9] 趙巾幗,徐德智,羅慶云.漢語(yǔ)句子相似度計(jì)算方法比對(duì)之研究[J].福建電腦,2007,10:51,68.
[10] 南鉉國(guó),崔榮一.基于多層次融合的語(yǔ)句相似度計(jì)算模型[J].延邊大學(xué)學(xué)報(bào),2007,33(3):191-194.