呂學(xué)強(qiáng),仵永栩,,周 強(qiáng),劉 殷,
(1. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2. 清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室(籌),清華大學(xué)信息技術(shù)研究院語(yǔ)音與語(yǔ)言技術(shù)中心, 北京 100084)
異源語(yǔ)料融合研究
呂學(xué)強(qiáng)1,仵永栩1,2,周 強(qiáng)2,劉 殷1,2
(1. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;
2. 清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室(籌),清華大學(xué)信息技術(shù)研究院語(yǔ)音與語(yǔ)言技術(shù)中心, 北京 100084)
語(yǔ)料資源與自然語(yǔ)言處理領(lǐng)域的各項(xiàng)研究息息相關(guān),具有很大的應(yīng)用價(jià)值。由于不同的研究機(jī)構(gòu)對(duì)于語(yǔ)料標(biāo)注的規(guī)則和標(biāo)記的類(lèi)型不盡相同,使得不同的語(yǔ)料庫(kù)很難組合為一個(gè)更大的語(yǔ)料庫(kù)來(lái)進(jìn)行使用。針對(duì)該問(wèn)題,該文從不同標(biāo)注庫(kù)及詞類(lèi)映射層面考慮,對(duì)其產(chǎn)生的詞性歧義問(wèn)題進(jìn)行了研究,提出了一種將異源語(yǔ)料融合到一種體系下的方法,對(duì)詞類(lèi)信息進(jìn)行映射和消歧,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證,融合后的詞性信息準(zhǔn)確率可達(dá)87%,實(shí)驗(yàn)結(jié)果表明該方法具有一定的有效性和可擴(kuò)展性。
語(yǔ)料建設(shè);語(yǔ)料融合;詞類(lèi)映射;詞性消歧;
自然語(yǔ)言處理領(lǐng)域的分析技術(shù)可以分為兩個(gè)方面,一個(gè)是淺層分析,如詞法分析;另一個(gè)是深層分析,如句法分析。目前針對(duì)詞法分析的語(yǔ)料庫(kù)已有很多高質(zhì)量的、大規(guī)模的語(yǔ)料庫(kù)存在,在基于語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究方面,已發(fā)揮了比較好的效用。而針對(duì)一個(gè)漢語(yǔ)句子進(jìn)行深層次的、全局的分析與處理的語(yǔ)料庫(kù)還很少,且標(biāo)準(zhǔn)不統(tǒng)一、規(guī)模不大,這也制約了句法分析研究應(yīng)用的發(fā)展。
由于漢語(yǔ)句子不像英語(yǔ)語(yǔ)句那樣有天然的空格分割,需要對(duì)漢語(yǔ)句子進(jìn)行詞法層面的分析,對(duì)其進(jìn)行詞語(yǔ)切分和詞性標(biāo)注。對(duì)于同一個(gè)自然語(yǔ)言處理任務(wù),往往存在多個(gè)不同風(fēng)格的人工標(biāo)注語(yǔ)料庫(kù)[1]。不同風(fēng)格的標(biāo)注庫(kù)在資源層面存在標(biāo)注不一致的問(wèn)題,在語(yǔ)料標(biāo)注中沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),不能保證在詞性標(biāo)注以及人工標(biāo)注的一致性。在構(gòu)建大規(guī)模的漢語(yǔ)樹(shù)庫(kù)的過(guò)程中,需要有比較大規(guī)模的已分詞和標(biāo)注完善的基礎(chǔ)語(yǔ)料庫(kù),再對(duì)這些基礎(chǔ)語(yǔ)料庫(kù)進(jìn)行自動(dòng)分析和人工標(biāo)注,最終形成漢語(yǔ)樹(shù)庫(kù)。由于現(xiàn)有的語(yǔ)料庫(kù)的規(guī)模并不是很大,而且不同研究機(jī)構(gòu)對(duì)于詞性的標(biāo)注規(guī)范不同,不能直接組合為一個(gè)大規(guī)模基礎(chǔ)語(yǔ)料庫(kù)。這也限制了語(yǔ)料的多領(lǐng)域適應(yīng)性,限制了語(yǔ)料庫(kù)發(fā)展的規(guī)模,阻礙了基于語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展。因此,需要采用一定的方式,將語(yǔ)料的標(biāo)注標(biāo)準(zhǔn)進(jìn)行統(tǒng)一化,使得異源的語(yǔ)料庫(kù)可以融合起來(lái)利用,發(fā)揮多語(yǔ)料綜合利用的效用。
在語(yǔ)料融合方面,國(guó)內(nèi)也已有相關(guān)研究,Meng 等[2]提出了一種異種語(yǔ)料的自動(dòng)融合策略。將源語(yǔ)料的分詞和詞性標(biāo)注標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)化,使其與目標(biāo)語(yǔ)料一致,再將轉(zhuǎn)化后的語(yǔ)料與目標(biāo)語(yǔ)料融合,訓(xùn)練一個(gè)新詞法分析器,利用這個(gè)新的詞法分析器進(jìn)行解碼。Jiang 等[3]實(shí)現(xiàn)了一種轉(zhuǎn)換分類(lèi)器,以原標(biāo)注信息作為指導(dǎo)、目標(biāo)標(biāo)注作為學(xué)習(xí)目標(biāo)來(lái)自動(dòng)地構(gòu)建一個(gè)有噪聲的平行標(biāo)注語(yǔ)料,并用此分類(lèi)器處理另一個(gè)語(yǔ)料庫(kù)。但是以上方法在測(cè)試集大于訓(xùn)練集的情況下,在轉(zhuǎn)化過(guò)程中會(huì)因訓(xùn)練數(shù)據(jù)限制而出現(xiàn)分類(lèi)錯(cuò)誤。
針對(duì)以上方法的不完備性以及異源語(yǔ)料標(biāo)注信息不一致問(wèn)題,本文提出了一種異種語(yǔ)料自動(dòng)融合方法,將不同體系的語(yǔ)料融合到一個(gè)體系下,以此來(lái)擴(kuò)展語(yǔ)料庫(kù)的規(guī)模,統(tǒng)一標(biāo)注標(biāo)準(zhǔn)。經(jīng)過(guò)多語(yǔ)料的融合,擴(kuò)充了語(yǔ)料資源建設(shè)過(guò)程中的語(yǔ)料規(guī)模,擴(kuò)大漢語(yǔ)樹(shù)庫(kù)建設(shè)過(guò)程中用到的基礎(chǔ)語(yǔ)料庫(kù)規(guī)模,提高后續(xù)基于語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究分析的準(zhǔn)確性。本方法的思想是: ①手工建立一套映射標(biāo)準(zhǔn),將不同來(lái)源、不同領(lǐng)域的語(yǔ)料的詞性標(biāo)記進(jìn)行映射,使其與目標(biāo)語(yǔ)料一致; ②將轉(zhuǎn)化后的語(yǔ)料的標(biāo)記進(jìn)行錯(cuò)誤糾正。在最大程度地保留原詞性信息的基礎(chǔ)上,將不同的標(biāo)記進(jìn)行歸一化處理; ③將詞性標(biāo)記信息結(jié)果還原到原語(yǔ)料中,生成融合后的語(yǔ)料。
針對(duì)上述問(wèn)題,將屬于同一個(gè)類(lèi)別、標(biāo)注不同的標(biāo)記建立一個(gè)映射表,再將同詞類(lèi)的詞性標(biāo)記映射到同一個(gè)標(biāo)準(zhǔn)下,并對(duì)其映射結(jié)果進(jìn)行置信度評(píng)定,確定屬于同一個(gè)類(lèi)別、標(biāo)記不同的詞語(yǔ)的預(yù)測(cè)標(biāo)記。具有多詞性標(biāo)記的詞語(yǔ),要利用上下文信息確定該詞語(yǔ)在句子中的詞性類(lèi)別,將推測(cè)結(jié)果屬于不同類(lèi)別的概率值進(jìn)行擬合,選取與當(dāng)前上下文最相關(guān)的詞性標(biāo)記作為初步的預(yù)測(cè)標(biāo)記,然后對(duì)預(yù)測(cè)標(biāo)記進(jìn)行置信度評(píng)定,確定該詞的最終預(yù)測(cè)標(biāo)記結(jié)果,最后根據(jù)映射規(guī)則,將結(jié)果映射到同一個(gè)標(biāo)準(zhǔn)下。
本文在第二部分提出了語(yǔ)料自動(dòng)融合的方法;第三部分是實(shí)驗(yàn)結(jié)果與分析,詳細(xì)闡述了語(yǔ)料融合過(guò)程中所做的工作以及對(duì)融合后的效果進(jìn)行評(píng)定;第四部分是總結(jié)與展望。
2.1 語(yǔ)料體系
將需要融合的語(yǔ)料稱(chēng)為源體系,融合生成的語(yǔ)料稱(chēng)為目標(biāo)體系[2]。實(shí)驗(yàn)中采用的語(yǔ)料體系包括: TCT體系、PKU體系和XD973體系。其中,TCT語(yǔ)料體系是從大規(guī)模的經(jīng)過(guò)基本信息標(biāo)注的漢語(yǔ)平衡語(yǔ)料庫(kù)中提取出100萬(wàn)漢字規(guī)模的文本為語(yǔ)料,經(jīng)過(guò)自動(dòng)句法分析和人工校對(duì),形成高質(zhì)量的漢語(yǔ)句法樹(shù)庫(kù)語(yǔ)料;PKU語(yǔ)料是北京大學(xué)對(duì)人民日?qǐng)?bào)語(yǔ)料進(jìn)行詞語(yǔ)切分和詞性標(biāo)注形成的語(yǔ)料體系;XD973語(yǔ)料是山西大學(xué)按照其制定的漢語(yǔ)文本語(yǔ)料庫(kù)分詞、詞性標(biāo)注加工規(guī)范進(jìn)行加工形成的語(yǔ)料體系。在語(yǔ)料融合之前,需要將源體系的標(biāo)注進(jìn)行歸一化處理,形成歸一化詞類(lèi)映射表UNP,UNP是根據(jù)不同詞類(lèi)體系對(duì)應(yīng)表: TCT、PKU、YWGB、XD等,在盡可能保留功能類(lèi)詞性的基礎(chǔ)上,共保留了58個(gè)歸一化詞類(lèi)標(biāo)記,UNP中的部分標(biāo)記如表1所示。
表1 UNP映射詞表
2.2 融合思想解析
在語(yǔ)料的融合過(guò)程中,需要解決兩個(gè)問(wèn)題: 一、轉(zhuǎn)化前的標(biāo)注問(wèn)題。對(duì)于原語(yǔ)料標(biāo)注不符合當(dāng)前要融合的體系的語(yǔ)料,要對(duì)其標(biāo)記進(jìn)行修正; 二、轉(zhuǎn)化后的問(wèn)題。在融合的過(guò)程中,由于體系的差異,某些詞在不同庫(kù)中的標(biāo)記有所不同,使得在融合過(guò)程中,詞性產(chǎn)生歧義。在每個(gè)庫(kù)中,都存在單類(lèi)詞和多類(lèi)詞情況。融合后出現(xiàn)的新問(wèn)題是: 某些詞在各個(gè)體系中是單類(lèi)詞,但融合后變成了多類(lèi)詞,其形成原因是不同庫(kù)中對(duì)詞類(lèi)標(biāo)記分布特定的不同界定標(biāo)準(zhǔn)。研究的重點(diǎn)是為這些融合多類(lèi)詞選擇確定一個(gè)合適的單詞類(lèi)標(biāo)記。
例如,詞“黨支部”、“北邊”、“門(mén)邊”和“夜半”,在不同的體系下的標(biāo)注信息不同。如表2所示。
表2 不同體系的詞類(lèi)標(biāo)記
在PKU體系以及XD體系中,黨支部標(biāo)記為名詞n,在TCT體系中,標(biāo)記為機(jī)構(gòu)團(tuán)體詞nO;在PKU體系以及XD體系中,北邊標(biāo)記為方位詞f,在TCT體系中,標(biāo)記為處所詞s;“夜半”在PKU和TCT體系中,標(biāo)記為時(shí)間詞t,在XD體系中,標(biāo)記為時(shí)間名詞nT。這在幾個(gè)例子中,可以看到,同一個(gè)詞在不同的標(biāo)記體系下的詞性標(biāo)記有所不同,這些差異會(huì)導(dǎo)致語(yǔ)料融合過(guò)程中的詞性標(biāo)記的不一致。
又例如,在某體系下,有句子序列“貫徹/v 江澤民/nr 同志/n “/wkz 三/m 個(gè)/qN 代表/v ”/wky 重要/a 思想/n”,根據(jù)映射表的內(nèi)容,需要將人名的nr標(biāo)記修正為nP,將左引號(hào)wkz標(biāo)記修正為wLB,將右引號(hào)wky標(biāo)記修正為wRB。經(jīng)過(guò)映射表,可以將其中的一些專(zhuān)屬標(biāo)記規(guī)范化,融合后不會(huì)產(chǎn)生無(wú)關(guān)標(biāo)記。
映射示意圖如圖1所示。
在某體系下,有句子序列“為/p 奪取/v 現(xiàn)代化/vN 建設(shè)/vN 的/uJDE 勝利/vN”、“以/p 經(jīng)濟(jì)/n 建設(shè)/vN 為/v 中心/n”。句子描述如圖2所示。
圖1 UNP映射實(shí)例
圖2 UNP映射實(shí)例
在這兩個(gè)句子序列中,詞語(yǔ)“為”呈現(xiàn)出不同的詞性,在句子序列1中是動(dòng)詞詞性,在小句中作謂語(yǔ)成分。在句子序列2中是介詞詞性,介詞修飾的部分做后續(xù)成分的狀語(yǔ)。
對(duì)于該問(wèn)題,實(shí)際上要做的就是確定在語(yǔ)料融合的過(guò)程中產(chǎn)生歧義的詞的詞性。詞的詞性是由一個(gè)詞在一句話(huà)中所起的作用決定的,與它所在的上下文相關(guān)。實(shí)驗(yàn)中,由詞性標(biāo)記聯(lián)系到詞在上下文中的詞義,再由詞義聯(lián)系到該詞的概念。一個(gè)詞所能體現(xiàn)的不同詞義也是由其本身所擁有的不同概念決定的。利用知網(wǎng)[4]中的詞語(yǔ)的概念定義,對(duì)語(yǔ)料體系中詞的詞義進(jìn)行評(píng)判,進(jìn)而確定詞的詞性標(biāo)記。對(duì)于不同的語(yǔ)料體系,將其中需要進(jìn)行詞性排歧的詞抽取出來(lái)。首先,明確幾個(gè)定義。
2.3 語(yǔ)料組織形式
語(yǔ)料在融合的過(guò)程中,主要就是對(duì)這些多類(lèi)詞和單類(lèi)詞進(jìn)行處理。在融合的過(guò)程中要考慮的主要問(wèn)題就是詞性的歧義[5-6]。確定一個(gè)詞的詞性標(biāo)記,屬于分類(lèi)問(wèn)題,基于一種遷移學(xué)習(xí)的思想,一般認(rèn)為一個(gè)詞的詞性與其上下文窗口有關(guān)聯(lián),可以將部分詞及其上下文信息作為特征,訓(xùn)練出一個(gè)模板,來(lái)對(duì)其他的詞進(jìn)行分類(lèi)。
語(yǔ)料形式如下示:
1) 開(kāi)創(chuàng)/v 思想/n 政治/n 工作/vN 的/uJDE 新/a 局面/n
2) 今天/t 是/v 中國(guó)/nS 共產(chǎn)黨/n 成立/v 79/m 周年/qT 紀(jì)念日/nT 。/wE
3) 企業(yè)/n 轉(zhuǎn)賬/v 結(jié)算/v 中/f 的/uJDE 大部分/m 支出/n
語(yǔ)料的標(biāo)注規(guī)范是不同的語(yǔ)料體系經(jīng)過(guò)詞性映射之后的標(biāo)注規(guī)范。在本實(shí)驗(yàn)使用機(jī)器學(xué)習(xí)模型進(jìn)行分類(lèi)時(shí),采用的特征模板是當(dāng)前詞在知網(wǎng)中的概念的義原,及其左右四個(gè)詞的詞條及其詞性作為特征。特征輸入模板如表3所示。
表3 特征輸入模板
其中,n表示某個(gè)詞的概念中的義原總數(shù)。根據(jù)上述輸入模板,上述3)語(yǔ)料句子中的詞“結(jié)算/v”在知網(wǎng)中的概念為“V calculate|計(jì)算, commercial|商”,對(duì)應(yīng)的特征輸入為:
1) calculate|計(jì)算 企業(yè) n 轉(zhuǎn)賬 v 結(jié)算 中 f 的 uJDE
2) commercial|商 企業(yè) n 轉(zhuǎn)賬 v 結(jié)算 中 f 的 uJDE
使用該特征模板對(duì)目標(biāo)詞匯集合中的單類(lèi)詞進(jìn)行訓(xùn)練,然后用該模板對(duì)多類(lèi)詞進(jìn)行預(yù)測(cè),預(yù)測(cè)的結(jié)果輸出為概率分布。對(duì)輸出的概率值的分布曲線(xiàn)進(jìn)行擬合,選擇合適數(shù)量義原組合為一個(gè)概念。
2.4 曲線(xiàn)擬合
詞的概念是由不同的義原構(gòu)成,代表了該詞所具有的某些屬性,也標(biāo)示出詞可以承擔(dān)的詞類(lèi)屬性,將模型預(yù)測(cè)的義原結(jié)果,通過(guò)曲線(xiàn)擬合的方式,選取合適的義原項(xiàng)作為該詞的屬性,從而確定該詞的概念和充當(dāng)?shù)脑~類(lèi)屬性。曲線(xiàn)擬合[7]的過(guò)程描述為: 根據(jù)義原的概率比值,對(duì)于不同的比值,選取不同的義原組合為一個(gè)概念作為對(duì)該詞的初步預(yù)測(cè)概念。擬合值的公式描述為式(1)。
(1)
式(1)中,Tf表示輸出的概率分布中的最大概率值,Ts表示輸出的概率分布中次最大概率值。對(duì)取值的描述如下述式(2)。
(2)
通過(guò)程序統(tǒng)計(jì),當(dāng)數(shù)值大小排序在第一的概率值與排序在第二的概率值的比值在區(qū)間[1,1.5]時(shí)選取三個(gè)義原,比值落在區(qū)間(1.5,2)時(shí)選取兩個(gè)義原,當(dāng)比值大于2時(shí)選取一個(gè)義原時(shí),可以獲得較好的實(shí)驗(yàn)效果。
2.5 置信度
由以上描述所得,對(duì)于一個(gè)預(yù)測(cè)的結(jié)果,首先根據(jù)曲線(xiàn)擬合生成的閾值空間,選取不同數(shù)目的義原組合為一個(gè)概念,然后將組合形成的概念與該詞在知網(wǎng)下的各個(gè)概念進(jìn)行相似度比較,選擇知網(wǎng)中相似度最大的概念作為當(dāng)前多類(lèi)詞的推薦結(jié)果,并使用推薦結(jié)果的詞性標(biāo)記作為該多類(lèi)詞的推薦標(biāo)記。在得出預(yù)測(cè)的結(jié)果之后,需要對(duì)預(yù)測(cè)的結(jié)果進(jìn)行置信度評(píng)價(jià),以此來(lái)提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。
置信度概念定義如下:
定義3 置信度 針對(duì)知網(wǎng)對(duì)于某個(gè)詞的推薦詞性,在結(jié)果評(píng)定時(shí),認(rèn)為其為正確的可靠度。
對(duì)于一個(gè)詞w標(biāo)注為c的置信度得分需要考慮如下幾個(gè)方面的因素:
(1) 該標(biāo)注詞本身標(biāo)記因素Pmark
Pmark表示在以往的標(biāo)記中,該詞被標(biāo)注為c的數(shù)量與該詞的所有數(shù)目的一個(gè)比值。
(2) 該詞的上下文環(huán)境因素Fcontext
Fcontext=(1+CL)×(1+CR)
(3)
習(xí)近平強(qiáng)調(diào):“人類(lèi)只有遵循自然規(guī)律才能有效防止在開(kāi)發(fā)利用自然上走彎路,人類(lèi)對(duì)大自然的傷害最終會(huì)傷及人類(lèi)自身,這是無(wú)法抗拒的規(guī)律[1]”。伴隨社會(huì)經(jīng)濟(jì)的發(fā)展,生態(tài)環(huán)境對(duì)于人類(lèi)發(fā)展的重要性日益凸顯。馬克思的眾多著作中閃爍著生態(tài)思想的光芒,相關(guān)生態(tài)思想對(duì)生態(tài)旅游建設(shè)有著重要的現(xiàn)實(shí)啟示。馬克思的生態(tài)實(shí)踐理論是解決當(dāng)前生態(tài)問(wèn)題和遵循現(xiàn)代實(shí)踐方法論的當(dāng)代轉(zhuǎn)向,是在保證生態(tài)系統(tǒng)整體性的前提下對(duì)人的行為的內(nèi)在制約,是強(qiáng)調(diào)人與自然和諧發(fā)展的物質(zhì)性實(shí)踐思想。馬克思的生態(tài)實(shí)踐理論對(duì)當(dāng)前如何正確處理人與自然的關(guān)系以及如何在“美麗中國(guó)”新時(shí)代背景下促進(jìn)中俄界江生態(tài)旅游價(jià)值的實(shí)現(xiàn)具有重要的指引意義。
對(duì)經(jīng)過(guò)置信度評(píng)價(jià)后獲得的結(jié)果,選取特定的幾個(gè)詞類(lèi)進(jìn)行正確性驗(yàn)證,例如,助詞、系動(dòng)詞、動(dòng)詞、介詞等。對(duì)標(biāo)注后的詞及詞性信息還原到原始語(yǔ)料中,此時(shí)的各個(gè)體系下的語(yǔ)料庫(kù)即可直接融合為一個(gè)更大規(guī)模的語(yǔ)料庫(kù)。
上述語(yǔ)料融合方法的流程圖描述如圖3所示。
圖3 實(shí)驗(yàn)過(guò)程流程圖
3.1 實(shí)驗(yàn)語(yǔ)料
實(shí)驗(yàn)中,使用到的三個(gè)不同的體系下的語(yǔ)料分別是山西大學(xué)XD973語(yǔ)料標(biāo)注體系、北京大學(xué)PKU語(yǔ)料標(biāo)注體系以及清華大學(xué)TCT語(yǔ)料標(biāo)注體系。經(jīng)統(tǒng)計(jì)所得,除去只在一個(gè)體系下出現(xiàn)的詞后,剩余的詞在這三個(gè)體系下的需要處理的單類(lèi)詞和多類(lèi)詞總數(shù),即目標(biāo)詞匯集合為19 110。目標(biāo)詞匯集合中的單類(lèi)詞數(shù)目為9 604,多類(lèi)詞的數(shù)目為3 774。利用建立的UNP映射表,可以確定單類(lèi)詞的詞性。
將單類(lèi)詞的概念中的各個(gè)義原作為這個(gè)詞的特征,并取該詞在所在的上下文信息作為模板來(lái)訓(xùn)練出一個(gè)模型,充分利用單類(lèi)詞的上下文信息對(duì)多類(lèi)詞的上下文進(jìn)行分類(lèi)。訓(xùn)練以及測(cè)試模塊的步驟如下。
1) 根據(jù)第四部分介紹的模板,從三個(gè)語(yǔ)料體系中,抽取出9 604個(gè)單類(lèi)詞的上下文窗口作為訓(xùn)練語(yǔ)料,一共有4 230 439條訓(xùn)練輸入,記為train_simple。
2) 從三個(gè)語(yǔ)料體系中,抽取出3 774個(gè)多類(lèi)詞的上下文窗口,一共有4 599 546條測(cè)試輸入,記為test_multi。
3) 使用最大熵工具進(jìn)行分類(lèi),對(duì)train_simple訓(xùn)練后得到模型文件train_simple.model,使用這個(gè)模型對(duì)test_multi進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果輸出為所有義原及其預(yù)測(cè)概率值,將該文件記為multi_rate。
3.2 概率擬合
對(duì)測(cè)試結(jié)果multi_rate進(jìn)行分析,該文件的每一行是某個(gè)多類(lèi)詞的所有義原及其對(duì)應(yīng)的預(yù)測(cè)概率值,試驗(yàn)中抽取前十個(gè)預(yù)測(cè)概率最大的義原進(jìn)行分析,將其中的概率分布進(jìn)行統(tǒng)計(jì)得出如圖4的分布狀況。
圖4中表示的是概率最大的前兩個(gè)義原的分布曲線(xiàn)。由圖4可知,在絕大多數(shù)結(jié)果中,第一概率與第二概率的間距比較大,可通過(guò)第三部分介紹的曲線(xiàn)擬合方法,將輸出的概率進(jìn)行擬合,選取合適數(shù)目的義原組合為一個(gè)概念作為對(duì)多類(lèi)詞的初步預(yù)測(cè)結(jié)果。
得到對(duì)多類(lèi)詞的初步預(yù)測(cè)結(jié)果后,將預(yù)測(cè)的概念與多類(lèi)詞在知網(wǎng)中的所有概念進(jìn)行相似度比較,選取相似度比最大的概念作為對(duì)多類(lèi)詞的最終預(yù)測(cè)結(jié)果,并選取最終概念的詞性標(biāo)記作為多類(lèi)詞的預(yù)測(cè)標(biāo)記。
相似度[13]是被定義為一個(gè)0到1之間的實(shí)數(shù)。將預(yù)測(cè)的概念與該詞的所有概念進(jìn)行相似度值計(jì)算,得到一個(gè)在0到1的相似度數(shù)值,根據(jù)該數(shù)值選取相似度最大的概念作為最終概念。實(shí)驗(yàn)中使用的是知網(wǎng)中的語(yǔ)義相似度計(jì)算工具WordSimilarity來(lái)對(duì)數(shù)據(jù)進(jìn)行相似度計(jì)算。
3.3 實(shí)驗(yàn)結(jié)果與分析
根據(jù)詞類(lèi)信息在語(yǔ)料標(biāo)注過(guò)程中對(duì)標(biāo)注結(jié)構(gòu)和標(biāo)注層次的影響程度,對(duì)經(jīng)過(guò)試驗(yàn)處理后的結(jié)果進(jìn)行分 析,試 驗(yàn) 中 抽 取 動(dòng) 詞v、系動(dòng)詞vM、助詞u、以及介詞p這四個(gè)對(duì)標(biāo)注工作影響因子較大的詞類(lèi)來(lái)進(jìn)行評(píng)價(jià)。評(píng)價(jià)的標(biāo)準(zhǔn)采用的是實(shí)際正確率,實(shí)際正確率的概念定義如下。
圖4 義原概率分布圖
定義4 實(shí)際正確率 正確條目Rc與結(jié)果總數(shù)Rall的比值Rc/Rall,用來(lái)反映實(shí)驗(yàn)結(jié)果的準(zhǔn)確度表示為式(5)。
(5)
在標(biāo)注結(jié)果中,各類(lèi)詞性所含的詞的規(guī)模如表4所示。
表4 采用的數(shù)據(jù)
經(jīng)過(guò)統(tǒng)計(jì),未加入置信度概念評(píng)定的標(biāo)注結(jié)果的實(shí)際正確率如圖5所示。
由圖5可知,對(duì)于最大熵預(yù)測(cè)的概念,在經(jīng)過(guò)選取與知網(wǎng)中相似度最大的概念的步驟后,對(duì)多類(lèi)詞的消歧效果平均值可達(dá)到77%。這樣的準(zhǔn)確度在語(yǔ)料建設(shè)中還是不夠的,需要采取一定的策略對(duì)消歧效果進(jìn)行提升。
抽取部分實(shí)驗(yàn)結(jié)果數(shù)據(jù)進(jìn)行觀察,結(jié)果如表5所示。
圖5 未加入置信度概念的實(shí)際正確率分布
詞 類(lèi)預(yù)測(cè)結(jié)果原標(biāo)記當(dāng)前詞助詞auJDE的duJDE的介詞vp對(duì)cp與助動(dòng)詞avM難dvM能動(dòng)詞av如uv禁止
由表6可知,在助詞的預(yù)測(cè)標(biāo)記中,將屬于助詞uJDE的標(biāo)記預(yù)測(cè)為a或d,這是由于在選取的窗口中,存在相同或相似的上下文環(huán)境,而在該上下文中,有多種不同的標(biāo)記,造成預(yù)測(cè)標(biāo)記不準(zhǔn)確。在系動(dòng)詞的預(yù)測(cè)標(biāo)記中可以看出,將屬于系動(dòng)詞vM的詞標(biāo)記預(yù)測(cè)為v,出現(xiàn)這種狀況是由于系動(dòng)詞緊鄰動(dòng)詞做狀語(yǔ),在類(lèi)似的窗口下,預(yù)測(cè)為動(dòng)詞標(biāo)簽。動(dòng)詞的情況與助詞基本類(lèi)似。而在介詞的預(yù)測(cè)結(jié)果中,“對(duì)”和“與”在語(yǔ)料中分別擁有動(dòng)詞v以及連詞c的屬性,導(dǎo)致分類(lèi)結(jié)果不夠準(zhǔn)確。
實(shí)驗(yàn)引入置信度的概念對(duì)結(jié)果進(jìn)行評(píng)定,先對(duì)置信度劃分為十個(gè)區(qū)間,然后統(tǒng)計(jì)每個(gè)區(qū)間的詞的數(shù)目。實(shí)驗(yàn)選取223 833條輸出結(jié)果并對(duì)其置信度值進(jìn)行統(tǒng)計(jì),結(jié)果如圖6所示。
圖6 置信度值數(shù)據(jù)統(tǒng)計(jì)結(jié)果
統(tǒng)計(jì)得出所有的詞的在置信度值均落在區(qū)間[0,0.1]和[0.3,0.4],對(duì)于落在區(qū)間[0.3,0.4]的標(biāo)記結(jié)果進(jìn)行觀測(cè),評(píng)判落在該區(qū)間的詞的詞性標(biāo)記的正確性,得出在該區(qū)間的標(biāo)記結(jié)果具有較好的正確性,而對(duì)于落在區(qū)間[0,0.1]的標(biāo)記結(jié)果進(jìn)行統(tǒng)計(jì)分析時(shí)發(fā)現(xiàn),當(dāng)采用原標(biāo)記時(shí),會(huì)得到較好的標(biāo)注結(jié)果。對(duì)經(jīng)過(guò)置信度評(píng)定后的結(jié)果進(jìn)行統(tǒng)計(jì),選取實(shí)驗(yàn)結(jié)果中的幾個(gè)詞類(lèi)進(jìn)行正確性評(píng)測(cè),得出的實(shí)際正確率如圖7所示。
從實(shí)驗(yàn)結(jié)果來(lái)看,經(jīng)過(guò)置信度評(píng)定后,選取的四個(gè)詞性類(lèi)別的實(shí)際正確率均有提升,對(duì)初步的標(biāo)記結(jié)果進(jìn)行了錯(cuò)誤排查,降低了模型預(yù)測(cè)結(jié)果的錯(cuò)誤率,同時(shí)也說(shuō)明了置信度評(píng)定設(shè)計(jì)的合理性。對(duì)加入置信度評(píng)定的實(shí)驗(yàn)結(jié)果數(shù)據(jù)結(jié)果抽樣,數(shù)據(jù)結(jié)果如表6所示。
表6 加入置信度后的結(jié)果及其置信度DC值
由表6可知,對(duì)預(yù)測(cè)的結(jié)果加入置信度值評(píng)定后,可以將那些置信度值比較低的預(yù)測(cè)結(jié)果進(jìn)行過(guò)濾,置信度低表明該預(yù)測(cè)標(biāo)記的正確性就略低,對(duì)過(guò)濾掉的預(yù)測(cè)條目選取原標(biāo)記作為其輸出結(jié)果。
實(shí)驗(yàn)最后對(duì)所有的單類(lèi)詞和多類(lèi)詞的所有類(lèi)別詞類(lèi)的平均標(biāo)記正確率進(jìn)行統(tǒng)計(jì),得到如圖8的實(shí)驗(yàn)結(jié)果。
圖8 單類(lèi)詞與多類(lèi)詞最終正確率的對(duì)比
從結(jié)果可知,通過(guò)本實(shí)驗(yàn)的語(yǔ)料融合的方法,先對(duì)詞法分析階段的標(biāo)注進(jìn)行歸一化,并根據(jù)詞的概念及其在上下文中所體現(xiàn)的語(yǔ)義進(jìn)行來(lái)推測(cè)具有歧義性的詞語(yǔ)的標(biāo)記,可以獲得較好的實(shí)驗(yàn)結(jié)果,在一定程度上解決了語(yǔ)料庫(kù)標(biāo)注規(guī)范不統(tǒng)一的問(wèn)題,擴(kuò)展了語(yǔ)料庫(kù)的規(guī)模,使得多領(lǐng)域的語(yǔ)料可以融合到一個(gè)標(biāo)準(zhǔn)下來(lái)使用。
語(yǔ)料庫(kù)資源的建設(shè)在自然語(yǔ)言處理領(lǐng)域是非常重要的,大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù)資源的稀少,也使得語(yǔ)料融合的工作變得非常有意義。本文提出了一種異源語(yǔ)料庫(kù)的融合方法,初步解決了語(yǔ)料庫(kù)規(guī)范不同、標(biāo)注不同的問(wèn)題。在一定程度上擴(kuò)充了語(yǔ)料庫(kù)的規(guī)模,為后期語(yǔ)料庫(kù)資源的建設(shè)做好準(zhǔn)備工作。最終實(shí)驗(yàn)結(jié)果表明,該方法在一定程度上解決了語(yǔ)料庫(kù)建設(shè)中標(biāo)注規(guī)范不同的問(wèn)題,最終的標(biāo)注正確率可以達(dá)到87%以上,獲得了較好的效果。在本文研究的基礎(chǔ)上,可以借助知網(wǎng)對(duì)詞語(yǔ)語(yǔ)義的描述,對(duì)詞在句子中的語(yǔ)義進(jìn)行具體評(píng)判,提升初步標(biāo)注結(jié)果的實(shí)際準(zhǔn)確率,使得語(yǔ)料融合的方法變得更準(zhǔn)確、高效、通用,來(lái)更好地解決建設(shè)語(yǔ)料庫(kù)中遇到的問(wèn)題,為以后基于語(yǔ)料庫(kù)的研究工作打好基礎(chǔ)。
[1] 宗成慶. 統(tǒng)計(jì)自然語(yǔ)言處理[M]. 清華大學(xué)出版社, 2008.
[2] 孟凡東, 徐金安, 姜文斌, 等. 異種語(yǔ)料融合方法: 基于統(tǒng)計(jì)的中文詞法分析應(yīng)用[J]. 中文信息學(xué)報(bào), 2012, 26(2): 3-7.
[3] Jiang W, Huang L, Liu Q. Automatic adaptation of annotation standards: Chinese word segmentation and POS tagging: a case study[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,2009: 522-530.
[4] 劉群, 李素建. 基于《知網(wǎng)》 的詞匯語(yǔ)義相似度計(jì)算[C].第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì), 2002.
[5] 盧志茂, 劉挺, 李生. 統(tǒng)計(jì)詞義消歧的研究進(jìn)展[J]. 電子學(xué)報(bào), 2006, 34(2): 333-343.
[6] 何徑舟, 王厚峰. 基于特征選擇和最大熵模型的漢語(yǔ)詞義消歧[J]. 軟件學(xué)報(bào), 2010, 21(6): 1287-1295.
[7] 喬立山, 王玉蘭, 曾錦光. 實(shí)驗(yàn)數(shù)據(jù)處理中曲線(xiàn)擬合方法探討[J]. 成都理工大學(xué)學(xué)報(bào): 自然科學(xué)版, 2004, 31(1): 91-95.
[8] 劉群. 漢語(yǔ)詞法分析和句法分析技術(shù)綜述[J]. 第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì) (SWCL2002) 專(zhuān)題講座, 2002.
[9] 周強(qiáng). 漢語(yǔ)基本塊描述體系[J]. 中文信息學(xué)報(bào), 2007, 21(3): 21-27.
[10] 周強(qiáng),漢語(yǔ)語(yǔ)篇標(biāo)注庫(kù)的初始語(yǔ)料準(zhǔn)備[R].清華大學(xué)信息技術(shù)研究院語(yǔ)音和語(yǔ)言技術(shù)中心,技術(shù)報(bào)告 TH-RIIT-CSLT-TR-20131205.
[11] 馬金山. 基于統(tǒng)計(jì)方法的漢語(yǔ)依存句法分析研究[D]. 哈爾濱工業(yè)大學(xué)博士畢業(yè)論文, 2007.
[12] 葛斌, 李芳芳, 郭絲路, 等. 基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算方法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2010 (9): 3329-3333.
[13] 李峰, 李芳. 中文詞語(yǔ)語(yǔ)義相似度計(jì)算——基于《知網(wǎng)》 2000[J]. 中文信息學(xué)報(bào), 2007, 21(3): 99-105.
[14] 吳瑞紅, 呂學(xué)強(qiáng). 基于互聯(lián)網(wǎng)的術(shù)語(yǔ)定義辨析[J]. 北京大學(xué)學(xué)報(bào),自然科學(xué)版, 2014, 50(1): 33-40.
[15] 錢(qián)揖麗, 鄭家恒. 漢語(yǔ)語(yǔ)料詞性標(biāo)注自動(dòng)校對(duì)方法的研究[J]. 中文信息學(xué)報(bào), 2004, 18(2): 30-35.
A Research on the Fusion of Heterologous Corpus
LV Xueqiang1,WU Yongxu1,2, ZHOU Qiang2,LIU Yin1,2
(1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China; 2. Tsinghua National Laboratory for Information Science and Technology(TNList) Center for Speech and Language Technologies, Research Institute of Information Technology, Tsinghua University, Beijing 100084, China)
Corpus resources are closely related to Natural Language Processing. However, different research institutions have different rules and tags when constructing the copus, which prevents a unified big corpus. This paper investigates the different annotation scheme and presents a method for heterogeneous corpus integration. The experiments on part-of -speech mapping and and disambiguation indicate anaccuracy of 87% after the integration, showing the validness of this method.
corpus construction; data fusion; word mapping; POS disambiguation;
呂學(xué)強(qiáng)(1970—),博士,教授,主要研究領(lǐng)域?yàn)橹形呐c多媒體信息處理。E?mail:lvxueqiang@aliyun.com仵永栩(1989—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E?mail:372281543@qq.com周強(qiáng)(1967—),博士,研究員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言理解。E?mail:zq?lxd@mail.tsinghua.edu.cn
1003-0077(2016)05-0160-09
2015-10-08 定稿日期: 2016-05-25
國(guó)家自然科學(xué)基金(61271304,61671070);北京成像技術(shù)高精尖創(chuàng)新中心項(xiàng)目(BAICIT-2016003);國(guó)家社會(huì)科學(xué)基金(14@ZH036)
TP391
A