于智娟 古麗拉·阿東別克
(新疆大學(xué)信息科學(xué)與工程學(xué)院 新疆 烏魯木齊 830046)
?
基于層疊條件隨機(jī)場(chǎng)的哈語(yǔ)樹(shù)庫(kù)構(gòu)建技術(shù)研究
于智娟古麗拉·阿東別克
(新疆大學(xué)信息科學(xué)與工程學(xué)院新疆 烏魯木齊 830046)
針對(duì)如何提高基于統(tǒng)計(jì)的哈薩克語(yǔ)句法分析算法的處理性能問(wèn)題,提出一種通過(guò)人機(jī)交互來(lái)構(gòu)建哈薩克語(yǔ)樹(shù)庫(kù)的方法。在自動(dòng)句法標(biāo)注階段,采用層疊條件隨機(jī)場(chǎng)模型實(shí)現(xiàn),并在其低層與高層模型之間加入改進(jìn)的基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)算法來(lái)進(jìn)行簡(jiǎn)單句的自動(dòng)句法標(biāo)注及自動(dòng)校正。最后對(duì)特殊的整體標(biāo)記錯(cuò)誤進(jìn)行人工校對(duì),形成基于短語(yǔ)結(jié)構(gòu)的哈薩克語(yǔ)樹(shù)庫(kù)。實(shí)驗(yàn)結(jié)果表明,該方法在很大程度上減少了人力及物力的投入,提高了分析精度及整體處理效率,并為后期基于哈薩克語(yǔ)的句法機(jī)器翻譯及文本挖掘奠定了一定的基礎(chǔ)。
哈薩克語(yǔ)樹(shù)庫(kù)人機(jī)交互層疊條件隨機(jī)場(chǎng)錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)算法
哈薩克語(yǔ)樹(shù)庫(kù)為哈語(yǔ)自動(dòng)句法分析、句法機(jī)器翻譯、文本挖掘等熱門研究領(lǐng)域提供知識(shí)源,其重要性不言而喻。特別是哈薩克語(yǔ)的樹(shù)庫(kù)構(gòu)建技術(shù)相比于漢語(yǔ)、英語(yǔ)等其他語(yǔ)言比較滯后,仍處于初級(jí)階段。所以說(shuō)如何在節(jié)省人力及物力資源的前提下,能夠更好地構(gòu)建哈薩克語(yǔ)樹(shù)庫(kù)是一個(gè)急需解決的難點(diǎn)問(wèn)題。在樹(shù)庫(kù)構(gòu)建方面,漢語(yǔ)樹(shù)庫(kù)的構(gòu)建技術(shù)已基本成熟并取得了一些成果,包括美國(guó)賓州大學(xué)的UPenn樹(shù)庫(kù)[1]和臺(tái)灣中研院的Sinica樹(shù)庫(kù)[2]。英語(yǔ)語(yǔ)料庫(kù)的研究也做了許多工作,其中兩個(gè)比較大的項(xiàng)目是:英國(guó)的Lancaster-Leeds樹(shù)庫(kù)[3]和美國(guó)的Penn樹(shù)庫(kù)項(xiàng)目[4],樹(shù)庫(kù)規(guī)模已達(dá)到二百萬(wàn)詞以上。
而哈薩克語(yǔ)方面,目前還沒(méi)有一個(gè)相對(duì)成熟的樹(shù)庫(kù),只做了一些構(gòu)建樹(shù)庫(kù)前的鋪墊工作。例如:古麗拉·阿東別克等根據(jù)哈薩克語(yǔ)的獨(dú)特語(yǔ)言特點(diǎn),進(jìn)行了詞級(jí)帶標(biāo)注的哈薩克語(yǔ)語(yǔ)料庫(kù)構(gòu)建研究[5];侯呈風(fēng)等在基于詞典靜態(tài)標(biāo)注基礎(chǔ)上分析了隱馬爾科夫模型并對(duì)哈薩克語(yǔ)進(jìn)行了詞性標(biāo)注研究[6];在短語(yǔ)識(shí)別方面,孫瑞娜等以基本名詞短語(yǔ)為目標(biāo),實(shí)現(xiàn)了哈薩克語(yǔ)的基本名詞短語(yǔ)自動(dòng)識(shí)別系統(tǒng)[7];古麗扎達(dá)·海沙根據(jù)哈薩克語(yǔ)基本動(dòng)詞短語(yǔ)組成結(jié)構(gòu)的復(fù)雜性,提出了一種規(guī)則與最大熵相結(jié)合的方法對(duì)哈語(yǔ)基本動(dòng)詞短語(yǔ)進(jìn)行了識(shí)別[8]。
本文在以上詞性及基本短語(yǔ)標(biāo)注基礎(chǔ)上,采用基于層疊條件隨機(jī)場(chǎng)對(duì)哈薩克語(yǔ)的簡(jiǎn)單句進(jìn)行了句法標(biāo)注,同時(shí)對(duì)部分因典型的歧義結(jié)構(gòu)造成標(biāo)注錯(cuò)誤的句子進(jìn)行人工校對(duì),最終形成完整的句法結(jié)構(gòu)樹(shù)。同時(shí)借鑒了文獻(xiàn)[9,10]中提出的分階段構(gòu)建漢語(yǔ)樹(shù)庫(kù)及標(biāo)記集的選取相關(guān)問(wèn)題的方法思路,并結(jié)合哈薩克語(yǔ)自身語(yǔ)言的粘著性特點(diǎn),分階段進(jìn)行樹(shù)庫(kù)構(gòu)建。并在基于層疊條件隨機(jī)場(chǎng)模型的自動(dòng)標(biāo)注階段,引入基于錯(cuò)誤驅(qū)動(dòng)的學(xué)習(xí)算法,進(jìn)行自動(dòng)校正,提高了整體句法標(biāo)注的準(zhǔn)確率,同時(shí)減少了人力及物力資源的投入。
1.1哈語(yǔ)句法標(biāo)記集的選取
構(gòu)建哈薩克語(yǔ)樹(shù)庫(kù)的一項(xiàng)基礎(chǔ)工作就是要確定適合哈薩克語(yǔ)粘著性特點(diǎn)的句法標(biāo)記集。在哈薩克語(yǔ)中,對(duì)短語(yǔ)進(jìn)行分類一般采用兩大標(biāo)準(zhǔn):1) 內(nèi)部結(jié)構(gòu);2) 外部結(jié)構(gòu)。本文著重研究哈語(yǔ)短語(yǔ)的外部結(jié)構(gòu)。首先參照漢語(yǔ)樹(shù)庫(kù)構(gòu)建[9]和英語(yǔ)樹(shù)庫(kù)[11]的處理經(jīng)驗(yàn)及方法。同時(shí)結(jié)合哈薩克語(yǔ)粘著性語(yǔ)言的特點(diǎn),找出哈薩克語(yǔ)同漢語(yǔ)、英語(yǔ)、維吾爾語(yǔ)的異同點(diǎn),其中相同的句法結(jié)構(gòu)采用相同的標(biāo)注集標(biāo)注。不同的句法結(jié)構(gòu)又可以參照與哈薩克語(yǔ)同屬于阿爾泰語(yǔ)系的維吾爾語(yǔ)的樹(shù)庫(kù)標(biāo)注體系[12]及現(xiàn)代哈薩克語(yǔ)實(shí)用語(yǔ)法[13]。根據(jù)以上方法,我們?yōu)楣_克語(yǔ)設(shè)計(jì)了一套符合哈薩克語(yǔ)自身語(yǔ)言特點(diǎn)的句法標(biāo)記集。如表1所示。
表1 哈薩克語(yǔ)句法標(biāo)記集
1.2構(gòu)建哈薩克語(yǔ)樹(shù)庫(kù)的步驟流程
大規(guī)模哈語(yǔ)樹(shù)庫(kù)的構(gòu)建作為一個(gè)龐大的語(yǔ)言工程,在現(xiàn)有條件下,完全由機(jī)器自動(dòng)完成是不可能的,需要找到一個(gè)很好的人工切入點(diǎn),以最少的人工投入獲得最佳的整體處理效果。為此,結(jié)合哈薩克語(yǔ)自身粘著性的語(yǔ)言特點(diǎn),我們?cè)谝延械姆衷~和詞性標(biāo)注的基礎(chǔ)上,利用層疊條件隨機(jī)場(chǎng)模型進(jìn)行簡(jiǎn)單句的句法標(biāo)注。標(biāo)注出句子的短語(yǔ)結(jié)構(gòu)層次,在加入基于錯(cuò)誤驅(qū)動(dòng)的學(xué)習(xí)算法之后,提高了標(biāo)注結(jié)果的正確率,但仍然存在部分標(biāo)注錯(cuò)誤的情況,這時(shí)我們就需要人工校正來(lái)對(duì)結(jié)果進(jìn)行完善。根據(jù)以上情況,本文制定出了構(gòu)建半自動(dòng)哈薩克語(yǔ)樹(shù)庫(kù)的思路方法,分別從詞、短語(yǔ)層的句法分析再到最后人工的處理這三步進(jìn)行。本文重點(diǎn)工作是在步驟一的基礎(chǔ)上實(shí)現(xiàn)了步驟二、步驟三。具體步驟如下:
步驟一預(yù)處理,主要對(duì)哈語(yǔ)生語(yǔ)料做篇章級(jí)的斷句、分詞;并對(duì)詞做統(tǒng)一的詞性標(biāo)注規(guī)范,然后進(jìn)行詞性標(biāo)注。
步驟二機(jī)器分析,在分詞和詞性標(biāo)注的基礎(chǔ)上,通過(guò)層疊條件隨機(jī)場(chǎng)模型進(jìn)行短語(yǔ)層次結(jié)構(gòu)的句法標(biāo)注。從低層組塊標(biāo)注到高層復(fù)雜短語(yǔ)的標(biāo)注中,引入基于錯(cuò)誤驅(qū)動(dòng)的學(xué)習(xí)算法自動(dòng)進(jìn)行標(biāo)注結(jié)果的校正。最后形成較完善的句法分析樹(shù)。
步驟三人工校對(duì),由于第二步工作中采用的是基于規(guī)則的校正算法,而規(guī)則的獲取僅依賴于語(yǔ)言學(xué)家的語(yǔ)言知識(shí)和經(jīng)驗(yàn),卻不能完全囊括各種復(fù)雜的語(yǔ)言現(xiàn)象。所以需要人工的介入,對(duì)一些復(fù)雜的存在歧義的句法樹(shù)進(jìn)行人工校正,從而獲得最佳的標(biāo)注結(jié)果。具體處理流程如圖1所示。
圖1 半自動(dòng)構(gòu)建哈語(yǔ)樹(shù)庫(kù)流程圖
由于前人在哈薩克語(yǔ)的分詞和詞性標(biāo)注方面做了大量研究及實(shí)驗(yàn)[14,15],且在樹(shù)庫(kù)預(yù)處理方面已經(jīng)相對(duì)比較成熟。 所以說(shuō)本文重點(diǎn)工作在句法分析階段。
2.1層疊條件隨機(jī)場(chǎng)模型
由于句子中存在許多短語(yǔ)的嵌套及組合現(xiàn)象,所以在進(jìn)行句法標(biāo)注過(guò)程中,需要進(jìn)行分層研究。層疊條件隨機(jī)場(chǎng)(CCRFs)由一個(gè)兩階段的條件隨機(jī)場(chǎng)模型構(gòu)成,層次模型間存在松耦合關(guān)系,各模型可獨(dú)立建立,且整個(gè)模型的復(fù)雜度和句子長(zhǎng)度成線性關(guān)系。本文新加入的低層后處理模塊對(duì)低層模型產(chǎn)生的錯(cuò)誤可經(jīng)過(guò)濾和更正后傳入高層,從而避免錯(cuò)誤傳播。鑒于此,本文將句法結(jié)構(gòu)任務(wù)分多個(gè)層次,每層內(nèi)部用CCRFs作為層次標(biāo)注的機(jī)器學(xué)習(xí)方法。在CCRFs中,低層的條件隨機(jī)場(chǎng)僅以觀察值為條件,用于基本短語(yǔ)即組塊的識(shí)別,識(shí)別結(jié)果傳遞至高層條件隨機(jī)場(chǎng)模型,作為高層模型的輸入。這樣高層模型的觀察序列中不僅包含詞和詞性的信息,同時(shí)也包含了底層基本短語(yǔ)識(shí)別的結(jié)果,從而為高層復(fù)雜短語(yǔ)的識(shí)別奠定了基礎(chǔ)。
兩階段的條件隨機(jī)場(chǎng)模型具體算法:定義x=x1,…,xN為給定的輸入觀測(cè)值哈序列,即無(wú)向圖模型中N個(gè)輸入節(jié)點(diǎn)上的值,如當(dāng)前輸入的哈文詞序列;定義y=y1,…,yN為輸出的狀態(tài)序列,即無(wú)向圖模型中N個(gè)輸出節(jié)點(diǎn)上的值,如輸出的標(biāo)記序列。CRF定義從輸入x得到序列y的條件概率定義為:
(1)
其中每個(gè)fk(yi-1,yi,x)是整個(gè)觀察序列和相應(yīng)的標(biāo)注序列中位置為i和i-1標(biāo)記的特征函數(shù),每個(gè)gk(yi,x)是在位置為i的標(biāo)記和觀察序列的狀態(tài)特征函數(shù),λk和uk是特征函數(shù)的權(quán)重,可從訓(xùn)練語(yǔ)料中估計(jì)得到。
層疊條件隨機(jī)場(chǎng)的具體模型如圖2所示。
圖2 層疊條件隨機(jī)場(chǎng)模型
為了能夠更好地將句法標(biāo)注問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,在使用層疊條件隨機(jī)場(chǎng)模型前,需要在分詞和詞性標(biāo)注的基礎(chǔ)上,對(duì)句子進(jìn)行預(yù)處理。處理成符合此模型接口模式,并在標(biāo)注過(guò)程中采用RamShow等人在1995年最早提出的Inside/Outside標(biāo)記法,即BIO標(biāo)記法[16]。具體標(biāo)記集為T={B,I,O},其中B表示短語(yǔ)的開(kāi)始詞,I是短語(yǔ)中的第二個(gè)以上(包括第二個(gè))的詞,O是短語(yǔ)外部的詞。例如表2所示的名詞短語(yǔ)塊(NP)的標(biāo)記方法。
表2 “BIO”標(biāo)記法的短語(yǔ)標(biāo)記集實(shí)例
2.2特征及特征模板選擇
在基于CCRFs的分層標(biāo)注問(wèn)題中,特征函數(shù)的選擇往往是至關(guān)重要前提準(zhǔn)備工作。特征選取的好壞決定著CCRFs標(biāo)注結(jié)果的優(yōu)劣,所以本文結(jié)合哈薩克語(yǔ)的語(yǔ)法習(xí)慣,采用基于貪心策略的增益式特征模板自動(dòng)選擇算法[17]。盡量少地自動(dòng)選取合適的特征,以此來(lái)降低選取過(guò)程中的空間及時(shí)間復(fù)雜度。
算法思想是將已經(jīng)選擇的特征模板集設(shè)為空,然后在每次迭代的過(guò)程中將備選特征模板集中的各個(gè)模板項(xiàng)依次加入到已選特征模板集中。并用條件隨機(jī)場(chǎng)模型依次訓(xùn)練測(cè)試,根據(jù)測(cè)試結(jié)果給出其評(píng)分Scores,從備選特征集中選取評(píng)分最高的模板項(xiàng)加入已選特征模板中。然后進(jìn)行下一次迭代,至多重復(fù)m次,最終選擇出一個(gè)特征模板子集,時(shí)間復(fù)雜度從原先的O(2m)數(shù)量級(jí)降低到了O(m2)數(shù)量級(jí)。選取結(jié)果如表3所示。
表3 哈薩克語(yǔ)層疊條件隨機(jī)場(chǎng)的最優(yōu)特征模板
2.3訓(xùn)練及標(biāo)注
在訓(xùn)練階段:基于層疊條件隨機(jī)場(chǎng)模型中,低層條件隨機(jī)場(chǎng)的訓(xùn)練語(yǔ)料包括詞、詞性標(biāo)注和人工基本短語(yǔ)的類型標(biāo)記。而高層的訓(xùn)練語(yǔ)料是在低層組塊標(biāo)注結(jié)果的基礎(chǔ)上經(jīng)短語(yǔ)類型替換后作為高層的訓(xùn)練語(yǔ)料。也就是說(shuō),高層訓(xùn)練語(yǔ)料的觀察值序列中不僅包括詞及詞性標(biāo)注信息,同時(shí)涵蓋了來(lái)自低層的組塊標(biāo)注結(jié)果。如表4、表5所示。
表4 CCRFS低層組塊訓(xùn)練語(yǔ)料標(biāo)注格式
表5 CCRFS高層短語(yǔ)訓(xùn)練語(yǔ)料標(biāo)注格式
將上述轉(zhuǎn)換好格式的訓(xùn)練語(yǔ)料分別進(jìn)行特征提取,將提取結(jié)果加入到相應(yīng)特征模板集。然后分別對(duì)特征模板集進(jìn)行有限內(nèi)存擬牛頓法(L-BFGS)參數(shù)估計(jì)。根據(jù)層疊條件隨機(jī)場(chǎng)模型使得每個(gè)特征對(duì)應(yīng)一個(gè)參數(shù),從而使模型得到充分訓(xùn)練并達(dá)到自學(xué)習(xí)的目的,訓(xùn)練結(jié)束后建立起相應(yīng)的低層及高層條件隨機(jī)場(chǎng)模型。
在測(cè)試階段:首先將測(cè)試語(yǔ)料預(yù)處理成符合模型識(shí)別接口的格式,對(duì)每層的待標(biāo)注的詞根據(jù)特征模板選取出合適的特征,并獲取出每個(gè)詞的特征對(duì)應(yīng)參數(shù)。通過(guò)Viterbi算法對(duì)每個(gè)詞進(jìn)行解碼標(biāo)注,輸出標(biāo)注結(jié)果。在這個(gè)過(guò)程中,為了避免由低層標(biāo)注錯(cuò)誤傳遞到高層模型而引起的錯(cuò)誤蔓延,我們?cè)趯盈B條件隨機(jī)場(chǎng)模型中引入了基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)算法[17]。該算法是EricBrill提出的。本文在此基礎(chǔ)上改進(jìn)了轉(zhuǎn)換算法,在原有的評(píng)價(jià)函數(shù)方法式(2)的基礎(chǔ)上改進(jìn)得到方法式(3)。通過(guò)人工給出的參數(shù)分別與F1(r)、F2(r)進(jìn)行比較選出最佳規(guī)則。此改進(jìn)的算法在符合哈薩克語(yǔ)句法特點(diǎn)的及相同語(yǔ)料環(huán)境下,不需要遍歷所有規(guī)則,同時(shí)加入評(píng)分準(zhǔn)則,根據(jù)其得分和失分情況來(lái)判斷其是否滿足條件。若滿足則加入規(guī)則集,若不滿足則舍棄,最終遍歷完所有轉(zhuǎn)換規(guī)則。
F(r)=g(r)-f(r)
(2)
(3)
注:g(r)為轉(zhuǎn)換正確次數(shù),f(r)為轉(zhuǎn)換錯(cuò)誤次數(shù)。
系統(tǒng)中獲取并篩選出的錯(cuò)誤標(biāo)記規(guī)則集如圖3所示。
圖3 篩選出的錯(cuò)誤標(biāo)記規(guī)則集
經(jīng)過(guò)自動(dòng)校正的低層標(biāo)注結(jié)果部分自動(dòng)替換成高層模型的訓(xùn)練語(yǔ)料格式,剩余部分作為高層模型的輸入進(jìn)行高層短語(yǔ)的標(biāo)注,最終提高了整體標(biāo)注準(zhǔn)確率,同時(shí)節(jié)省了時(shí)間開(kāi)銷。
2.4人工校正
對(duì)于基于規(guī)則的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)算法來(lái)說(shuō),規(guī)則集的龐大與否是一項(xiàng)至關(guān)重要的工作。由于哈薩克語(yǔ)樹(shù)庫(kù)構(gòu)建仍處于初步階段,所以要從大規(guī)模的語(yǔ)言現(xiàn)象中總結(jié)囊括所有規(guī)則情況,是一件困難的事。而人工的后期校正工作尤為重要,人工校對(duì)主要工作包括:標(biāo)記錯(cuò)誤、結(jié)構(gòu)組合錯(cuò)誤等。例如:
標(biāo)記錯(cuò)誤:
上述句子將n+n+n+v組合的動(dòng)詞短語(yǔ)(VP)錯(cuò)誤標(biāo)記成了名詞短語(yǔ)(NP)。
標(biāo)注不全:
上述句子中未將n+va的動(dòng)詞短語(yǔ)(VP)組合識(shí)別出來(lái),從而造成低層組塊識(shí)別不全的情況。
3.1語(yǔ)料準(zhǔn)備及評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)語(yǔ)料為新疆日?qǐng)?bào)(哈語(yǔ)版)2008年20天的已被準(zhǔn)確分詞和詞性標(biāo)注的數(shù)據(jù),由于目前哈薩克語(yǔ)樹(shù)庫(kù)構(gòu)建處于初級(jí)階段,所以重點(diǎn)研究簡(jiǎn)單句的句法標(biāo)記。題材包括政治、經(jīng)濟(jì)、文化、體育、娛樂(lè)、軍事等,共5469條語(yǔ)句,并將語(yǔ)料分成兩部分進(jìn)行哈薩克語(yǔ)樹(shù)庫(kù)構(gòu)建的分析實(shí)驗(yàn)。5天的語(yǔ)料做封閉測(cè)試,15天的語(yǔ)料做開(kāi)放測(cè)試。本文在實(shí)驗(yàn)結(jié)果的評(píng)測(cè)中,采用了標(biāo)準(zhǔn)的評(píng)測(cè)方式,分為準(zhǔn)確率P(Precision)、召回率R(Recall)和F值F(F-score)。
準(zhǔn)確率:P=N3/N2×100%
(4)
召回率:R=N3/N1×100%
(5)
以及綜合反映二者的指標(biāo):
F=(β2+1)×P×R/(R+β2×P),β=1
(6)
其中N1:測(cè)試語(yǔ)料中實(shí)際的短語(yǔ)或括號(hào)對(duì)數(shù)量
N2:系統(tǒng)自動(dòng)識(shí)別出的短語(yǔ)或括號(hào)對(duì)數(shù)量
N3:系統(tǒng)正確識(shí)別出的短語(yǔ)或括號(hào)對(duì)數(shù)量
系統(tǒng)中語(yǔ)料的輸入輸出模式主要如圖4、圖5所示。
圖4 輸入文件(帶有分詞和詞性標(biāo)記的句子)
圖5 輸出文件(帶有基于短語(yǔ)結(jié)構(gòu)的句法標(biāo)記句子)
3.2實(shí)驗(yàn)結(jié)果對(duì)比及分析
在自動(dòng)句法標(biāo)記中,我們通過(guò)開(kāi)放測(cè)試和封閉測(cè)試兩個(gè)評(píng)測(cè)方向進(jìn)行了對(duì)比試驗(yàn)。對(duì)CCRFs+人工模板選擇、CCRFs+增益式模板自動(dòng)選擇和CCRFs+增益式模板自動(dòng)選擇+基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)的后處理模塊進(jìn)行了對(duì)比試驗(yàn),如表6所示。
表6 采用不同方法的CCRFs實(shí)驗(yàn)結(jié)果比較
從實(shí)驗(yàn)結(jié)果可以看出,基于層疊的條件隨機(jī)場(chǎng)模型+增益式選擇模板及引入基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)算法的識(shí)別效果,相對(duì)于基于層疊的條件隨機(jī)場(chǎng)模型外加人工選擇模板有了較大的改進(jìn)。提高了整體自動(dòng)句法標(biāo)記的準(zhǔn)確率,同時(shí)降低了低層模型對(duì)高層模型造成錯(cuò)誤蔓延的發(fā)生率。
在自動(dòng)句法標(biāo)注結(jié)果的基礎(chǔ)上我們加入了人工校對(duì)的處理環(huán)節(jié),同時(shí)對(duì)人工校對(duì)前后的樹(shù)庫(kù)構(gòu)建的整體準(zhǔn)確率進(jìn)行了對(duì)比試驗(yàn),如圖6所示。
圖6 人工校對(duì)前后系統(tǒng)對(duì)測(cè)試語(yǔ)料的評(píng)價(jià)指標(biāo)
由圖6可知:人工校對(duì)的介入對(duì)于哈薩克語(yǔ)樹(shù)庫(kù)構(gòu)建的影響之大,且開(kāi)放測(cè)試語(yǔ)料的人工處理效果明顯優(yōu)于封閉測(cè)試語(yǔ)料的人工處理效果。
由以上兩個(gè)實(shí)驗(yàn)的對(duì)比,我們通過(guò)自動(dòng)模板選擇進(jìn)行基于層疊條件隨機(jī)場(chǎng)模型的自動(dòng)句法標(biāo)注,并加入基于錯(cuò)誤驅(qū)動(dòng)的學(xué)習(xí)算法后做一個(gè)整體的樹(shù)庫(kù)構(gòu)建性能對(duì)比。其中缺失括號(hào)對(duì)指在句子中缺失半個(gè)括號(hào)或者未標(biāo)記出的括號(hào)對(duì),既每個(gè)句子的平均括號(hào)缺失對(duì)的數(shù)目。括號(hào)正確率及召回率分別為式(4)和式(5)所示,具體的實(shí)驗(yàn)性能對(duì)比如表7所示。
表7 哈語(yǔ)語(yǔ)料整體句法標(biāo)注性能對(duì)比
從上表可以看出,平均每個(gè)句子的括號(hào)缺失對(duì)數(shù)相對(duì)比較少,原因是采用層疊條件隨機(jī)場(chǎng)模型進(jìn)行分層句法標(biāo)記時(shí)。對(duì)待標(biāo)記的序列采用的“BIO”標(biāo)記法,它的優(yōu)點(diǎn)在于至少是兩個(gè)詞、兩個(gè)短語(yǔ)、一個(gè)短語(yǔ)和一個(gè)詞組成的嵌套短語(yǔ)或者復(fù)雜短語(yǔ),所以在標(biāo)記的時(shí),如果是短語(yǔ),必定存在短語(yǔ)開(kāi)頭“B-”+“短語(yǔ)類型”及短語(yǔ)結(jié)尾“I-”+“短語(yǔ)類型”。括號(hào)對(duì)不全的情況較低,只存在未標(biāo)注出的短語(yǔ)情況,既缺失一對(duì)的括號(hào)。
本文介紹了構(gòu)建哈薩克語(yǔ)樹(shù)庫(kù)流程及方法,首先選取了哈語(yǔ)句法標(biāo)記集,同時(shí)提出了采用基于層疊條件隨機(jī)場(chǎng)進(jìn)行哈薩克語(yǔ)自動(dòng)句法標(biāo)注。在層疊條件隨機(jī)場(chǎng)模型中,文中在低層模型與高層模型之間加入了基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)算法,減少其造成的錯(cuò)誤蔓延同時(shí)提高標(biāo)注準(zhǔn)確率。最后對(duì)整體標(biāo)注結(jié)果進(jìn)行人工校對(duì)從而完善樹(shù)庫(kù)。從目前的實(shí)驗(yàn)結(jié)果來(lái)看,我們證明了該方法在特殊的哈語(yǔ)自動(dòng)句法標(biāo)注層面的有效性,也為我們?cè)谧詣?dòng)句法標(biāo)注和人工校正方面積累了一定的經(jīng)驗(yàn)。但目前哈語(yǔ)樹(shù)庫(kù)構(gòu)建處于初級(jí)階段,實(shí)驗(yàn)語(yǔ)料規(guī)模較小,因此需要后期在以下幾個(gè)方面做進(jìn)一步提升:1) 增加哈薩克語(yǔ)語(yǔ)料規(guī)模并分析處理,發(fā)現(xiàn)新的語(yǔ)言現(xiàn)象;2) 補(bǔ)充及完善樹(shù)庫(kù)句法標(biāo)記規(guī)范,確保機(jī)器自動(dòng)標(biāo)注與人工標(biāo)注的一致性;3) 提出新的技術(shù),能夠更好地分析復(fù)雜句子,加強(qiáng)句子的排歧能力,從而降低人工校對(duì)的工作量。
[1]NianwenXue,FuDongChiou,MarthaPalmer.BuildingaLarge-ScaleAnnotatedChineseCorpus[C]//Proc.of19thInternationalConferenceonComputationalLinguistics(COLING-02),Taiwan,2002:1-7.
[2]ChuRenHuang,FengYiChen,ZhaomingGao,etal.SinicaTreebank:designcriteria,annotationguidelines,andon-lineinterface[C]//ProceedingsoftheSecondWorkshopChineseLanguageProcessing,HongKong,2000:29-37.
[3]WojciechSkut,ThorstenBrants,BrigitteKrenn,etal.AlinguisticallyinterpretedcorpusofGermanNewspapertext[C]//ProceedingsoftheConferenceonLanguageResourcesandEvaluationLREC-98.Granade,Spain,1998:705-711.
[4]SabineBrants,SilviaHansen.DevelopmentsintheTIGERannotationschemeandtheirrealizationinthecorpus[C]//ProceedingsoftheThirdConferenceonLanguageResourcesandEvaluation(LREC-02).LasPalmasdeGranCanaria,Spain,2002:1643-1649.
[5] 古麗拉·阿東別克,達(dá)吾勒·阿布都哈依爾,木合亞提·尼亞孜別克,等.現(xiàn)代哈薩克語(yǔ)詞級(jí)標(biāo)注語(yǔ)料庫(kù)的構(gòu)建研究(特邀文章)[J].新疆大學(xué)學(xué)報(bào):自然科學(xué)版,2009,26(4):394-401.
[6] 侯呈風(fēng),古麗拉·阿東別克,陳景超.基于HMM的哈薩克語(yǔ)詞性標(biāo)注研究 [J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(2):31-33.
[7] 孫瑞娜,古麗拉·阿東別克.哈薩克語(yǔ)基本名詞短語(yǔ)自動(dòng)識(shí)別研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào), 2010,24(6):114-119.
[8] 古麗扎達(dá)·海沙.哈薩克語(yǔ)基本動(dòng)詞短語(yǔ)自動(dòng)識(shí)別研究[D].新疆:新疆大學(xué)信息科學(xué)與工程學(xué)院, 2013.
[9] 周強(qiáng),張偉,俞士汶.漢語(yǔ)樹(shù)庫(kù)的構(gòu)建[J].中文信息學(xué)報(bào),1997,11(4):42-51.
[10] 周強(qiáng),任海波,孫茂松.分階段構(gòu)建漢語(yǔ)樹(shù)庫(kù)[C]//第二屆中日自然語(yǔ)言處理專家研討會(huì),2006,5:189-197.
[11] 周強(qiáng), 俞士汶.漢語(yǔ)短語(yǔ)標(biāo)注標(biāo)記集的確定[J].中文信息學(xué)報(bào),1996,10(4):1-11.
[12]MarcusMP,MarcinkiewiczMA,SantoriniB.BuildingaLargeAnnotatedCorpusofEnglish:ThePennTreeband[J].ComputationalLinguistics,1993,19(2):313-330.
[13] 張定京.現(xiàn)代哈薩克語(yǔ)使用語(yǔ)法(語(yǔ)法形式篇)[M].北京:中央民族大學(xué)出版社,2004.
[14] 桑海巖,古麗拉·阿東別克,牛寧寧.基于最大熵的哈薩克語(yǔ)詞性標(biāo)注模型[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(11):126-129.
[15] 侯呈風(fēng),古麗拉·阿東別克.改進(jìn)的HMM應(yīng)用于哈薩克語(yǔ)詞性標(biāo)注[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(36):147-149.
[16]RamshowLA,MarcusMP.Textchunkingusingtransformation-basedlearning[C]//ProceedingsoftheThirdACLWorkshoponVeryLargeCorpora,1995:82-94.
[17]EricBrill.Transformation-basederror-drivelearningandnaturallanguageprocessing:acasestudyinpartofspeechtagging[J].ComputationalLinguistics,1995,21(4):543-565.
RESEARCH ON THE TECHNOLOGY OF BUILDING KAZAKH TREEBANK BASED ON CASCADED CONDITIONAL RANDOM FIELD
Yu ZhijuanGulia·Altenbek
(SchoolofInformationScienceandEngineering,XinjiangUniversity,Urumqi830046,Xinjiang,China)
On the issue of how to improve the processing performance of statistical analysis-based Kazakh syntax parsing algorithm, this paper proposes a method of constructing the Kazakh treebank by human-computer interaction. In automatic syntax annotation stage, it achieves by using the cascade conditional random field model. And between its low-level and high-level models it adds the improved and transformation-based error-driven learning algorithm to carry out automatic syntax annotation and automatic correction of the simple sentences. Finally for special entire marking errors the artificial proofreading will be conducted, thus the method forms the phrase structure-based Kazakh treebank. Experimental results show that this method reduces to a large extent the investment on human power and material resources, improves the parsing accuracy and overall processing efficiency. Moreover, it lays the certain foundation for the Kazakh-based syntactic machine translation and text mining afterwards.
Kazakh treebankHuman-machine interactionCascade conditional random fieldsError-driven learning algorithm
2014-09-12。國(guó)家自然科學(xué)基金項(xiàng)目(61063025,61363062)。于智娟,碩士,主研領(lǐng)域:自然語(yǔ)言信息處理。古麗拉·阿東別克,教授。
TP391.1
A
10.3969/j.issn.1000-386x.2016.03.015