華卻才讓 ,姜文斌 ,趙海興 ,劉 群
HUA Quecairang1,2,JIANG Wenbin3,ZHAO Haixing1,LIU Qun3
1.陜西師范大學(xué) 計(jì)算機(jī)學(xué)院,西安 710062
2.青海師范大學(xué) 藏文信息研究中心,西寧 810008
3.中國科學(xué)院 計(jì)算技術(shù)研究所,北京 100190
1.Computer Science School of Shaanxi Normal University,Xi’an 710062,China
2.Tibetan Information Research Center,Qinghai Normal University,Xining 810008,China
3.Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China
藏文命名實(shí)體識別(Named Entity Recognition,NER)是確定藏文文本中人名、地名、機(jī)構(gòu)名和數(shù)詞等名詞短語的過程。它是藏文分詞、機(jī)器翻譯、跨語言檢索和文檔摘要等自然語言處理中應(yīng)用的關(guān)鍵技術(shù),也是目前藏文自然語言處理中亟待解決的問題。藏文作為典型的邏輯格語法體系的復(fù)雜拼音文字之一[1],首先句子中最基本的單元為音節(jié)(字),一個(gè)或多個(gè)音節(jié)構(gòu)成詞語,詞與詞之間沒有明顯標(biāo)記;其次,具有嚴(yán)格的格詞接續(xù)規(guī)則,部分格詞與前一個(gè)詞存在粘著和形態(tài)變化等關(guān)系[2],導(dǎo)致與音節(jié)的后置字符及又后置字符間存在歧義;第三動(dòng)詞在時(shí)態(tài)上具有屈折變化。這些復(fù)雜性使得藏文分詞已成為藏文信息處理中的一個(gè)難題[3],而藏文命名實(shí)體的識別更為困難,也是必須要解決的問題。
藏文中命名實(shí)體類似中文命名實(shí)體沒有區(qū)分標(biāo)記,其基本單元一個(gè)音節(jié)類似中文的一個(gè)字,沒有英文中的大小寫特征,它們和非命名實(shí)體沒有形態(tài)上的區(qū)別。大部分藏族都有姓,包括古代莊園名、家族名、部落名和地名等,也有寺院和封號名。常見的藏族人名按音節(jié)長度有2個(gè)(1個(gè)詞)、3個(gè)(1個(gè)或2個(gè)詞)和4個(gè)音節(jié)(2個(gè)詞),個(gè)別有1個(gè)和6個(gè)音節(jié),加上姓和封號后甚至有26個(gè)音節(jié)長度的姓名。而藏文地名、機(jī)構(gòu)名同漢語類似,都有一些開頭和結(jié)尾特征,但用詞特點(diǎn)不同[4]。此外藏文中漢族以及外國人名、地名和機(jī)構(gòu)名均類似漢語中的命名實(shí)體。
藏文命名實(shí)體識別模塊是藏文分詞和藏漢翻譯系統(tǒng)中不可或缺的組成部分,然而國內(nèi)外對其研究很少,文獻(xiàn)[5]中首次提出了基于規(guī)則和HMM模型藏語命名實(shí)體識別方案。文獻(xiàn)[6]中研究了藏族人名漢譯后的識別方法,提取藏族人名用字(串)特征和命名規(guī)則,結(jié)合詞典(3千條)采用串頻統(tǒng)計(jì)和頻率對比策略,以及人名前后一個(gè)詞為單位共現(xiàn)概率作為可信度的藏族人名識別模型,需給出預(yù)先定義的閾值。在新華網(wǎng)藏族頻道文本和《人民日報(bào)》(2000-01)上實(shí)驗(yàn)的召回率分別為85.54%和81.73%。
本文只討論藏文人名、地名和機(jī)構(gòu)名的識別方法,提出的基于音節(jié)的藏文命名實(shí)體識別方案,采用基于音節(jié)特征訓(xùn)練模型,準(zhǔn)確識別藏文人名、地名和機(jī)構(gòu)名,識別綜合性能達(dá)到86.03%。
由于藏文句子中詞與詞之間沒有明顯的分隔符,使得自動(dòng)分詞中難免存在分詞錯(cuò)誤,使命名實(shí)體開頭、結(jié)尾音節(jié)或詞與上下文詞語的切分歧義,影響分詞基礎(chǔ)上識別命名實(shí)體的正確率。況且組成詞語的音節(jié)具有自身的特征,特別是其字母組合上有很多拼寫規(guī)則和規(guī)律,3/4的藏文音節(jié)是依據(jù)藏文文法規(guī)則來拼寫的[7]。而音節(jié)間關(guān)系不僅反映了詞的內(nèi)部結(jié)構(gòu)特征,還反映了詞語的接續(xù)特征。采用基于音節(jié)的藏文命名實(shí)體識別方案,即音節(jié)識別、再用感知機(jī)模型和詞典解碼獲得n-best結(jié)果,最后利用知識庫獲得最佳(權(quán)重最大)識別結(jié)果。整體數(shù)據(jù)流程及框架見圖1。
圖1 藏文命名實(shí)體識別流程圖
藏語文本中絕大部分音節(jié)可由音節(jié)分隔符“·”劃分,但由于藏語文法中存在的六種緊縮格(),導(dǎo)致這六種格與其前的音節(jié)間存在黏著關(guān)系,甚至存在緊縮關(guān)系。文獻(xiàn)[8]提出了藏文緊縮詞及還原法,利用藏文緊縮詞的添接規(guī)則還原分詞后的藏文原文。利用組成音節(jié)的字根、前置字、后置字等字母構(gòu)件集和字母拼寫規(guī)則,識別實(shí)際拼寫音節(jié),校對音節(jié)[8]。本文考慮到有效獲取音節(jié)間實(shí)際上下文特征,只要將黏著緊縮音節(jié)劃分為兩個(gè)音節(jié),能準(zhǔn)確判斷出黏著緊縮關(guān)系即可。圖2中實(shí)際拼寫切分為本文采用的方法。
圖2 緊縮詞還原切分和實(shí)際拼寫切分比較
本文首先按藏語音節(jié)分隔符“·”分隔為準(zhǔn)音節(jié),準(zhǔn)音節(jié)分為緊縮準(zhǔn)音節(jié)和非緊縮準(zhǔn)音節(jié),而緊縮準(zhǔn)音節(jié)包括三種,分別為直接分隔緊縮準(zhǔn)音節(jié)、可還原緊縮準(zhǔn)音節(jié)和歧義緊縮準(zhǔn)音節(jié);其中非緊縮準(zhǔn)音節(jié)(譬如:)可直接劃分為一個(gè)音節(jié);緊縮準(zhǔn)音節(jié)可劃分為兩個(gè)音節(jié),其中直接分隔緊縮準(zhǔn)音節(jié)(譬如:)可直接分隔為一個(gè)音節(jié)()和可分黏著格();可還原緊縮準(zhǔn)音節(jié)(譬如)可直接還原為一個(gè)還原音節(jié)()和一個(gè)(還原)黏著格();歧義緊縮準(zhǔn)音節(jié)()可能為一個(gè)音節(jié)()和一個(gè)黏著格(),或者可能為一個(gè)單音節(jié)名詞(),同時(shí)可能存在還原()問題。為獲得藏文實(shí)際拼寫時(shí)的上下文音節(jié)特征,本文沒有按照嚴(yán)格分詞方法處理。當(dāng)用非緊縮音節(jié)表1和緊縮詞,判斷一個(gè)音節(jié)為緊縮準(zhǔn)音節(jié)后根據(jù)格助詞直接分隔即可,譬如:()確定為緊縮關(guān)系,則劃分為形式,中間加個(gè)空格來劃分。歧義緊縮準(zhǔn)音節(jié)根據(jù)建立的排歧詞表1來劃分,當(dāng)前歧義緊縮準(zhǔn)音節(jié)與第一個(gè)左部或右部出現(xiàn)的音節(jié)同時(shí)出現(xiàn)在歧義詞表時(shí)將其直接劃分為一個(gè)音節(jié),否則劃分為兩個(gè)音節(jié)。經(jīng)測試,在25 MB藏文語料中緊縮詞的識別準(zhǔn)確率達(dá)99.91%。此外,當(dāng)抽取命名實(shí)體詞典時(shí)對特殊緊縮邊界作還原,譬如,“”抽取并還原為“
表1 非緊縮音節(jié)和排歧詞表
在應(yīng)用機(jī)器學(xué)習(xí)算法之前,首先將語料中標(biāo)注好的命名實(shí)體的單詞序列轉(zhuǎn)換成音節(jié)標(biāo)注序列。根據(jù)音節(jié)與命名實(shí)體的關(guān)系,將音節(jié)標(biāo)注為13個(gè)標(biāo)注規(guī)范中的一個(gè)。標(biāo)注詳細(xì)信息見表2。比如,可以將詞級別人工標(biāo)注好的命名實(shí)體句子(1)轉(zhuǎn)換為命名實(shí)體音節(jié)序列標(biāo)注句子(2)。
如果在識別過程中發(fā)生歧義,則句子中的某些音節(jié)會有多個(gè)可能的標(biāo)注。比如,對于上述句子(1)中的組成人名的每個(gè)音節(jié)可能存在多個(gè)標(biāo)注(3),下面只給出了前三個(gè)詞的標(biāo)注結(jié)果:
這和詞性標(biāo)記相似,一個(gè)音節(jié)的標(biāo)注會受前面音節(jié)的標(biāo)注影響。比如,當(dāng) 標(biāo)注為LR時(shí),則其后面的音節(jié)只能被標(biāo)注為MR或RR;而當(dāng) 被標(biāo)注為OW時(shí),其后的音節(jié)只能被標(biāo)注為 OW、LR、LS、LT、NR、NS和NT。同樣,同樣一個(gè)音節(jié)的標(biāo)注也會受該音節(jié)周圍音節(jié)的影響。這與詞性標(biāo)注任務(wù)相似,記載特定的上下文中,從多個(gè)可能的標(biāo)注中選擇正確的標(biāo)注。接下來是從1.3萬句標(biāo)注好的訓(xùn)練語料中訓(xùn)練得到感知機(jī)在線平均權(quán)重訓(xùn)練模型,以對新出現(xiàn)的句子進(jìn)行自動(dòng)標(biāo)注。
表2 標(biāo)注規(guī)范信息
感知機(jī)方法是利用錯(cuò)誤分類對決策權(quán)向量進(jìn)行修正至收斂的方法。基于感知機(jī)文本序列標(biāo)注方法在句法分析[9]中取得了比較好的效果,具有容易定義特征、訓(xùn)練速度快和分類效果好等特性。此方法同樣在Unicode編碼藏文文本自動(dòng)分詞和詞性標(biāo)注中得到了驗(yàn)證[1]。設(shè)輸入句子xi∈X,輸出標(biāo)注序列 yi∈Y,X表示訓(xùn)練語料中的所有句子,Y表示對應(yīng)標(biāo)注命名實(shí)體標(biāo)記的音節(jié)序列。本文采用項(xiàng)目組制訂的命名實(shí)體音節(jié)標(biāo)注規(guī)范見表2,其中藏文音節(jié)標(biāo)注代碼包括13個(gè)。那么最佳命名實(shí)體音節(jié)標(biāo)注序列為:
其中 f(xi,yi)表示輸入句子和產(chǎn)生標(biāo)注序列的特征向量,w表示訓(xùn)練后得到的特征權(quán)重。
表3 藏文音節(jié)特征模板表1)
使用的特征包含了四類上下文信息:(1)音節(jié)化上下文。對于句子中的每個(gè)音節(jié),只考慮當(dāng)前音節(jié),前面兩個(gè)音節(jié)和后面兩個(gè)音節(jié)。譬如,人名“中的第一個(gè)音節(jié)“”的標(biāo)注可能為OW、LR或RS,但由于它前面兩個(gè)音節(jié)為“和,受這兩個(gè)音節(jié)的影響它被標(biāo)注為RR。如果其前面為“ ”則被標(biāo)注為OW。(2)前面出現(xiàn)的標(biāo)注。這類信息對于預(yù)測當(dāng)前音節(jié)的標(biāo)注是非常有用的。譬如,如果前面的音節(jié)被標(biāo)注為LR,則表示前一個(gè)單詞是某人名的起始音節(jié),則當(dāng)前音節(jié)是該人名的中間或結(jié)束音節(jié),應(yīng)該被標(biāo)注為MR或RR。(3)格詞接續(xù)規(guī)則。主格、屬格、于格和從格等主要格詞類具有固定的接續(xù)特征,且與形態(tài)動(dòng)詞相關(guān)[7]。接續(xù)規(guī)則與前一個(gè)詞的最后一個(gè)音節(jié)的后置字相關(guān),譬如,主格的接續(xù)要參照詞“的后置字“若符合則當(dāng)前音節(jié)被標(biāo)注為OW,而表示前一個(gè)音節(jié)的標(biāo)記可能為RR、RS或RT。(4)命名實(shí)體詞典特征。命名實(shí)體在相應(yīng)詞典中出現(xiàn)的特征信息類似上下文和標(biāo)注信息,這類訓(xùn)練權(quán)重同樣可用來正確標(biāo)注命名實(shí)體的當(dāng)前音。
本文采用感知機(jī)在線的學(xué)習(xí)權(quán)重,并獲取平均向量權(quán)重的方法[11],該算法具有魯棒特性,在短語結(jié)構(gòu)句法分析中,該算法擬合訓(xùn)練結(jié)果獲得了最佳近似擬合效果[12]。在線訓(xùn)練算法中當(dāng)完成一個(gè)單獨(dú)訓(xùn)練實(shí)例的擬合過程后,權(quán)重向量w就會更新一次。算法1中Y=為訓(xùn)練集,訓(xùn)練集中每條句對(xi,yi)由句子xi和其正確的序列標(biāo)注yi的句對構(gòu)成。
算法1在線平均感知機(jī)權(quán)重訓(xùn)練算法
利用在線學(xué)習(xí)算法對感知機(jī)模型訓(xùn)練結(jié)束后,每個(gè)特征及對應(yīng)的權(quán)重將被用來自動(dòng)標(biāo)注新出現(xiàn)的句子中的命名實(shí)體。
感知機(jī)模型解碼算法是尋找權(quán)重最大的音節(jié)標(biāo)注序列,從式(1)可以推導(dǎo)出最大權(quán)重音節(jié)序列標(biāo)注生成模型,可以定義為:
其中si為序列標(biāo)注句子 y中的第i個(gè)音節(jié),fk(si)為根據(jù)特征模板獲得的第k個(gè)特征,wk為該特征在訓(xùn)練樣本上第m次迭代后得到的平均權(quán)重,表示每個(gè)特征對命名實(shí)體音節(jié)類別的貢獻(xiàn),決定命名實(shí)體的邊界。使用柱搜索算法,按從左到右的順序標(biāo)注句子中的每個(gè)藏文音節(jié),見算法2。然后可以通過回溯得到最優(yōu)標(biāo)注結(jié)果以及n-best命名實(shí)體音節(jié)序列標(biāo)注結(jié)果。
算法2命名實(shí)體標(biāo)注解碼算法
算法中chart表示音節(jié)標(biāo)注搜索圖,每個(gè)頂點(diǎn)Node(POS,POS_1,score,prior)包含四個(gè)屬性,分別為當(dāng)前音節(jié)屬性標(biāo)記;前驅(qū)音節(jié)屬性標(biāo)記;從起始頂點(diǎn)至當(dāng)前頂點(diǎn)的累加分值,以及其前驅(qū)頂點(diǎn)序號。s[i]表示當(dāng)前音節(jié),psbPOSs包含當(dāng)前藏文音節(jié)在訓(xùn)練語料中出現(xiàn)過的標(biāo)注規(guī)范集,preTags包含所有可能的前驅(qū)頂點(diǎn)。SORTINSERT(curNode,chart[i])函數(shù)完成當(dāng)前頂點(diǎn)的篩選和前驅(qū)的路徑的剪枝功能,在實(shí)驗(yàn)中直方圖剪枝,堆??臻g大小設(shè)為20,按遞減排序當(dāng)前堆棧,只保留前20個(gè)標(biāo)注假設(shè),其余標(biāo)注分值較差的部分將被剪枝;柱搜索剪枝[13]所定義的搜索寬度為2,兼類音節(jié)引起存在多條路徑到當(dāng)前節(jié)點(diǎn),而且路徑中當(dāng)前節(jié)點(diǎn)的第一個(gè)前驅(qū)節(jié)點(diǎn)和當(dāng)前節(jié)點(diǎn)的標(biāo)注一致時(shí),則剪枝分值低的路徑。通過剪枝降低解碼的復(fù)雜度后,算法復(fù)雜度公式可以簡化為:
tag options為標(biāo)注規(guī)范的數(shù)量,sentence length為句子中的音節(jié)數(shù)。當(dāng)搜索圖中形成終點(diǎn),獲取所有可能序列標(biāo)注路徑或標(biāo)注結(jié)果后,可以通過回溯算法生成權(quán)重分值最高的音節(jié)格式命名實(shí)體標(biāo)注句子。
采用的訓(xùn)練和測試語料來自藏文網(wǎng)站上相關(guān)命名實(shí)體的各個(gè)領(lǐng)域,包括新聞、小說、法律、人物介紹等。語料加工分兩步,(1)進(jìn)行自動(dòng)分詞、詞性標(biāo)注后,經(jīng)人工修改其中切分和標(biāo)注錯(cuò)誤的命名實(shí)體。(2)將完整的詞性標(biāo)注好語料轉(zhuǎn)換為基于藏文音節(jié)標(biāo)注模式語料,見圖1。訓(xùn)練語料和測試語料的基本情況見表4。為獲取訓(xùn)練語料中的詞典特征,項(xiàng)目組整理了2.6萬條人名、1.8萬條地名和2千條機(jī)構(gòu)名。
表4 該語料概況
在本實(shí)驗(yàn)中,為比較切分粒度對藏文命名實(shí)體的影響,使用基于分詞基礎(chǔ)上識別藏文命名實(shí)體的方法為基線系統(tǒng),在表4給出的訓(xùn)練和測試集語料上,采用了相同的序列標(biāo)注規(guī)范、特征向量抽取模板、在線感知模型學(xué)習(xí)和解碼算法。藏文命名實(shí)體識別的評價(jià)指標(biāo)包括準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-Measure)三個(gè)指標(biāo)[14]。各項(xiàng)指標(biāo)越高說明命名實(shí)體的找出能力和判別能力越強(qiáng)。分別基于分詞[15]和音節(jié)特征感知機(jī)藏文命名實(shí)體識別性能見表5。
表5 藏文命名實(shí)體識別實(shí)驗(yàn)結(jié)果 (%)
從實(shí)驗(yàn)結(jié)果可以看出基于音節(jié)特征識別NE的F值相對于分詞方法高出10.52個(gè)百分點(diǎn),這是因?yàn)闇y試語料中的命名實(shí)體對分詞系統(tǒng)來說,很多都是未登錄詞,切分時(shí)容易出現(xiàn)未登錄詞與上下文切分錯(cuò)誤,引起命名實(shí)體識別錯(cuò)誤,比如“意思為“他在成都經(jīng)營格桑多杰唐卡工藝館。”,分詞結(jié)果為本文切分分隔符為空格的音節(jié)切分結(jié)果為基于音節(jié)特征方法中被正確識別的命名實(shí)體為而分詞方法中只有識別這是錯(cuò)誤的,分詞時(shí)把分為了一個(gè)詞,導(dǎo)致命名實(shí)體識別錯(cuò)誤。由于訓(xùn)練語料規(guī)模,本文提出的藏文命名實(shí)體識別效果比英文(F=93.87%)[4]和中文(F=91.18%)[16]偏低,但是對于一般藏文文本中出現(xiàn)的命名實(shí)體的識別依然達(dá)到了可以接受的標(biāo)準(zhǔn)。
藏文人名、地名和機(jī)關(guān)名等命名實(shí)體的專門識別是一項(xiàng)比較基礎(chǔ),但很重要的工作,可是國內(nèi)外的相關(guān)研究較少。本文根據(jù)藏文命名實(shí)體的構(gòu)詞規(guī)律,以及其基本組成單位音節(jié)特征出發(fā),提出了基于藏文音節(jié)特征的藏文命名實(shí)體識別方法。采用感知機(jī)方法訓(xùn)練命名實(shí)體標(biāo)注語料,結(jié)合詞典和訓(xùn)練模型用動(dòng)態(tài)規(guī)劃算法獲得命名實(shí)體標(biāo)注權(quán)重最大的n-best,最終輸出最佳命名實(shí)體識別結(jié)果。藏文命名實(shí)體識別綜合性能達(dá)到86.03%。在現(xiàn)有的研究基礎(chǔ)上,將進(jìn)一步研究擴(kuò)充知識庫,對未能正確識別的命名實(shí)體采用知識庫指導(dǎo)或統(tǒng)計(jì)和規(guī)則混合模型識別的方法。
[1]孫萌,劉群.基于判別式分類和重排序技術(shù)的藏文分詞[C]//第十二屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集,2011.
[2]格桑居冕.實(shí)用藏文文法[M].成都:四川民族出版社,1987.
[3]孫萌,華卻才讓,劉凱,等.藏文數(shù)詞識別與翻譯[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2013(1):75-80.
[4]孫鎮(zhèn),王惠臨.命名實(shí)體識別研究進(jìn)展綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010(6):42-47.
[5]金明,楊歡歡,單廣榮.藏語命名實(shí)體識別研究[J].西北民族大學(xué)學(xué)報(bào):自然科學(xué)版,2010(3):49-52.
[6]羅智勇,宋柔,朱小杰.藏族人名漢譯名識別研究[J].情報(bào)學(xué)報(bào),2009(3):475-480.
[7]珠杰,李天瑞,喬少杰.藏文音節(jié)規(guī)則模型及應(yīng)用[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2013(1):69-74.
[8]才智杰.藏文自動(dòng)分詞系統(tǒng)中緊縮詞的識別[J].中文信息學(xué)報(bào),2009(1):35-37.
[9]Collins M.Discriminative training methods for hidden markov models:theory and experiments with perceptron algorithms[C]//Proceedings of the Empirical Methods in Natural Language Processing Conference,Philadelphia,America,2002:1-8.
[10]華卻才讓,姜文斌,趙海興,等.基于詞對依存分類的藏語樹庫半自動(dòng)構(gòu)建研究[J].中文信息學(xué)報(bào),2013,27(5).
[11]McDonald R,Pereira F.Online learning of approximate dependency parsing algorithms[C]//Proceedings of EACL,2006:81-88.
[12]Collins M,Roark B.Incremental parsing with the perceptron algorithm[C]//Proc ACL,2004.
[13]Koehn P.統(tǒng)計(jì)機(jī)器翻譯[M].宗成慶,張霄軍,譯.北京:電子工業(yè)出版社,2012.
[14]宗成慶.統(tǒng)計(jì)自然語言處理[M].北京:清華大學(xué)出版社,2008.
[15]孫萌,華卻才讓,姜文斌,等.藏文分詞及其在藏漢機(jī)器翻譯中的應(yīng)用[J].信息技術(shù)快報(bào),2013,11(4).
[16]馮元勇,孫樂,李文波,等.基于單字提示特征的中文命名實(shí)體識別快速算法[J].中文信息學(xué)報(bào),2008(1):104-109.