陳小瑩
摘要:本文通過對(duì)藏文文本中不規(guī)范文本進(jìn)行分類后,針對(duì)不同類型的文本特征制定規(guī)范化處理方法,最終實(shí)現(xiàn)了對(duì)藏文文本的規(guī)范化處理。但因藏文文本來源的不確定性,文本中可能會(huì)存在一些未收集到的不規(guī)范文本類型,需在后期的研究工作中繼續(xù)收集整理。
關(guān)鍵詞:信息處理; 藏文文本; 規(guī)范化
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)志碼:A
文章編號(hào): 2095-2163(2016)06-0029-03
0引言
[JP2]藏文文本規(guī)范化處理主要是對(duì)藏文文本做版面分析,識(shí)別并規(guī)范藏文文本中可能出現(xiàn)的非正常藏文字符的過程。藏文文字屬于符號(hào)文字,藏文文本中除包含正常的藏文字符外,還可能會(huì)出現(xiàn)借形詞、特殊符號(hào)、黏著語等一些特殊字符形式\[1\]。這些藏文特殊字符的存在會(huì)直接影響到文本信息處理的正確性。在規(guī)范化處理時(shí),需在正確理解其產(chǎn)生原因的基礎(chǔ)上確定相應(yīng)處理方式,依據(jù)其所處語境設(shè)定相應(yīng)規(guī)則將這些符號(hào)轉(zhuǎn)換成規(guī)范的藏文文本形式。在藏語字音轉(zhuǎn)換系統(tǒng)中,對(duì)非規(guī)范形式的藏文文本進(jìn)行規(guī)范化處理能保證后續(xù)字音轉(zhuǎn)換順利完成,因此對(duì)藏文文本規(guī)范化處理是一個(gè)必不可少的基礎(chǔ)工作。
[JP3]本文通過對(duì)藏文文本進(jìn)行分析,確定藏文文本規(guī)范化主要有2個(gè)任務(wù):第一個(gè)任務(wù)是特殊符號(hào)歸一化;第二個(gè)任務(wù)是外借詞藏文化。在此,擬將針對(duì)每一部分研究給出如下分析論述。[JP]
[BT4]1特殊符號(hào)歸一化
藏文文本規(guī)范化主要是指在藏文文本中出現(xiàn)的一些非常用藏文標(biāo)記符號(hào)以及其它有特殊含義的符號(hào),這些特殊符號(hào)的存在會(huì)對(duì)后期文本理解造成歧義。
[BT5]1.1標(biāo)記符號(hào)歸一化處理
在藏文文本中可能會(huì)存在這樣一些符號(hào),這類符號(hào)有些能夠表達(dá)語言功能,有些只是文本中存在的裝飾性圖案,這些標(biāo)記符號(hào)對(duì)語音并沒有任何作用,因此在獲取規(guī)范化設(shè)計(jì)時(shí)即需要進(jìn)行歸一化處理。
根據(jù)目前從各類文獻(xiàn)中收集藏文符號(hào)和圖形的分析,藏文文本中的字符與圖形可以劃分為文字符號(hào)與非文字符號(hào)兩大類。其中,文字符號(hào)除了包括能夠書寫語言聲音的藏文字符外,還包括描寫聲音連接、停頓和結(jié)束的符號(hào);非文字符號(hào)可以表示某種事物或觀念意義,但與語言聲音無關(guān),主要包括篇章符、敬重符、歷算符等\[3\]。
藏文文本中出現(xiàn)的藏文標(biāo)記符號(hào),一般沒有實(shí)際語義,所以對(duì)這些符號(hào)推行規(guī)范化處理時(shí),只需要獲取其出現(xiàn)的特征標(biāo)記以及對(duì)應(yīng)的編碼形式,通過建立標(biāo)記符號(hào)替換規(guī)則表,然后在待處理的文本中識(shí)別出這些符號(hào),利用標(biāo)記符號(hào)替換規(guī)則表即可實(shí)現(xiàn)歸一化處理。
[BT5]1.2其它類型特殊符號(hào)歸一化處理
其它類型特殊符號(hào)規(guī)范化處理時(shí),首先收集整理可能出現(xiàn)的符號(hào)類型以及其表示的具體語義;其次是確定標(biāo)準(zhǔn)的藏文文本表示形式;最后再建立對(duì)應(yīng)的映射規(guī)則表。規(guī)范化處理時(shí)直接通過映射規(guī)則表查找出對(duì)應(yīng)的符號(hào),再將其利用表里的標(biāo)準(zhǔn)藏文文本形式代替即可。映射規(guī)則表如表1所示。
2外借詞藏文化處理
因藏文文本的網(wǎng)絡(luò)化傳播,許多藏文文本中存在這樣一類詞,這一類詞借用藏語以外的其他民族語言字形,但是卻需要按照藏語的讀音來讀,這類詞就是外借詞。外借詞主要有2種形式,一種是簡略詞形式,一種是數(shù)字符號(hào)形式。
[BT5]2.1簡略詞規(guī)范化處理
藏文文本中的簡略詞,主要來源于其它語種中一些事物縮略表示形式。簡略詞的存在會(huì)影響對(duì)藏文文本的正確分析,因此對(duì)簡略詞規(guī)范化處理在自動(dòng)注音系統(tǒng)中非常重要。
一般而言,藏文文本中包含的簡略詞主要有2類:一類是常用的單位簡寫形式。例如:mm、cm、kg等,這種形式需要轉(zhuǎn)換成藏文進(jìn)行發(fā)音;另一類是一些特殊名詞的簡略表示形式。例如:CO、LA、CA、DC、USA等,這一類外借詞在規(guī)范化處理時(shí)直接按照原來的形式與藏文分開。簡略詞規(guī)范化處理主要是通過建立簡略詞轉(zhuǎn)換表來獲得實(shí)現(xiàn)的,簡略詞轉(zhuǎn)換如表2所示,具體處理過程如下[3]:
1)首先對(duì)已進(jìn)行符號(hào)歸一化處理的藏文文本按照句子進(jìn)行切分,其次將藏文句子按照藏文文本、數(shù)字符號(hào)以及其它文本進(jìn)行識(shí)別并標(biāo)記,以此得到3類不同的字符塊。
2)將切分后的句子中所有文本塊分別在簡略詞表中查找,若在簡略詞表中,轉(zhuǎn)3),否則轉(zhuǎn)4)。
3)查找結(jié)果在上下文中進(jìn)行一一對(duì)應(yīng),確定對(duì)應(yīng)的規(guī)范化形式。
4)繼續(xù)處理下一個(gè)句子。
2.2數(shù)字符號(hào)規(guī)范化處理
2.2.1數(shù)字符號(hào)種類
數(shù)字符號(hào)的表示形式主要有4類[4],具體給出如下分析論述。
1)電話號(hào)碼形式。固定電話號(hào)碼形式相對(duì)一致,可能包含前綴符號(hào)、區(qū)號(hào)和普通號(hào)碼三個(gè)部分,每部分之間可能存在分隔符號(hào)。一般而言,國內(nèi)的電話基本一致,包含區(qū)號(hào)和普通號(hào)碼兩部分共計(jì)11個(gè)數(shù)字符號(hào),其中區(qū)號(hào)部分有3~4個(gè)數(shù)字,普通號(hào)碼有7~8個(gè)數(shù)字。如果一個(gè)文本塊判別屬于這種模式,那么其顯示為電話號(hào)碼形式的幾率就比較大。[JP2]之后再利用該文本塊相鄰的上下文內(nèi)容進(jìn)行查找,判斷是否有一些指時(shí)間在藏文文本中也可能有多種表示形式。常見的一些關(guān)于時(shí)間的書寫方式有9:30,9:30am,8:00-8:30等。但有時(shí)候如果僅僅出現(xiàn)上述形式,并不能完全說明該文本表示形式就是時(shí)間。比如“9:30”這種形式如果出現(xiàn)在比賽描述中,說明場(chǎng)上比分是“9:30”,此時(shí)的“9:30”就不能用時(shí)間形式來進(jìn)行轉(zhuǎn)換,而需要綜合上下文語境后再進(jìn)行轉(zhuǎn)換。針對(duì)這些可能出現(xiàn)歧義的表示形式,不能簡單地只考慮文本表達(dá)式的匹配,還需要考慮上下文的環(huán)境,確定具體描述的意義之后再進(jìn)行對(duì)應(yīng)的轉(zhuǎn)換。
3)金錢貨幣形式。藏文文本中也可能會(huì)出現(xiàn)一些常見的貨幣表示形式,該形式在藏文文本出現(xiàn)時(shí)基本可以通過貨幣單位而得到關(guān)聯(lián)辨別,在規(guī)范化處理時(shí),直接進(jìn)行識(shí)別替代即可。
4)其它數(shù)字符號(hào)形式。由于藏文文本來源各異,因此在藏文文本中可能會(huì)出現(xiàn)小數(shù)2.178、溫度-20.5 ℃、商品型號(hào)M4350、IP地址202.200.10.11等常見數(shù)字符號(hào)形式,也可能會(huì)出現(xiàn)其它特定的數(shù)字符號(hào)形式。這些數(shù)字符號(hào)在規(guī)范處理過程中需要?jiǎng)討B(tài)加入新的數(shù)字塊識(shí)別規(guī)則,以便處理新的數(shù)字形式。
2.2.2數(shù)字符號(hào)規(guī)范化處理的技術(shù)設(shè)計(jì)方案
數(shù)字符號(hào)在規(guī)范化處理時(shí),首先參照陳志剛等在《中文語音合成系統(tǒng)中的文本標(biāo)準(zhǔn)化方法》一文中對(duì)文本標(biāo)準(zhǔn)化規(guī)則庫的創(chuàng)建方法,建立百分?jǐn)?shù)規(guī)則、小數(shù)規(guī)則、數(shù)字區(qū)間規(guī)則、溫度規(guī)則等規(guī)則,確定不同含義數(shù)字的組合規(guī)則;其次利用數(shù)字符號(hào)、特征詞和標(biāo)準(zhǔn)藏文文本建立數(shù)字符號(hào)轉(zhuǎn)換規(guī)則表,基于該表即可實(shí)現(xiàn)不同意義數(shù)字符號(hào)到標(biāo)準(zhǔn)藏文文本形式的轉(zhuǎn)換[5]。數(shù)字符號(hào)轉(zhuǎn)換規(guī)則如表3所示。
因藏文文本來源的不確定性,在文本中可能會(huì)存在一些未收集到的不規(guī)范文本類型,所以建立的規(guī)則知識(shí)庫并不能處理這類文本。針對(duì)這種情況,項(xiàng)目中開放了數(shù)字符號(hào)轉(zhuǎn)換規(guī)則表,允許用戶添加新的數(shù)字符號(hào)識(shí)別特征詞和組合規(guī)則,以便更加有效識(shí)別數(shù)字符號(hào),從而提高數(shù)字符號(hào)規(guī)范化處理的準(zhǔn)確性和完整性。
3結(jié)束語
[JP+1]藏文文本標(biāo)準(zhǔn)化處理是藏文信息處理領(lǐng)域中的重要內(nèi)容之一,藏文文本標(biāo)準(zhǔn)化處理對(duì)藏文信息處理的進(jìn)一步發(fā)展有著重要推動(dòng)作用。本文通過對(duì)藏文文本中不規(guī)范文本設(shè)定提供了有效分類后,又針對(duì)不同類型的文本特征制定規(guī)范化處理方法,最終實(shí)現(xiàn)了對(duì)藏文文本的規(guī)范化處理。但因藏文文本來源的不確定性,文本中可能會(huì)存在一些未收集到的不規(guī)范文本類型,需在后期的研究工作中繼續(xù)補(bǔ)充征集。
參考文獻(xiàn):[1]格桑居冕,格桑央京. 實(shí)用藏文文法教程[M]. 成都:四川民族出版社,2008.
[2] 扎西加,珠杰. 面向信息處理的藏文分詞規(guī)范研究[J]. 中文信息學(xué)報(bào),2009,23(4):113-117,123.
[3] [JP3]高璐,陳琪,李永宏,等. 藏語語音合成中文本分析的若干問題研究[J]. 西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,31(2):27-32,75.[JP]
[4] 于洪志,楊博,關(guān)白. 藏文文本規(guī)范化技術(shù)的研究與實(shí)踐[J]. 西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,27(1):43-47.
[5] 陳志剛,胡國平,王熙法. 中文語音合成系統(tǒng)中的文本標(biāo)準(zhǔn)化方法[J]. 中文信息學(xué)報(bào),2003,17(4):45-51.[ZK)]