国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

班智達藏文標(biāo)注詞典設(shè)計

2010-06-05 02:43才智杰才讓卓瑪
中文信息學(xué)報 2010年5期
關(guān)鍵詞:藏文詞條分詞

才智杰, 才讓卓瑪

(青海師范大學(xué) 藏文信息研究中心,青海 西寧 810008)

1 引言

大規(guī)模語料庫是除自然資源以外的重要資源,各國目前已把實現(xiàn)大規(guī)模真實文本的處理作為自然語言處理今后一個時期的戰(zhàn)略目標(biāo),從大規(guī)模的語料庫中提取、歸納、分析、概括出所需要的知識和信息。藏文和漢文都是字的序列,詞之間沒有間隔標(biāo)記,使得詞的界定缺乏自然標(biāo)準(zhǔn),這就需要分詞。分詞是理解自然語言的第一步,在此基礎(chǔ)上標(biāo)注詞性,分詞、標(biāo)注的語料可供劃分短語、抽取概念以及分析主題,以至自然語言理解,最終實現(xiàn)智能化[1]。

近年來隨著藏文信息處理技術(shù)的不斷發(fā)展,研究人員已意識到藏文自動分詞標(biāo)注的重要性,在借鑒漢語分詞標(biāo)注研究已有成功經(jīng)驗的基礎(chǔ)上,藏文自動分詞標(biāo)注也取得了一些有價值的研究成果。目前藏文分詞標(biāo)注主要采用基于詞典的分詞標(biāo)注,基于詞典的分詞標(biāo)注是把分詞標(biāo)注所需的各種信息都以詞典的形式存儲,在整個分詞過程中都需要頻繁地訪問詞典以獲得詞語信息。因此詞典的設(shè)計和查詢是整個分詞標(biāo)注系統(tǒng)的關(guān)鍵?!栋嘀沁_藏文自動標(biāo)注系統(tǒng)》的研制為藏文輸入法研究、藏文電子詞典建設(shè)、藏文字詞頻統(tǒng)計、搜索引擎的設(shè)計和實現(xiàn)、機器翻譯系統(tǒng)的開發(fā)、網(wǎng)絡(luò)信息安全、藏文自動分析等方面的研究奠定了基礎(chǔ)。

2 藏文自動標(biāo)注的過程

《班智達藏文自動標(biāo)注系統(tǒng)》采用模塊化設(shè)計,由知識庫管理模塊、知識庫模塊、句子分塊模塊、塊分詞模塊、標(biāo)注模塊和校正模塊等六部分組成。

自動標(biāo)注系統(tǒng)的總體設(shè)計思想是基于詞典的最大匹配算法。先將待切分文本分塊,然后按照一定的策略將待分析的字串與詞典中的詞條進行匹配,若在詞典中找不到某個字串,則將字串縮小繼續(xù)查找,否則匹配成功,識別出一個詞,并加以標(biāo)注。藏文分詞標(biāo)注需要四步完成[2]:文本切分成句,句切分成塊,塊切分成詞,詞性標(biāo)注,其處理過程如圖1所示。

圖1 分詞標(biāo)注流程

3 詞典設(shè)計

3.1 主詞典庫設(shè)計

詞典庫是基于詞典的分詞標(biāo)注系統(tǒng)的核心,由于《班智達藏文自動標(biāo)注系統(tǒng)》采用基于詞典匹配的分詞方法,因而詞典庫設(shè)計的合理性直接影響其性能。通過對85萬字節(jié)原始藏語語料的統(tǒng)計及切分實驗,班智達藏文自動標(biāo)注詞典庫共收錄了95 970條詞,詞條分布見表1。

表1 班智達藏文自動標(biāo)注詞典詞條分布統(tǒng)計表

由表1可以看出班智達藏文分詞標(biāo)注詞典庫中長度最小的是1個字符,長度最大的達40個字符,詞條基本集中在1~20個字符之間,20個字符以上的詞條共467條,約占總詞條數(shù)的0.49%,隨字符數(shù)的增加詞條數(shù)遞減。通過在85萬字節(jié)藏語語料統(tǒng)計,文本中出現(xiàn)的詞絕大部分是3~13個字符(在詞典庫中共有87 672條,占總詞條的91.4%)構(gòu)成的詞,少部分由1、2、14~20個字符(在詞典庫中共有7 831條,占總詞條的8.11%)構(gòu)成的詞,20個以上字符組成的詞出現(xiàn)的頻率很低。假若按常規(guī)模式建立詞典庫,一方面由于詞典庫規(guī)模太大而增加模式匹配次數(shù),分詞速度將受到影響;另一方面,由于詞間字符數(shù)懸浮太大而出現(xiàn)數(shù)據(jù)冗余再現(xiàn),浪費系統(tǒng)資源。因此,為了減少查詞典的次數(shù)和計算量,提高藏文分詞標(biāo)注的速度,班智達藏文自動標(biāo)注系統(tǒng)在建立詞典庫時按詞條字符數(shù)分成高頻用庫、常規(guī)庫和稀疏庫等三種,并針對“最大匹配算法”的實際需要,設(shè)計了藏文分詞的“最大匹配索引法”。

整個詞庫采用線性表組織,并通過分塊和索引的方法來提高詞庫的檢索速度,以減少進行匹配的詞條數(shù)。首先對詞條按字符數(shù)分塊,字符數(shù)相同的詞條放到同一組,并組內(nèi)排序。一級索引加在各個分組上,一級索引記錄組成塊的字符數(shù)length和該項塊的首地址head1,再根據(jù)下一分組塊的首地址確定該分組的終止地址,組首地址可通過哈希函數(shù)f(n)=(n-1)×30+1確定。二級索引是加在一級索引內(nèi)部,記錄詞條的字符數(shù)length、首字符WH和length個字符且首字符為WH組成的詞在庫中首地址,在同一組內(nèi)部由于有很多的詞條,二級索引是按詞的首字符建立,它加在以不同字符開頭的詞條組中,這樣通過二級索引可以進一步縮小查找范圍。使用這種結(jié)構(gòu)存儲庫,不但可以提高查詢速度,同時解決了由于藏語詞條間字符數(shù)懸浮太大而出現(xiàn)的數(shù)據(jù)冗余現(xiàn)象。

在藏語詞語標(biāo)注分類體系的構(gòu)建上,根據(jù)藏語語料庫自動切分和標(biāo)注的實際需要,采用先分虛實詞,再確定大類,在大類的基礎(chǔ)上分出小類,再分出不同深度的子類。大類類劃分為21個一級類,60個二級類,二級類是在確定了基本屬性的基礎(chǔ)上對一級類的分解,也是對詞類信息的進一步豐富。依據(jù)國際通常做法,標(biāo)記代碼主要采用英文術(shù)語中的字母。例如,“名詞”,采用英文術(shù)語“noun”的首字母“n”作為標(biāo)記代碼;“數(shù)詞”,采用英文術(shù)語“numeral”的第三個字母“m”作為標(biāo)記代碼。藏語獨有的或使用英文術(shù)語字母不便的,依據(jù)國內(nèi)通常做法,標(biāo)記代碼采用漢語拼音字母。如,“格助詞”采用漢字“格”漢語拼音的首字母“g”作為標(biāo)記代碼;“狀態(tài)詞”采用漢字“狀”漢語拼音的首字母“z”作為標(biāo)記代碼。庫結(jié)構(gòu)描述如下:

Typedefine struct index1

{int length;//描述組成詞的字符數(shù)

int head1;//描述length個字符組成的詞在庫中首地址

}ID1;

Typedefine struct index2

{ int length;//描述組成詞的字符數(shù)

string[] WH;//描述詞的首字符

int head2;//描述length個字符且首字符為WH組成的詞在庫中首地址

}ID2;

Typedefine struct data

{sting[] Word;//存儲詞

Char G1;//存儲一級詞性

Char G2;//存儲二級詞性

}DT;

庫結(jié)構(gòu)中部分內(nèi)容的索引表如圖2所示。

圖2 索引表結(jié)構(gòu)示意圖

3.2 臨界庫設(shè)計

例如對下面藏文文本直接利用最大匹配算法其時間復(fù)雜度為35!≈1.03×1040,而先用特殊格助詞分塊然后再切分其時間復(fù)雜度為3!+2!+9!+16!+11!≈2.09×1013,有效地提高了切分速度。

3.3 臨時庫設(shè)計

未登錄詞的識別是分詞技術(shù)的難點[3-4],基于詞典的模式匹配分詞標(biāo)注系統(tǒng)而言未登錄詞的識別就更為重要。為解決未登錄詞的識別問題,班智達藏文自動標(biāo)注系統(tǒng)中建立臨時庫后采用智能和人工兩種方法識別未登錄詞。智能識別法:對無法分詞的字符串,統(tǒng)計這個子串在整篇文章中出現(xiàn)的頻率,若頻率較高則將此視為一新詞,把該詞自動添加到臨時庫,這種將詞庫與詞頻統(tǒng)計相結(jié)合的方法可提高未登錄詞的識別率,通過實驗用這種方法能夠識別85%以上的未登錄詞;人工識別法:人工閱讀文本時若發(fā)現(xiàn)某未登錄詞,則選擇該詞利用添加功能把詞添加到臨時庫。通過知識庫管理模塊把臨時庫中新抽取出的詞條添加到主詞典庫,這樣在實際應(yīng)用中,可不斷擴充系統(tǒng)的詞庫,提高信息的查全率。

4 詞庫索引查詢算法

4.1 索引查詢算法

索引查詢算法是索引搜索策略的形式化描述和具體實現(xiàn),由以上分詞標(biāo)注庫結(jié)構(gòu)描述可知,索引查詢算法的主要特點是通過建立二級索引減少查詢詞庫的次數(shù),從而提高分詞標(biāo)注系統(tǒng)的性能[5]。具體算法如下:

1) 按照“最大匹配切分算法”從文本開頭取出一個最大待查字串;

2) 求出該字串的長度,并根據(jù)哈希函數(shù)f(n)=(n-1)×30+1確定ID2的首地址和終地址;

3) 在ID2的首地址到終地址間利用折半查找算法查找字串中的首字符,根據(jù)head2字段確定DT中的首地址和終地址;

4) 在DT的首地址到終地址間利用折半查找算法查找字串。若字串在詞典庫存在,則分詞并加以標(biāo)注,否則縮小字串并轉(zhuǎn)至2)。

4.2 索引查詢過程舉例

下面結(jié)合3.1和4.1給出的結(jié)構(gòu)和算法,通過一個分詞標(biāo)注實例來介紹分詞標(biāo)注詞典庫中索引查找的具體實現(xiàn)過程。

5 結(jié)束語

藏文自動分詞標(biāo)注的研究,將推動機器翻譯、語音合成、文字識別技術(shù)的發(fā)展。隨著歧義性研究的進展,還可進一步提高分詞準(zhǔn)確率。

[1] 陳玉忠,李保利,俞士汶,等.基于格助詞和接續(xù)特征的書面藏文分詞方案[J].語言文字應(yīng)用,2003,(1):75-82.

[2] 才智杰.藏文自動切分系統(tǒng)中緊縮詞的識別[J].中文信息學(xué)報,2009,23(1):35-37,43.

[3] 孫茂松,黃昌寧,等.中文姓名的自動辨識[J].中文信息學(xué)報,1995,9(2):16-27.

[4] 孫茂松,鄒嘉彥,等.漢語自動分詞研究評述[J].當(dāng)代語言學(xué),2001,(1):22-32.

[5] 李慶虎,陳玉健,孫家廣.一種中文分詞詞典新機制——雙字哈希機制[J].中文信息學(xué)報,2003,17(4):13-18.

[6] 陳玉忠,李保利,俞士汶,等.藏文自動分詞系統(tǒng)的設(shè)計與實現(xiàn)[J].中文信息學(xué)報,2003,17(3):15-20.

[7] 陳玉忠,俞士汶.藏文信息處理的研究現(xiàn)狀與展望[J].中國藏學(xué),2003,(4):97-107.

猜你喜歡
藏文詞條分詞
敦煌本藏文算書九九表再探
分詞在英語教學(xué)中的妙用
利用簡單的公式快速分隔中英文詞條
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
黑水城和額濟納出土藏文文獻簡介
基于條件隨機場的藏文人名識別研究
聚焦現(xiàn)在完成進行時
疏附县| 合阳县| 定南县| 琼海市| 合川市| 静乐县| 南丹县| 福鼎市| 宕昌县| 西乌珠穆沁旗| 韩城市| 桃江县| 长武县| 尼勒克县| 化德县| 抚远县| 南平市| 桃江县| 大渡口区| 璧山县| 潢川县| 蒙阴县| 枞阳县| 木兰县| 布尔津县| 荆门市| 孟连| 涟源市| 卓资县| 惠东县| 弋阳县| 肥乡县| 大埔县| 巴马| 涡阳县| 阿坝| 胶南市| 龙山县| 洛宁县| 湖南省| 永定县|