陳優(yōu)陽(yáng)
(北京理工大學(xué)計(jì)算機(jī)學(xué)院 北京 100081)
2000年《東京宣言》中提出了信息無(wú)障礙的理念。信息無(wú)障礙[1]是指利用不斷發(fā)展的信息科學(xué)技術(shù),使得所有人都能無(wú)障礙地獲取信息資源。其核心內(nèi)容是利用科學(xué)技術(shù)手段消除某些生理功能退化或喪失的人群在信息獲取、接受過(guò)程中的障礙。因?yàn)槊と舜嬖谧顕?yán)重的信息獲取問(wèn)題,所以推進(jìn)盲人信息無(wú)障礙尤其最為迫切和重要。
解決盲人信息無(wú)障礙問(wèn)題的一個(gè)重要方法就是利用先進(jìn)的計(jì)算機(jī)應(yīng)用技術(shù),制造出適合盲人使用的計(jì)算機(jī)硬件設(shè)備和軟件系統(tǒng)。軟件系統(tǒng)中非常重要的一個(gè)系統(tǒng)是漢盲翻譯系統(tǒng),漢盲翻譯系統(tǒng)將數(shù)字化的中文信息翻譯成數(shù)字化的盲文,然后通過(guò)特殊的顯示或印刷設(shè)備把信息以盲文形式呈現(xiàn)出來(lái)。
本文旨在研究如何設(shè)計(jì)一個(gè)高效,易于擴(kuò)展和維護(hù)的盲文分詞連寫實(shí)現(xiàn)方案。首先設(shè)計(jì)了一個(gè)基于SC文法[4]的規(guī)則表示形式,并且根據(jù)盲文分詞連寫需要設(shè)計(jì)了一個(gè)連寫規(guī)則庫(kù)。然后根據(jù)語(yǔ)料和基于字典樹(shù)的匹配算法設(shè)計(jì)了一個(gè)連寫語(yǔ)料統(tǒng)計(jì)庫(kù),它用來(lái)連寫那些無(wú)法表示為規(guī)則的連寫知識(shí)。最后,本文提出的方案實(shí)現(xiàn)了快速、準(zhǔn)確的分詞連寫需求,并且連寫規(guī)則庫(kù)和連寫語(yǔ)料統(tǒng)計(jì)庫(kù)是易于擴(kuò)展和維護(hù)的。
我們形式化地定義了分詞連寫處理問(wèn)題。提出了基于 SC文法的規(guī)則表示和連寫語(yǔ)料統(tǒng)計(jì)庫(kù)的解決方案。其中,連寫語(yǔ)料統(tǒng)計(jì)庫(kù)用來(lái)處理需要連寫卻無(wú)法用規(guī)則形式化表示的知識(shí)。分詞連寫處理模塊的輸入是分詞模塊的輸出結(jié)果,設(shè)為
針對(duì)可以用形式化規(guī)則表示的連寫知識(shí)需求,本文設(shè)計(jì)了一個(gè)基于 SC文法的,可擴(kuò)展性好的,表示效率高的,人性化的規(guī)則表示語(yǔ)言。
第一部分是規(guī)則句塊部分。我們使用“Si{}”(i=1,2,3……)表示規(guī)則中的句塊,Si表示句塊的索引,即該句塊處于規(guī)則中的位置。{}表示句塊的屬性字典,它使得規(guī)則表示系統(tǒng)易于理解和擴(kuò)展。其中,屬性字典由多個(gè)屬性與屬性值組成,屬性可取值為詞性,內(nèi)容和字?jǐn)?shù)。一個(gè)屬性可以對(duì)應(yīng)多個(gè)屬性值,這樣我們可以在一條規(guī)則里面表示多個(gè)連寫要求,多個(gè)屬性值用“/”分割,分詞后的句塊只要滿足該屬性中的一個(gè)屬性值,就匹配成功,這樣使得我們的規(guī)則表示效率高,也容易擴(kuò)展。
第二部分是條件部分。其中條件部分是由條件名字和條件句塊組成。有些分詞利用規(guī)則進(jìn)行連寫需要設(shè)定一定的條件,最常見(jiàn)的條件是規(guī)則中某兩句塊的內(nèi)容必須相同。如果一個(gè)規(guī)則的條件部分不為空,分詞的結(jié)果除了必須匹配上規(guī)則的句塊之外,還需要滿足條件部分中定義的條件才可以進(jìn)行連寫,條件部分使得我們的規(guī)則表示靈活多變,能適應(yīng)各種需求。
第三部分是連寫模式部分。因?yàn)橛械囊?guī)則涉及到多個(gè)句塊,但是最后連寫的時(shí)候并不是把所有的句塊都連寫,所以需要連寫模式部分來(lái)指定需要連寫的句塊,使用規(guī)則句塊部分中的句塊索引”Si”即可表示需要連寫的句塊。例如規(guī)則“名詞后接兩個(gè)方位詞,則兩個(gè)方位詞連寫”。我們用S1表示名詞,S2和S3表示兩個(gè)方位詞,則連寫模式就是”S2,S3”,表示只需將S2,S3連寫。這種設(shè)計(jì)方式可滿足規(guī)則連寫的普適性。
規(guī)則的三個(gè)部分用”|”分隔,下面給出一個(gè)具體的規(guī)則表示的例子。在本文的第二部分提到的連寫規(guī)則“單音節(jié)動(dòng)詞重疊式連寫”,其對(duì)應(yīng)的規(guī)則表示內(nèi)容如下“S1{label:verb,length:1} S2{label:verb,length:1}|prefix_content_equal(S1,S2)|S1,S2”。
分詞連寫規(guī)則可以解決大部分分詞連寫的需求,然而有一部分詞需要連寫卻無(wú)法用形式化的規(guī)則進(jìn)行表示。為了解決這個(gè)問(wèn)題,本文設(shè)計(jì)了一個(gè)基于高效的字符查找數(shù)據(jù)結(jié)構(gòu)Trie的連寫語(yǔ)料統(tǒng)計(jì)庫(kù)。連寫語(yǔ)料統(tǒng)計(jì)庫(kù)中的每一條記錄為需要連寫的字詞,出現(xiàn)在連寫統(tǒng)計(jì)庫(kù)中的詞如果被分詞器分開(kāi),我們要能識(shí)別出各種切開(kāi)的情況并且還原那個(gè)詞。以“愛(ài)鳥(niǎo)周”為例,分詞器的分詞結(jié)果有可能為”愛(ài) 鳥(niǎo)周”、“愛(ài)鳥(niǎo) 周”“愛(ài) 鳥(niǎo) 周”,“愛(ài)鳥(niǎo)周”,當(dāng)分詞結(jié)果為前面3種情況時(shí),都需要將分詞結(jié)果重新連寫為“愛(ài)鳥(niǎo)周”。由此可見(jiàn),隨著詞的長(zhǎng)度增加,需要考慮的的情況呈指數(shù)型增長(zhǎng),因此我們需要一個(gè)高效的句塊查找數(shù)據(jù)結(jié)構(gòu),Trie是一個(gè)非常合適的選擇。
Trie[4],又稱前綴樹(shù)或字典樹(shù),我們結(jié)合統(tǒng)計(jì)庫(kù)中句塊匹配給出一個(gè)小型Trie樹(shù)實(shí)例,如圖一。圖中的空心節(jié)點(diǎn)是字典樹(shù)的根節(jié)點(diǎn)。邊上的字表示句塊的內(nèi)容,白色節(jié)點(diǎn)表示樹(shù)中的內(nèi)部節(jié)點(diǎn),藍(lán)色實(shí)心節(jié)點(diǎn)表示統(tǒng)計(jì)庫(kù)中的詞。由于其復(fù)雜度與詞表的個(gè)數(shù)無(wú)關(guān),所以能極大的加快查找速度,即使增加了許多統(tǒng)計(jì)庫(kù)后也是如此。引入字典樹(shù)提高了整個(gè)系統(tǒng)的可擴(kuò)展性,是本論文的一大亮點(diǎn)。
圖1 字典樹(shù)在統(tǒng)計(jì)庫(kù)上的應(yīng)用實(shí)例
根據(jù)《中國(guó)盲文》[5]對(duì)盲文分詞連寫的要求,我們?cè)O(shè)計(jì)了130條連寫規(guī)則。根據(jù)中國(guó)盲文出版社的專家知識(shí)和實(shí)際語(yǔ)料,設(shè)計(jì)了一個(gè)連寫統(tǒng)計(jì)庫(kù)。我們對(duì)2000條句子進(jìn)行了連寫處理,連寫處理的結(jié)果由中國(guó)盲文出版社的專家進(jìn)行鑒定。根據(jù)實(shí)驗(yàn)結(jié)果,我們的解決方案連寫處理的準(zhǔn)確率達(dá)到91%。連寫錯(cuò)誤是由于分詞及詞性標(biāo)注的錯(cuò)誤引起的。影響準(zhǔn)確率的根本因素是中文分詞和詞性標(biāo)注這個(gè)模塊。首先中文分詞的準(zhǔn)確率沒(méi)有達(dá)到百分百的精度,所以它肯定會(huì)對(duì)連寫算法造成負(fù)面影響。其次,對(duì)一個(gè)詞進(jìn)行詞性標(biāo)注時(shí)會(huì)有歧義,因?yàn)闈h語(yǔ)詞的兼類現(xiàn)象比較頻繁。
根據(jù)我們?cè)O(shè)計(jì)的分詞連寫規(guī)則庫(kù)和連寫語(yǔ)料統(tǒng)計(jì)庫(kù),很好的解決了漢盲翻譯轉(zhuǎn)換中存在的分詞連寫問(wèn)題,實(shí)現(xiàn)了漢盲翻譯高效和準(zhǔn)確地轉(zhuǎn)換。由于所設(shè)計(jì)的連寫規(guī)則庫(kù)和語(yǔ)料統(tǒng)計(jì)庫(kù)是可擴(kuò)充的,那么接下來(lái),我們可以更深入的了解盲人對(duì)于分詞連寫的需求,然后設(shè)計(jì)更多的連寫規(guī)則添加到連寫規(guī)則庫(kù)中,更好的讓盲人理解和得到信息。
[1]何川,國(guó)內(nèi)信息無(wú)障礙的現(xiàn)狀及展望.現(xiàn)代電信科技,2007.37(3):p.4-8.
[2]黃河燕,陳肇雄,黃靜,基于多知識(shí)分析的漢盲轉(zhuǎn)換算法,in 語(yǔ)言計(jì)算與基于內(nèi)容的文本處理.2003:哈爾濱.p.607-613.
[3]陳肇雄,高慶獅,SC 文法功能體系.計(jì)算機(jī)學(xué)報(bào),1992.11:p.801-808.
[4]Knuth,D.E.,The art of computer programming,volume 3:sorting and searching.1973,Addison-Wesley Reading,Mass.
[5]滕偉民等.中國(guó)盲文.1996:華廈出版社.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2014年2期