楊玉婷 康厚良
摘 要:從構字結構要素分析東巴象形文字,可分為單素字和復素字兩類,而單素字又可進一步分為輪廓型和結構型兩種。使用分類算法實現(xiàn)不同類型東巴文字的自動分離,有利于獨立研究輪廓型、結構型單素字及復素字,提取同類文字的本質特征及不同類型文字間的特征差異。從東巴文字的構字結構要素出發(fā),給出了適用于東巴象形文字自動分類的預處理和分類算法。該算法能實現(xiàn)單素字和復素字的分離,還能實現(xiàn)對單素字中輪廓型和結構型單素字的完全分離。通過實驗對算法的準確性進行了驗證。
關鍵詞:東巴象形文字;自動分類算法;文字構字結構;文字形態(tài);文字結構
0 引言
東巴文是一種十分原始的圖畫象形文字,納西語稱“森究魯究”,直譯為“留在木石上的印跡”[1-3]。納西東巴象形文字作為人類早期的一種圖畫文字向象形文字、標音文字過渡的文字形式,既具有圖畫文字以圖表意的特點,又具有象形文字中象形、會意、指事、形聲的功能[4-6],2003年,使用東巴文撰寫的東巴古籍被聯(lián)合國教科文組織列入世界記憶遺產名錄[7]。
東巴象形文字既具有圖畫文字以圖表意的特征,又具有現(xiàn)代文字使用線條表達含義的特點,東巴字的處理過程無法直接使用手寫漢字研究成果[8-10],很難直接使用計算機視覺形狀處理方法[11-13]。因此,對東巴象形文字圖片的處理及文字識別異常困難。
字素作為組成東巴文字形、音、義相統(tǒng)一的最小構字單位,具有明顯的圖畫性特征[14]?;跂|巴文字的構字結構要素分析,可分為單素字和復素字兩類。單素字指能夠直接顯示音義的獨立文字,復素字指由兩個或兩個以上字素構成的文字,通過多個字素共同表示音義[15-16],單素字還可進一步分為輪廓型和結構型單素字,如表1所示。
當前對東巴文字的研究大多是利用現(xiàn)有算法直接提取文字的抽象特征,未能結合東巴文字本身的結構和形態(tài)[17-19]。因此,使用分類算法實現(xiàn)東巴文字中不同形態(tài)文字的自動分離,有利于獨立研究輪廓型、結構型單素字及復素字的形態(tài)與結構,提取同類文字的本質特征,分析不同類型文字間的特征差異,為東巴文字識別奠定基礎,也為研究東巴文字的造字法提供技術支持。
1 東巴象形文字分類
1.1 單素字與復素字分類
復素字構成方法主要包括3種:①在單素字基礎上通過綴加元素的方式構成復素字;②使用兩個或兩個以上字素構成復素字;③通過使用多個單素字并綴加不同元素的方式構成復素字[20],如表2所示。一般地,對于使用第1種方式構成的復素字,若通過在單素字基礎上綴加點得到,則仍將它視為單素字。這是因為綴加點會對東巴字的實際分類過程產生較大干擾,但對研究東巴文字的構成不會有太大幫助。
圖1顯示了復素字中各組成元素的分割效果。由于單素字是不能再分割的文字,即使分割后,單素字所包含的組成元素仍然只有1個。因此,通過統(tǒng)計分割后東巴字中所包含的離散組成元素的總數(shù)量,即可快速分離單素字和復素字。
1.2 輪廓型單素字與結構型單素字分類
在單素字中,輪廓型字素通過臨摹物體的外在輪廓形狀表達實際含義,以其外在輪廓特征反映文字本質,一般包含完整的字符輪廓;而結構型字素使用簡單的字符筆劃,通過描繪事物的結構表達含義,事物的結構或骨架特征顯著,但沒有明顯的輪廓特征。因此,使用字符的外在輪廓描述輪廓型字素特征,而使用字符結構或骨架描述結構型字素特征。
顯然,輪廓型字素特征曲線是字符的外圍輪廓,而結構型字素的特征曲線是字符中的字符骨架。因此,要區(qū)分兩類字素,可通過填充字符特征曲線,然后利用粗網格法比較兩者面積進行區(qū)分。
1.2.1 東巴文字特征曲線提取
采用Prewitt算子實現(xiàn)東巴文字的特征曲線提取效果如圖2所示。其中,由于東巴法師書寫東巴文一般使用竹筆,竹筆屬于硬筆的一種,使得東巴字的筆畫線條粗細基本一致。因此,首先細化文字筆畫,去除文字中潛在的干擾成份,然后去除字符中所包含的綴加點元素,減少綴加元素對提取文字特征所產生的干擾,最后采用Prewitt算子提取文字的特征曲線。
1.2.2 字符填充及比較
通過填充可進一步增強結構型單素字和輪廓型單素字之間的差異性,圖2顯示了兩種不同類型單素字的填充效果。有的文字由于閉合性不好,雖然也屬于輪廓型單素字,卻無法直接提取出完整的字符輪廓。為實現(xiàn)字符輪廓的有效提取,需結合形態(tài)學圖像處理技術,具體步驟如下:①讀取字符,對字符圖像進行二值化、細化字符線條、去除字符中干擾點等操作;②采用Sobel算子實現(xiàn)邊緣處理,通過膨脹操作填補邊緣縫隙。其中,Sobel算子與Prewitt算子類似,區(qū)別僅在于選用的模板不同;③膨脹后的圖像能夠精確顯示字符的外圍輪廓,但為了突出輪廓型字素的特征曲線,需進一步填充字符中的孔隙;④利用菱形結構元素對填充后的圖像進行平滑處理,并采用Prewitt算子提取字符的輪廓曲線。
輪廓曲線提取效果如圖3所示。與直接使用庫函數(shù)提取輪廓曲線相比,本方法通過膨脹、填充和平滑等操作,能夠得到更加準確的字符輪廓曲線。
1.2.3 面積比分類法
分析圖3中各階段的處理效果可知,結構型單素字所提取的輪廓與細化結果是相同的,而輪廓型單素字在細化后得到的是字符的外在輪廓曲線。因此,填充輪廓曲線后,兩類單素字將呈現(xiàn)出明顯的差異性。由此,通過比較字符綁定矩形中表示字符線條的像素點所占的比例,即可快速實現(xiàn)兩種類型東巴單素字的分離,具體步驟如下:①計算單素字的外接矩形;②計算填充圖中表示文字筆畫的像素點總數(shù);③計算文字線條像素點占字符外接矩形總像素點的比例;④若比例大于等于60%則單素字為輪廓型,否則為結構型。
2 實驗
使用分類算法對東巴字庫中的1 588個東巴字進行分類,得出單素字966個,復素字622個。在單素字中,結構型單素字518個,輪廓型單素字438個,具有爭議性的單素字10個,這10個單素字由于文字本身的特點導致文字被錯誤歸類,具體如表3所示。由此可知,單素字和復素字的分類準確率為100%,而結構型單素字和輪廓型單素字的分類準確率為98.996%。
3 結語
對東巴象形文字中不同類型文字的初步分離是東巴文字研究的基礎性工作。通過文字的初步分類,使后續(xù)研究能更加突出不同類型文字的本質特征,為實現(xiàn)東巴文字的檢索和識別研究奠定基礎,同時也為研究東巴文字的組合特性,分析單素字、復素字的造字方法及文字的演化過程提供重要的技術分析手段,為其它象形文字的研究提供參考。
參考文獻:
[1] 和力民. 試論東巴文化的傳承[J]. 云南社會科學, 2004 (1): 83-87.
[2] 和金光. 納西族東巴文化研究發(fā)展趨勢[J]. 云南民族大學學報:哲學社會科學版,2007,24(1): 81-84.
[3] 戈阿干. 東巴文化攬勝[J]. 民族藝術研究,1999 (2): 71-80.
[4] 和志武. 試論納西象形文的特點——兼論原始圖畫文字、象形文字和表意文字的區(qū)別[J]. 云南社會科學,1982(3):71-82.
[5] 方國瑜, 和志武. 納西象形文字譜[M]. 昆明:云南人民出版社, 2005.
[6] ROCK J F. Na Khi English EncclopedicDictionary(Part I)[M]. Roma: Roma IstitutoItaliano Peril Medio edEstremePrientale, 1963.
[7] 李霖燦. 納西族象形標音文字字典[M]. 昆明:云南民族出版社, 2001.
[8] 趙繼印,鄭蕊蕊. 脫機手寫體漢字識別綜述[J]. 電子學報, 2010, 38(2):405-415.
[9] 丁曉青. 漢字識別研究的回顧[J]. 電子學報,2002,30(9):1364-1368.
[10] 高彥宇,楊揚. 脫機手寫體漢字識別研究綜述[J]. 計算機工程與應用,2004, 40(7):74-77.
[11] YANG M, KPALMA K, RONSINA J. Survey of shape feature extraction techniques[J]. Pattern Recognition Techniques,Technology and Applications, 2007(11): 1-39.
[12] 周瑜,劉俊濤,白翔. 形狀匹配方法研究與展望[J]. 自動化學報, 2012,38(6):889-910.
[13] SUZUKI K,HORIBA I,SUGIE N. Linear-time connected component labeling based on sequential local operations[J]. Computer Vision and Image Understanding,2003,89(1):1-23.
[14] 王元鹿. 漢古文字與納西東巴文字研究[M]. 上海:華東師范大學出版社,1998.
[15] 鄭飛洲. 納西東巴文字字素研究[D]. 上海:華東師范大學,2003.
[16] 鄭飛洲. 納西東巴文字字素研究[M]. 北京:民族出版社,2005: 1-230.
[17] GUO H,ZHAO J Y,DA M J, et al. NaXi pictographs edge detection using lifting wavelet transform[J]. Journal of Convergence Information Technology,2010,5(5): 203-210.
[18] 楊萌,徐小力,吳國新,等. 東巴象形文字識別方法[J]. 北京信息科技大學學報,2014, 29(3):72-76.
[19] 王海燕,王紅軍,徐小力. 基于支持向量機的納西東巴象形文字符識別[J]. 云南大學學報:自然科學版,2016,38(5):730-736.
[20] 胡瑞波. 納西族東巴象形文字字體構造研究[J]. 鄭州輕工業(yè)學院學報:社會科學版,2013,14(2):94-100.
(責任編輯:杜能鋼)