陳盈祾 潘玉霞
摘要:古文字作為中國上下五千年以來的使用文字,記錄了我國從古至今的文化發(fā)展歷史,對于我國的歷史文化研究具有十分重要的作用。對古文字的識別能夠?qū)⒛切┱滟F的文獻(xiàn)材料轉(zhuǎn)換為電子文檔,便于這些珍貴文獻(xiàn)材料的保存和傳播。該文將深度學(xué)習(xí)中經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到古文字識別中,剖析了運(yùn)用的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的原理結(jié)構(gòu),并闡述了系統(tǒng)在識別方面所運(yùn)用的技術(shù)。
關(guān)鍵詞:古文字識別;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP393? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)10-0207-02
1前言
古文字學(xué)——這一門古老但是卻極其富有生命力的學(xué)科,在我們研究中國的古代歷史以及文化中具有的十分重要的作用,它是打開古代歷史文化寶庫的一把鑰匙。我國歷經(jīng)上下五千年,文化厚重繁多,經(jīng)過歷史變遷,無數(shù)的朝代都擁有獨屬于自己的文化,尤其是文字。文字最初的誕生傳說是由于倉頡造字,后來隨著歷史演變,朝代更迭,文字慢慢進(jìn)化。在殷商時期有了我們熟悉的甲骨文,這是我們目前見到的最早的,較系統(tǒng)的成熟的文字。再往后又進(jìn)化出了金文,石鼓文,大小篆等。
目前,市面上現(xiàn)有的古文字識別系統(tǒng)可以根據(jù)用戶所輸入的簡體漢字來查詢出各個歷史朝代對應(yīng)的古文字。但是,這些古文字識別系統(tǒng)卻僅僅能夠根據(jù)簡體漢字來查詢古文字,而不能通過古文字來查詢簡體字或者形近字。而在考古方面出土文獻(xiàn)的處理應(yīng)用上,我們需要根據(jù)未知的古文字的字型來檢視我們該文字已知的形近字及相關(guān)資料信息來輔助推斷未知古文字的含義,例如:如果我們在某文物上發(fā)現(xiàn)刻有古文字,那我們?nèi)绾慰焖俚拇_定其是否為已知的古文字,抑或者我們又該如何快速地獲取其已知形似字及該形近字的相關(guān)資料信息以便于我們推測其含義呢?如果沒有一種技術(shù)或者產(chǎn)品能夠輔助解決這個難題,無疑會給古文字工作者的工作帶來極大的不便,影響古文字研究工作的迅速開展。
除此之外,在我們?nèi)粘9盼淖值膶W(xué)習(xí)上由于我們對于古文字的不了解,以至于我們甚至都不能識別部分簡單的古文字,若我們對學(xué)習(xí)古文字有興趣,我們甚至都不知道如何去查詢,因為我們需要的辨認(rèn)我們不認(rèn)識的古文字,而目前的系統(tǒng)還未有這種功能,這將會對我們的興趣產(chǎn)生極大的打擊。所以我們打算設(shè)計一款古文字識別系統(tǒng)幫助人們更好的認(rèn)識和識別古文字。
2 系統(tǒng)簡介
目前市面上的文字識別系統(tǒng)花樣繁多,但是古文字識別系統(tǒng)就較為稀少,而且?guī)缀醮蟛糠值墓盼淖肿R別系統(tǒng)都是基于簡體漢字上的識別翻譯從而找出與該簡體漢字相對應(yīng)的各個朝代的古文字。但是,不論是從科研,也就是考古方面出土文獻(xiàn)的處理應(yīng)用上還是日常生活的漢語文學(xué)的學(xué)習(xí)上來說,更多的都是從未知的古文字入手去查詢其簡體漢字或形近字及其意思,而目前幾乎沒有基于此的應(yīng)用。我們的古文字識別系統(tǒng)是基于手寫古文字識別的識別系統(tǒng),不同于別的古文字識別系統(tǒng)僅僅只能通過簡體漢字來實現(xiàn)其古文字及其形近字的查找。我們的古文字識別系統(tǒng)是建立在用戶日常學(xué)習(xí)和研究需求上的,從用戶需求出發(fā),與用戶形成良好的人機(jī)交互感受,并且能夠具有較高的識別查找正確率。
不同于較為簡單的數(shù)字識別和常見的簡體漢字識別,對于古文字識別來說,古文字的書寫較簡體漢字和數(shù)字來說更加的復(fù)雜,筆畫也更加冗長,且某些象形文字會更趨近于圖形而非漢字。由于沒有統(tǒng)一的規(guī)范,古文字識別的復(fù)雜性也隨之而增加。雖然目前的文字識別技術(shù)獲得了較大的發(fā)展,但是由于歷史和區(qū)域發(fā)展的不平衡以及古文字的不常用使得古文字識別當(dāng)前的研究甚少。而且日常的古文字學(xué)習(xí)基本都為手寫,手寫的多樣性毫無疑問會增加識別的難度。因此,古文字識別的困難主要表現(xiàn)在:
(1)缺乏成熟的手寫樣本庫。手寫樣本庫對于古文字識別有很重要的作用,這決定著古文字識別的效果。而目前古文字的研究方面幾乎沒有一個系統(tǒng)的已知古文字的整理庫,很難找到可用的古文字手寫樣本庫。
(2)古文字字體字形變化較多,且沒有統(tǒng)一的標(biāo)準(zhǔn),不同的朝代書寫的規(guī)則不同,體例和格式變化較多,增加了識別的難度。
3系統(tǒng)介紹
本系統(tǒng)可實現(xiàn)功能有識別大部分手寫的古文字包括但不限于甲骨文,金文,小篆等,以及搜索與該古文字相近或者形似的古文字,同時還可以識別部分簡體字,用戶可通過主界面的搜索欄來上傳需識別的圖,同時系統(tǒng)會輸出識別結(jié)果及其相似字與形近字。
本系統(tǒng)的核心技術(shù)為卷積神經(jīng)網(wǎng)絡(luò)。最初的卷積神經(jīng)網(wǎng)絡(luò)是1987年由Alexander Waibel等提出的時間延遲網(wǎng)絡(luò)[1],其為一個隱含層是由兩個一維的卷積核組成的用于語音識別方面的卷積神經(jīng)網(wǎng)絡(luò)。第一個二維卷積神經(jīng)網(wǎng)絡(luò)——平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)是由Wei Zhang提出,并且最終被其應(yīng)用到醫(yī)學(xué)影像的檢測方面[2]。LeNet最初的版本[3]同樣于1988年被Yann LeCun構(gòu)建并應(yīng)用與計算機(jī)視覺方面,其包含有兩個卷積層和兩個全連接層,共六萬個學(xué)習(xí)參數(shù),同時還與現(xiàn)代的卷積神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上十分相近[4]。同年,YannLeCun在LeNet的基礎(chǔ)上,與其合作者一起構(gòu)建了更加完備的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5并且在手寫數(shù)字的識別方面中取得了成功。
卷積神經(jīng)網(wǎng)絡(luò)分別由數(shù)據(jù)輸入層、卷積層、激勵層、池化層、全連接層以及輸出層組成。
(1)數(shù)據(jù)輸入層
卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入層主要是對原始圖像進(jìn)行預(yù)處理,其中包括去均值,歸一化和PAC/白化。并且還可以處理多維數(shù)據(jù),由于卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺領(lǐng)域應(yīng)用較廣,因此輸入數(shù)據(jù)一般為三維,即平面的二維像素點以及RGB通道。與此同時,由于卷積神經(jīng)網(wǎng)絡(luò)使用梯度下降法進(jìn)行學(xué)習(xí),其輸入特征需要進(jìn)行標(biāo)準(zhǔn)化處理,這有利于提升卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率和表現(xiàn)。
(2)卷積層
卷積層是卷積神經(jīng)網(wǎng)絡(luò)最重要的一個層次,功能是對輸入的數(shù)據(jù)進(jìn)行特征的提取,內(nèi)部包含有多個卷積核。在這個卷積層有兩個關(guān)鍵操作即局部關(guān)聯(lián)和窗口滑動。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)最基本的構(gòu)成單元,一個神經(jīng)元模型由輸入信號、權(quán)值、偏置、加法器和激活函數(shù)共同構(gòu)成的。
卷積層內(nèi)每個神經(jīng)元都會與前一層的局部感受野相連接,這并不意味著這部分局部連接的神經(jīng)元權(quán)值相同,而是意味著同一平面層的神經(jīng)元權(quán)值共享,擁有相同程度的位移、旋轉(zhuǎn)不變性。卷積層在對圖像進(jìn)行卷積操作時可以理解為有一個滑動窗口把卷積和與對應(yīng)的圖像像素做乘積然后求和。感受野的掃描間隔為步長,當(dāng)步長較大時,掃描邊界特征可能會使得感受野“出界”,這時就需要對邊界進(jìn)行填充。而一個帶有卷積核的感受野掃描生成的神經(jīng)元矩陣就是特征圖。當(dāng)卷積核在工作時,會有規(guī)律地掃過輸入特征,在感受野內(nèi)對輸入特征做矩陣元素乘法求和并疊加偏差量。
(3)激勵層
激勵層就是把卷積層的輸出結(jié)果做非線性映射,而卷積神經(jīng)網(wǎng)絡(luò)常用的激勵函數(shù)一般為ReLU(修正線性單元),梯度簡單而且收斂快。
ReLU函數(shù)具有單側(cè)抑制,即輸入是負(fù)值時都會變?yōu)?,而輸入為正值的時候就為原值。這意味著全部的神經(jīng)元不會在同一時間下被激活,這就使得網(wǎng)絡(luò)會變得比較稀疏,最終使得計算效率變得特別高。但是當(dāng)一個比較大的梯度流過ReLU函數(shù)的神經(jīng)元時就會導(dǎo)致這個神經(jīng)元永久性的失活,并且不可逆,此后,這個神經(jīng)元的梯度一直為0。
(4)池化層
池化層位于連續(xù)的卷積層中間,能夠壓縮數(shù)據(jù)和參數(shù)的量,在一定程度上可以防止過擬合,即若輸入的是圖像,那么池化層最主要的作用就是能夠壓縮圖像。池化層壓縮圖像時擁有特征不變性,即圖像壓縮時會過濾除去一些無關(guān)緊要的信息,從而留下一些具有尺度不變性特征的信息,這些特征時最能夠表達(dá)圖像的特征。池化層的池化操作還能夠進(jìn)行特征降維,即去除圖像中沒有太多用途或者有重復(fù)的冗余信息,而把最重要的特征給提取出來。池化層一般用Max pooling和average pooling來進(jìn)行池化操作,即選取局部區(qū)域的最大值或者平均值,其中用的比較頻繁的就是Max pooling,選取局部區(qū)域的最大值。
(5)全連接層
卷積神經(jīng)網(wǎng)絡(luò)中的全連接層就相當(dāng)于前饋神經(jīng)網(wǎng)絡(luò)中的隱含層,每一層都是由許多神經(jīng)元所組成的平鋪結(jié)構(gòu),通常其位于卷積神經(jīng)網(wǎng)絡(luò)的尾部并且兩層之間的所有神經(jīng)元都是擁有權(quán)重連接的。
(6)輸出層
輸出層是卷積神經(jīng)網(wǎng)絡(luò)的最后一層,一般使用邏輯函數(shù)或歸一化指數(shù)函數(shù)即softmax function來對于圖像分類問題輸出分類標(biāo)簽。輸出層會將上層輸出的特征向量通過內(nèi)部的分類器進(jìn)行處理,最后輸出分類標(biāo)簽。常用的分類算法有樸素貝葉斯分類算法、支持向量機(jī)算法、K近鄰近算法等。其中使用比較頻繁的是softmax和支持向量機(jī)算法。
4總結(jié)
深度學(xué)習(xí)身為機(jī)器學(xué)習(xí)的一個新的研究方向,近幾年隨著機(jī)器學(xué)習(xí)的飛速發(fā)展,深度學(xué)習(xí)技術(shù)也越來越先進(jìn)和成熟,人們對于人工智能的熱情也日漸增強(qiáng)。而機(jī)器視覺是通過機(jī)器將攝取到的目標(biāo)轉(zhuǎn)化成圖像信號,可以說是相當(dāng)于是人工智能領(lǐng)域的眼睛,也是該領(lǐng)域的一個重要研究方向。本文通過對于機(jī)器學(xué)習(xí)中深度學(xué)習(xí)的橫向研究,選擇了在機(jī)器視覺領(lǐng)域具有十分優(yōu)秀效果的卷積神經(jīng)網(wǎng)絡(luò)來對我們的項目“古文字識別系統(tǒng)”展開縱向的研究。本文主要就我們課題所使用的卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展與結(jié)構(gòu)進(jìn)行剖析,逐步展開卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的使用,最終成功地完成了課題的研究任務(wù)。
參考文獻(xiàn):
[1] Waibel A. Phoneme recognition using time-delay neural networks[C].Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). Tokyo, Japan, 1987.
[2] Zhang W. Shift-invariant pattern recognition neural network and its optical architecture[C]. Proceedings of annual conference of the Japan Society of Applied Physics, 1988.
[3] LeCun Y,Boser B,Denker J S,etal.Backpropagation applied to handwritten zip code recognition[J].Neural Computation,1989,1(4):541-551.
[4] LeCun Y,Kavukcuoglu K,F(xiàn)arabet C.Convolutional networks and applications in vision[C]//Proceedingsof2010 IEEE International Symposium on Circuits and Systems.May 30 - June2,2010,Paris,F(xiàn)rance.IEEE,2010:253-256.
【通聯(lián)編輯:代影】