樸明姬,崔榮一
(延邊大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 智能信息處理研究室,吉林 延吉133002)
多語(yǔ)種文本圖像中的文字語(yǔ)種辨識(shí)方法的研究
樸明姬,崔榮一
(延邊大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 智能信息處理研究室,吉林 延吉133002)
本文針對(duì)漢字、朝鮮文字和英文單詞混合的文本圖像提出了基于主成分分析技術(shù)以文字為單位進(jìn)行文種辨識(shí)的方法。首先,通過(guò)主成分分析方法構(gòu)造特征空間,并且把分割的文字映射到此空間得到重構(gòu)圖像;其次,計(jì)算原圖像和重構(gòu)圖像的水平和垂直方向直方圖的相對(duì)熵;最后,根據(jù)原圖像和重構(gòu)圖像之間的歐式距離和相對(duì)熵來(lái)判別文字語(yǔ)種。實(shí)驗(yàn)表明,本文提出的方法在沒(méi)有分割錯(cuò)誤的情況下,能獲得99.78%的識(shí)別準(zhǔn)確率,有效地解決了在漢、朝、英三種文字混合構(gòu)成的文檔圖像中文種辨識(shí)問(wèn)題。
文種辨識(shí);主成分分析;相對(duì)熵;歐式距離;文字分割
人類(lèi)社會(huì)中語(yǔ)言的本質(zhì)在于定義群體,即每一種語(yǔ)言界定了一個(gè)群體,而文字作為語(yǔ)言的視覺(jué)化表現(xiàn),是群體身份認(rèn)定的重要依據(jù)之一。在多語(yǔ)種信息服務(wù)、文本索引等各類(lèi)應(yīng)用中文字語(yǔ)種辨識(shí)扮演著不可替代的角色,將對(duì)擴(kuò)大已有OCR系統(tǒng)的價(jià)值和開(kāi)發(fā)面向多語(yǔ)種OCR系統(tǒng)具有重要意義[1]。
不同文字的文字圖像所表現(xiàn)出的不同紋理特征,可以為文字語(yǔ)種辨識(shí)提供底層特征[2],而提取紋理特征的方法可分為兩大類(lèi): 一類(lèi)是基于文字結(jié)構(gòu)的,如以文字的統(tǒng)計(jì)特性作為特征;另一類(lèi)是基于視覺(jué)輪廓的方法,如基于Gabor濾波器的特征[3]。國(guó)內(nèi)外研究對(duì)于文本圖像的特征提取采用可控金字塔變換[4]、Gabor濾波器[5]等方法,并結(jié)合SVM[5-6]、決策樹(shù)[7]、K-NN近鄰[5,8]等分類(lèi)器實(shí)現(xiàn)文字語(yǔ)種辨識(shí)。目前提出的方法普遍存在以下兩種問(wèn)題: (1)采用結(jié)合分類(lèi)器的方式進(jìn)行文字語(yǔ)種辨識(shí),而訓(xùn)練分類(lèi)器的參數(shù)需要花費(fèi)大量的時(shí)間,并且參數(shù)的微小變動(dòng)對(duì)實(shí)驗(yàn)結(jié)果帶來(lái)很大的影響; (2)辨識(shí)對(duì)象都是以頁(yè)、文本行、文本塊作為基本單位,因此限制了文字語(yǔ)種辨識(shí)方法的靈活性。
本文針對(duì)朝鮮文字、漢字和英文字母混合出現(xiàn)的文本圖像基于主成分分析方法提出了一種以一個(gè)文字為單位進(jìn)行文字語(yǔ)種辨識(shí)的方法。通過(guò)分析三種文字的結(jié)構(gòu)特性,首先,采用主成分分析方法分別對(duì)朝鮮文字和英文字母構(gòu)造特征空間;然后對(duì)于待辨識(shí)的文本圖像進(jìn)行文字分割,并把分割出的文字映射到特征空間得到重構(gòu)后的文字;最后,根據(jù)原圖像與重構(gòu)圖像之間的相對(duì)熵和歐氏距離辨識(shí)文字語(yǔ)種。
由于文本圖像在獲取并數(shù)字化過(guò)程中會(huì)發(fā)生傾斜和出現(xiàn)噪聲等現(xiàn)象,因此在辨識(shí)文字語(yǔ)種之前應(yīng)進(jìn)行傾斜校正和去除噪聲等預(yù)處理。本文以一個(gè)文字為研究對(duì)象,因此經(jīng)過(guò)傾斜校正和去除噪聲等預(yù)處理之后需要進(jìn)行文字分割。最普遍的分割方法是通過(guò)直方圖的波谷判斷文字的邊緣,但對(duì)于不同的文字語(yǔ)種,只根據(jù)波谷位置判斷一個(gè)文字的邊緣是不可行的,還需要結(jié)合每種文字的形態(tài)結(jié)構(gòu)特點(diǎn)。
2.1 文字語(yǔ)種辨識(shí)流程
首先,使用常用文字分別對(duì)英文字母、朝鮮文字和漢字構(gòu)造特征空間,并對(duì)待識(shí)別的文本圖像進(jìn)行預(yù)處理和分割;然后,將分割出的文字先映射到由英文字母構(gòu)造的特征空間進(jìn)行重構(gòu),并分別求出原圖像和重構(gòu)圖像的水平和垂直方向的直方圖;最后,計(jì)算兩個(gè)圖像之間的歐式距離和直方圖的相對(duì)熵。當(dāng)歐式距離和相對(duì)熵滿(mǎn)足限定條件時(shí),辨識(shí)結(jié)果為英文單詞,否則把原圖像再次映射到由朝鮮文字構(gòu)造的特征空間進(jìn)行相同的步驟,根據(jù)歐式距離和相對(duì)熵判定是否為朝鮮文字,如果不滿(mǎn)足限定條件則映射到由漢字構(gòu)造的特征空間,并根據(jù)相對(duì)熵判定是否為漢字。其處理流程如圖1所示。
圖1 文種辨識(shí)處理流程
2.2 文字分割
文字分割是文字語(yǔ)種辨識(shí)過(guò)程中最基本的預(yù)處理階段,文字分割的效果將直接影響文字語(yǔ)種辨識(shí)正確率[9]。在進(jìn)行文字分割時(shí),如果只根據(jù)垂直方向投影的直方圖中出現(xiàn)的波谷位置判斷一個(gè)文字的邊界,則會(huì)導(dǎo)致很高的誤分割率。經(jīng)過(guò)分析朝鮮語(yǔ)、漢語(yǔ)和英語(yǔ)三種文字的結(jié)構(gòu)特點(diǎn),以文字的寬度、質(zhì)心和直方圖的波谷位置作為分割依據(jù),并對(duì)進(jìn)行分割后的二值圖像進(jìn)行居中處理,使文字處于背景的中心,就會(huì)得到滿(mǎn)足文種辨識(shí)需要的分割結(jié)果。
圖2 兩種不同的分割方法
3.1 特征空間的構(gòu)造
多語(yǔ)種文本圖像中的文字語(yǔ)種辨識(shí)需要解決的核心問(wèn)題是用低維特征來(lái)描述某一種語(yǔ)言文字的結(jié)構(gòu)特點(diǎn)。每一種語(yǔ)言的文字有它本身的結(jié)構(gòu)特點(diǎn),即同一種語(yǔ)言的文字之間具有相關(guān)性,利用文字之間的相關(guān)性,可以用少量的數(shù)據(jù)描述文字的結(jié)構(gòu)特點(diǎn)。主成分分析 (Parincipal Component Analysis,PCA)是一種對(duì)數(shù)據(jù)進(jìn)行相關(guān)性分析的技術(shù),可以揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu),從而進(jìn)行對(duì)原有數(shù)據(jù)的簡(jiǎn)化描述[10]。本文采用主成分分析方法構(gòu)造能夠描述特定文字語(yǔ)種的所有文字的特征空間。N×M維的文字圖像I(x,y)可以表示成向量PiRk(k=N×M),則文字的平均圖像可表示為式(1)。
(1)
而文字圖像的協(xié)方差矩陣為式(2)。
(2)
其中,Φi=Pi-avg∈Rk(k=N×M),n表示文字總數(shù)。通過(guò)協(xié)方差矩陣的前幾個(gè)最大特征值對(duì)應(yīng)的特征向量可以構(gòu)造出某一個(gè)文種的特征空間。
通過(guò)對(duì)朝鮮文字的統(tǒng)計(jì)分析發(fā)現(xiàn),朝鮮文字可以分為12種結(jié)構(gòu)[11],根據(jù)這一分類(lèi)結(jié)果與英文單詞和漢字的文字特點(diǎn),本文對(duì)朝鮮文字、英文單詞和漢字分別構(gòu)造5、2、1個(gè)特征空間。在圖3中,從左到右依次表示大寫(xiě)/小寫(xiě)英文字母、不含終聲和含終聲的朝鮮文字和漢字的一個(gè)特征向量以二維圖像表示的結(jié)果,從圖中可以看出英文字母的特征向量所占區(qū)域相對(duì)朝鮮文字以及漢字較小,并且集中在中心部分。
圖3 不同語(yǔ)種文字的特征向量
3.2 文字的重構(gòu)及文字語(yǔ)種辨識(shí)
通過(guò)對(duì)朝鮮文字、漢字和英文字母進(jìn)行分析發(fā)現(xiàn)英文字母所占的區(qū)域相對(duì)朝鮮文字和漢字較小;朝鮮文字的結(jié)構(gòu)相對(duì)漢字規(guī)律性更強(qiáng)。因此分別對(duì)英文字母、朝鮮文字和漢字構(gòu)造特征空間,并通過(guò)式(3)對(duì)待辨識(shí)的文字圖像PRk(k=N×M)進(jìn)行重構(gòu)獲得重構(gòu)圖像。
(3-a)
(3-b)
其中,VRk(k=N×M)為式(2)中協(xié)方差矩陣C的特征向量。
同一種語(yǔ)言的文字之間在結(jié)構(gòu)上具有一定的相關(guān)性,因此當(dāng)文字映射到相應(yīng)的特征空間時(shí),重構(gòu)后的圖像與原圖像非常相似,如果映射到其他語(yǔ)言的特征空間,重構(gòu)后的圖像將失去原有的形狀。當(dāng)朝鮮文字和漢字映射到由朝鮮文字構(gòu)造的特征空間時(shí),重構(gòu)后的文字示例如圖4所示,從圖中可以發(fā)現(xiàn)重構(gòu)后的朝鮮文字4(b)與原圖像4(a)非常相似,而重構(gòu)后的漢字4(d)幾乎失去了原圖像4(c)的形狀。
圖4 原圖像與重構(gòu)后的圖像
(4)
文字語(yǔ)種辨識(shí)算法描述如下:
Step 1 由式(1)分別計(jì)算出英文字母、朝鮮文字和漢字的平均圖像;
Step 2 由式(2)計(jì)算出文字圖像的協(xié)方差矩陣并求出協(xié)方差矩陣的特征向量,對(duì)英文字母、朝鮮文字和漢字分別選取前30、80、150個(gè)最大特征值所對(duì)應(yīng)的特征向量作為各文字空間的基向量,從而分別構(gòu)造2、5、1個(gè)特征空間;
Step 3 待辨識(shí)文字圖像通過(guò)式(3)映射到英文字母特征空間求出重構(gòu)圖像;
Step 4 通過(guò)原圖像與重構(gòu)圖像之間的歐式距離和由式(4)計(jì)算出的水平和垂直直方圖的相對(duì)熵進(jìn)行文字語(yǔ)種辨識(shí),如果不滿(mǎn)足限定條件則轉(zhuǎn)到Step 3 將待辨識(shí)文字圖像映射到朝鮮文字特征空間;
Step 5 如果原圖像與其在英文字母和朝鮮文字特征空間重構(gòu)后的圖像都不滿(mǎn)足限定條件,則映射到漢字的特征空間,并根據(jù)相對(duì)熵判定是否為漢字,如果不滿(mǎn)足限定條件則拒絕識(shí)別。
上述算法的Step4、Step5中所指的“限定條件”為: 對(duì)于英文字母和朝鮮文字,原圖像和重構(gòu)圖像之間的歐式距離小于D且水平直方圖的相對(duì)熵小于EH,垂直直方圖的相對(duì)熵小于EV;而對(duì)于漢字,水平和垂直方向的相對(duì)熵都小于E。
圖5為對(duì)朝鮮語(yǔ)、漢語(yǔ)和英語(yǔ)的三種文字混合的文本圖像進(jìn)行文字語(yǔ)種辨識(shí)的結(jié)果示例,其中用圓圈、叉號(hào)和十字符號(hào)分別表示辨識(shí)結(jié)果為朝鮮文字、漢字和英文字母。
圖5 文字語(yǔ)種的辨識(shí)結(jié)果示例
4.1 文字?jǐn)?shù)據(jù)及文本圖像中的文種辨識(shí)實(shí)驗(yàn)
我們通過(guò)對(duì)不同字體和大小的朝鮮文字、漢字、英文字母測(cè)試驗(yàn)證了本文方法的有效性。本文對(duì)分割后的文字進(jìn)行歸一化處理,因此對(duì)文字大小沒(méi)有嚴(yán)格的要求。在字體方面選擇了具有規(guī)整風(fēng)格的字體,漢字選用宋體和仿宋體,朝鮮文字選擇Batang和Gulim,英文字母則選擇了Times New Roman 和Calibri等字體作為樣本。對(duì)于文字間距方面的要求是間距大于1/4文字寬度。為了測(cè)試每種語(yǔ)言的所有文字,根據(jù)計(jì)算機(jī)系統(tǒng)提供的文字符號(hào)集生成了全部文字的圖像數(shù)據(jù),同時(shí)還采集了文檔掃描圖像,并采用本文提出的方法分割文字,構(gòu)造了辨識(shí)對(duì)象數(shù)據(jù)集。文檔掃描需采用200dpi以上分辨率,以保證文字圖像的失真度,不影響文字的正確分割和有效構(gòu)造特征空間。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)英文字母、朝鮮文字和漢字的前30、80、150個(gè)最大特征值占特征值總和的75.89%、67.80%和84.45%,并且對(duì)訓(xùn)練樣本的實(shí)驗(yàn)結(jié)果分析后算法中的變量D、EH、EV、E確定為250、0.1、0.2、0.15。實(shí)驗(yàn)結(jié)果如表1所示。
表1 文字語(yǔ)種辨識(shí)結(jié)果
表1中的辨識(shí)錯(cuò)誤率是沒(méi)有考慮分割錯(cuò)誤率時(shí)得出的百分比(辨識(shí)錯(cuò)誤個(gè)數(shù)=文字個(gè)數(shù)×(辨識(shí)錯(cuò)誤率+分割錯(cuò)誤率))。出現(xiàn)辨識(shí)錯(cuò)誤的原因主要是有些漢字在結(jié)構(gòu)方面簡(jiǎn)單(如漢字“一”),當(dāng)它們映射到朝鮮文字特征空間時(shí),重構(gòu)的圖像與原圖像相似,因此辨識(shí)為朝鮮文字;而出現(xiàn)分割錯(cuò)誤的主要原因是英文字母間的重疊現(xiàn)象。由于本文以一個(gè)文字作為識(shí)別對(duì)象,因此對(duì)于文章的篇幅等沒(méi)有限制,可以提高識(shí)別準(zhǔn)確率。文獻(xiàn)[12]的方法對(duì)文本圖像中文字的個(gè)數(shù)和文字間的間距有較嚴(yán)格的要求。
4.2 自然圖像中的文字語(yǔ)種辨識(shí)實(shí)驗(yàn)
我們對(duì)自然圖像中的文字語(yǔ)種進(jìn)行了辨識(shí)實(shí)驗(yàn),結(jié)果如圖6所示。其中,用實(shí)線(xiàn)矩形框、虛線(xiàn)方框和點(diǎn)線(xiàn)方框分別表示文字語(yǔ)種辨識(shí)結(jié)果為朝鮮語(yǔ)、漢語(yǔ)和英語(yǔ)。從文字語(yǔ)種辨識(shí)結(jié)果中可以看出,測(cè)試圖像中對(duì)于文字種類(lèi)、文字的大小、字體和文字相對(duì)背景的顏色等多方面存在多樣性,但本文方法不僅準(zhǔn)確定位了文字所在的區(qū)域,而且正確辨識(shí)了文字語(yǔ)種。
圖6 文字語(yǔ)種辨識(shí)示例
表2是對(duì)100幅自然圖像進(jìn)行文字語(yǔ)種辨識(shí)的結(jié)果。其中,訓(xùn)練樣本個(gè)數(shù)和測(cè)試樣本個(gè)數(shù)均代表文字的個(gè)數(shù),朝鮮文字的正確辨識(shí)率為86.67%,漢字的正確辨識(shí)率為88.89%,英文的正確辨識(shí)率為85%。對(duì)朝鮮語(yǔ)、漢語(yǔ)和英語(yǔ)文種的整體正確辨識(shí)率達(dá)到87.37%,說(shuō)明了本文方法具有較高的有效性和可行性。
表2 文字語(yǔ)種辨識(shí)結(jié)果
造成文字語(yǔ)種辨識(shí)錯(cuò)誤的原因可以歸結(jié)為以下三類(lèi)。
(1) 朝鮮文字和漢字在結(jié)構(gòu)紋理上具有復(fù)雜性和相似性,如朝鮮文字的“丕”和漢字的“圣”具有結(jié)構(gòu)相似性;
(2) 文本區(qū)域定位的精確性問(wèn)題,如個(gè)別檢測(cè)的文本區(qū)域未能包含完整的文字;
(3) 文字分割和提取過(guò)程中一些噪聲的影響。
文獻(xiàn)[12]利用基本圖像特征辨識(shí)文本圖像的文字語(yǔ)種,該文中的文本圖像為通過(guò)版面分析后的純文字圖像,其方法對(duì)朝鮮文字的辨識(shí)結(jié)果為98.8%。本文的研究工作與文獻(xiàn)[12]的區(qū)別之處在于以下三個(gè)方面。
(1) 本文的研究?jī)?nèi)容是辨識(shí)自然圖像中的文字語(yǔ)種,而文獻(xiàn)[12]是辨識(shí)純文字文本圖像的文字語(yǔ)種;
(2) 本文的自然圖像同時(shí)包含多語(yǔ)種文字,而文獻(xiàn)[12]的研究對(duì)象是單語(yǔ)種文本圖像;
(3) 本文是以單個(gè)文字作為文字語(yǔ)種辨識(shí)對(duì)象,而文獻(xiàn)[12]是以整個(gè)文本頁(yè)作為文字語(yǔ)種辨識(shí)對(duì)象。
文獻(xiàn)[12]所提出的文字語(yǔ)種辨識(shí)方法對(duì)朝鮮文字的辨識(shí)效果很高,但由于其方法對(duì)辨識(shí)對(duì)象的局限性,不能靈活地應(yīng)用于自然圖像中的文字語(yǔ)種辨識(shí)研究,而本文所提出的方法不僅能辨識(shí)文本圖像,而且也能解決對(duì)自然圖像的文字語(yǔ)種辨識(shí)問(wèn)題。
文字語(yǔ)種辨識(shí)方法的研究對(duì)于多語(yǔ)種文本環(huán)境下正確有效地使用OCR系統(tǒng)具有非常重要的意義,作為文字自動(dòng)識(shí)別的前端處理技術(shù)的研究,本文提出了基于主成分分析并結(jié)合相對(duì)熵和歐式距離辨識(shí)文字語(yǔ)種的方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了所提出方法的有效性。
目前大多數(shù)研究集中于基于以頁(yè)為單位的單一語(yǔ)種文本辨識(shí)和基于文本行或單詞為單位的多語(yǔ)種文本識(shí)別,并且基本采用多通道的Gabor濾波器提取特征,結(jié)合SVM/K-NN/ANN等分類(lèi)器辨識(shí)文字語(yǔ)種。這些方法對(duì)分類(lèi)器參數(shù)具有很強(qiáng)的依賴(lài)性,參數(shù)值的變動(dòng)可能產(chǎn)生完全不同的效果。因此訓(xùn)練一個(gè)識(shí)別準(zhǔn)確率較高的分類(lèi)器需要花費(fèi)大量的時(shí)間,并且當(dāng)選擇文本行或塊作為識(shí)別對(duì)象時(shí),由于文字間不同寬度的空隙等問(wèn)題很難從文本中抽取滿(mǎn)足要求的文本塊。而本文方法以一個(gè)文字作為文字語(yǔ)種識(shí)別單位,沒(méi)有對(duì)待識(shí)別的文字提取特征,并且沒(méi)有采用分類(lèi)器。因此本文方法具有簡(jiǎn)單、有效的優(yōu)點(diǎn)。
引入其他特征空間構(gòu)造方法,構(gòu)造具有判別能力的子特征空間,同時(shí)增加更多的文字語(yǔ)種進(jìn)行驗(yàn)證以提高本文方法的泛化能力,并且引入文字識(shí)別的后處理技術(shù)是進(jìn)一步研究的工作內(nèi)容。
[1] Spitz A L. Determination of the Script and Language Content of Document Image[C]//Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence.1997, 19(3): 235-245.
[2] Hidayet Takci, Tunga Gungor. A high performance centroid-based classification approach for language identification[J]. Pattern Recognition Letters.2012, 33: 2077-2084.
[3] Ghosh D, Dube T A P. Shivaprasad: Script Recognition - A Review[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence.2010, 32(16): 2142-2161.
[4] 顧立娟, 邵命山, 郝玉保. 基于可控金字塔子帶能量特征的文種識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用與軟件.2011, 28(3): 91-94.
[6] Script Identification-A Han & Roman Script Perspective[C]//Proceedings of the International Conference on Pattern Recognition. Istanbul, Turkey, 2010: 2708-2711.
[7] BilalBataineh, Siti Norul Huda Sheikh Abdullah, Khairuddin Omar. A novel statistical feature extraction method for textual image: Optical font recognition[J]. Expert Systems with Applications.2012, 39(5): 5470-5477.
[5] Peeta Basa Pati, A G Ramakrishnan. Word level multi-script identification[J]. Pattern Recognition Letters.2008, 29(9): 1218-1229.
[8] P S Hiremath, S Shivashankar. Wavelet based co-occurrence histogram features for texture classification with an application to script identification in a document image[J]. Pattern Recognition Letters.2008, 29(9): 1182-1189.
[9] Amjad Rehman, Tanzila Saba. Performance analysis of character segmentation approach for cursive script recognition on benchmark database[J]. Digital Signal Processing.2011, 21(3): 486-490.
[10] Matthew Turk, Alex Pentland. Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience.1991, 3(1): 71-72.
[11] 崔榮一, 金世珍. 朝鮮文字信息結(jié)構(gòu)的研究[J]. 中文信息學(xué)報(bào).2011, 25 (5): 114-119.
[12] 郭龍, 平西建, 周林, 童莉. 基本圖像特征用于文本圖像文種識(shí)別[J]. 應(yīng)用科學(xué)學(xué)報(bào).2011, 29(1): 56-60.
An Approach to Script Identification in Image with Multi-lingual Texts
PIAO Mingji, CUI Rongyi
(Intelligent Information Processing Lab., Dept. of Computer Science &Technology, Yanbian University, Yanji,Jilin 133002, China)
A PCA based character level script identification method is proposed to identify Korean, Chinese and English scripts in a image. First, the space of eigenvectors is constructed by using PCA, and the segmented character was reconstructed by projecting into the space. Second, relative entropy of vertical and horizontal histograms between the original and the reconstructed image is calculated. Finally, according to Euclidean distance and relative entropy between the original and the reconstructed image, the script is identified. The experiment results show that the proposed method achieves 99.78% accuracy under fully correct wrong segmentation, which successfully addresses the script identification problem in Korean, Chinese and English multi-lingual document image.
script identification; principal component analysis; relative entropy; Euclidean distance; character segmentation
樸明姬(1988—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E?mail:piaomingji123@hotmail.com崔榮一(1962—),通信作者,博士,教授,主要研究領(lǐng)域?yàn)橹悄苡?jì)算,模式識(shí)別,機(jī)器學(xué)習(xí),自然語(yǔ)言處理。E?mail:cuirongyi@ybu.edu.cn
2015-01-18 定稿日期: 2015-08-10
吉林省科技發(fā)展計(jì)劃項(xiàng)目(20140101186JC);國(guó)家語(yǔ)委2015年度科研立項(xiàng)項(xiàng)目(教語(yǔ)信司函〔2015〕21號(hào))
1003-0077(2017)00-0220-06
TP
A