国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

鐵路客票票號(hào)自動(dòng)識(shí)別系統(tǒng)的研究

2015-06-28 15:41鄧勝江劉子寬
關(guān)鍵詞:客票白點(diǎn)票號(hào)

鄧勝江,姜 利,尚 迪,劉子寬

(中國(guó)鐵道科學(xué)研究院 電子計(jì)算技術(shù)研究所,北京 100081)

鐵路客票票號(hào)自動(dòng)識(shí)別系統(tǒng)的研究

鄧勝江,姜 利,尚 迪,劉子寬

(中國(guó)鐵道科學(xué)研究院 電子計(jì)算技術(shù)研究所,北京 100081)

本文結(jié)合我國(guó)鐵路客票售票系統(tǒng)逐步自動(dòng)化、智能化的特點(diǎn),將人工智能技術(shù)應(yīng)用于鐵路車票售票設(shè)備,詳細(xì)論述鐵路火車票票號(hào)自動(dòng)識(shí)別的基本理論與具體實(shí)現(xiàn)方法,對(duì)圖像采集系統(tǒng)獲取的原始圖像進(jìn)行圖像處理、字符數(shù)據(jù)訓(xùn)練和字符識(shí)別。并從理論上對(duì)字符識(shí)別過(guò)程進(jìn)行論述,通過(guò)實(shí)驗(yàn)驗(yàn)證其可行性。

鐵路客票; 票號(hào); 字符識(shí)別

鐵路客票作為一種“有價(jià)證券”,每張車票票底都有預(yù)印刷紅色票號(hào)作為票據(jù)的唯一標(biāo)識(shí)。在售票過(guò)程中,需要將該票號(hào)與系統(tǒng)保存的票號(hào)進(jìn)行核對(duì),若存在差異,則需要進(jìn)行調(diào)整。窗口售票采用人工的方式進(jìn)行核對(duì)票號(hào),自動(dòng)售取票設(shè)備則不能核對(duì)票號(hào),一旦出現(xiàn)問(wèn)題,將很難處理。

目前,我國(guó)自動(dòng)售取票設(shè)備已經(jīng)得到廣泛應(yīng)用,售票量占到了相當(dāng)大的比重,針對(duì)自動(dòng)售取票設(shè)備還不能自動(dòng)核對(duì)票號(hào)這一不足之處,本文將研究鐵路票號(hào)的文字識(shí)別功能,為實(shí)現(xiàn)票號(hào)的自動(dòng)核對(duì)打下基礎(chǔ)。

1 系統(tǒng)結(jié)構(gòu)

票號(hào)識(shí)別系統(tǒng)結(jié)構(gòu)如圖1所示。在系統(tǒng)中,票紙上的票號(hào)信息首先通過(guò)圖像采集模塊掃描,然后通過(guò)圖像處理模塊,對(duì)圖像進(jìn)行平滑、去噪與切割產(chǎn)生只含有單個(gè)數(shù)字或字模的圖像。在訓(xùn)練階段,已知分類的字符被輸入系統(tǒng),提取共有的特征,生成識(shí)別用特征信息。在識(shí)別階段,圖像處理模塊產(chǎn)生的圖像將與字庫(kù)中每種字符的特征信息比對(duì),得到相似度,最高相似度所對(duì)應(yīng)的字符即為識(shí)別結(jié)果。本文描述了系統(tǒng)的整個(gè)過(guò)程,并對(duì)圖像處理、字庫(kù)訓(xùn)練和票號(hào)識(shí)別模塊進(jìn)行了重點(diǎn)描述。

圖1 票號(hào)識(shí)別系統(tǒng)結(jié)構(gòu)圖

2 系統(tǒng)實(shí)現(xiàn)過(guò)程

2.1 圖像采集

原始票紙上的票號(hào)圖像采用 CIS(接觸式圖像傳感器)進(jìn)行采集,并通過(guò)施密特觸發(fā)器進(jìn)行模數(shù)轉(zhuǎn)換將 CIS 采集的灰度圖進(jìn)行二值化,將其保存在系統(tǒng)的內(nèi)存之中。得到的二值化圖像數(shù)據(jù),每一位對(duì)應(yīng)一個(gè)像素,其中“1”代表黑點(diǎn),“0”代表白點(diǎn)。

該部分已在參考文獻(xiàn) [4]中進(jìn)行了詳細(xì)的描述,此處不再贅述。

2.2 圖像處理

由于圖像采集電路在使用時(shí)存在震蕩,并且受到噪聲影響,所生成的圖像存在毛刺、噪點(diǎn),需要在識(shí)別前處理防止影響識(shí)別準(zhǔn)確率。

(1)圖像平滑去噪

中值濾波器平滑法是一種簡(jiǎn)單且執(zhí)行效率高的平滑方法。其數(shù)學(xué)表達(dá)式為:

其中,f(x,y)為二值化圖像在 (x, y)位置的值。濾波器的輸出結(jié)果為:

在實(shí)驗(yàn)中發(fā)現(xiàn),一次濾波達(dá)不到預(yù)期的效果,經(jīng)過(guò)3次中值濾波器平滑處理后,圖像中的毛刺基本消除。

圖像經(jīng)過(guò)平滑處理后,仍會(huì)有部分較大的噪點(diǎn)殘留。在本文中,通過(guò)使用閥值的方法去除較大的噪 點(diǎn)。 具 體 算 法 為 :若 W<WThr且 H<HThr則 視 為噪點(diǎn)并去除。其中W、H分別為一片黑色圖像區(qū)域的最大寬度和高度,WThr、HThr為噪點(diǎn)的寬度與高度閥值。

圖像采集模塊采集到的原始圖像,經(jīng)過(guò)平滑、去噪后,噪點(diǎn)基本被去除,圖像平滑去噪前后的圖像如圖2所示。同時(shí),原始圖像中字符上的毛刺在處理后明顯平滑。與原始圖像相比,將處理后的圖像用于識(shí)別,識(shí)別率會(huì)有較大的提高。

圖2 圖像平滑、去噪效果圖

(2) 圖像切割

因圖像掃描時(shí)存在干擾,得到的圖像中可能出現(xiàn)字符相連情況。在后續(xù)的識(shí)別中,相連的字符將導(dǎo)致系統(tǒng)無(wú)法正確識(shí)別單個(gè)字符,故下列圖像切割算法被引入到系統(tǒng)中:

將圖像逆時(shí)針旋轉(zhuǎn) 90度后,取任意連續(xù)的 7行,令 BorderL(n)為所取第 n 行中第一個(gè)非零位的坐標(biāo)、BorderR(n)為所取第 n 行中最后一個(gè)非零位的坐標(biāo)。

如果每一行只有一次黑點(diǎn)到白點(diǎn)和白點(diǎn)到黑點(diǎn)的變化,且滿足:

所取 7 行的第 3、4、5 行中所有點(diǎn)將被改為白點(diǎn),從而實(shí)現(xiàn)圖像的切割。

在實(shí)際實(shí)驗(yàn)中圖像切割的過(guò)程如圖3所示。從圖中可以清楚的看到,由于存在噪點(diǎn),在經(jīng)過(guò)平滑、去噪的圖像中字符存在相連的現(xiàn)象,如字符“6”和字符“4”。在使用本節(jié)所述算法切割處理后,相連的字符基本被分開(kāi)。之后通過(guò)探測(cè)字符之間空白的方法,即可得到每一個(gè)單獨(dú)的字符。

圖3 圖像切割效果圖

2.3 字庫(kù)訓(xùn)練

訓(xùn)練是自動(dòng)識(shí)別系統(tǒng)的重要模塊,也稱作機(jī)器學(xué)習(xí)。通過(guò)訓(xùn)練,系統(tǒng)自動(dòng)在多個(gè)樣本中歸納出其共同特征,產(chǎn)生字模,作為后續(xù)識(shí)別時(shí)的依據(jù)。

基于樣本數(shù)據(jù)統(tǒng)計(jì)的模式識(shí)別,是一種廣泛運(yùn)用的機(jī)器學(xué)習(xí)、識(shí)別方法。相比其它識(shí)別方法(如基于神經(jīng)網(wǎng)絡(luò)、基于規(guī)則的識(shí)別方法),此種方法識(shí)別率高、魯棒性強(qiáng)、識(shí)別正確率受人為主觀影響較小。雖然基于樣本數(shù)據(jù)統(tǒng)計(jì)的模式識(shí)別需要較大的訓(xùn)練用樣本庫(kù),同時(shí)實(shí)現(xiàn)算法需要較高的計(jì)算量,但是由于此項(xiàng)目的特殊性,樣本庫(kù)和計(jì)算量不會(huì)對(duì)算法的實(shí)現(xiàn)產(chǎn)生較大的影響。項(xiàng)目中所用字符樣本由制票機(jī)掃描的車票圖像經(jīng)處理后得到。因?yàn)橛写罅靠晒呙璧能嚻?,故樣本?shù)量可以得到充分保證。所處理的車票圖像為二值化的圖像,故數(shù)據(jù)分析中并不涉及復(fù)雜的數(shù)學(xué)運(yùn)算(如計(jì)算均值、方差、協(xié)方差或建立更加復(fù)雜的統(tǒng)計(jì)模型等),同時(shí)圖像的數(shù)據(jù)量較小,一般嵌入式處理器完全滿足性能需要。

機(jī)器學(xué)習(xí)問(wèn)題一般會(huì)用任務(wù),性能標(biāo)準(zhǔn),訓(xùn)練經(jīng)驗(yàn),目標(biāo)函數(shù)和目標(biāo)函數(shù)的表示來(lái)定義。對(duì)此,本文中所關(guān)注的機(jī)器學(xué)習(xí)問(wèn)題可以被定義為:

任務(wù):識(shí)別火車票票號(hào);

性能標(biāo)準(zhǔn):識(shí)別的正確率;

訓(xùn)練經(jīng)驗(yàn):已知分類的票號(hào)字符數(shù)據(jù)庫(kù);

目標(biāo)函數(shù) :V :B → R ;

目標(biāo)函數(shù)的表示 :V(b)=aw(b)+aB(b),其中 aw(b)和 aB(b)為對(duì)字符兩種特征的識(shí)別相似度。

在本項(xiàng)目中,圖像的特征共分為兩類:特定位置的白點(diǎn)和特點(diǎn)位置的黑點(diǎn)。對(duì)于兩種特征的訓(xùn)練算法如下所示。

對(duì)于某一種字符,兩種特征字模為:

其中(xw, yn)和(xB, yB)分別為該種字符的白點(diǎn)特征字模和黑點(diǎn)特征字模中的相應(yīng)坐標(biāo)點(diǎn)的數(shù)據(jù),(xn, yn)為該種字符的第 n 個(gè)訓(xùn)練樣本中對(duì)應(yīng)的坐標(biāo)點(diǎn)的數(shù)據(jù)。訓(xùn)練過(guò)程遵循圖4所示流程,分別訓(xùn)練每種字符已歸類的樣本,得到訓(xùn)練結(jié)果并保存。

(2)設(shè)計(jì)一個(gè)簡(jiǎn)單的實(shí)驗(yàn)方案,證明上述所得的塊狀熔融物中含有金屬鋁。該實(shí)驗(yàn)所用試劑是____,反應(yīng)的離子方程式為_(kāi)___。

通過(guò)訓(xùn)練,系統(tǒng)對(duì)樣本圖片共有的白點(diǎn)特征和黑點(diǎn)特征分別提取,最大限度地歸納了樣本的特征信息,為后續(xù)的圖像識(shí)別建立良好基礎(chǔ)。字符“4”的白點(diǎn)特征字模和黑點(diǎn)特征字模圖如圖5所示。

2.4 票號(hào)圖像識(shí)別

對(duì)于票號(hào)圖像的識(shí)別,本文采用的實(shí)現(xiàn)方法是將字模中的像素和圖像中的像素逐一比對(duì),得到圖像和每個(gè)字模的相似度,相似度最大的字模便是識(shí)別結(jié)果。算法的具體表達(dá)式為:

圖4 字符特征訓(xùn)練流程圖

圖5 字符特征字模效果圖

aw(k)與 aB(k)分別代表字符和特征信息庫(kù)中第k個(gè)字符的白點(diǎn)特征字模和黑點(diǎn)特征字模的相似度。(xw(k), yw(k)) 和 (xB(k), yB(k)) 分別為特征庫(kù)中第 k 個(gè)字符的白點(diǎn)特征字模和黑點(diǎn)特征字模對(duì)應(yīng)點(diǎn)的數(shù)據(jù)。MaxRoww,MaxColw,MaxRowB和 MaxColB分別為白點(diǎn)特征、黑點(diǎn)特征字模的最大高度、寬度。

在對(duì)所有字模和被識(shí)別字符做上述運(yùn)算后,當(dāng)存在 j滿足公式(7)的條件時(shí),第 j個(gè)字符即為識(shí)別結(jié)果。對(duì)圖片中每一個(gè)字符進(jìn)行識(shí)別后,便可得到完整的票號(hào)。

3 系統(tǒng)調(diào)試方法

系統(tǒng)的最終實(shí)現(xiàn)是在制票終端上,但是制票終端的控制系統(tǒng)均為ARM控制器,且不含操作系統(tǒng),內(nèi)存空間只有 64 kbytes,直接在 ARM 上進(jìn)行調(diào)試是無(wú)法觀測(cè)中間過(guò)程的圖像。因此,本設(shè)計(jì)采用先在PC 上模擬測(cè)試,再將代碼移植到ARM 上的方式進(jìn)行調(diào)試。其調(diào)試過(guò)程包括以下幾個(gè)步驟:

(1)通過(guò)制票機(jī)的通訊端口將 CIS 采集的圖像數(shù)據(jù)傳輸?shù)絇C上;

(2)PC 上采用 VC++ 編程,實(shí)現(xiàn) 2.2、2.3、2.4的過(guò)程,對(duì)每一個(gè)子過(guò)程的結(jié)果均生成圖像,觀測(cè)其處理結(jié)果,若不能達(dá)到預(yù)期目的,則對(duì)算法進(jìn)行優(yōu)化 ;

(4)將在 ARM 環(huán)境中進(jìn)行大量測(cè)試,將采集的圖像和識(shí)別的結(jié)果均傳輸?shù)絇C上,并進(jìn)行保存,觀測(cè)其測(cè)試結(jié)果;

(5)若在(4)中出現(xiàn)識(shí)別錯(cuò)誤,則將提取識(shí)別錯(cuò)誤的圖像,針對(duì)該數(shù)據(jù)優(yōu)化算法,重復(fù)過(guò)程(2)、(3)、(4),直到達(dá)到預(yù)期的效果 ;

(6)刪除運(yùn)行在 ARM 中的調(diào)試代碼,即圖像數(shù)據(jù)傳輸?shù)?,并針?duì)ARM的特點(diǎn)進(jìn)行優(yōu)化,提高運(yùn)行效率。

通過(guò)上面6個(gè)步驟的代碼調(diào)試以及大量的測(cè)試,不僅縮短了調(diào)試周期,而且提高了系統(tǒng)運(yùn)行的穩(wěn)定性。

4 結(jié)束語(yǔ)

通過(guò)機(jī)器學(xué)習(xí)和模式識(shí)別的方式,實(shí)現(xiàn)了鐵路客票自動(dòng)售取票設(shè)備上的票號(hào)自動(dòng)識(shí)別功能。經(jīng)過(guò)實(shí)驗(yàn)測(cè)試,系統(tǒng)的識(shí)別正確率達(dá)到 99%,在此基礎(chǔ)上,采用多次識(shí)別和雙向驗(yàn)證技術(shù),正確率能達(dá)到100%,滿足使用需求。票號(hào)自動(dòng)識(shí)別的成功,實(shí)現(xiàn)了自動(dòng)售取票設(shè)備的票號(hào)識(shí)別,為票號(hào)的自動(dòng)核對(duì)打下了基礎(chǔ),提高了制票系統(tǒng)的自動(dòng)化和智能化程度。

[1] Tom M. Mitchell. Machine Learning[M]. McGraw-Hill Science/ Engineering/Math, 1997.

[2] 馬少平,朱曉燕 . 人工智能 [M]. 北京 :清華大學(xué)出版社,2004.

[3] 鄧勝江,王海峰,姜 利 . 鐵路客票自動(dòng)核對(duì)票號(hào)的研 究 [J].鐵路計(jì)算機(jī)應(yīng)用, 2011, 20 (1): 30-32.

[4] 姜 利,汪 洋,鄧勝江,王曉冬 . 基于 CIS 的鐵路客票票號(hào)的圖像采集 [J]. 鐵路計(jì)算機(jī)應(yīng)用,2014,23(3):7-9.

責(zé)任編輯 陳 蓉

Automatic recognition of railway ticket number

DENG Shengjiang, JIANG Li, SHANG Di, LIU Zikuan
( Institute of Computing Technologies, China Academy of Railway Sciences, Beijing 100081, China )

Considering the increasing development of automation and arti cial intelligent (AI) technologies in the Railway Ticketing and Reservation System, the AI technology was used on the ticket issuing machine (TIU). This paper introduced the theories and implementation method for the recognition of railway ticket number. In detail, the steps of image processing, characters data training and recognition were discussed. And at last, the feasibility was proved with the experimental results.

railway ticket; ticket number; characters recognition

U293.22 ∶ TP39

:A

1005-8451(2015)01-0008-04

2014-08-08

鄧勝江,副研究員;姜 利,副研究員。

猜你喜歡
客票白點(diǎn)票號(hào)
醫(yī) 學(xué) 指甲上有小白點(diǎn)是缺鈣嗎?
粉刷匠的孩子,真讓我羨慕
山西票號(hào)的固執(zhí)
消除大型鍛件內(nèi)白點(diǎn)缺陷的工藝方法淺析
刷子李
山西票號(hào)的固執(zhí)
山西票號(hào)的固執(zhí)
中國(guó)鐵路客票在跨境客運(yùn)中的互通方案
航空公司客票直銷的現(xiàn)狀與分析
基于大數(shù)據(jù)的客票超售策略