魏永生
大港油田勘探開發(fā)研究院,天津 300280
當(dāng)今世界,越來越多的年輕人已經(jīng)成為“低頭族”之列,即從手機或iPad等移動電子設(shè)備上獲取信息或者閱讀。這標(biāo)志著一種全新的閱讀模式正在被很多人選用,這就是電子閱讀。與傳統(tǒng)的書籍、報紙等紙質(zhì)閱讀相比,電子閱讀具有很多突出的優(yōu)點:第一,容量大。第二,攜帶方便。第三,閱讀方便。一般書本的寬度遠遠大于手機等電子閱讀設(shè)備的屏幕寬度,如果將書本上的每一頁內(nèi)容按比例直接顯示到屏幕上,則會出現(xiàn)字體太小、不清晰,或者需要通過不停的縮放來閱讀,嚴(yán)重影響了閱讀效果。如何獲得最佳閱讀效果,是電子出版業(yè)的當(dāng)務(wù)之急。基于圖像分析的文字排版技術(shù)很好的解決的這些問題,是的電子閱讀也能取得紙質(zhì)閱讀的效果。
文字圖像的獲取過程很簡單,在計算機上打開書本的電子文檔,選擇所需要的文字區(qū)域的圖像,可以通過截屏或快照等方式保存下來,以備后續(xù)處理適用。在理論上,閱讀者在源圖像選擇時,可以選擇出一片只包含自己所需文字內(nèi)容的區(qū)域。但在實際操作過程中很難做到,總會或多或少地在文本四周留下空白區(qū)域,如圖1所示。這些空白區(qū)域?qū)ξ淖值闹匦屡虐娴淖罱K效果影響很大。由于計算機圖像分辨率高,圖像寬度遠遠大于手機等移動閱讀設(shè)備,如果不能有效清除空白區(qū)域,則可能出現(xiàn)頁面過小或者頁面某一側(cè)文字內(nèi)容顯示不全的不良閱讀效果。因此,必須把空白區(qū)域清除掉。除了一般的圖像信息需要重排以外,還有一些文本累的附加信息也需要重排,例如PDF、word等文檔里文字都具有一定的格式,有時還有附注等。如果將文本信息直接存儲到閱讀設(shè)備上,會造成一些重要附加信息的漏失或丟失,給客戶的閱讀理解造成極大的影響。因此,也需要進行文字重排。基于圖像分析的文字排版技術(shù)可以很好的解決問題。
圖1 源圖像imagesrc
基于圖像初步分析的文字重排可以通過三步實現(xiàn),即源圖像分析、文字分割和重新排版。
源圖像分析主要是為了獲得圖像的四個關(guān)鍵的參數(shù)值:左側(cè)寬度Wl、右側(cè)寬度Wr、上側(cè)高度Ht以及下側(cè)高度Hb。用戶可以通過像素統(tǒng)計方法獲取相關(guān)參數(shù),即通過對除去空白的源圖像進行掃描,從一個方向向另一個方向掃描每一個像素,并對垂直方向的像素值進行統(tǒng)計,記錄像素值。最后對像素值進行處理,為文字分割和重排做好準(zhǔn)備。
要實現(xiàn)圖像文字的重排,就必須對源圖像文字進行合理的分割。根據(jù)掃描結(jié)果計算出每一行文字的寬度,再結(jié)合移動閱讀設(shè)備的屏幕像素進行分割。處理過程:第一步,按照目標(biāo)閱讀設(shè)備的屏幕分辨率設(shè)置目標(biāo)圖像的高度H和寬度W;第二步,設(shè)置文字排版后放置的起始位置變量P1;第三步,利用自動程序?qū)⒃磮D像中的每行文字進行圖像信息賦值,并利用變量轉(zhuǎn)換找到每行換行處的變量Pn,即分割點位置。分割完以后,把目標(biāo)圖像保存到內(nèi)存磁盤中。
將每一行的源圖像文字進行分割以后,將相鄰兩個分割點間的文字放到同一行,進行文字重排。p1與p2之間的文字為第一行,p2與p3之間為第二行,一次類推,得到重排后的版式效果,如圖3。重排后,閱讀效果良好。
正當(dāng)電子閱讀以極快的普及速度沖擊廣大閱讀愛好者閱讀習(xí)慣的時候,文字重新排版成了急需解決的問題?;趫D像分析的文字排版技術(shù)很好的解決的這個問題,并使電子閱讀也能取得紙質(zhì)閱讀的效果。同時,通過該技術(shù)在文字內(nèi)容上打上版權(quán)水印,能夠有效解決盜版問題,使得電子出版業(yè)侵權(quán)、盜版等版權(quán)現(xiàn)象也得到很好的緩解,起到了維護版權(quán)的目的。
[1]鄧連瑾,尤德祥,李瑞.基于圖像分析的文字排版技術(shù)的深入研究[J].科學(xué)時代,2013(3):5-8.
[2]鄧連瑾,尤德祥.文字排版技術(shù)的初步圖像分析研究[J].天津市財貿(mào)管理干部學(xué)院學(xué)報,2010,12(4):51-54.