基于機器學習的文字識別方法

2018-02-28 11:19張愷天

電子技術(shù)與軟件工程 2018年21期

張愷天

摘要

隨著當前時代科技的進步，人工智能發(fā)展極為迅速，人們對機器學習的研究也取得突破性進展。基于機器學習的文字識別方法對信息技術(shù)有著極為重要的促進意義。接下來本文將對基于機器學習的文字識別方法研究，進行一定分析探討，并對其做相應(yīng)整理和總結(jié)。

【關(guān)鍵詞】機器學習文字識別方法研究

機器學習作為人工智能的重要組成內(nèi)容，近年來其已經(jīng)逐漸被應(yīng)用至各行業(yè)領(lǐng)域中，其所具有的智能化特性，使得其應(yīng)用過程所取得實質(zhì)性效果極為明顯。而基于機器學習的文字識別，雖然其在原理以及技巧上已經(jīng)形成相對豐富的理論支撐，但在實際實踐期間仍面臨各種因素制約，使其識別效果很難得到體現(xiàn)。

1 機器學習發(fā)展簡析

機器學習即是使機器能夠形成與人類大腦相似的模仿性能，從上世紀中期開始，其主要以進化學習以及判別函數(shù)來體現(xiàn)，整體局限性相對較為明顯;自上世紀八十年代，不同種類學習器模型的產(chǎn)生，使得其能夠結(jié)合多種學習算法確保理論與實踐能夠形成緊密連接;直至今天，機器學習已經(jīng)逐漸被運用至多個行業(yè)領(lǐng)域中，比如圖像處理、股票交易等;其對整個信息時代智能化發(fā)展的推動效果明顯。

2 基于機器學習的文字識別發(fā)展及問題

2.1 文字識別發(fā)展及缺陷分析

常規(guī)的文字識別即按照文字直觀形態(tài)特征，通過對文字字符間的形態(tài)差別做對應(yīng)統(tǒng)計分析，以找出一組相似的可以代表文字差異統(tǒng)計參數(shù)，來對其進行全面的篩選識別，以此達到計算機文字識別并使其自動錄入保存。但在實際運用期間，針對字符較少的英文來進行識別應(yīng)用時，仍很難取得良好的識別準確率;造成這種現(xiàn)象主要是因文字種類、文字自身像素抖動、識別時間長等原因所致。其中文字種類的多樣性使得文字識別難度加大，而十倍花費時間較長使得整個個識別效率很難得到保障。

2.2 機器學習文字識別問題

基于機器學習文字識別的開發(fā)和實踐一定程度上促進了文字識別的發(fā)展，比如以往所出現(xiàn)的紫光、賽庫等較為人們所熟知的文字識別軟件產(chǎn)品，其對識別對象整體識別率相對有一定保障;但從實際來看其本身所存在問題仍然較為明顯，比如識別過程中常會出現(xiàn)對部分相似字識別錯誤的情況，同時相應(yīng)版面分析缺乏一定智能特性，整個識別結(jié)果處理排版與原文字圖像差別性較大，都使得基于機器學習的文字識別效率和識別質(zhì)量和很難得以體現(xiàn)。

3 基于機器學習的文字識別方法

通過上文對基于機器學習的文字識別發(fā)展及問題分析，結(jié)合實際開展對應(yīng)識別方法方案設(shè)定時，應(yīng)注重對系統(tǒng)方案專業(yè)性和精確性的合理設(shè)定，確保機器學習自身智能化特性充分得到發(fā)揮，使文字識別效率能夠得到保障。

3.1 文字識別方法發(fā)展方向

當前文字識別主要是對手寫體、印刷體、世界場景文字進行相應(yīng)識別。其中手寫體文字識別通常在對應(yīng)文字識別系統(tǒng)輸入終端固定位置進行輸入，其輸入文字像素為二值圖像;而印刷體文字其文字圖像本身為灰度圖像，其對系統(tǒng)計算復雜度要求更高;而世界場景文字圖片本身背景干擾要遠超過印刷體文字，其識別難度也會呈直線上升;因此根據(jù)此類情況對其進行基于機器學習的全新文字識別方法方法設(shè)定，也是確保文字識別能夠全面、高效、穩(wěn)定發(fā)展下去的必要條件。

3.2 專業(yè)框架系統(tǒng)的形成

（1）進行基于機器學習的文字識別方法設(shè)置時，應(yīng)明確機器學習本身所具有的分類器構(gòu)建特質(zhì)，集合分類器對大量未知及已知視距進行正確分析分類的功效，確保基于機器學習的文字識別系統(tǒng)能夠全面形成。這個過程中相應(yīng)研究人員應(yīng)注重其辨識性特征向量提取，對各信息數(shù)據(jù)之間規(guī)律原則做好全方位劃分，結(jié)合分類器提供訓練數(shù)據(jù)模式，將其交由分類器并使其能夠從中進行學習歸納，以此使文字識別系統(tǒng)本身適應(yīng)能力以及易升級特性可以得到保障。

（2）對其系統(tǒng)學習過程進行合理構(gòu)造，確保其學習過程能夠與推理過程形成緊密相連;對應(yīng)極其學習可以根據(jù)學習策略、知識描述等開展對應(yīng)分類作業(yè)。此期間注重知識表現(xiàn)形式作為機器學習系統(tǒng)重要組成部分，其主要是以自身所帶就具體算法決定，相同結(jié)構(gòu)學習器往往可以運用至不同領(lǐng)域中，即受此原理影響。與此同時，推理過程作為相應(yīng)機器學習的智能化實質(zhì)體現(xiàn)，結(jié)合推理策略的專業(yè)設(shè)定使文字識別系統(tǒng)學習器、數(shù)據(jù)、知識調(diào)整之間的關(guān)系能夠完全得到直觀反映。對機器學習算法進行符號表示和原理劃分，明確其將數(shù)據(jù)轉(zhuǎn)化為知識進行陣列表示的特性，此期間知識表示與分類器類型以及結(jié)構(gòu)直接相關(guān)，例如在神經(jīng)網(wǎng)絡(luò)網(wǎng)狀結(jié)構(gòu)中的權(quán)值和閾值分布。當前常見的較為成熟的學習器主要是以貝葉斯分類器、神經(jīng)網(wǎng)絡(luò)、隨機森林等來能體現(xiàn)。其中隨機森林作為當前最新的分類器，其在運用之文字識別過程中，能夠結(jié)合自身較好的強大自學能力以對大量數(shù)據(jù)學習歸納等特質(zhì)，最大限度降低文字識別過程中所出現(xiàn)不明分類及識別誤差，確保整個文字識別效率和識別質(zhì)量能夠完全達到預期標準。

（3）對其系統(tǒng)內(nèi)學習器進行專業(yè)檢測和合理設(shè)定，明確學習器輸入必須與相應(yīng)系統(tǒng)環(huán)境有直接關(guān)系，相應(yīng)學習器按照內(nèi)部學習算法來將環(huán)境數(shù)據(jù)進行歸納轉(zhuǎn)換，對轉(zhuǎn)換形成新信息做更新至知識庫作業(yè)，確保學習器下次輸入與上次輸入能夠形成一定聯(lián)系，確保學習器完成指定任務(wù)后可以對學習部分形成反饋，使其知識庫、環(huán)境、執(zhí)行部分可以反應(yīng)對應(yīng)工作內(nèi)容。以此確保整個文字識別系統(tǒng)完善性和專業(yè)性充分得到體現(xiàn)，最大限度提升文字識別效率。

3.3 應(yīng)用分析

基于機器學習文字識別系統(tǒng)構(gòu)建完成后，進行對應(yīng)文字識別運用。以漢字為例，當前我們生活工作中所接觸漢字你數(shù)量在7000左右，常用漢字為3000作用，在此基礎(chǔ)上進行識別設(shè)置時必須對至少700各字符數(shù)字進行圖像構(gòu)建，字符圖像數(shù)量共計十幅，將所有構(gòu)建圖像分為七組，每組選擇一副圖像為測試數(shù)據(jù)，其余九幅圖像為訓練數(shù)據(jù)結(jié)合神經(jīng)網(wǎng)絡(luò)文字世界系統(tǒng);最終所取得識別輸出結(jié)果準確性較高，整體識別質(zhì)量能夠有效得到保障。

4 結(jié)束語

通過對基于機器學習的文字識別方法研究分析，可以看出其對文字識別技術(shù)發(fā)展有著極為重要的積極影響;因此注重對機器學習的加強和完善，明確對其運用的專業(yè)合理性，是確保我國文字識別水平能夠不斷提高、進步的必要條件。

參考文獻

[1]馮琬婷.基于文字識別視角分析人工智能機器學習中的文字識別方法[J].電子技術(shù)與軟件工程，2017（13）：253.

[2]端木海臣.文字識別視域下的人工智能機器學習的文字識別方法研究[J].電腦編程技巧與維護，2017（12）：82-84.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于機器學習的文字識別方法