国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GA-BP算法的普通話盲文分詞算法及其應用探析

2018-07-24 11:56:10李純蓮
長春大學學報 2018年7期
關鍵詞:碼表盲文分詞

孫 宇,李純蓮,b

(長春大學 a.特殊教育研究中心; b.計算機科學技術學院, 長春 130022)

盲文又稱點字,它是以6點或者8點按照不同的組合方式來表達普通文字的一種特殊文字形態(tài)。盲文有兩種表現(xiàn)形式:一種是印刷體形式,主要在普通書籍和電腦屏幕上顯示,這種盲文形式只能供明眼人閱讀;另外一種是盲文的刻印體形式,點字顯示器和絕大多數(shù)盲文出版物使用這種形式,刻印版盲文不僅可供觸覺摸讀,也可供視覺閱讀,所以它適用于盲人和明眼人兩個群體[1]。

目前,世界上幾乎所有的主流盲文都起源于法國盲人教師布萊爾(Braille)盲文的設計思想,只是不同語言體系的盲文對布萊爾盲文整體框架賦予了不同的含義,漢語盲文自然也不例外。漢語盲文形式多樣,當前主流的漢語盲文有普通話盲文、國語點字和粵語盲文,這三種盲文各有特點[2]。中國大陸地區(qū)推行的是普通話盲文,普通話盲文的研究熱點不少,但是普通話盲文信息化研究的核心問題是如何準確高效地對普通話盲文進行分詞。

1 普通話盲文的分詞規(guī)則和分詞算法

現(xiàn)在,全球絕大多數(shù)國家使用的語言都是以詞(Word)為單位進行書寫的,其中詞與詞在書寫時用空格隔開。然而,漢語的書寫卻是一個例外。漢語中字與詞的界限相對于英語、法語、西班牙語和德語等其他主流語言而言,字和詞在概念上不能分得很清晰。漢語分詞是漢語信息化過程中必須解決的核心問題之一,漢語分詞在漢語語音識別(SR, Speech Recognition)和漢語文本語音轉換(TTS, Text To Speech)中有著重要的作用。但漢語分詞算法現(xiàn)在還不是很完善,目前,世界各大廠商出品的相關軟件對漢語的語音識別和文本語音轉換都不能完成得盡善盡美,包括美國蘋果公司、微軟公司和中國科大訊飛這些著名企業(yè)的產品,核心原因之一就是漢語的分詞算法還處于發(fā)展過程中。當前,漢語分詞的一個常用算法是使用串匹配來進行分詞,串匹配算法以漢語詞庫為基礎,通過目標語言與詞庫比較得到分詞。由于漢字具有無限的組詞能力,詞庫不能窮盡所有的漢語分詞,所以串匹配算法不可避免地具有一定的局限性。在學術上,還有很多分詞算法處于研究中,但結果都不是非常理想。

漢語普通話盲文本身實行分詞,這種盲文分詞不同于普通的漢語詞語。漢語普通話盲文分詞是以普通詞語為基礎,以漢語拼音正詞法為參考,根據普通話盲文本身固有的特點,按照《漢語盲文分詞連寫規(guī)則》(1992年版)進行分詞的。漢語盲文分詞的詞庫相比于普通漢語詞庫,其容量和復雜性是大大增加的[3]。對于漢語普通話盲文的分詞,在其計算機處理過程中,也可以采用串匹配算法,但是因為漢語盲文分詞詞庫的規(guī)模更加龐大,所以串匹配算法在計算機漢語盲文分詞的處理過程中并不十分理想。本研究拋棄了基于詞庫的串匹配等算法思想,從人工智能的角度出發(fā),采用遺傳算法——BP神經網絡等自適應學習策略來進行漢語盲文分詞的探索,為漢語盲文分詞的計算機處理提供一種思路。

2 BP網絡和遺傳算法在漢語盲文分詞中的應用

漢語普通話盲文的分詞規(guī)則相對比較復雜,而且沒有固定的規(guī)律可以遵循,如果憑借讀者的漢語知識和語法常識對盲文進行分詞,那么效率和準確性就非常高。計算機依靠邏輯推理對問題進行逐步分析進而得出結論是強項,但讓計算機依靠已有的知識和經驗來解決問題,卻是近年來才發(fā)展起來的研究熱點,這些人工智能算法在漢語普通話盲文的處理過程中也大有用武之地。

2.1 BP神經網絡和BP神經網絡算法

神經網絡算法是模擬人腦學習過程的算法,屬于學習算法的范疇,BP(Back Propagation)神經網絡是整個神經網絡系統(tǒng)的一個組成部分,BP算法是一種有效而且相對簡單的神經網絡算法。

依靠人的知識經驗,對漢語普通話盲文進行分詞已經非常成熟,無論什么復雜成分的漢語句子,都可以得到十分準確的盲文分詞結果。對于輸入和輸出都可知的系統(tǒng),如果是線性結構的,那么得到它的數(shù)學模型在算法上已經達到了實用的程度。然而,對于非線性結構,尤其是很難找到數(shù)學模型的非線性結構,傳統(tǒng)的數(shù)學算法已經很難應用。人工智能算法(對本文來說主要是指BP神經網絡算法和遺傳算法)為這類問題提供了有效的解決途徑,漢語普通話盲文分詞就屬于找不到數(shù)學模型的非線性結構。

對于BP神經網絡而言,它本質上由三層構成,即輸入層、輸出層和中間層。中間層又叫隱含層。BP算法從根本上講,是將信息在神經網絡中正向傳遞,對誤差在反向傳輸中進行控制,直至把誤差控制到理想的精度時,BP算法結束。本文提出BP算法的初步結構模型如下:

圖1 BP神經網絡基本結構

由圖1可知,本文擬采用一個三層的單隱層前饋BP神經網絡。輸入層輸入信號的數(shù)目由盲文句子中文字個數(shù)和編碼方式決定??刹捎?6位Unicode碼編碼盲文漢字,這是因為Unicode碼對中、日、韓三國文字在3000H-A000H區(qū)間進行編碼,它的編碼和這三國的文字是唯一對應的,雖然漢字數(shù)量龐大,但Unicode碼基本上覆蓋了絕大多數(shù)日常使用的漢字,同時,Unicode碼還是目前計算機系統(tǒng)最常用的編碼之一。這里設句子中所包含的漢字個數(shù)為n,則輸入信號個數(shù)N=16×n,每個輸入信號可以表示為xi;輸出層的輸出信號有M個,其中M≤10,每一個輸出信號可以表示為yk;在輸入和輸出層之間的隱含層包含信號個數(shù)通過試湊法予以確定,每個信號表示為hj。在輸入層輸入學習樣本數(shù)據時可進行歸一化處理,以提高收斂速度。我們分別用Wnt和θt表示輸入層與隱含層的權值與隱含層節(jié)點對應的閾值,用Wtm和φm表示隱含層與輸出層的權值及輸出層節(jié)點的閾值,則在輸出層節(jié)點m的輸出可表示為:

所有神經元的作用函數(shù)均可選擇Sigmoid函數(shù)

由于本文擬解決的問題是漢語盲文的分詞算法,因此,首先需要對于那些連續(xù)書寫的漢語普通話盲文文本經過盲漢轉換軟件轉換成明文,或者對于那些需要轉換成盲文的明文漢語作為輸入材料,然后對這些素材中的漢字按照盲文分詞的規(guī)則進行分詞。就分詞算法而言,輸入的數(shù)據是漢字的Unicode碼,輸出的數(shù)據表示每個漢字是否被切分的標志,即為0~1之間的數(shù)值,再根據大量的樣本訓練,確定切分的取值范圍。根據實驗統(tǒng)計數(shù)據,一般認為,當滿足誤差精度時,輸出值落在(0.7,1)區(qū)域為切分狀態(tài),輸出值落在(0,0.3)區(qū)域為拒切分狀態(tài)。

2.2 遺傳算法及其對BP神經網絡參數(shù)的優(yōu)化

遺傳算法(Genetic Algrithom)是模擬生物界的遺傳現(xiàn)象,主要包括了生物在遺傳過程中的復制、交叉和變異等遺傳過程,屬于進化算法的一種。遺傳算法具有以下優(yōu)點:(1)從問題的一組解開始進行搜索,解區(qū)域的覆蓋范圍比較大,有利于全局尋優(yōu);(2)同時從問題空間的多個解進行評估,使算法陷入局部解的風險減?。?3)問題域不受連續(xù)可微等的約束,適用范圍較廣;(4)算法適用于并行計算,也適于采用動態(tài)自適應技術進行進化計算。

在用遺傳算法解決實際問題時,通常需要完成以下3項工作:(1)確定適應度函數(shù)。適應度函數(shù)用于表示所求解的問題,進化過程中,個體對環(huán)境的適應能力是以適應度函數(shù)為依據的,適應度函數(shù)的值應該是正值,所以通常都需要對實際問題的目標函數(shù)做一些處理。(2)編碼。由于遺傳算法模仿的是生物進化過程,首先需要將問題空間的參數(shù)轉換成具有某種基因結構的染色體,此過程即為編碼。編碼方式可以采用二進制、浮點數(shù)、字符等形式,其中以二進制編碼最為常用。(3)遺傳操作。在通過編碼組成需要進化的初始種群后,就需要通過以下3個遺傳操作算子進行進化以便實現(xiàn)優(yōu)勝劣汰。

選擇算子:從進化的種群中淘汰掉劣質個體,選擇優(yōu)異的個體參加下一代進化。這些被選擇的優(yōu)異個體,可以直接參與進化,也可以通過交叉配對衍生新個體后再參與進化。

交叉算子:進化的種群中的個體兩兩組合,并按照某種規(guī)則替換或重組,通過產生新的基因組合而產生新的個體。

變異算子:從進化的種群中按照一定規(guī)則選擇某個或某些個體,改變其某些基因的值,即通過基因的突變而產生新的個體。

對于每一代種群,都要經過3個遺傳操作后再判斷其適應度函數(shù)的變化,一旦到達預設的收斂條件,則進化結束,而當前種群中最優(yōu)個體即為所求問題的最優(yōu)答案。

本文擬采用多種群遺傳算法對BP神經網絡的權值和閾值進行優(yōu)化,適應度函數(shù)設置為BP神經網絡訓練得到的誤差,采用二進制編碼,復制選擇算子,部分基因交叉重組,隨機變異,且交叉在種群間進行?;玖鞒倘鐖D2所示。

圖2 GA-BP算法基本流程

3 盲文分詞算法的應用

前已述及,盲文分詞是普通話盲文(包括現(xiàn)行盲文和雙拼盲文)的基本單元,盲文分詞不僅在盲人的摸讀過程中起著重要的作用,而且在盲文的信息化過程中也扮演著非常重要的角色。比如以普通話盲文(尤其是現(xiàn)行盲文)為基礎的輸入法、盲文到普通漢字的轉換等,原因在于盲文分詞是盲文碼表的最基層結構,而盲文碼表在盲文輸入法和盲漢轉換中有著不可替代的作用。

從理論上講,普通話盲文分詞具有如下重要意義: (1)有利于在計算機上檢驗盲文-漢字輸入法設計理論的全過程,進而使盲文-漢字輸入法更加適合盲人使用。因為提高普通話盲文的漢字輸入效率,良好的盲文分詞(當然,還包括合適的普通話盲文標調)是確保正確輸入的重要手段。 (2)有利于探索漢字盲文碼表的各種優(yōu)化方法,因為漢字盲文碼表的研究與開發(fā)是漢字盲文輸入法的最核心工作,而漢字盲文碼表的研究是一個不斷螺旋上升、否定之否定的探索過程。簡而言之,盲文碼表本質上也是一種外碼碼表,它類似于漢字的拼音編碼(如全拼、雙拼和簡拼等),只不過這種碼表比較特殊,它是盲文信息化過程必備的“中間體”。 (3)可以為計算機處理盲文到漢字的轉換中存在的難題積累經驗。例如,探索“怎樣提高多音字漢盲轉換效率”的各種策略,包括運用不同的詞語匹配方法,以及引入語料庫、互聯(lián)網、大數(shù)據和云算法等新技術。

從實踐上講,盲文分詞具有如下意義: (1)有利于盲人學習漢字和計算機文字錄入。因為國內主流的現(xiàn)行盲文是一種拼音文字,學習現(xiàn)行盲文勢必會導致盲校出身的盲人對漢字理解得比較模糊;同時,國內盲人的計算機應用水平普遍偏低,對計算機文化了解甚少。因此,良好的盲文分詞可以降低漢字輸入的錯誤率。 (2)有利于進一步推進盲文的信息化。因為盲文輸入法中用到的漢字盲文碼表的研發(fā)是一項非常重要的基礎工程??梢院敛豢鋸埖卣f,漢字盲文碼表是實現(xiàn)漢字的盲文輸入法以及在計算機上進行漢字和盲文、不同碼制的漢語盲文之間相互轉換的最重要基礎資源。

4 實驗測試要求

這里給出幾個典型的測試實例。首先,用BP—GA模型對漢語句子按照《漢語盲文分詞連寫規(guī)則》對典型句子進行切分;其次,在切分結果滿足普通話盲文分詞連寫規(guī)則的條件下,對這些切分結果進行普通話盲文轉換。轉換的結果可以使用中國大陸的法定盲文——現(xiàn)行盲文或者雙拼盲文表現(xiàn)。

例1: 他從南邊跑到北邊去跳繩。

按照普通話盲文分詞連寫規(guī)則進行盲文分詞,輸出應該是:他 從 南邊 跑到 北邊 去 跳繩。

例2: 盼望著,盼望著,東風來了,春天的腳步近了。

對應的普通話盲文分詞連寫結果為:盼望著,盼望著,東風 來 了,春天的 腳步 近 了。

例3: 前天他去了上海,因為要出席一次重要的專業(yè)峰會。

普通話盲文分詞連寫結果為: 前天 他 去了 上海, 因為 要 出席 一次 重要的 專業(yè) 峰會。

總之,對算法的最終要求是:經過算法若干次訓練得到的結果,要與上述給出的人工分詞相近,不能存在太大誤差,否則需要對這些人工智能算法進行再修正(比如調整算法中的參數(shù)等),直至結果滿意為止。

5 結論

采用神經網絡算法、遺傳算法等這一類人工智能算法,為解決漢語普通話盲文的分詞提供了一條新的思路。推而廣之,神經網絡算法和遺傳算法在盲文分詞的應用場景中也有重要的價值,比如前面提到的盲文-漢字輸入法以及盲文-漢字的轉換(包括在這二者中用到的匹配和查找盲文分詞等技術)。人工智能算法模擬自然界的現(xiàn)象,包括生物的進化過程和學習過程,在解決漢語普通話盲文分詞以及其他盲文信息化方面也顯示出一定的優(yōu)越性。然而,BP算法和遺傳算法的理論目前還并不完善,正處于不斷發(fā)展的過程中,比如BP網絡的層數(shù)選擇問題,遺傳算法的種群大小問題,收斂速度的提示問題等等,都需要繼續(xù)深入地研究。如果用以上算法能成功地實現(xiàn)漢語盲文的自動分詞,必然會大大促進漢語盲文的信息化工作向更深層次發(fā)展,從而更加有利于加速我國盲人融入信息化社會的進程?;蛘哒f,可以使他們更好地學習、工作和生活,即更好地與“明眼人”社會接軌。

猜你喜歡
碼表盲文分詞
布萊葉:發(fā)明盲文,在黑暗中“看見”世界
制作盲文書籍,點亮黑暗世界
結巴分詞在詞云中的應用
智富時代(2019年6期)2019-07-24 10:33:16
iGPSPORTiGS618智能GPS碼表測評
中國自行車(2018年9期)2018-10-13 06:17:04
皺皺眉頭就是一首詩
優(yōu)雅(2017年8期)2017-08-08 06:01:53
廉價親民黑鳥單車BB10 GPS碼表評測
中國自行車(2017年1期)2017-04-16 02:54:07
值得重視的分詞的特殊用法
盲文紙質出版物與數(shù)字資源一體化研發(fā)初探
出版與印刷(2016年1期)2016-01-03 08:53:36
輕松上手 碼表踏頻組
高考分詞作狀語考點歸納與疑難解析
湛江市| 天长市| 西畴县| 福清市| 安仁县| 天门市| 鄂伦春自治旗| 宝应县| 兰溪市| 错那县| 杭州市| 裕民县| 汶川县| 辽阳市| 青阳县| 勃利县| 寻乌县| 庄河市| 天长市| 通州区| 兰坪| 乐都县| 屯门区| 获嘉县| 临沧市| 乐平市| 呈贡县| 福安市| 特克斯县| 洛扎县| 宜兴市| 格尔木市| 龙山县| 手游| 嘉荫县| 潜江市| 获嘉县| 孝感市| 江油市| 芜湖县| 麦盖提县|