西安外事學(xué)院工學(xué)院 楊小輝
還在八十年代輸入軟件智能化先行者林才松先生設(shè)計(jì)了第一個(gè)智能拼音軟件盡管林氏的創(chuàng)舉得到語(yǔ)委的支持和周有光教授的幫助,但PC/XT和CCDOS卻表示“愛(ài)莫能助”,林先生只得無(wú)功而返。
十年過(guò)去了,計(jì)算機(jī)軟、硬件的發(fā)展速度以幾何級(jí)數(shù)的形態(tài)增長(zhǎng)。計(jì)算機(jī)系統(tǒng)資源的豐富為人們開(kāi)發(fā)出實(shí)用的、算法各異的漢字輸入智能軟件創(chuàng)造了條件。各種類型輸入軟件智能化的共同目標(biāo)是山軟件來(lái)識(shí)別和選定上屏的重碼字、詞與縮短平均碼長(zhǎng),促使編碼簡(jiǎn)中北和規(guī)范化。
寓漢語(yǔ)語(yǔ)法知識(shí)于巨量的短語(yǔ)串中,進(jìn)而利用這些短語(yǔ)串來(lái)消化同音字、詞,以及化解歧義分詞。這種短語(yǔ)串通常稱之為“模板詞”。
這種系統(tǒng)通過(guò)模板詞搜索引擎來(lái)完成漢語(yǔ)語(yǔ)法體系的組織。需要搜索巨量的語(yǔ)料,獲取巨量的短語(yǔ)串,才有可能大體上包容漢語(yǔ)語(yǔ)法知識(shí),例如:智能狂拼搜索了100億字語(yǔ)料,模板詞庫(kù)最大時(shí)需要約540MB存儲(chǔ)空間。根據(jù)分詞后的輸入語(yǔ)句查找模板詞庫(kù)和句法規(guī)則庫(kù),然后進(jìn)行匹配處理。如果匹配結(jié)果唯一,則不必再用概率推理;若存在兩個(gè)以上的候選結(jié)果時(shí),則根據(jù)句法規(guī)則或概率推斷進(jìn)一步判定,選出一個(gè)最有希望的可能結(jié)果作為輸出。
中文之星數(shù)碼科技有限公司推出的智能狂拼;
黑馬新技術(shù)公司推出的黑馬智能輸入軟件;大自然軟件開(kāi)發(fā)有限責(zé)任公司推出的自然碼2000(句輸入版)。
優(yōu)點(diǎn):對(duì)于幾己經(jīng)搜索過(guò)模板詞的或者具有相同類型的領(lǐng)域,系統(tǒng)的轉(zhuǎn)換正確率比較高,或者說(shuō)模板詞庫(kù)具有偏向性。對(duì)每一個(gè)用戶而言,在使用過(guò)程中,模板詞庫(kù)將會(huì)從最初的通用型逐漸改變?yōu)榉线@個(gè)用戶語(yǔ)用習(xí)慣的專用型。
存在的問(wèn)題:(1)模板詞數(shù)量巨大,對(duì)電腦硬件有一定的要求,486及以卜的低檔機(jī)難以使用。(2)對(duì)拼音輸入的模板匹配智能輸入軟件而言,通常只支持漢語(yǔ)拼音的26鍵位輸入,注重連續(xù)和完整的音節(jié)輸入,平均碼長(zhǎng)較長(zhǎng),采用簡(jiǎn)化拼音輸入時(shí)鍵選率較高。(3)偏重整句處理,當(dāng)出現(xiàn)匹配錯(cuò)誤時(shí),需要使用者回頭去糾正,干擾了正常的思維。自動(dòng)分詞的準(zhǔn)確度只能達(dá)到98%使鍵選率的降低受到限制。
文獻(xiàn)[5]采用語(yǔ)用統(tǒng)計(jì)來(lái)實(shí)現(xiàn)上下字關(guān)聯(lián)智能輸入。下面介紹的是一種基于模糊控制理,利用上下文關(guān)聯(lián)(向上關(guān)聯(lián)4個(gè)詞語(yǔ),向下關(guān)聯(lián)1個(gè)詞語(yǔ))的語(yǔ)用環(huán)境來(lái)智能選擇重碼字。在學(xué)科分類中屬自動(dòng)控制分支非線性控制范疇。將自然語(yǔ)言看成是一個(gè)模糊的集合,將漢字輸入系統(tǒng)作為一個(gè)非線性控制范疇的模糊控制系統(tǒng)來(lái)對(duì)待,預(yù)學(xué)習(xí)工具(或者轉(zhuǎn)換出現(xiàn)錯(cuò)誤時(shí)的手工鍵選信號(hào)),相當(dāng)于一個(gè)傳感器,算法程序、漢語(yǔ)知識(shí)庫(kù)和動(dòng)態(tài)語(yǔ)用統(tǒng)計(jì)庫(kù)作為非線性調(diào)節(jié)器,使得系統(tǒng)的鍵選率和平均碼長(zhǎng)逐漸趨于最優(yōu)。例如,青月亮漢字通上文關(guān)聯(lián)4個(gè)詞,下文關(guān)聯(lián)1個(gè)詞,合計(jì)上下文關(guān)聯(lián)5個(gè)詞,這一調(diào)節(jié)機(jī)制涉及到許多相互矛盾和相互牽制的受控參數(shù),模糊集合的特征函數(shù)從[0,1]區(qū)間連續(xù)取值,可以較為準(zhǔn)確地表現(xiàn)各種語(yǔ)言現(xiàn)象差異,獲得比較好的效果。
青月亮科技開(kāi)發(fā)有限公司推出的青月亮漢字通智能輸入軟件平臺(tái)GM 3.1;
一筆軟件有限公司推出的一筆智能輸入軟件(26鍵位和10鍵位);
字原科技有限公司推出的101智能輸入軟件TZ8.2/9.1/2000 0
優(yōu)點(diǎn):(1)對(duì)學(xué)習(xí)過(guò)或者具有相同類型的語(yǔ)料,鍵選率比較低,或者說(shuō)漢語(yǔ)知識(shí)庫(kù)具有偏向性。對(duì)每一個(gè)用戶而言,在使用過(guò)程中,漢語(yǔ)知識(shí)庫(kù)將會(huì)從最初的通用型逐漸改變?yōu)榉线@個(gè)用戶語(yǔ)用習(xí)慣的專用型。(2)青月亮漢字通作為一種音碼、形碼和筆畫(huà)碼二位一體的通用智能處理平臺(tái),支持26鍵位、10鍵位、8鍵位和5鍵位規(guī)模的鍵兀集,支持GB18030的27533超大字符集,為各種輸入法增加上卜文關(guān)聯(lián)智能輸入的后處理支持,讓這些輸入法變得更易學(xué)、更好用。(3)采用字段輸入,不使用語(yǔ)句級(jí)輸入,使語(yǔ)法規(guī)則簡(jiǎn)約化,易于知識(shí)表達(dá)。此舉不但降低了鍵選率,還大大緩解了輸入過(guò)程中“回頭看”的問(wèn)題,基木上貼近了人們的使用習(xí)慣。(4)程序開(kāi)銷積木化,在CPU為486的機(jī)器上就能運(yùn)行。遵從一系列信急處理用的國(guó)家標(biāo)準(zhǔn)和規(guī)范,特別是與漢字輸入密切相關(guān)的兩個(gè)標(biāo)準(zhǔn)《GB/T 18031-2000信急技術(shù)數(shù)字鍵盤漢字輸入通用要求》和《GB(待定)信息技術(shù)通用鍵盤漢字輸入通用要求》。(5)旅拼音輸入時(shí),采用人工分詞,在形式上與英文接軌,既可以避免3%的歧義分詞錯(cuò)誤,也可以兼容簡(jiǎn)拼輸入,大幅度降低鍵選率和平均碼長(zhǎng)。青月亮漢字通在保證支持完整拼音輸入的同時(shí),尤其提倡使用簡(jiǎn)拼輸入(一個(gè)音節(jié)要么只取音節(jié)的首字母,要么就取完整音節(jié))。
存在的問(wèn)題:(1)字段輸入還未能完全根治輸入過(guò)程中“回頭看”的問(wèn)題,每當(dāng)終選字詞有錯(cuò)時(shí),仍然需要近距離的即時(shí)修改。(2)對(duì)“上下文關(guān)聯(lián)”機(jī)制的人機(jī)界而,用戶需要一個(gè)熟悉的過(guò)程。因此,青月亮漢字通也允許使用者關(guān)閉“上下文關(guān)聯(lián)”智能輸入,僅保留“上文關(guān)聯(lián)”機(jī)制和恢復(fù)逐字、逐詞上屏的輸入方式。
GBK字集以外生僻字的輸入:使用Windows自帶的“造字程序”。該程序操作簡(jiǎn)單,使用方便,既可以用兩個(gè)字重新拆分組合成一個(gè)新字;也可以選一個(gè)相近的字加以修改而造一個(gè)新字;還可以直接在編輯框中畫(huà)出您所需要的字,比較便利的是前兩種方法,其步驟如下。
取兩個(gè)字中有用的部分,重新組合成一個(gè)新字。以“腘”字為例(為便于排版,沒(méi)有選用GBK以外的字作為例字,下同),單擊“開(kāi)始”按鈕,選“程序”、“附件”、“造字程序”,出現(xiàn)“造字程序”窗口。在彈出的“選定代碼”窗口中確定所造的字的代碼位置,比如AAA1后按“確定”按鈕(如沒(méi)有出現(xiàn),則選“編輯”中的“選定代碼”命令),此時(shí)在“造字”窗中出現(xiàn)“編輯”工作區(qū)。再選“編輯”菜單中的“調(diào)用”命令(在Windows2000、XP中則為“復(fù)制字符”命令),單擊“字體”按鈕,選擇字體后,在“形狀”框中輸入?yún)⒖甲帧芭D”,按“確定”按鈕。在“編輯”框中出現(xiàn)“臘”字。再選“窗口”中的“引用”命令(在Windows2000、XP中則為“參照”命令),一樣選定字體,輸入?yún)⒖甲帧皳潯?,在“造字”窗中出現(xiàn)帶有“摑”字的引用框。用“造字”窗左邊的圈選工具圈選“編輯”框中的“昔”,按Del鍵。圈選“引用(參照)”框中的“國(guó)”,將它拖到編輯框中合適的位置,然后關(guān)閉“引用”框。再選“編輯”菜單中的“保存字符”命令,在對(duì)話框中按“確定”按鈕。此時(shí)該字已經(jīng)建立,如文章中需要用到“腘”字只要將輸入法切換至區(qū)位輸入法,鍵入AAA1,即可出現(xiàn)“腘”字。
[1]夏瑩等.利用上下文相關(guān)信急的漢字文本識(shí)別[J].中文信息學(xué)報(bào),1996(2).
[2]郭進(jìn).統(tǒng)計(jì)語(yǔ)言模型及漢語(yǔ)音字轉(zhuǎn)換的一些新結(jié)果[J].中文信息學(xué)報(bào),1993(1).
[3]仲興國(guó).多詞組一次性拼音漢字變換[J].中文信息學(xué)報(bào),1990(6).
[4]張普.智能化漢字鍵盤輸入法的最重要發(fā)展方向[M].中國(guó)標(biāo)準(zhǔn)出版社,1997(2).
[5]陳一凡.漢字編碼輸入技術(shù)的發(fā)展趨勢(shì)[J].計(jì)算機(jī)世界,1987,11(8).
[6]黃昌寧.中文信息處理的主流技術(shù)是什么?[J].計(jì)算機(jī)世界報(bào),2002(24).