記憶量的定義，矢量碼改善學(xué)習(xí)性能的原理

2018-05-30 11:45:10高其海

中文信息 2018年2期

摘要：首先，本文對(duì)記憶量予以定義。在此基礎(chǔ)上，本文通過(guò)初步的計(jì)算說(shuō)明，與任意碼相比，矢量碼能夠有效改善自身的學(xué)習(xí)性能。

關(guān)鍵詞：任意碼記憶量矢量碼

中圖分類號(hào)：G434 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1003-9082（2018）02-0-02

學(xué)習(xí)性能是漢字及其編碼一項(xiàng)極其重要的性能。在漢字輸入方面，有的編碼看似簡(jiǎn)單，僅僅是因?yàn)閷W(xué)習(xí)難而無(wú)法推廣。

例如，我們?cè)?jīng)用過(guò)的漢字電報(bào)碼，是中國(guó)最早的漢字編碼，每個(gè)電報(bào)碼只有四位數(shù)，信息量卻是充足的，能夠一一對(duì)應(yīng)出所需的漢字。

假如有人能夠把電報(bào)碼記熟，用于計(jì)算機(jī)，無(wú)需動(dòng)用26個(gè)字母鍵，每個(gè)手指只需分管一個(gè)數(shù)字鍵，不看鍵盤(pán)，不看屏幕，雙手盲打，就可順利地輸入漢字。實(shí)際上，由于輸在學(xué)習(xí)性能上，漢字電報(bào)碼根本無(wú)法推廣。

經(jīng)驗(yàn)告訴人們，在制定漢字編碼的過(guò)程中，編碼的學(xué)習(xí)性能是重于片面的簡(jiǎn)短性的，必須顧及到，只有記得熟，才能打得快。

本文主要分兩部分，第一部分，任意碼與記憶量的定義。第二部分，矢量碼改善學(xué)習(xí)性能的原理。

一、任意碼

任意碼是一種部件沒(méi)含義的編碼，優(yōu)點(diǎn)是組成簡(jiǎn)短，缺點(diǎn)是學(xué)習(xí)難。

本文之所以把這種編碼稱之為任意碼，原因是，由于部件沒(méi)含義，因而一個(gè)標(biāo)的物對(duì)應(yīng)哪個(gè)編碼，就不受標(biāo)的物特性的約束，是可以任意規(guī)定的，如抓鬮式的任意規(guī)定。

——這里所說(shuō)的標(biāo)的物，既可以是漢字，也可以是事物。如電報(bào)碼的標(biāo)的物就是漢字，如果把形聲字作為編碼，其標(biāo)的物就是事物。

1.記憶量的定義

記憶量有兩種性質(zhì)。（1）記憶量是某標(biāo)的物對(duì)應(yīng)某編碼概率的單調(diào)遞減函數(shù)。換言之：某標(biāo)的物對(duì)應(yīng)某編碼的概率小，則該編碼的記憶量大。反之，某標(biāo)的物對(duì)應(yīng)某編碼的概率大，則該編碼的記憶量小。（2）記憶量有可加性。

本文根據(jù)記憶量的兩種性質(zhì)，參照《基礎(chǔ)信息論》[1] 一書(shū)所用的方法，把記憶量定義為

記憶量 = -log2p

式中，p是某標(biāo)的物對(duì)應(yīng)某編碼的概率。

這里的記憶量只是某個(gè)標(biāo)的物對(duì)應(yīng)某個(gè)編碼的記憶量，需要兩個(gè)前提：即不考察對(duì)應(yīng)關(guān)系，標(biāo)的物是學(xué)習(xí)者已知的，也能寫(xiě)出所有的編碼。

例如，不考察對(duì)應(yīng)關(guān)系，學(xué)習(xí)者既能寫(xiě)出所需的漢字，也能寫(xiě)出所有四位數(shù)的電報(bào)碼。

一點(diǎn)說(shuō)明

在《基礎(chǔ)信息論》一書(shū)中，作者根據(jù)信息量的兩種性質(zhì)，把信息量定義為

信息量 = -log2p

式中，p是消息所示事件出現(xiàn)的概率。

信息量的兩種性質(zhì)是，（1）信息量是事件出現(xiàn)概率的單調(diào)遞減函數(shù)。（2）信息量有可加性。 [1] （日藤田広一，1982年，頁(yè)6—11）

2.任意碼記憶量的算例

設(shè)某花店有一批盆花，分四種花色，又分四種盆型，共16種互不相同的盆花。此時(shí)可以有兩種編碼可供選擇，一種是任意碼，一種是矢量碼。以下是這批盆花任意碼記憶量的計(jì)算。

16種互不相同的盆花，需要16個(gè)互不相同的任意碼。若用二進(jìn)制，每個(gè)編碼需要四位數(shù)，即0000 0001 …… 直至1111，共16個(gè)編碼。

當(dāng)學(xué)習(xí)者學(xué)習(xí)第一種盆花編碼的時(shí)候，編碼表內(nèi)共有16個(gè)編碼可供選擇。由于盆花與編碼的對(duì)應(yīng)是任意規(guī)定的，所以16個(gè)編碼中的任一編碼都有相同的概率，即1/16的概率，是第一種盆花對(duì)應(yīng)的編碼。

設(shè)第一種盆花編碼的記憶量為m1，根據(jù)記憶量的定義，于是有

m1 =- log2 （ 1/16） = log2 16（比特）

當(dāng)學(xué)會(huì)了第一種盆花編碼之后，該編碼應(yīng)該從選擇范圍內(nèi)剔除。因此，在學(xué)習(xí)第二種盆花編碼的時(shí)候，編碼表內(nèi)只剩下15個(gè)編碼可供選擇。設(shè)第二種盆花編碼的記憶量為m2、于是m2減為

m2 = log2 15（比特）

依此類推。

設(shè)16種盆花任意碼的平均記憶量為m，根據(jù)對(duì)數(shù)運(yùn)算法則，有

m=（ m1+m2+……+m16 ）/16

=（ log2 16+log2 15+……+log2 1 ）/16

= log2（ 16×15×……×1 ） /16

= log2（ 16﹗） /16

= 2.77（比特）

能夠看出，當(dāng)記憶第一種盆花編碼的時(shí)候，選擇范圍最大，記憶量也最大。當(dāng)記憶最后一種盆花編碼的時(shí)候，選擇范圍為一，記憶量為零。這一規(guī)律與人們記憶過(guò)程中先難后易的經(jīng)驗(yàn)是吻合的。

我們把這種在一個(gè)編碼表的范圍內(nèi)，既認(rèn)識(shí)標(biāo)的物，又能寫(xiě)出所有的編碼，僅僅是記憶一個(gè)標(biāo)的物對(duì)應(yīng)哪個(gè)編碼的記憶量，稱之為編碼表內(nèi)的記憶量。

值得強(qiáng)調(diào)的是，記住一個(gè)編碼所需時(shí)間，不僅與該編碼的記憶量有關(guān)，而且還與其它因素有關(guān)。至少，改善記憶技巧，調(diào)動(dòng)大腦的更多部位參與記憶，也會(huì)明顯地加快記憶速度。

記憶量的意義在于，在可比因素相同的條件下（例如，同為十進(jìn)制的編碼，或同為二進(jìn)制的編碼，而且記憶者利用同樣的記憶技巧），記住一個(gè)編碼所需的時(shí)間，與該編碼的記憶量大致是成正比的。

二、矢量碼

英國(guó)學(xué)者W.R.艾什比寫(xiě)過(guò)一本書(shū)，中文譯名為《控制論導(dǎo)論》[2]（英 W.Ross.Asbby，中文版1965年出版），是一本利用初等數(shù)學(xué)講解控制論的書(shū)，給了筆者許多寶貴的啟迪。書(shū)中介紹了一種矢量，至少由兩個(gè)分量的值組成，分別記錄了同一事物至少兩個(gè)方面的特性。各個(gè)分量的取值可以是數(shù)字（或數(shù)字加量詞），更多的是文字。

簡(jiǎn)單的矢量，如燈泡的規(guī)格，由兩個(gè)分量的值組成，如220V，60W。

復(fù)雜的矢量可以有多個(gè)分量，以班組的員工登記表為例，姓名分量，取值范圍為成千上萬(wàn)個(gè)可能的姓名。年齡分量，取值范圍為數(shù)十個(gè)兩位數(shù)的數(shù)字。性別分量，取值范圍只有男、女兩個(gè)值。根據(jù)需要，還可以有籍貫，學(xué)歷，工種，特長(zhǎng)等多個(gè)分量。

本文所說(shuō)的矢量碼也是一種矢量，這種矢量至少由兩個(gè)分量的值組成，分別記錄了同一標(biāo)的物至少兩個(gè)方面的特性。

矢量碼中每個(gè)分量的取值范圍至少有兩個(gè)值，本文把這些值稱之為部件。每個(gè)部件都有含義，這些含義就是標(biāo)的物的特性（包括標(biāo)的物的名稱）。因而本文所說(shuō)的矢量碼，還可以說(shuō)成是部件有含義的編碼。

1.矢量碼的組成

仍以二進(jìn)制的盆花編碼為例，這批盆花的矢量碼可由兩個(gè)分量組成。

其中，花色分量的取值范圍為四個(gè)花色部件 00 01 10 11 ，并規(guī)定， 00 的含義是紅色花，01 的含義是黃色花等。盆型分量的取值范圍為四個(gè)盆型部件 00 01 10 11 ，并規(guī)定，00 的含義是圓口盆，01 的含義是方口盆等。

然后規(guī)定兩個(gè)分量的排序，如花色部件在先，盆型部件在后，二者并在一起，就可以形成0000 0001 …… 直至1111，共16個(gè)四位數(shù)的矢量碼。

2.矢量碼改善學(xué)習(xí)性能的原理

由于矢量碼是一種利用有含義的部件，記錄了標(biāo)的物特性的編碼，因而每個(gè)標(biāo)的物對(duì)應(yīng)哪個(gè)編碼，都是由標(biāo)的物的特性確定的。在已知部件含義的基礎(chǔ)上，如果把標(biāo)的物的特性作為知識(shí) A，把該標(biāo)的物對(duì)應(yīng)哪個(gè)編碼作為知識(shí) B，那么 A 與 B 之間有著一舉二得的記憶關(guān)系。

換一種簡(jiǎn)單的說(shuō)法就是，學(xué)習(xí)者借助已有的，關(guān)于標(biāo)的物的特性知識(shí)，能夠把大量的，復(fù)雜編碼的記憶，變成少量的，簡(jiǎn)單部件的記憶。

——為了使問(wèn)題得以簡(jiǎn)化，這里還假設(shè)盆花矢量碼所用的八個(gè)部件都是任意碼，即八個(gè)部件各自對(duì)應(yīng)的含義都是任意規(guī)定的。

參照16種盆花任意碼記憶量的計(jì)算方法，四個(gè)花色部件的記憶量之和為

log2 （ 4﹗） = 4.58（比特）

同理，四個(gè)盆型部件的記憶量之和也為4.58比特。由于四個(gè)花色部件與四個(gè)盆型部件能夠組成16個(gè)矢量碼，平均每個(gè)矢量碼的記憶量為

（4.58+4.58）/ 16 = 0.57（比特）

矢量碼的記憶量少，比任意碼容易學(xué)習(xí)，所用的學(xué)習(xí)時(shí)間也少，這是可以用試驗(yàn)進(jìn)行驗(yàn)證的。

利用“和與積”做比喻

我們知道，當(dāng)兩個(gè)數(shù)足夠大的時(shí)候（例如，各為數(shù)十，或數(shù)百的時(shí)候），兩個(gè)數(shù)的和與積之間，數(shù)量可以有十幾倍，上百倍的差別。

兩個(gè)分量部件數(shù)的和，數(shù)量少，而且部件都是小編碼，因而是容易學(xué)習(xí)的。兩個(gè)分量部件數(shù)的積，數(shù)量多——預(yù)示著矢量碼的數(shù)量多，因而有能力區(qū)分更多的標(biāo)的物。

3.文字中的矢量碼

矢量碼是人類為了適應(yīng)自己的記憶特性而發(fā)明的編碼，矢量碼是本文賦予的新稱謂，但其應(yīng)用歷史卻非常古老，早已在各種文字中層層疊疊地大量使用了。而且，文字系統(tǒng)中有些矢量碼，及其分量還擁有自己的專用名稱。

例如，較小的矢量碼有形聲字，其分量是形旁和聲旁。大些的矢量碼有偏正式合成詞，偏正式詞組，偏正式會(huì)意字（如“塵”），其分量是偏和正。更大的矢量碼是句子，其分量是主語(yǔ)、謂語(yǔ)、賓語(yǔ)等。

另外，漢語(yǔ)拼音或注音字母的音節(jié)也是矢量碼，其分量既可以分為聲母，韻母，也可以分為聲母、介母、韻母。

三、矢量碼的缺點(diǎn)

在一種文字，或一種編碼自身的各項(xiàng)性能之間，往往有此消彼長(zhǎng)的置換關(guān)系。矢量碼有容易學(xué)習(xí)的優(yōu)點(diǎn)，但是矢量碼又有一個(gè)很大的缺點(diǎn)，那就是矢量碼會(huì)變得冗長(zhǎng)，經(jīng)濟(jì)性能會(huì)變得很差。

1.矢量碼的冗長(zhǎng)效應(yīng)

矢量碼之所以變得冗長(zhǎng)，其主要原因是，矢量碼專顧了標(biāo)的物的特性，卻不能兼顧高頻簡(jiǎn)化的原則。

在實(shí)際編碼的過(guò)程中，極端的情況是，往往有大量的矢量碼會(huì)因?yàn)闆](méi)有相應(yīng)特性的標(biāo)的物而被浪費(fèi)了，而其余的編碼為了避免同碼不得不變得更冗長(zhǎng)，我們把這一現(xiàn)象稱之為矢量碼的冗長(zhǎng)效應(yīng)。

矢量碼冗長(zhǎng)效應(yīng)的后果是，用于計(jì)算機(jī)，必然降低輸入速度。如果矢量碼是文字，用于書(shū)寫(xiě)，必然降低書(shū)寫(xiě)速度，用于印刷，則必然占用更多篇幅和紙張，這些都可歸結(jié)為經(jīng)濟(jì)性能變差了。

2.四角號(hào)碼與電報(bào)碼的對(duì)比

矢量碼的冗長(zhǎng)效應(yīng)可以在字典用的四角號(hào)碼，和漢字電報(bào)碼的對(duì)比中反映出來(lái)。四角號(hào)碼與電報(bào)碼一樣，都是由阿拉伯?dāng)?shù)字構(gòu)成的編碼，它們的標(biāo)的物都是漢字。不同的是，四角號(hào)碼是矢量碼，而電報(bào)碼是任意碼。

四角號(hào)碼中的數(shù)字是有含義的，所以每個(gè)編碼都是由漢字四個(gè)角的筆形所確定的。盡管四角號(hào)碼字典已經(jīng)用了五位碼（加了一位小注碼），仍然有大量的漢字重碼。

而電報(bào)碼中的數(shù)字是沒(méi)有含義的，每個(gè)漢字對(duì)應(yīng)哪個(gè)編碼，可以不受漢字筆畫(huà)的限制，是可以任意規(guī)定的，可以不浪費(fèi)任何一個(gè)四位碼。因而在通用漢字范圍內(nèi)，僅需四位碼，就能一一對(duì)應(yīng)出所需的漢字。

結(jié)語(yǔ)

任意碼是一種部件沒(méi)含義的編碼，優(yōu)點(diǎn)是組成簡(jiǎn)短，缺點(diǎn)是學(xué)習(xí)難。

矢量碼是人類為了適應(yīng)自己的記憶特性而發(fā)明的編碼，在借用已有知識(shí)的基礎(chǔ)上，矢量碼能夠顯著地減少記憶量，是一種非常容易學(xué)習(xí)的編碼。

參考文獻(xiàn)

[1]（日）藤田広一 .基礎(chǔ)信息論[M].魏鴻駿等譯.北京：國(guó)防工業(yè)出版社，1982.

[2]（英）W.Ross.Asbby.控制論導(dǎo)論[M].張理京譯.北京：科學(xué)出版社，1965.

作者簡(jiǎn)介：高其海（1946-），男，山東青島人，所學(xué)專業(yè)：工業(yè)企業(yè)電氣化自動(dòng)化專業(yè)。

中文信息2018年2期

中文信息的其它文章: 淺析如何將“以人為本”滲透到黨史黨建工作中; 自然人格的生與逝; 論曹操詩(shī)歌的悲壯美; 淺談中外諺語(yǔ)的差異性及翻譯對(duì)策; 漢語(yǔ)言文學(xué)在網(wǎng)絡(luò)時(shí)代中的經(jīng)典閱讀策略研究; 文藝復(fù)興中的人文主義淺析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

記憶量的定義，矢量碼改善學(xué)習(xí)性能的原理

記憶量的定義，矢量碼改善學(xué)習(xí)性能的原理