摘 要:中文羅馬字拼寫法可以把漢字譯音為羅馬化的拼音。它對(duì)于自然語言處理、文獻(xiàn)工作、語言教學(xué)是非常有用的,已經(jīng)成為人機(jī)交互的重要工具。
關(guān)鍵詞:中文羅馬字母拼寫法 ?拼音 ?文獻(xiàn)工作 ?漢字 ?人機(jī)交互
一、計(jì)算機(jī)對(duì)漢字提出的挑戰(zhàn)
我們正處于信息網(wǎng)絡(luò)時(shí)代,在這個(gè)時(shí)代,信息和網(wǎng)絡(luò)在人類生活中起著越來越大的作用。語言文字是信息最重要的負(fù)荷體,信息網(wǎng)絡(luò)時(shí)代的計(jì)算機(jī)需要處理負(fù)荷信息的語言文字,計(jì)算機(jī)信息處理與語言文字有著密不可分的關(guān)系,然而,漢字難以滿足計(jì)算機(jī)信息處理的需要,僅有60多年歷史的計(jì)算機(jī)向擁有6000多年歷史的漢字發(fā)起了嚴(yán)峻的挑戰(zhàn)。
漢字是一種意音圖形文字(ideophonographic character)。這種意音圖形文字是一種圖形字符,用以表示事物或概念以及與之相關(guān)的語音,具有與僅僅表音的拉丁字母迥然不同的特色。
漢字最顯著的特色是字符繁多,是一個(gè)大字符集(big script set)。
世界上的多數(shù)語言文字的字符所包含的字符數(shù)量都是很有限的。一些語言的字符集中所包含的不同字符數(shù)如下所示:
語言 字符集中包含的字符數(shù)
拉丁語 ? ? ? ? ? ? ? ? ? ? ? 26個(gè)
斯拉夫語 33個(gè)
亞美尼亞語 38個(gè)
塔米爾語 36個(gè)
緬甸語 52個(gè)
泰語 44個(gè)
老撾語 27個(gè)
藏語 33個(gè)
韓國語 24個(gè)
日語 48個(gè)
漢字的數(shù)目比這些語言的字符集中包含的字符多得多。下面是古代和現(xiàn)代漢語的詞典中包含的不同的漢字字符數(shù):
作 ?者 詞典(出版年代) 詞典中包含的不同的漢字字符數(shù)
許 ?慎 《說文解字》(公元100年) 99,353個(gè)
顧野王 《玉篇》(公元543年) 16,917個(gè)
陳彭年 《廣韻》(公元1008年) 26,194個(gè)
丁 ?度 《集韻》(公元1067年) 53,525個(gè)
梅膺祚 《字匯》(公元1615年) 33,179個(gè)
陳廷敬 《康熙字典》(公元1716年) 47,043個(gè)
張其昀 《中文大字典》(公元1971年) 49,888個(gè)
徐中舒 《漢語大字典》(公元1990年) 54,678個(gè)
冷玉龍 《中華字?!罚ü?994年) 85,000個(gè)
在《中華字?!分邪臐h字字符達(dá)到85,000個(gè)之多,不過,其中的一些字符或者沒有意義,或者沒有讀音,只能算是符號(hào)(symbol),而不能算真正的文字(script)。所以,一般來說,漢字的字符數(shù)量大約有60,000多個(gè)。漢字是世界上最大的字符集。
漢字承載著6000多年歷史的中華文化,它是光輝燦爛的中華文化之根,是中華民族的驕傲。然而,由于漢字的字符數(shù)量龐大,難于滿足機(jī)器處理的需要。
歐洲人雷明頓(Remington)很早就發(fā)明了基于拉丁字符的打字機(jī),顯著地提高了文字工作的效率。
為了提高漢字的工作效率,20世紀(jì)以來,有的專家研制了中文打字機(jī)來打漢字,這種中文打字機(jī)與基于拉丁字符的雷明頓打字機(jī)(Remington Typewriter)不同,十分復(fù)雜,非常笨重①。
例如,圖1是美國專家約翰森(Wally Johnson)發(fā)明的中文打字機(jī),這臺(tái)漢字打字機(jī)現(xiàn)在保存在美國堪薩斯大學(xué)東亞圖書館的館員多爾(Vickie Fu Doll)的辦公室里。
圖1:約翰森(Wally Johnson)發(fā)明的中文打字機(jī)
這臺(tái)打字機(jī)的主要部分是一個(gè)鉛字字模盤,盤中可容納大約2000個(gè)高頻漢字的字模。這2000個(gè)漢字對(duì)漢語言文學(xué)寫作或?qū)W術(shù)研究當(dāng)然不夠用,所以約翰森還給這臺(tái)中文打字機(jī)加了一個(gè)補(bǔ)充字模盤,盤中包含一些不太常用的漢字字模,以備需要時(shí)可以檢索使用。如圖2所示。
圖2:中文打字機(jī)的補(bǔ)充字模盤
還有一個(gè)重要的問題是這兩個(gè)字模盤中的漢字怎樣排列。是按照漢字的部首來排列呢?還是按照漢字的筆畫數(shù)來排列?這兩種排列方法都會(huì)導(dǎo)致在同一個(gè)排列號(hào)下包含若干個(gè)漢字,顯然是不可行的。
那么,是否可以按照每個(gè)漢字的出現(xiàn)頻度來排列?可否按照每個(gè)漢字的電報(bào)碼來排列?這兩種排列方法要求打字員有很好的記憶力,實(shí)現(xiàn)起來也很困難。
遺憾的是,約翰森當(dāng)時(shí)沒有想到根據(jù)漢字的讀音來排列的方法,這樣的方法簡(jiǎn)單易行,使用方便,對(duì)用戶友好??墒牵@樣的好方法被約翰森忽略了!
由于約翰森沒有找到排列漢字的好方法,打字時(shí)要費(fèi)心費(fèi)力地在字模盤中尋找適合的漢字,使得他心力交瘁,使用這樣的中文打字機(jī)成為了一件極為艱苦的、不堪重負(fù)的工作。圖3是約翰森使用這臺(tái)中文打字機(jī)工作時(shí)的照片。
圖3:約翰森用中文打字機(jī)打字
圖4是約翰森在中文打字機(jī)前休息時(shí)的照片,他已經(jīng)累得疲憊不堪了。
圖4:約翰森在打字時(shí)作短暫的休息
這些照片生動(dòng)地說明了,使用中文打字機(jī)是一件多么艱苦而勞累的工作!
計(jì)算機(jī)是要由人來操作的,使用計(jì)算機(jī)時(shí),必須進(jìn)行人機(jī)交互(Human-Computer Interaction,簡(jiǎn)稱HCI)。人機(jī)交互要通過鍵盤來實(shí)現(xiàn),顯而易見,上述中文打字機(jī)是不適于用來作為計(jì)算機(jī)的鍵盤從而實(shí)現(xiàn)人機(jī)交互的。
現(xiàn)行的計(jì)算機(jī)直接使用雷明頓打字機(jī)的鍵盤作為計(jì)算機(jī)的鍵盤來實(shí)現(xiàn)人機(jī)交互。計(jì)算機(jī)的雷明頓鍵盤是在拉丁字母的基礎(chǔ)上設(shè)計(jì)的,使用計(jì)算機(jī)來處理基于拉丁字母的語言文字是水到渠成的事情。在信息網(wǎng)絡(luò)時(shí)代,如果在計(jì)算機(jī)人機(jī)交互的時(shí)候,我們直接采用雷明頓鍵盤,使用拉丁字母來表示每一個(gè)漢字的讀音,那么,我們就有可能根據(jù)漢字的讀音在計(jì)算機(jī)上進(jìn)行漢字的輸入和輸出,從而實(shí)現(xiàn)人機(jī)交互。這是一種易于實(shí)現(xiàn)而且對(duì)用戶友好的方法,也是約翰森沒有想到的方法。endprint
中文的羅馬字母拼寫法(Romanization)可以把漢字轉(zhuǎn)換為拉丁字母,實(shí)現(xiàn)文字體系的轉(zhuǎn)換,直接在計(jì)算機(jī)上使用雷明頓鍵盤進(jìn)行漢字的輸入、輸出、傳輸和處理,對(duì)計(jì)算機(jī)人機(jī)交互(HCI)提供了巨大的幫助,解決了約翰森棘手的難題。
下面我們來討論文字體系轉(zhuǎn)換的方法。
二、文字體系轉(zhuǎn)換的兩種方法:轉(zhuǎn)寫和譯音
按照某種文字體系(可以叫作“被轉(zhuǎn)換系統(tǒng)”)書寫的一種語言的詞匯,有時(shí)需要用另一種不同的文字體系(可以叫作“轉(zhuǎn)換系統(tǒng)”)來表示,這個(gè)過程是通過“文字體系轉(zhuǎn)換”來實(shí)現(xiàn)的。文字體系轉(zhuǎn)換中的不同體系通常是指不同語言中所使用的體系。這種文字體系轉(zhuǎn)換常常用于歷史文本、地理文本以及圖表文件,特別是用于圖書編目中。凡屬有必要把使用不同字母所書寫的文字轉(zhuǎn)換成同一種字母(一般是羅馬化的拉丁字母)的文字,以便在書目、目錄(館藏)、索引、地名表等工作中有一個(gè)統(tǒng)一的字母表,便需要進(jìn)行文字體系的轉(zhuǎn)換。這對(duì)于使用不同文字體系的兩個(gè)國家之間文字信息的無歧義傳遞,或轉(zhuǎn)換以不同方式書寫的信息,都是必不可少的。這也使得手工方式以及機(jī)械、電子方式的文字轉(zhuǎn)換成為可能。ISO/TC46一直關(guān)注文字體系轉(zhuǎn)換國際標(biāo)準(zhǔn)的研究和制定工作。
文字體系的轉(zhuǎn)換(conversion)有兩種基本方法:一種是轉(zhuǎn)寫(transliteration),一種是譯音(transcription)。
轉(zhuǎn)寫是將被轉(zhuǎn)換的整個(gè)字母字符系統(tǒng)或字母數(shù)字字符系統(tǒng)中的字符(characters)用轉(zhuǎn)換字母字符系統(tǒng)或轉(zhuǎn)換字母數(shù)字字符系統(tǒng)中的字符來表示。由于轉(zhuǎn)寫是在字母字符系統(tǒng)或在字母數(shù)字字符系統(tǒng)之間進(jìn)行,從原則上來說,這種轉(zhuǎn)換應(yīng)該是字符對(duì)字符的,也就是說,被轉(zhuǎn)換系統(tǒng)的字母表(alphabet)中的每個(gè)字符都用轉(zhuǎn)換字母表中的一個(gè)且僅僅一個(gè)字符來表示,從而保證從轉(zhuǎn)換字母表到被轉(zhuǎn)換字母表的轉(zhuǎn)換可以完全地、無歧義地進(jìn)行逆轉(zhuǎn)。
ISO國際標(biāo)準(zhǔn)規(guī)定:當(dāng)轉(zhuǎn)換系統(tǒng)中的字符數(shù)目少于被轉(zhuǎn)換系統(tǒng)的字符數(shù)目時(shí),需要使用雙字母或附加符號(hào)來補(bǔ)充。在這種情況下,必須盡可能避免隨意的選擇以及使用純約定性的符號(hào),應(yīng)當(dāng)設(shè)法保持一定的語音上的邏輯性,以使這樣的系統(tǒng)具有廣泛的可接受性。
然而,ISO國際標(biāo)準(zhǔn)指出,通過轉(zhuǎn)寫所得到的文字圖形不一定總是能根據(jù)由轉(zhuǎn)換字母表拼寫出來的該語言的語音習(xí)慣正確無誤地讀出來。另外,這樣轉(zhuǎn)寫出來的文字圖形必需能使懂得被轉(zhuǎn)換語言的人準(zhǔn)確無誤地想象出其原來的文字圖形,從而正確地讀出它。
逆轉(zhuǎn)寫(retransliteration)是指把轉(zhuǎn)換字母表中的字符轉(zhuǎn)換成被轉(zhuǎn)換字母表中的字符的過程。逆轉(zhuǎn)寫是轉(zhuǎn)寫的逆過程。在逆轉(zhuǎn)寫時(shí),轉(zhuǎn)寫系統(tǒng)中的規(guī)則被逆向地應(yīng)用,以便把已經(jīng)轉(zhuǎn)寫了的單詞恢復(fù)成其原來的形式。
文字體系的轉(zhuǎn)換的另外一種方法是譯音。
譯音是指用字母(letters)的語音系統(tǒng)或轉(zhuǎn)換語言的符號(hào)(signs)來表示某種語言中的字符(characters),而不論該語言原本的書寫方式如何。
譯音系統(tǒng)必須以轉(zhuǎn)換語言及其字母表的正字法為依據(jù),因此,譯音系統(tǒng)的使用者必須對(duì)轉(zhuǎn)換語言有所了解,并能準(zhǔn)確地讀出其字符。轉(zhuǎn)寫是可以逆轉(zhuǎn)的,而譯音不是嚴(yán)格地可逆轉(zhuǎn)的。
譯音可用來轉(zhuǎn)換所有的書寫系統(tǒng)。它是唯一能夠用來轉(zhuǎn)換如中文、日文這樣的不全使用字母的拼音文字系統(tǒng)及意音圖形文字書寫系統(tǒng)(ideophonographic writing system)的方法。
實(shí)行羅馬化(Romanization)將非拉丁字母書寫的文字系統(tǒng)轉(zhuǎn)換為拉丁字母書寫的系統(tǒng)),可根據(jù)被轉(zhuǎn)換系統(tǒng)的特點(diǎn),或者使用轉(zhuǎn)寫,或者使用譯音,或者把二者結(jié)合起來使用。
ISO國際標(biāo)準(zhǔn)規(guī)定,提出來供國際使用的轉(zhuǎn)換系統(tǒng),必須有所妥協(xié)并在民族習(xí)慣上做某些犧牲。因此,使用這種轉(zhuǎn)換系統(tǒng)的各國團(tuán)體都必須做出某種讓步,并盡力避免在任何場(chǎng)合把僅僅在本民族的實(shí)踐中證明是可行的東西當(dāng)作理所當(dāng)然的辦法強(qiáng)加于人(如各種發(fā)音規(guī)則或正字法規(guī)則等)。但這種讓步顯然并不影響到一個(gè)國家對(duì)于本民族書寫系統(tǒng)的使用。當(dāng)這個(gè)民族書寫系統(tǒng)沒有被轉(zhuǎn)換時(shí),組成它的字符必須按其在該民族文字中的書寫形式予以接受。
如果一個(gè)國家使用兩種書寫系統(tǒng),并可以由其中一種系統(tǒng)單義地轉(zhuǎn)換為另一種系統(tǒng)來書寫自己的語言,這樣的轉(zhuǎn)寫系統(tǒng)理所當(dāng)然地應(yīng)該作為國際標(biāo)準(zhǔn)的基礎(chǔ),只要它和下面闡述的其他原則相符合。
必要時(shí),轉(zhuǎn)換系統(tǒng)應(yīng)賦予每個(gè)字符相應(yīng)的對(duì)等符號(hào),這些字符不僅包括字母,也包括標(biāo)點(diǎn)符號(hào)、數(shù)字等。同時(shí)還應(yīng)考慮組成文本的字符的排列順序,比如文字的書寫方向,還需說明區(qū)分單詞邊界的方法、分隔符號(hào)與大寫字母的用法,并盡可能遵循被轉(zhuǎn)換文字系統(tǒng)的語言習(xí)慣。
ISO國際標(biāo)準(zhǔn)還提出,意音圖形文字的結(jié)構(gòu),表意重于表音。因?yàn)槭褂昧舜罅康淖址ㄖ形挠?0,000多個(gè)漢字),所以不能使用符號(hào)對(duì)符號(hào)的方式進(jìn)行轉(zhuǎn)寫,而需要制定一個(gè)譯音系統(tǒng)。因此每個(gè)字符就可能譯音為一個(gè)或多個(gè)拉丁字母,用以代表該字符的一種或幾種讀音,這就要求譯音者必須熟悉所譯音原文的讀法。
既然意音圖形文字的譯音只是用拉丁字母記錄下各個(gè)字符在使用它們的各個(gè)文字中的讀音,因此,同一字符因其在中文、日文或韓文中出現(xiàn)而有不同的譯音方法。
從另一方面說,同一種語言中的同一字符,必須按同一方式譯音,而不論它的字體形式(中文有簡(jiǎn)體和繁體形式)如何;除非該字符有不止一個(gè)讀音。
由于下列原因,意音文字的羅馬字母拼寫系統(tǒng)是不可逆轉(zhuǎn)的。在兩種不同的文字或同一種文字中,同一字符存在異讀情況;在同一種文字里,同音詞出現(xiàn)的頻度過高;對(duì)于一個(gè)給定文本,可能同時(shí)存在幾種不同的書寫系統(tǒng)。
有些語言甚至在同一文本中使用不止一種字符系統(tǒng)(例如:日文中并用假名和漢字,韓文中并用諺文和漢字),在這種情況下,意音文字的字符的譯音應(yīng)同其他字符(如:諺文和假名)得出一個(gè)一致而協(xié)調(diào)的羅馬字母拼寫系統(tǒng)。endprint
ISO國際標(biāo)準(zhǔn)還提出了關(guān)于正詞法(orthography)的規(guī)定:一般說來,在書面文本中,單詞與單詞之間出現(xiàn)空格是正常的,因此在譯音時(shí),通常應(yīng)當(dāng)把構(gòu)成一個(gè)單詞的若干個(gè)字符連寫在一起,使得單詞與單詞之間出現(xiàn)空格。有關(guān)語言的單詞的構(gòu)成原則和規(guī)則(正詞法),也應(yīng)當(dāng)是國際標(biāo)準(zhǔn)的一部分。
1958年2月11日,中華人民共和國全國人民代表大會(huì)正式通過了漢語拼音方案,用來對(duì)中文進(jìn)行譯音,譯音是根據(jù)漢字在規(guī)范漢語(普通話)中的讀音來進(jìn)行的。
圖5是全國人民代表大會(huì)通過漢語拼音方案時(shí)的照片,從照片中可以看到,周恩來總理、朱德元帥、賀龍?jiān)獛浀戎娜嗣翊矶寂e手贊成漢語拼音方案。
圖5:全國人民代表大會(huì)通過漢語拼音方案
由于漢語拼音方案是建立在羅馬化(Romanization)的譯音原則的基礎(chǔ)之上的,因此,我們也可以把漢語拼音方案中規(guī)定的中文羅馬字母拼寫法叫作“中文羅馬化”(Romanization of Chinese)。
三、國際標(biāo)準(zhǔn)ISO 7098:中文羅馬字母拼寫法
1958年全國人民代表大會(huì)通過的《漢語拼音方案》可以看成是拼寫漢語普通話的國家標(biāo)準(zhǔn)。從此,漢語拼音成為了中國初等教育的內(nèi)容,每一個(gè)學(xué)生都應(yīng)學(xué)習(xí)和掌握《漢語拼音方案》。通過漢語拼音來給漢字注音,大大提高了漢字學(xué)習(xí)效率,有助于學(xué)生進(jìn)一步學(xué)習(xí)文化和科學(xué)技術(shù)。漢語拼音在中國受到普遍的歡迎。
漢語拼音也受到了國外的關(guān)注,有的國家開始使用漢語拼音來進(jìn)行圖書目錄的編寫。漢語拼音有可能成為ISO國際標(biāo)準(zhǔn)化的一項(xiàng)重要工作。
1979年,中國代表周有光在巴黎和華沙的ISO/TC46(國際標(biāo)準(zhǔn)化組織——信息與文獻(xiàn)技術(shù)委員會(huì))第6屆會(huì)議上,提出把《漢語拼音方案》作為國際標(biāo)準(zhǔn)的建議。
圖6:我國代表周有光在ISO/TC46第6屆會(huì)議的中國席上
1982年,在南京召開的ISO/TC46第9屆會(huì)議上,正式通過了《ISO 7098文獻(xiàn)工作——中文羅馬字母拼寫法》(ISO 7098 Information and Documentation-Chinese Romanization)。從此,漢語拼音從中國的國家規(guī)范成為了國際標(biāo)準(zhǔn)。
1991年,在巴黎召開的ISO/TC46第18屆會(huì)議上,對(duì)“ISO 7098”進(jìn)行了技術(shù)修改,成為了《ISO 7098信息與文獻(xiàn)——中文羅馬字母拼寫法(1991)》,簡(jiǎn)稱“ISO 7098(1991)”。
中文羅馬字母拼寫法在ISO國際標(biāo)準(zhǔn)中叫作“中文羅馬化”(Chinese Romanization)。本文中所說的“中文羅馬化”就是指“中文羅馬字母拼寫法”。
上世紀(jì)90年代初修訂ISO 7098的時(shí)候,正是世界進(jìn)入信息網(wǎng)絡(luò)時(shí)代的關(guān)鍵時(shí)刻。為了適應(yīng)信息網(wǎng)絡(luò)時(shí)代的要求,中國開始研制計(jì)算機(jī)漢字輸入輸出。使用ISO 7098(1991)規(guī)定的譯音方法,可以通過拼音—漢字轉(zhuǎn)換在計(jì)算機(jī)上輸入輸出漢字,從而實(shí)現(xiàn)人機(jī)交互。由于漢語拼音是中國初等教育必不可少的內(nèi)容,每一個(gè)受過教育的中國人都會(huì)使用拼音,這樣,ISO 7098(1991)就成為了漢字輸入輸出的一種便捷的手段。在移動(dòng)通信中,也可以使用漢語拼音在手機(jī)上輸入漢字,實(shí)現(xiàn)手機(jī)上的人機(jī)交互,推動(dòng)了手機(jī)在中國的普及。
ISO 7098(1991)在世界上大多數(shù)圖書館的中文編目、檢索、分類中得到廣泛使用。美國國會(huì)圖書館(Library of Congress)在20世紀(jì)末,使用ISO 7098(1991)對(duì)該圖書館的7萬冊(cè)中文圖書的目錄重新進(jìn)行了漢語拼音的編目,方便讀者使用漢語拼音對(duì)圖書進(jìn)行檢索,提高了工作效率。
法國巴黎的語言和文化大學(xué)圖書館(Bibliothèque universitaire des langues et civilisations)組織懂得漢語的圖書館專家,其中包括法國國家圖書館(Bibliothèque Nationale de France)的專家,集中研究在ISO 7098(1991)中漢語單詞的拼音連寫問題,試圖在圖書館的編目中建立起有效的漢語拼音按詞連寫指南。此外,澳大利亞國家圖書館和德國特里爾大學(xué)圖書館也使用ISO 7098(1991)對(duì)該圖書館的中文圖書編目進(jìn)行了羅馬化。
ISO 7098(1991)還在漢語國際教學(xué)中得到普遍的使用。外國學(xué)生在學(xué)習(xí)漢語時(shí),都喜歡首先學(xué)習(xí)拼音,通過拼音進(jìn)一步學(xué)習(xí)漢字,從而提高了漢語學(xué)習(xí)效率。
所以,ISO 7098(1991)不僅在中國發(fā)揮了巨大的作用,在全世界也發(fā)揮了很好的作用,這說明ISO 7098(1991)具有重大的國際影響,是一個(gè)受到全世界歡迎的國際標(biāo)準(zhǔn)。
普通話是中國各民族的通用語言,也是聯(lián)合國的工作語言之一。中文羅馬化對(duì)于全世界的信息與文獻(xiàn)工作具有重要的意義,為了滿足當(dāng)前國內(nèi)外對(duì)漢語拼音實(shí)際應(yīng)用的迫切需要,我們有必要修改ISO 7098 (1991)。
2011年5月6日,ISO/TC46第38屆全體會(huì)議在澳大利亞悉尼召開,受國家教育部的派遣,我國代表馮志偉在會(huì)議上提出了修改ISO 7098(1991)以便反映當(dāng)前中文羅馬化的新發(fā)展和實(shí)際應(yīng)用需要的建議。
圖7:我國代表馮志偉在ISO/TC 46第38屆會(huì)議的中國席上
馮志偉在ISO/TC46第38屆會(huì)議的發(fā)言中提出:我們需要進(jìn)一步細(xì)致地描述拼音的規(guī)則,需要增加人名和地名的拼音連寫規(guī)則,需要進(jìn)一步描寫中文拼音的大寫字母規(guī)則,需要更新ISO 7098(1991)中的詞典清單,代之以更加具有權(quán)威性和更加完善的新的詞典清單。馮志偉在發(fā)言中還指出:ISO 7098(1991)的修改有很大的空間,我們必須進(jìn)一步更新ISO 7098(1991),使之不僅能反映中文羅馬化在中國的發(fā)展情況,還能反映中文羅馬化在全世界范圍的發(fā)展情況。endprint
會(huì)后,我國國家標(biāo)準(zhǔn)化委員會(huì)(SAC)正式向ISO國際標(biāo)準(zhǔn)化組織提出了修訂ISO 7098的新工作項(xiàng)目(New Working Item Proposal,簡(jiǎn)稱NWIP)的提案,這個(gè)提案的國際編號(hào)是:N2358。
2012年5月6日至11日,ISO/TC46第39屆會(huì)議在德國柏林舉行,我國代表馮志偉出席了這次會(huì)議。會(huì)議接受了我國的N2358號(hào)提案,并將這個(gè)提案直接作為ISO 7098的工作草案(Working Draft,簡(jiǎn)稱WD),成立了ISO 7098國際修訂工作組,由中國、德國、美國、俄羅斯、加拿大五國派出的專家組成,馮志偉被任命為國際修訂工作組組長(zhǎng)。這樣,ISO 7098的修訂便正式列入了國際標(biāo)準(zhǔn)化組織的工作日程。
2013年6月3日至7日在法國巴黎召開ISO/TC46第40屆會(huì)議,我國代表馮志偉出席了這次會(huì)議,并在會(huì)議上正式向ISO/TC46秘書處提交了ISO 7098的委員會(huì)草案(Committee Draft,簡(jiǎn)稱CD)。
ISO/TC46接受了我國的CD稿,并在2013年7月5日至 2013年11月5日4個(gè)月內(nèi)在各成員國中進(jìn)行了投票。2013年11月,ISO/TC46秘書處N2452號(hào)文件公布了投票結(jié)果:投贊成票的國家21個(gè),投反對(duì)票的國家1個(gè)。由于這個(gè)CD稿得到大多數(shù)國家的支持,獲得通過。
2014年5月5日至9日,我國代表馮志偉到美國華盛頓參加了的ISO/TC 46第41屆會(huì)議。馮志偉在5月7日上午舉行的第三工作組(WG3)會(huì)議上,就ISO 7098的修訂問題重申中國的立場(chǎng)。會(huì)后,馮志偉向ISO/TC46秘書處提交了ISO 7098的國際標(biāo)準(zhǔn)草案(Draft of International Standard,簡(jiǎn)稱DIS)。
ISO/TC46秘書處接受了我們提交的DIS稿,并于2014年12月1日至2015年3月1日3個(gè)月內(nèi)進(jìn)行投票,根據(jù)ISO的規(guī)定,DIS投票在計(jì)算比例時(shí),不考慮棄權(quán)票。2015年3月1日由ISO/TC46委員會(huì)秘書處N2519號(hào)文件公布了投票結(jié)果:在18個(gè)沒有棄權(quán)的國家中,17票贊成,占94%,大于ISO規(guī)定的66.66%的比例,1票反對(duì),占6%,小于ISO規(guī)定的25%的比例,DIS獲得通過。
美國、加拿大、德國對(duì)于ISO 7098的CD和DIS提出了很好的意見,我們對(duì)于這些國家的專家們表示衷心的感謝。目前,我們正在根據(jù)各國的意見對(duì)于DIS稿進(jìn)行修改,不久我們將向ISO/TC46秘書處提交DIS的修改稿。
在CD和DIS的投票中,各國提出的意見主要集中在漢語拼音是否有必要按詞連寫的問題上。這個(gè)問題確實(shí)是非常重要的,它應(yīng)當(dāng)成為ISO 7098(1991)修訂的主要內(nèi)容。
下面討論漢語拼音按詞連寫的問題。
四、按詞連寫的必要性
漢語中大多數(shù)的常用詞都是多音節(jié)詞。在國際文獻(xiàn)和信息工作中,把單音節(jié)的拼音連寫為多音節(jié)的漢語單詞是理所當(dāng)然的事情。
在中世紀(jì)之前,希臘人和羅馬人已經(jīng)知道什么是一個(gè)單詞,盡管當(dāng)時(shí)文本中在相鄰的單詞之間沒有空白,但是他們?nèi)匀豢梢宰R(shí)別出單詞,進(jìn)而了解文本的內(nèi)容。
根據(jù)斯坦(Knight Stan)在《羅馬字母表》(The Roman Alphabet)②中的記載,公元7世紀(jì),愛爾蘭的僧侶開始使用空白來分隔文本中的單詞,并且把這種方法介紹到法國。到了公元8世紀(jì)和9世紀(jì),這種使用空白分隔單詞的方法在整個(gè)歐洲流行開來。
空白的使用意味著承認(rèn)單詞這個(gè)概念,在單詞與單詞之間插入空白成為了在書面上使用字母的語言的一個(gè)不成文的標(biāo)準(zhǔn),世界上的出版界和圖書館都遵循這個(gè)標(biāo)準(zhǔn)。
《漢語拼音正詞法基本規(guī)則》(GB/T16159-2012,中華人民共和國家標(biāo)準(zhǔn),2012)中包括了音節(jié)分割或連接成單詞的規(guī)則,常用詞(名詞、動(dòng)詞、形容詞、代詞等)的拼寫規(guī)則,固定短語的拼寫規(guī)則,人名和地名的拼寫規(guī)則,聲調(diào)的表示規(guī)則,在行末尾的連字符使用規(guī)則,等等。這個(gè)標(biāo)準(zhǔn)是在拼音時(shí)按詞連寫的重要依據(jù)。
目前,在漢語語言學(xué)中,對(duì)于漢語的“詞”還沒有公認(rèn)的明確定義,這樣有時(shí)就很難確定漢語普通單詞的邊界(切分線),當(dāng)把單個(gè)的音節(jié)連接起來構(gòu)成多音節(jié)的單詞時(shí),常常會(huì)出現(xiàn)舉棋不定、劃水難分的尷尬局面。不過,漢語的專有名詞中,單詞的界限還是相對(duì)清楚的,由于漢語中多音節(jié)的命名實(shí)體的界限根據(jù)有關(guān)的規(guī)范和標(biāo)準(zhǔn)比較容易確定,因此,把不同的幾個(gè)單音節(jié)連接起來構(gòu)成多音節(jié)的專有名詞就不是很困難的事情。人名、地名、語言名、民族名、宗教名等專有名詞,可以統(tǒng)一地叫作“命名實(shí)體”(naming entity),在目前的技術(shù)條件下,我們可以先實(shí)現(xiàn)命名實(shí)體的按詞連寫,其他非命名實(shí)體的單詞的按詞連寫可以暫時(shí)不做。在國際文獻(xiàn)和信息工作中,首先把不同的漢語拼音單音節(jié)連接起來構(gòu)成多音節(jié)的命名實(shí)體,從而避免拼音的歧義,不僅是必要的,而且也是可能的。
在ISO國際標(biāo)準(zhǔn)的文獻(xiàn)中,早已關(guān)注到“按詞連寫”的問題。
在國際標(biāo)準(zhǔn)“語言資源管理——書面文本的單詞切分”(ISO 24614-1:201)中論述了如下有關(guān)按詞連寫的問題。
在與語言有關(guān)的科學(xué)研究和工業(yè)生產(chǎn)中,“詞”是一個(gè)基本的和必要的概念,因此我們有必要對(duì)于“詞”這個(gè)概念加以統(tǒng)一的界說。然而,人們很難簡(jiǎn)單地使用基于空白和標(biāo)點(diǎn)符號(hào)之類的規(guī)則來決定單詞之間的界限。這樣的規(guī)則沒有考慮到復(fù)合詞、縮寫詞、慣用語之類的切分問題。單詞的切分對(duì)于單詞與單詞之間沒有空白分開的語言(如:漢語、日語)更加麻煩。
在自然語言處理(Natural Language Processing)中,單詞切分就是把文本切分為負(fù)載意義的語言單位的過程。例如:在英語中,“the white house”可以切分為3個(gè)有意義的單位“the”“white”和“house”,它表示一間白色的房子,而“the White House”則只與一個(gè)語言單位相對(duì)應(yīng),它表示美國總統(tǒng)的官邸。這樣的有意義的單位叫作單詞的切分單位(Word Segmentation Units,簡(jiǎn)稱WSU)。對(duì)于單詞之間有空白的語言,如英語,把文本切分WSU時(shí),只要使用空白作為基礎(chǔ),確定WSU切分的邊界就行了,是簡(jiǎn)單易行的。但是,對(duì)于單詞之間沒有空白的語言,如:漢語和日語,或者對(duì)于那些只在局部的單詞之間有空白的語言,如泰語和韓國語,把書面文本切分為WSU要求使用不同的方法。endprint
在很多應(yīng)用領(lǐng)域中,需要把文本切分為單詞。在翻譯中,數(shù)出單詞的個(gè)數(shù)是計(jì)算翻譯工作成本的主要方法。在翻譯記憶系統(tǒng)和機(jī)器輔助翻譯(Computer-Assisted Translation,簡(jiǎn)稱CAT)的工具中,單詞切分是這些系統(tǒng)的一個(gè)主要的功能。在術(shù)語抽取工具中,單詞切分也起著重要的作用,在術(shù)語管理和CAT工具中,有時(shí)也要提供單詞切分的功能。大多數(shù)的內(nèi)容管理系統(tǒng)和數(shù)據(jù)庫都要根據(jù)單詞來進(jìn)行搜索。在內(nèi)容搜索時(shí),也要對(duì)文本進(jìn)行切分,以便使用搜索詞進(jìn)行匹配。此外,搜索功能要求關(guān)于單詞邊界的知識(shí),文本-語音轉(zhuǎn)換系統(tǒng)要在單詞的基礎(chǔ)上來生成語音,因此要求在單詞查詢時(shí)進(jìn)行單詞切分,等等。各種自然語言處理系統(tǒng)必須把文本切分為單詞才能實(shí)現(xiàn)其功能。詞典資源是根據(jù)它的規(guī)模來評(píng)測(cè)的,因而通常都要評(píng)估它的單詞個(gè)數(shù)。
國際標(biāo)準(zhǔn)化組織已經(jīng)公布了兩個(gè)關(guān)于書面文本的單詞切分的國際標(biāo)準(zhǔn):
ISO 24614-1:201“語言資源管理——文本的單詞切分——第1部分:基本概念和一般原則”給出了自然語言處理中單詞切分的基本概念和一般原則,提出了以可以信賴而且能夠復(fù)用的方式進(jìn)行書面文本自動(dòng)切分的導(dǎo)則,而且這種導(dǎo)則是獨(dú)立于語言的。
ISO 24614-1:201“語言資源管理——書面文本的單詞切分–第2部分:漢語、日語和韓國語的單詞切分”提出了漢語,日語和韓國語中切分WSU的具體規(guī)則。其中有些規(guī)則是這三種語言共同的,盡管每種語言都有自己判別WSU的特殊規(guī)則。
在中文羅馬字母拼寫法的研制中,我們有必要關(guān)注這些國際標(biāo)準(zhǔn)。
這些國際標(biāo)準(zhǔn)是我們書面文本自動(dòng)切分的重要依據(jù),也是中文羅馬字母拼寫法按詞連寫的重要參考。
五、漢語拼音音節(jié)的歧義指數(shù)
為了在國際標(biāo)準(zhǔn)中,進(jìn)一步從理論上說明中文羅馬字母拼寫法中按詞連寫的必要性和科學(xué)性,馮志偉提出了漢語拼音音節(jié)的“歧義指數(shù)”(ambiguity index)的概念。
如果不計(jì)聲調(diào),基本的漢語音節(jié)只有405個(gè),這405個(gè)漢語音節(jié)可以表示全部漢字的讀音。而《通用規(guī)范漢字表》包含了8105個(gè)通用漢字,在這種情況下,在一般使用中,一個(gè)漢語音節(jié)平均要表示20個(gè)以上的漢字(8,105/405=20.01),不可避免會(huì)出現(xiàn)歧義。
(1)在《通用規(guī)范漢字表》中,拼音音節(jié)/bei/可以表示如下31個(gè)漢字:
北 杯 卑 背 椑 悲 碑 鵯 貝 孛 邶 狽 備 鋇 倍 悖 被 琲 棓 輩 憊 焙 蓓 碚 鞁 褙 糒 鞴 鐾 唄 臂
(2)在《通用規(guī)范漢字表》中,拼音音節(jié)/jing/可以表示如下49個(gè)漢字:
京 莖 涇 經(jīng) 猄 荊 菁 旌 驚 晶 腈 ? 睛 粳 兢 精 鯨 麖 鼱 井 阱 汫 剄 肼 頸 景 儆 憬 璥 璟 警 勁 徑 凈 逕 脛 倞 痙 競(jìng) 竟 竫 婧 靚 敬 靖 靜 境 獍 鏡
這意味著,在表示漢字的時(shí)候,漢語拼音音節(jié)是存在歧義性的。
我們使用“拼音音節(jié)的歧義指數(shù)”這個(gè)概念來描述拼音音節(jié)的歧義。歧義指數(shù)是漢語拼音音節(jié)的歧義程度的數(shù)學(xué)描述。
漢語拼音音節(jié)的歧義指數(shù)(I)等于該拼音音節(jié)可以表示的語言單位數(shù)(N)減1。計(jì)算公式如下:
I=N-1
這里所說的“語言單位”可以是單音節(jié)的漢字,也可以是單音節(jié)或多音節(jié)的單詞。
這個(gè)公式說明,如果拼音音節(jié)可以表示N個(gè)語言單位,那么,它的歧義指數(shù)等于“N-1”。
如果拼音音節(jié)可以表示一個(gè)語言單位,那么它的歧義指數(shù)為零。
如果拼音音節(jié)可以表示兩個(gè)語言單位,那么,它的歧義指數(shù)為:2-1=1。
如果拼音音節(jié)可以表示三個(gè)語言單位,那么,它的歧義指數(shù)為:3-1=2,等等。
在例(1)中,拼音音節(jié)/bei/可以表示31個(gè)漢字,也就是31個(gè)語言單位,它的歧義指數(shù)為:31-1=30;在例(2)中,拼音音節(jié)/jing/可以表示49個(gè)漢字,也就是49個(gè)語言單位,它的歧義指數(shù)為:49-1=48。
但是,如果把單音節(jié)/bei/和單音節(jié)/jing/結(jié)合形成一個(gè)雙音節(jié)的單詞/beijing/,其歧義指數(shù)將明顯地減少,因?yàn)?beijing/只能表示三個(gè)雙音節(jié)的語言單位,也就是三個(gè)單詞:北京,背景,背靜。其歧義指數(shù)減少為:3-1=2。
如果把/beijing/的第一個(gè)字母進(jìn)一步大寫為/Beijing/,那么,其歧義指數(shù)將減少到零:1-1=0。這說明,/Beijing/是一個(gè)沒有歧義的語言單位,它的意思只有1個(gè),這就是中國首都的名稱:北京。
因此,如果把不同的單音節(jié)的拼音音節(jié)連接成多音節(jié)的漢語單詞,那么,拼音音節(jié)的歧義指數(shù)將明顯地減少。這是把不同的單音節(jié)連接成為多音節(jié)的漢語單詞的優(yōu)越之處。
六、命名實(shí)體自動(dòng)譯音的方法
在計(jì)算機(jī)輔助文獻(xiàn)工作中進(jìn)行人機(jī)交互的時(shí)候,有兩種對(duì)命名實(shí)體自動(dòng)譯音的方法:一種是按音節(jié)全自動(dòng)譯音,一種是基于規(guī)則的按單詞半自動(dòng)譯音。
(一)按音節(jié)全自動(dòng)譯音
全自動(dòng)譯音程序能夠自動(dòng)地生成彼此之間由空白分開的單個(gè)音節(jié)。這樣的方法適用于任何的應(yīng)用系統(tǒng)和環(huán)境,其中音節(jié)切分的結(jié)果都會(huì)是令人滿意的,這種全自動(dòng)譯音程序特別適用于那些把拉丁字母的譯音與原來漢字存儲(chǔ)在一起的系統(tǒng)。
使用這樣的方法,“北京市”這個(gè)地名可以全自動(dòng)地譯音為/bei//jing/和/shi/3個(gè)音節(jié)。譯音的過程如下:
a.北京市
b.bei jing shi
這種全自動(dòng)的方法是很容易用計(jì)算機(jī)程序來實(shí)現(xiàn)的,但是譯音出來的音節(jié)的歧義指數(shù)較高。
(二)基于規(guī)則的按單詞半自動(dòng)譯音
在中文羅馬字母拼寫中,應(yīng)當(dāng)把由漢字表示的命名實(shí)體譯音為拼音表示的單詞。在漢語中,一個(gè)單詞可以由一個(gè)或多個(gè)音節(jié)組成,單詞之間的界限不是那么清楚,在目前的技術(shù)條件下,全自動(dòng)的單詞切分難以達(dá)到很好的質(zhì)量,因此,可以采用基于規(guī)則的按單詞半自動(dòng)譯音的方法。endprint
命名實(shí)體基于規(guī)則的按單詞半自動(dòng)譯音可以使用如下的資源:
①一套譯音規(guī)則:在國際標(biāo)準(zhǔn)ISO 7098的規(guī)則中提出了命名實(shí)體譯音的一般規(guī)則。這些規(guī)則可以用作命名實(shí)體半自動(dòng)譯音的資源。
②一個(gè)相關(guān)的譯音詞典:最近在中國出版的《漢語拼音詞匯(專名部分)》包含了大多數(shù)的命名實(shí)體的拼音譯音,可以用作命名實(shí)體半自動(dòng)譯音的另一個(gè)資源。
使用這樣的方法,“北京市”這個(gè)地名的譯音過程如下:
a.北京市
b.bei jing shi
c.beijing shi
d.Beijing shi
e.Beijing Shi
根據(jù)規(guī)則,地名“北京市”首先被切分為/bei/,/jing/和/shi/三個(gè)音節(jié),然后把/bei/,/jing/結(jié)合成/beijing/,使它與行政區(qū)劃名/shi/分開,最后再把每一個(gè)部分的首字母大寫,譯音為/Beijing Shi/。
如果在按詞譯音過程中出現(xiàn)歧義或問題,后編輯人員可以根據(jù)譯音詞典,使用人機(jī)交互找出合適的命名實(shí)體的譯音。所以,這樣的方法是半自動(dòng)的。
這種半自動(dòng)方法的譯音質(zhì)量很高,音節(jié)的歧義指數(shù)較小甚至可以減少到零。
在文獻(xiàn)和信息處理中,當(dāng)把漢字文本轉(zhuǎn)換成拼音文本時(shí),如果采用按詞連寫的方法,可以大大地提高人機(jī)交互的效果。中文羅馬字母拼寫法在人機(jī)交互中將會(huì)發(fā)揮越來越大的作用。
本文為作者于2015年6月2日在國際標(biāo)準(zhǔn)化組織ISO/TC46第42屆全體會(huì)議上的大會(huì)主題報(bào)告。原文為英文,這里翻譯成中文發(fā)表。
注釋:
①Victor Mair,Chinese typewrite,Language Log,June 30,
2009.
②Knight Stan,The Roman Alphabet,In Daniels,Peter T.
Bright William,The Worlds Writing Systems,Oxford University Press,1996.
參考文獻(xiàn):
[1]ALA-LC Romanization,Chinese,Rules of Application,
http://www.loc.gov/catdir/cpso/romanization/chinese.pdf.
[2]ISO 3602:1989 Documentation——Romanization of
Japanese(kana script),1989.
[3]ISO/TR 11941:1996 Information and documentation——
Transliteration of Korean script into Latin characters, 1996.
[4]Library of Congress,Pinyin Conversion Project,New
Chinese Romanization Guidelines,http://www.loc.gov/catdir/pinyin/romcover.html,1998.
[5]Zhiwei Feng,Chinese Romanization and Its Application
in HCI,Human-Computer Interaction,Advanced Interaction Modalities and Techniques,Proceedings of 16th International Conference HCI International,Part II,Lecture Notes in Computer Science(LNCS),Springer,2014:406-416.
[6]馮志偉.關(guān)于修訂中文羅馬字母拼寫法國際標(biāo)準(zhǔn)ISO 7098
(1991)的情況說明[J].北華大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2013,(3).
(馮志偉 ?浙江杭州 杭州師范大學(xué)外語學(xué)院 ?311121;遼寧大連 大連海事大學(xué) ?116026)endprint