国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文音譯規(guī)范化的自動(dòng)實(shí)現(xiàn)

2017-01-23 11:54張霄軍
中國(guó)科技術(shù)語(yǔ) 2016年6期

張霄軍

摘要:為了順應(yīng)漢語(yǔ)規(guī)范化的基本國(guó)策和漢語(yǔ)國(guó)際推廣的實(shí)際需求,不僅要在現(xiàn)在和將來(lái)的翻譯工作中將人名、地名等中文翻譯成規(guī)范的漢語(yǔ)拼音,還要將以前用舊方案翻譯的相應(yīng)名稱轉(zhuǎn)寫成漢語(yǔ)拼音。本文根據(jù)威妥瑪式拼寫法與漢語(yǔ)拼音拼寫法的對(duì)應(yīng)關(guān)系,總結(jié)了自動(dòng)轉(zhuǎn)寫的轉(zhuǎn)寫規(guī)則,開發(fā)了基于規(guī)則的威妥瑪式拼音自動(dòng)轉(zhuǎn)寫為漢語(yǔ)拼音的軟件WG2PY,并自動(dòng)轉(zhuǎn)寫了林語(yǔ)堂翻譯的《浮生六記》中的譯音字,取得了很高的正確率,實(shí)驗(yàn)數(shù)據(jù)也具有一定的覆蓋率。

關(guān)鍵詞:中文音譯,《漢語(yǔ)拼音方案》,自動(dòng)轉(zhuǎn)寫,威妥瑪-翟里斯式,WG2PY

中圖分類號(hào):H083;H125.19;H125.2;H159文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.3969/j.issn.1673-8578.2016.06.003

Abstract: In order to meet the requirement of broadcast Chinese, people often need to translate the present Chinese personal names, place names and other proper names into other languages in Pinyin style, and also, to rewrite names translated in other styles in the past to Pinyin. This paper summaries the rewriting rules according to the respective relationship between WG and PY, designs a rule based software named WG2PY to rewrite the WG names in novel Six Chapters of A Floating Life into PY ones.

Keywords: Chinese transliteration,Chinese Pinyin Plan,autorewriting,WG,WG2PY

一背景介紹

在1982年國(guó)際標(biāo)準(zhǔn)化組織(ISO)決定采用《漢語(yǔ)拼音方案》作為國(guó)際標(biāo)準(zhǔn)的漢語(yǔ)羅馬字母拼寫法之前,在國(guó)內(nèi)外的翻譯、通信、交通諸領(lǐng)域,漢語(yǔ)人名英譯采用的舊的羅馬字母拼寫法很不統(tǒng)一,比較流行的有威妥瑪式、國(guó)語(yǔ)羅馬字、拉丁化新文字等[1]。為了順應(yīng)漢語(yǔ)規(guī)范化的基本國(guó)策和專名音譯的大趨勢(shì),不僅要在現(xiàn)在和將來(lái)的漢–英翻譯工作中將漢語(yǔ)人名翻譯成規(guī)范的漢語(yǔ)拼音,還要將以前用舊方案翻譯的人名轉(zhuǎn)寫成漢語(yǔ)拼音。但人工轉(zhuǎn)寫往往費(fèi)時(shí)費(fèi)力且很容易出錯(cuò),轉(zhuǎn)寫的差錯(cuò)造成翻譯質(zhì)量低下的例子屢見不鮮。

此外,由于歷史原因,香港和澳門地區(qū)的新語(yǔ)文政策也剛推行不久,本地人對(duì)《漢語(yǔ)拼音方案》的認(rèn)同還不一致,中文音譯時(shí)并沒(méi)有完全按照《漢語(yǔ)拼音方案》。臺(tái)灣地區(qū)由于眾所周知的原因,不同于大陸一套漢語(yǔ)拼音走天下,存在著多種拼音系統(tǒng)[2],其中文音譯的不一致現(xiàn)象和混亂程度也就可想而知了。

然而,中文譯音的漢語(yǔ)拼音化的基本國(guó)策是既定的,這個(gè)趨勢(shì)誰(shuí)也逆轉(zhuǎn)不了。事實(shí)上,1958年,中國(guó)第一屆全國(guó)人民代表大會(huì)通過(guò)《漢語(yǔ)拼音方案》后不久,國(guó)際標(biāo)準(zhǔn)化組織就已經(jīng)決定首先在地名音譯上采用《漢語(yǔ)拼音方案》[3]。之后,1979年6月15日聯(lián)合國(guó)秘書處發(fā)出通知,以“漢語(yǔ)拼音”的拼法作為各種拉丁字母文字中轉(zhuǎn)寫中國(guó)人名和地名的國(guó)際標(biāo)準(zhǔn)[4]。到了1982年,國(guó)際標(biāo)準(zhǔn)化組織決定采用《漢語(yǔ)拼音方案》作為漢語(yǔ)羅馬字母拼寫法的國(guó)際標(biāo)準(zhǔn)。然而,由于各種原因,世界各國(guó)對(duì)此反應(yīng)不一。法國(guó)等歐洲國(guó)家率先響應(yīng),各國(guó)的出版物和圖書館很快就采用了漢語(yǔ)拼音。但是美國(guó)遲遲沒(méi)有采用,直到1998年,美國(guó)國(guó)會(huì)圖書館才決定改用拼音,并準(zhǔn)備以三年時(shí)間,花費(fèi)幾千萬(wàn)美元,把館藏70萬(wàn)部中文圖書的目錄全部改成拼音[5]。近年來(lái),隨著漢語(yǔ)國(guó)際推廣力度的增加、各國(guó)孔子學(xué)院的設(shè)立以及語(yǔ)言信息標(biāo)準(zhǔn)化的需要,漢語(yǔ)拼音的作用越來(lái)越明顯。因此,對(duì)于歷史所遺留的非漢語(yǔ)拼音式的中文音譯羅馬字母拼寫式,都存在一個(gè)轉(zhuǎn)寫的問(wèn)題。然而,誠(chéng)如前面所述,人工轉(zhuǎn)寫往往費(fèi)時(shí)費(fèi)力且很容易出錯(cuò)。

本文根據(jù)威妥瑪-翟里斯?jié)h字標(biāo)音體系(WG,見下文)與漢語(yǔ)拼音漢字標(biāo)音體系(PY,見下文)的對(duì)應(yīng)關(guān)系,總結(jié)了自動(dòng)轉(zhuǎn)寫的轉(zhuǎn)寫規(guī)則,開發(fā)了基于規(guī)則的威妥瑪式拼音自動(dòng)轉(zhuǎn)寫為漢語(yǔ)拼音的軟件WG2PY,并自動(dòng)轉(zhuǎn)寫了林語(yǔ)堂翻譯的《浮生六記》(Six Chapters of A Floating Life)[6]中的譯音字,取得了很高的正確率,實(shí)驗(yàn)數(shù)據(jù)也具有一定的覆蓋率。

二自動(dòng)轉(zhuǎn)寫實(shí)現(xiàn)

1.定義

拼音字——一組以某種漢字標(biāo)音體系中的音素為標(biāo)準(zhǔn)而組成的音素序列(音節(jié))。如hsin為威妥瑪-翟里斯標(biāo)音體系中的一個(gè)拼音字;xin為漢語(yǔ)拼音標(biāo)音體系中的一個(gè)拼音字。

拼音詞——一組以某種漢字標(biāo)音體系中的音節(jié)為標(biāo)準(zhǔn)而組成的詞級(jí)音素序列。如chünfangpu為威妥瑪-翟里斯標(biāo)音體系中的一個(gè)拼音詞;qunfangpu(“群芳譜”)為漢語(yǔ)拼音標(biāo)音體系中的一個(gè)拼音詞。

WG——威妥瑪-翟里斯?jié)h字標(biāo)音體系。指以英國(guó)人威妥瑪(T. F. Wade)所創(chuàng)建的漢字標(biāo)音體系為基礎(chǔ)后經(jīng)翟里斯(Giles)修訂的漢字標(biāo)音體系,用該體系標(biāo)音的拼音字和拼音詞常見于1979年前出版的各種中文典籍英譯著作或者未采用漢語(yǔ)拼音方案的外國(guó)人所寫的英文著述,用以音譯中國(guó)人名、地名、機(jī)構(gòu)名等中的漢字。

PY——漢語(yǔ)拼音漢字標(biāo)音體系。指以漢語(yǔ)拼音方案為藍(lán)本的漢字標(biāo)音體系,用該體系標(biāo)音的拼音字和拼音詞常見于1979年后出版的各種中文典籍英譯著作或者已采用漢語(yǔ)拼音方案的外國(guó)人所寫的英文著述,用以音譯中國(guó)人名、地名、機(jī)構(gòu)名等中的漢字。

同音字——WG中不同音節(jié)對(duì)應(yīng)相同PY中某一音節(jié)的拼音字互稱“同音字”,如WG中che對(duì)應(yīng)于PY中的zhe,WG中的cheh也對(duì)應(yīng)于PY中的zhe,則che和cheh互稱同音字。

2. 自動(dòng)轉(zhuǎn)寫軟件WG2PY

功能:將威妥瑪-翟里斯?jié)h字標(biāo)音體系的拼音字自動(dòng)轉(zhuǎn)寫為漢語(yǔ)拼音漢字標(biāo)音體系的拼音字。

處理模塊及算法:程序由切字處理、轉(zhuǎn)寫處理和后處理(輸出)三個(gè)模塊構(gòu)成。

切字處理模塊:從給定的拼音詞中根據(jù)“WG2PY拼音字切字底表” 采用正向最大匹配法切分出正確的拼音字(包括連字符處理、所有格撇號(hào)處理等)。流程為:(1)輸入一個(gè)待轉(zhuǎn)換的WG串S1,和已轉(zhuǎn)換的PY串S2;(2)如果S1為空串,轉(zhuǎn)6;(3)從S1的左邊復(fù)制一個(gè)子串W作為候選詞,W盡可能長(zhǎng),但長(zhǎng)度不超過(guò)Max_WG(設(shè)定為10);(4)如果在切字底表中找到W,則將W轉(zhuǎn)換為相應(yīng)的拼音串,并將其加到S2的右邊。并且從S1的左邊去掉W,轉(zhuǎn)(2);(5)去掉W中最后一個(gè)WG串,轉(zhuǎn)(4);(6)結(jié)束。

轉(zhuǎn)寫處理模塊:根據(jù)基礎(chǔ)規(guī)則、轉(zhuǎn)寫規(guī)則和補(bǔ)充規(guī)則對(duì)切好的拼音字進(jìn)行轉(zhuǎn)寫,基礎(chǔ)規(guī)則見“WG2PY基礎(chǔ)規(guī)則庫(kù)”,轉(zhuǎn)寫規(guī)則見“WG2PY轉(zhuǎn)寫規(guī)則庫(kù)”,補(bǔ)充規(guī)則見“WG2PY補(bǔ)充規(guī)則庫(kù)”。

后處理(輸出)模塊:包括大小寫、連字符、撇號(hào)的處理等。具體如下:(1)大小寫的轉(zhuǎn)寫規(guī)則:如果一個(gè)輸入的WG串的首字母是小字母,那么它的轉(zhuǎn)換后的PY串的首字母也轉(zhuǎn)換為小寫字母,反之亦然;(2)連字符處理規(guī)則:如果一具WG串中是連字符“”加上元音字母(如a、e、o),那么轉(zhuǎn)寫成PY串則轉(zhuǎn)寫為撇號(hào)“”加上元音字母(如a、e、o),其他情況直接去掉連字符“”,在PY串中不保留任何痕跡;(3)所有格撇號(hào)處理規(guī)則:只需要把“s”放到切字底表中,采用正向最大匹配法,即可做正確切分。

三實(shí)驗(yàn)內(nèi)容與結(jié)果

1. WG2PY拼音字切字底表

“WG2PY拼音字切字底表”是采用正向最大匹配法切字的基礎(chǔ)。根據(jù)WG與PY的聲母、韻母對(duì)應(yīng)關(guān)系,我們參照威妥瑪《語(yǔ)言自邇集》[7]中的“音節(jié)總表(Sound Table)”和“北京話音節(jié)表(The Peking Syllabary)”拼出了420個(gè)基本拼音字,后根據(jù)WG的“輕音”規(guī)則(見下文)拼出了277個(gè)同音字,這420個(gè)拼音字和277個(gè)同音字共同構(gòu)成了“WG2PY拼音字切字底表”。

2. WG2PY規(guī)則

WG2PY規(guī)則由基礎(chǔ)規(guī)則、轉(zhuǎn)寫規(guī)則和補(bǔ)充規(guī)則組成,分別建立“WG2PY基礎(chǔ)規(guī)則庫(kù)”“WG2PY轉(zhuǎn)寫規(guī)則庫(kù)”和“WG2PY補(bǔ)充規(guī)則庫(kù)”。

“WG2PY基礎(chǔ)規(guī)則庫(kù)”中共有規(guī)則49條,分為Consonants(21條)、Basic Vowels(8條)、Basic Retroflex Syllables(4條)、Basic Sibilant Syllables(4條)、Semivowel Initials(3條)和Basic Finals(9條)?;緦?duì)應(yīng)于《漢語(yǔ)拼音方案》中所有的聲母表和韻母表。

“WG2PY轉(zhuǎn)寫規(guī)則庫(kù)”中共有規(guī)則420條,對(duì)應(yīng)于“WG2PY拼音字切字底表”中的420個(gè)基本拼音字(音節(jié))。

“WG2PY補(bǔ)充規(guī)則庫(kù)”中現(xiàn)有規(guī)則109條,分為“輕音”和“固化”兩部分:輕音是指WG中ng和h的發(fā)音規(guī)則,其中和ng相關(guān)的規(guī)則有10條,和h相關(guān)的規(guī)則有59條;固化是指不符合上述所有轉(zhuǎn)寫規(guī)則但又在外文音譯中已經(jīng)固定下來(lái)的中文譯音,如Peking>Peking(“北京”),chow>zhou(“州”,用于地名),king>jing(“京”,用于地名),kiang>jiang(“江”,用于地名)等,目前已收錄40條規(guī)則。

3. 測(cè)試語(yǔ)料

這里的語(yǔ)料不是指原文全文或整句,而只是WG拼音詞(字)和PY拼音詞(字)。這些拼音詞(字)的獲取可以從1979年以前出版的各種中文典籍英譯著作或者未采用漢語(yǔ)拼音方案的外國(guó)人所寫的英文著述中獲得。本實(shí)驗(yàn)中我們選用清人沈復(fù)所著、林語(yǔ)堂先生英譯的小說(shuō)《浮生六記》,從中獲取WG拼音詞322條,涉及拼音字235個(gè)(字型而非字例)。

4. 實(shí)驗(yàn)結(jié)果

以轉(zhuǎn)寫正確率作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo),正確率計(jì)算公式如下:

經(jīng)WG2PY轉(zhuǎn)寫后生成的235個(gè)PY拼音字中,轉(zhuǎn)寫正確的拼音字字?jǐn)?shù)為207個(gè),全部測(cè)試拼音字字?jǐn)?shù)為235個(gè),轉(zhuǎn)寫正確率為88.09%。

同時(shí),我們以覆蓋率作為實(shí)驗(yàn)內(nèi)容的有效性評(píng)價(jià)指標(biāo),覆蓋率計(jì)算公式如下:

覆蓋率=全部測(cè)試拼音字字?jǐn)?shù)/拼音字表中的拼音字總數(shù)

“拼音字表中的拼音字總數(shù)”是指“WG2PY拼音字切字底表”中的拼音字字?jǐn)?shù),為420+277個(gè),因此覆蓋率為33.72%。

四實(shí)驗(yàn)結(jié)果分析

1.實(shí)驗(yàn)結(jié)果中覆蓋率偏低

這是由于在我們目前的科研條件和科研環(huán)境下,1979年以前出版的各種中文典籍英譯著作或者未采用漢語(yǔ)拼音方案的外國(guó)人所寫的英文著述較難獲取,因此從中提取測(cè)試拼音字的難度較大。

2.轉(zhuǎn)寫錯(cuò)誤分析

實(shí)驗(yàn)中轉(zhuǎn)寫錯(cuò)誤的拼音字共有28例,其錯(cuò)誤原因可以分為以下三類:

第一類:撇號(hào)處理。WG2PY的轉(zhuǎn)寫過(guò)程中的撇號(hào)出現(xiàn)有三種情況——(1)WG中的送氣符,如Chao,這種送氣符會(huì)出現(xiàn)在聲母p、k、t、ch、ts和tz與跟在它們后面的元音之間,即p、k、t、ch、ts和tz;在PY中無(wú)送氣符號(hào)。(2)PY中的隔音符,如Xian,這種隔音符會(huì)出現(xiàn)在漢語(yǔ)拼音a、o和e開頭的音節(jié)連接在其他音節(jié)后面從而使音節(jié)的界限發(fā)生了混淆的時(shí)候;在WG中的隔音符是以連字符“”的形式出現(xiàn)的,如yüan。轉(zhuǎn)寫時(shí)Chao要轉(zhuǎn)寫成Zhao,yüan要轉(zhuǎn)寫成yuan。但實(shí)際文本中送氣符的使用較為混亂,經(jīng)常會(huì)出現(xiàn)該用送氣符的時(shí)候沒(méi)有用,而不該使用送氣符的時(shí)候卻用了的情況①。撇號(hào)出現(xiàn)的第三種情況比較棘手,即(3)拼音字后接名詞所有格的符號(hào)時(shí),如Wang Hsüchous。理論上講,任何音節(jié)后面都可以跟名詞所有格,當(dāng)然也包括聲母p、t、k、ch、ts和tz。當(dāng)所有格的撇號(hào)出現(xiàn)在這六個(gè)聲母之后時(shí)就會(huì)和送氣符相混淆②。如Wang Hsüchous轉(zhuǎn)寫結(jié)果應(yīng)為Wang Xuzhous。實(shí)驗(yàn)中出現(xiàn)因送氣符而產(chǎn)生的轉(zhuǎn)寫錯(cuò)誤拼音字例有5例。

第二類:ü和u的處理。WG中ü和u的使用也較為混亂,實(shí)際語(yǔ)料中經(jīng)常會(huì)出現(xiàn)該用u的時(shí)候用了ü,而該用ü的時(shí)候卻用了u的情況,以后者居多(是不是因?yàn)檩斎霑r(shí)鍵盤上沒(méi)有直接的ü的輸入鍵的緣故?)。而PY中ü和u的情況也比較特殊,詳見《漢語(yǔ)拼音方案》。實(shí)驗(yàn)中出現(xiàn)因ü和u混用而產(chǎn)生的轉(zhuǎn)寫錯(cuò)誤拼音字例有2例。

第三類:譯者的錯(cuò)誤。這主要體現(xiàn)在譯者本身的漢語(yǔ)發(fā)音水平上。譯者在將中文音譯為WG時(shí)尚無(wú)通用的普通話,而當(dāng)時(shí)的北京官話還沒(méi)有到現(xiàn)在的普通話這樣普及的程度,因此,譯者本身不可避免地帶有自己的口音和方言,他在翻譯作品中中國(guó)人名、地名時(shí)就會(huì)依據(jù)自己的口音來(lái)進(jìn)行翻譯。林語(yǔ)堂先生是福建人,因此在他的口音中有明顯的閩方言的特征,如將“zhai(齋)”讀成“zai(災(zāi))”,將“bai(白)”讀成“bo(伯)”等。因此在《浮生六記》中他將“李白”音譯成“Li Po”,將“趙省齋”音譯為“Chao Shengtsai”。那么, WG2PY在轉(zhuǎn)寫時(shí)就只能根據(jù)規(guī)則將“Li Po”轉(zhuǎn)寫成“Li Bo”,將“Chao Shengtsai”轉(zhuǎn)寫成“Zhao Shengzai”,造成了轉(zhuǎn)寫錯(cuò)誤。實(shí)驗(yàn)中出現(xiàn)因譯者口音而產(chǎn)生的轉(zhuǎn)寫錯(cuò)誤拼音字例有21例。

五結(jié)語(yǔ)

由上述分析可見,WG2PY在進(jìn)行WG轉(zhuǎn)寫時(shí)除了譯者的口音因素之外,送氣符時(shí)用時(shí)不用和ü、u的混用是造成轉(zhuǎn)寫錯(cuò)誤的主要原因。據(jù)此提出了兩點(diǎn)新的思路:(1)通過(guò)分析轉(zhuǎn)寫錯(cuò)誤中譯者的口音因素,可以進(jìn)行譯者的方言研究;(2)除去譯者因素,軟件的轉(zhuǎn)寫錯(cuò)誤率只有7/235=3%,也就是說(shuō)轉(zhuǎn)寫正確率可達(dá)97%。如此高的正確率一方面使我們對(duì)該轉(zhuǎn)寫系統(tǒng)抱有很大的應(yīng)用期望,另一方面也促使我們盡快想辦法消除這3%的錯(cuò)誤率。

目前只是實(shí)現(xiàn)了WG到PY的自動(dòng)轉(zhuǎn)寫,下一步工作是實(shí)現(xiàn)其他拉丁字母化拼音法如國(guó)語(yǔ)羅馬字、拉丁化新文字等到漢語(yǔ)拼音的自動(dòng)轉(zhuǎn)寫以及它們的一體化。同時(shí),面向大數(shù)據(jù)的真實(shí)文本中WG拼音詞的自動(dòng)識(shí)別與提取也應(yīng)成為后續(xù)研究的一大內(nèi)容。

注釋

① 事實(shí)上,送氣符和隔音符的符號(hào)并不相同,前者為“‘”而后者為“”。但可能由于“‘”在計(jì)算機(jī)錄入時(shí)需切換到全拼狀態(tài)等原因,在正式印刷品中WG的送氣符也用“”表示,所以造成了混亂。

② 查“漢字拼音字切字底表”中的420條音節(jié),沒(méi)有六個(gè)聲母出現(xiàn)在音節(jié)末尾的情況。因此當(dāng)音節(jié)以s結(jié)尾時(shí),就判定其為名詞所有格形式,只做切字而不做轉(zhuǎn)寫。

參考文獻(xiàn)

[1] 吳鴻適.關(guān)于科學(xué)技術(shù)名詞術(shù)語(yǔ)翻譯規(guī)范化的問(wèn)題[J].中國(guó)翻譯,1998(3):27-31.

[2] 吾云.臺(tái)灣“拼音大戰(zhàn)”的歷史[N].北京晚報(bào),2016-01-22(43).

[3] 李宇明.中華文化邁向國(guó)際新步伐——寫在中文羅馬字母拼寫法國(guó)際標(biāo)準(zhǔn)(ISO 7098:2015)修訂出版之時(shí)[N].光明日?qǐng)?bào),2016-05-01(07).

[4] 戴金旺.“拉丁字母”和“羅馬字母”[J].科技術(shù)語(yǔ)研究,2006(1):44-46.

[5] 周有光.21世紀(jì)的華語(yǔ)和華文[M].北京:三聯(lián)書店,2002:1-3.

[6] [清]沈復(fù).浮生六記[M].林語(yǔ)堂,譯.北京:外語(yǔ)教學(xué)與研究出版社,1999.

[7] [英]威妥瑪.語(yǔ)言自邇集——19世紀(jì)中期的北京話[M].張衛(wèi)東,譯.北京:北京大學(xué)出版社,2002.