【摘 要】研究中俄文字符號(hào)在網(wǎng)絡(luò)上的應(yīng)用規(guī)律和特點(diǎn),通過(guò)GB2312和UTF-8編碼技術(shù)的轉(zhuǎn)換技術(shù)解決中俄網(wǎng)絡(luò)語(yǔ)言編程編碼接口問(wèn)題,結(jié)合中俄文語(yǔ)法特點(diǎn),使用Java語(yǔ)言進(jìn)行Web方式的中俄網(wǎng)絡(luò)語(yǔ)言編碼接口問(wèn)題,提出解決方案。
【關(guān)鍵詞】中俄文;編碼;接口;Java
0 引言
研究中俄文互譯和接口標(biāo)準(zhǔn)關(guān)系,能得中國(guó)科技企業(yè)面向俄語(yǔ)世界的網(wǎng)絡(luò)貿(mào)易工作都能達(dá)到更好的經(jīng)濟(jì)效果。本文針對(duì)核心中俄文互通問(wèn)題,整合與集成不同文化背景的網(wǎng)絡(luò)符號(hào)互譯與信息交換的標(biāo)準(zhǔn)接口問(wèn)題,研究中俄文字符號(hào)在網(wǎng)絡(luò)上的應(yīng)用規(guī)律和特點(diǎn),注意與計(jì)算機(jī)搜索引擎技術(shù)的協(xié)調(diào)配合,提高本研究的持續(xù)適應(yīng)能力,形成具有統(tǒng)一性的國(guó)際協(xié)議。本項(xiàng)目實(shí)施相對(duì)長(zhǎng)期的客戶支持,能促進(jìn)中國(guó)對(duì)俄語(yǔ)系21國(guó)家的電子商務(wù)活動(dòng),激勵(lì)大眾創(chuàng)業(yè)和萬(wàn)眾創(chuàng)新,最終實(shí)現(xiàn)中俄電子商務(wù)合作的國(guó)際市場(chǎng)化應(yīng)用[1]。
1 編碼分析
中俄網(wǎng)絡(luò)語(yǔ)言編碼接口技術(shù),通過(guò)合作研究GB2312和UTF-8編碼技術(shù)的轉(zhuǎn)換技術(shù)解決中俄網(wǎng)絡(luò)語(yǔ)言編程編碼接口問(wèn)題,無(wú)論是俄文網(wǎng)站,還是中文網(wǎng)站,都能確保文字符號(hào)在,中、俄兩個(gè)國(guó)家適用的操作平臺(tái)上正常顯示運(yùn)行。
1.1 編碼集
完成GB2312和UTF-8編碼技術(shù)轉(zhuǎn)換的研發(fā)工作,實(shí)現(xiàn)異構(gòu)系統(tǒng)之間的互聯(lián)互通,制定統(tǒng)一的信息標(biāo)準(zhǔn)。由于缺乏編碼方案來(lái)解決中俄這兩種不同語(yǔ)言體系在計(jì)算機(jī)語(yǔ)言中表示的問(wèn)題,從而導(dǎo)致一直以來(lái)中國(guó)的商品基本上通過(guò)歐美、日、韓等國(guó)家轉(zhuǎn)銷至俄語(yǔ)世界,原因在于他們擁有通往俄語(yǔ)國(guó)家的信息交流通道,UTF-8編碼接軌較早。為了通過(guò)網(wǎng)絡(luò)技術(shù),給中俄企業(yè)溝通、交流、發(fā)布及獲取信息提供直接的渠道,雙方需要有設(shè)計(jì)全新的編碼模型方案解決中俄這兩種不同語(yǔ)言體系在計(jì)算機(jī)語(yǔ)言中表示的問(wèn)題。
1.1.1 GB2312
GB2312編碼適用于漢字處理、漢字通信等系統(tǒng)之間的信息交換,通行于中國(guó)大陸;新加坡等地也采用此編碼。中國(guó)大陸幾乎所有的中文系統(tǒng)和國(guó)際化的軟件都支持GB2312。基本集共收入漢字6763個(gè)和非漢字圖形字符682個(gè)。整個(gè)字符集分成94個(gè)區(qū),每區(qū)有94個(gè)位。每個(gè)區(qū)位上只有一個(gè)字符,因此可用所在的區(qū)和位來(lái)對(duì)漢字進(jìn)行編碼,稱為區(qū)位碼。同時(shí),GB2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語(yǔ)西里爾字母在內(nèi)的682個(gè)全角字符。GB2312的出現(xiàn),基本滿足了漢字的計(jì)算機(jī)處理需要,它所收錄的漢字已經(jīng)覆蓋中國(guó)大陸99.75%的使用頻率。
1.1.2 Unicode
Unicode是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的,例如ISO8859-1(Latin-1,是西歐常用字符)所定義的字符雖然在不同的國(guó)家中廣泛地使用,可是在不同國(guó)家間卻經(jīng)常出現(xiàn)不兼容的情況。很多傳統(tǒng)的編碼方式都有一個(gè)共同的問(wèn)題,即允許電腦處理雙語(yǔ)環(huán)境(通常使用拉丁字母以及其本地語(yǔ)言),但卻無(wú)法同時(shí)支持多語(yǔ)言環(huán)境(指可同時(shí)處理多種語(yǔ)言混合的情況)。Unicode為每種語(yǔ)言中的每個(gè)字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿足跨語(yǔ)言、跨平臺(tái)進(jìn)行文本轉(zhuǎn)換、處理的要求。幾乎所有電腦系統(tǒng)都支持基本拉丁字母,并各自支持不同的其他編碼方式。Unicode為了和它們相互兼容,其首256字符保留給ISO8859-1所定義的字符,使既有的西歐語(yǔ)系文字的轉(zhuǎn)換不需特別處理;并且把大量相同的字符重復(fù)編到不同的字符碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉(zhuǎn)換,而不會(huì)丟失任何信息。在文字處理方面,Unicode為每一個(gè)字符而非字形定義唯一的代碼(即一個(gè)整數(shù))。以一種抽象的方式(即數(shù)字)來(lái)處理字符,并將視覺(jué)上的演繹工作(例如字體大小、外觀形狀、字體形態(tài)、文體等)留給其他軟件來(lái)處理,例如網(wǎng)頁(yè)瀏覽器或是文字處理器。UNICODE用2個(gè)字節(jié)編碼,它通過(guò)增加一個(gè)高字節(jié)對(duì)ISOLatin-1字符集進(jìn)行擴(kuò)展,可以用ASCII表示的字符使用UNICODE并不高效,因?yàn)閁NICODE比ASCII占用大一倍的空間,而對(duì)ASCII來(lái)說(shuō)高字節(jié)的0對(duì)他毫無(wú)用處。為了解決這個(gè)問(wèn)題,就出現(xiàn)了一些中間格式的字符集,他們被稱為通用轉(zhuǎn)換格式,即UTF(Universal Transformation Format)。常見(jiàn)的UTF格式有:UTF-7,UTF-7.5,UTF-8,UTF-16,以及UTF-32。UTF-8用1到6個(gè)字節(jié)編碼UNICODE字符。用在網(wǎng)頁(yè)上可以同一頁(yè)面顯示中文簡(jiǎn)體繁體及其它語(yǔ)言(如英文、日文、韓文)。
1.2 中俄文字差別
1.2.1 中文雙字節(jié)
GB2312和UTF-8編碼技術(shù)轉(zhuǎn)換的研發(fā)工作,實(shí)現(xiàn)異構(gòu)系統(tǒng)之間的互聯(lián)互通,制定統(tǒng)一的信息標(biāo)準(zhǔn)。在兩國(guó)架設(shè)的服務(wù)器設(shè)備中同時(shí)嵌入中俄兩國(guó)的標(biāo)準(zhǔn)字符庫(kù),為數(shù)據(jù)匯總和數(shù)據(jù)交換中的數(shù)據(jù)沖突問(wèn)題提供完善的解決方案,從而避免在境外使用出現(xiàn)的文字亂碼現(xiàn)象。漢字是雙字節(jié)而一些漢字編輯軟件并沒(méi)有充分認(rèn)識(shí)到這一點(diǎn),例如:漢化對(duì)光標(biāo)移動(dòng)、刪除等還是按單字節(jié)方式處理,16*16俄文,8*16俄文字都是單字節(jié)的,給用戶造半個(gè)字顯示的混亂的后果[2]。
1.2.2 俄文重形式
俄語(yǔ)是莊重的書(shū)面體語(yǔ)體,它的商務(wù)行文簡(jiǎn)練,語(yǔ)法比較嚴(yán)謹(jǐn),重點(diǎn)也突出,言辭極具數(shù)學(xué)邏輯性和技術(shù)準(zhǔn)確性,交流要求盡可能準(zhǔn)確地描述和解釋一定的事實(shí)。俄羅斯人更加接近西方世界的直觀式思維方式。強(qiáng)調(diào)由細(xì)節(jié)部到整體部,由外表到內(nèi)涵的分析思路。比較理性的思維,注重形式的論證過(guò)程,不喜歡采用藝術(shù)比喻手段,追求語(yǔ)義簡(jiǎn)明且凝練,要求明白、并且直露[3]。
1.2.3 俄文多語(yǔ)格
俄語(yǔ)符號(hào)文句在語(yǔ)法上是:使用非一致性定語(yǔ)的第二格的特點(diǎn)比例較高[4]。俄語(yǔ)符號(hào)文句二格在網(wǎng)絡(luò)俄文中,首先要用于表示出定語(yǔ)關(guān)系,語(yǔ)句中包含比列達(dá)到41%。形容詞性在俄語(yǔ)文句中的混合運(yùn)用相當(dāng)多而普遍,除了形容詞的普通混用之外,還大量地使用帶著補(bǔ)語(yǔ)語(yǔ)法的形容詞根。絕大多數(shù)俄語(yǔ)動(dòng)詞都用未完成語(yǔ)體的“現(xiàn)在時(shí)”來(lái)表達(dá)含義,比較復(fù)雜的動(dòng)詞第三人稱的陳述式,占文章的大部分。網(wǎng)絡(luò)現(xiàn)在時(shí)和網(wǎng)絡(luò)動(dòng)詞的第三人稱單數(shù)形式很多,使用比率較頻繁。俄語(yǔ)還多喜歡用長(zhǎng)句和復(fù)合句式,以便能確切地表達(dá)出嚴(yán)格的語(yǔ)義上的關(guān)聯(lián)邏輯[5]。
1.3 商務(wù)編碼轉(zhuǎn)換
中亞國(guó)家屬于俄語(yǔ)使用范圍,俄語(yǔ)的交際功能和實(shí)際應(yīng)用性并沒(méi)有因法律地位的下降而大幅度降低。俄語(yǔ)仍然是主要的族際交際語(yǔ)言語(yǔ)言政策與現(xiàn)實(shí)需求的背離。嚴(yán)重影響著社會(huì)生活的方方面面[6]。中俄之間的互訪路徑往往要通過(guò)多次編碼轉(zhuǎn)換才能達(dá)成[7]。這就直接導(dǎo)致中俄雙方頁(yè)面在異域的運(yùn)行速度非常慢,為實(shí)現(xiàn)雙方文字在應(yīng)用終端準(zhǔn)確、實(shí)時(shí)的顯現(xiàn),中俄雙方專家擬采用架設(shè)鏡像服務(wù)器(Mirror server)的方式,完成主服務(wù)器字庫(kù)定時(shí)鏡像的任務(wù),實(shí)現(xiàn)在網(wǎng)絡(luò)以及雙方現(xiàn)場(chǎng)進(jìn)行俄、漢或其他文種貿(mào)易文本的起草、翻譯、溝通、修改、確認(rèn)、完成貿(mào)易合同;提供貿(mào)易活動(dòng)的下游的雙語(yǔ)文件和信息(包括商檢、物流、報(bào)關(guān)活動(dòng)所需的雙語(yǔ)文件信息);通過(guò)網(wǎng)絡(luò)對(duì)貿(mào)易活動(dòng)全過(guò)程進(jìn)行必要的安全監(jiān)控。受到貿(mào)易規(guī)模的影響,國(guó)內(nèi)大部分企業(yè)沒(méi)有通過(guò)互聯(lián)網(wǎng)開(kāi)拓。國(guó)際市場(chǎng)基本上通過(guò)歐美、日、韓等國(guó)家轉(zhuǎn)銷至俄語(yǔ)世界,所以對(duì)俄企業(yè)數(shù)據(jù)庫(kù)的建設(shè)速度較慢。
2 動(dòng)態(tài)接口轉(zhuǎn)換
將Web頁(yè)面上的域標(biāo)記,及其文本屬性值進(jìn)行Java程序化動(dòng)態(tài)隔離,以DIV、SB和BB等標(biāo)記為樣本容器,利用Java腳本分析技術(shù),實(shí)現(xiàn)動(dòng)態(tài)的Web文本的過(guò)濾、布局、刪除和修正的功能,來(lái)修正頁(yè)面編碼方式。在java編碼中,要對(duì)網(wǎng)絡(luò)平臺(tái)的頁(yè)面文件作“字符集設(shè)置”,如圖1所示。
2.1 動(dòng)態(tài)字符集
利用Web頁(yè)面上的表單分析語(yǔ)法,將Web單元的文本數(shù)據(jù)和交互過(guò)程,實(shí)現(xiàn)動(dòng)態(tài)翻譯管理,豐富用戶交互數(shù)據(jù)輸入形式,動(dòng)態(tài)俄文翻譯的支持格式要求相應(yīng)字符集的變動(dòng)和動(dòng)態(tài)字符的變更,目的是為客戶數(shù)據(jù)能適用I/O功能來(lái)鋪墊動(dòng)態(tài)翻譯模塊。在編程開(kāi)發(fā)工具中要對(duì)集成開(kāi)發(fā)環(huán)境的字符編碼做出設(shè)定,例如:ISO88591-1,以適應(yīng)動(dòng)態(tài)變更的需要。
2.2 轉(zhuǎn)碼方法
Web頁(yè)面的專碼問(wèn)題,要求將俄文文本頁(yè)面組織布局形式,劃分的更加細(xì)小,適應(yīng)文字節(jié)單位。服務(wù)器只傳遞“節(jié)部分”的變動(dòng)性Web數(shù)據(jù),直接翻譯,不需要重復(fù)發(fā)送補(bǔ)充性重復(fù)資料。當(dāng)用戶請(qǐng)求翻譯頁(yè)面時(shí),往往只需要?jiǎng)討B(tài)構(gòu)造的新的翻譯字符碼數(shù)據(jù)列表或DIV域局部。當(dāng)用戶翻譯請(qǐng)求時(shí)得到的服務(wù)器動(dòng)態(tài)響應(yīng)時(shí),啟動(dòng)異步翻譯功能,對(duì)應(yīng)域文本位置上,就能動(dòng)態(tài)適用翻譯結(jié)果替換HTML元素的局部文字。“動(dòng)元翻譯”是實(shí)現(xiàn)異國(guó)語(yǔ)言接口自動(dòng)翻譯系統(tǒng)的嵌入性技術(shù)基礎(chǔ),需要翻譯插件的模塊性支持。通過(guò)動(dòng)態(tài)域元素字符集設(shè)定,可以解決獨(dú)立頁(yè)面和編程文件的字符統(tǒng)一問(wèn)題,但是實(shí)際上在文字信息通過(guò)網(wǎng)絡(luò)傳輸?shù)倪^(guò)程中,仍然會(huì)因?yàn)椴煌脩舻膰?guó)家區(qū)域不同,操作語(yǔ)言不同,而產(chǎn)生亂碼,因此需要對(duì)傳輸?shù)玫降奈淖中畔⑦M(jìn)行編碼和解碼,如圖2所示。
在一個(gè)多語(yǔ)種的網(wǎng)頁(yè)中,Java腳本與HTML、CSS和COM組件集成,能實(shí)現(xiàn)復(fù)雜的交互過(guò)程,極大地豐富Java程序接口設(shè)計(jì)的手段。這樣我們?cè)谖淖中畔⒌陌l(fā)送端對(duì)信息用固定的編碼方式編碼,在信息接受端用相應(yīng)的解碼方式進(jìn)行解碼,使得最終得到的信息適應(yīng)接收端的本地環(huán)境,以接收端的本地語(yǔ)言方式正確顯示出來(lái)。
如果客戶適配本地的語(yǔ)言為:簡(jiǎn)體中文,但是對(duì)于俄語(yǔ)文字的保存,如果不做正確處理,就會(huì)保存為亂碼??筛鶕?jù)數(shù)據(jù)庫(kù)服務(wù)器所在國(guó)家的語(yǔ)言環(huán)境設(shè)定好默認(rèn)字符集,并對(duì)數(shù)據(jù)庫(kù)接收的信息進(jìn)行預(yù)加工、預(yù)處理使它適配于數(shù)據(jù)庫(kù)服務(wù)器所兼容的字符集,最后,再對(duì)處理好的信息進(jìn)行保存操作。信息從數(shù)據(jù)庫(kù)輸出時(shí),也要做類似的信息編碼轉(zhuǎn)換工作,使得從數(shù)據(jù)庫(kù)中查詢出的信息適配于各個(gè)本國(guó)家的語(yǔ)言環(huán)境,從而展示出來(lái)沒(méi)有亂碼。
2.3 亂碼處理
網(wǎng)絡(luò)上的俄文信息,一部分通過(guò)網(wǎng)絡(luò)直接傳輸,但是大部分實(shí)際上是要保存到數(shù)據(jù)庫(kù)中,來(lái)自不同國(guó)家,不同語(yǔ)言的文字信息要保存到數(shù)據(jù)庫(kù)里,同樣面對(duì)著信息亂碼問(wèn)題。
客戶端通過(guò)頁(yè)面操作激發(fā)自動(dòng)接口動(dòng)作,調(diào)用了Java組件的異步引擎。自動(dòng)接口模塊要捕獲Web文本和圖片對(duì)象的操作事件,直接合成翻譯參數(shù)URL途徑,再向客戶發(fā)出翻譯結(jié)果。客戶端可以不等待自動(dòng)接口的反饋結(jié)果,繼續(xù)維持客戶的其它交互性操作流程,保持業(yè)務(wù)操作的連貫性。Java語(yǔ)言可以操控Web文檔的元素構(gòu)成,默認(rèn)以document指向整體文檔對(duì)象,例如:和等為高級(jí)節(jié)點(diǎn),節(jié)點(diǎn)類型是Element。對(duì)于每一次頁(yè)面啟動(dòng)的Element節(jié)點(diǎn)元素,都可調(diào)用get-Attribute()、set-Attribute()和remove-Attribute()等方法,來(lái)設(shè)置或修改節(jié)點(diǎn)的接口性質(zhì)[8]。也能使用parent-Node屬性和child-Nodes[]數(shù)組形式,在預(yù)定文檔樹(shù)中,上下移動(dòng)文本元素;可以通過(guò)遍歷child-Nodes[]數(shù)組,使用first-Child和next-Sibling性進(jìn)行循環(huán)性接口設(shè)置。從而改變文本結(jié)構(gòu)和接口屬性,達(dá)到靈活多變的翻譯目標(biāo),避免文本混亂顯示問(wèn)題。
3 結(jié)果與分析
俄方網(wǎng)絡(luò)平臺(tái)展現(xiàn)情況:①應(yīng)用本項(xiàng)目的轉(zhuǎn)碼技術(shù)后,俄方網(wǎng)絡(luò)平臺(tái)展示中文商品信息沒(méi)有亂碼。②中方網(wǎng)絡(luò)平臺(tái)展現(xiàn)情況:在中國(guó)國(guó)內(nèi)訪問(wèn)俄方外貿(mào)交易平臺(tái)沒(méi)有亂碼。同時(shí)在國(guó)內(nèi)可以以俄文錄入中國(guó)商品信息,在雙方網(wǎng)絡(luò)平臺(tái)展示均無(wú)亂碼。
網(wǎng)絡(luò)平臺(tái)采用轉(zhuǎn)碼技術(shù)后應(yīng)用效果比較。①俄方網(wǎng)絡(luò)平臺(tái)應(yīng)用情況:俄方網(wǎng)絡(luò)平臺(tái)能準(zhǔn)確、完整地展現(xiàn)中國(guó)商品信息,客戶認(rèn)可率高。②中方網(wǎng)絡(luò)平臺(tái)應(yīng)用情況:中方網(wǎng)絡(luò)平臺(tái)可以自如地用俄文描述,錄入中國(guó)商品信息,并在俄方平臺(tái)準(zhǔn)確展示,很受企業(yè)歡迎。
使用接口轉(zhuǎn)碼技術(shù)后,在中俄兩方的網(wǎng)絡(luò)平臺(tái)上均解決了亂碼問(wèn)題。實(shí)現(xiàn)了無(wú)論是俄文網(wǎng)站,還是中文網(wǎng)站,都能確保其在中、俄兩個(gè)國(guó)家適用的操作平臺(tái)上正常顯示運(yùn)行。有效解決了中俄網(wǎng)絡(luò)語(yǔ)言編程編碼差異化問(wèn)題,提升了中國(guó)科技企業(yè)的跨國(guó)技術(shù)創(chuàng)新能力,從而幫助中國(guó)商品能迅速、有效、準(zhǔn)確、直接在俄羅斯主流網(wǎng)絡(luò)媒體展示。
【參考文獻(xiàn)】
[1]李海艦,田躍新,李文杰.互聯(lián)網(wǎng)思維與傳統(tǒng)企業(yè)再造[J].中國(guó)工業(yè)經(jīng)濟(jì),2014,10:135-146.
[2]王曉華,張鵬,傅景歆.俄漢編輯軟件的實(shí)現(xiàn)[J].黑龍江大學(xué)自然科學(xué)學(xué)報(bào),1998,02:43-45+48.
[3]徐濤.基于“情景更替理論”的俄語(yǔ)動(dòng)詞體常體意義新論[J].中國(guó)俄語(yǔ)教學(xué),2015,01:40-44.
[4]陳雪.俄語(yǔ)計(jì)算機(jī)術(shù)語(yǔ)構(gòu)成研究[J].中國(guó)俄語(yǔ)教學(xué),2010,01:37-41.
[5]樂(lè)路.試探科技俄語(yǔ)的特點(diǎn)及其翻譯[D].上海外國(guó)語(yǔ)大學(xué),2009.
[6]張宏莉.中亞國(guó)家語(yǔ)言政策及其發(fā)展走向分析[J].新疆社會(huì)科學(xué),2015,02:72-79+161.
[7]余自潔.計(jì)算機(jī)、多媒體技術(shù)和當(dāng)今俄語(yǔ)教學(xué)[J].中國(guó)俄語(yǔ)教學(xué),2003,01:51-54.
[8]王翠云.高校網(wǎng)絡(luò)教學(xué)輔助平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué),2013.
[責(zé)任編輯:王楠]
客服熱線:400-656-5456??客服專線:010-56265043??電子郵箱:longyuankf@126.com
電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證:京icp證060024號(hào)
Dragonsource.com Inc. All Rights Reserved