才讓加
(青海師范大學(xué) 計(jì)算機(jī)學(xué)院 青海師范大學(xué) 藏文信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室 青海省藏文信息研究中心,青海 西寧 810008)
近年來,語料庫資源對(duì)于自然語言處理研究的巨大價(jià)值已經(jīng)得到越來越多學(xué)者的認(rèn)可。特別是雙語語料庫(Bilingual Corpus,即包含兩種語言互譯文本的語料庫),已經(jīng)成為機(jī)器翻譯、翻譯知識(shí)獲取、數(shù)據(jù)挖掘以及雙語詞典編纂研究不可或缺的重要資源。一方面,雙語語料庫的出現(xiàn)直接推動(dòng)了機(jī)器翻譯新技術(shù)的發(fā)展,基于統(tǒng)計(jì)(Statistic-Based)和基于實(shí)例(Txample-Based)等基于語料庫的翻譯方法為機(jī)器翻譯研究提供了新的思路和方法,有效改善了翻譯質(zhì)量,在機(jī)器翻譯研究領(lǐng)域掀起了新的高潮。另一方面,雙語語料庫又是翻譯知識(shí)的重要來源,從中可以挖掘?qū)W習(xí)各種細(xì)粒度的翻譯知識(shí),如翻譯詞典和翻譯模板,從而改進(jìn)傳統(tǒng)的機(jī)器翻譯技術(shù)。此外,雙語語料庫也是跨語言信息檢索,翻譯詞典編撰、雙語術(shù)語自動(dòng)提取以及多語言對(duì)比研究等的重要基礎(chǔ)資源。
由于諸多因素的制約,我國(guó)藏區(qū)經(jīng)濟(jì)發(fā)展緩慢,教育相對(duì)滯后,現(xiàn)代科技教育尤為薄弱。因此,通過對(duì)藏文信息處理理論和技術(shù)的研究,建設(shè)大規(guī)模的藏文分詞標(biāo)注語料庫和藏漢句子對(duì)齊語料庫,為基于語料庫的漢藏機(jī)器翻譯研究提供重要的語言數(shù)據(jù)資源。此外,通過這些資源建設(shè)和研究成果為藏文化的傳承與發(fā)揚(yáng)提供現(xiàn)代信息技術(shù)的強(qiáng)大支持,促進(jìn)藏區(qū)科學(xué)技術(shù)進(jìn)步,對(duì)藏區(qū)社會(huì)經(jīng)濟(jì)發(fā)展有著十分重要的現(xiàn)實(shí)意義和深遠(yuǎn)的歷史意義。
語言信息處理技術(shù)作為新一代知識(shí)工程處理的核心支撐技術(shù),引起了各國(guó)政府的高度重視。因此,通過對(duì)藏文自動(dòng)分析和漢藏語言對(duì)比分析的研究,為進(jìn)一步研究藏文信息處理技術(shù)奠定堅(jiān)實(shí)的基礎(chǔ),對(duì)帶動(dòng)藏文信息處理的發(fā)展和拓展新領(lǐng)域具有重要的意義,而且對(duì)國(guó)內(nèi)其他少數(shù)民族開展相關(guān)研究具有重要的參考價(jià)值。然而,大規(guī)模雙語語料庫的獲取并不容易,雖然近年來各國(guó)政府和研究機(jī)構(gòu)都投入了大量的人力和財(cái)力來加強(qiáng)雙語語料庫的建設(shè),但是目前國(guó)內(nèi)外還沒有建立一個(gè)直接可以應(yīng)用的漢藏雙語語料庫,也沒有相關(guān)的處理技術(shù)方面的研究,遠(yuǎn)遠(yuǎn)不能滿足處理真實(shí)文本的實(shí)際需要。因此,研究有效的大規(guī)模漢藏雙語資源庫構(gòu)建及翻譯知識(shí)自動(dòng)獲取技術(shù)對(duì)于推進(jìn)機(jī)器翻譯、跨語言信息檢索等研究的實(shí)用化具有重要的意義。
雙語語料庫的建設(shè)和應(yīng)用研究得到了國(guó)內(nèi)外研究者的廣泛重視。美國(guó)著名的語言資源聯(lián)盟(Linguistic Data Consortium,LDC)已經(jīng)收集了為數(shù)不少的大規(guī)模雙語語料庫。如加拿大的議會(huì)會(huì)議錄(Canadian Hansards)是非常著名的英法雙語語料庫,許多最初的基于雙語語料庫的研究都是在該語料庫基礎(chǔ)上進(jìn)行的。在漢外雙語語料庫方面,香港立法委員會(huì)的會(huì)議錄(HongKong Hansards),香港法律(HongKong Laws),香港新聞(HongKong News),新華社新聞(Xinhua News)等是國(guó)際上廣為應(yīng)用的漢英雙語語料庫??梢钥吹剑@些語料庫主要集中在政府文件和新聞法律等特殊領(lǐng)域。雙語語料庫的這種領(lǐng)域不平衡性在一定程度上限制了相關(guān)研究在面向真實(shí)文本時(shí)的實(shí)際應(yīng)用水平[1-5]。
雖然國(guó)內(nèi)在雙語語料庫建設(shè)方面起步較晚,但是近年來相關(guān)研究得到了國(guó)家和許多研究機(jī)構(gòu)的重視,取得了比較可觀的進(jìn)展。如北京大學(xué)計(jì)算語言學(xué)研究所在國(guó)家863課題的支持下開發(fā)了服務(wù)于新聞?lì)I(lǐng)域機(jī)器翻譯的Babel漢英雙語語料庫。Babel語料庫歷時(shí)約兩年時(shí)間實(shí)現(xiàn)了20萬句子對(duì)齊(Sentence Alignment)的漢英雙語語料庫的采集和標(biāo)注[6]。中國(guó)科學(xué)院計(jì)算技術(shù)研究所和中國(guó)科學(xué)院自動(dòng)化研究所也在國(guó)家973課題的支持下聯(lián)合開發(fā)了20萬句子對(duì)齊的漢英雙語語料庫[7-8]。這是目前報(bào)道的具有詳細(xì)標(biāo)注規(guī)范、規(guī)模最大的兩個(gè)雙語語料庫。其他規(guī)模較大的雙語語料庫包括中國(guó)科學(xué)院自動(dòng)化研究所開發(fā)的14萬句對(duì)齊的漢英雙語語料庫;哈爾濱工業(yè)大學(xué)的10萬句對(duì)齊的漢英雙語語料庫,哈工大—微軟機(jī)器翻譯聯(lián)合實(shí)驗(yàn)室開發(fā)的6萬句對(duì)的詞匯對(duì)齊(Word Alignment)的漢英雙語語料庫等[9-10]。此外,中國(guó)科學(xué)院軟件研究所、清華大學(xué)、東北大學(xué)、南京師范大學(xué)、國(guó)家語委等單位也相繼建設(shè)了一定規(guī)模的漢英雙語語料庫[11-13]。北京大學(xué)還建立了兩萬句對(duì)的漢日雙語句對(duì)齊語料庫,哈爾濱工業(yè)大學(xué)建立了5萬句對(duì)面向奧運(yùn)的中日英三語語料庫。對(duì)于少數(shù)民族語言與漢語雙語語料庫的報(bào)道還不多見,新疆大學(xué)建立了20萬句對(duì)漢維雙語語料庫和20萬條漢維雙語短語庫,內(nèi)蒙古大學(xué)也在漢蒙雙語語料庫研究方面進(jìn)行了非常有效的研究[13-15]。2004年,在中國(guó)中文信息學(xué)會(huì)發(fā)起下成立了中文語言資源聯(lián)盟(ChineseLDC),目前Chinese-LDC已經(jīng)收集了上述部分雙語語料庫為國(guó)內(nèi)外研究者所共享,為推進(jìn)中文語言資源的建設(shè)和應(yīng)用提供了有效的模式和途徑。
目前關(guān)于國(guó)內(nèi)雙語語料庫的建設(shè)和研究主要側(cè)重漢外雙語語料庫的建設(shè)以及對(duì)齊加工和標(biāo)注,多級(jí)自動(dòng)對(duì)齊技術(shù)以及雙語平行語料庫在機(jī)器翻譯和翻譯知識(shí)獲取等方面的應(yīng)用技術(shù),而對(duì)大規(guī)模少數(shù)民族語言和漢語雙語語料庫的建設(shè)和處理技術(shù)的研究工作卻關(guān)注較少。目前漢藏雙語語料庫的來源主要是政府文件、電子版書籍、報(bào)刊、中小學(xué)教材和來源于互聯(lián)網(wǎng)上的雙語文本,而在漢藏語料庫的建設(shè)和處理上大多依賴于人工方式[16]。這種原始語料庫的獲取方式大大限制了漢藏雙語語料庫的建設(shè)效率,不但制約了漢藏雙語語料庫的規(guī)模,而且處理方法和技術(shù)落后,更是難以達(dá)到時(shí)效性的要求。各研究單位的中小規(guī)模重復(fù)建設(shè)也消耗了大量的人力、物力和財(cái)力。因此,研究高效的、支持大規(guī)模、多領(lǐng)域、可持續(xù)發(fā)展的漢藏雙語資源庫建設(shè)方法和技術(shù)對(duì)于減輕人工搜集雙語語料庫的困難,推動(dòng)相關(guān)研究發(fā)展具有重要的實(shí)際意義。
近幾年來,面向機(jī)器翻譯的少數(shù)民族語言知識(shí)資源獲取的研究開始引起研究者的關(guān)注。目前面向漢—民(少數(shù)民族)機(jī)器翻譯方面,新疆大學(xué)進(jìn)行了面向漢維機(jī)器翻譯的雙語對(duì)齊語料庫構(gòu)建技術(shù)和漢維機(jī)器翻譯的雙語對(duì)齊短語庫構(gòu)建技術(shù)的研究,在研究制定漢維雙語語料文本收集整理與加工規(guī)范的基礎(chǔ)上;從各種渠道(主要是: 政府報(bào)告、白皮書、科技文獻(xiàn)、學(xué)術(shù)論文、政治專著、法律文獻(xiàn)等)收集整理漢維雙語語料,對(duì)收集到的原始語料進(jìn)行系統(tǒng)的整理(文件層次、格式層次、標(biāo)記層次、);并對(duì)限定領(lǐng)域漢維雙語篇章級(jí)、段落級(jí)、句子級(jí)、短語級(jí)等多級(jí)自動(dòng)對(duì)齊技術(shù)進(jìn)行研究,以及對(duì)整理后的語料進(jìn)行加工,調(diào)查語料的構(gòu)成,統(tǒng)計(jì)語料規(guī)模,雙語語料庫的相關(guān)集列和呈現(xiàn)平臺(tái)的技術(shù)以及漢維雙語短語庫中的漢語短語描述方法進(jìn)行了研究,構(gòu)建了具有統(tǒng)一標(biāo)準(zhǔn)和規(guī)范的大規(guī)模、多體裁、篇章級(jí)、段落級(jí)、句子級(jí)等多級(jí)對(duì)齊的面向漢維機(jī)器翻譯的漢維雙語對(duì)齊語料庫以及面向漢維機(jī)器翻譯的漢維雙語對(duì)齊短語庫,開發(fā)完成了基于詞典的漢語與維吾爾語詞對(duì)齊技術(shù)以及漢語與維吾爾語句對(duì)齊技術(shù)[17-19]。目前還沒有見到有關(guān)系統(tǒng)的、經(jīng)過深度加工的、以漢語或少數(shù)民族語言為源語言的漢—民(少數(shù)民族語言)或民—漢雙語語料庫的報(bào)道。
目前已有的藏語語料庫五花八門,其主要原因是幾十年來藏文計(jì)算機(jī)編碼的不統(tǒng)一,要解決這個(gè)問題就需要對(duì)已有的藏語原始語料庫進(jìn)行整理,這與漢文語料庫的加工相比較就多了一個(gè)環(huán)節(jié)。目前已有的藏語原始語料庫按編碼的不同可劃分為: 方正語料庫、華光語料庫、班智達(dá)語料庫、同元語料庫、桑布札1.0語料庫、桑布札2.0語料庫、藏文編碼字符集擴(kuò)充集語料庫、ACIP拉丁轉(zhuǎn)寫語料庫、ALA-LC拉丁轉(zhuǎn)寫語料庫、LTibetan語料庫、TCRC Bod-Yig語料庫、THDL拉丁轉(zhuǎn)寫語料庫、Tibetan Machine語料庫、 Tibetan Machine Wed語料庫、Unicode語料庫、Wylie拉丁轉(zhuǎn)寫語料庫等[20],將以上編碼的藏語語料庫統(tǒng)一到同一編碼下就是一個(gè)很大的工程,通過藏文編碼自動(dòng)識(shí)別與轉(zhuǎn)換技術(shù),可以對(duì)以上的各類語料庫之間的編碼進(jìn)行相互轉(zhuǎn)換和自動(dòng)識(shí)別。具體研究12種主要藏文編碼的識(shí)別和轉(zhuǎn)換技術(shù),實(shí)現(xiàn)12種編碼自動(dòng)轉(zhuǎn)換為統(tǒng)一的編碼(即《ISO10646 信息交換用藏字編碼字符集(基本集)》、GB16959—1997《信息技術(shù) 信息交換用藏文編碼字符集 基本集》)。
構(gòu)建漢—藏(藏—漢)雙語對(duì)齊語料庫的主要目標(biāo)是為漢藏機(jī)器翻譯系統(tǒng)提供可用的資源和服務(wù)。在研究和制定漢藏雙語語料文本收集整理與加工規(guī)范的基礎(chǔ)上,首先把各種渠道(主要是: 政府報(bào)告、白皮書、科技文獻(xiàn)、學(xué)術(shù)論文、政治專著、法律文獻(xiàn)等)收集的漢藏雙語語料轉(zhuǎn)換為統(tǒng)一的編碼格式;其次對(duì)機(jī)器自動(dòng)加工高質(zhì)量的生語料庫技術(shù)進(jìn)行研究,也就是對(duì)已完成編碼轉(zhuǎn)換的語料進(jìn)行機(jī)器自動(dòng)過濾(即過濾各種排版符號(hào)、藏文語料庫不需要的符號(hào)和一些亂碼等)技術(shù)的研究;然后對(duì)整理完成后的漢藏語料進(jìn)行進(jìn)行文件層次、格式層次、標(biāo)記層次等方面的研究[21];最后對(duì)整理后的語料進(jìn)行加工,調(diào)查語料的構(gòu)成,統(tǒng)計(jì)語料規(guī)模以及雙語語料庫的相關(guān)集列和呈現(xiàn)平臺(tái)的技術(shù)進(jìn)行研究。
句子對(duì)齊,即找出源文句子在譯文中的對(duì)應(yīng)翻譯句子。由于句子的粒度小于段落的粒度,因此對(duì)齊的句子能夠比對(duì)齊的段落提供更細(xì)微的對(duì)譯信息,它可以用于雙語詞典編纂、機(jī)器翻譯系統(tǒng)驗(yàn)證、翻譯信息自動(dòng)獲取等多種自然語言處理領(lǐng)域。同時(shí),句子對(duì)齊也常常是進(jìn)行下一步細(xì)粒度對(duì)齊的必要前提,具有十分重要的使用價(jià)值,進(jìn)行句子對(duì)齊是使雙語庫走向?qū)嵱没谋匾椭匾襟E。具體對(duì)整理完成的漢藏雙語語料庫進(jìn)行篇章級(jí)、段落級(jí)和句子級(jí)多級(jí)自動(dòng)對(duì)齊技術(shù)的研究。
對(duì)于許多基于雙語語料庫的應(yīng)用(如機(jī)器翻譯、詞典編纂、詞義排歧等)來說,雙語語料庫僅有句子級(jí)別的對(duì)齊是不夠的,必須進(jìn)一步做到詞匯級(jí)別的對(duì)齊,即找出源文和譯文間詞匯級(jí)的對(duì)應(yīng)翻譯關(guān)系。然而,由于種種原因,相對(duì)于段落對(duì)齊和句子對(duì)齊等大粒度的對(duì)齊而言,詞匯對(duì)齊更復(fù)雜、難度更大。利用現(xiàn)有的漢文分詞技術(shù)和藏文分詞技術(shù),研究漢藏互譯片斷中詞語的對(duì)應(yīng)關(guān)系和從漢藏雙語語料庫中自動(dòng)抽取一部漢藏雙語詞典的方法和技術(shù)。根據(jù)從語料庫中抽出的雙語詞典進(jìn)行互譯文本詞語對(duì)齊技術(shù)研究。
根據(jù)以上技術(shù)建立一個(gè)面向漢藏(藏漢)機(jī)器翻譯的句子對(duì)齊的大規(guī)模雙語語料庫。
希望通過研究漢藏平行語料庫句子對(duì)齊和詞語對(duì)齊關(guān)鍵技術(shù)的研究,建立一個(gè)面向漢藏機(jī)器翻譯的雙語語料庫和翻譯知識(shí)獲取平臺(tái),該平臺(tái)能夠?qū)崿F(xiàn):
? 多粒度漢藏雙語語料庫及翻譯知識(shí)的自動(dòng)獲取;
? 大規(guī)模漢藏雙語語料庫及翻譯知識(shí)的自動(dòng)獲??;
在該平臺(tái)的支持下,構(gòu)建具有統(tǒng)一標(biāo)準(zhǔn)和規(guī)范的大規(guī)模、多體裁、篇章級(jí)、段落級(jí)、句子級(jí)和詞語級(jí)等多級(jí)對(duì)齊的面向漢藏機(jī)器翻譯的漢藏雙語對(duì)齊語料庫,在此基礎(chǔ)上繼續(xù)對(duì)漢藏雙語原始語料進(jìn)行收集、整理和加工,為機(jī)器翻譯及多語言處理研究提供有效的技術(shù)和資源支持。
以上研究為漢藏雙語語料庫的構(gòu)建提出了新的思路,對(duì)漢藏雙語資源和翻譯知識(shí)的獲取具有可行性和重要價(jià)值。但是,目前在漢藏雙語語料庫獲取方面還存在著嚴(yán)重不足,需要進(jìn)一步的研究和探索。一是從知識(shí)挖掘的深度和廣度上,現(xiàn)有研究不能滿足藏區(qū)社會(huì)發(fā)展的需要。二是所獲取的漢藏雙語文本零亂,不能直接應(yīng)用于機(jī)器翻譯和翻譯知識(shí)獲取。三是在漢藏雙語資源的處理和構(gòu)建上,目前還沒有一個(gè)實(shí)驗(yàn)性系統(tǒng)。通過對(duì)這些方面的深入研究無疑對(duì)面向漢藏機(jī)器翻譯、知識(shí)獲取、跨語言研究、詞典編纂等方面具有重要價(jià)值。
[1] Fei Huang, Ying Zhang, Stephan Vogel. Mining Key Phrase Translations from Web Corpora[C]//The Proceedings of the HLT-TMNLP-2005: 483-490.
[2] Dekai WU, Pascale FUNG. Inversion Transduction Grammar Constraints for Mining Parallel Sentences from Quasi-Comparable Corpora[C]//Second International Joint Conference on Natural Language Processing (IJCNLP-2005): 257-268.
[3] Gaolin Fang, Hao Yu, Fumihito Nishino. Web-Based Terminology Translation Mining[C]//Second International Joint Conference on Natural Language Processing (IJCNLP-2005): 1004-1016.
[4] 揭春雨,劉曉月,冼景炬,等. 從網(wǎng)絡(luò)獲取香港法律雙語語料庫[C]//全國(guó)第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005): 193-199.
[5] Zhang, Y., Vines. Using the Web for Automated Translation Txtraction in Cross-Language Information Retrieval[C]//Proceedings of SIGIR-2004: 162-169.
[6] 常寶寶,詹衛(wèi)東,張化瑞. 面向漢英機(jī)器翻譯的雙語語料庫的建設(shè)及其管理[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2003,(1): 28-31.
[7] Pu-Jen Cheng, Wen-Hsiang Lu, Jer-Wen Teng, et al. Creating Multilingual Translation Lexicons with Regional Variations Using Web Corpora[C]//Annual Meeting of the Association for Computational Linguistics (ACL-2004).
[8] Pu-Jen Cheng, Jei-Wen Teng, Ruei-Cheng Chen, et al. Translating Unknown Queries with Web Corpora for Cross-Language Information Retrieval[C]//The Proceedings of the SIGIR-2004.
[9] 原雙慶,李芳,盛煥燁. 多語種翻譯詞匯的在線自動(dòng)抽取[J]. 計(jì)算機(jī)研究與發(fā)展, 2004,(5): 843-847.
[10] Philip Resnik, Noah A. Smith. The Web as a Parallel Corpus[J]. Computational Linguistics, 2003, 29(3): 349-380.
[11] W. Kraaij, J.-Y. Nie, M. Simard. Tmbedding Web-based Statistical Translation Models in Cross-Language Information Retrieval[J]. Computational Linguistics, 2003, 29(3): 381-419.
[12] 劉非凡,趙軍,徐波. 大規(guī)模非限定領(lǐng)域漢英雙語語料庫建設(shè)及句子對(duì)齊研究[C]//全國(guó)第7屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議, 2003: 339-345.
[13] 孫茂松,陳群秀.語言計(jì)算與基于內(nèi)容的文本處理[M],清華大學(xué)出版社,2003,7,97-102.
[14] 淑琴,那順烏日?qǐng)D. 面向TBMT系統(tǒng)的漢蒙雙語語料庫的構(gòu)建[C]//少數(shù)民族語言信息技術(shù)研究進(jìn)展-中國(guó)少數(shù)民族語言信息技術(shù)與語言資源庫建設(shè)學(xué)術(shù)研討會(huì)論文集,北京,2004,4,156-163.
[15] 那順烏日?qǐng)D,淑琴. 面向信息處理的蒙古語規(guī)范化研究[J].中央民族大學(xué)學(xué)報(bào),2007,34(6): 115-122.
[16] 才讓加. 藏語語料庫詞類描述方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2011,47(4): 146-148.
[17] 阿比達(dá)·吾買爾,吐爾根·依布拉音.維吾爾語句子邊界識(shí)別算法的設(shè)計(jì)與實(shí)現(xiàn)[J].新疆大學(xué)學(xué)報(bào),2008,(3): 360-363.
[18] 田生偉,吐爾根·依布拉音. TBMT中加權(quán)的維吾爾語單詞哈希表構(gòu)造算法的研究[J]. 中文信息學(xué)報(bào),2009,23(4):121-128.
[19] 田生偉,吐爾根·依布拉音,禹龍,等. 一種維吾爾語句子相似度算法的研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009,45(26):144-146.
[20] 才讓加. 藏語語料庫加工方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2011,47(6): 142-143,150.
[21] 才讓加. 藏語語料庫詞語分類體系及標(biāo)記集研究[J],中文信息學(xué)報(bào),2009,23(4): 107-112.
[22] Jisong Chen, Rowena Chau. Chung-Hsing Yeh: Discovering Parallel Text from the World Wide Web[C]//ACSW Frontiers 2004: 157-161.
[23] Yajuan L, Ming Zhou. Collocation Translation Acquisition Using Monolingual Corpora[C]//42nd Annual Meeting of the Association for Computational Linguistics (ACL), Barcelona, Spain, 2004: 167-174.
[24] Donghui Feng, Yajuan L, Ming Zhou. A New Approach for Tnglish-Chinese Named Tntity Alignment[C]//International Conference on Tmpirical Methods in Natural Language Processing (TMNLP), 2004: 372-379.
[25] 薛松. 漢英平行語料庫中名詞短語對(duì)齊算法的研究[D]. 中國(guó)科學(xué)院軟件研究所碩士論文,2003,6: 17-32.
[26] 常寶寶,柏曉靜. 北京大學(xué)漢英雙語平行語料庫標(biāo)記規(guī)范[J].漢語語言與計(jì)算學(xué)報(bào),2003, 13(2): 195-214.
[27] 艾山,吐爾根·依布拉音.英文維文人名機(jī)器翻譯算法的研究和實(shí)現(xiàn)[J].新疆大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,24(1):97-101.