李寧,朱麗平,2*,趙小兵,2,木尼熱·艾爾肯
1.中央民族大學信息工程學院,北京 100081
2.國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081
語音自古以來就是人際交流最基本的方式,在使用不同語言的人與人之間實現(xiàn)無障礙語音交流一直是世界各國人民的愿望。語音翻譯,通過計算機技術(shù)實現(xiàn)語音到語音的翻譯(S2ST)或語音到文本的翻譯(AST),是實現(xiàn)跨語言人際交流的重要工具。
傳統(tǒng)的語音翻譯系統(tǒng)采用級聯(lián)方式,語音到文本翻譯由自動語音識別(ASR)模塊和機器翻譯(MT)模塊兩級級聯(lián)實現(xiàn),語音到語音翻譯由 ASR、MT和語音合成模塊(TTS)三級級聯(lián)實現(xiàn),通過單獨訓練和調(diào)整每個模塊提升整體性能。隨著語音識別、機器翻譯和語音合成技術(shù)的日趨成熟,級聯(lián)方式語音翻譯的整體性能較高,但也存在一些固有的問題,如只有語音沒有文字的語言的語音翻譯問題[1],因系統(tǒng)級聯(lián)而產(chǎn)生的誤差傳播問題[2]等。為了解決這些問題,端到端模型[3]成為近年來的研究熱點。研究表明,當有足夠多的數(shù)據(jù)可用時,端到端模型的性能優(yōu)于級聯(lián)方式,但在低數(shù)據(jù)情況下表現(xiàn)不佳[4]。與現(xiàn)有的語音識別、機器翻譯和語音合成數(shù)據(jù)集相比,語音到語音翻譯和語音到文本翻譯均面臨嚴重的數(shù)據(jù)稀缺問題,尤其是低資源小語種語音翻譯數(shù)據(jù)集非常匱乏[5]。
針對語音翻譯數(shù)據(jù)稀缺問題,數(shù)據(jù)集建設(shè)成為當前語音翻譯的研究方向之一。在語音到文本翻譯數(shù)據(jù)集建設(shè)方面,國內(nèi)外研究者目前廣泛采用的方法是在現(xiàn)有公開數(shù)據(jù)集基礎(chǔ)上,利用機器翻譯得到數(shù)據(jù)集。根據(jù)構(gòu)建方式不同,這種方法又可分為兩類,一類是利用ASR數(shù)據(jù),將源文本翻譯成目標語言文本,生成AST數(shù)據(jù)集;另一類是利用MT數(shù)據(jù),將某一語言的文字進行語音合成,生成AST數(shù)據(jù)集[6]。
BéRARD A以LibriSpeech公開數(shù)據(jù)集為基礎(chǔ),對該數(shù)據(jù)集進行法語對齊與谷歌翻譯,生成語音翻譯數(shù)據(jù)集[7],該數(shù)據(jù)集已被LIU Y用于基于知識蒸餾的端到端語音翻譯研究[8]。KANO T通過英日機器翻譯語料庫,通過語音合成的方式生成語音數(shù)據(jù),進行端到端的英語日語語音翻譯研究[9]。PINO J利用機器翻譯模型,將英文文本翻譯成法語和羅馬尼亞語和利用語音合成技術(shù)將WMT14進行語音合成生成音頻增強數(shù)據(jù)[6]。KANO T使用BTEC英語日語平行語料庫,并使用谷歌語音合成技術(shù)生成語音語料庫研究遠距離語言對的端到端語音翻譯[1]。TU M使用IWSLT2019提供的由并行數(shù)據(jù)和機器翻譯生成的合成語料庫研究端到端語音翻譯[10]。PINO J證明了兩類語音到文本翻譯數(shù)據(jù)集,并證明利用ASR生成AST數(shù)據(jù)集比利用MT生成AST數(shù)據(jù)集效果更好[6]。
由于目前國內(nèi)語音翻譯相關(guān)數(shù)據(jù)集幾乎是空白,國際數(shù)據(jù)集多集中在英語方面,在漢語方面僅僅開展了英漢領(lǐng)域的研究,蒙古語、維吾爾語研究工作由于缺少相關(guān)數(shù)據(jù)集支撐而無法開展。本研究在現(xiàn)有公開數(shù)據(jù)集AISHELL[11]、THUYG-20[12]基礎(chǔ)上,利用機器翻譯和人工校對相結(jié)合,構(gòu)建了兩種語音到文字翻譯數(shù)據(jù)集:中文語音到蒙文文字數(shù)據(jù)集和維語語音到中文文字數(shù)據(jù)集,可用于端到端語音翻譯模型的研究,開展?jié)h語方面的語音翻譯相關(guān)研究。本數(shù)據(jù)集內(nèi)容涵蓋智能家居、無人駕駛、工業(yè)生產(chǎn)、新聞等多方面,覆蓋面廣,可用于多種場景。數(shù)據(jù)集生成方法較國際公開方法,增加了人工校對步驟,更加科學可靠地保證了數(shù)據(jù)質(zhì)量。
本數(shù)據(jù)集包含兩部分,由中文語音蒙文文字語音翻譯數(shù)據(jù)集和維語語音中文文字語音翻譯數(shù)據(jù)集組成。中蒙語音翻譯數(shù)據(jù)集包含1919條中文語音,以及中文語音翻譯對應(yīng)的蒙古文文字。維漢音數(shù)據(jù)集包含3692條維吾爾語語音,以及維吾爾語語音翻譯對應(yīng)的中文文字。
中文語音蒙文文字語音翻譯數(shù)據(jù)集的中文語音語料直接取自于 AISHELL語音識別數(shù)據(jù)集[11],對應(yīng)的蒙文文本原始語料由AISHELL數(shù)據(jù)集中的中文文本經(jīng)過預處理、機器翻譯和后處理得到。用中文語音和原始蒙文文本訓練語音翻譯模型,從訓練結(jié)果中篩選出準確(Bilingual Evaulation Understudy,即BLEU值為1)的中蒙語音翻譯數(shù)據(jù)共計25842條,得到形成中蒙語音翻譯數(shù)據(jù)集原型。再采用隨機抽樣的方式,從數(shù)據(jù)集中隨機抽取2000條數(shù)據(jù),經(jīng)過專家審核、校對、刪除和更新,得到最終的中蒙語音翻譯數(shù)據(jù)集。數(shù)據(jù)處理方案如圖1所示。
具體處理步驟如下:
1)預處理:將AISHELL數(shù)據(jù)集中帶空格的中文文本數(shù)據(jù)去空格。
2)機器翻譯:把中文文本翻譯成蒙文文本。
3)后處理:數(shù)據(jù)清洗,處理特殊字符,包括過濾蒙文語句中的特殊符號,比如書名號,雙引號等,以及用計算機輔助方法對蒙古語中的不可見字符,如蒙古元音分隔符等進行批處理,消除不可見字符造成的蒙古文變形現(xiàn)象。
4)語音翻譯模型篩選數(shù)據(jù):采用編碼器解碼器結(jié)構(gòu)的端到端語音翻譯模型,將文本正確,BLEU值為1的蒙文翻譯文本篩選出來。
5)抽樣校驗:利用隨機抽樣,從抽樣數(shù)據(jù)集中抽出部分數(shù)據(jù),由專家審核,挑選出存在偏差的數(shù)據(jù),交由后續(xù)專家人工校對,糾正文中的錯詞、錯字及語義不清的文本,形成最終數(shù)據(jù)集。
維漢數(shù)據(jù)集中的維語語音語料取自于清華大學和新疆大學發(fā)布的 THUYG-20語音識別數(shù)據(jù)集[12],對應(yīng)的中文文本原始語料由THUYG-20數(shù)據(jù)集中拉丁化的維文文本數(shù)據(jù)經(jīng)過預處理、機器翻譯、后處理、專家校驗、最終整合得到,如圖2所示。
具體處理步驟如下:
1)預處理:將THUYG-20數(shù)據(jù)集,利用THUYG-20官方提供的工具包解碼拉丁化,得到維吾爾文字。
2)機器翻譯:把維吾爾語文本翻譯成中文文本。
3)后處理:數(shù)據(jù)清洗,處理特殊字符,包括過濾維文語句中的特殊符號,比如書名號,雙引號等,以及一些機器翻譯無法識別的語句。
4)專家校驗:通過隨機抽樣,從數(shù)據(jù)集中抽出部分數(shù)據(jù),由專家審核、校對。
5)整合處理:將專家校對后的數(shù)據(jù)整理、去除標記,形成最終數(shù)據(jù)集。
本數(shù)據(jù)集包含中蒙語音翻譯數(shù)據(jù)集和維漢語音翻譯數(shù)據(jù)集兩部分。數(shù)據(jù)包括音頻文件以及對應(yīng)翻譯文本,音頻文件格式為wav格式,采樣率是16 kHz,文本文件格式是txt文本。中蒙語音翻譯數(shù)據(jù)集包含樣本1919條,大小為238 MB。維漢語音翻譯數(shù)據(jù)集包含樣本3692條,大小為652MB。
如圖3,每個數(shù)據(jù)集包括wav文件夾和doc文件夾兩個文件夾,其中doc文件夾中存放的是翻譯文本,wav文件夾中存放音頻文件,如下圖4所示。
圖5是中蒙語音翻譯數(shù)據(jù)集中的蒙文文本,第一列是音頻文件名,對應(yīng)wav文件夾中的音頻文件,中間采用水平制表符“ ”分隔,第二列是音頻對應(yīng)的蒙文文本。音頻文件名中的第7-11個字符,比如BAC009S0113W0155中的S0113代表是由用戶idS0113所錄制,中間用戶id不同,代表音頻錄制人不同。
本數(shù)據(jù)通過機器翻譯將源語言文本翻譯成目標語言文本,從而得到了語音翻譯數(shù)據(jù)集,但機器翻譯的結(jié)果存在一定偏差,故后續(xù)邀請蒙語、維語語言專家進行打分評價,人工校驗數(shù)據(jù)集,將數(shù)據(jù)質(zhì)量高的數(shù)據(jù)整理成為最終的語音翻譯數(shù)據(jù)。
如圖6是蒙語專家對中蒙機器翻譯數(shù)據(jù)審核的結(jié)果,蒙語專家將根據(jù)偶數(shù)行的中文數(shù)據(jù)審核、判斷蒙文數(shù)據(jù)是否存在差錯,以及存在怎樣的差錯。
圖7、圖8給出了蒙文專家校正的文本數(shù)據(jù)對比圖,圖中左列均為音頻文件名,右列是音頻文件所對應(yīng)的中文文本和蒙文文本,圖7為專家校驗之前的機器翻譯原文,圖8是專家校正之后的結(jié)果。
圖9是維文專家校正的文本數(shù)據(jù)對比圖,每一行從左至右依次為文本所屬音頻編號,機器翻譯的中文文本,翻譯檢驗標記。其中,0代表翻譯不準確,其后為翻譯的問題,如漏翻或翻錯,以及改正后的中文翻譯結(jié)果;1代表翻譯正確。
通過專家審核、校驗,改善機器翻譯產(chǎn)生的偏差,進一步提高數(shù)據(jù)質(zhì)量,使得數(shù)據(jù)更加真實、可靠。
現(xiàn)在語音翻譯數(shù)據(jù)稀少,國際英語相關(guān)的數(shù)據(jù)比較多,但國內(nèi)研究較少,中蒙數(shù)據(jù)和維漢數(shù)據(jù)填補了中文相關(guān)語音翻譯的稀缺數(shù)據(jù)。本文提供的語音翻譯數(shù)據(jù)可以直接用于語音翻譯的相關(guān)研究。本數(shù)據(jù)是由AISHELL、THUYG20數(shù)據(jù)集處理加工而來,便于使用AISHELL、THUYG20數(shù)據(jù)集的科研工作人員快速開始訓練,同時還便于將AISHELL、THUYG20的模型遷移到本數(shù)據(jù)集上。科研人員也可根據(jù)本數(shù)據(jù)集與AISHELL、THUYG20數(shù)據(jù)集音頻命名規(guī)則一致,便于修改預處理流程,快速開展相應(yīng)實驗,用于機器翻譯的相關(guān)研究。
致 謝
感謝中央民族大學中國少數(shù)民族語言研究院高娃教授,中國社會科學院民族學與人類學研究所哈斯其木格研究員,中國政法大學戚肖克博士對蒙文機器翻譯質(zhì)量評估給出的寶貴建議,感謝呼和浩特民族學院包烏歌德勒博士,九原區(qū)蒙古族學校娜日娜老師,中央民族大學趙美麗、都樂根、媛媛對蒙文數(shù)據(jù)的審校。
數(shù)據(jù)作者分工職責
李寧(1996—),男,山東省泰安市人,碩士研究生,研究方向為語音翻譯。主要承擔工作:數(shù)據(jù)集的預處理和整合、論文撰寫。
朱麗平(1970—),女,湖南省株洲市人,博士,教授,研究方向為語音翻譯。主要承擔工作:總體質(zhì)量管控,機器翻譯結(jié)果審校組織、協(xié)調(diào)與管理,論文指導與修改。
趙小兵(1967—),女,內(nèi)蒙古自治區(qū)呼和浩特市人,博士,教授,研究方向為自然語言處理。主要承擔工作:數(shù)據(jù)質(zhì)量控制與綜合管理。
木尼熱·艾爾肯(1999—),女,新疆省葉城縣人,本科,研究方向為自然語言處理。主要承擔工作:維語數(shù)據(jù)質(zhì)量控制。