饒高琦
(北京語言大學(xué) 漢語國(guó)際教育研究院,北京 100083)
信息溝通、心理撫慰和應(yīng)急決策是突發(fā)公共事件應(yīng)對(duì)中不可缺少的三個(gè)環(huán)節(jié)。它們均與語言有重要關(guān)系,也離不開語言技術(shù)的支撐。語言技術(shù)是支撐、服務(wù)語言信息傳播、理解的技術(shù)手段,包括硬件設(shè)備和軟件系統(tǒng)、互聯(lián)網(wǎng)服務(wù)及它們背后的算法、模型、操作流程等。在各國(guó)的應(yīng)急語言能力建設(shè)中,語言技術(shù)的儲(chǔ)備和應(yīng)用都是不可缺少的一環(huán)。世界各國(guó)面向突發(fā)公共事件的語言服務(wù)中,語言技術(shù)也廣泛地起到了支持作用。其中應(yīng)用到的語言技術(shù)主要是各類翻譯技術(shù)(機(jī)器翻譯技術(shù)、機(jī)器輔助翻譯技術(shù))和相關(guān)配套技術(shù)(如術(shù)語管理技術(shù)、翻譯管理平臺(tái)開發(fā)等)。如機(jī)器翻譯技術(shù)在海地地震中進(jìn)行快速部署,并在應(yīng)急反應(yīng)中獲得使用。(1)Lewis W.Haitian creole:How to build and ship an MT engine from scratch in 4 days,17 hours,& 30 minutes[C].Proceedings of the 14th Annual Conference of the European Association for Machine Translation.Saint-Rapha?l:European Association for Machine Translation,2010;Lewis W,Munro R & Vogel S.Crisis MT:Developing a cookbook for MT in crisis situations[C].Proceedings of the 6th Workshop on Statistical Machine Translation.Edinburgh,Scotland:ACM,2011.誠(chéng)然機(jī)器翻譯還不足以解決所有語言障礙,因而眾包翻譯和翻譯平臺(tái)建設(shè)也發(fā)揮了其在災(zāi)害應(yīng)急中的服務(wù)作用。(2)Sutherlin G.A voice in the crowd:Broader implications for crowdsourcing translation during crisis[J].Journal of Information Science,2013,(3).
2020年新冠肺炎疫情暴發(fā),舉國(guó)奮起,齊心抗疫,社會(huì)各界千里馳援湖北。在跨省區(qū)援助中,存在很多語言造成的困難和障礙,醫(yī)患溝通的方言障礙是其一。疫情期間,留在國(guó)內(nèi),尤其是湖北境內(nèi)的外籍人士等非漢語母語者在疫情信息接收和個(gè)人防護(hù)方面存在的語言障礙又是一類。此外隨著疫情在全球范圍內(nèi)擴(kuò)散,各類語言障礙引起的問題,也需要相應(yīng)的語言服務(wù)加以克服。而各類語言服務(wù)的背后都有相應(yīng)語言技術(shù)的支撐和助力。(3)李宇明,趙世舉,赫琳.“戰(zhàn)疫語言服務(wù)團(tuán)”的實(shí)踐與思考[J].語言戰(zhàn)略研究,2020,(3).
國(guó)家語言服務(wù)是國(guó)家語言能力的外顯和實(shí)踐。國(guó)家語言能力是“運(yùn)用語言處理一切國(guó)家利益相關(guān)事務(wù)的能力”。(4)文秋芳.對(duì)“國(guó)家語言能力”的再解讀——兼述中國(guó)國(guó)家語言能力70年的建設(shè)與發(fā)展[J].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2019,(5).國(guó)家語言能力包括5個(gè)方面:語種能力、國(guó)家主要語言的國(guó)內(nèi)外地位、公民語言能力、擁有現(xiàn)代語言技術(shù)的能力、國(guó)家語言生活管理水平。(5)李宇明.提升國(guó)家語言能力的若干思考[J].南開語言學(xué)刊,2011,(1).其評(píng)價(jià)指標(biāo)為7個(gè)方面:國(guó)家通用語言文字的普及程度及水平,國(guó)民掌握語種的數(shù)量及水平、各語種人才的數(shù)量、水平和結(jié)構(gòu)分布,語言資源的可開發(fā)性及開發(fā)效率,語言學(xué)習(xí)資源的可利用性及利用效率,語言信息處理能力和管理社會(huì)語言生活的能力。(6)文秋芳.國(guó)家語言能力的內(nèi)涵及其評(píng)價(jià)指標(biāo)[J].云南師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2016,(2).對(duì)語言能力的不同評(píng)價(jià)方法中都涉及語言技術(shù)的評(píng)價(jià)。可見語言技術(shù)已經(jīng)成為國(guó)家語言能力的重要衡量指標(biāo),也是實(shí)現(xiàn)語言服務(wù)不可或缺的要素。應(yīng)急語言服務(wù)則更加離不開語言技術(shù)的支撐,尤其呼喚對(duì)語言技術(shù)的規(guī)劃。(7)王立非,任杰,孫疆衛(wèi),蒙永業(yè).應(yīng)急語言服務(wù)的概念、研究現(xiàn)狀與機(jī)制體制建設(shè)[J].北京第二外國(guó)語學(xué)院學(xué)報(bào),2020,(1).
當(dāng)前我國(guó)在國(guó)家通用語的普及、國(guó)際傳播,外語人才和資源建設(shè)都取得了長(zhǎng)足進(jìn)步,但包含語言信息處理技術(shù)在內(nèi)的廣泛的語言技術(shù)還有待加強(qiáng)。并非我國(guó)目前語言技術(shù)水平低下,而是語言文字事業(yè)管理者、從業(yè)者對(duì)語言技術(shù)的使用意識(shí)和水平無法滿足應(yīng)對(duì)突發(fā)公共事件的需求。因此語言技術(shù)應(yīng)成為應(yīng)急語言能力建設(shè)的重點(diǎn)內(nèi)容。
在2020年抗擊新冠肺炎疫情期間,為應(yīng)對(duì)在跨省區(qū)援助中的語言障礙,山東大學(xué)齊魯醫(yī)院援鄂醫(yī)療隊(duì)在進(jìn)駐武漢48小時(shí)內(nèi),組織編寫《國(guó)家援鄂醫(yī)療隊(duì)武漢方言實(shí)用手冊(cè)》《國(guó)家援鄂醫(yī)療隊(duì)武漢方言音頻材料》及《護(hù)患溝通讀本》,即是語言應(yīng)急之策。在教育部、國(guó)家語委指導(dǎo)下,來自高校和企業(yè)單位的四十余名專家成立了“戰(zhàn)疫語言服務(wù)團(tuán)”,組織研發(fā)《抗擊疫情湖北方言通》,積極幫助外地援鄂醫(yī)療隊(duì)解決醫(yī)患溝通方言障礙問題,用語言學(xué)專業(yè)力量助力抗疫防控阻擊戰(zhàn)?!犊箵粢咔楹狈窖酝ā飞暇€僅一周即訪問13萬余次,播放33萬次,融媒體口袋書隨各省醫(yī)療隊(duì)發(fā)放6000余冊(cè)?!兑咔榉揽亍昂?jiǎn)明漢語”》快速研發(fā)投入使用,供掌握1200詞水平的非漢語母語人士使用,取得很好效果。在國(guó)際上,服務(wù)團(tuán)短時(shí)間內(nèi)發(fā)布了四十余種語言的肺炎診療、防護(hù)、出入境須知卡片,組織翻譯了6種外語的新冠肺炎病毒治療手冊(cè),建立了專業(yè)平行語料庫和翻譯庫,被十余個(gè)省市外辦采用。服務(wù)團(tuán)策劃了新冠肺炎康復(fù)者向疫區(qū)國(guó)寫信的語言撫慰計(jì)劃。“戰(zhàn)疫語言服務(wù)團(tuán)”發(fā)揮積極作用,是北京語言大學(xué)語言資源高精尖創(chuàng)新中心、中國(guó)語言資源保護(hù)研究中心以及中國(guó)語言生活派學(xué)者長(zhǎng)期科研和探索累積、服務(wù)國(guó)家發(fā)展的典型案例。(8)李宇明.重視突發(fā)公共事件中的語言應(yīng)急問題[J].語言戰(zhàn)略研究,2020,(2);李宇明.戰(zhàn)疫語言服務(wù)團(tuán)的故事[N].人民政協(xié)報(bào),2020-03-09.
抗擊疫情期間語言技術(shù)在各項(xiàng)抗疫語言服務(wù)中的使用情況詳述如下。
為幫助外地援鄂醫(yī)療隊(duì)解決醫(yī)患溝通的方言障礙問題,“戰(zhàn)疫語言服務(wù)團(tuán)”研制了《抗擊疫情湖北方言通》,包括微信版、網(wǎng)絡(luò)版、融媒體版、迷你視頻版、抖音版、在線服務(wù)系統(tǒng)、即時(shí)翻譯軟件等多種產(chǎn)品,為抗擊疫情的醫(yī)護(hù)人員及相關(guān)群體提供多維度語言服務(wù)。
“方言通”涵蓋湖北武漢、黃岡、孝感、宜昌、荊州、咸寧、襄陽、黃石、鄂州、恩施、大冶等11地方言;根據(jù)語料庫統(tǒng)計(jì)和醫(yī)用場(chǎng)景調(diào)研,分診療常用語句、診療常用詞匯兩大部分;共156個(gè)詞語、76個(gè)短句。每個(gè)對(duì)應(yīng)語句、詞匯都以普通話、方言和音頻二維碼分別標(biāo)識(shí),供醫(yī)療工作者和有關(guān)人員參考使用。
1.語料庫技術(shù)
“方言通”的基礎(chǔ)是湖北各地方言的錄音資料。而語言資源保護(hù)工程日常采集的語料乃為服務(wù)語言、文化研究之用,并非面向防護(hù)知識(shí)普及和診療現(xiàn)場(chǎng)。因而“錄什么”需要重新規(guī)劃和設(shè)計(jì),即需要制作面向疫情防控和診療的錄音腳本。該腳本要求使用最少的句子和詞匯,覆蓋最多、最常見的防疫信息和診療對(duì)話現(xiàn)場(chǎng)。為科學(xué)制備腳本,服務(wù)團(tuán)需要構(gòu)建面向防疫信息和診療對(duì)話的語料庫。
戰(zhàn)疫語言服務(wù)團(tuán)在短時(shí)間內(nèi),迅速構(gòu)建了一個(gè)袖珍新冠肺炎診療語料庫。在這一過程中,戰(zhàn)疫語言服務(wù)團(tuán)組織并收集日常用語、醫(yī)療用語、護(hù)理用語的詞語和短句,以此為基礎(chǔ)。以相關(guān)醫(yī)學(xué)術(shù)語為種子,利用政府公告、問診網(wǎng)站和文藝作品等資源,快速構(gòu)建口語化的,問診和護(hù)理場(chǎng)景必備語句,添加入基礎(chǔ)語料庫中,形成戰(zhàn)疫診療語料庫。而后根據(jù)語料庫,服務(wù)團(tuán)利用文本覆蓋度計(jì)算的方法,對(duì)人工挑選的句子、詞匯進(jìn)行覆蓋性的評(píng)估,不斷迭代,形成方言錄音腳本。最終版本由計(jì)算版本錄音底稿和語言資源保護(hù)團(tuán)隊(duì)的湖北版本底稿匯合后刪改成型。
2.語言采錄技術(shù)
“方言通”的核心在于發(fā)言音頻采錄。在“方言通”的研制過程中,戰(zhàn)役語言服務(wù)團(tuán)使用“北語錄音”軟件對(duì)發(fā)音人進(jìn)行音頻采錄?!氨闭Z錄音”是語言資源保護(hù)工程專門為方言信息采集而開發(fā)的便攜錄音軟件,在設(shè)計(jì)上非常適合“方言通”數(shù)據(jù)的采集。“北語錄音”自動(dòng)讀入按規(guī)定格式整理好的腳本excel表格,逐行醒目顯示待錄制內(nèi)容。發(fā)音人朗讀內(nèi)容后,可自動(dòng)保存音頻文件。全部錄音文件自動(dòng)保存在同一個(gè)文件夾里,該文件夾與相應(yīng)的錄音用表所在位置相同,名稱相同。
圖1 “北語錄音”軟件界面
具有高質(zhì)量音頻采集和便捷操作模式的錄音軟件為發(fā)音人快速錄制音頻提供了極大便利,是“方言通”能夠快速上線服務(wù)的重要保障。
3.音頻檢索與傳播
“方言通”的呈現(xiàn)方式包括微信版、網(wǎng)絡(luò)版、融媒體版、迷你視頻版、抖音版、在線服務(wù)系統(tǒng)、即時(shí)翻譯軟件等多種方式。其中微信版、網(wǎng)絡(luò)版和融媒體版均涉及音頻檢索的技術(shù)。所有音頻均通以音頻內(nèi)容本身為關(guān)鍵字進(jìn)行檢索,由于方言表達(dá)中的詞顆粒度和普通話無法完全一一對(duì)應(yīng),故這一檢索是全文字符檢索而非傳統(tǒng)的詞檢索。圖2為“方言通”微信版用戶界面。
融媒體版則通過口袋書的形式呈現(xiàn)。全書每個(gè)對(duì)應(yīng)語句、詞匯都以普通話、方言和音頻二維碼分別標(biāo)識(shí),供醫(yī)療工作者和有關(guān)人員參考使用。
迷你視頻版和抖音版則將分句、分詞的方言數(shù)據(jù)按照類別、用途和方言種類進(jìn)行歸類后,按照設(shè)計(jì)順序連接為一段音頻,配以文字注釋和圖像,在微信、抖音等視頻平臺(tái)進(jìn)行播放、傳播。
圖2 “方言通”微信版用戶界面 圖3 “方言通”融媒體口袋書樣頁
4.呼叫平臺(tái)建設(shè)
除了供醫(yī)護(hù)和有關(guān)人員主動(dòng)查詢、播放的方言音頻資料外,“方言通”還通過建設(shè)呼叫平臺(tái)提供現(xiàn)場(chǎng)“方普”翻譯服務(wù)。用戶撥打熱線電話(027-59771671)后,電話被接入方言分配中心,用戶可按照提示選擇方言。隨后系統(tǒng)將自動(dòng)為用戶分配一名該方言志愿者為醫(yī)患雙方提供現(xiàn)場(chǎng)的方普翻譯服務(wù)。呼叫平臺(tái)實(shí)現(xiàn)了9種湖北主要方言的“方普”翻譯服務(wù)。
5.語音識(shí)別平臺(tái)
面向人口最多的武漢話方言片區(qū),“方言通”推出了面向武漢話的方言語音識(shí)別服務(wù)。該服務(wù)內(nèi)嵌于訊飛語音輸入法中。利用基于深度學(xué)習(xí)方法的語音識(shí)別技術(shù),使用事先大量采集的武漢方言樣本,經(jīng)過快速密集人力標(biāo)引和校對(duì),團(tuán)隊(duì)研發(fā)了武漢話語音識(shí)別系統(tǒng)。系統(tǒng)可在近距離低噪聲情況下將病患方言語音轉(zhuǎn)換為文字顯示,供醫(yī)護(hù)人員查看。
面對(duì)全國(guó)新冠肺炎疫情防控形勢(shì)積極向好,國(guó)際疫情防控形勢(shì)日趨嚴(yán)峻的局面,戰(zhàn)疫語言服務(wù)團(tuán)在后期將服務(wù)方向轉(zhuǎn)向外語,面向在華外籍人士提供疫情防控和治療語言服務(wù)?!兑咔榉揽赝庹Z通》的內(nèi)容目前包括日常注意事項(xiàng)、入境注意事項(xiàng)、就診常用句,語種包括日語、韓語/朝鮮語、波斯語、意大利語、阿拉伯語、英語等41種語言。成果類型包括視頻版、多媒體卡片版、軟件系統(tǒng)版,成果通過微信、網(wǎng)頁、抖音、印刷品等方式推出。《疫情防控外語通》可提供給醫(yī)療機(jī)構(gòu)、教育機(jī)構(gòu)、機(jī)場(chǎng)港口、航空公司、外交外事機(jī)構(gòu)、海關(guān)、社區(qū)管理部門使用,也可以直接提供給留學(xué)生等外籍人士使用。
1.語言翻譯與采錄
在多語種數(shù)據(jù)采集方面,“外語通”采用了和“方言通”相似的流程,使用“北語錄音”進(jìn)行多國(guó)語言錄制。語言數(shù)據(jù)則通過眾包的方式,廣泛征集各語種的母語者(用于發(fā)音)和專業(yè)中外翻譯人員(進(jìn)行翻譯和校對(duì))進(jìn)行制備。
2.機(jī)器輔助翻譯
新冠疫情相關(guān)信息具有高度領(lǐng)域性,但數(shù)據(jù)總量有限。因而相比于全自動(dòng)的機(jī)器翻譯,更適合機(jī)器輔助翻譯進(jìn)行疫情相關(guān)資料的翻譯。戰(zhàn)役語言服務(wù)團(tuán)在我國(guó)疫情得到控制后,開始使用機(jī)器輔助翻譯技術(shù)進(jìn)行大規(guī)模的疫情防控、診療文本外譯工作。機(jī)器輔助翻譯平臺(tái)(及與其相配合的術(shù)語管理平臺(tái))存儲(chǔ)了經(jīng)由專家審校的術(shù)語、固定表達(dá)、專業(yè)表述等信息,并在翻譯項(xiàng)目進(jìn)行過程中不斷擴(kuò)充經(jīng)過審校的雙語對(duì)譯片段。隨著翻譯項(xiàng)目的進(jìn)行,重復(fù)出現(xiàn)的語言片段可以得到自動(dòng)匹配和翻譯,項(xiàng)目效率較之完全人工翻譯進(jìn)行有大幅提高,質(zhì)量也更有保障。
3.平行語料庫建設(shè)
機(jī)器翻譯和機(jī)器輔助翻譯的基石是多語平行語料和多語翻譯記憶庫。為服務(wù)各方面的翻譯需求,戰(zhàn)疫語言服務(wù)團(tuán)為此建設(shè)了匯聚疫情相關(guān)信息的在線BiCovid平行語料庫。BiCovid是一個(gè)由來自于世界各地的數(shù)百位志愿者共同維護(hù)的雙語文本檢索和共享工具。它包含的文本全都是COVID-2019相關(guān)的防疫知識(shí)和重要消息。截至目前,該網(wǎng)站已經(jīng)發(fā)布將近5萬條雙語對(duì)照信息,并包括中文、英語、日語、韓語、法語、俄語、西班牙語、意大利語、德語等9門語言。
圖5 BiCovid在線平行語料庫使用界面
“簡(jiǎn)明漢語”工作的輸入是我國(guó)疾控部門發(fā)布的權(quán)威疫情防控信息和個(gè)人防護(hù)指導(dǎo)守則,輸出則為可供1200詞匯量人群閱讀的簡(jiǎn)明漢語文本?!昂?jiǎn)明漢語”編寫的關(guān)鍵在于制定詞匯、句法、篇章層面的簡(jiǎn)化操作規(guī)范標(biāo)準(zhǔn),并加以執(zhí)行。就工作量而言,大量簡(jiǎn)化工作集中于詞匯簡(jiǎn)化階段。這一階段使用了語言信息處理中基本的文本計(jì)算技術(shù)以提高人員編寫效率。
根據(jù)HSK詞匯分級(jí)大綱,匹配輸入文本中所有的超出四級(jí)的詞匯,并進(jìn)行標(biāo)注,提示編寫人員進(jìn)行“降級(jí)”處理。
使用同義詞詞林(9)梅家駒,竺一鳴,高蘊(yùn)琦,殷鴻翔.同義詞詞林[M].上海:上海辭書出版社,1996.、大詞林(10)哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心.大詞林[EB/OL].http://101.200.120.155/,2020.、知網(wǎng)(11)董振東等.《知網(wǎng)》知識(shí)系統(tǒng)[EB/OL].http://www.keenage.com/,2012.等同義詞或詞匯知識(shí)資源,自動(dòng)查找同義、近義、上位詞,形成候選替換詞集,供編寫人員選擇。
語言技術(shù)的迅猛發(fā)展,提高了語言服務(wù)的效率。面向突發(fā)公共事件的應(yīng)急語言能力建設(shè)呼喚更多、更智能的語言技術(shù)支持。這些技術(shù)主要集中在語言資源建設(shè)、機(jī)器翻譯、機(jī)器輔助翻譯、文本簡(jiǎn)化技術(shù)和語情監(jiān)測(cè)等方面?,F(xiàn)詳述如下。
除基本的語言通信手段外,當(dāng)前所有應(yīng)對(duì)突發(fā)公共危機(jī)的語言技術(shù)均依賴于高質(zhì)量、大規(guī)模的語言資源建設(shè)。本次抗擊疫情的應(yīng)急語言服務(wù)中,機(jī)器翻譯、語音識(shí)別和方言播報(bào)等服務(wù)均需要大量精細(xì)的領(lǐng)域語言資源支持?!按罅俊斌w現(xiàn)在語言數(shù)據(jù)數(shù)量需要滿足當(dāng)前通用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型訓(xùn)練所需,一般在數(shù)十萬句到上千萬句不等?!熬?xì)”體現(xiàn)在語言數(shù)據(jù)的顆粒度方面,即湖北省內(nèi)各方言片區(qū)、少數(shù)民族語言使用區(qū)域的語言數(shù)據(jù)要精準(zhǔn)、齊備?!邦I(lǐng)域”體現(xiàn)在面向新冠疫情的防控、診療這一專門方面,需要充足的術(shù)語、診療對(duì)話等數(shù)據(jù)。這些都是面向研究用和互聯(lián)網(wǎng)服務(wù)的語言資源所不具備的特性。因而應(yīng)對(duì)各類突發(fā)公共危機(jī),特種語言資源建設(shè)任重而道遠(yuǎn)。
應(yīng)急語言服務(wù)的核心在于克服語言障礙,實(shí)現(xiàn)語言信息的溝通,則其核心任務(wù)就是各種語言(和語言模式)之間的翻譯。機(jī)器翻譯是服務(wù)這一任務(wù)的重要技術(shù)。面向突發(fā)公共危機(jī)的機(jī)器翻譯應(yīng)不僅僅局限于漢語、外語的翻譯,還應(yīng)該包括漢語、少數(shù)民族語言,普通話、方言、普通話、手語/盲文,復(fù)雜書面語、簡(jiǎn)明漢語等不同語言(和語言模式)之間的翻譯。
目前完全依靠機(jī)器翻譯進(jìn)行語言、文本的轉(zhuǎn)換,其可靠性尚不足以完全滿足使用,因而在實(shí)踐中更多使用的是機(jī)器翻譯模型集成的機(jī)器輔助翻譯軟件和平臺(tái)。機(jī)器輔助翻譯一方面通過機(jī)器翻譯模型自動(dòng)將源語言輸入轉(zhuǎn)換為目標(biāo)語言輸出,另一方面將譯員輸入的在翻譯記憶庫里可匹配的模式與片段(即曾經(jīng)被翻譯過的)找出,直接替換為翻譯記憶庫中片段。兩相結(jié)合,以高效的人機(jī)交互方式呈現(xiàn)給人類譯員,實(shí)現(xiàn)人在閉環(huán)中(12)人在閉環(huán)中,值得是智能系統(tǒng)產(chǎn)生數(shù)據(jù)服務(wù),用戶接受數(shù)據(jù)服務(wù)并反饋的過程中,有用戶或?qū)I(yè)人員參與數(shù)據(jù)質(zhì)量校驗(yàn)、模型優(yōu)化等工作,提升人機(jī)協(xié)同系統(tǒng)的整體效能。的高效人機(jī)協(xié)同翻譯實(shí)踐。
使用機(jī)器輔助翻譯軟件和平臺(tái),可以高效協(xié)同眾多語言志愿者共同工作,減少重復(fù)工作,提高包括術(shù)語一致性、表達(dá)一致性在內(nèi)的翻譯質(zhì)量。
“簡(jiǎn)明漢語”方案本質(zhì)上是對(duì)復(fù)雜書面語的簡(jiǎn)化,可視作一種文本簡(jiǎn)化過程和特殊的風(fēng)格遷移計(jì)算。文本簡(jiǎn)化任務(wù)的目標(biāo)是在不顯著改變句子原始語義的前提下,將復(fù)雜句子轉(zhuǎn)換為更容易理解的簡(jiǎn)單句子。目前常用的方法有基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的序列到序列方法和基于深度學(xué)習(xí)模型的文本生成方法。但是和其他自然語言處理任務(wù)相似,文本簡(jiǎn)化任務(wù)也需要大量高質(zhì)量平行語料支持,即書面語和簡(jiǎn)化后文本的對(duì)照數(shù)據(jù)。這方面的資源建設(shè)尚存在大量空白。
語情監(jiān)測(cè)承擔(dān)事前摸清語言國(guó)情、事中協(xié)助輿論場(chǎng)有效運(yùn)行等重要任務(wù)。語情監(jiān)測(cè)配合各類語言溝通任務(wù)向公眾宣傳防護(hù)方法、法律法規(guī)和相關(guān)方針政策,偵測(cè)不良語言現(xiàn)象,減少不良輿論對(duì)決策和應(yīng)急行動(dòng)帶來的障礙。語情監(jiān)測(cè)工作應(yīng)監(jiān)測(cè)各類媒體中的語言使用情況,在輿論場(chǎng)中協(xié)助抗災(zāi)救災(zāi)精神的凝聚。偵測(cè)和消除不良語言現(xiàn)象,如“污名化”“言語暴力”“言語歧視”等。在自媒體較為發(fā)達(dá)的時(shí)代,怎樣進(jìn)行語情監(jiān)測(cè)還是一個(gè)新課題。語情監(jiān)測(cè)不僅在國(guó)內(nèi),也在國(guó)外;在全球化的時(shí)代,國(guó)際輿論場(chǎng)也需要關(guān)注和引導(dǎo)。
本文梳理了2020年新冠病毒性肺炎疫情期間,戰(zhàn)疫語言服務(wù)團(tuán)在應(yīng)急語言服務(wù)中所采用的語言技術(shù)。主要包含語料庫技術(shù)、音頻/文本檢索技術(shù)、機(jī)器翻譯和機(jī)器輔助翻譯技術(shù)、文本分析與計(jì)算技術(shù)等。
如新冠肺炎疫情這樣的大型突發(fā)公共衛(wèi)生事件,需要多種語言技術(shù)的綜合應(yīng)用。盡管多項(xiàng)語言服務(wù)在抗擊疫情的過程中取得顯著成效,但也還有很多需要提升的地方:(1)面向突發(fā)公共事件的語言資源儲(chǔ)備不足。目前,大多數(shù)語言資源建設(shè)面向語言研究、教學(xué)和商業(yè)信息服務(wù)。此次抗擊疫情需要臨時(shí)制備語料,便暴露了這一問題。(2)語言智能技術(shù)分散,協(xié)調(diào)效率不足。應(yīng)對(duì)公共突發(fā)事件需要的語言智能技術(shù)規(guī)劃基本缺失,沒有技術(shù)和技術(shù)提供方的清單。為了應(yīng)對(duì)這樣的問題,應(yīng)急語言服務(wù)在頂層設(shè)計(jì)時(shí),就應(yīng)充分考慮到語言資源建設(shè)和技術(shù)儲(chǔ)備。建設(shè)可用性高,領(lǐng)域替換方便的語言資源體系和廣泛可動(dòng)員的人力資源庫存。這些語言資源和人力資源信息也需要持續(xù)維護(hù)更新。在技術(shù)方面應(yīng)規(guī)劃應(yīng)對(duì)突發(fā)公共事件所需語言智能技術(shù)的技術(shù)清單和提供方清單,定期舉行技術(shù)評(píng)測(cè),保持技術(shù)的前沿性和可用性。
最后,資源與技術(shù)總是在實(shí)戰(zhàn)中得到檢驗(yàn)和增強(qiáng),這些裝備也應(yīng)隨著我國(guó)語言服務(wù),一同參與全球公共危機(jī)事件的應(yīng)急服務(wù)。更好面對(duì)人類問題,方能更好解決自己的問題。而要實(shí)現(xiàn)這些,都要求有關(guān)科研和規(guī)劃部門提高技術(shù)儲(chǔ)備和數(shù)據(jù)資源建設(shè)的意識(shí),未雨綢繆,研究語言技術(shù)應(yīng)急服務(wù)預(yù)案。