王子云,毛 毳
(1.山東理工大學(xué)外國語學(xué)院,2276758300@qq.com;2.通信作者,山東理工大學(xué)外國語學(xué)院,kerrymao@163.com)
ChatGPT (Chat Generative Pre-trained Transformer) 是美國人工智能創(chuàng)業(yè)公司OpenAI于2022年11月公開發(fā)布的聊天機(jī)器人,其以多輪對(duì)話的形式,通過用戶的提示引導(dǎo)進(jìn)行內(nèi)容創(chuàng)作[1]。溯其根源,其模型基礎(chǔ)是最初專為機(jī)器翻譯任務(wù)打造的Transformer,在此基礎(chǔ)上進(jìn)一步開發(fā)研究形成了GPT模型,并先后經(jīng)歷了GPT-1、GPT-2、GPT-3、GPT-4等多代升級(jí)。基于GPT模型,采用更大規(guī)模的訓(xùn)練數(shù)據(jù)和更深層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),ChatGPT橫空出世,它可以遵循特定的提示語 (prompt) 提供詳細(xì)的反饋,使得人機(jī)交互更加智能化和人性化。
ChatGPT一經(jīng)推出就引起了各行各業(yè)的強(qiáng)烈反響,是人人可用、行行有用的信息助理[2]。作為機(jī)器學(xué)習(xí)大數(shù)據(jù)深耕的最新成果,ChatGPT通過大數(shù)據(jù)納入人類語境理解人類語言,具有嚴(yán)密的語言邏輯和強(qiáng)大文本生成能力[3],可作為輔助翻譯任務(wù)的工具,但其翻譯質(zhì)量如何有待探究。
陶瓷是中國傳統(tǒng)文化的重要組成部分,具有深厚的歷史底蘊(yùn)。淄博陶瓷根植于齊魯大地深厚的文化底蘊(yùn)之中,不僅是淄博的重要名片,也是中國瓷器史的一個(gè)縮影[4]。陶瓷文化的對(duì)外傳播對(duì)促進(jìn)文化交流、推動(dòng)產(chǎn)業(yè)發(fā)展、保護(hù)和傳承陶瓷的制作技藝具有重要意義。因此,以淄博陶瓷琉璃博物館相關(guān)介紹文本為語料探討如何提升ChatGPT的翻譯質(zhì)量,對(duì)陶瓷相關(guān)翻譯工作者、研究者具有一定的價(jià)值。
本研究采用基于GPT3.5版本的 ChatGPT模型,以其對(duì)陶瓷類文本的漢英翻譯為例,通過與其他機(jī)器翻譯軟件譯文的對(duì)比分析,評(píng)估該模型的譯文質(zhì)量。同時(shí)測試不同提示語對(duì)譯文質(zhì)量的影響,總結(jié)可以提升譯文質(zhì)量的優(yōu)秀提示語,使ChatGPT成為陶瓷類文本翻譯工作中更好的助手。
本研究采用自動(dòng)評(píng)估方法,對(duì)比分析ChatGPT與其他3種機(jī)器翻譯軟件處理同一篇陶瓷文本的BLEU值和TER值,判斷ChatGPT的翻譯質(zhì)量;對(duì)比分析不同翻譯提示語下輸出的譯文質(zhì)量,探究提示語對(duì)譯文質(zhì)量的影響,并篩選能夠提升譯文質(zhì)量的優(yōu)秀提示語。
本研究擬回答以下三個(gè)問題:
第一,作為機(jī)器翻譯工具,ChatGPT輸出的譯文質(zhì)量如何?
第二,不同的ChatGPT提示語對(duì)譯文質(zhì)量是否有影響?
第三,何種翻譯提示語可以較好地提升譯文質(zhì)量?
本研究采用機(jī)器翻譯質(zhì)量自動(dòng)評(píng)估法和對(duì)比分析法。對(duì)于同一個(gè)問題,ChatGPT每次都能給出不同的回答,不會(huì)千篇一律[5]。因此,為避免同一提示語輸出結(jié)果的隨機(jī)性,本研究獲取每一條提示語下的3次輸出譯文,報(bào)告譯文質(zhì)量的平均值,以確保測試結(jié)果的效度和信度。
1.2.1 測試文本
本研究的翻譯測試文本選自淄博陶瓷琉璃博物館“古齊廳”與“國窯廳”的中英文介紹,共獲取中文文本2770個(gè)字符,參考英文譯文1751個(gè)字符。
1.2.2 機(jī)器翻譯軟件
本研究將ChatGPT與其他3種機(jī)器翻譯軟件進(jìn)行比較,其中包括Google翻譯、Youdao詞典以及DeepL翻譯,這3種機(jī)器翻譯軟件可分別支持133、109和29種語言之間的實(shí)時(shí)翻譯。本研究所用數(shù)據(jù)均基于GPT3.5版本的ChatGPT,數(shù)據(jù)收集時(shí)間截至2023年3月30日。
1.2.3 自動(dòng)評(píng)估指標(biāo)
BLEU值和TER值是兩種常見的機(jī)器翻譯質(zhì)量評(píng)估指標(biāo)。BLEU (Bilingual Evaluation Understudy) 由IBM于2001年提出[6],基于n-gram模型,比較機(jī)器譯文中的n-gram與參考譯文中的n-gram,計(jì)算匹配的n-gram數(shù)量占機(jī)器譯文n-gram總數(shù)量的比例,用于評(píng)估機(jī)器譯文的充分性和流暢性。BLEU是國際上機(jī)器自動(dòng)翻譯評(píng)價(jià)系統(tǒng)的流行指標(biāo),數(shù)值越高,表明譯文質(zhì)量越好[7]。TER (Translation Edit Rate) 由Snover等于2006年提出[8],基于編輯距離模型,通過統(tǒng)計(jì)機(jī)器譯文修改為參考譯文的后編輯次數(shù),來分析機(jī)器譯文的質(zhì)量,用于評(píng)估機(jī)器譯文中詞匯和語法的錯(cuò)誤率,即詞匯和語法的正確性。機(jī)器譯文所需的后編輯次數(shù)越少,譯文質(zhì)量就越高[9]。兩種指標(biāo)用于評(píng)估機(jī)器譯文的不同方面,結(jié)合使用可以更全面、準(zhǔn)確地評(píng)估機(jī)器譯文質(zhì)量的優(yōu)劣。本研究選用“試譯寶——譯文測評(píng)工具”對(duì)譯文的BLEU值和TER值進(jìn)行計(jì)算。
1.2.4 翻譯提示語
在ChatGPT中,提示語通常指輸入的文本段落或短語,作為生成模型輸出的起點(diǎn)或引導(dǎo)。提示語可以是一個(gè)問題、一段文字描述、一段對(duì)話或一段任何形式的文本輸入,模型會(huì)基于提示語所提供的上下文和語義信息,生成相應(yīng)的輸出文本。設(shè)置提示語就是設(shè)置與ChatGPT的對(duì)話模式[10]。
本研究在ChatGPT中使用多個(gè)翻譯提示語以獲取多個(gè)譯文進(jìn)行比較,其中包括ChatGPT直接翻譯提示語(用“ChatGPT”表示),添加術(shù)語限定的翻譯提示語(用“Cp術(shù)語”表示),添加“文本來源/語言風(fēng)格/目標(biāo)讀者”等背景信息的翻譯提示語(用“Cp背景”表示),以上提示語見表1。另外,筆者將“Cp術(shù)語”和“Cp背景”2條翻譯提示語輸入ChatGPT進(jìn)行優(yōu)化,分別獲取3條機(jī)器翻譯提示語,以“Cp1、Cp2、Cp3”和“Cp4、Cp5、Cp6”表示。本文第2部分將對(duì)以上提示語的內(nèi)容及譯文質(zhì)量進(jìn)行詳細(xì)介紹。
表1 ChatGPT直接翻譯提示語和“Cp術(shù)語”“Cp背景”提示語
與傳統(tǒng)的機(jī)器翻譯軟件直接呈現(xiàn)原始輸入句子的翻譯版本相比,大型語言模型 (Large Language Models) 需要應(yīng)用特定的模板來格式化原始句子以生成譯文。本文以“Please provide the [TGT] translation for these sentences:”作為ChatGPT直接翻譯提示語,獲取直接翻譯譯文,并與其它3種傳統(tǒng)機(jī)器翻譯軟件的譯文進(jìn)行質(zhì)量比較,分別計(jì)算BLEU和TER數(shù)值,結(jié)果如表2所示。
表2 ChatGPT與其他機(jī)器翻譯軟件的譯文質(zhì)量指標(biāo) 單位:%
由表2可知,在BLEU指標(biāo)上,ChatGPT、Google、DeepL和Youdao譯文的數(shù)值均高于30%,其中ChatGPT數(shù)值最高,其次是Google和Youdao,而DeepL數(shù)值最低。周成彬等指出,使用BLEU值對(duì)模型進(jìn)行評(píng)估,取得31.4%的BLEU值,譯文質(zhì)量良好,達(dá)到了機(jī)器翻譯的效果[11]。由此可知,在譯文的充分性和流暢性上,4種機(jī)器翻譯軟件的翻譯質(zhì)量均為良好,且ChatGPT最為出眾。在TER指標(biāo)上,ChatGPT和Google譯文的數(shù)值均高于70%,其次是DeepL,而Youdao數(shù)值最低。這表明在詞匯和語法的準(zhǔn)確性上,Youdao譯文表現(xiàn)最佳,DeepL次之,ChatGPT和Google譯文在該方面略有不足。
綜上所述,在陶瓷類文本的漢英翻譯任務(wù)中,除Youdao譯文在TER指標(biāo)上有明顯優(yōu)勢之外,ChatGPT譯文在充分性和流暢性及詞匯和語法的準(zhǔn)確性上與常用的這3種機(jī)器翻譯軟件數(shù)值相當(dāng),譯文質(zhì)量總體較好。表明在該文本翻譯領(lǐng)域中,基于GPT3.5的ChatGPT已經(jīng)具備一定的競爭力,可以和現(xiàn)有的機(jī)器翻譯軟件相媲美。
分別獲取“ChatGPT”“Cp術(shù)語”“Cp背景”以及“Cp1、Cp2、Cp3、Cp4、Cp5、Cp6”這9條提示語下的輸出譯文,對(duì)其譯文的BLEU值和TER值進(jìn)行對(duì)比分析,以探究不同翻譯提示語對(duì)譯文質(zhì)量的影響,結(jié)果如表3所示。
表3 不同提示語下的 ChatGPT譯文質(zhì)量 單位:%
由表3數(shù)據(jù)可知,提示語對(duì)于機(jī)器翻譯質(zhì)量具有重要影響,不同提示語所生成的譯文質(zhì)量存在較大差異。筆者對(duì)人工編寫的提示語和ChatGPT優(yōu)化后自動(dòng)生成的提示語條件下生成的譯文質(zhì)量進(jìn)行分析有以下發(fā)現(xiàn)。
第一,在人工編寫的提示語下的譯文質(zhì)量,相比于“ChatGPT”直接翻譯提示語下的譯文質(zhì)量,“Cp術(shù)語”提示語下輸出譯文的TER值略微下降,BLEU值也有所下降,但“Cp背景”提示語輸出的譯文BLEU值提升了一個(gè)百分點(diǎn),且TER值有所降低。由此可知,當(dāng)人工編寫的提示語個(gè)體主觀因素的干擾較強(qiáng),表述籠統(tǒng)或難以給出準(zhǔn)確和具體的細(xì)節(jié)時(shí),會(huì)影響譯文的翻譯質(zhì)量。增加具體化背景信息作為翻譯提示語參數(shù)的優(yōu)化方法,可以取得較好的翻譯效果。該方法可以為翻譯模型提供更準(zhǔn)確和具體的上下文信息,從而更好地提升翻譯質(zhì)量,為翻譯實(shí)踐提供更好的支持。
第二,在ChatGPT根據(jù)人工編寫提示語自動(dòng)生成的提示語中,除Cp1與Cp5提示語下輸出譯文的TER值稍高于直接翻譯之外,其他機(jī)器翻譯提示語下輸出的譯文BLEU值均高于ChatGPT直接翻譯譯文,且TER值均有所降低。值得注意的是,與直接翻譯譯文相比,Cp3和Cp6提示語下輸出譯文的BLEU值均高出至少1個(gè)百分點(diǎn),TER值均降低至少3個(gè)百分點(diǎn)。以上結(jié)果表明,ChatGPT根據(jù)要求自動(dòng)生成的翻譯提示語下的譯文充分性和流暢性更好,詞匯和語法準(zhǔn)確性更高。由此推斷,經(jīng)過ChatGPT優(yōu)化后自動(dòng)生成的提示語更符合機(jī)器的語言表達(dá)方式,能夠有效提高機(jī)器翻譯的準(zhǔn)確性,從而提升機(jī)器翻譯的整體質(zhì)量。
綜合以上分析可知,人工編寫提示語會(huì)由于表述主觀性和籠統(tǒng)性等原因降低譯文質(zhì)量,經(jīng)過添加具體化內(nèi)容的提示語可以提升譯文質(zhì)量。但相比之下,經(jīng)過ChatGPT優(yōu)化后自動(dòng)生成的提示語下產(chǎn)生的譯文質(zhì)量更好,這表明自動(dòng)生成的機(jī)器翻譯提示語更有利于ChatGPT輸出高質(zhì)量譯文。
要獲取機(jī)器翻譯指令,需要人工設(shè)定提示語與ChatGPT開啟對(duì)話,筆者反復(fù)測試,發(fā)現(xiàn)“Please provide three concise prompts or templates for ‘human-made prompt’:”這一條提示語下的譯文質(zhì)量最好,由此獲取機(jī)器翻譯提示語結(jié)果如表4所示。
表4 添加術(shù)語和背景的機(jī)器翻譯提示語
由表3、表4可知,在兩組機(jī)器翻譯提示語中,Cp3和Cp6提示語下所輸出的譯文BLEU值提升最高,TER值降低最多。表明在添加術(shù)語和背景信息時(shí)分別采用Cp3和Cp6提示語形式來觸發(fā)ChatGPT的翻譯性能,所產(chǎn)生的譯文質(zhì)量更好。
此外,在添加術(shù)語提示語的過程中,筆者發(fā)現(xiàn)只有將術(shù)語以“源語(譯語)”的形式輸入ChatGPT,它才能完全理解并按照提示語進(jìn)行翻譯,這一結(jié)論可以通過ChatGPT對(duì)譯文提取術(shù)語進(jìn)行對(duì)比驗(yàn)證。
為進(jìn)一步評(píng)估優(yōu)秀提示語的有效性,筆者選用以下具體譯文案例進(jìn)行對(duì)比分析,結(jié)果如表5和表6所示。
表5 添加術(shù)語的機(jī)器翻譯提示語下的譯文比較
表6 添加背景的機(jī)器翻譯提示語下的譯文比較
筆者選用了添加術(shù)語的三個(gè)機(jī)器提示語中的典型例句,以說明提示語對(duì)翻譯質(zhì)量差異的影響。由表5可知,原文中“明器”是指古代人們下葬時(shí)帶入地下的隨葬器物,即“冥器”,與“隨葬用的陶制模型”所指相同。而Cp1和Cp2提示語下所輸出譯文均未能正確識(shí)別該詞的含義,將“明器”完全錯(cuò)譯為“Ming pottery”和“bright-colored pottery”。此外,在原文“特別是隨葬用的陶制模型,各類陶塑,形象生動(dòng)的人俑、馬俑、藝俑”中,“各類陶塑”和“形象生動(dòng)的人俑、馬俑、藝俑”之間是上下義關(guān)系而非并列關(guān)系,但Cp2提示語下輸出譯文僅按照詞語出現(xiàn)的先后順序,錯(cuò)譯為并列關(guān)系。相比之下,Cp3提示語下輸出譯文雖規(guī)避了“明器”這個(gè)詞的翻譯,但是“特別是隨葬用的陶制模型,各類陶塑,形象生動(dòng)的人俑、馬俑、藝俑”的處理使語義更加清晰、完整,并準(zhǔn)確再現(xiàn)了原文的上下義關(guān)系結(jié)構(gòu),大大提升了譯文質(zhì)量。
由表6可知,相較于Cp4和Cp5提示語下輸出的譯文,Cp6提示語下輸出的譯文被動(dòng)語態(tài)使用頻率更高。漢語里的被動(dòng)語態(tài)是借助詞匯手段實(shí)現(xiàn)的,由“被、由、為……所、在……中”構(gòu)成的被動(dòng)句一般表示較強(qiáng)的被動(dòng)意義,側(cè)重于行為的表達(dá),英譯時(shí)通常譯為英語的被動(dòng)句[12]。所以,Cp5和Cp6提示語下輸出的譯文將“白瓷作為貢品為皇家所享用”譯為英語被動(dòng)語態(tài)更為合適。另外,英語使用被動(dòng)式,常常是為了表示某種客觀、間接、非人稱的口氣,以迎合某些表達(dá)的需要,漢語往往不用被動(dòng)式,而用無主句、主語省略句、主語泛稱句及其他句式??傊?英語常用被動(dòng)式,漢語常用主動(dòng)式。英漢互譯,就要句式轉(zhuǎn)換[13]。Cp4和Cp5提示語下輸出的譯文根據(jù)上下文將原文無主句“在這里形成了以淄川、博山為代表的陶瓷生產(chǎn)基地和產(chǎn)品銷售中心”增譯了主語“Zibo”,符合英語語法,表達(dá)意義也正確,但都采用了主動(dòng)句式,不符合英語多使用被動(dòng)語態(tài)的特征,未能重點(diǎn)突出“淄川”和“博山”這些重要信息,與參考譯文句式差異較大。由以上分析可知,Cp6提示語下輸出的譯文更符合英語表達(dá)方式,譯文質(zhì)量最好。
綜上所述,在陶瓷類文本漢譯英任務(wù)中,ChatGPT自身優(yōu)化的添加術(shù)語和背景信息的機(jī)器翻譯提示語可以提升譯文質(zhì)量,但提升指數(shù)不一,其中添加術(shù)語的優(yōu)秀機(jī)翻提示語為“I need the text to be translated into [target language], with specific attention given to accurately translating these [terms]:”,并保證“terms”的輸入形式為“source language (target language)”;添加背景信息的優(yōu)秀機(jī)翻提示語為“Translate the text into [target language] based on [source of text][language style][target readers]:”,且括號(hào)中的內(nèi)容可根據(jù)實(shí)際需求進(jìn)行更改。
作為機(jī)器翻譯工具,ChatGPT與其他3種機(jī)器翻譯軟件在本次陶瓷文本漢英翻譯任務(wù)中的譯文質(zhì)量不相上下,表明ChatGPT已經(jīng)在現(xiàn)有的機(jī)器翻譯軟件中具備一定的競爭力。同時(shí),相較于傳統(tǒng)的人工編寫提示語,將人工編寫的提示語輸入ChatGPT優(yōu)化后自動(dòng)生成提示語下產(chǎn)生的機(jī)器翻譯譯文質(zhì)量更好,表明ChatGPT中自動(dòng)化提示語生成技術(shù)可以提供更高的適應(yīng)性和翻譯效率。另外,本文總結(jié)了2條能夠較好提升譯文質(zhì)量的優(yōu)秀機(jī)器翻譯提示語,供相關(guān)領(lǐng)域的譯者參考使用。
陶瓷類文本翻譯需要考慮眾多專業(yè)術(shù)語和歷史文化背景等因素的影響,傳統(tǒng)的陶瓷文本翻譯需要耗費(fèi)大量時(shí)間和精力,對(duì)相關(guān)領(lǐng)域的譯者和機(jī)構(gòu)有較高要求和較大挑戰(zhàn)性。ChatGPT憑借其強(qiáng)大數(shù)據(jù)庫和深度學(xué)習(xí)能力,針對(duì)這些文本特征可以快速實(shí)現(xiàn)譯前資料查詢及譯后術(shù)語修正。同時(shí),本研究提出的提示語優(yōu)化技術(shù)——“人工編寫提示語 → ChatGPT優(yōu)化自動(dòng)生成提示語 → 獲取譯文”可以使ChatGPT輸出更高質(zhì)量的譯文。譯后編輯是翻譯服務(wù)行業(yè)積極采取的翻譯方式,以更高質(zhì)量的ChatGPT譯文作為其初始處理文本,可以更好地提高譯文質(zhì)量和翻譯效率,實(shí)現(xiàn)人機(jī)交互優(yōu)勢最大化。這給相關(guān)博物館、翻譯研究所等帶來了更高的翻譯質(zhì)量和更低的翻譯成本。同時(shí)也要求該領(lǐng)域譯者迅速轉(zhuǎn)化角色,持續(xù)提升自身陶瓷專業(yè)知識(shí)和翻譯水平與使用提示語駕馭智能化工具的專業(yè)能力,進(jìn)而更好地傳播陶瓷文化。此外,面對(duì)ChatGPT及其訓(xùn)練語言的強(qiáng)大沖擊,語言學(xué)者更應(yīng)在翻譯傳播中確保語言傳達(dá)的準(zhǔn)確性與合理性,維護(hù)漢語語言本真,從而準(zhǔn)確傳播中華優(yōu)秀傳統(tǒng)文化。
綜上所述,在陶瓷類文本漢英翻譯任務(wù)中,ChatGPT可以作為我們的有效助手,從譯前準(zhǔn)備至譯后編輯,全面提升翻譯質(zhì)量和翻譯效率。作為一種仍在快速開發(fā)的高智能問答機(jī)器人,ChatGPT各方面性能都在不斷提升,可以預(yù)見,在未來的發(fā)展中,ChatGPT的翻譯質(zhì)量會(huì)越來越高,ChatGPT優(yōu)化后的自動(dòng)生成提示語技術(shù)也將發(fā)揮越來越重要的作用。