唐紅芳 李婧怡
[摘要] 語(yǔ)言歧義一直都是自然語(yǔ)言處理系統(tǒng)面臨的最大挑戰(zhàn)之一,最近百度推出的人工智能模型文心一言引起了大眾的關(guān)注。通過(guò)實(shí)證研究,分析文心一言在漢語(yǔ)歧義句方面的翻譯現(xiàn)狀,探討其在漢語(yǔ)歧義句翻譯方面的特點(diǎn)和不足,得出文心一言可以通過(guò)人為反饋對(duì)結(jié)果進(jìn)行優(yōu)化,而且關(guān)注語(yǔ)言的使用習(xí)慣,讓表達(dá)更地道,但是翻譯比較單一,且沒(méi)有一致性。這讓人們更好地了解自然語(yǔ)言處理機(jī)制,優(yōu)化人工智能的性能,讓其更好地為人類(lèi)所用,達(dá)到“人機(jī)合作”的理想局面。
[關(guān)? 鍵? 詞] 漢語(yǔ)歧義;人機(jī)互動(dòng);文心一言;翻譯
一、引言
我國(guó)著名語(yǔ)言學(xué)家朱德熙先生認(rèn)為:“一種語(yǔ)言語(yǔ)法系統(tǒng)里的錯(cuò)綜復(fù)雜和精細(xì)微妙之處往往在歧義現(xiàn)象里得到反映?!彪S著時(shí)代的發(fā)展,人工智能逐漸出現(xiàn)在生活中,比如機(jī)器翻譯、人機(jī)對(duì)話、智慧教學(xué)等,而語(yǔ)言是人機(jī)交流最基礎(chǔ)的媒介,自然語(yǔ)言的處理就變得十分關(guān)鍵。機(jī)器無(wú)法像人類(lèi)一樣可以通過(guò)生活常識(shí)和對(duì)漢語(yǔ)的精準(zhǔn)掌握來(lái)排除歧義,它只有掌握人類(lèi)制定出來(lái)的一套消除歧義的規(guī)則才能破解這個(gè)難題。而機(jī)器翻譯就是一個(gè)不斷去除句子分析歧義的過(guò)程。因此,研究自然語(yǔ)言的歧義現(xiàn)象,并制定系統(tǒng)的消解歧義的規(guī)則,讓機(jī)器去掌握,是新時(shí)代語(yǔ)言學(xué)發(fā)展的一個(gè)關(guān)鍵方向。
二、文獻(xiàn)綜述
對(duì)于漢語(yǔ)的歧義研究最早可追溯到趙元任先生用英語(yǔ)發(fā)表的《漢語(yǔ)歧義問(wèn)題》。此后,漢語(yǔ)研究者從多個(gè)方面對(duì)歧義進(jìn)行了探討,主要有歧義定義、歧義類(lèi)型、歧義格式、歧義比較和歧義消解方法等。劉悅怡等(2020)對(duì)歧義的分類(lèi)文獻(xiàn)進(jìn)行了詳細(xì)的梳理,將現(xiàn)代漢語(yǔ)的歧義類(lèi)型劃分為語(yǔ)音歧義、詞匯歧義、句法歧義、語(yǔ)義歧義和語(yǔ)用歧義五大類(lèi),本文將按照此分類(lèi)標(biāo)準(zhǔn)進(jìn)行實(shí)驗(yàn)。目前的歧義研究以書(shū)面語(yǔ)歧義為主,語(yǔ)用歧義的相關(guān)研究還不夠深入,且多注重口頭交際,書(shū)面交際中的語(yǔ)用歧義研究比較匱乏(尤天來(lái),2022)。因此,這里主要探討兩個(gè)基本歧義層次,即詞匯歧義和句法歧義,這也是自然語(yǔ)言處理模型要面對(duì)的最基本的挑戰(zhàn)。
目前對(duì)于人工智能在歧義句翻譯方面的研究還不多。劉海軍等(1997)基于全句翻譯的智能英漢機(jī)器翻譯系統(tǒng),構(gòu)造了一個(gè)語(yǔ)言環(huán)境以消除語(yǔ)境方面的歧義,如組合歧義、省略等語(yǔ)言現(xiàn)象。陳海東(2009)針對(duì)計(jì)算機(jī)翻譯系統(tǒng)中漢語(yǔ)詞匯切分的問(wèn)題,提出在漢語(yǔ)標(biāo)點(diǎn)中利用切分詞標(biāo)點(diǎn)的解決方法。要想機(jī)器識(shí)別出漢語(yǔ)歧義句并準(zhǔn)確翻譯成另外一種語(yǔ)言,需要大量的實(shí)證研究和推理,從而得到歧義消解的辦法。實(shí)際上,機(jī)器翻譯就是一個(gè)不斷去除句子分析歧義的過(guò)程(劉海軍等,1997)。
根據(jù)上述文獻(xiàn),研究人工智能對(duì)于漢語(yǔ)歧義句的翻譯現(xiàn)狀是有必要的。本文基于一篇研究ChatGPT語(yǔ)義模糊分析的實(shí)驗(yàn)步驟,從漢語(yǔ)歧義角度出發(fā),讓文心一言翻譯一些典型的漢語(yǔ)歧義句,并對(duì)翻譯結(jié)果進(jìn)行分析,探討其在漢語(yǔ)歧義句翻譯方面的特點(diǎn)和不足,進(jìn)一步討論人工智能與語(yǔ)言學(xué)理論是否可以相適應(yīng)。
三、結(jié)果與討論
(一)詞匯歧義翻譯
劉悅怡等(2020)認(rèn)為,詞匯歧義是指由詞(字)形相同、意義不同的詞(字)所引起的歧義,且與詞匯結(jié)構(gòu)、句法結(jié)構(gòu)的差異無(wú)關(guān)。詞匯歧義又可進(jìn)一步分為多音詞歧義和一詞多義歧義。比如說(shuō),“這是一本好書(shū)”,這句話中的“好”既可以是說(shuō)書(shū)的“內(nèi)容”好,也可以是說(shuō)書(shū)的本身完好、無(wú)損壞,兩者都是形容詞,所以這是一個(gè)詞類(lèi)相同的一詞多義歧義。多音詞歧義只出現(xiàn)在書(shū)面語(yǔ)中,一旦讀出來(lái)就沒(méi)有歧義了,但是文心一言支持用戶語(yǔ)音輸入,因此這里不討論多音詞歧義的翻譯情況,只研究一詞多義造成的歧義現(xiàn)象。每個(gè)句子的實(shí)驗(yàn)流程基本如下:(1)翻譯。(2)問(wèn)是不是歧義句。(3)問(wèn)句子中多義詞的含義。(4)再次翻譯這句話。
首先,對(duì)它進(jìn)行簡(jiǎn)單句的測(cè)試,包括“桌子上放著蘋(píng)果”“菜不熱了”和“ 他走了一個(gè)小時(shí)了”,并判斷文心一言能否識(shí)別出其中的歧義現(xiàn)象,答案是不能。 像“桌子上放著蘋(píng)果”這句話中的“蘋(píng)果”既可以指水果,又可以指蘋(píng)果牌電腦,因此在沒(méi)有語(yǔ)境的情況下,這是一個(gè)歧義句。但是文心一言并沒(méi)有看出這里的歧義,堅(jiān)持認(rèn)為“蘋(píng)果”是指水果。這樣的情況在測(cè)試的三個(gè)例句中都有發(fā)生,文心一言都只能確認(rèn)這個(gè)詞語(yǔ)最常見(jiàn)、用得最多的意思,對(duì)其進(jìn)行英語(yǔ)翻譯也只提供了這一種翻譯方式,包括 “There is an apple on the table”,“The food is not hot anymore”,“He has been gone for an hour”。
其次,通過(guò)多輪有意提問(wèn)的方式,比如“有沒(méi)有可能‘菜不熱了中的‘熱字是作動(dòng)詞表示加熱”等這種指向性的提問(wèn)方式,獲得的反饋是積極的,通過(guò)人為提示,知道這個(gè)詞語(yǔ)可能還存在的幾個(gè)意思,不過(guò)也暗示用戶要提供更多的語(yǔ)境信息和明確表達(dá)自己的需求,才能避免句子歧義。但是也發(fā)現(xiàn)一個(gè)現(xiàn)象,即使它知道這是一個(gè)歧義句,其展現(xiàn)出來(lái)的歧義解釋有些不符合人們正常的思維規(guī)律,比如說(shuō)對(duì)于“菜不熱了”中“熱”這個(gè)字的解釋是“菜已經(jīng)冷掉了”和“這不是一道熱菜”,后面一個(gè)解釋似乎不符合語(yǔ)言使用習(xí)慣,且已有文獻(xiàn)并未提供這個(gè)解釋?zhuān)▌傗龋?020)。
最后,在幾輪提問(wèn)和獲得正向性反饋的基礎(chǔ)上,讓其再次翻譯一下這句話,并且提問(wèn)方式換成了“這句話可以有哪些翻譯”,或許是受到提問(wèn)中“哪些”這個(gè)詞的影響,一般會(huì)得到多種答案,大都包含了這個(gè)詞語(yǔ)不同意思的翻譯,并且對(duì)于用法沒(méi)那么常見(jiàn)的解釋?zhuān)矔?huì)提供更加準(zhǔn)確、地道的英語(yǔ)句子,比如說(shuō)“他走了一個(gè)小時(shí)了”理解為“他已經(jīng)去世一個(gè)小時(shí)了”的話,比較直接的翻譯是“He has been dead for an hour”。但是這種翻譯并不符合英語(yǔ)的語(yǔ)用習(xí)慣,因此它建議翻譯成“He passed away an hour ago”。
總的來(lái)說(shuō),文心一言很難識(shí)別出一詞多義歧義句,有時(shí)甚至還會(huì)提供錯(cuò)誤的意思,但是通過(guò)人為有意的引導(dǎo)和提醒,它可以識(shí)別出這個(gè)多義詞的多重含義,說(shuō)明文心一言具有根據(jù)用戶反饋從而提高回答準(zhǔn)確度的能力,因此,我們可以通過(guò)有意識(shí)的訓(xùn)練提問(wèn)方式,來(lái)獲得想要的答案,從而減少機(jī)器運(yùn)行負(fù)擔(dān)。比如說(shuō),可以問(wèn)“這句話有哪些翻譯”而不是“請(qǐng)翻譯一下這句話”,這樣得到的答案或許更符合我們的預(yù)期,也能擴(kuò)寬知識(shí)量。
(二)句法歧義翻譯
句法歧義是指句子因結(jié)構(gòu)層次不同或句法成分之間的關(guān)系不同而產(chǎn)生的歧義,又可以細(xì)分為結(jié)構(gòu)層次歧義和結(jié)構(gòu)關(guān)系歧義(劉悅怡等,2020)。比如說(shuō),“小王和小張的同學(xué)”是典型的結(jié)構(gòu)層次歧義,句子由于層次切分的不同,可以產(chǎn)生兩種解釋?zhuān)础靶⊥?和小張的同學(xué)”和“小王和小張的/同學(xué)”。像“學(xué)習(xí)文件”這句話,兩種解釋的結(jié)構(gòu)層次都相同,都是“學(xué)習(xí)/文件”,但是成分間的關(guān)系不同,“學(xué)習(xí)”和“文件”的關(guān)系既可以是偏正結(jié)構(gòu),也可以是動(dòng)賓結(jié)構(gòu),因此稱(chēng)為結(jié)構(gòu)關(guān)系歧義。這一部分我將分析五個(gè)句子,每個(gè)句子的分析步驟大致如下:(1)翻譯。(2)問(wèn)是不是歧義句。(3)確定有歧義的部分。(4)再次翻譯這句話。
首先分析一個(gè)結(jié)構(gòu)層次歧義句,在漢語(yǔ)中,“張三和李四的同學(xué)”屬于結(jié)構(gòu)層次歧義句,由于連詞“和”管轄領(lǐng)域的不同,其層次可以理解為(N1+和+N2)+的+N3,也可以理解為N1+和+(N2+的+N3),從而產(chǎn)生歧義,既可以表示“張三自己和李四的同學(xué)”,也可以表示“張三和李四兩個(gè)人的同學(xué)”,其中同學(xué)可能是一個(gè),也可能是兩個(gè)或者很多個(gè)。當(dāng)問(wèn)文心一言這句話是不是歧義句時(shí),它辨別了這是一個(gè)歧義句,然而它給出的歧義解釋并不全面,只包含 “張三和李四共同的同學(xué)”和“張三和李四各自的同學(xué)”這兩個(gè)意思。當(dāng)繼續(xù)問(wèn)能不能有“張三自己和李四的同學(xué)”這個(gè)意思時(shí),它同意存在這個(gè)解釋。從最初的翻譯“Classmate of Zhang San and Li Si”增加了“Zhang Sans classmate and Li Si's classmate”另一種英文表述。因此,對(duì)于漢語(yǔ)中的結(jié)構(gòu)層次歧義句翻譯,我們可以在詢問(wèn)時(shí)組織好措辭,盡可能簡(jiǎn)明地表明問(wèn)題,包括詞語(yǔ)的單復(fù)數(shù)形式、句子切分后的語(yǔ)序等,把潛在的歧義都顯化出來(lái),以獲得更加準(zhǔn)確的結(jié)果。
同樣的結(jié)構(gòu)層次歧義句“咬死獵人的狗”卻有不同的實(shí)驗(yàn)結(jié)果,一開(kāi)始它不認(rèn)為這是歧義句,翻譯出來(lái)的句子也是 “The dog that bit the hunter to death”。后面經(jīng)過(guò)多次提問(wèn),它認(rèn)為這句話中的歧義問(wèn)題可以通過(guò)上下文或者語(yǔ)境來(lái)消解,因此在實(shí)際使用中一般不會(huì)造成誤解。而且最后給出的翻譯都包含了這兩種釋義,即“The dog that bit the hunter to death”“The hunters dog that was killed by an attacking animal”“The hunters dog that was bitten and killed by another dog”這再一次印證了有效的提問(wèn)方式和人為的反饋可以提高文心一言文本內(nèi)容生成的準(zhǔn)確性。
對(duì)于結(jié)構(gòu)關(guān)系歧義,我選取了兩種關(guān)系不同的短語(yǔ),即“學(xué)生家長(zhǎng)”這種并列或偏正結(jié)構(gòu),以及“學(xué)習(xí)文件”這種偏正或動(dòng)賓結(jié)構(gòu)。第一種關(guān)系歧義句,它只識(shí)別出了偏正結(jié)構(gòu),即“學(xué)生的家長(zhǎng)”,翻譯結(jié)果為“Students parents” or “students parents”。經(jīng)過(guò)提醒后,也指出并列結(jié)構(gòu)的解釋需要依靠語(yǔ)境,而且這是一個(gè)復(fù)數(shù)概念,或許是上一輪回答有提到“復(fù)數(shù)”概念,最后讓它再次翻譯的時(shí)候,“學(xué)生”都是復(fù)數(shù)形式,不同于第一次給出的有單數(shù)形式。第二種卻恰恰相反,最先給出的翻譯 “l(fā)earned document”到最后直接沒(méi)有了,只剩下動(dòng)賓結(jié)構(gòu)的形式,這要?dú)w于中間多輪刻意的詢問(wèn)。它可以準(zhǔn)確識(shí)別出這句話存在兩種解釋方式,即“學(xué)習(xí)這份文件的內(nèi)容”和“將文件作為學(xué)習(xí)資源”,但是在翻譯環(huán)節(jié)出現(xiàn)了錯(cuò)誤,只翻譯出了動(dòng)賓結(jié)構(gòu)這種形式。
盡管文心一言前后回答存在出入,但經(jīng)過(guò)多次的詢問(wèn)之后,其最后給出的翻譯結(jié)果也不十分完美,但是這對(duì)研究這個(gè)模型是如何自我學(xué)習(xí)有重要的作用,而且還有助于用戶學(xué)習(xí)如何與其互動(dòng),以達(dá)到更好的效果。文心一言可以通過(guò)人為干預(yù)來(lái)提升其回答的準(zhǔn)確性,因此可以讓用戶自主學(xué)習(xí)有效的交流方式和提問(wèn)方式,這或許不失為一個(gè)好辦法。
四、歧義句生成測(cè)試
想了解文心一言對(duì)于歧義句的概念界定,最直接的辦法就是讓其自己生成一個(gè)歧義句,結(jié)果它生成的句子是“他背著我去了一趟書(shū)店”,顯然這是一個(gè)歧義句,而且是多音詞歧義,但它給出的兩種解釋都屬于一個(gè)意思,即“他偷偷地去了書(shū)店,不想讓我知道”和“他去書(shū)店的時(shí)候,我是知道的,但是我是在店外等他,而他沒(méi)有告訴我他去書(shū)店干了什么”。因此,它對(duì)于漢語(yǔ)歧義句的定義完全沒(méi)概念,只知道有幾種不同的解釋方式就算作歧義句,不管解釋得對(duì)與否。這或許也是導(dǎo)致它前后回答矛盾、得出的翻譯結(jié)果不夠全面的原因之一,此次實(shí)驗(yàn)的全部數(shù)據(jù)總結(jié)如下表:
表格包含了文心一言對(duì)于漢語(yǔ)歧義句的翻譯測(cè)試結(jié)果,其中正確識(shí)別(解釋?zhuān)┬辛惺侵竿ㄟ^(guò)提示后的結(jié)果,正確翻譯是指最后測(cè)試的翻譯結(jié)果。實(shí)驗(yàn)結(jié)果表明文心一言可以借助用戶的提問(wèn)方式和反饋來(lái)優(yōu)化其生成結(jié)果。不過(guò)它也多次提出,消除歧義的關(guān)鍵是充足的語(yǔ)境。但是,它正確且全面地把歧義句翻譯出來(lái)的比率只有識(shí)別的一半,即42. 8%,主要表現(xiàn)在句法歧義方面。英文的句法習(xí)慣不同于中文,可能受提問(wèn)方式的影響,從而影響對(duì)中文歧義句的判斷。
五、結(jié)論
本文從漢語(yǔ)歧義角度出發(fā),讓文心一言翻譯一些典型的漢語(yǔ)歧義句,并對(duì)翻譯結(jié)果進(jìn)行分析,探討人工智能在漢語(yǔ)歧義句翻譯方面的特點(diǎn)和不足,結(jié)果表明文心一言在歧義句翻譯方面有利有弊,它可以通過(guò)人為反饋對(duì)結(jié)果進(jìn)行優(yōu)化,而且關(guān)注語(yǔ)言的使用習(xí)慣,讓表達(dá)更加地道,但是翻譯比較單一,且沒(méi)有一致性,答案多變不固定,有時(shí)還會(huì)出現(xiàn)有歧義的英語(yǔ)句子。然而,實(shí)驗(yàn)也會(huì)存在一些局限性,文心一言作為一款人工智能模型,一直在優(yōu)化迭代,導(dǎo)致這個(gè)實(shí)驗(yàn)中的一些數(shù)據(jù)和結(jié)果可能會(huì)與未來(lái)的模型存在出入。這需要做更多研究和實(shí)驗(yàn),以更好地了解和發(fā)展自然語(yǔ)言處理機(jī)制,優(yōu)化人工智能的性能,讓其更好地為人類(lèi)所用,達(dá)到“人機(jī)合作”的理想局面。
參考文獻(xiàn):
[1]陳海東.計(jì)算機(jī)翻譯存在的困難及解決方法新探[J].廣東科技,2009,18(16):87-88.
[2]賈光茂.英漢語(yǔ)量詞轄域歧義的認(rèn)知語(yǔ)法研究[J].現(xiàn)代外語(yǔ),2020,43(4):451-462.
[3]劉海軍.智能機(jī)器翻譯中的語(yǔ)境信息處理[D].北京:中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所),1997.
[4]劉悅怡,宮齊.現(xiàn)代漢語(yǔ)歧義類(lèi)型的再討論[J].暨南學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2020,42(5):24-32.
[5]尤天來(lái).言語(yǔ)行為理論視角下的語(yǔ)用歧義策略研究[D].長(zhǎng)春:吉林大學(xué),2022.
[6]于秒,周思敏,龍佳欣.內(nèi)隱韻律與語(yǔ)境對(duì)漢語(yǔ)均衡型歧義結(jié)構(gòu)歧義消解的作用[J].心理與行為研究,2022,20(6):739-746.
[7]趙帥,鹿士義,陳婧,等.母語(yǔ)為韓語(yǔ)的漢語(yǔ)學(xué)習(xí)者加工“V+N1+的+N2”歧義結(jié)構(gòu)的眼動(dòng)研究[J].心理與行為研究,2019,17(1):15-23.
作者簡(jiǎn)介:
唐紅芳(1968—),女,漢族,湖南瀏陽(yáng)人,教授,研究方向:語(yǔ)用學(xué)、應(yīng)用語(yǔ)言學(xué)、外語(yǔ)教學(xué)。
李婧怡(2000—),女,漢族,湖南岳陽(yáng)人,碩士研究生在讀,研究方向:外國(guó)語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)。
作者單位:湖南工業(yè)大學(xué)