王寧 張世傳
【摘要】人工智能語言存在表達(dá)生硬、分析固化及話輪轉(zhuǎn)換滯后等問題,原因在于其自然語言處理機(jī)制對(duì)自然語言理解不足,過度依賴書面語料進(jìn)行分析。在不改變語料類型的前提下,關(guān)鍵在于理解并優(yōu)化書面語與口語之間的轉(zhuǎn)換。本文結(jié)合語言學(xué)與人工智能理論,探討了文字和語言的關(guān)系,分析了人工智能語言與人類語言的差異,并給出相應(yīng)建議,即人工智能應(yīng)重視語境分析與應(yīng)用,基于數(shù)據(jù)庫解析的“最優(yōu)解”未必適應(yīng)靈活的話語空間,同時(shí),對(duì)話中上下文聯(lián)系也應(yīng)得到關(guān)注。
【關(guān)鍵詞】語言;文字;人工智能;ChatGPT
【中圖分類號(hào)】H021? ? ? ? ? ? 【文獻(xiàn)標(biāo)識(shí)碼】A? ? ? ? ? ?【文章編號(hào)】2096-8264(2024)22-0134-03
【DOI】10.20024/j.cnki.CN42-1911/I.2024.22.041
一、引言
人工智能的語言生成能力受限多種因素,如語料規(guī)模和類型。書面語因其易總結(jié)應(yīng)用,被AI廣泛采用,而口語則因難以模仿,較少被采用。文字作為書面語的載體,在口語表達(dá)中有局限。當(dāng)前,對(duì)如何利用文字表達(dá)語言的理解已深化。本文探討將“文字生動(dòng)表示語言”的理論應(yīng)用于“AI語言生成問題”的可行性。
語言障礙已成為21世紀(jì)全球化發(fā)展的制約因素。因此,讓計(jì)算機(jī)理解自然語言,實(shí)現(xiàn)自動(dòng)化處理和個(gè)性化服務(wù),是國際前沿研究,也是全球共同目標(biāo)。[1]在ChatGPT廣泛應(yīng)用下,袁毓林(2023)提出語言學(xué)研究應(yīng)轉(zhuǎn)向以數(shù)據(jù)/計(jì)算密集型為主要構(gòu)造對(duì)象的第四、第五范式,為語言學(xué)發(fā)展指明方向。
有學(xué)者認(rèn)為,人工智能與人類有本質(zhì)區(qū)別,前者學(xué)習(xí),后者創(chuàng)造。然而,這與創(chuàng)造AI的初衷不符。盡管ChatGPT改善了以往AI語言的產(chǎn)力、話語死板、用詞單一、句法簡單等問題,但如何使其更接近人類語言仍待解決。原因在于語言和文字的本質(zhì)。
二、書面語系統(tǒng)與口語系統(tǒng)的區(qū)別
(一)書面語系統(tǒng)
書面語是文字書寫的產(chǎn)物,用于記錄語言。文字的出現(xiàn)就是為了記錄語言,于省吾提到,文字起源于原始社會(huì),初衷是簡單記錄事物,防止遺忘。隨著階級(jí)形成和國家出現(xiàn),生產(chǎn)力提升,人事繁雜,文字逐漸用于記錄語言。[2]文字從語言獨(dú)立成符號(hào)后,相較于語言,延長了思維時(shí)間,并經(jīng)歷了簡化過程,導(dǎo)致書面語與口語差異。
人工智能語言代碼的輸入與輸出的機(jī)制構(gòu)想是摹仿人腦對(duì)語言的輸入與輸出進(jìn)行架構(gòu)的,人所使用的是人腦,人工智能所使用的是自然語言處理機(jī)制,這是言語產(chǎn)出是否能符合語言的根源。文字是表達(dá)于書面的通過大腦加工后的語言代碼,包括表音文字、表意文字和符號(hào)等類型,這些存在于視覺、聽覺等感知下的文字與語言之間的變換是人工智能需要關(guān)注的重要一環(huán)。我們要清楚地認(rèn)識(shí)到,人工智能的代碼輸入和輸出機(jī)制與人類的語言解析和產(chǎn)出并不完全一致(雖然我們是這樣預(yù)想的),而是與文字的表述模式有一定的相關(guān)性。因此,當(dāng)回答“人工智能所發(fā)出的語言如何才能更像人的語言”這個(gè)問題時(shí),關(guān)鍵之處在于如何使得文字的表述更接近以至于成為“真實(shí)的”語言。
(二)口語系統(tǒng)
口語是語言的表達(dá)形式,人類依賴語言進(jìn)行思考和交流。言語是心理現(xiàn)象,是人類運(yùn)用語言的行為。起初,言語無固定規(guī)則,但隨著社會(huì)共同語言的出現(xiàn),受到制約,但仍保持自由生成性,為語言更新提供動(dòng)力。大腦是言語接收與發(fā)出的中樞[3],語言信息處理依賴詞匯和語法。
在普通語言學(xué)中,存在兩個(gè)基本的觀點(diǎn):第一,語音是語言的本質(zhì),文字是語言表達(dá)的輔助工具。第二,語言的存在先于語法,語法是對(duì)語言規(guī)律的滯后總結(jié)與歸納[4]。對(duì)于第一種觀點(diǎn),文字是大腦組織語言思維后的視覺映射,傳遞視覺圖像和字義;語言則是思維組織輸出為聽覺的聲響,傳遞語音序列和語義。這種差異導(dǎo)致語言受語境、心理等因素影響,文字受書寫、表達(dá)方式等影響。
第二種觀點(diǎn)中,“滯后”包括歷時(shí)和共時(shí)的雙向滯后。語法對(duì)新生語言的控制力逐漸減弱,如古代漢語語法不適用于現(xiàn)代漢語。嚴(yán)格遵循語法規(guī)律創(chuàng)造語言,忽略語境、用詞和語氣,會(huì)導(dǎo)致聽眾難以接受,如人工智能回答問題時(shí)過于死板。
(三)人工智能語言分析
人工智能語言追求準(zhǔn)確性,因此其表達(dá)更為正式,易于識(shí)別與人類語言的差異。人類語言反映思維,聽話者可判斷說話者狀況;而人工智能語言依賴于程序等,僅反映不完美的語法系統(tǒng),難以實(shí)現(xiàn)人機(jī)語言融合。如某人言:“我該得的那個(gè),你付都多了,我該得的應(yīng)該得,這里拿多掉了?!彪m語法錯(cuò)誤,但人類能理解。這是因?yàn)榉且?guī)范語言具有真實(shí)感,聽話者可根據(jù)說話者身份、心理等進(jìn)行判斷。而人工智能缺乏這種能力。此外,這種語言難以文字表達(dá),因文字需更多大腦加工。楊立昆(2022)認(rèn)為,語言僅承載人類知識(shí)一小部分,大部分知識(shí)和動(dòng)物知識(shí)非語言(非象征符號(hào)的)。[5]但人工智能語言具有強(qiáng)制正確性,輸入輸出固定,表達(dá)受限。能否將人類語言轉(zhuǎn)移至人工智能?可從漢語獨(dú)特性入手。
三、如何用書面語語料表現(xiàn)口語
當(dāng)模仿物缺少必要現(xiàn)象,即失去了“靈魂”。常說漢語缺少形態(tài)變化,語序和虛詞至關(guān)重要。人工智能的自然語言處理不僅需要理解語序、虛詞帶來的差異,更要理解在某些情況下語序與虛詞的改變?cè)谝饬x表達(dá)不會(huì)產(chǎn)生任何影響這一人類語言理解特征。
(一)語序
語序是一種語法手段,但卻不一定會(huì)改變意義的表達(dá)。例如下面的兩個(gè)句子:
(1)你淋著雨沒有/雨淋著你沒有
(2)肉末夾燒餅/燒餅夾肉末
例(1)同義,例(2)異義。例(1)前句,在實(shí)際語言環(huán)境中的使用更傾向于詢問“你”的感受,身上是否被雨打濕;后句則更傾向于對(duì)“雨”效果的詢問,雨有沒有被你躲開。例(2)前句給人以肉包裹著燒餅,肉多的心理體驗(yàn);后句則是燒餅為主,夾縫中有肉末,讓人覺得肉少。
問ChatGPT兩者區(qū)別,AI回答:兩種表達(dá)方式主語和語序不同,但含義相同,并以系統(tǒng)中所保存的“著”表示“現(xiàn)在”的依據(jù)作出這兩句話是在詢問“正在”發(fā)生的事情。實(shí)際中,“著”在此句中僅起結(jié)構(gòu)助詞作用,對(duì)語義無影響。
在進(jìn)一步對(duì)ChatGPT進(jìn)行詢問的回答中更為明顯:
問:這兩種表達(dá)方式都只能表示“正在”嗎?
答:對(duì)的,這兩種表達(dá)方式通常用來詢問對(duì)方當(dāng)前的狀態(tài)或情況。它們都含有“正在”的意思,即詢問是否在某個(gè)特定的時(shí)間點(diǎn)或時(shí)間段內(nèi)正在被雨淋著。請(qǐng)注意,這些表達(dá)方式強(qiáng)調(diào)的是持續(xù)性的動(dòng)作或狀態(tài),而不是雨是否曾經(jīng)淋過你或你曾經(jīng)淋過雨。
人工智能僅僅以‘“著”表示現(xiàn)在,不表示過去或未來這一程序代碼為依據(jù),對(duì)于語境與事實(shí)置若罔聞,在實(shí)際語言環(huán)境中,若是下雨后問對(duì)方是否淋雨了,也會(huì)以這種方式進(jìn)行詢問。詢問發(fā)出的時(shí)間是現(xiàn)在,對(duì)象也是現(xiàn)在,而問詢的事物是過去。
ChatGPT對(duì)于例(2)的回答更是讓人啼笑皆非:
問:“肉末夾燒餅”和“燒餅夾肉末”有什么區(qū)別?
答:二者實(shí)質(zhì)相同,僅表述順序不同。通常可互換,無明顯區(qū)別。前者指切開燒餅,夾入肉末,再合上;后者是將肉末置于燒餅上,對(duì)折或卷起,使肉末被包裹。簡言之,二者皆描述同一種食物組合,順序差異而已。
首先這段話的邏輯就出現(xiàn)了語義矛盾。首句末句皆言明是同樣的食物,同樣的組合,只是順序不同,但描述時(shí)卻用不同的制作工藝技巧進(jìn)行敘述,說前句是“夾有肉末的燒餅”,是半包裹狀態(tài),后句是“肉末被燒餅包裹”,是全包狀態(tài),因此得到的食物并不同。事實(shí)上,在實(shí)際語言環(huán)境中這兩種表達(dá)描述的是同一種食物,只是給人的感覺不同。前一種表述給人以肉多的心理體會(huì),即肉包裹著燒餅;后句給人以肉少的感覺,即燒餅包裹著肉。食材的前后順序給人以食物數(shù)量多少的心理體會(huì),就如配料表是以含量多少進(jìn)行排序,排名靠前則含量更多,靠后則較少。
總之,對(duì)于語序帶來的影響應(yīng)當(dāng)被準(zhǔn)確對(duì)待,細(xì)致劃分,了解到這種表述的社會(huì)性是一個(gè)很重要的方面。
(二)虛詞
虛詞在現(xiàn)代漢語中很重要,但有時(shí)刪減不影響句意。如:
(3)買不起別買/要是買不起就別買
(4)洗干干凈凈收著/洗得干干凈凈收著
例(3)和例(4)前后句意思相同,虛詞的省略并無語義上的改變,尤其在口語中更常見。兩句在自然口語對(duì)話中并沒有顯著的區(qū)別,GPT卻過于敏感:
問:“買不起別買”和“要是買不起就別買”有區(qū)別嗎?
答:兩者微小差別。“買不起別買”簡潔,強(qiáng)調(diào)行為建議,若買不起,別買。未提條件?!耙琴I不起就別買”較復(fù)雜,先給條件(買不起),再建議不買。語氣較靈活,可尋求替代品或改變消費(fèi)習(xí)慣。核心意思相同,皆建議經(jīng)濟(jì)不允許時(shí)不購買。第二句提供條件,給人更多思考空間。
人工智能難以理解“意合法”,雖前句省略了“要是……就”,但當(dāng)我們對(duì)其進(jìn)行解讀時(shí)會(huì)自動(dòng)加上這種關(guān)聯(lián),口語中轉(zhuǎn)換無礙。但問人工智能,由于后句增加了關(guān)聯(lián)結(jié)構(gòu),其解讀就必然會(huì)有所增加以解讀關(guān)聯(lián)詞的出現(xiàn),這種解讀是毫無必要的,更是不符合人之解讀的。
例(4)后句的“得”是句子中表示結(jié)構(gòu)關(guān)系的虛詞,但在口語中也可以不說出來,人工智能卻把注意力放在了“得”上:
問:“洗干干凈凈收著”和“洗得干干凈凈收著”有區(qū)別嗎?
答:“洗干干凈凈收著”和“洗得干干凈凈收著”的區(qū)別在于前者強(qiáng)調(diào)結(jié)果,后者強(qiáng)調(diào)過程和結(jié)果。兩者均表示洗凈后收起,但“洗干干凈凈收著”更簡潔,注重結(jié)果,而“洗得干干凈凈收著”更詳細(xì),強(qiáng)調(diào)過程和結(jié)果。根據(jù)場(chǎng)景和喜好選擇即可。
回答單純從虛詞“得”入手進(jìn)行分析,而漢語語法意合性顯著,非典型規(guī)則不易把握?!暗谩钡恼Z法功能在本句中已經(jīng)虛化,而回答反復(fù)從語法、語用角度解釋“洗”在句子中的語法作用和語用表現(xiàn),是語言規(guī)則的刻板表述,是被輸入的語法代碼的表述。這種解讀并不適用于現(xiàn)實(shí)生活,在口語中人們經(jīng)常使用省略“的、地、得”這種結(jié)構(gòu)助詞的表述方式,對(duì)于語義和表達(dá)并無影響。
總之,GPT的自然語言處理并沒有意合的“程序”。在自然口語對(duì)話中,也經(jīng)常有不理解對(duì)方意義的情況出現(xiàn),但這種情況是少數(shù),即使出現(xiàn)了,也能夠通過多次的對(duì)話去解決這個(gè)“誤會(huì)”。GPT不僅難以持續(xù)性對(duì)話,更是以高頻詞“誤解”顯現(xiàn),這是不合適的。若將詞序和虛詞作為一種自然語言的特殊現(xiàn)象對(duì)人工智能進(jìn)行培養(yǎng),或許會(huì)出現(xiàn)對(duì)同一問題的不同形式而意義相同的回答,相對(duì)于同樣的死板回答來說則更顯得“人性化”。
(三)語境表現(xiàn)
從根本上說,當(dāng)前系統(tǒng)只能構(gòu)建語言骨架,無法充分展示語言豐富性。嬰兒表現(xiàn)的不流暢、錯(cuò)誤的發(fā)音卻可以被識(shí)別,這是因?yàn)槠洫?dú)特的音調(diào)、音高、音色及氣力不足導(dǎo)致的斷句、重音。言語障礙者雖然無法通過語言被他人理解,但卻可以通過情緒感知、不斷詢問猜測(cè)到想要表現(xiàn)的意思,這是因?yàn)槭дZ癥患者仍然具有“人”的語言能力,通過聲帶震動(dòng)和肢體語言表達(dá)。這些體現(xiàn)了語言魅力和“人”的語言特點(diǎn),即使不使用規(guī)范的語言,也能表達(dá)意義,這與認(rèn)知和文化共鳴有關(guān),是共情和意義相通的關(guān)鍵。
總之,這些都無法通過大數(shù)據(jù)或基本方程獲得。真正“語言”的真實(shí)構(gòu)建不僅需要結(jié)構(gòu)主義語言學(xué)對(duì)操作程序的講究、轉(zhuǎn)換生成語法對(duì)結(jié)構(gòu)模式及其背后心智過程的探索,以及功能語言學(xué)基于認(rèn)知科學(xué)的研究,還需要經(jīng)驗(yàn)觀察,立足于“言語”事實(shí),不能只關(guān)注局部,而忽視整體,只有兩者相結(jié)合,才能實(shí)現(xiàn)人工智能自然語言的正確發(fā)展。
深度神經(jīng)網(wǎng)絡(luò)受生物學(xué)啟發(fā),瞳孔攝入像素,大腦皮層細(xì)胞發(fā)現(xiàn)邊緣和方向,判斷物體形狀和類別。這種程序?qū)е氯斯ぶ悄茈y以真正理解運(yùn)用語言,生理判斷雖似人類思維,實(shí)為簡單思維模式,這不僅包括“看山不是山,看水不是水”這樣的高度抽象思維邏輯,還包括無需思考的“習(xí)慣” ①邏輯。
語言學(xué)有一個(gè)經(jīng)典歧義問題,即:
(5)咬死了獵人的狗
說話人身處于“獵人”的尸體旁,眼睛觀測(cè)到了一幅“狗”咬死“獵人”的場(chǎng)景,經(jīng)過大腦的思維后,從口中對(duì)他人以語言的形式指出“這條狗是咬死了獵人的那條”這件事實(shí),接收信息者以聽覺形式接收的信息在大腦中思索不會(huì)感覺有歧義或不解;但如果說話人以文字的形式進(jìn)行書寫,接收信息者以視覺形式接收的信息經(jīng)過大腦分析后卻會(huì)得到兩種不同的理解:狗被咬死了/獵人被咬死了,以致產(chǎn)生不知所云與不明其意的困惑感。而人工智能是以文字為基數(shù),通過視覺或聽覺方式發(fā)出信息的一種傳輸系統(tǒng),其使用文字符號(hào)來表情達(dá)意,即使是以音響形式發(fā)出,也是以文字的思維邏輯原封不動(dòng)地表述,這也就是為什么人工智能有時(shí)被戲稱為“人工智障”,總是與人類的語言有著顯而易見的差別感。
當(dāng)今人工智能以深度學(xué)習(xí)為主要學(xué)習(xí)方法,這種學(xué)習(xí)確實(shí)會(huì)使機(jī)器獲取大量語言范式并生成語言藍(lán)本,但這種學(xué)習(xí)是由無數(shù)的人類語言組合而成的類似“共同語”的系統(tǒng),其選擇的解答也通常為“最優(yōu)解”。但在不同語言環(huán)境中,這種所謂的“最優(yōu)解”并非適合人類的思維感情。因此,對(duì)于語境的認(rèn)識(shí)勢(shì)必要成為人工智能在對(duì)話中語言選擇的主要影響因素。
四、結(jié)語
書面語系統(tǒng)與口語系統(tǒng)存在現(xiàn)實(shí)差異,我們可以通過對(duì)語序、虛詞等漢語自身特點(diǎn)在書面語、口語上的表現(xiàn)來解決這些差異問題。這就需要我們更加深入地對(duì)自然口語對(duì)話進(jìn)行研究以及對(duì)自然語言處理的研發(fā),找到更多的具有漢語特征的口語語料,與書面語語料進(jìn)行對(duì)比分析,以實(shí)現(xiàn)一種數(shù)據(jù)密集型的研究范式,為語言學(xué)及人工智能語言提供進(jìn)一步發(fā)展的空間。
注釋:
①例如:中國人見面后常問“吃了嗎”屬于文化邏輯,熟練使用鍵盤的人可以不看鍵盤快速打字屬于空間邏輯,人在看見美好事物的時(shí)候眼球會(huì)隨物而動(dòng)屬于生理邏輯等。
參考文獻(xiàn):
[1]中國科學(xué)技術(shù)協(xié)會(huì)主編,中國人工智能學(xué)會(huì)編著.人工智能學(xué)科路線圖[M].北京:中國科學(xué)技術(shù)出版社,2022:57-58.
[2]于省吾.關(guān)于古文字研究的若干問題[J].文物,1973,
(02):32-35.
[3]程琪龍.認(rèn)知語言學(xué)概論——語言的神經(jīng)認(rèn)知基礎(chǔ)[M].北京:外語教學(xué)與研究出版社,1999:37-38.
[4]索緒爾.普通語言學(xué)教程[M].裴文譯.上海:教育出版社,2002.
[5]楊立昆.語言的有限性決定了AI永遠(yuǎn)無法比肩人類智能[DB/OL].https://mp.weixin.qq.com/s?_biz,2022-8-26.
作者簡介:
王寧,女,河南焦作人,碩士研究生,研究方向:漢語國際教育。
張世傳,男,河南鄭州人,碩士研究生,研究方向:漢語言文字學(xué)。