蔣茜謙
人工智能領(lǐng)域的成就很容易被誤讀和高估。這一點在人類語言處理領(lǐng)域表現(xiàn)得最為明顯,在人類語言領(lǐng)域中,表象可能會錯誤地暗示出深層次的能力。
在過去的一年里,很多公司給人的印象是他們的聊天機器人、機器人和其他應(yīng)用程序可以像人類一樣進行有意義的對話。只需要看看谷歌的Duplex,Hanson Robotics的Sophia及其他許多故事,就會相信我們已經(jīng)到了一個人工智能可以展示人類行為的階段。
但是掌握人類的語言需要的不僅僅是模仿人類的聲音或者創(chuàng)造出完整的句子。它需要常識和對環(huán)境、創(chuàng)造力的理解,而目前的人工智能其實并不具備這些。
事實上,深度學(xué)習(xí)和其他人工智能技術(shù)已經(jīng)在讓人類和電腦更接近彼此方面取得了長足的進展。但是在電路和二進制數(shù)據(jù)的世界以及人類大腦的奧秘之間仍然存在著巨大的鴻溝。除非我們不理解或承認人工智能和人類智能之間的差異,否則我們將會對未實現(xiàn)的期望感到失望,并錯失人工智能發(fā)展的真正機會。
為了理解人工智能與人類語言關(guān)系的真正深度,我們將場景分解為幾個子域來看看。
語音文字轉(zhuǎn)換
語音轉(zhuǎn)錄是人工智能算法取得最大進展的領(lǐng)域之一。平心而論,這甚至不應(yīng)該被認為是人工智能,但人工智能的定義是有點模糊的,而且由于許多人可能會錯誤地將自動轉(zhuǎn)錄解釋為智能的表現(xiàn),我們決定在這里研究它。
較早的技術(shù)迭代要求程序員經(jīng)歷冗長乏味的過程,即發(fā)現(xiàn)并編纂語音樣本分類和轉(zhuǎn)換為文本的規(guī)則。由于深度學(xué)習(xí)和深層神經(jīng)網(wǎng)絡(luò)的進步,語音到文本的轉(zhuǎn)換發(fā)生了巨大的飛躍,變得更加簡單和精確。使用神經(jīng)網(wǎng)絡(luò),可以提供大量的語音樣本和相應(yīng)的文本,而不是編碼規(guī)則。神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)單詞發(fā)音的共同模式,然后“學(xué)習(xí)”將新的語音記錄映射到相應(yīng)的文本,這些進步使許多服務(wù)能夠向用戶提供實時轉(zhuǎn)錄服務(wù)。
人工智能的語音到文本有很多用途。谷歌最近推出了Call Screen,這是Pixel手機上的一項功能,可以處理詐騙電話,并實時顯示通話的文本。YouTube使用深度學(xué)習(xí)提供自動的近距字幕。
但是,人工智能算法可以將語音轉(zhuǎn)換為文本,這并不意味著它明白自己在處理什么。
語音合成
語音到文本的另一面是語音合成。同樣,這不是智力,因為它與理解人類語言的意義和語境無關(guān)。但它仍然是許多應(yīng)用程序中不可或缺的一部分,這些應(yīng)用程序以自己的語言與人類交互。
和語音到文本一樣,語音合成也已經(jīng)存在很長時間。記得90年代在實驗室里第一次看到計算機語音合成。失去聲音的漸凍癥患者數(shù)十年來一直在使用這種技術(shù),他們通過輸入句子并讓電腦為他們讀出來,從而與人進行交流。盲人還使用這項技術(shù)來閱讀他們看不見的文字。
然而,在過去,計算機產(chǎn)生的聲音聽起來不像人類,而語音模型的創(chuàng)建需要數(shù)百小時的編碼和調(diào)整?,F(xiàn)在,在神經(jīng)網(wǎng)絡(luò)的幫助下,合成人類聲音變得不那么麻煩了。
這個過程包括使用生成對抗網(wǎng)絡(luò)(GAN),這是一種人工智能技術(shù),將神經(jīng)網(wǎng)絡(luò)相互對立以創(chuàng)建新的數(shù)據(jù)。首先,神經(jīng)網(wǎng)絡(luò)會攝取一個人聲音的大量樣本,直到它能分辨出一個新的聲音樣本是否屬于同一個人。然后,第二個神經(jīng)網(wǎng)絡(luò)生成音頻數(shù)據(jù)并在第一個網(wǎng)絡(luò)中運行,以查看它是否屬于主題。如果沒有,生成器將糾正其示例并通過分類器重新運行。這2個網(wǎng)絡(luò)重復(fù)這個過程,直到它們能夠生成聽起來很自然的樣本。
有幾個網(wǎng)站可以用神經(jīng)網(wǎng)絡(luò)合成自己的聲音。這個過程很簡單,只要提供足夠的聲音樣本就可以了,這遠遠低于老一代的技術(shù)要求。
這種技術(shù)有很多好的用途。例如,公司正在使用人工智能的語音合成技術(shù)來提高他們的客戶體驗,讓他們的品牌擁有自己獨特的聲音。在醫(yī)學(xué)領(lǐng)域,人工智能正在幫助漸凍癥患者恢復(fù)他們的真實聲音,而不是使用計算機化的聲音。當然,谷歌也在使用這項技術(shù),它的Duplex功能可代表用戶用自己的聲音打電話。
人工智能語音合成也有其邪惡的用途,它可以被用來偽造,用目標人物的聲音打電話,或者通過模仿國家元首或知名政治家的聲音來傳播假新聞。
不需要提醒,如果一臺電腦說話聽起來像個人,那并不意味著它能理解它所說的。
處理人類語言命令
這就是突破表面并深入研究人工智能與人類語言關(guān)系的地方。近年來,我們看到了自然語言處理領(lǐng)域(NLP)的巨大進步,這也是得益于深度學(xué)習(xí)的進步。
NLP是人工智能的一個子集,它使計算機能夠識別書面文字的含義,無論是將語音轉(zhuǎn)換為文本,通過聊天機器人等文本界面接收它們,還是從文件中讀取它們。然后,他們可以使用這些詞語背后的含義來執(zhí)行特定的動作。
但NLP是一個非常廣泛的領(lǐng)域,可能涉及許多不同的技能。NLP最簡單的形式是幫助計算機通過文本命令執(zhí)行傳遞給它們的命令。
智能語音和智能手機AI助手使用NLP處理用戶的命令?;旧?,這意味著用戶不必嚴格遵守命令的順序,并且可以使用相同句子的不同變體。
在其他地方,NLP是谷歌搜索引擎用來理解用戶查詢的更廣泛含義,并返回與查詢相關(guān)的結(jié)果的技術(shù)之一。
NLP在分析工具(如谷歌Analytics和IBM Watson)中非常有用,在這些工具中,用戶可以使用自然語言語句來查詢數(shù)據(jù),而不是編寫復(fù)雜的查詢語句。
NLP的一個有趣用法是Gmail的智能回復(fù)特性。谷歌審查了電子郵件的內(nèi)容,并提出了回答建議。該功能的范圍有限,只適用于簡短回答有意義的電子郵件,比如當谷歌的人工智能算法檢測到預(yù)定的會議,或者發(fā)件人希望聽到一句簡單的“謝謝”或“我看看”,它會給出相當簡潔的答案,可以節(jié)省幾秒鐘的打字時間,尤其是在移動設(shè)備上。
但僅僅因為一個智能語音或AI助手能夠?qū)υ儐柼鞖獾牟煌绞阶龀龇磻?yīng),并不意味著它完全理解人類的語言。目前的NLP只擅長理解意義非常明確的句子。人工智能助手越來越擅長執(zhí)行基本命令,但如果認為可以與他們進行有意義的對話,并與他們討論抽象話題,就會大失所望。
用人類語言說話
NLP的另一面是自然語言生成(NLG),這是一門讓計算機生成對人類有意義的文本的人工智能學(xué)科。這同樣得益于人工智能的進步,尤其是在深度學(xué)習(xí)方面。NLG算法的輸出可以像聊天機器人一樣以文本形式顯示,也可以像智能語音和AI助手一樣,通過語音合成轉(zhuǎn)換為語音并為用戶播放。
在許多情況下,NLG與NLP關(guān)系密切,與NLP一樣,NLG是一個非常廣闊的領(lǐng)域,可能涉及不同程度的復(fù)雜性。NLG有一些非常有趣的用途。例如,NLG可以將圖表和電子表格轉(zhuǎn)換成文本描述。Siri和Alexa等AI助手也使用NLG來生成對查詢的響應(yīng)。
Gmail的自動完成功能以一種非常有趣的方式使用NLG。當您輸入一個句子時,Gmail會提供一個完成句子的建議,可以按tab鍵或輕敲它來選擇。這個建議考慮了您的郵件的主題,就是說也涉及到NLP。
一些出版物正在使用人工智能來編寫基本的新聞報道。盡管一些記者編造了人工智能將很快取代人類作家的故事,但他們的觀點與事實相去甚遠。這些新聞寫作機器人背后的技術(shù)是NLG,它通過分析人類記者撰寫報道的方式,基本上把事實和數(shù)據(jù)變成故事。它不能提出新的想法,不能寫出講述個人經(jīng)歷的故事,不能寫出介紹和闡述觀點的專欄文章。
另一個有趣的案例是谷歌的Duplex。谷歌的AI助手將人工智能對人類語言的掌握能力和局限性結(jié)合起來。Duplex以非常出色的方式結(jié)合了語音到文本、NLP、NLG和語音合成,使許多人相信它可以像打電話給人那樣進行交互。但谷歌Duplex是狹義的人工智能,這意味著它將擅長執(zhí)行公司演示的任務(wù)類型,比如預(yù)訂餐廳或安排沙龍聚會。這些領(lǐng)域的問題空間是有限的和可預(yù)測的。
但是Duplex并不理解對話的上下文。它只是將人類語言轉(zhuǎn)換為計算機命令,將計算機輸出轉(zhuǎn)換為人類語言。它無法就抽象話題進行有意義的對話,而這些話題可能會帶來不可預(yù)測的方向。一些夸大了人工智能語言處理和生成能力的公司最終雇傭人類來彌補不足。
機器翻譯
2016年,《紐約時報》雜志刊登了一長篇特寫,解釋了人工智能(更具體地說,是深度學(xué)習(xí))是如何讓谷歌廣受歡迎的,由于翻譯引擎的準確性突飛猛進,谷歌翻譯已經(jīng)大大改善。
但人工智能翻譯也有其自身的局限性,神經(jīng)網(wǎng)絡(luò)使用一種機械的、統(tǒng)計的過程來翻譯不同的語言。他們舉例說明在目標語言中單詞和短語出現(xiàn)的不同模式,并嘗試在翻譯時選擇最方便的模式。換句話說,它們是基于數(shù)學(xué)值的映射,而不是翻譯單詞的意思。
相比之下,當人們進行翻譯時,他們會考慮語言的文化和語境,詞匯和諺語背后的歷史,在做決定之前會先對話題的背景進行研究。這是一個非常復(fù)雜的過程,涉及到很多常識和抽象的理解,而這些是人工智能所不具備的。
印第安納大學(xué)認知科學(xué)和比較文學(xué)教授道格拉斯·霍夫斯塔特在《大西洋月刊》上發(fā)表的文章中,揭示了人工智能翻譯的局限性。
需要明確的是,人工智能翻譯有很多非常實用的用途。例如將法語翻譯成英語時,可以使用它來加快工作速度。翻譯簡單、真實的句子幾乎是完美的,但不要指望人工智能能在短時間內(nèi)取代專業(yè)譯者。
AI對人類語言的理解
首先,需要認識到深度學(xué)習(xí)的局限性,它是人工智能的前沿。目前,深度學(xué)習(xí)還無法理解人類語言。當有人破解代碼,創(chuàng)造出能夠像人類思維那樣理解世界的人工智能時,情況可能會發(fā)生變化,但這不會很快實現(xiàn)。
正如大多數(shù)例子所顯示的那樣,人工智能是一種增強人類能力的技術(shù),可以幫助提高或減輕使用人類語言的任務(wù)的速度。但是仍然缺乏常識和抽象地解決問題的能力,使它能夠完全自動化掌握人類語言的學(xué)科。
所以,當面對一種聽起來、看起來和行為都很像人類的人工智能技術(shù)時,不妨先看看它對人類語言的掌握有多深,這能夠更好地理解它的功能和限制,因為外表有時會騙人。