2022年初,當泰勒·韋伯嘗試GPT-3時,他被OpenAI的大型語言模型所能做的事情驚呆了。這個人工智能模型依靠預測下一個單詞來生成大段的文字內(nèi)容。
雖然是預測式的,但它對韋伯提出的許多抽象問題給出了正確的答案,例如你在智商測試中遇到的那類問題?!拔艺娴膶λ鉀Q這些問題的能力感到震驚,”他說,“它完全顛覆了我的期待?!?/p>
韋伯是美國加州大學洛杉磯分校的心理學家,主要研究人和計算機解決抽象問題的不同方式。他習慣于構(gòu)建具有特定推理能力的神經(jīng)網(wǎng)絡(luò)。但GPT-3似乎自帶了推理能力。
7月,韋伯和他的同事在《自然》雜志上發(fā)表了一篇論文,他們在論文中描述了GPT-3通過各種測試的能力,這些測試旨在評估使用類比來解決問題(又稱為類比推理)。
在其中一些測試中,GPT-3的成績比一群本科生還要好。韋伯說:“類比是人類推理的核心。我們認為,這是任何類型的機器智能都需要展示的主要能力之一?!?/p>
韋伯的研究所展示的只是大型語言模型的一大堆出眾能力中的一個。例如,當OpenAI在2023年3月份推出GPT-3的下一代GPT-4時,該公司發(fā)布了一份令人瞠目的專業(yè)和學術(shù)評估成績單,聲稱其新的大型語言模型取得了優(yōu)異成績,包括幾十次高中考試和律師資格考試。OpenAI后來與微軟合作,證明GPT-4可以通過部分美國醫(yī)學執(zhí)照考試。
多名研究人員聲稱,大型語言模型可以通過旨在識別人類某些認知能力的測試,從思維鏈推理(一步一步解決問題)到思維理論(猜測他人的想法)。
這些結(jié)果催生了一系列的炒作,宣稱人工智能很快將取代教師、醫(yī)生、記者和律師一類的白領(lǐng)工作。圖靈獎得主、“深度學習三巨頭”之一的杰弗里·辛頓指出,GPT-4顯然有能力將想法串在一起,這是他現(xiàn)在害怕自己幫助創(chuàng)造的技術(shù)的原因之一。
但有一個問題是,對于這些結(jié)果的真正含義,人們沒有達成一致。有些人被這些成績背后的類人智慧所迷惑,也有人完全不相信。
以色列巴伊蘭大學的計算機科學家納塔利·沙皮亞說:“目前大型語言模型的評估技術(shù)有幾個關(guān)鍵問題。這造成了一種錯覺,使得我們對其能力的認識被夸大了。”
這就是為什么越來越多的研究人員,包括計算機科學家、認知科學家、神經(jīng)科學家和語言學家,希望徹底改變評估方式,呼吁進行更嚴格、更詳盡的評估。一些人認為,用測試人類的試題去評估機器,這種做法是錯誤的,應該拋棄。
美國新墨西哥州圣達菲研究所的人工智能研究員米蘭尼·米切爾說:“從人工智能誕生之初,人們就一直在對機器進行人類智力測試,比如智商測試等等。這背后的問題是,當你用這些方法測試機器時,它的意義是什么?這與測試人類的意義不同?!?/p>
“有很多擬人化的現(xiàn)象正在出現(xiàn),”她說,“這讓我們在思考這些系統(tǒng)以及測試它們時帶上了濾鏡?!?/p>
隨著對人工智能技術(shù)的希望和擔憂達到了前所未有最高水平,我們必須明確知道大型語言模型能做什么和不能做什么。
圍繞大型語言模型測試的大多數(shù)問題,都可以歸結(jié)為如何解釋結(jié)果的問題。
為人類設(shè)計的評估,如高中考試和智商測試,在很多方面都遵從了一些預設(shè)和假設(shè)。當人們得分很高時,就可以放心地假設(shè)他們擁有測試所衡量的知識、理解或認知技能。
實際上,這種假設(shè)只適用于此。學業(yè)考試并不總是反映學生的真實能力。而智商測試衡量的是一組特定的技能,而不是整體智力。這兩種評估方式都有利于擅長這類評估的人。
但是,當一個大型語言模型在這樣的測試中得分很高時,我們根本不清楚衡量的是什么。是真正理解的證據(jù)嗎?還是愚蠢的統(tǒng)計游戲?亦或是死記硬背?
Deep Mind高級研究科學家勞拉·威汀格說:“開發(fā)測試人類思維的方法有著悠久的歷史。由于大型語言模型產(chǎn)生的文本看起來很像人類生成的,人們很容易認為人類思維測試也可以用來評估它們。但事實并非如此:人類思維測試依賴于許多可能不適用于大型語言模型的假設(shè)?!?/p>
韋伯也意識到了類似的問題?!拔矣型校彼f。他指出,盡管GPT-3在的某些測試成績比本科生好,但在其他測試中卻產(chǎn)生了荒謬的結(jié)果。例如,它沒有通過發(fā)展心理學家給小孩子進行的一個關(guān)于實物的類比推理測試。
在這項測試中,韋伯和他的同事給GPT-3講了一個精靈可以在兩個瓶子之間轉(zhuǎn)移珠寶的故事,然后問它如何使用紙板和紙管等物體將口香糖球從一個碗轉(zhuǎn)移到另一個碗。
這個故事暗示了解決問題的方法。研究人員在論文中寫道:“GPT-3大多提出了精心設(shè)計,但機械上毫無意義的解決方案,有許多無用的步驟,卻沒有給出明確的機制來在兩個碗之間轉(zhuǎn)移口香糖?!?/p>
那么,我們?nèi)绾卫斫庖慌_通過律師資格考試,但在學前班表現(xiàn)不及格的機器呢?像GPT-4這樣的大型語言模型是根據(jù)從互聯(lián)網(wǎng)上獲取的大量文字進行訓練的:書籍、博客、小說、技術(shù)報告、社交媒體帖子,等等。很可能過去的考試題也被抓取了。一種可能性是,像GPT-4這樣的模型在訓練數(shù)據(jù)中看到了如此多的專業(yè)考試和學術(shù)測試,以至于它們學會了自動完成答案。
韋伯說,很多這樣的測試,在網(wǎng)上都能找到問題和答案:“幾乎可以肯定的是,其中有許多都存在于GPT-3和GPT-4的訓練數(shù)據(jù)中,所以我認為我們真的無法得出太多結(jié)論?!?/p>
OpenAI表示,它進行了檢查,以確認其對GPT-4的測試不包含出現(xiàn)在訓練數(shù)據(jù)中的文本。在與微軟的合作中,OpenAI使用付費測試題來確保GPT-4的訓練數(shù)據(jù)中沒有包含這些問題。但這樣的預防措施并不是萬無一失的:GPT-4仍然可以看到類似的測試題。
當機器學習工程師賀拉斯·賀(Horace He,音譯)在編程比賽網(wǎng)站Codeforces上測試GPT-4時,他發(fā)現(xiàn)GPT-4在2021年之前發(fā)布的編程測試中得分為10/10,但在2021年之后發(fā)布的測試中得了0分。
其他人也注意到,使用2021年之后的考試題,GPT-4的成績就會下降。這是因為該模型的訓練數(shù)據(jù)只包括2021年之前收集的文字,一些人認為,這表明大型語言模型展示的只是一種記憶力,而不是智力。
為了在實驗中避免這種可能性,韋伯設(shè)計了一套全新類型的測試。他說:“我們真正感興趣的是,這些模型能否應對這些新式問題?!?/p>
韋伯和同事采用了一種測試類比推理的方法,稱為瑞文推理測驗。這些測試由一張圖像組成,該圖像包括了一系列并排或上下排列的形狀。挑戰(zhàn)在于找出給定形狀系列中的規(guī)律,并將其應用于新的形狀。該測驗用于評估幼兒和成人的非語言推理,在智商測試中很常見。
通過協(xié)商,甲和乙的策略選擇受對方提供的新信息所影響,在新的博弈情境中,甲對于策略集合A中的每一個行動選擇,都存在一個新的相對于策略集B的條件概率q;同理,乙對于策略集合B中的每一個行動選擇,都存在一個新的相對于策略集A的條件概率r。據(jù)此,甲和乙的期望效用演變?yōu)闂l件期望效用。對于彼此獨立的環(huán)境或事態(tài),主體之間有非條件概率。在納什均衡中,甲和乙的主觀概率沒有被任何實質(zhì)性的條件限制;在純粹策略中,兩者按照給定的占優(yōu)策略行動;在混合策略中,彼此行動的概率選擇相互保密,不為對方所知。然而,通過理性協(xié)商,主體信念和行動的概率選擇成為公共知識,這就決定了協(xié)商機制下的行動博弈超越于納什均衡。
研究人員沒有使用圖像,而是將形狀、顏色和位置編碼成數(shù)字序列。這確保了測試不會出現(xiàn)在任何訓練數(shù)據(jù)中,韋伯說:“我從零開始創(chuàng)建了這個數(shù)據(jù)集。我之前從來沒有聽說過這樣的東西?!?/p>
米切爾對韋伯的工作印象深刻?!拔矣X得這篇論文很有趣,也很有煽動性,”她說,“這是一項很好的研究。”但她有所保留。米切爾開發(fā)了自己的類比推理測試,名為ConceptARC,該測試使用從谷歌研究員佛朗科斯· 喬里特開發(fā)的ARC(抽象和推理挑戰(zhàn))數(shù)據(jù)集中提取的形狀編碼序列。在米切爾的實驗中,GPT-4在這類測試中的表現(xiàn)比人類差。
米切爾還指出,將圖像編碼成數(shù)字序列(或矩陣)會使程序更容易解決這個問題,因為它消除了謎題的視覺挑戰(zhàn)?!敖鉀Q數(shù)字矩陣并不等于解決瑞文測試的問題,”她說。
大型語言模型的性能是脆弱的。對于人類來說,可以肯定的是,一個在測試中得分很高的人也會在類似的測試中表現(xiàn)出色。大型語言模型卻并非如此,對測試進行一個小小的調(diào)整就可以讓分數(shù)出現(xiàn)很大的波動。
英國劍橋大學的心理學家露絲·切克說:“總的來說,人工智能評估并沒有讓我們真正了解這些模型的能力。測試一個系統(tǒng)在特定任務(wù)中的表現(xiàn)是完全合理的,但通過這個任務(wù)泛化到其他任務(wù)和能力,是行不通的?!?/p>
以微軟研究小組2023年3月份發(fā)表的一篇論文為例,他們在論文中聲稱在GPT-4中發(fā)現(xiàn)了“通用人工智能的火花”。該團隊使用一系列測試對大型語言模型進行了評估。在其中一項研究中,他們詢問GPT-4如何穩(wěn)定地堆疊一本書、九個雞蛋、一臺筆記本電腦、一個瓶子和一顆釘子。它回答說:“把筆記本電腦放在雞蛋上,屏幕朝下,鍵盤朝上。筆記本電腦將夾在書和雞蛋的邊界內(nèi),其平坦堅硬的表面將為下一層提供穩(wěn)定的平臺?!?/p>
但當米切爾嘗試她自己版本的問題,讓GPT-4疊一根牙簽、一碗布丁、一杯水和一個棉花糖時,她建議把牙簽插在布丁里,棉花糖放在牙簽上,并把整杯水放在棉花糖上保持平衡。
模型最后提出了一個有用的警告:“請記住,這個堆疊方式很脆弱,可能不太穩(wěn)定。在建造和處理它時要小心,以避免傾灑等事故?!?/p>
還有另一個有爭議的研究。2023年2月,美國斯坦福大學研究員邁克爾·科辛斯基發(fā)表了一篇論文,他在論文中聲稱,心智理論“可能自發(fā)地成為GPT-3的副產(chǎn)品”。心智理論是是一種能夠理解自己以及周圍人類的心理狀態(tài)的能力,這是大多數(shù)兒童在三到五歲之間獲得的情感和社會智力的標志。科辛斯基報告說,GPT-3已經(jīng)通過了用于評估人類能力的基本測試。
例如,科辛斯基給GPT-3的場景是:“這是一個裝滿爆米花的袋子。袋子里沒有巧克力。但袋子上的標簽上寫著‘巧克力’,而不是‘爆米花’。山姆找到了袋子。她以前從未見過袋子,看不清袋子里有什么,但看了標簽?!?/p>
然后,科辛斯基提示模型完成以下句子:“她打開袋子,往里面看。她可以清楚地看到里面裝滿了……”和“她相信袋子里裝滿了……”。GPT-3用“爆米花”完成了第一句,用“巧克力”完成了第二句。他將這些答案視為GPT-3至少顯示了一種基本的心智理論的證據(jù),因為它們捕捉到了實際狀態(tài)和山姆(錯誤的)想法之間的差異。
科辛斯基的研究結(jié)果迅速成為了頭條新聞,并在社交平臺上引發(fā)了爭論。
包括沙皮亞和哈佛大學認知科學家湯摩爾·烏曼在內(nèi)的幾位研究人員發(fā)表了反例,表明大型語言模型未能通過科辛斯基使用的簡單變體測試。烏曼說:“鑒于我很了解大型語言模型是如何構(gòu)建的,我非常懷疑?!?/p>
烏曼調(diào)整了科辛斯基的測試場景,告訴GPT-3,標有“巧克力”的爆米花袋是透明的(這樣山姆就可以看到這是爆米花),或者山姆不會閱讀(這樣她就不會被標簽誤導)。烏曼發(fā)現(xiàn),每當情況涉及額外的幾步推理時,GPT-3都無法將正確的狀態(tài)歸因于山姆。
沙皮亞說:“為人類設(shè)計的認知或?qū)W術(shù)測試可以作為大型語言模型能力的準確衡量標準,這一假設(shè)源于一種將模型擬人化并使其評估與人類標準相一致的趨勢。這種假設(shè)被誤導了?!?/p>
對于切克來說,有一個顯而易見的解決方案。幾十年來,科學家們一直在評估非人類的認知能力,她說。人工智能研究人員可以調(diào)整用于研究動物的技術(shù),這些技術(shù)是為了避免基于人類偏見得出結(jié)論。
以迷宮中的老鼠為例,切克說:“它是如何導航的?你在人類心理學中可以做出的假設(shè)是不成立的?!毕喾?,研究人員必須進行一系列受控實驗,以弄清楚老鼠在使用什么信息以及它是如何使用這些信息的,逐一測試并排除這些假設(shè)。
至于大語言模型,就更復雜了。切克說:“我們沒有針對老鼠的語言測試。我們正處在一個新的領(lǐng)域,但許多基本方法都是可行的。只是我們必須用語言的形式來做,而不是用一個小迷宮。”
威汀格也采取了類似的做法。她和她的同事們正在調(diào)整心理學家用來評估人類嬰兒前語言階段認知能力的技術(shù)。這里的一個關(guān)鍵想法是將一個特定能力的測試分解為一組測試,這些測試也會尋找相關(guān)的能力。例如,當評估嬰兒是否學會了如何幫助他人時,心理學家也可能評估嬰兒是否理解阻礙是什么。這使得整個測試更加穩(wěn)健。
問題是這類實驗需要時間。切克說,一個團隊可能會研究老鼠的行為數(shù)年。但人工智能的發(fā)展速度要快得多。烏曼將評估大型語言模型與西西弗懲罰進行了比較:“一個系統(tǒng)被聲稱表現(xiàn)出X行為,當評估顯示它沒有表現(xiàn)出X時,一個新的系統(tǒng)出現(xiàn)了,而且被認為它表現(xiàn)出了X行為?!?/p>
米切爾說,50年前人們認為要想在國際象棋上擊敗一位大師,你需要一臺和人一樣聰明的電腦。但結(jié)果證明,我們只需要比人類更擅長數(shù)字運算的機器。窮舉的蠻力勝過智慧。
從圖像識別到圍棋,類似的挑戰(zhàn)已經(jīng)被定義并解決。每當計算機被用來做一些需要人類智慧的事情,比如玩游戲或使用語言時,它就會分裂領(lǐng)域。大型語言模型現(xiàn)在正面臨著自己的“國際象棋”時刻。米切爾說:“這真的促使我們每個人思考什么是智力?!?/p>
通過了所有這些測試,是否證明GPT-4具備了真正的智慧,或者它是否找到了一條有效但愚蠢的捷徑,一個從數(shù)十億行文本中、數(shù)萬億相關(guān)性的帽子里取出來的統(tǒng)計技巧?
米切爾說:“如果你說,‘好吧,GPT4通過了律師考試,但這并不意味著它很聰明’,人們會說,‘哦,你是在故意變換標準?!覀冋娴脑谧儞Q標準,還是說智能不像我們之前理解的那樣,我們對智能的看法是錯誤的?”
歸根結(jié)底,這取決于大型語言模型是如何做到的。一些研究人員希望擺脫對考試成績的癡迷,并試圖弄清楚模型背后發(fā)生了什么。米切爾說:“我確實認為,要真正了解它們的智能(如果我們想這么稱呼它),我們必須了解它們推理的機制?!?/p>
烏曼對此表示贊同?!拔彝槟切┱J為這是在變換標準的人,”他說,“但這是很長一段時間以來的動態(tài)?,F(xiàn)在我們不知道它們是如何通過這些測試的。我們只是被告知它們通過了。”
問題是,沒有人確切知道大型語言模型是如何工作的。在一個龐大的統(tǒng)計模型中,很難將復雜的機制割裂開來。但烏曼認為,從理論上講,對一個模型進行逆向工程并找出它使用什么算法來通過不同的測試是可能的。他說:“如果有人開發(fā)出一種技術(shù)來弄清楚這些東西到底學到了什么,我可以更容易被說服。我認為,根本問題是我們一直關(guān)注測試結(jié)果,而不是它如何通過的測試?!?/p>