日前,OpenAI為其重金押注的人形機器人Figure 01裝上了GPT“大腦”。能識別周圍環(huán)境看清“眼”前的物品,能推理和決策下一步行動,還能通過記憶反思對行為作出評價——通過自我學(xué)習(xí)做到這一切,F(xiàn)igure 01的表現(xiàn)令人驚呼它已“無限接近人類”。
一直以來,無法應(yīng)對未知情況是機器人亟需提升的能力短板,以至于看似簡單的燒飯被業(yè)界視為“登月式的目標(biāo)”,至今沒有一個機器人能做到。GPT的出現(xiàn),則為機器人再造一個精明而實用的“大腦”提供了可能。比起文本生成、文生視頻,能做出一個幫你燒飯洗碗打掃屋子的智能機器人或?qū)⑹谴竽P透咭饬x的一個應(yīng)用方向。
如今,從上海到紐約,世界各地的餐館里,都有機器人烹制美食。它們制作漢堡、印度薄餅、披薩,還會炒菜。其烹飪方式與過去50年間機器人制造其他物品的方式大致相同:精確地遵循指令,一遍又一遍地以相同的方式執(zhí)行相同的步驟。
美國南加州大學(xué)計算機科學(xué)博士伊沙卡·辛格卻想造一個真正能做飯的機器人:這個機器人能走進廚房,在冰箱和櫥柜里翻找食材,并將其巧妙結(jié)合,燒出一兩道美味的菜,然后擺好餐具。
這種連一些孩子都能做到的簡單事情,截至目前,沒有一個機器人能做到。要做到這件小事,需要機器人對某個廚房有充分的了解,還需要掌握很多常識,并且得足夠靈活多變、足智多謀,以至于機器編程無法實現(xiàn)。
辛格表示,最大的問題在于機器人研制者使用了經(jīng)典的規(guī)劃管線?!八麄冊谛问缴隙x了每個動作及其前提條件,并預(yù)測其效果?!彼f,這種規(guī)劃管線規(guī)定了環(huán)境中所有可能或不可能的事情。即使經(jīng)過多輪實驗,即使編寫成千上萬行代碼,但由此創(chuàng)造的機器人還是無法應(yīng)對其程序未曾預(yù)知的情況。
辛格的導(dǎo)師、美國南加州大學(xué)計算機科學(xué)教授杰西·托馬森表示,這個燒飯的場景“始終是一個登月式的目標(biāo)”。如果機器人能勝任人類的任何日?,嵤?,許多行業(yè)將發(fā)生巨變,人們的日常生活將變得輕松。
要實現(xiàn)這一目標(biāo),機器人需要“換腦”。長期以來,人們都希望在機器人體內(nèi)植入一個精明而實用的大腦,但過去幾十年一直找不到這樣的大腦。不過,ChatGPT的橫空出世,為機器人“換腦”燃起了新的希望。
這個計算機程序以及越來越多的其他大語言模EHS4avAzQx3gQS2jxdFXvw==型,能夠根據(jù)用戶的需求生成文本,模仿人類的口頭和書面語言。ChatGPT目前已經(jīng)接受了大量有關(guān)晚餐、廚房、食譜的信息訓(xùn)練,幾乎可以回答機器人提出的關(guān)于在特定廚房中將特定食材燒成一頓飯的任何問題。
大語言模型具備機器人所缺乏的東西——人類筆下關(guān)于幾乎一切事物的知識,從量子物理到韓流音樂,再到三文魚片的解凍。同樣,機器人也具備大語言模型所缺乏的東西——能夠與周圍環(huán)境互動,將語言連接到現(xiàn)實行動中。
將無意識的機器人和無身體的大語言模型拼合起來,似乎是唯一合乎邏輯的做法。正如一篇論文所述,“機器人可以充當(dāng)語言模型的‘手和眼睛’,而語言模型則提供關(guān)于任務(wù)的高級語義知識。”
2022年末,ChatGPT的發(fā)布對Levatas公司的工程師來說“像是一個頓悟時刻”。
這是一家專門設(shè)計巡視檢查工業(yè)場所所需軟件的公司。借助ChatGPT和波士頓動力公司的技術(shù),該公司拼出了一個機器狗原型。這只機器狗可以說話、回答問題,并能夠遵循以一般英語口語給出的指令。此外,機器狗似乎不僅能理解單詞的含義,還能掌握背后的意圖。比如A說“后退”,B說“退后”,它“知道”他們表達的是相同含義。有了機器狗,工人們便不再需要仔細(xì)查看上一次巡檢時的機器數(shù)據(jù)表,他們只需簡單地詢問:“你上次去的時候,有哪些讀數(shù)超出了正常范圍?”
Levatas利用自主開發(fā)的軟件將系統(tǒng)組合在一起,而其中很多關(guān)鍵組件——語音轉(zhuǎn)文本系統(tǒng)、ChatGPT、機器狗本身,以及文本轉(zhuǎn)語音系統(tǒng)——現(xiàn)在都已實現(xiàn)商業(yè)化。不過,這并不意味著家家戶戶很快就能擁有會說話的機器狗。Levatas的機器狗之所以能穩(wěn)定運行,是因為它的使用局限于特定的工業(yè)環(huán)境。沒有人會讓機器狗去玩接球游戲,或者讓它想辦法處理冰箱里的茴香。
在日常生活中,機器人能做的事情仍然有限。對于任何傳統(tǒng)機器人來說,無論其行為多么復(fù)雜,它們都只有數(shù)量有限的傳感器來獲取有關(guān)環(huán)境的信息,如攝像頭、雷達、激光雷達、麥克風(fēng)、一氧化碳檢測器等。這些傳感器與數(shù)量有限的機械臂、機械腿、夾持器、輪子或其他機械部位相連接,機器人內(nèi)部的計算機將其感知和行動聯(lián)系在一起,它負(fù)責(zé)處理傳感器數(shù)據(jù)和程序員發(fā)出的任何指令。計算機將信息轉(zhuǎn)換成0和1的編碼,代表電流通過電路的“關(guān)”(0)和“開”(1)。通過軟件,機器人可審查其可以執(zhí)行的有限行動,并選擇最符合指令的行動。然后,它向其機械部件發(fā)送使之行動的電信號。此后,機器人通過傳感器掌握其行動對環(huán)境的影響,并再次做出響應(yīng)。
機器學(xué)習(xí)令機器人的智能程度上了一個臺階。它的運行基于一種“神經(jīng)網(wǎng)絡(luò)”,計算機電路的0和1被類比為層層排列的細(xì)胞,每個細(xì)胞通過數(shù)百個連接點發(fā)送、接收信息。機器“大腦”為每份輸入的信息分配權(quán)重,“細(xì)胞”將所有這些權(quán)重累加,以決定保持靜默還是“觸發(fā)”,即發(fā)送自己的信號給其他細(xì)胞。
正如像素越多照片細(xì)節(jié)越豐富,模型擁有的連接點越多,其結(jié)果就越精確。在機器學(xué)習(xí)中,所謂學(xué)習(xí)就是模型調(diào)整權(quán)重,不斷接近人們想要的答案。過去15年,當(dāng)機器學(xué)習(xí)經(jīng)過訓(xùn)練來執(zhí)行專門化的任務(wù),例如尋找蛋白質(zhì)折疊,或在面試中遴選求職者,它表現(xiàn)出了驚人的能力。
大語言模型是一種不限于專門任務(wù)的機器學(xué)習(xí)形式,這些模型可以談?wù)撊魏问虑?。由于這些模型的回答只是對單詞組合的預(yù)測,所以程序?qū)嶋H上并不懂自己在說什么,但使用者懂。而且,大語言模型以簡單的對話運行,使用者無需特殊培訓(xùn)或工程知識,任何人都可以用英語、漢語、西班牙語、法語或其他語言與它交流。
當(dāng)你給大語言模型輸入提示(可以是問題、請求或指示),模型將你的話語轉(zhuǎn)換為語匯相互關(guān)系的數(shù)學(xué)符號表達。然后,這些數(shù)學(xué)符號被用來進行預(yù)測:在所有數(shù)據(jù)中,如果對這個提示的回答已經(jīng)存在,那么它可能是什么?最后,模型再將結(jié)果所示的數(shù)字轉(zhuǎn)換回文本。大語言模型中所謂的“大”,是指可供其調(diào)整的輸入信息權(quán)重數(shù)量。2018年,OpenAI推出首個大語言模型GPT-1,據(jù)稱有約1.2億參數(shù),其中大部分是權(quán)重,但也包括模型的諸多可調(diào)整方面,而GPT-4則擁有超過一萬億參數(shù)。
正是因為大語言模型有這么多參數(shù)需要微調(diào),并且在它們的訓(xùn)練集中有如此多的語言數(shù)據(jù),所以這些模型通常能夠作出恰當(dāng)?shù)念A(yù)測。“大模型的(理解力)飛躍體現(xiàn)在我們不需要再給出很多背景信息,比如廚房是什么樣子的?!蓖旭R森解釋,“這個系統(tǒng)已經(jīng)一遍又一遍地掌握食譜,所以當(dāng)我說‘做土豆餅’時,系統(tǒng)知道步驟應(yīng)該是‘找到土豆、找到刀、刨土豆’等等。”
然而,與大語言模型連接的機器人是一個失衡的系統(tǒng):無限的語言能力接入一個只能完成少部分人類任務(wù)的機器人軀體。如果機器人只有一個兩指夾持器,那么它不可能精巧地給魚剔骨。如果被問及怎么燒晚飯,那么大語言模型將從數(shù)十億個詞語中獲取答案,但它提出的答案機器人無法執(zhí)行。
除了這些內(nèi)在的限制,辛格、托馬森等人還指出,真實世界引入了隨機性,即使機器人再“聰明”可能還是難以應(yīng)對。比如,改變窗簾懸掛的位置會改變光線從物體反射的方向,因此房間里的機器人無法用攝像頭看得那么清楚;再比如,一個適用于圓形橙子的夾持器可能無法穩(wěn)穩(wěn)拿住形狀不那么規(guī)則的蘋果。
美國布朗大學(xué)機器人學(xué)家斯特凡妮·泰萊克斯認(rèn)為,現(xiàn)在的情況是,語言理解力驚人,但機器人很糟糕。致力于研究機器人語言理解的她指出,機器人必須變得更好,才能跟上理解力的前進腳步。
辛格認(rèn)為,有一個辦法也許能解決這個問題,這種方式已被證明可使大語言模型避免數(shù)學(xué)和邏輯錯誤,即在提示中同時包含問題和解決辦法的示例。因為大語言模型并非為推理而設(shè)計,于是研究人員發(fā)現(xiàn),當(dāng)提示的問題后緊跟解決類似問題的示例,包括對每個步驟的解釋,結(jié)果會有很大改善。
辛格推測,這種方法可以讓大語言模型的答案控制在實驗室機器人能夠完成的事情范圍內(nèi)。她所指的示例,就是機器人可以執(zhí)行的簡單步驟——動作和物體的組合,比如“去冰箱”或“拿鮭魚”。得益于大語言模型對事物運行數(shù)據(jù)的了解,簡單的動作將能以人類熟悉的方式組合起來,與機器人對環(huán)境的感知進行互動。辛格意識到,她可以讓ChatGPT編寫機器人能夠遵循的代碼。ChatGPT不再使用日常語言,而將使用編程語言Python。
辛格和托馬森已針對一個實體機械臂和一個虛擬機器人測試了這種方法,稱為ProgPrompt。在虛擬環(huán)境中,對于ProgPrompt提出的計劃,機器人基本都可執(zhí)行,而且這些計劃的成功率要比以往任何訓(xùn)練系統(tǒng)高得多。與此同時,給實體機器人分配較簡單的分類任務(wù),它也基本總能完成。
在谷歌,卡羅爾·豪斯曼、布萊恩·伊克特等人也試圖將大語言模型的輸出轉(zhuǎn)化為機器人行為,他們嘗試了另一種策略。在他們創(chuàng)建的SayCan系統(tǒng)中,谷歌的PaLM大語言模型先收到機器人可以執(zhí)行的簡單行為列表。PaLM被告知,它生成的答案必須包含該列表中的項目。在人類用對話語言提出請求后,大語言模型會從列表中選擇一些最有可能成功的行為。
在項目的一次演示中,一位研究人員鍵入:“我剛剛健完身,你能給我拿一杯飲料和一些零食來幫助我放松嗎?”在大語言模型的評估中,“找到一瓶水”比“找到一個蘋果”更有可能滿足請求。機器人是一個單臂、帶輪子的裝置,看上去像一臺起重機和一盞落地?zé)舻幕旌象w。它駛?cè)雽嶒炇依锏膹N房,找到一瓶水,帶給研究人員,然后返回。由于水已經(jīng)送到,大語言模型此時將“找到一個蘋果”的權(quán)重提高,于是機器人就拿起蘋果。由于大語言模型了解人們對健身的說法,系統(tǒng)“明白”不能給用戶拿含糖汽水或垃圾食品。
“你可以告訴機器人,‘給我拿一杯咖啡’,機器人就會給你拿一杯咖啡?!盨ayCan的一名設(shè)計師說,“但我們希望實現(xiàn)更高層次的理解。比如你可以說,‘我昨晚沒睡好,你能幫我一下嗎?’機器人應(yīng)該知道要給你一杯咖啡?!?/p>
在大語言模型中尋求更高層次理解會產(chǎn)生一個疑問:這些語言程序只是機械地操縱詞語,還是說它們對這些詞語代表的事物建構(gòu)起了某種聯(lián)系?美國普林斯頓大學(xué)工程學(xué)教授、機器人學(xué)家阿尼魯達·馬朱姆達指出,當(dāng)大語言模型提出燒飯的現(xiàn)實計劃時,“似乎有一種推理在其中”。程序中沒有任何部分“知道”鮭魚是魚,它也“不知道”很多魚可食用以及魚會游泳。但是,程序產(chǎn)生的這些詞語中隱含了所有這些知識。
在最近一次實驗中,馬朱姆達和普林斯頓大學(xué)計算機科學(xué)系教授卡爾??恕ぜ{拉西曼等人利用大語言模型暗含的“世界地圖”來解決他們所謂的機器人學(xué)一大挑戰(zhàn):使機器人能夠操縱它未曾接觸或尚無程序指引的工具。
他們的系統(tǒng)展示出“元學(xué)習(xí)”的苗頭,即把早期習(xí)得的知識應(yīng)用于新的情境中。研究人員對GPT-3輸入“詳細(xì)、科學(xué)地描述錘子的用途”,并收集答案。他們重復(fù)這個提示,并將關(guān)鍵詞換成另外26種工具,從涂刷器到斧頭不等。然后,他們將大語言模型的答案輸入一個虛擬機械臂,并對其訓(xùn)練。在面對撬棍這一陌生物體時,接受傳統(tǒng)訓(xùn)練的機器人試圖通過其彎曲的一端來拿起撬棍,而接受GPT-3訓(xùn)練的機器人則準(zhǔn)確拿起了棍子的長柄。連上GPT“大腦”的機器人系統(tǒng)就像人一樣,能夠“概括總結(jié)”,因為它見過其他帶柄的工具,所以會去拿撬棍的長柄。
不過,機器無論是進行自主推理,還是按部就班行事,許多人都非常擔(dān)憂它在現(xiàn)實世界中的能力。與傳統(tǒng)編程相比,大語言模型本質(zhì)上更不可靠、更不可知,這讓許多專業(yè)人士感到憂心。托馬森說:“有些機器人專家認(rèn)為,要告訴機器人做某件事卻不約束該事物的含義,這并不好。”
心理學(xué)家、科技企業(yè)家加里·馬庫斯雖稱贊谷歌的PaLMSayCan項目“令人難以置信”,但他實際上對大語言模型持懷疑態(tài)度,去年夏天他就對該項目提出了反對意見。馬庫斯認(rèn)為,如果大語言模型誤解了人類的需求,或未能充分理解需求的含義,那么它們在機器人內(nèi)部可能會變得危險。當(dāng)人類提出的需求本身有惡意時,大語言模型理解了人類的意愿,也可能造成傷害。
除了不能完全理解語義,大語言模型還有一個問題——偏見。大語言模型依賴人類產(chǎn)生的數(shù)據(jù),但它并不是所有知識的存儲庫?;ヂ?lián)網(wǎng)上存在感較低的語言、文化、民族,其實并沒有納入其中。例如,根據(jù)最新估計,非洲約有2000門語言,僅有約30門納入了幾個主要大語言模型的訓(xùn)練數(shù)據(jù)中。因此,去年11月在arXiv上發(fā)布的一篇研究預(yù)印本發(fā)現(xiàn),GPT-4和另外兩個熱門大語言模型在使用非洲語言時的表現(xiàn)比使用英語時差得多。
此外,模型訓(xùn)練所依賴的數(shù)據(jù)——取自數(shù)字資源的數(shù)十億單詞——包含了大量有關(guān)人的偏見和刻板印象。美國卡內(nèi)基梅隆大學(xué)的人工智能和機器人研究員安德魯·亨特說,大語言模型如果在其訓(xùn)練數(shù)據(jù)中注意到了刻板印象,可能會在其回答中刻意模仿,且使用頻率高于數(shù)據(jù)集中的數(shù)據(jù)。亨特認(rèn)為,大語言模型的制造者可以攔截包含這些刻板印象的惡意提示,但這還不夠,“在大語言模型可以應(yīng)用于機器人之前,需要進行廣泛研究,采取一系列安全措施”。
但目前還不必?fù)?dān)心一件事,那就是大語言模型驅(qū)動的機器人會產(chǎn)生危險。機器就像人類一樣,說永遠(yuǎn)比做容易。谷歌公司的豪斯曼說:“我們在很多小事情上就遇到了瓶頸,比如打開抽屜、移動物體,這些事情也是至少到目前為止,語言幫不上大忙的技能?!?/p>
目前,大語言模型帶來的最大挑戰(zhàn)不是它們的機器人身體,而是它們以神秘的方式模仿了人類的許多好事和壞事。泰萊克斯說,大語言模型是“一種互聯(lián)網(wǎng)格式塔”——互聯(lián)網(wǎng)的所有精華都在其中,而所有糟粕也都在其中。她說,與大語言模型生成的釣魚郵件、垃圾郵件或其炮制的假新聞相比,將模型放入機器人也許是可以用它來做的最安全的事情之一。
(摘自3月23日《文匯報》。編譯者為該報記者)