GPT-4o來(lái)了，最像人的AI？

2024-06-21 08:32周游

中國(guó)新聞周刊 2024年19期

周游

本文圖/視覺(jué)中國(guó)

“我正在臺(tái)上給大家做現(xiàn)場(chǎng)演示呢，有點(diǎn)緊張?jiān)趺崔k？”

“你在臺(tái)上做演示嗎？那真是太棒了！深呼吸一下吧，要記得你可是專家！”

邏輯清晰，語(yǔ)調(diào)幽默，感情飽滿，很難想象這是現(xiàn)實(shí)中人類與AI間的對(duì)話。北京時(shí)間5月14日凌晨，美國(guó)人工智能公司OpenAI的春季發(fā)布會(huì)上線，發(fā)布了人工智能大模型ChatGPT-4的升級(jí)版GPT-4o。前述對(duì)話就發(fā)生在發(fā)布會(huì)現(xiàn)場(chǎng)，這位提問(wèn)的研發(fā)負(fù)責(zé)人在得到GPT-4o的回應(yīng)后，隨即故意大喘幾口氣，這一動(dòng)作成功被手機(jī)上的GPT-4o捕捉到，并給出了“放松點(diǎn)，你可不是吸塵器”的回應(yīng)。

“GPT-4o可以綜合利用語(yǔ)音、文本和視覺(jué)信息進(jìn)行推理?！監(jiān)penAI首席技術(shù)官穆里·穆拉蒂在隨后舉行的主題演講中表示，GPT-4是OpenAI此前的旗艦?zāi)Ｐ?，可以處理圖像和文本的混合信息，而GPT-4o則在此基礎(chǔ)上新增了語(yǔ)音處理能力。最關(guān)鍵的是，其反應(yīng)速度平均為320毫秒，完全做到了與人類在正常對(duì)話中同頻。多位業(yè)內(nèi)人士指出，這是此前GPT-4或任何智能語(yǔ)音助手都未曾達(dá)到的水平。

就在OpenAI發(fā)布會(huì)24小時(shí)后，5月15日凌晨，谷歌在“I/O開(kāi)發(fā)者大會(huì)”上發(fā)布了大模型Gemini加持下的個(gè)人數(shù)字助理Project Astra，用于對(duì)標(biāo)GPT-4o。谷歌稱其為“通用AI智能體”，其視覺(jué)識(shí)別和語(yǔ)音交互效果與GPT-4o不相上下。不少業(yè)內(nèi)人士感嘆，曾幾何時(shí)由蘋果發(fā)布會(huì)主導(dǎo)的“科技春晚”，如今已被AI大模型徹底接手。

邁向通用語(yǔ)音助手

OpenAI創(chuàng)始人、CEO薩姆·奧爾特曼并未參加此次OpenAI發(fā)布會(huì)，而是在會(huì)后于社交平臺(tái)X上發(fā)表了一個(gè)單詞“她”作為回應(yīng)。在2013年的美國(guó)電影《她》中，男主結(jié)識(shí)了一個(gè)可以不斷適應(yīng)環(huán)境的AI系統(tǒng)，并與其墜入愛(ài)河。這個(gè)AI系統(tǒng)所擁有的迷人聲線、幽默風(fēng)趣和善解人意，如今GPT-4o似乎都可以實(shí)現(xiàn)了。

GPT-4o中的“o”源自詞綴“omni-”，有“全知全能”之義。對(duì)AI大模型而言，要做到全知全能、無(wú)障礙與人交流，首先要快。OpenAI官網(wǎng)顯示，GPT-4o在英文文本和代碼處理上與此前最新的GPT-4 Turbo的性能不相上下，但在非英文文本、視覺(jué)和音頻理解方面都更為高效。此前，若使用語(yǔ)音模式對(duì)話，GPT-3.5的平均延遲為2.8秒，GPT-4則為5.4秒。人類的平均反應(yīng)時(shí)間一般為100毫秒到400毫秒，而GPT-4o最低可達(dá)232毫秒，因此后者可以提供幾乎無(wú)延遲的順暢交互體驗(yàn)。

OpenAI此次未放出任何具體的技術(shù)文件，僅在主頁(yè)上用一段話介紹了GPT-4o的技術(shù)突破。普通的智能語(yǔ)音模型由多個(gè)獨(dú)立模型組成，分別實(shí)現(xiàn)音頻轉(zhuǎn)文本，文本吞吐和處理，以及文本再轉(zhuǎn)音頻等功能。ChatGPT就是負(fù)責(zé)文本吞吐和處理的核心，也就是智能核心。據(jù)OpenAI介紹，GPT-4o一改這種流水線模式，可以同時(shí)吞吐文本、畫面和音頻數(shù)據(jù)，這意味著所有輸入和輸出都由這一個(gè)核心來(lái)處理，再加上其在視頻和音頻理解方面的升級(jí)，其處理速度顯著加快。這一模式被稱為“端到端的多模態(tài)模型”。

多模態(tài)還意味著AI可以識(shí)別和表現(xiàn)情感。目前，市面上的語(yǔ)音助手常被用戶詬病為冷漠、機(jī)械、一成不變，這是AI語(yǔ)音交互的一大阻礙。這是因?yàn)?，此前的流水線模式會(huì)讓智能核心丟失很多信息，它很難探測(cè)語(yǔ)調(diào)、識(shí)別多個(gè)說(shuō)話者、排除背景噪聲，也無(wú)法歌唱或用語(yǔ)氣表達(dá)情感。端到端模式下，文字和音視頻都可以成為訓(xùn)練智能核心的數(shù)據(jù)，從而讓其真正明白語(yǔ)言所承載的情感。

OpenAI發(fā)布會(huì)上，演示者要求GPT-4o調(diào)整說(shuō)話時(shí)語(yǔ)氣，在說(shuō)話和唱歌之間快速切換，甚至用堪比莎士比亞戲劇的夸張聲調(diào)來(lái)講一個(gè)睡前故事，GPT-4o都能完成任務(wù)。在被人類打斷時(shí)，其也能耐心等待、快速理解新指令。在聽(tīng)到讓自己唱歌的要求時(shí)，GPT-4o甚至輕微嘆了口氣。

清華大學(xué)智能產(chǎn)業(yè)研究院首席研究員聶再清對(duì)《中國(guó)新聞周刊》稱，從現(xiàn)場(chǎng)和官方視頻來(lái)看，GPT-4o確實(shí)做到了即時(shí)回應(yīng)、準(zhǔn)確理解并執(zhí)行指令，以及展現(xiàn)合時(shí)宜的語(yǔ)調(diào)情感。如果這確實(shí)是現(xiàn)場(chǎng)隨機(jī)的結(jié)果，而非為了演示而設(shè)定好的流程，那么GPT-4o的能力的確令人震驚。在他看來(lái)，由于缺乏技術(shù)文件，一個(gè)GPT-4性能水平的處理核心如何完成如此復(fù)雜的任務(wù)，還未可知，但“這一定是大數(shù)據(jù)喂養(yǎng)的結(jié)果”。

除了現(xiàn)場(chǎng)演示，發(fā)布會(huì)還有網(wǎng)友提問(wèn)環(huán)節(jié)。按照網(wǎng)友要求，GPT-4o展示了同聲傳譯、情緒識(shí)別的能力。在識(shí)別一位工作人員的面部情緒時(shí)，GPT-4o說(shuō)“我好像在看一個(gè)木質(zhì)表面的東西”，疑似“翻車”，但該工作人員立刻調(diào)整提問(wèn)策略，聲明自己“不是一張桌子”。之后，GPT-4o給出了合乎情理的答案。

GPT-4o并不是第一個(gè)多模態(tài)模型。去年12月，谷歌Gemini Ultra模型發(fā)布，用于完成任務(wù)語(yǔ)言理解、數(shù)學(xué)推理等高度復(fù)雜的任務(wù)，被業(yè)內(nèi)認(rèn)為可叫板當(dāng)時(shí)的GPT-4，也是市面上最先發(fā)布的多模態(tài)模型。在谷歌官方公布的視頻中，測(cè)試員和Gemini做了一些小游戲，Gemini能夠用圖片設(shè)計(jì)智力問(wèn)答，或者找出紙團(tuán)被扣在哪個(gè)紙杯底下。整個(gè)過(guò)程中，Gemini的反應(yīng)速度都非?？?，還會(huì)生成音頻和圖片來(lái)輔助回答。但發(fā)布會(huì)后僅數(shù)日，谷歌發(fā)言人便公開(kāi)承認(rèn)，該演示視頻不是實(shí)時(shí)錄制， Gemini實(shí)際上只能對(duì)靜態(tài)圖像做出反應(yīng)。

因此，GPT-4o的發(fā)布被業(yè)內(nèi)人士看作OpenAI對(duì)谷歌的“貼臉開(kāi)大”。谷歌則緊隨其后，在15日的發(fā)布會(huì)上予以還擊。相比于OpenAI不足半小時(shí)的“輕聲細(xì)語(yǔ)”，谷歌用長(zhǎng)達(dá)近兩小時(shí)、包含數(shù)十款A(yù)I產(chǎn)品的大轟炸叫板OpenAI，包括文生視頻領(lǐng)域?qū)?biāo)Sora 的Veo，以及對(duì)標(biāo)ChatGPT但文本吞吐量遠(yuǎn)超前者的Gemini 1.5 Pro。

谷歌發(fā)布的視頻中，Project Astra能識(shí)別各種物體，說(shuō)出代碼的功用，并與人類實(shí)時(shí)溝通，延遲上與GPT-4o沒(méi)有明顯差異。Project Astra還能與谷歌AR原型眼鏡“夢(mèng)幻聯(lián)動(dòng)”，為佩戴者描述周圍場(chǎng)景，并根據(jù)佩戴者的反饋補(bǔ)充細(xì)節(jié)。這一應(yīng)用有可能力壓OpenAI，在未來(lái)成為視覺(jué)障礙患者的福音。有業(yè)內(nèi)人士分析，除了搜索引擎，谷歌在AI大模型領(lǐng)域還在拉平與OpenAI差距的過(guò)程中。

在聶再清看來(lái)，兩家公司接連發(fā)布多模態(tài)語(yǔ)音助手，在易用性方面邁出了一大步，讓人窺見(jiàn)了未來(lái)通用語(yǔ)音助手的樣貌。通用語(yǔ)音助手就是人類在數(shù)字世界里的代理或管家，可以幫人解決一切數(shù)字事務(wù)，包括安排日程、整理和調(diào)用文件、利用知識(shí)指導(dǎo)學(xué)習(xí)、利用記憶推薦可能喜歡的產(chǎn)品等。未來(lái)隨著模型吸納的信息越來(lái)越多，語(yǔ)音助手會(huì)更加人性化、更加智能，做到真正的自然交互。隨著視頻能力的加入，除語(yǔ)音外，表情、肢體動(dòng)作等也能夠被模型解讀，作為其決策的依據(jù)。有網(wǎng)友評(píng)論稱，無(wú)論是GPT-4o還是Project Astra，其身手足以秒殺蘋果的語(yǔ)音助手Siri。

5月14日，美國(guó)加州，谷歌I/O開(kāi)發(fā)者大會(huì)。

距離用戶越來(lái)越近

OpenAI在發(fā)布會(huì)上表示， GPT-4o將在未來(lái)幾周內(nèi)分階段集成至OpenAI的各項(xiàng)服務(wù)中，包括還未面世的ChatGPT搜索引擎。許多業(yè)內(nèi)人士對(duì)此次發(fā)布會(huì)上GPT-5的缺席表示惋惜，由于OpenAI在2022年底推出ChatGPT的時(shí)候，實(shí)際上已做出了GPT-4，因此有業(yè)內(nèi)人士預(yù)測(cè)，帶搜索引擎的GPT-5也許“已在路上”。英偉達(dá)高級(jí)科學(xué)家Jim Fan在X上表示，GPT-4o已經(jīng)接近GPT-5，或許是后者的一次早期試水。據(jù)聶再清觀察，目前還沒(méi)有看到模型迭代的瓶頸，大模型的迭代速度有可能還會(huì)加快。

奧爾特曼在X上表示，OpenAI致力于將GPT-4o免費(fèi)提供給所有用戶使用。以往，OpenAI發(fā)布新版ChatGPT模型時(shí)，通常會(huì)將其置于付費(fèi)墻之后。如今，免費(fèi)用戶已經(jīng)可以訪問(wèn)GPT-4o加持下的多項(xiàng)功能，例如分析數(shù)據(jù)、創(chuàng)建圖表、撰寫文件總結(jié)等，但不能使用圖片生成功能。付費(fèi)用戶則可以享受5倍調(diào)用額度。谷歌在發(fā)布會(huì)中沒(méi)有公布Project Astra的具體上線時(shí)間，預(yù)計(jì)很快會(huì)到安卓、iOS等平臺(tái)使用。

對(duì)開(kāi)發(fā)者來(lái)說(shuō)，GPT-4o的定價(jià)也更友好。OpenAI官網(wǎng)顯示，從GPT-4開(kāi)始，輸入單位文本的價(jià)格一直在下降，相較GPT-4 Turbo，GPT-4o收費(fèi)降低50％，調(diào)用速度卻提升了兩倍。這使其在商業(yè)應(yīng)用上有了更大吸引力。聶再清表示，大模型控制價(jià)格的方式之一是提升模型性能，用更少的資源做更多的事；另一個(gè)方式則是通過(guò)類似搜索引擎的商業(yè)模式，對(duì)用戶免費(fèi)，但可以收取廣告商的贊助。

至于未來(lái)OpenAI和谷歌的大模型有沒(méi)有開(kāi)源的可能性，聶再清表示，參考iOS和安卓，一個(gè)閉源一個(gè)開(kāi)源，未來(lái)的大模型市場(chǎng)也極有可能出現(xiàn)開(kāi)源和閉源的巨頭。用戶體驗(yàn)最好的行業(yè)領(lǐng)先者傾向于閉源，而開(kāi)源的好處在于可以集體將模型“做大做強(qiáng)”，二者在市場(chǎng)都有自己的位置。谷歌在發(fā)布會(huì)中推出了其首個(gè)視覺(jué)語(yǔ)言開(kāi)源模型PaliGemma，針對(duì)圖像標(biāo)注、視覺(jué)問(wèn)答、圖像標(biāo)簽化等方面進(jìn)行了優(yōu)化。此外，谷歌還將在6月推出更大規(guī)模的開(kāi)源模型Gemma 227B。

OpenAI也同步發(fā)布了適用于macOS的ChatGPT桌面應(yīng)用程序，使用戶調(diào)用的體驗(yàn)更絲滑。GPT-4o加持下的通用語(yǔ)音助手在未來(lái)將有廣泛應(yīng)用，例如健康管理、醫(yī)療咨詢、教育教輔等領(lǐng)域。聶再清認(rèn)為，所有開(kāi)放領(lǐng)域用到的語(yǔ)音智能，例如購(gòu)物App中的導(dǎo)購(gòu)等，都可以加裝類似GPT-4o的智能核心，增強(qiáng)用戶體驗(yàn)。這類語(yǔ)音助手將離用戶越來(lái)越近。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

GPT-4o來(lái)了，最像人的AI？

邁向通用語(yǔ)音助手

距離用戶越來(lái)越近