張毅
ChatGPT 的熱度還沒過去,它的進(jìn)階版就來了。3月15日,距離AI(人工智能)聊天機(jī)器人ChatGPT 的亮相還不到4 個月,它的開發(fā)商OpenAI 又推出了新版多模態(tài)預(yù)訓(xùn)練大模型——GPT-4。與基于GPT-3.5的ChatGPT 相比,GPT-4 的表現(xiàn)更為驚人,讓許多網(wǎng)友大呼:“這下AI 真的要取代人類了!”
3月15日凌晨,OpenAI發(fā)布了多模態(tài)預(yù)訓(xùn)練大模型GPT-4,這也是其大型語言模型的最新版本。
與此前的版本相比,GPT-4具備強(qiáng)大的識圖能力,文字輸入限制也提升至2.5 萬字;GPT-4 的回答準(zhǔn)確性也顯著提升,還能夠生成歌詞、創(chuàng)意文本從而實(shí)現(xiàn)風(fēng)格變化。同時,GPT-4 在各類專業(yè)測試及學(xué)術(shù)基準(zhǔn)上也表現(xiàn)優(yōu)良。
“這是OpenAI 努力擴(kuò)展深度學(xué)習(xí)的最新里程碑?!監(jiān)penAI介紹,“GPT-4 是一個大型多模態(tài)模型,它接受圖像和文本輸入、進(jìn)行文本輸出,雖然在許多現(xiàn)實(shí)場景中它還不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出與人類相當(dāng)?shù)男阅??!監(jiān)penAI 介紹稱,在日常對話中,GPT-4 與GPT-3.5 之間的差距或許微妙,但當(dāng)任務(wù)復(fù)雜度足夠高的時候,GPT-4 將具備更可靠、更具創(chuàng)造性的特點(diǎn),且能夠處理更細(xì)致的指令。
例如,根據(jù)OpenAI 公布的實(shí)驗(yàn)數(shù)據(jù),GPT-4 通過模擬律師考試且分?jǐn)?shù)在應(yīng)試者的10% 左右。相較之下,GPT-3.5 版本大模型的成績是倒數(shù)10%。
除了普通圖片,GPT-4 還能處理更復(fù)雜的圖像信息,包括表格、考試題目截圖、論文截圖、漫畫等。此外,在多語種方面,GPT-4 也體現(xiàn)出優(yōu)越性。在測試的26 種語言中,GPT-4 在24 種語言方面的表現(xiàn)均優(yōu)于GPT-3.5 等其他大語言模型的英語語言性能,其中包括部分低資源語言如拉脫維亞語、威爾士語等。在中文語境中,GPT-4 能夠達(dá)到80.1% 的準(zhǔn)確性。
“多模態(tài)、推理能力、預(yù)測擴(kuò)展性”是GPT-4 的三大亮點(diǎn),而多模態(tài)可以說是GPT-4 最大亮點(diǎn)。GPT-4 可以接受文本和圖像的提示,允許用戶指定任何視覺或語言任務(wù)。具體來說,給定由穿插文本和圖像組成的輸入,GPT-4 生成文本輸出(自然語言、代碼等)。
多模態(tài)算法即融合文字、圖片、音視頻等多種內(nèi)容形式的AI 算法,多模態(tài)出世之前,AI 模型只專注于單一領(lǐng)域,例如自然語言處理或計(jì)算機(jī)視覺等;多模態(tài)技術(shù)出現(xiàn)后,模型已經(jīng)從早期單一的自然語言處理和機(jī)器視覺發(fā)展成自動生成圖畫、圖像文字、音視頻等多模態(tài)內(nèi)容,極大地推動了AIGC 的內(nèi)容多樣性和通用性。
AI 要滲透到各行業(yè),向多模態(tài)發(fā)展是必然趨勢。各個應(yīng)用場景需要交互的輸入輸出各不相同,例如AI 繪畫從輸入圖像或者文字得到圖像,PalM-E 同時處理視覺、語言和傳感器,極可能應(yīng)用到工業(yè)生產(chǎn)中。同時多模態(tài)的大模型也可以通過細(xì)分領(lǐng)域數(shù)據(jù)微調(diào),高效地應(yīng)用到各個領(lǐng)域。畢竟現(xiàn)實(shí)世界中的數(shù)據(jù)天然就是多模態(tài)的,通用人工智能必然需要有能感知和理解多模態(tài)數(shù)據(jù)的能力,未來的人形機(jī)器人能和人類一樣,可以綜合通過聽覺視覺觸覺來與世界做出各種交互。
GPT-4與GPT-3.5對比各項(xiàng)考試成績,資料來源:OpenAI官網(wǎng)
視覺輸入:圖表推理(格魯吉亞和西亞的日均肉類消費(fèi)量總和是多少?),資料來源:OpenAI官網(wǎng)
GPT-4 相較于GPT-3.5模型更加強(qiáng)大,更可靠、更有創(chuàng)意,且更能夠理解細(xì)微的指令,表現(xiàn)出來的性能為,在各種專業(yè)和學(xué)術(shù)考試以及NLP(自然語言處理)基準(zhǔn)測試上達(dá)到或超越人類水平。
GPT-4 具備極強(qiáng)的復(fù)雜推理機(jī)制,無論是復(fù)雜的邏輯推理、編程推導(dǎo)或者是密集型內(nèi)容幫助,GPT-4 皆表現(xiàn)能力不俗,例如ChatGPT 可以對稅務(wù)人士進(jìn)行密集的內(nèi)容幫助,該模型快速得到了標(biāo)準(zhǔn)答案,并且可以做到“理解它的解釋”。如此,GPT-4 會對編程、內(nèi)容審核等場景產(chǎn)生深遠(yuǎn)影響。
研發(fā)團(tuán)隊(duì)在機(jī)器學(xué)習(xí)傳統(tǒng)基準(zhǔn)測試上( 包括MMLU、HellaSwag 等)比較了GPT-4 和GPT-3.5、SOTA 等模型的性能,結(jié)果顯示GPT-4 在這些基準(zhǔn)測試上的表現(xiàn)大大優(yōu)于現(xiàn)有的大型語言模型,并且在大多數(shù)測試中超越了目前最先進(jìn)的SOTA 模型。
總體來講,GPT-4 具有更強(qiáng)的生產(chǎn)力屬性,尤其是在應(yīng)用層面,GPT-4 可能快速改變各行各業(yè)的生產(chǎn)和消費(fèi)模式。從政府治理、社會治理的數(shù)字智能化,到教育、就業(yè)、個人發(fā)展的新形態(tài),它都可能為人類帶來不可替代的利好作用,成為我們身邊穩(wěn)定存在的伙伴。隨著GPT-4 對人機(jī)交互模式的改變,多模態(tài)能力首先有望重塑從瀏覽器到文檔智能等的軟件交互,未來還有望重塑從手機(jī)、PC、智能手表到智能家居的硬件交互。
由于大模型的規(guī)模化效應(yīng)(scalinglaw),增加模型參數(shù)量、數(shù)據(jù)量有助于提升模型表現(xiàn)。過去數(shù)年中,行業(yè)推出大模型時也往往標(biāo)榜模型規(guī)模之大。然而本次GPT-4 并未在論文中提供參數(shù)量、數(shù)據(jù)量等信息,AI 行業(yè)漸漸嘗試逐漸走出單純強(qiáng)調(diào)模型規(guī)模的時代,降低使用門檻、提高實(shí)際落地效果成為通用AI 新的發(fā)展方向。
而這次OpenAI 在發(fā)布GPT-4 的同時,推出便于落地的工具并開源了Evals 評估框架便于用戶選擇模型。這意味著使用千分之一至萬分之一的算力就能夠可靠地預(yù)測GPT-4 在下游垂直領(lǐng)域使用的性能,下游廠商可以先以較小的成本廣泛試用,最終選擇最適合自己需求的大模型。具體在應(yīng)用方向上,現(xiàn)階段,大模型的能力還主要體現(xiàn)在NLP 上,因此主要用于搜索(如微軟繼承了大模型的NewBing)、航程輔助、聊天機(jī)器人變種(獵頭使用軟件、智能客服、智能音箱、游戲NPC 等),而1~5 年內(nèi),隨著多模態(tài)的發(fā)展,大模型首先會用于Office 類辦公工具,還將有多類簡單多模態(tài)方案落地(智能家居、工業(yè)視覺、行業(yè)化機(jī)器人)、行業(yè)專家(AI 醫(yī)療、教育等)、智能助理(聊天、工作安排、點(diǎn)外賣、購物等)。
未來,結(jié)合復(fù)雜多模態(tài)方案的大模型將具備完備的與世界交互的能力,在通用機(jī)器人、虛擬現(xiàn)實(shí)等領(lǐng)域得到應(yīng)用。
GPT-4與其他版本GPT在相關(guān)考試中的比較,資料來源:OpenAI