多模態(tài)GPT-4發(fā)布，AI 沖擊算法之巔

2023-04-04 01:46:16張毅

電腦報 2023年12期

張毅

ChatGPT 的熱度還沒過去，它的進(jìn)階版就來了。3月15日，距離AI（人工智能）聊天機(jī)器人ChatGPT 的亮相還不到4 個月，它的開發(fā)商OpenAI 又推出了新版多模態(tài)預(yù)訓(xùn)練大模型——GPT-4。與基于GPT-3.5的ChatGPT 相比，GPT-4 的表現(xiàn)更為驚人，讓許多網(wǎng)友大呼：“這下AI 真的要取代人類了！”

能玩梗能考律師的GPT-4來了

3月15日凌晨，OpenAI發(fā)布了多模態(tài)預(yù)訓(xùn)練大模型GPT-4，這也是其大型語言模型的最新版本。

與此前的版本相比，GPT-4具備強(qiáng)大的識圖能力，文字輸入限制也提升至2.5 萬字；GPT-4 的回答準(zhǔn)確性也顯著提升，還能夠生成歌詞、創(chuàng)意文本從而實(shí)現(xiàn)風(fēng)格變化。同時，GPT-4 在各類專業(yè)測試及學(xué)術(shù)基準(zhǔn)上也表現(xiàn)優(yōu)良。

“這是OpenAI 努力擴(kuò)展深度學(xué)習(xí)的最新里程碑?！監(jiān)penAI介紹，“GPT-4 是一個大型多模態(tài)模型，它接受圖像和文本輸入、進(jìn)行文本輸出，雖然在許多現(xiàn)實(shí)場景中它還不如人類，但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出與人類相當(dāng)?shù)男阅??！監(jiān)penAI 介紹稱，在日常對話中，GPT-4 與GPT-3.5 之間的差距或許微妙，但當(dāng)任務(wù)復(fù)雜度足夠高的時候，GPT-4 將具備更可靠、更具創(chuàng)造性的特點(diǎn)，且能夠處理更細(xì)致的指令。

例如，根據(jù)OpenAI 公布的實(shí)驗(yàn)數(shù)據(jù)，GPT-4 通過模擬律師考試且分?jǐn)?shù)在應(yīng)試者的10% 左右。相較之下，GPT-3.5 版本大模型的成績是倒數(shù)10%。

除了普通圖片，GPT-4 還能處理更復(fù)雜的圖像信息，包括表格、考試題目截圖、論文截圖、漫畫等。此外，在多語種方面，GPT-4 也體現(xiàn)出優(yōu)越性。在測試的26 種語言中，GPT-4 在24 種語言方面的表現(xiàn)均優(yōu)于GPT-3.5 等其他大語言模型的英語語言性能，其中包括部分低資源語言如拉脫維亞語、威爾士語等。在中文語境中，GPT-4 能夠達(dá)到80.1% 的準(zhǔn)確性。

GPT-4開啟AI多模態(tài)時代

“多模態(tài)、推理能力、預(yù)測擴(kuò)展性”是GPT-4 的三大亮點(diǎn)，而多模態(tài)可以說是GPT-4 最大亮點(diǎn)。GPT-4 可以接受文本和圖像的提示，允許用戶指定任何視覺或語言任務(wù)。具體來說，給定由穿插文本和圖像組成的輸入，GPT-4 生成文本輸出（自然語言、代碼等）。

多模態(tài)算法即融合文字、圖片、音視頻等多種內(nèi)容形式的AI 算法，多模態(tài)出世之前，AI 模型只專注于單一領(lǐng)域，例如自然語言處理或計(jì)算機(jī)視覺等；多模態(tài)技術(shù)出現(xiàn)后，模型已經(jīng)從早期單一的自然語言處理和機(jī)器視覺發(fā)展成自動生成圖畫、圖像文字、音視頻等多模態(tài)內(nèi)容，極大地推動了AIGC 的內(nèi)容多樣性和通用性。

AI 要滲透到各行業(yè)，向多模態(tài)發(fā)展是必然趨勢。各個應(yīng)用場景需要交互的輸入輸出各不相同，例如AI 繪畫從輸入圖像或者文字得到圖像，PalM-E 同時處理視覺、語言和傳感器，極可能應(yīng)用到工業(yè)生產(chǎn)中。同時多模態(tài)的大模型也可以通過細(xì)分領(lǐng)域數(shù)據(jù)微調(diào)，高效地應(yīng)用到各個領(lǐng)域。畢竟現(xiàn)實(shí)世界中的數(shù)據(jù)天然就是多模態(tài)的，通用人工智能必然需要有能感知和理解多模態(tài)數(shù)據(jù)的能力，未來的人形機(jī)器人能和人類一樣，可以綜合通過聽覺視覺觸覺來與世界做出各種交互。

初探“人類思維”

GPT-4與GPT-3.5對比各項(xiàng)考試成績，資料來源：OpenAI官網(wǎng)

視覺輸入：圖表推理（格魯吉亞和西亞的日均肉類消費(fèi)量總和是多少？），資料來源：OpenAI官網(wǎng)

GPT-4 相較于GPT-3.5模型更加強(qiáng)大，更可靠、更有創(chuàng)意，且更能夠理解細(xì)微的指令，表現(xiàn)出來的性能為，在各種專業(yè)和學(xué)術(shù)考試以及NLP（自然語言處理）基準(zhǔn)測試上達(dá)到或超越人類水平。

GPT-4 具備極強(qiáng)的復(fù)雜推理機(jī)制，無論是復(fù)雜的邏輯推理、編程推導(dǎo)或者是密集型內(nèi)容幫助，GPT-4 皆表現(xiàn)能力不俗，例如ChatGPT 可以對稅務(wù)人士進(jìn)行密集的內(nèi)容幫助，該模型快速得到了標(biāo)準(zhǔn)答案，并且可以做到“理解它的解釋”。如此，GPT-4 會對編程、內(nèi)容審核等場景產(chǎn)生深遠(yuǎn)影響。

研發(fā)團(tuán)隊(duì)在機(jī)器學(xué)習(xí)傳統(tǒng)基準(zhǔn)測試上（包括MMLU、HellaSwag 等）比較了GPT-4 和GPT-3.5、SOTA 等模型的性能，結(jié)果顯示GPT-4 在這些基準(zhǔn)測試上的表現(xiàn)大大優(yōu)于現(xiàn)有的大型語言模型，并且在大多數(shù)測試中超越了目前最先進(jìn)的SOTA 模型。

總體來講，GPT-4 具有更強(qiáng)的生產(chǎn)力屬性，尤其是在應(yīng)用層面，GPT-4 可能快速改變各行各業(yè)的生產(chǎn)和消費(fèi)模式。從政府治理、社會治理的數(shù)字智能化，到教育、就業(yè)、個人發(fā)展的新形態(tài)，它都可能為人類帶來不可替代的利好作用，成為我們身邊穩(wěn)定存在的伙伴。隨著GPT-4 對人機(jī)交互模式的改變，多模態(tài)能力首先有望重塑從瀏覽器到文檔智能等的軟件交互，未來還有望重塑從手機(jī)、PC、智能手表到智能家居的硬件交互。

OpenAI模型的應(yīng)用場景正加速落地

由于大模型的規(guī)模化效應(yīng)（scalinglaw），增加模型參數(shù)量、數(shù)據(jù)量有助于提升模型表現(xiàn)。過去數(shù)年中，行業(yè)推出大模型時也往往標(biāo)榜模型規(guī)模之大。然而本次GPT-4 并未在論文中提供參數(shù)量、數(shù)據(jù)量等信息，AI 行業(yè)漸漸嘗試逐漸走出單純強(qiáng)調(diào)模型規(guī)模的時代，降低使用門檻、提高實(shí)際落地效果成為通用AI 新的發(fā)展方向。

而這次OpenAI 在發(fā)布GPT-4 的同時，推出便于落地的工具并開源了Evals 評估框架便于用戶選擇模型。這意味著使用千分之一至萬分之一的算力就能夠可靠地預(yù)測GPT-4 在下游垂直領(lǐng)域使用的性能，下游廠商可以先以較小的成本廣泛試用，最終選擇最適合自己需求的大模型。具體在應(yīng)用方向上，現(xiàn)階段，大模型的能力還主要體現(xiàn)在NLP 上，因此主要用于搜索（如微軟繼承了大模型的NewBing）、航程輔助、聊天機(jī)器人變種（獵頭使用軟件、智能客服、智能音箱、游戲NPC 等），而1～5 年內(nèi)，隨著多模態(tài)的發(fā)展，大模型首先會用于Office 類辦公工具，還將有多類簡單多模態(tài)方案落地（智能家居、工業(yè)視覺、行業(yè)化機(jī)器人）、行業(yè)專家（AI 醫(yī)療、教育等）、智能助理（聊天、工作安排、點(diǎn)外賣、購物等）。

未來，結(jié)合復(fù)雜多模態(tài)方案的大模型將具備完備的與世界交互的能力，在通用機(jī)器人、虛擬現(xiàn)實(shí)等領(lǐng)域得到應(yīng)用。

GPT-4與其他版本GPT在相關(guān)考試中的比較，資料來源：OpenAI

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

多模態(tài)GPT-4發(fā)布，AI 沖擊算法之巔

能玩梗能考律師的GPT-4來了

GPT-4開啟AI多模態(tài)時代

初探“人類思維”

OpenAI模型的應(yīng)用場景正加速落地

多模態(tài)GPT-4發(fā)布，AI 沖擊算法之巔