王姍姍
智譜是目前獲得外部投資最多(25億元人民幣)的中國初創(chuàng)AI公司,與搜狗創(chuàng)始人王小川創(chuàng)立的百川智能融資規(guī)模(3.5億美元)相當。同時,它也是國內少數估值達到10億美元的AI初創(chuàng)公司,另外兩家是百川智能和MiniMax。
自ChatGPT發(fā)布以來,“大模型”一詞也跟著陷入通脹,國內的大模型競爭被描述為“百模大戰(zhàn)”,各種新概念被不斷拋出—金融大模型、工業(yè)大模型、天氣大模型甚至政務大模型……這種語言上的通脹困擾的不只是用戶,還有上游開發(fā)大模型的公司和CEO們。
但是,中國到底有多少家做基礎大模型(Foundation Model)的初創(chuàng)公司?智譜AI的CEO張鵬給出的答案是“一只手就數得過 來”。
智譜是目前國內少數估值達到10億美元的AI初創(chuàng)公司之一,另外兩家是百川智能和MiniMax。2023年10月27日,這家公司剛剛發(fā)布對標GPT-4的多模態(tài)模型ChatGLM3。但是,令張鵬困擾的問題,除了美國的AI芯片禁令,還有如何讓公司的模型在混亂的市場中被看到并找到客戶。
如果用L0層和L1層來區(qū)分,那么市面上大部分模型都是L1層的行業(yè)模型,只有少數才是L0層的基礎模型,前者需要基于后者做針對某個行業(yè)的繼續(xù)訓練。這是華為提出來的概念,張鵬認同這種區(qū)分,不過整個市場的意見并不統(tǒng)一,尤其是從面向終端用戶的角度。
沒有人知道這種混沌狀況會持續(xù)多久,與此同時,生成式AI高昂的研發(fā)成本和用戶增長瓶頸等問題又冒了出來—每家公司都需要在多重挑戰(zhàn)中選擇自己做什么不做什么、跟隨或者不跟隨,以及如何投入資源去跟上自己認為重要的目標。
以下是我們與智譜CEO張鵬的對話,他談到了智譜通過對標OpenAI提升模型水平的過程、生成式AI的成本問題、要不要從L0往上做L1的抉擇、B端市場的挑戰(zhàn)以及做C端應用的邏 輯。
智譜的背景是清華的實驗室,后來你們出于什么原因認為有必要成立一家創(chuàng)業(yè)公司?
我們實驗室(注:指清華大學知識工程研究室)1996年就成立了。19 98年我進清華計算機系念書,2005年碩士畢業(yè)后就一直留在實驗室工作。我們20 0 6年開始做的一個項目叫AMiner,它是一個技術情報挖掘系統(tǒng),系統(tǒng)本身倒不是很特別,最有價值的部分還是底層的A I算法,包括傳統(tǒng)的機器學習算法、數據挖掘方法,還有知識圖譜 等。
2017年,我們已經開始服務很多客戶,于是就想做一些研究成果轉化和產業(yè)化落地的事。我們想了各種辦法,到2019年才把這條路走通。
你們在2022年8月推出的第一個大模型GLM-130B是1300億參數,2023年推出的ChatGLM與之相比,最大的迭代是什么?
就像GPT-3迭代到ChatGPT這樣的關系,它是一個不同階段的迭代,并不是在同一個模型的基礎上。最大的差異不是參數規(guī)模,而是訓練采用的數據以及訓練方法的迭代。
早期無論是我們的GLM-130B,還是OpenAI的GP T-3,都不能識別人類的意圖到底是什么,后來加上有監(jiān)督的指令微調(Supervised FineTuning,SFT),再加上一些基于人類反饋的強化學習(Reinforcement Learningwith Human Feedback,RLHF)才達到現在ChatGPT和ChatGLM的效果。
現在大家都在比拼參數大小,參數可以說明模型能力 嗎?
參數大小構成模型能力的天花板。參數越大,一般來說潛力越大,它能夠學習更多的東西,不產生災難性的遺忘,不產生太多幻覺,學習更多的東西時也很穩(wěn)定。但是千億參數的模型如果不加入SFT、RLHF這些步驟,它也會胡說八道,也會有很多幻覺。
從資源投入的角度,大公司和初創(chuàng)公司的做法有何區(qū)別?
大公司有比較豐厚的資源,選擇面也更寬,創(chuàng)業(yè)公司就需要更聚焦。我們是國內第一家做大語言模型的創(chuàng)業(yè)公司,正因為我們比較聚焦,所以在大語言模型的效果上才會有一個比較領先的身位。
智譜在國內差不多是融資最多的公司,跟百川差不多,但相較硅谷公司仍然差一個量級。在不利條件下,中國公司該怎么辦?
我覺得也不用太糾結這件事情。我們肯定還是要更聚焦,要節(jié)約成本,用更多更先進的技術去做到更好的效果。
智譜開發(fā)模型的最終目標是什么?
我們的目標特別明確,就是要面向AGI,去做更強的模型,我們是最早在國內做這些事情的公司。我們并不想做一個“夠用就好”的模型,然后去開發(fā)應用,不是這樣的。
是不是其實現在大家都沒得選,都得開發(fā)AGI?
不一定,你看現在所謂的“百模大戰(zhàn)”里邊有多少是真正自己從基礎模型開始干起的?很少?;陂_源模型精調的不包括在內。
業(yè)內對開發(fā)AGI是否已經有相對有共識的路徑,還是說它仍然屬于開放的探索性問題?
這肯定還是一個開放的探索性問題。目前做得最好的當然是OpenAI,它的GPT-4和GPT-4V,智能水平已經超過了人類平均線。但OpenAI還在繼續(xù)做,還沒有達到所謂的AGI,說明還有很多問題需要解決。我們也是朝著這個目標,但是OpenAI確實比我們跑得快。對我們來講,一個比較簡單的路徑就是瞄準OpenAI能做到的事情,我們盡快趕上它,趕上以后再考慮未來應該怎么辦。
OpenAI好像也沒有明確說為了達到AGI要怎么做?
做到AGI這件事本身就很難,很多事情都還在探索。OpenAI走在最前面,它有很多事情從GPT-3發(fā)布以后已經不再對外公布,不發(fā)論文,也不寫詳細的技術介紹。
關鍵在于,我們對標OpenAI的GPT-4,只能對標它能做的事。比如說,GPT-4相比GPT-3.5加上了多模態(tài),我們就分析這件事情:OpenAI為什么這么做?從效果上看,是不是加了多模態(tài)之后,整個模型的推理能力、邏輯能力、智能水平就會上一個臺 階?
我們要驗證這件事,后來發(fā)現可能確實如此,那我們肯定也要往這個方向去發(fā)展,去研究具體怎么做,這一步就是我們得自己想辦法的事情了。
智譜現在也做了文生圖、文生視頻的模型,能驗證你剛才說的邏輯嗎?
對,基本上可以驗證這事情。
在這之后呢?
我們先趕上GPT-4再說。
做個機器人放在實體空間里面訓練,或者做個智能體—這些不是這個階段需要思考的事情嗎?
你說的具身智能(注:基于物理身體感知和行動的AI系統(tǒng)),是把模型加到硬件里或者游戲里,是另外的探索方向和路徑。這些探索都會對實現AGI有所幫助,而且都是很頂尖的研究者在做相關研究,我相信這些東西最終都會往AGI這個方向去靠 攏。
目前來說,智譜還是比較聚焦在大語言模型和跨模態(tài)能力上。單純從大模型本身的能力來看,我們還沒有觸達天花板,還有很多空間可以去探索。
從市場發(fā)展階段看,智譜現在進入商業(yè)化階段了嗎?
當然,我們很早就有自己的商業(yè)化方案,在GLM-130B訓練出來之前,我們在2021年就提出了模型即服務(Model as a Service,MaaS)的概念,我們把模型作為基座,提供不同類型的服務,包括API、私有化部署,還有介于兩者之間的私有化方案。
你怎么看開源模型對大模型的商業(yè)化、特別是對B端市場的影響?
開源模型肯定會占掉一部分用戶,但我覺得這不會是最主要的解決方案,大部分的商業(yè)用戶還是會回歸閉源版本的商業(yè)服務價值。
模型的開源版本和商業(yè)版本是很好的互補形態(tài)。我們在國內最早做開源這個事情,看中的就是開源生態(tài)社區(qū)更活躍、更有創(chuàng)意,保持了整個技術的多樣性,有更多人參與這件事情能夠保證有更新的技術和研究成果出現。
企業(yè)規(guī)模稍微大一些的商業(yè)用戶更多還是會考慮服務的延續(xù)性、服務質量以及模型效果,畢竟模型的開源版本一般來說都沒有那么大,模型的能力和精度也比商業(yè)版本要差一代或者一代半的水平。
你怎么看待針對C端的服務?
我們做過一些嘗試,早期做了一些基于大模型的小應用,比如寫作蛙、代碼輔助工具,還有2023年8月上線的AI效率工具“智譜清言”。但相對來說,我們在C端的嘗試其實是為了用戶積累以及用戶反饋數據的閉環(huán)。我們toC的產品暫時還是免費的。
是要達到一定的規(guī)模才會考慮商業(yè)化嗎?
你可以看中國C端用戶的付費意愿還在逐步培養(yǎng)的階段,而C端的商業(yè)邏輯很多時候是流量變現。在我們看來,B端客戶的商業(yè)化訴求更大更直接,這也是我們的基因,我們更多的還是偏向toB。
所以在基礎模型之上推出一款C端應用,目的也在于向B端客戶展示能力?
對,我們推C端產品的目的主要就是這個。
ChatGPT的全球用戶量到達2億后就不再上漲了,業(yè)界對此擔憂嗎?
也有人在唱衰,認為用戶量不增長甚至有一些下降了,是不是表明生成式AI不能像預期的那樣成為一個超級應用。但這個事情是這樣:首先當然是技術的爆發(fā),技術本身的突破讓大家很驚訝,大家都很愿意以獵奇的心態(tài)去嘗試這個東西;新鮮勁兒過去之后,大家了解了原理,就會覺得原來也就這樣,開始反過頭來找一些缺點,回歸到一個比較理性的狀態(tài)看待產品。但ChatGPT還有這么多用戶,不像一些互聯網產品,一旦熱乎勁過去用戶就會消失,就說明其實這個產品還是有很大價值。
生成式AI在一兩年內會迎來商業(yè)化的爆發(fā)嗎?還是仍然受限于技術的成熟度?
技術成不成熟其實不是決定性因素,不是說一個技術非要成熟到完美才能開始商業(yè)化應用,我覺得不矛盾。
ChatGPT和Copilot的訂閱收入都難以覆蓋使用成本。對此你怎么看?
對,大家都看到這一點了,因為生成式AI本質上還是用大量的GPU去做模型的推理。但你得從發(fā)展的角度看這個問題,只要它有足夠的市場、用戶和需求,必然會有人去做技術的優(yōu)化和加速,并嘗試壓縮、降低成本。經過一段時間之后,成本自然而然降下來,盈利空間就會出現,自然也會有更多人來做C端應用,它是這樣的一個邏輯。
之前有人統(tǒng)計過,使用一次Google搜索好像是幾美分(注:摩根士丹利估計,Google 2022年的搜索量總計3.3萬億次,單次平均成本約為0.2美分)。
生成式AI的成本有可能降到像Google搜索這么低嗎?
我判斷不好,因為我不做硬件,生成式AI的主要成本還是來自于硬件。但是我相信它會持續(xù)下降,這一點上我相對還比較樂觀。
目前公認的生成式AI能被很好利用的場景有哪些?
很難說有個共識,我個人的總結可能不完全正確。
第一個,大語言模型能解決人機交互問題。市場最大的一個需求就是讓機器能夠“聽懂”人到底在想啥、要做啥,也就是自然語言用戶界面。
第二,AI的自然語言甚至跨模態(tài)能力極大提升之后,整體智能水平提升了,以前受限于技術水平做不到的一些事,現在有了可能。比如原來直播帶貨只能是真人,但現在把大模型塞到虛擬主播的數據源背后,讓它來控制這個“數字人”,這就是智能水平提升帶來的新應用。
是否能根據生成式AI是不是足夠勝任、能商業(yè)化了,劃分出場景的難度等級?
這倒是一個很有意思的想法。我聽到的劃分等級的方法更多是直接按照模型本身所處的階段。比如華為提出L0模型就是通用的基礎模型,就像我們做的ChatGLM,然后L1是所謂的行業(yè)模型或者專用模型,它就分這么兩層。
這種劃分并沒有考慮模型進入垂直場景的深度,或者說看它能具體解決多大的問題?
這好像不取決于模型本身,可能還是取決于這個場景下的需求。
但硅谷不少獨角獸公司都是選中一個垂直領域,然后專注提升模型能力。
這個不是我們的選擇。
為什么不呢?
我們想做的事情,就像公司slogan“讓機器像人一樣思考”,是持續(xù)提升通用智能水平。具體應用場景我們可能會做一些,但我們更希望拿通用智能水平比較高的一個模型幫助大家開發(fā)行業(yè)應用。
有好多概念是很容易混淆的,所謂的行業(yè)模型和通用模型,它們之間的差別和關系到底是什么?我更愿意接受華為的說法,就是L0層(指基礎模型)和L1層(指行業(yè)模型)。并不是說L1是完全獨立于L0的,L1理論上是基于L0增強得到的,這樣才更好。
我們只做L0,其他都不做,那么就需要靠生態(tài)幫你補完上面那一部分—從L1到應用,再到用戶。從L0到用戶,跨度就會比較大。
中國真正做L0的公司有多 少?
真正做L0的無非就是幾個大廠。創(chuàng)業(yè)公司里面,我一只手都能數得過來。
只做L0需要有一個很大的部署團隊或者是銷售團隊嗎?
所以我們也在培養(yǎng)生態(tài),要拉很多生態(tài)合作伙伴進來。我們提供L0以及從L0向L1進化的方法,甚至提供上層應用的開發(fā)經驗—這個模型怎么調、怎么使用這個模型效果更好,這些東西我們可以提供給客戶。但要真正把每個客戶服務到最后一米,需要大量人力。
回到之前的問題,像ChatGPT這樣的超級應用全球用戶一共才2億,其他很多生成式AI應用都是曇花一現,你們怎么做才能做好?
是,這個產品從來都不簡單。