楊博雯 樊文揚(yáng) 劉嫚
和許多“科班”出身的科技從業(yè)者相比,王堅(jiān)的履歷顯得有些傳奇。
作為中國工程院院士、云計(jì)算技術(shù)專家、阿里云創(chuàng)始人,王堅(jiān)早年曾專攻心理學(xué)專業(yè)并從事相關(guān)大學(xué)教育,后來才轉(zhuǎn)至互聯(lián)網(wǎng)領(lǐng)域。2008年,他加入阿里巴巴主導(dǎo)開展的云計(jì)算項(xiàng)目,彼時(shí)這一概念在國內(nèi)尚不被清晰。經(jīng)過數(shù)年耕耘,隨著云計(jì)算系統(tǒng)“飛天”的誕生,王堅(jiān)也成為科技圈無數(shù)人的偶像。
去年是王堅(jiān)首次當(dāng)選全國政協(xié)委員。今年3月,在履職的第二年,王堅(jiān)和南都記者圍繞人工智能、云計(jì)算等展開了一場深入的對話?;蛟S與從前的教學(xué)工作經(jīng)歷有關(guān),王堅(jiān)不僅全無大佬“架子”,還很擅長將復(fù)雜、專業(yè)的科技類問題拆解開來,運(yùn)用其特有的方法,分析由淺入深、鞭辟入里。
針對今年備受關(guān)注的Sora模型、大模型商業(yè)化等問題,王堅(jiān)都發(fā)表了看法。他表示,當(dāng)前國產(chǎn)大模型和GPT-4及其下一代技術(shù)的差距仍然很大,建議通過開源方式,依靠技術(shù)社區(qū)的力量找到發(fā)展路徑,由市場來檢驗(yàn)其水平。此外,Sora問世的意義極大,遠(yuǎn)不止會對短視頻、影視等行業(yè)帶來沖擊,它解決了非常復(fù)雜的一件事——視覺問題,王堅(jiān)甚至直言:“如果能創(chuàng)造視頻,它也就能創(chuàng)造世界?!?h3>當(dāng)前大模型的市場價(jià)值大于商業(yè)價(jià)值
南都:2024年被認(rèn)為是AI大模型應(yīng)用的浪潮年。在大模型產(chǎn)品的商業(yè)化或市場化方面,你有哪些思考可以分享?
王堅(jiān):在我看來,商業(yè)化和市場化不完全是一個(gè)意思。商業(yè)化是要一手交錢一手交貨的,而市場化的重點(diǎn)在于要產(chǎn)生市場價(jià)值。
以搜索這一服務(wù)項(xiàng)目為例,它的用戶量巨大,可以算作已經(jīng)“市場化”了。不過,從來沒有人為使用搜索服務(wù)付錢,而是為搜索頁面上的廣告付費(fèi)。所以從這個(gè)角度講,搜索本身并沒有實(shí)現(xiàn)商業(yè)化,但是它完成了市場化,有人便進(jìn)而想出加廣告的模式對其進(jìn)行商業(yè)化。我認(rèn)為,市場化是商業(yè)化的基礎(chǔ),商業(yè)化是市場價(jià)值的重要體現(xiàn)。
南都:那你認(rèn)為目前大模型的商業(yè)化之路進(jìn)展如何?
王堅(jiān):當(dāng)今全球范圍里,所謂的大模型商業(yè)化還是在探索過程中。不過,目前事實(shí)已經(jīng)證明,它有用戶基礎(chǔ),也就是可以“市場化”的,那就有可能產(chǎn)生商業(yè)價(jià)值——這一點(diǎn)其實(shí)很重要,一個(gè)產(chǎn)品如果沒有用戶基礎(chǔ),就算實(shí)現(xiàn)商業(yè)化了,也是小本生意。對于一場技術(shù)革命來說,它不可能以小本生意為目標(biāo),肯定能產(chǎn)生更廣泛的影響。整體來講,我認(rèn)為當(dāng)前的大模型還處于市場價(jià)值大于商業(yè)價(jià)值的階段。
南都:這個(gè)發(fā)展的過程你覺得會慢還是快?
王堅(jiān):那就得看你技術(shù)力量有多強(qiáng)、算力支撐有多大、投資有多少了,這些要素缺一不可,甚至沒有辦法講其中哪個(gè)因素是核心的。當(dāng)你缺哪個(gè)要素的時(shí)候,哪個(gè)要素就是最重要的?,F(xiàn)在國內(nèi)200多個(gè)大模型我覺得沒有問題,大家都在一點(diǎn)點(diǎn)往上爬完成必不可少的技術(shù)積累,但肯定不是最后200個(gè)都能爬上來了,大部分中間被淘汰掉了,但總之該活的一定會活下來的。
短期來看,我認(rèn)為現(xiàn)在整個(gè)發(fā)展過程還和市場沒有直接的關(guān)系,因?yàn)檫@個(gè)領(lǐng)域的天花板還遠(yuǎn)遠(yuǎn)沒有碰到。大家現(xiàn)在已經(jīng)在講萬億參數(shù)的模型了,行業(yè)都覺得很興奮,你可以想想從一個(gè)模型的參數(shù)從數(shù)十億到萬億的差別。
因此,這個(gè)賽道在國內(nèi)外都還遠(yuǎn)沒有到需要收斂的程度,OpenAI那么出名,但仍然會有它的挑戰(zhàn)者出現(xiàn),大家仍然在做不同的有創(chuàng)造性的探索。
南都:你剛才也提到,我國10億參數(shù)規(guī)模以上的大模型已超過200個(gè),怎么看待這場“百模大戰(zhàn)”?
王堅(jiān):10億參數(shù)其實(shí)不是一個(gè)大數(shù)字,目前我們主要講的都是百億級的。不過大小也都是相對的,就像剛改革開放時(shí)“萬元戶”意味著富裕,現(xiàn)在肯定不算了。這種參數(shù)規(guī)模和事物的發(fā)展周期有關(guān)系。
再說到200多個(gè)的數(shù)量,我覺得這不算多,為什么——你不可能一夜暴富,憑空就做出500億參數(shù)的大模型吧?人的錢是要一分一分掙的,要把一個(gè)大模型建好,也是要一點(diǎn)一點(diǎn)積累經(jīng)驗(yàn)的。
南都:我們也注意到,追趕OpenAI,對標(biāo)ChatGPT,似乎是過去一年里,國內(nèi)很多AI公司的最大命題。
王堅(jiān):我覺得不能簡單地說對標(biāo)ChatGPT。ChatGPT、GPT-4二者,我們要把它們區(qū)分開來——前者其實(shí)是在后者基礎(chǔ)上延伸出來的一個(gè)應(yīng)用,因此真正衡量基礎(chǔ)模型的能力應(yīng)該去對標(biāo)GPT-4。
值得注意的是,GPT-4和GPT-3有一個(gè)非常大的不同,GPT-3是全開放的,大家都知道它是怎么做的,以及能做到什么程度,但到了GPT-4就不開放了,所以當(dāng)前不太好談對標(biāo)的問題。就像你高考一樣,高考成績好不見得你這個(gè)人好,但你成績不好又讀不了大學(xué)。所以在短時(shí)期內(nèi)衡量誰好誰壞是不公平的,還是要從長遠(yuǎn)角度由市場來說明問題。
可能有觀點(diǎn)認(rèn)為,國產(chǎn)大模型的水平已經(jīng)接近GPT-4或者差一點(diǎn)點(diǎn),但其實(shí)肯定不是差一點(diǎn)點(diǎn),是差很多的。我想更好的辦法是由市場來證明大模型的能力,比如把模型開源出去,放到國際上去,讓市場去檢驗(yàn)產(chǎn)品。
南都:當(dāng)下全球AI競爭不斷升溫,你認(rèn)為在技術(shù)迭代或人才儲備等方面,中美兩個(gè)“頭號”玩家存在哪些差距?
王堅(jiān):具體來講,我個(gè)人認(rèn)為我們頭部的聚集還不夠?,F(xiàn)在美國還是有很明顯的大模型玩家的,而在中國并不明顯。所以最大的變量是我們這200個(gè)10億參數(shù)的大模型,什么時(shí)候能變成20個(gè)2000億的模型。在這個(gè)過程中,底層技術(shù)的演進(jìn)迭代、資金投入都是非常重要的事。
南都:有觀點(diǎn)認(rèn)為,不同國家地區(qū)在大模型或AI方面的資金投入規(guī)模也差距巨大。
王堅(jiān):對這個(gè)觀點(diǎn)我要提出質(zhì)疑。大模型和以前創(chuàng)業(yè)不太一樣,從前創(chuàng)業(yè)公司可以用很小的資本很快完成一次創(chuàng)業(yè),但大模型出來以后,算力投入就變成了一個(gè)極其“燒錢”的東西,到底用多少算力花多少錢,也變成了一個(gè)大家不愿意公開談及的事情。我想今天沒有任何一個(gè)人可以把具體投入的資金統(tǒng)計(jì)完整,至少我在業(yè)內(nèi)沒有看到過什么非常自信的總結(jié)。
南都:所以簡單來說,就是我們真正意義上的技術(shù)優(yōu)勢可能還沒有形成?
王堅(jiān):也不見得沒有形成優(yōu)勢,這個(gè)問題涉及很多不同因素,包括產(chǎn)業(yè)、商業(yè)策略、合作情況等等,這些問題也不是單一的投入就可以解決的。從宏觀來看,國家地區(qū)之間的競爭其實(shí)是綜合科技實(shí)力的競爭,而非單項(xiàng)技術(shù)的競爭。至于“綜合”到什么程度?比如算力、AI、工程能力、理論研究等等,都會有所涉及。像谷歌的Gemini模型,官方發(fā)布了一篇白皮書,里面有名有姓分工署名的人就有接近800人,所以這種綜合因素的影響其實(shí)是很復(fù)雜的。
這不是一個(gè)簡單的回答可以概括的,不是因?yàn)檫@件事情本身復(fù)雜,而是它太動態(tài)了。
ChatGPT也好,GPT-4也好,AI技術(shù)也好,它們就好像處于小孩快速長身體的階段,我們是沒有辦法對處于高速發(fā)展態(tài)勢下的事物做一個(gè)對比判斷的。當(dāng)然,如果從現(xiàn)階段來看,也不需要我說太多——大家都知道我們并沒有太多的領(lǐng)先優(yōu)勢,但同時(shí)我們也有領(lǐng)先的可能。
另外,我想補(bǔ)充的是,很多觀點(diǎn)都在說“現(xiàn)在人工智能全球只剩下中美兩個(gè)玩家”了,但事實(shí)上ChatGPT出來之后大約一年,歐洲又有一家名叫Mistral AI的初創(chuàng)公司異軍突起,其大模型技術(shù)也很突出。因此,全球只剩中美兩個(gè)“頭號玩家”的觀點(diǎn)其實(shí)不是那么準(zhǔn)確。
南都:上個(gè)月OpenAI又發(fā)布了視頻合成模型Sora,有觀點(diǎn)認(rèn)為它可能會引發(fā)短視頻、廣告、游戲等行業(yè)格局的重塑。你怎么看?
王堅(jiān):如果談到Sora,只說它可能會影響短視頻等行業(yè),那我覺得是對它極大的羞辱,它的意義遠(yuǎn)超這種事情。就像是原子彈剛剛爆炸時(shí)一樣,沒有人能想到這個(gè)東西后來可以作為核電站來發(fā)電,還可以實(shí)現(xiàn)小型化,還有很多別的用處。如果只是把原子能技術(shù)當(dāng)作原子彈用,那就是大大低估了這個(gè)技術(shù)的重要性。
值得關(guān)注的是,Sora事實(shí)在解決世界上最復(fù)雜的一件事——真實(shí)世界的視覺問題,視頻是它的表現(xiàn)手段。它真正的意義在于靠技術(shù)已經(jīng)能夠生成像這個(gè)自然界一樣復(fù)雜、有細(xì)節(jié)的視頻或者圖像。如果能創(chuàng)造視頻,它也就能創(chuàng)造世界。
Sora事實(shí)上在解決世界上最復(fù)雜的一件事——真實(shí)世界的視覺問題,視頻是它的表現(xiàn)手段。
南都:那這種超強(qiáng)的偽造能力會不會引發(fā)大家對于虛假信息的擔(dān)憂?
王堅(jiān):其實(shí)“偽造”這個(gè)詞不對。什么叫偽造?你拿了一個(gè)假的東西告訴別人這是真的,這就叫偽造。而通過技術(shù)生成一段逼真的視頻,如果符合真實(shí)世界的規(guī)律,那它就不是偽造的。我們也不說技術(shù)是不是中立的,只是說技術(shù)有了這樣一種能力。只有用這種技術(shù)能力去行騙,才是真正的造假。
而現(xiàn)在我們面臨的主要問題是,技術(shù)到了這個(gè)程度,卻不知道拿它來干什么。
南都:在高算力需求的大模型時(shí)代,怎么看待云計(jì)算?
王堅(jiān):我們在AI時(shí)代常說使用幾萬張顯卡訓(xùn)練一個(gè)大模型,當(dāng)有這么大規(guī)模的時(shí)候,其實(shí)就是云計(jì)算。只不過是看你這個(gè)云計(jì)算是想做一個(gè)有體系的、可以真正提供大規(guī)模服務(wù)的,還是自己搞搞。就在月初,美國商務(wù)部也表示不允許中國的企業(yè)用美國的云服務(wù)做大模型訓(xùn)練,種種情況都說明,云計(jì)算服務(wù)在AI時(shí)代,或者說大模型在AI時(shí)代是非常重要的。
南都:那么云計(jì)算是否有望解決當(dāng)前的算力困境?
王堅(jiān):這其實(shí)是個(gè)很復(fù)雜的事情。GPT-3時(shí)期的時(shí)候OpenAI公布說,大概用了1萬塊英偉達(dá)A100(一種AI芯片)進(jìn)行訓(xùn)練。但像亞馬遜這樣的云服務(wù)運(yùn)營商,除了A100還用了H800的卡,總共大概有3000E(1E約等于1000PFlops-day)的算力。在過去的三個(gè)月里,按照官方的預(yù)測,每個(gè)季度會增加1000E的算力。與我們現(xiàn)有的算力對比一下,GPU的大規(guī)模使用,讓云計(jì)算提供的算力會有百萬倍的增長。
到了GPT-4,就已經(jīng)不公開其所需的算力了。不過,行業(yè)里大家都會有一個(gè)共識,就是只要做到這個(gè)規(guī)模就能猜出個(gè)大概。比如通義千問開源的是720億參數(shù)的模型,那大家就都能猜到這背后有多少算力在支撐。
南都:2024年是我國正式全功能接入國際互聯(lián)網(wǎng)30周年?;仡欉@段時(shí)間,你覺得有哪些重要的節(jié)點(diǎn)值得記錄?
王堅(jiān):我們今天所有看到的東西都是互聯(lián)網(wǎng)發(fā)展的結(jié)果。我舉個(gè)最簡單的例子——數(shù)據(jù)。你試想一下,沒有今天的互聯(lián)網(wǎng),我們會不會產(chǎn)生那么龐大的數(shù)據(jù)?不會的。
二三十年前很多人說,互聯(lián)網(wǎng)是一臺巨型計(jì)算機(jī),第一代互聯(lián)網(wǎng)把所有PC連在一起,第二代互聯(lián)網(wǎng)則是把手機(jī)聯(lián)系在一起,那如今就是人工智能把所有的數(shù)據(jù)聯(lián)系在一起。所以我覺得互聯(lián)網(wǎng)在整個(gè)社會發(fā)展過程中起著一個(gè)主軸作用,看似太過基礎(chǔ),好像可以忽略不計(jì),但如果你把它抽掉,整體也就坍塌了。