朱麗琨
圖/視覺中國
中國的大模型創(chuàng)業(yè)者已經(jīng)集結在十字路口。他們之中既有研究自然語言理解將近40年的科學家,也有已經(jīng)功成名就的前創(chuàng)業(yè)者,還有剛剛博士畢業(yè)的年輕人。創(chuàng)業(yè)者們在各個層面展開競爭。這個十字路口甚至是物理的——就是清華大學東門外的那個十字路口。這些公司地理位置上也緊挨著彼此,最近的僅僅隔著幾層樓板。
搜狐網(wǎng)絡大廈在十字路口的一側。它可能是國內(nèi)大模型人才密度最高的寫字樓。王慧文的光年之外在三層。孵化自清華計算機系的智譜AI租下七層到十一層,九層以上都還空著,保留著搜狗在這里辦公時的痕跡,樓道貼著“搜狗大事記”。搜狗創(chuàng)始人王小川在第二層的一個會議室里開了媒體溝通會,宣布開始大模型創(chuàng)業(yè),成立新公司百川智能,但他準備在附近園區(qū)選址,“我不跟他們在這里卷”。這些公司忍受著比北京CBD均價還貴的寫字樓租金,只為物理上“接近中國最頂尖的AI人才”。
路的另一側有“清華系”代表團隊聆心智能和深言科技。前者由清華大學計算機系副教授黃民烈創(chuàng)辦,自2021年底開始自研“超擬人大模型”,后者創(chuàng)始團隊幾乎全部來自清華NLP實驗室,實驗室的學術帶頭人孫茂松教授擔任公司的首席科學家。創(chuàng)始人兼CEO(首席執(zhí)行官)豈凡超想和教授交流時,只用走幾百米回學校。
他們的創(chuàng)業(yè)契機不相同。智譜AI于2019年成立,是其中最早起步的公司。創(chuàng)業(yè)初期,公司基于谷歌2018年推出的BERT大模型做應用。光年之外2023年4月初正式啟動。王慧文年初看到大模型的機會,“幾天之內(nèi)就做完決策”,決定再次創(chuàng)業(yè)。
他們都被ChatGPT顯示出的“才能”震撼。一位大模型創(chuàng)業(yè)者讓ChatGPT用動態(tài)規(guī)劃方法列出從北京到上海的最短路徑,每條路的里程數(shù)要被3整除。一位資深科技投資人讓ChatGPT翻譯日本唱片介紹。ChatGPT可以把“N響”準確地翻譯成“NHK交響樂團”,這是相當資深的古典音樂發(fā)燒友才知道的“黑話”。一位AI創(chuàng)業(yè)公司的科學家請ChatGPT寫人類和AI的故事,不斷要求加入新角色,比如一只哈士奇,不斷涌出的字詞還是自然地組織起來。
真格基金設計了300多個問題,包含“香蕉的平方根是多少”,以及要求大模型模擬抽塔羅牌占卜。3月中旬,剛發(fā)布幾天的GPT4回答準確率超過70%,同期已發(fā)布的國產(chǎn)大模型平均準確率20%。5月,國產(chǎn)大模型的平均準確率已經(jīng)追到50%以上。
被大模型能力震撼的創(chuàng)業(yè)者們將其比作“下一代計算機”“火的發(fā)明”“人類創(chuàng)造的上帝”;動用各式比喻來解釋他們預計的變化量級,“寒武紀”“工業(yè)革命”“文藝復興”“大航?!薄疤O果微軟時刻”“黑莓時代”等等。
質(zhì)變從2020年面市的GPT-3開始。這款模型參數(shù)量和預訓練數(shù)據(jù)量比上一代增大百倍以上,展示出更強的語言理解和預測能力。OpenAI的設想被印證:當數(shù)據(jù)規(guī)模足夠大,模型就能學到其中包含的翻譯、算數(shù)、編程等各種任務的例子,因此變得更通用。ChatGPT沿著這條路更進一步。IDEA研究院認知計算與自然語言講席科學家張家興在一次活動上,引用《三體》里著名的那句“物理學不存在了”,在現(xiàn)場感嘆,“傳統(tǒng)的NLP(自然語言處理)技術不存在了”。
“大模型重點在數(shù)據(jù)、模型、可以規(guī)?;瘜嵤┑乃惴?,傳統(tǒng)NLP研究重點在模型上做很多精巧的設計,但很多在大數(shù)據(jù)大模型上就不再有效了?!秉S民烈解釋。
原本就在AI領域的創(chuàng)業(yè)者也活躍起來。商湯、第四范式、科大訊飛等公司相繼推出大模型。AI創(chuàng)業(yè)公司出門問問CEO李志飛感嘆,“大模型的供給比想象中多多了。”他最初認為大模型的資金和技術門檻高,能做的國內(nèi)公司最多兩三家。一個半月之后,他預感大模型的市場競爭可能比上一波AI熱潮更激烈。
怎么理解OpenAI的成功,部分意味著這些創(chuàng)業(yè)者將怎么對待他們的競賽。李志飛認為OpenAI的成功是“把研究范式切換為產(chǎn)品驅(qū)動”。瀾舟科技創(chuàng)始人、前微軟亞研院副院長周明認為,這家公司把數(shù)據(jù)清洗、訓練速度等各方面做到極致,并且集成所有能力,包括優(yōu)秀的算法、工程甚至PR。而王慧文認為OpenAI的成功是“正確的使命、愿景、價值觀,正確的組織方法的成功”。
創(chuàng)業(yè)者們對大模型的終極目標AGI(通用人工智能)的看法,從定義到理解都有很大差異。
王小川只跟ChatGPT簡單聊了幾輪,就確信“AGI已經(jīng)來了”。他認為ChatGPT印證了他六七年前的判斷:當機器掌握了語言,強人工智能就到來了。在一個小范圍分享會上,幾位AI領域創(chuàng)業(yè)者僅從功能上定義ChatGPT的進步。
“大家把這件事想小了。”王小川說。他會后接到一個在場者的電話,對方問,“小川,你是不是又在裝?”幾天后,那人又打來電話:“這次你又說對了。”
王慧文認為,“對AGI的認知,隨著對事實的掌握和結果的展開,可能會翻轉很多次的?!?/p>
共同點在于,他們都確信大模型技術變革比他們經(jīng)歷過的任何一次變化都大,而他們站在這場可能長達幾十年的變革浪潮的起點。
“這次AI的浪潮應該是一個持續(xù)幾十年,由多個小浪潮波次構成的大浪潮。它不會一個波次就完成,會在不同的波次里出現(xiàn)不同的創(chuàng)新?!蓖趸畚恼f。
他認同美國投資人埃拉德·吉爾(Elad Gil)的觀點:在部分科技浪潮中,所有的價值都可以由初創(chuàng)企業(yè)捕獲,而在另外的浪潮中,大部分價值會歸成熟企業(yè)所有,或者會在初創(chuàng)企業(yè)和成熟企業(yè)之間分配。王慧文認為,AGI浪潮屬于后者,因為大模型技術跟過去的技術差異化足夠大,導致了市場的不可預測性,創(chuàng)業(yè)公司因此有了發(fā)展空間。
2022年10月,多個美國投資人跟李志飛提到一款叫Jasper的AIGC應用很賺錢。當時Jasper僅僅成立18個月,估值15億美元。Jasper基于GPT-3模型,針對市場營銷場景做了精調(diào),靠生成營銷文案打開市場,2022年ARR(衡量SaaS或訂閱業(yè)務的收入指標)約8000萬美元。
“看到它的那一刻,我真覺得自己是傻子?!崩钪撅w說。
一位美國紅杉的投資人跟李志飛說:“你的時代來了?!睂Ψ竭€提到美國紅杉的管理合伙人只討論AIGC項目,別的都不看。當時,投資界的關注點更多在應用而非底層的大模型。
Jasper解決了李志飛兩年前就開始思考的問題:GPT-3到底適合應用在什么場景?李志飛想過文案場景,但只“答對”一半?!斑^去我們做的是糾錯、潤色、改寫,沒想到完全生成一篇內(nèi)容”。他2020年做過一款基于自研大模型UCLAI的輔助寫作應用,因為沒想到好的商業(yè)前景,最終沒有上市推廣。
AI創(chuàng)業(yè)公司第四范式也有類似的嘗試。第四范式副總裁兼主任科學家涂威威帶領百人團隊,負責研究全球最前沿AI技術并提前投入。2018年谷歌推出BERT大模型,各方面性能顯著提升,涂威威和同行當時都以為,“那就是NLP的拐點”。他接到越來越多輔助寫作的需求。其中一些客戶很坦白地說,希望AI幫忙生成“八股文”式的匯報材料,“AI都能下棋,這還寫不了”?
涂威威團隊嘗試基于BERT和GPT系列模型做輔助寫作應用,但只能實現(xiàn)續(xù)寫兩三句,準確性還不高,最終沒有對外發(fā)布。
創(chuàng)業(yè)公司算力資源有限,注定向投入產(chǎn)出比更高的主營業(yè)務傾斜。這些先行者的大模型實驗當時也很難得到外部支持。2020年6月,GPT-3推出,Google科學家出身的李志飛看到了大模型更通用的能力。他和工程師結成研究組,“像上癮一樣”讀論文。
幾個月后,在一個科技企業(yè)家的登山活動上,李志飛花一小時跟同行的人解釋大模型是什么。他講得興奮,別人“只是當故事聽”,并且不斷質(zhì)疑:“So what?怎么商業(yè)化?”其中一位企業(yè)家委婉地說:“志飛,你就適合當科學家,不適合創(chuàng)業(yè)?!崩钪撅w意識到,“不可能有人投資你做這個”。他們研發(fā)的中文大模型最終停在60億參數(shù)量,沒有足夠的資本支持它走到能力“涌現(xiàn)”那一刻——如今從業(yè)者普遍認為400億-500億參數(shù)量級是模型能力“涌現(xiàn)”的門檻。
創(chuàng)投界此時還沒意識到GPT-3背后的商業(yè)空間。真格基金管理合伙人戴雨森在2021年就接觸過兩家大模型創(chuàng)業(yè)團隊,他們也想做類似Grammarly的AI輔助寫作或小說續(xù)寫。戴雨森當時并不看好,認為應用場景比較局限。
企業(yè)客戶更現(xiàn)實。周明在2020年底開始創(chuàng)業(yè),拜訪上百家客戶,得到的反饋往往是:“你做大模型,我們也用不起?!敝苊鞴镜目蛻舸蠖嗍茄雵?,為了數(shù)據(jù)私有化,得把大模型部署到本地,至少得投入上千萬元的訓練成本。即使不做訓練,只做本地部署推理,成本也在一兩百萬元??蛻粽J為不合算。
直到2023年1月,ChatGPT教育了國內(nèi)市場。李志飛此時已重啟自研大模型三個多月,他發(fā)現(xiàn)有“看起來跟大模型毫不相干”的人,也來問他得花多少錢、招什么人能做。涂威威接觸到各行各業(yè)咨詢大模型合作的客戶,甚至包括“農(nóng)林牧副漁”行業(yè)。
2月10日,一條“人工智能宣言”流傳開?!?000萬美元,帶資入組,不在意崗位、薪資和title,求組隊。”三天后,宣言變成傳播度更高的AI“英雄榜”。王慧文公告了他的決心:打造中國OpenAI。
他的下場加劇了這一輪AI裝備競賽的激烈程度。一位大模型創(chuàng)業(yè)公司的員工說,“老王這么投入”讓他意識到,這個賽道的火熱程度遠超想象。算力資源明顯緊張起來,一位創(chuàng)業(yè)者抱怨,“求爹告娘才搞到一些機器”。
2月7日開始,王慧文給他認為適合大模型創(chuàng)業(yè)的人一個個地打電話。他總在問“你怎么看……”再問“你要不要干”?
聽到的回答經(jīng)常是否定的,“太燒錢了”
“這是巨頭的事”……一周后,他決定自己下場?!按蠹彝凸懒丝吹酱笞兓⒖虥_進去的重要性?!蓖趸畚恼f。
美團到家事業(yè)群總裁王莆中評價王慧文“人才識別能力超強”。因此,被王慧文聯(lián)系過的大模型人才也受到其他競爭者的關注。深言科技CEO豈凡超就是其中一位。他在清華NLP實驗室讀博期間,參與研發(fā)智源研究院“悟道”大模型,在國際頂級刊物發(fā)表30多篇論文,和同學研發(fā)產(chǎn)品“Want Words反向詞典”,吸引超過500萬用戶。在一位深言科技員工眼中,豈凡超是難得的兼?zhèn)浼夹g和產(chǎn)品能力的人才,他的創(chuàng)新意識驅(qū)動他做科研、做產(chǎn)品,“他不愿意做跟別人一樣的事”。
GPT4發(fā)布后的一個月,創(chuàng)投圈氛圍逐漸升至沸點。各公司開發(fā)布會,展示大模型如何在辦公、營銷等場景落地,如何跟醫(yī)療、智慧交通等行業(yè)結合。投資機構開閉門會,要求被投公司跟緊變化,避免被顛覆。一年前被派去新加坡看web3項目的投資人回來“猛學AI”,不少投資經(jīng)理開始攻讀技術論文。奇績創(chuàng)壇創(chuàng)始人兼CEO陸奇讓團隊的人做“大模型日報”來同步最新信息,感慨新出的論文多到他“實在是跟不上”。
王小川提問ChatGPT:我想做好這次創(chuàng)業(yè),招更多合伙人和優(yōu)秀的領軍人物,應該做些什么?得到的建議之一是:你應該先把你的想法告訴外界。他聽取了ChatGPT的建議,召開媒體溝通會,第一次宣告成立百川智能,計劃年底發(fā)布對標GPT-3.5的大模型。
錢迅速涌入。王小川剛和朋友透露創(chuàng)業(yè)想法,就被問“能不能加個親友股”。百川智能啟動資金5000萬美元均來自他個人及好友的支持。王興以個人身份投資王慧文的光年之外,宿華則投資了多家生成式AI相關公司。
目前,國內(nèi)估值最高的兩家創(chuàng)業(yè)公司是光年之外和MiniMax。
真格基金是最早認投光年之外的投資機構之一。戴雨森認為,大模型技術產(chǎn)品化這個過程很難由科學家完成,需要一個有商業(yè)思維的人。同時,大模型資金門檻高,需要創(chuàng)業(yè)者有“融幾億美金并且有效地花出去”的經(jīng)驗。
MiniMax公司名字取自一種算法,人們對它還不熟悉,但它的合作方有不少知名公司:4月18日,火山引擎總裁譚待在發(fā)布會上專門提到“火山引擎上跑了抖音,也跑了MiniMax”;同一天,金山辦公發(fā)布WPSAI,CEO章慶元介紹其底層大模型由MiniMax提供。
MiniMax于2021年12月成立,已有文本、語音、視覺三個模態(tài)的自研基礎模型。2023年3月,MiniMax推出面向企業(yè)用戶的API開放平臺,支持文本和語音模型的服務調(diào)用。
聯(lián)合創(chuàng)始人楊斌曾任職于UberAI研究院,獲得過英偉達2018年先鋒研究獎和微軟2021全球博士獎學金。MiniMax團隊成員大多出生在1990年代。多位創(chuàng)投人士認為,開始大模型創(chuàng)業(yè)的最佳年齡在35歲以下。他們認為大模型技術更新速度“以天計算”,年輕人能更快迭代認知,并且知識結構不陳舊。
云啟資本是2021年底唯一參與了MiniMax天使輪投資的早期投資機構。云啟資本合伙人陳昱學計算機出身,他指出機器學習領域近年有兩個里程碑式進展:2012年CNN架構爆發(fā),2017年“所有人一邊倒地去搞Transformer架構”,GPT、BERT、LLaMa等主流大模型都基于Transformer?!耙粋€人在不同年份開始接觸機器學習,知識結構完全不一樣?!彼J為新技術已經(jīng)覆蓋和超越傳統(tǒng)NLP技術,“早年的知識不是經(jīng)驗,而是累贅”。
MiniMax團隊有一種活潑的面貌,自驅(qū)力強。他們內(nèi)部最初給大模型起的昵稱叫“ABAB”,因為剛開始做語言能力訓練時,模型只能像嬰兒那樣“啊巴啊巴”。現(xiàn)在公司創(chuàng)立近18個月,他們自信模型能力國內(nèi)領先。MiniMax的企業(yè)文化受到SpaceX啟發(fā),創(chuàng)始團隊常把做大模型比作造火箭,希望用不走捷徑的方式實現(xiàn)AGI。
現(xiàn)在,國內(nèi)更多組織把AGI作為愿景,從零開始搭團隊、爭取資源。一位大模型創(chuàng)業(yè)團隊成員形容此刻的局面,所有人都在“邊登月邊修螺絲”。
創(chuàng)業(yè)者們基于各自的經(jīng)驗,探索“技術——產(chǎn)品——商業(yè)化”的不同路徑。
戰(zhàn)略層面,多位創(chuàng)業(yè)者同時做大模型和商業(yè)化應用。周明稱之為“邊煉邊用”。周明是國內(nèi)最早出發(fā)的大模型創(chuàng)業(yè)者之一,他認為瀾舟科技的模型和應用之間已經(jīng)形成“反饋鏈”,有先發(fā)優(yōu)勢。王慧文將“雙輪驅(qū)動”定為光年之外的戰(zhàn)略。他認為,只做應用和只注重做模型都有戰(zhàn)略風險。前者風險在于模型能力不斷進化,很多應用場景可能被完全覆蓋。后者風險在于市場被注重商業(yè)化的對手搶占、研發(fā)后期難以衡量模型好壞,以及無法通過應用收集更多數(shù)據(jù)。
李志飛認為,OpenAI比Google等對手更早“見到真實用戶數(shù)據(jù)”,是OpenAI堅定研發(fā)方向、形成壁壘的重要原因。他提出AI應用數(shù)據(jù)分為三個階段:上線前,研發(fā)者假設的用戶數(shù)據(jù);上線初期收集到的大量“假數(shù)據(jù)”,比如每天流入流出的新用戶,留下無意義的互動?!敖^大部分產(chǎn)品跨越不了這個階段。如果你不警惕,你會誤以為這就是用戶真實的需求?!倍鳲penAI的應用已經(jīng)走到第三階段,有留存用戶、付費用戶,數(shù)據(jù)更接近真實。
產(chǎn)品路線也各不相同。周明堅定選擇2B,做針對特定領域的專用大模型,“節(jié)奏慢但是更務實”。他認為2C像是一條“不歸路”。2C需要把語言理解能力和做各種任務的能力放在一個模型里,相應的模型參數(shù)規(guī)模必須大,未來會進入?yún)?shù)規(guī)模、數(shù)據(jù)量和算力的軍備競賽。
周明認為2B和2C是完全不同的兩條路,打算兩者都做的創(chuàng)業(yè)者屬于“沒想明白”。而MiniMax和深言科技都認為,現(xiàn)階段大模型可以在通用場景發(fā)揮價值,2B和2C的市場需求都能滿足,不會刻意區(qū)分。
李志飛選的方向是to“professional consumer”(專業(yè)消費者),用戶是“產(chǎn)消者”。他們希望為創(chuàng)造某些內(nèi)容而消費的個體提供AIGC工具。
出門問問曾以AI識別為重點,但這個方向困難重重。做2C的語音助手時,李志飛發(fā)現(xiàn)很難滿足用戶的期望。盡管語音識別、語音合成等基礎技術很成熟,但一個語音助手產(chǎn)品包括自然語言理解、對話、數(shù)據(jù)查詢等八個環(huán)節(jié)。在上一代AI技術條件下,每一步都有可能出差錯——這也是Siri們總被調(diào)侃是“人工智障”的原因。他也做2B業(yè)務,但“沒法第一天就有商業(yè)模式”,往往是客戶免費試用半年,再打磨產(chǎn)品,才有可能收到錢。大公司也在搶同樣的客戶,有些產(chǎn)品還免費。
李志飛處在一種苦悶的狀態(tài)里,直到他在2020年的CES國際消費電子展得到啟發(fā)。那是在三星的展臺,他突然聽到背后有說話聲,“毛骨悚然的感覺”。他回過頭,看到和他一樣高的屏幕上,用極高畫質(zhì)渲染出來的數(shù)字人Neon。他第一次被AI生成的體驗震撼。回去后,他調(diào)整研發(fā)重點,帶團隊開始投入生成式AI。
2023年4月28日,第六屆數(shù)字中國建設成果展覽會上,“智慧家庭”體驗區(qū)吸引觀眾體驗。圖/中新
不久后,他帶團隊研發(fā)的AI配音平臺“魔音工坊”帶來讓他驚喜的利潤。2023年4月,出門問問發(fā)布基于自研大模型發(fā)布AI寫作應用“奇妙文”“魔音工坊”等應用也開始與大模型整合。他樂在其中,生成了一位數(shù)字人李志飛,代替他本人參加活動。
不同的產(chǎn)品路徑,有一些共同的問題亟待解決。比如,怎么讓大模型避免胡說八道?一種實踐是引入專家知識去干預。對于2C產(chǎn)品,這幫助它們和人的價值觀對齊——這也是陸奇近期演講提到的“OpenAI現(xiàn)在優(yōu)先級最高的工作”。黃民烈介紹了他們設計的一個重要規(guī)則:當他們的情感陪伴類產(chǎn)品識別出用戶有危險行為時,機器能以符合專業(yè)干預技術的方式施行緊急援助。
對于2B產(chǎn)品,引入專家知識和規(guī)則幫助它們表現(xiàn)得更準確。第四范式于4月底首次公布“以生成式AI重構企業(yè)軟件(AIGS)”戰(zhàn)略,提出企業(yè)級Copilot(助手)的進階“Copilot+知識庫”。涂威威解釋,這可以理解為第四范式“培養(yǎng)”出大模型的基礎能力,等它進入企業(yè)后,接上內(nèi)部知識庫就能“自學”,更準確地理解任務、知道什么工作該調(diào)用什么資源,輸出結果也能溯源,“像一位董秘”。
多位創(chuàng)業(yè)者認為,考慮2C商業(yè)模式、監(jiān)管等因素,ChatGPT在國內(nèi)并不是最適合的產(chǎn)品形態(tài)。王慧文愿意嘗試“Chat”這個已經(jīng)被充分驗證的機會,但他更強調(diào)“keepopen-minded”,別在起跑時就篤定哪一條路是正確的。
他計劃組織一支產(chǎn)品團隊,每天探索不同方向?!拔覀儑L試的時候可能起點很低,”王慧文說,“要勇于從別人看不見、看不起的東西著手去嘗試。不斷收集信息,不怕low。”
戴雨森把ChatGPT比作新大陸剛挖出的黃金,前往新大陸的探險者們“去了可能發(fā)現(xiàn)棉花價值更大”。
陸奇在近期演講中,給出中國大模型發(fā)展第一階段的標準:誰先達到GPT-3.5水平,誰將能進入第一梯隊。在此之前,許多事要從零做起。
戴雨森認為“中國幾乎沒有人有做萬卡并行訓練的經(jīng)驗”。而缺少工程經(jīng)驗會帶來各種意想不到的難題。一位創(chuàng)業(yè)者說,剛把算力加上去,機房電不夠了。他認為目前市面上絕大部分機房的電量配置,都滿足不了大模型的訓練需求。
面對算力“卡脖子”的現(xiàn)狀,李志飛盡量讓自己樂觀:“真正有意思的是你在有限的資源下做出別人做不到的事情?!彼镁蚣毸愕姆绞骄毮P?,經(jīng)常埋在論文里研究半天,只為了找到最合適訓練大模型某項能力的框架或超參數(shù)。他所說的合適意味著,“雖然冒一定風險但可以大幅降低成本”。
數(shù)據(jù)工程也需要一點點摸索。黃民烈介紹,聆心智能制定了包括數(shù)據(jù)搜集來源、清洗加工等各環(huán)節(jié)的標準流程,建立起相對高效的數(shù)據(jù)工程,數(shù)據(jù)體系趨于成熟用了一年。他認為初創(chuàng)團隊做數(shù)據(jù)工程的“臟活累活”需要的時間,不會因為技術快速發(fā)展而減少很多。
更核心的難題在于找到真正的人才。一位有技術背景的大模型項目的投資人在2月、3月密集地和50多位國內(nèi)頂尖的從業(yè)者交流,他認為真正擁有前沿洞察的人不超過五位。
王慧文希望找到這樣的人:真正向往偉大事業(yè)、對工作有主人翁精神、理解不同職能和技術,足夠聰明、足夠自信……他認為,吸引越多具備這些特質(zhì)的人才,團隊才能形成多種組織能力,不同職能之間有效合作。但他也承認,這樣的人才非常稀少。
定下雙輪驅(qū)動的戰(zhàn)略后,王慧文認為最大的挑戰(zhàn)來自組織能力。AGI是執(zhí)行屬性和探索屬性都很強的業(yè)務,鏈條也很長,這種事情對組織的要求很高,它比單獨探索和單獨執(zhí)行,難度都高很多。
“比移動互聯(lián)網(wǎng)更大的機會”激勵著每一位投身大模型的人。同時,他們也面臨比移動互聯(lián)網(wǎng)初期更嚴苛的監(jiān)管環(huán)境。全球政府都更早介入監(jiān)管。4月11日,網(wǎng)信辦發(fā)布《生成式人工智能服務管理辦法(征求意見稿)》公開征求意見的通知。同日,美國商務部下屬的國家電信和信息管理局(NTIA)宣布征求公眾意見,關于如何制定人工智能問責措施。NTIA負責人艾倫·戴維森(AlanDavidson)對《衛(wèi)報》表示,美國立法者2021年提出100多項人工智能相關法案,“這跟社交媒體、云計算甚至互聯(lián)網(wǎng)早期有很大不同”。當?shù)貢r間5月16日,OpenAI CEO山姆·阿爾特曼(Sam Altman)首次參加美國國會聽證,呼吁政府制定監(jiān)管AI的措施。
創(chuàng)業(yè)者也將面臨來自大公司的激烈競爭。移動互聯(lián)網(wǎng)時代的巨頭比PC時代更難顛覆。它們不僅在算力、資金、某些垂直領域數(shù)據(jù)有優(yōu)勢,也滲透進更多應用場景,有高度成熟的商業(yè)變現(xiàn)體系。
王小川認為,現(xiàn)有的大公司雖然有資源優(yōu)勢,但定目標“想象力不足”,需要跟已有業(yè)務配合,“老板不會把AGI當作公司的總目標”。大公司復雜的組織結構,還容易導致個人目標和公司目標產(chǎn)生偏差。他認為大模型時代相對互聯(lián)網(wǎng)時代將發(fā)生三個重要變化:交互方式從連接改為陪伴,信息服務變?yōu)橹R服務,免費模式變?yōu)楦顿M訂閱模式。
他相信一定是新的組織引領這些變化,“兩到三年會看到一批新的巨頭”。
相比與創(chuàng)業(yè)公司競爭,李志飛說,“我唯一怕的是巨頭?!彼麆?chuàng)業(yè)超過十年,2017年他在做智能音箱,趕上“百箱大戰(zhàn)”,和大公司正面遭遇過。那是他第一次深刻意識到,“競爭是很殘酷的”。最近他去硅谷跟人交流時會被問:“你怎么了?你是受了多少折磨?”他才意識到自己一直在談競爭,不像過去在Google當科學家時那樣暢聊技術。
“創(chuàng)業(yè)很痛苦,如果沒有樂趣堅持不下去?!彼f。2020年,AI市場繼續(xù)下行疊加疫情,他郁悶難解。研究GPT-3的論文成了他的精神支撐。
如今,自研大模型讓他找回了樂趣。他經(jīng)常跟他和團隊自研的大模型“序列猴子”聊到凌晨一兩點。最初,他像輔導功課的家長,反復教“序列猴子”做算術題:一個蘋果2元,一個梨子3元。我買三個蘋果,五個梨子總共花多少錢?“序列猴子”總是列不對方程式。他發(fā)現(xiàn),大模型就像有自己的脾氣,有時堅持不改錯,有時會立刻改。
隨著研究深入,李志飛理解,這不是機器產(chǎn)生了意識,而是大模型在各信息之間權衡,什么是更有可能正確的答案。
4月中旬的一個晚上,他和朋友吃飯時收到同事的消息:“序列猴子”有了一個還不錯的新版本,讓他試試。他隨意問了幾道地理題,比如“湖北和湖南兩個省的省會人口哪個更多?”從簡單到復雜的問題,“序列猴子”都很好地對答。而這些看似簡單的問題與結論,實際上需要機器先理解問題中的概念,再作比較。李志飛感到驚喜,“序列猴子”可能擁有了二階邏輯推導的能力,而他們并沒有刻意訓練過。
那一刻,他非常興奮,匆匆結束飯局跑回家,從對話、數(shù)學、多步推理等各個方面又測試了幾個小時。他發(fā)現(xiàn)“序列猴子”跟過去他做的所有AI系統(tǒng)都不一樣。過去,他明確知道機器能做什么、不能做什么?,F(xiàn)在,他意識到“序列猴子”能聽懂問題,還不時給他意料之外的答案。
“序列猴子”在努力理解人類的語言,李志飛在努力理解大模型——這是創(chuàng)業(yè)中他最珍視的部分?!耙苍S我永遠不能完全理解它,就像真相只能逼近。但我還是想知道why(為什么),提出假設,做各種實驗。”
“我認為今天是非常偉大的一個時間點?!蓖趸畚恼f,他認為起步年代意味著未來能打開的空間大小。“在這個時間點起步的公司,有希望形成研發(fā)能力與商業(yè)能力的正循環(huán)”。
他把這次變化的節(jié)點類比于20世紀80年代左右,個人數(shù)字設備起步的時間點。蘋果和微軟兩家公司在那個時候啟動,建立了研發(fā)和商業(yè)的正循環(huán),成為人類數(shù)字科技進步浪潮的主要推動者,當浪潮由別人推動時,它們也有能力跟進。
不止一位創(chuàng)業(yè)者會從科技史、商業(yè)史的角度打量過去浪潮中誕生的創(chuàng)業(yè)公司,從它們的故事中尋找規(guī)律,以它們的歷程激勵自己前進。中國的大模型創(chuàng)業(yè)者們的競賽剛剛開始??隙ǖ氖?,競爭將十分激烈,環(huán)境將十分嚴苛,賽程將十分漫長。