勒川
4月17日,由量子位主辦的中國AIGC產(chǎn)業(yè)峰會在北京舉行。此次峰會聚集了領域內(nèi)的產(chǎn)學研投代表,分享探討了以生成式AI引領的應用新范式、產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型等在內(nèi)的熱議話題與趨勢。同時,中國AIGC產(chǎn)業(yè)全景報告以及“2024年值得關注的AIGC企業(yè)&產(chǎn)品”榜單正式發(fā)布。
本屆中國AIGC產(chǎn)業(yè)峰會以“你好,新應用”為主題,從技術、產(chǎn)業(yè)落地、投資、產(chǎn)品等多維度,從應用層、模型層、基礎設施層等產(chǎn)業(yè)鏈玩家,以及最前沿技術、產(chǎn)業(yè)洞察的主題演講和圓桌討論等形式,全方位探討和分享中國AIGC產(chǎn)業(yè)現(xiàn)狀、機遇和未來。
來自AIGC底層基礎設施、模型層、應用層的企業(yè)玩家,以及來自市場學術界的洞察者,暢談大模型落地元年這個萬億市場的機遇與挑戰(zhàn)。
AIGC模型層:
微軟阿里高通等玩家談落地
李冕:AI應用已進入新階段,微軟助力企業(yè)級應用全球落地
微軟大中華區(qū)Azure云事業(yè)部總經(jīng)理李冕分享了微軟Copilot與Azure?AI平臺如何助力企業(yè)級應用的全球落地。
李冕認為,過去12個月AI經(jīng)歷了數(shù)次迭代,現(xiàn)在AI應用已進入到一個新的階段。企業(yè)如何打造自己的應用?怎么實現(xiàn)AI帶來的真正價值?可以從四個方面來考慮應用落地:提升員工生產(chǎn)力,重塑與用戶的互動關系,重塑企業(yè)內(nèi)部流,加強產(chǎn)品和服務。他強調(diào)了在企業(yè)打造自己的應用時微軟可以為企業(yè)提供的一系列支持。
AI模型層面,李冕展開介紹了Azure平臺支持的三類模型,分別是OpenAI系列模型、第三方開源模型和企業(yè)自研模型(BYOM)。同時,也講述了小模型(SLM)在特定場景下的應用前景。
對于開發(fā)工具,李冕提到Azure提供低代碼、無代碼的Microsoft?Copilot?Studio工作臺以及針對深度定制的Azure?AI?Studio,方便企業(yè)快速開發(fā)AI應用??紤]到企業(yè)級應用需求,李冕還表示微軟不僅在最上面的模型層為企業(yè)提供支持,還提供下面的調(diào)度層、硬件層、云數(shù)據(jù)中心等的一系列配套服務。
李冕在演講最后重申了微軟在數(shù)據(jù)隱私安全方面的承諾:“客戶的數(shù)據(jù)就是客戶的數(shù)據(jù),客戶的數(shù)據(jù)不會被用來訓練其他模型,所有客戶數(shù)據(jù)均有企業(yè)級防護,受到全面的企業(yè)合規(guī)和安全控制的保護?!?/p>
方漢:天工SkyMusic音樂大模型將大大降低音樂創(chuàng)作的門檻和成本
昆侖萬維董事長兼CEO方漢分享了“天工多模態(tài)大模型的演進落地”。大會當天,昆侖萬維發(fā)布了“天工3.0”,這是中國音樂AIGC領域首個實現(xiàn)SOTA水平的模型。同時,他還宣布“天工3.0”基座大模型與“天工SkyMusic”音樂大模型正式開啟公測。
“天工3.0”擁有4000億參數(shù),超越了3140億參數(shù)的Grok-1,是全球最大的開源MoE大模型。在MMbench和MMbench-CN測試集上,“天工3.0”性能指標全面超越GPT-4V。通過專項的Agent訓練,目前大模型可以做到“能搜能寫能讀能聊能說能畫能聽能唱”,應對多種復雜的內(nèi)容創(chuàng)作需求。例如,它可以準確識別“成都迪士尼”是個梗,并給出游玩攻略;可以自動總結(jié)文獻,生成大綱、PPT和腦圖;還可以通過非代碼方式生成智能體。
方漢特別介紹了“天工SkyMusic”音樂大模型,得益于2000萬首音樂的訓練數(shù)據(jù)和獨特的模型架構,“天工SkyMusic”在人聲識別度、音質(zhì)等方面已經(jīng)超越Sora?!疤旃kyMusic”支持根據(jù)音源和歌手特點生成音樂,并支持多種方言合成,大大降低了音樂創(chuàng)作的門檻和成本——各行各業(yè)使用的歌曲都能通過AI生成,成本迅速從幾萬塊錢降到幾分錢。
方漢分享了昆侖萬維的愿景:“實現(xiàn)通用人工智能,讓每個人更好地塑造和表達自我?!彼J為,大模型的演進終將實現(xiàn)AGI,而AIGC能力普及則有助于打破強勢文化的壟斷,實現(xiàn)文化平權。作為一家全球化互聯(lián)網(wǎng)企業(yè),昆侖萬維希望用AI技術為全球用戶賦能。
林俊旸:智能模型應融入對視覺/語音的理解
阿里通義千問開源負責人林俊旸,在現(xiàn)場分享了阿里通義千問大模型為“走向通用大模型”做出的努力。林俊旸表示,自開源以來,通義千問Qwen系列模型受到了國內(nèi)外開發(fā)者的廣泛關注。
從去年8月開始,通義千問Qwen系列模型陸續(xù)開源上新。從7B、14B參數(shù)規(guī)模大小開始,直到開源了72B參數(shù)版本;最新動作,阿里通義千問家族還有一名“小成員”,是14B參數(shù)的MoE模型。而開發(fā)者社區(qū)的迫切需求,促使阿里快速開源了32B模型——這個模型的表現(xiàn)與72B參數(shù)模型表現(xiàn)接近,并且在某些方面相比,比MoE模型還具有優(yōu)勢。
林俊旸強調(diào),阿里通義千問同時十分專注打造大模型使用生態(tài)。首先,通義千問的代碼已經(jīng)官方融入了抱抱臉的代碼庫,開發(fā)者可以更方便地使用通義千問的模型;其次,通義千問在第三方框架支持方面有不少進展,包括ollama在內(nèi)的平臺,都能一鍵使用Qwen系列模型。
多語言、長序列、Post-training、Agent、多模態(tài)等能力相關問題,林俊旸也在現(xiàn)場做了分享。
萬衛(wèi)星:具有異構計算系統(tǒng)的高通AI引擎可以充分滿足生成式AI的多樣性要求
高通公司AI產(chǎn)品技術中國區(qū)負責人萬衛(wèi)星在演講中表示,作為芯片廠商,高通正通過提供領先的產(chǎn)品和解決方案,推動AIGC相關產(chǎn)業(yè)的規(guī)模化擴展。他指出,高通認為終端側(cè)生成式AI的時代已經(jīng)到來。
高通在去年10月發(fā)布的第三代驍龍8和驍龍X?Elite兩款產(chǎn)品中,已經(jīng)將大語言模型完整搬到了端側(cè),賦能了眾多AI手機和AI?PC。多模態(tài)趨勢下,今年2月,高通也把多模態(tài)大模型完整地搬移到端側(cè)。在發(fā)布的驍龍X?Elite這款產(chǎn)品上,高通也演示了全球首個在Windows?PC上運行的音頻推理多模態(tài)大模型。
萬衛(wèi)星表示,不同領域的生成式AI用例具有多樣化的要求,背后所需的AI模型也是千差萬別,很難有一種處理器可以完美適用所有用例。在這方面,高通推出了具有異構計算系統(tǒng)的高通AI引擎,包含多種處理器組件,可以充分滿足生成式AI的多樣性要求。其中重點講了NPU?;谟脩粜枨蠛徒K端用例的多年演進,高通NPU不斷升級。第三代驍龍8的Hexagon?NPU還集成了專門為生成式AI打造的Transformer加速模塊,以及微架構升級、獨立供電軌道、微切片推理等先進AI技術。
萬衛(wèi)星總結(jié)了高通在AI方面的優(yōu)勢,在于“無與倫比的硬件設計、頂尖的異構計算能力、可擴展的AI軟件工具以及廣泛的生態(tài)系統(tǒng)和模型支持”。
李建國:超70%代碼問題單純靠基座模型是解決不了的
“超70%的問題需要端到端代碼生成能力解決,目前單純靠基座模型還遠遠不能滿足?!痹谥袊鳤IGC產(chǎn)業(yè)峰會上,螞蟻代碼大模型CodeFuse負責人李建國這樣說道,他還指出,當前代碼大模型雖然在基座模型和應用產(chǎn)品上演進飛速,但要在企業(yè)中真正實現(xiàn)研發(fā)效率的大幅提升,仍面臨諸多挑戰(zhàn)。
從軟件研發(fā)全生命周期來看,從最初的需求設計到編碼開發(fā)、測試構建、發(fā)布運維、數(shù)據(jù)洞察等環(huán)節(jié),寫代碼可能只占1/5甚至更少的工作量。
李建國表示,螞蟻集團希望打造一個“研發(fā)智能體”,通過智能Agents實現(xiàn)任務分發(fā)與銜接,將各環(huán)節(jié)連接起來,全面提升研發(fā)效能。
CodeFuse剛發(fā)布時,就明確提出“要做全生命周期的代碼大模型”。CodeFuse目前已開源13個倉庫,覆蓋代碼訓練、測試、DevOps運維、程序分析、評測等8大軟件開發(fā)領域。李建國表示,這是全方位的開源。再來看整個領域,結(jié)合外部統(tǒng)計與螞蟻實踐,基座模型在實際運用過程中只能解決大約30%的問題,剩下70%的問題還需要端到端代碼生成能力。除此之外,在Agent推理能力、需求拆解、跨模態(tài)交互等方面還需要持續(xù)演進。
李建國還重點提到,垂直場景中,比如金融場景,生成代碼的安全、可信、可靠的要求,這也是螞蟻正在重點攻克的難題。雖然挑戰(zhàn)不少,但李建國認為,螞蟻將攜手開源社區(qū)一起努力,在萬物摩爾定律的牽引下,未來兩三年可以一定程度解決這個問題。
徐元春:市場真正的運營主體是非常樸素的
小冰公司聯(lián)合創(chuàng)始人兼首席運營官、人工智能創(chuàng)造力實驗室負責人徐元春的演講主題是“數(shù)字人+大模型:打造商業(yè)應用新場景”?!白鳛橐患宜惴ü驹趺磼赍X和作為一家AIGC產(chǎn)業(yè)公司怎么賺錢,這是最后要回答的問題。最先要回答的問題是,大家用這個東西怎么賺錢?”徐元春這樣講。
他通過幾個特別具體的例子,展現(xiàn)了小冰是如何讓大家賺到錢的。第一個是一個美裝美業(yè)個體博主,她利用小冰虛擬人和大模型平臺,創(chuàng)作出了自己的數(shù)字人,在短視頻平臺用數(shù)字人分身分享創(chuàng)作服裝穿搭內(nèi)容。僅用40多天,她的單條視頻播放量就達到200萬,日均為線下門店引流6—8個意向客戶。而這,已經(jīng)能讓她的生意更好地發(fā)展起來。
第二個是一家中小型的企業(yè),一開始是做軟件開發(fā)、技術賦能、后臺的支持,現(xiàn)在使用小冰的技術平臺做轉(zhuǎn)型,成為AI服務商,4個月內(nèi)為云南300家中小企業(yè)提供了AI賦能服務。
第三個是更大的行業(yè)領軍企業(yè),他們將小冰的數(shù)字人與大模型技術深度整合到了自家各類硬件產(chǎn)品中,實現(xiàn)“開箱即用”,每一個有屏的硬件設備都可以變成一個全新的交互載體。
在徐元春看來,真正能把產(chǎn)業(yè)化應用做得越來越深,不在于廟堂之高,而是在江湖之遠:“你發(fā)現(xiàn)真正市場在運行的主體、市場從業(yè)者對AI沒有那么多復雜的想法,他們非常樸素。”他進一步補充道,小冰將大模型和數(shù)字人更加深入地植入到了企業(yè)的工作流和任務系統(tǒng)中,數(shù)字員工相當于有了集合企業(yè)知識和數(shù)據(jù)閉環(huán)的大腦,可以讓業(yè)務流程和客戶溝通更加順暢。
AIGC應用層:
普通人可以怎么AI?
吳欣鴻:基于垂直場景的大模型應用創(chuàng)新,窗口期只有兩年
美圖公司創(chuàng)始人、董事長兼CEO吳欣鴻分享了美圖視頻大模型的探索之路。美圖作為影像工具起家,經(jīng)過16年的發(fā)展,現(xiàn)在主要聚焦在影像和設計產(chǎn)品,形成了圖像、視頻和設計三大AI產(chǎn)品品類。
吳欣鴻現(xiàn)場展示了一個僅用半天時間制作的60秒AI短片,運用了開拍、WHEE、Wink等一系列AI工具,相比傳統(tǒng)動畫工作流,大幅降低了制作門檻,提升了效率。
吳欣鴻預計今年下半年,將會有很多的國產(chǎn)Sora扎堆上市,美圖也是其中一家?!拔覀冋J為越來越激烈的競爭有三個點非常關鍵:第一,創(chuàng)意超越現(xiàn)實;第二,工作流的整合;第三,垂直場景的能力?!逼渲谢诖怪蹦P偷拇竽P蛻脛?chuàng)新,吳欣鴻認為有兩年窗口期。
展望未來,吳欣鴻認為,視頻大模型的標配除了文生視頻,還將涌現(xiàn)圖生視頻、視頻生視頻、音頻生視頻等更多生成方式,應用場景非常廣闊。
今年,以Sora為代表的視頻生成只是個開始。隨著視頻大模型對物理世界理解的加深,有望實現(xiàn)劇情設計、分鏡、轉(zhuǎn)場等更專業(yè)的能力,與視頻制作工作流深度結(jié)合,后續(xù)可以生成1—5分鐘視頻。
姚冬:WPS已不再是一個文檔編輯器
金山辦公副總裁、研發(fā)中臺事業(yè)部總經(jīng)理姚冬在本次大會上分享了金山辦公在擁抱AI浪潮中的思考與實踐。作為一家辦公軟件公司,金山辦公最近五年將“多屏、內(nèi)容、云、協(xié)作、AI”作為戰(zhàn)略重點,在AIGC浪潮下,最近兩年尤其注重AI和協(xié)作這兩點的發(fā)展。
姚冬表示,當前的WPS已經(jīng)不再是一個文檔的編輯器,而是包含企業(yè)數(shù)據(jù)協(xié)作、知識管理、通信以及各種跟算法相關的模型服務等多種功能于一體的辦公平臺。在最近WPS?365發(fā)布中,其包含的WPS?AI企業(yè)版聚焦為客戶打造企業(yè)大腦,主打三大類能力:AI?Hub、AI?Docs和Copilot?Pro。
其中,AI?Hub是企業(yè)使用AI能力的基座,提供了一個兼容市面上各種大模型的統(tǒng)一接口和開發(fā)體系,讓企業(yè)可以靈活選擇和切換適合自己的模型。
“員工每天都在寫文檔,這些其實是企業(yè)非常重要的知識。但過去一直有個問題,這類知識無法再利用,因為非結(jié)構化?!眰鹘y(tǒng)的關鍵詞搜索很難準確命中文檔中的知識,而基于大模型和多模態(tài)技術,WPS?365實現(xiàn)了對企業(yè)內(nèi)部各種格式文檔的智能化閱讀理解、搜索問答,并嚴格遵循文檔權限管控。
Copilot?Pro則是通過AI驅(qū)動自然語言交互式辦公。比如做數(shù)據(jù)分析,傳統(tǒng)方式需要寫腳本、設計公式、繪制圖表等,門檻很高。在Copilot?Pro中,用戶只需用自然語言表達需求,讓AI自動執(zhí)行全流程。
姚冬強調(diào),文檔數(shù)據(jù)在人和人之間沒有傳播其實一個數(shù)據(jù)孤島,而今天的辦公不再只是簡單寫寫文檔分析數(shù)據(jù),更重要的是人和人、人和AI之間的協(xié)作。
唐毅:AI驅(qū)動的“第二大腦”,既給用戶自由,又降低信息管理焦慮
印象筆記董事長兼CEO唐毅,有科技創(chuàng)業(yè)、跨國企業(yè)管理以及投融資領域的豐富經(jīng)驗。他帶領的印象筆記,2018年成立印象研究院,開啟了對AIGC的探索,去年3月起,利用自研印象大模型驅(qū)動“印象AI”產(chǎn)品和服務,落地賦能旗下全線軟件和智能硬件產(chǎn)品。
唐毅的分享聚焦“知識管理”領域。在他看來,AIGC的發(fā)展仍處于早期繁榮階段,挑戰(zhàn)和機遇并存。他認為,相比算力、數(shù)據(jù)集和模型規(guī)模的快速擴大,模型算法的進展則相對緩慢,且算力的投入和收益不成比例。此外,目前而言,隨著模型訓練對人類公共領域數(shù)據(jù)的窮盡,越來越多合成數(shù)據(jù)的加入也會導致模型輸出效果下降。與此同時,在實踐和競爭中發(fā)現(xiàn),特定數(shù)據(jù)驅(qū)動的模型能力的增長在不斷加強,模型的小型化和高效化趨勢也日益突出。
談及印象筆記的大模型及產(chǎn)品進化方向,唐毅表示將從復合AI系統(tǒng)(Compound?AI?System)角度出發(fā),提升自研印象大模型的能力,同時發(fā)揮用戶、數(shù)據(jù)、場景、載體、交互等方面優(yōu)勢,打造真正的AI超級應用。
在AI驅(qū)動下,印象筆記將幫助用戶智能匯聚信息、高效閱讀吸收、輔助靈感記錄與創(chuàng)作、自動完成知識整理與提煉,成為用戶真正的、智能的“第二大腦”。
張力: 人形機器人未來將實現(xiàn)平臺化應用
通用機器人初創(chuàng)公司逐際動力的聯(lián)合創(chuàng)始人兼COO張力,在中國AIGC產(chǎn)業(yè)峰會現(xiàn)場分享了關于人形機器人發(fā)展及其與AGI關系的深刻見解。
目前,人形機器人的雙腿移動能力已經(jīng)有了實質(zhì)性突破,而操作能力仍然受限,是因為AI還不能完全根據(jù)多模態(tài)場景形成自己的行為,如何利用多模態(tài)大模型生成機器人自主的運動和控制,是產(chǎn)業(yè)界和學術界都在追趕和研究的部分。在硬件和軟件算法方面,尤其是大腦和小腦的協(xié)同上,人形機器人仍需取得更多突破。
張力暢想,未來的人形機器人可以實現(xiàn)平臺化的應用,就像今天的iPhone+APP一樣。機器人通過安裝不同的應用程序,利用自身的運動控制能力,執(zhí)行對應的各種任務,從而極大地擴展應用范圍。
從本質(zhì)來講,機器人就是一個類似或者超越人的運動能力、計算能力和感知能力的機電系統(tǒng)。技術方面,事先規(guī)劃好的運動控制是相對傳統(tǒng)的技術;而如果需要跟外界產(chǎn)生更多的交互,如環(huán)境認知感知、物體檢測、接觸反饋等,就需要新的技術。在這方面,AGI對于機器人的影響非常大。
在不斷研發(fā)迭代產(chǎn)品的過程中,逐際動力形成了通過模仿學習、深度強化學習以及基于感知的運動控制等關鍵的新技術,推出了人形機器人、雙足機器人以及四輪足機器人。
張力分享了他對人形機器人市場前景的看法:“無論tob還是toc,具身智能在未來有非常大的應用場景。在技術邊界不斷擴大的過程中,如何通過沿途下蛋,把相對成熟的技術和產(chǎn)品實現(xiàn)商業(yè)化;形成自主的移動能力和移動操作能力是關鍵;機器人與AGI、AIGC打通,加強場景的認知、理解,實現(xiàn)任務的分解,更好完成規(guī)劃決策,這些都非常重要?!?/p>
快刀青衣:AI給了很多人一個突破自己的機會
得到聯(lián)合創(chuàng)始人、AI學習圈主理人快刀青衣的演講主題是“六邊形戰(zhàn)士,AI?驅(qū)動下的個人能力革命”。
首先,快刀青衣認為,AI創(chuàng)新的源泉可以從四個方面考慮:你自己也想用的產(chǎn)品、一個困擾你很久的痛點、你熟悉行業(yè)能預見到的巨大變化、你對它充滿熱情而又具有挑戰(zhàn)性的事情。
“如果四項占兩項就可以干,占三項就非常值得你花很多時間去研究它?!币源藶槌霭l(fā)點,快刀青衣介紹了得到自主研發(fā)的AI陪練小程序“開始練練”,用來給員工進行AI實戰(zhàn)陪練,收到AI的反饋。如此一來,練習后的員工再面對真人客戶時就能輕松解答客戶的問題。
接著他分享了開發(fā)這款小程序的初衷。一開始是想讓自己公司的程序員用,后來程序員們都表示自己不是靠溝通干活的,是靠寫代碼。一個連鎖美容院的老板發(fā)現(xiàn)這對他們一線美容師介紹產(chǎn)品特別管用……
快刀青衣由此感慨,“最初那個起點可能跟你想象得不一樣,過程中可能會有很多不一樣的東西”。此外,他還強調(diào)了企業(yè)專有知識庫、專有數(shù)據(jù)的重要性,并表示自己在做這個AI項目時給團隊設置了幾個限制:團隊不超過3人,缺的能力用AI補;不碰硬件,不訓大模型;只做提升用戶能力的培訓場景。
快刀青衣引用了喬丹的一句話:“我可以接受失敗,但不能接受不去嘗試?!?/p>
AIGC基建層:
如何支撐產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型?
王曉野:四個要點讓企業(yè)抓住生成式AI機遇
“生成式AI這個時代已經(jīng)開始,它并不是未來將發(fā)生的事情?!眮嗰R遜云科技大中華區(qū)產(chǎn)品部技術總監(jiān)王曉野在演講中表示,生成式AI將在18個月內(nèi)顛覆所有產(chǎn)業(yè),為全球帶來高達4.4萬億美元的巨大市場商機。
對于企業(yè)如何抓住生成式AI機遇,王曉野總結(jié)了四大要點:選對場景、選對工具和合作伙伴、重視數(shù)據(jù)這一企業(yè)核心競爭力、關注人才培養(yǎng)與AI相關的監(jiān)管與治理。生成式AI在跨語言溝通、商業(yè)決策以及洞察、智能服務和營銷素材的生成、整體運營效率提升等六大場景大有可為。
王曉野指出,得益于模型能力和成本的優(yōu)化,生成式AI正在從局限的文生圖、營銷、聊天機器人等初級應用,進化到更廣泛的領域。比如在Claude等大模型支持下,語言翻譯、情感陪伴、游戲內(nèi)容審核等更多場景的落地正在悄然發(fā)生。他強調(diào)多模態(tài)交互將是大模型發(fā)展的重要趨勢。
在助力企業(yè)應用生成式AI方面,亞馬遜云科技提出了“三層原子能力”:底層基礎設施加速層、利用基礎模型構建生成式AI應用的工具比如Amazon?Bedrock、頂層開箱即用的生成式AI應用。
從電商到云計算,亞馬遜一直在用技術和AI顛覆和創(chuàng)新原有產(chǎn)業(yè)。王曉野最后表示,下一個亞馬遜正在構建并且持續(xù)投入的地方,就是生成式AI的三層原子能力,希望能與客戶共贏生成式AI時代。
楊帆:打造AI基礎設施生態(tài)是降低AI應用門檻的關鍵
“中國AI應用正在變得越來越多,越來越多新的場景被打開,今年下半年或是明年上半年,我們將看到中國生成式AI市場的爆發(fā)?!鄙虦萍悸?lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆在大會上作出了這樣的判斷。
楊帆分析道,當前尺度定律仍在主導AI的技術迭代,AI產(chǎn)業(yè)發(fā)展的核心問題在于“產(chǎn)業(yè)端的投入產(chǎn)出比不夠好”。隨著AI生產(chǎn)和應用成本的提高,用降低成本的方式降低使用門檻其實是必然趨勢,而AI基礎設施的建設,正是破解這一難題的關鍵。
關于商湯在這方面的投入,楊帆先是介紹了商湯在臨港投建的智算中心的最新進展:截至去年底,包括臨港在內(nèi)已經(jīng)建成七八個節(jié)點形成連接,還有很多新的節(jié)點在建。連接算力超過12000P,領先單點算力接近10000P。同時,商湯在芯片層面也與產(chǎn)業(yè)鏈展開了廣泛合作,臨港智算中心已有超15%的國產(chǎn)芯片算力。
夯實算力基礎之外,楊帆還講述了商湯推出的不同層級的軟件產(chǎn)品和服務體系,其中提到了降低模型調(diào)用成本的全套解決方案。
他還分享了商湯自家大模型的發(fā)展,除了去年看到比較多的語言類的任務,現(xiàn)在更多在圖像、視頻、三維重建不同領域提供不同基礎模型的方案??偟膩碇v,商湯還是更希望以基礎設施平臺化能力支撐更加繁榮的場景生態(tài)。
AIGC洞察者:
Scaling?Laws是關鍵
袁粒:大模型幻覺問題,我們幾乎是公開最早提出檢索增強來解決
北京大學深圳研究生院助理教授袁粒在大會上分享了他們團隊在多模態(tài)模型垂直領域應用的實踐經(jīng)驗。他表示,用來閑聊的玩具并不能滿足用戶真正的需求,AI必須轉(zhuǎn)化為實實在在的生產(chǎn)力,而生產(chǎn)力則是由垂直領域來轉(zhuǎn)化。
“檢索增強這一做法當時我們也是業(yè)內(nèi)最早做出來的,只是我們沒有把這個概念提出來,讓大模型做大模型的事情,讓檢索做檢索的事情?!?/p>
袁粒介紹了他們同北大校友企業(yè)兔展智能聯(lián)合發(fā)起的Sora復現(xiàn)開源計劃Open-Sora?Plan,目標是實現(xiàn)一個視覺版LLaMA。該項目分為三個技術部分:視頻編解碼器、Diffusion?Transformer和條件注入。
目前已經(jīng)開源了第一版預訓練模型和CausalVideoVAE,在開源社區(qū)引起廣泛關注,在GitHub上獲得近萬星。該框架最大特點是能夠生成較長視頻,得益于訓練時壓縮喂入的長視頻片段。
接下來,該項目將分三個階段實現(xiàn)更高的復現(xiàn)目標:第一階段已開源;第二階段爭取開源支持20秒720P視頻生成的模型;第三階段希望借助產(chǎn)業(yè)界算力實現(xiàn)超越原版Sora的性能。
袁粒表示,開源推動了AI的繁榮,他們也希望通過開源回饋社區(qū),讓學術界和產(chǎn)業(yè)界都能共享技術成果。
張璐:初創(chuàng)企業(yè)在現(xiàn)階段都可走“雞尾酒”模式
作為長期關注和布局AI領域的頂級投資人,硅谷Fusion?Fund創(chuàng)始合伙人、斯坦福大學客座講師張璐分享了她對全球尤其是硅谷AI技術與產(chǎn)業(yè)發(fā)展的深度洞察。張璐指出,AI正在成為一項全產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型工具,而海量高質(zhì)量數(shù)據(jù)的涌現(xiàn)為AI的大規(guī)模應用奠定了基礎。
初創(chuàng)企業(yè)要想在AI浪潮中抓住先機,必須找準自身的創(chuàng)新切入點,充分利用大公司搭建的生態(tài)平臺實現(xiàn)共同發(fā)展?,F(xiàn)階段,初創(chuàng)企業(yè)基本上都可以做“雞尾酒”模式,即調(diào)動最前沿大模型的API,在上面配套使用開源模型,再自己做些修改進行模型調(diào)優(yōu)。
“在這個優(yōu)化過程中,很快會發(fā)現(xiàn)兩個特點?!睆堣凑f,第一個特點是數(shù)據(jù)的質(zhì)量比數(shù)據(jù)的數(shù)量更重要;第二是不需要一個模型去解決所有的問題。
在投資方向上,張璐表示,F(xiàn)usion?Fund聚焦AI的應用層和基礎設施兩個維度。其中,應用層主要關注醫(yī)療、金融保險、機器人、太空等擁有海量高質(zhì)量數(shù)據(jù)和廣闊應用前景的領域;基礎設施層則布局從芯片到云端的各個技術節(jié)點,旨在突破算力、能耗、隱私等AI發(fā)展的關鍵瓶頸。
張璐在演講中談到,隨著開源社區(qū)的蓬勃發(fā)展,小模型、行業(yè)專屬模型也將成為AI應用的重要趨勢。她強調(diào),對于創(chuàng)業(yè)者而言,高質(zhì)量數(shù)據(jù)的獲取與應用比海量數(shù)據(jù)更為關鍵,定制化的小模型在特定場景下的效能甚至可以與通用大模型相媲美。
盧志武:有算力就有超越Sora的可能
中國人民大學高瓴人工智能學院教授盧志武分享主題為《VDT:基于Transformer的通用擴散視頻生成》。
VDT是Video?Diffusion?Transformer的縮寫。這是盧志武帶隊的項目,去年5月發(fā)布在arXiv上,并已被頂會ICLR接收。它的創(chuàng)新之處是將Transformer應用于視頻生成——這遠在OpenAI發(fā)布Sora之前,以及在模型中引入統(tǒng)一的時空掩碼建模。
盧志武表示,Transformer模型具有捕捉長期或不規(guī)則時間依賴性的優(yōu)勢,這在視頻領域尤為重要;而Transformer模型的參數(shù)量可以根據(jù)需要增加,這為提高模型性能提供了靈活性。
在演講中,盧志武提到了VDT模型中關鍵的時空Transformer?block,并解釋了其與現(xiàn)有模型如SOTA的細微差別。他指出,由于算力限制,團隊在設計時采取了空間和時間分開的處理方法,以提高效率。那VDT與Sora這樣的模型相比如何?盧志武分析,兩者在時空Attention處理上有所不同,但差別并不本質(zhì)。
“我們推測Sora強大的物理世界模擬能力,主要來自統(tǒng)一的時空token化和Attention機制?!北R志武在最后表示,團隊通過實驗發(fā)現(xiàn),VDT模型效果只和消耗的算力有關,這與OpenAI的圖像生成模型DiT的結(jié)論一致。
“算力越大效果越好。拿到更多算力,超越Sora也不是不可能?!?/p>