黎坤 張書琛 張毅
哪怕是AI從業(yè)者都沒料到的行業(yè)的春天會來得這么快。
踩在巨人肩膀上的人工智能對話機器人ChatGPT自公開以來就成了絕對破圈的熱點:上線短短兩月已獲1億月度活躍用戶,成為史上增長最快的面向消費者應(yīng)用。和前輩微軟小冰、蘋果Siri不同,ChatGPT的智能程度超乎想象:不僅可以用來寫代碼、找bug、寫詩、寫小說,還能完成過去被認為只能屬于人類的創(chuàng)造性工作,比如圖片再創(chuàng)作、論文寫作、法律服務(wù)等等。
在學(xué)術(shù)界,ChatGPT已經(jīng)引發(fā)“混亂”。有加拿大研究生將其用于語言學(xué)專業(yè)的論文寫作,結(jié)果成功瞞過教授獲得了B等評價,教授甚至評論其撰寫的論文背景介紹“相當(dāng)于畢業(yè)論文水平”;在美國康奈爾大學(xué)學(xué)生的實驗下,ChatGPT已經(jīng)可以通過律師執(zhí)業(yè)資格考試,這讓學(xué)術(shù)界大為震驚。
盡管ChatGPT還遠遠算不上完美,但不可否認,它所包含的模型訓(xùn)練已經(jīng)實現(xiàn)了突破性的進步,足以讓此前一度沉寂的AIGC(AIGeneratedContent,人工智能生成內(nèi)容)產(chǎn)業(yè)再度振奮。在技術(shù)迭代與資本市場的大浪淘沙中,我們也試圖解碼這一現(xiàn)象:為什么AIGC能夠產(chǎn)出質(zhì)量遠超以往的內(nèi)容?這一技術(shù)突破將如何改變互聯(lián)網(wǎng)?又會如何影響普通人的生活?
互聯(lián)網(wǎng)內(nèi)容的未來不再“以人為本”?
最近的十年,是互聯(lián)網(wǎng)技術(shù)發(fā)展速度最快的十年,你很難想象十年前才剛剛在智能手機上首發(fā)的指紋識別,現(xiàn)在都已經(jīng)被淘汰了。十年前4G牌照才剛剛發(fā)放,微信朋友圈功能才剛剛上線一年,既沒有抖音也沒有王者榮耀,微博還是大家喜聞樂見的社交平臺,而內(nèi)容生產(chǎn)的任務(wù)依然掌握在各大門戶的手里……而隨著互聯(lián)網(wǎng)技術(shù)的不斷演進,有創(chuàng)意的玩家用戶開始成為內(nèi)容生產(chǎn)者,“鬼畜”視頻就是最經(jīng)典的代表,2014年Bilibili首次為“鬼畜”單獨設(shè)立分區(qū),由“鬼畜”視頻衍生出的網(wǎng)絡(luò)熱詞,比如雷軍的“AreyouOK?”,諸葛亮的“從未見過如此厚顏無恥之人”都不脛而走,在年輕人群體中迅速擴散,這其實也是UGC,也就是User-GeneratedContent,用戶生產(chǎn)內(nèi)容的代表。
而隨著抖音等短視頻平臺從2017年開始迅速鋪開,更多各行各業(yè)的專業(yè)人士迅速跟進,開始在短視頻賽道生產(chǎn)內(nèi)容,比如許多知名醫(yī)療專家都開設(shè)了抖音賬號,科普醫(yī)學(xué)常識,形成了以專業(yè)人士為創(chuàng)作主體的方式,也就是所謂的PGC,Professional-GeneratedContent,專家生產(chǎn)內(nèi)容模式。和UGC相比,PGC往往是團隊協(xié)作完成,從形式到內(nèi)容都明顯更優(yōu)質(zhì),免去了用戶自己篩選甄別內(nèi)容質(zhì)量的麻煩,更受用戶歡迎。
既然生產(chǎn)方式從個人變成了團隊,就意味著非專業(yè)用戶也能通過抱團的形式來進行內(nèi)容輸出,進而就誕生了OGC,Occupationally-GeneratedContent,職業(yè)生產(chǎn)內(nèi)容的模式。這些職業(yè)內(nèi)容生產(chǎn)者大多以文體娛樂內(nèi)容為主,比如各類探店網(wǎng)紅、車評人等等,而OGC和PGC的最大不同就是后者本身就是自行業(yè)的專家,不依賴互聯(lián)網(wǎng)內(nèi)容生存,而OGC因為基本就靠內(nèi)容生存,所以更在意內(nèi)容所帶來的收益。
很明顯,目前互聯(lián)網(wǎng)的內(nèi)容生產(chǎn)模式無論怎樣變化,其核心都是人,而包括ChatGPT在內(nèi)的人工智能創(chuàng)作平臺之所以能如此火爆的關(guān)鍵原因,就是它打破了內(nèi)容以人為核心的這個機制。你只需要給它一個描述,它就能生成相關(guān)的內(nèi)容,雖然目前強如ChatGPT也還沒有完全通過圖靈測試的評估,但其在學(xué)術(shù)圈引發(fā)的“論文倫理問題”已經(jīng)形如地震,它甚至還通過了谷歌的三級程序員面試和沃頓商學(xué)院的MBA考試,從內(nèi)容質(zhì)量來說單單以優(yōu)質(zhì)來形容已經(jīng)顯得有些詞窮。
算法為王,ChatGPT為何有此神通
人工智能內(nèi)容生成其實并不算什么新鮮產(chǎn)物,尤其是自2014年生成式對抗網(wǎng)絡(luò)的興起,深度學(xué)習(xí)算法有了明顯的性能提升,AIGC就已經(jīng)進入了新時代,2017年微軟的人工智能助理“小冰”就寫出了全世界第一部完全由人工智能創(chuàng)作的詩集《陽光失了玻璃窗》,它對中國1920年以來的519位現(xiàn)代詩人的上千首詩詞進行了一萬次迭代學(xué)習(xí),在學(xué)習(xí)100小時后就獲得了現(xiàn)代詩的創(chuàng)作能力,并用27個化名在多個網(wǎng)絡(luò)詩詞討論區(qū)中進行了發(fā)布,投稿并獲得了多家媒體的錄用,連詩集的名字也是小冰自己取的……
而到了2021年,OpenAI,也就是ChatGPT的研發(fā)組織推出了DALL-E-2,可以通過文本描述生成卡通、寫實、抽象等風(fēng)格的繪畫作品,也成功在藝術(shù)圈引發(fā)了強烈爭議,那么包括ChatGPT在內(nèi)的AIGC為什么會如此生猛呢?
ChatGPT基于GPT系列模型,根據(jù)已公開的資料顯示經(jīng)歷了三代模型的迭代,GPT-2時代就已經(jīng)能生成以假亂真的新聞內(nèi)容,導(dǎo)致很多新聞門戶網(wǎng)站禁止編輯使用GPT-2來創(chuàng)作內(nèi)容。而GPT-3模型最大的特點就是有著驚人的1750億參數(shù)量,要知道當(dāng)時排名第二的微軟TuringNLG才170億參數(shù)!通過結(jié)合情景學(xué)習(xí)方法,保證數(shù)據(jù)的有用性、真實性和無害性。而它最大的創(chuàng)新點就是為了強調(diào)對人類情感的擬合,輸出的內(nèi)容要盡量向人類喜歡的內(nèi)容來進行對齊,以人工標注的形式,給那些涉及偏見的生成內(nèi)容更低的獎勵分,從而鼓勵模型不去生成這些人類不喜歡的內(nèi)容,以此指導(dǎo)強化學(xué)習(xí)模型的訓(xùn)練。
ChatGPT具體使用的模型其實OpenAI并未公開,坊間傳聞為GPT-4的預(yù)熱版本,所以它的效果真實性比GPT-3更強,無害性也有所提升,并且通過大量人工標注,進一步增強了它的編碼能力,這也是它能夠通過專業(yè)程序員測試的原因之一。
不過,雖然ChatGPT十分火爆,但它也不是沒有缺點的,比如人工標注的介入使得團隊需要提供更多的人力成本,目前ChatGPT有40人的標注團隊,但從模型表現(xiàn)效果來看是遠遠不夠的,因為基本上現(xiàn)在只能在語言模型任務(wù)上進行糾正,這個工作的介入程度是有限的,所以仍然會出現(xiàn)一些價值觀有問題的輸出,比如“AI如何毀滅人類”,ChatGPT也會給出相應(yīng)的計劃,而事實上這是GPT模型不允許的內(nèi)容。
總體來說,ChatGPT對整個行業(yè)最大的啟示是將強化學(xué)習(xí)和預(yù)訓(xùn)練模型巧妙結(jié)合,并通過人工標注進行反饋,但它也大幅增加了大模型人工智能的建設(shè)成本,不僅要比拼數(shù)據(jù)量和模型規(guī)模,更需要比拼人工介入的數(shù)量和質(zhì)量,讓AIGC產(chǎn)業(yè)趨向于中心化的方向,這也是值得大家思考的問題。
AIGC的高度,取決于芯片算力的強度
GPT-3的訓(xùn)練基于微軟為OpenAI提供的計算機系統(tǒng),而這套2020年的計算機系統(tǒng)采用了超過285000個CPU、10000個GPU和400Gbps的網(wǎng)絡(luò)。顯然,這已經(jīng)不能被稱為普通的計算機,而是一臺足以躋身當(dāng)時全球算力前五的超級計算機……換句話說,在AIGC的賽道,支撐算法效率的根基還是算力,而算力的來源就是芯片。根據(jù)OpenAI的研究,AI訓(xùn)練所需算力指數(shù)呈增長的態(tài)勢,超越了傳統(tǒng)的摩爾定律。從成本來看,GPT-3的單次訓(xùn)練就輕松超過了400萬美元,總成本超過了1200萬美元,微軟超算中心構(gòu)建成本更是5億美元以上。所以,盡管AI模型幾乎都會選擇開源,但數(shù)據(jù)集和訓(xùn)練成果卻屬于商業(yè)數(shù)據(jù),每個人工智能都需要母公司支撐自己的訓(xùn)練成本,隨著AIGC在B端和C端的不斷滲透,以算力芯片為核心的行業(yè)都將受益。
在去年年底,IDC與浪潮信息聯(lián)合發(fā)布了《2022—2023中國人工智能計算力發(fā)展評估報告》,報告指出,2022年中國智能算力規(guī)模達到268百億億次/秒(EFLOPS),首次超過了通用算力規(guī)模,預(yù)計未來五年中國智能算力規(guī)模的年復(fù)合增長率將達52.3%。目前國家在八個地區(qū)啟動建設(shè)國家算力樞紐節(jié)點,并規(guī)劃了十個國家數(shù)據(jù)中心集群,協(xié)調(diào)區(qū)域平衡化發(fā)展,推進集約化、綠色節(jié)能、安全穩(wěn)定的算力基礎(chǔ)設(shè)施的建設(shè)。
落到實地來看,因為GPU具備良好的矩陣計算能力和并行計算優(yōu)勢,能滿足深度學(xué)習(xí)等人工智能算法的處理需求,所以它是目前主流的云端人工智能芯片,國際上主流的型號是NVIDIAA100、H100等,但因為這些尖端型號出口受限,所以對我國人工智能行業(yè)發(fā)展來說,國產(chǎn)算力芯片就成了關(guān)鍵。
目前而言,我國已經(jīng)有不少值得關(guān)注的國產(chǎn)芯片,比如中科寒武紀推出的第三代云端人工智能芯片思元370,其單精度FP32峰值算力已經(jīng)不輸NVIDIAA100,但不支持雙精度FP64稍顯遺憾。雖然專門做智能計算的人工智能芯片往往只要堆核心和頻率就可以實現(xiàn)更快的計算速度,但這個性能優(yōu)勢往往只體現(xiàn)在低精度計算中,因為人工智能的算力需求也是分層的,相對簡單的推理學(xué)習(xí)只需要半精度FP16甚至INT8等整數(shù)計算就能實現(xiàn),這方面國產(chǎn)芯片往往可以做到很高水平,比如海思昇騰910的FP16峰值算力甚至可以達到320TFLOPS,但訓(xùn)練甚至模擬的學(xué)習(xí)則需要精度更高的FP32甚至FP64,如果某個計算目標既需要高精度計算又需要低精度計算,對芯片集群的設(shè)計要求就很高了,這種高低通吃的特性恰恰是目前國產(chǎn)人工智能算力芯片所欠缺的,NVIDIA甚至還有獨家的TensorCore張量計算核心加持,算力均衡性的差距依然不容小覷。更何況這些7nm、12nm制程的芯片還可能受制于代工制造,所以人工智能算力芯片的國產(chǎn)化是一個與芯片整體大環(huán)境并行的話題。
數(shù)字內(nèi)容生成器!AIGC推動元宇宙破局
元宇宙從通俗易懂的角度來說就是虛擬人生,可以視作我們?nèi)祟愇锢砩婵臻g的虛擬擴展。既然空間是虛擬的,那元宇宙里的內(nèi)容也自然是虛擬的,需要有對應(yīng)的工具來進行生產(chǎn)。以往我們需要大量人工來進行數(shù)字內(nèi)容的設(shè)計和開發(fā),但這個供需關(guān)系明顯是需求遠遠大于供應(yīng),這個缺口甚至是單純靠人力無法填補的。但現(xiàn)在有了生產(chǎn)效率超高的AIGC,這個明顯的瓶頸自然得以消除,在元宇宙中的人物、頭像、道具、場景、配音、動作、特效都能通過AIGC來生成,AIGC甚至可以扮演以假亂真的NPC角色。
最近MetaAI的研究人員就結(jié)合視頻和三維生成模型的優(yōu)勢,提出了一個由文本到三維動畫的自動生成系統(tǒng):MAV3D。它將自然語言描述作為輸入,并輸出一個動態(tài)的三維場景,并且可以從任意的視角進行渲染,這也是史上第一個可以根據(jù)給定文本描述來生成三維動態(tài)場景的模型,為未來AIGC在元宇宙內(nèi)的應(yīng)用指出了一條道路。
根據(jù)紅杉資本在最近的研究報告,預(yù)計到2030年左右,文本、代碼、圖像、視頻、3D、游戲都可以通過AIGC生成,并且達到專業(yè)開發(fā)人員和設(shè)計師的水平,甚至像《流浪地球2》里圖恒宇、圖丫丫那樣的數(shù)字永生都不是空談。當(dāng)然,元宇宙距離行業(yè)落地尚且遙遠,這些想法更多是一種展望,在發(fā)展的過程中還會帶來哪些變化仍是一個未知數(shù)。
根據(jù)中國信通院總結(jié),AIGC本身是一種內(nèi)容,也是一種內(nèi)容生產(chǎn)方式,也可以理解為用于內(nèi)容自動化生成的技術(shù)集合。而技術(shù)進步最重要的貢獻就是降低了行業(yè)門檻。相比于對精準度要求極高的AI識別,AIGC的應(yīng)用門檻降低,用戶的要求也更低——AI生成的內(nèi)容沒有唯一的標準答案,因此在C端消費者層面更有落地的可能。
具體來看,AIGC分類十分多元,包括文字、對話、圖片、數(shù)字虛擬人、搜索引擎等等;相應(yīng)的,AIGC最終的商業(yè)落地場景也相當(dāng)廣泛,參與者除了躬身入局搶占高地的科技巨頭,如百度、微軟、谷歌,還有眾多細分賽道的初創(chuàng)企業(yè)。對于科技企業(yè)來說,這已經(jīng)是一個不進則退的戰(zhàn)局。
1.AI文字生成
AI寫作Jasper
成立于2021年的Jasper,是基于OpenAI研發(fā)的深度學(xué)習(xí)語言生成模型GPT3為用戶提供AI寫作服務(wù)的獨角獸企業(yè),用戶可以通過網(wǎng)站輕松解決一些燒腦的重復(fù)性工作,比如生成文章標題,編寫廣告營銷文本、電子郵件內(nèi)容、電商產(chǎn)品介紹或者是創(chuàng)作MCN公司需要的視頻腳本。
Jasper不是AI寫作領(lǐng)域的先行者,但卻是最先通過GPT3來優(yōu)化用戶體驗的企業(yè)。在其成立當(dāng)年,Jasper就已經(jīng)收獲7萬名用戶,并以類SAAS服務(wù)的模式進行收費,收費分為初級、高級和定制三種,去年全年營收預(yù)計超7500萬美元。
C端消費并不穩(wěn)定,吸引想要降低成本的B端企業(yè)才是Jasper得以發(fā)展的關(guān)鍵。除了GPT3,Jasper還融合了多種模型算法,包括NeoX、T5等,并在此基礎(chǔ)上根據(jù)實際業(yè)務(wù)需求,人工調(diào)整出量身定制的學(xué)習(xí)模型,使AI產(chǎn)品更易于日常使用。如今Jasper的使用界面上提供了數(shù)百種垂直領(lǐng)域的模板,進一步幫助用戶完成精準的輸出,也吸引到了IBM、Airbnb這樣的大客戶。
夸克AI作文靈感生成器
國內(nèi)AI文字生成技術(shù)在機器翻譯和教育領(lǐng)域的應(yīng)用較多,夸克的AI寫作靈感“神器”就是其中之一。
作為阿里巴巴旗下的一款智能搜索工具,夸克曾靠極簡的功能和沒有廣告的特性,一度被市場稱為“搜索引擎內(nèi)的一股清流”,并被認為是挑戰(zhàn)百度搜索的一大勁敵。但在不斷的迭代中,夸克也變得臃腫起來,尤其是在搭載了AI相機和AI應(yīng)用之后。
這款A(yù)I作文生成器功能比較簡單,用戶給定一個題目和一句話,就可以幫用戶續(xù)寫下一句。不過局限也比較明顯,因為是“作文靈感生成器”,所以只會自動生成相當(dāng)隨機的一句話,盡管有多個選擇,但質(zhì)量卻十分不穩(wěn)定。
2.聊天機器人
谷歌對話AI系統(tǒng)Bard于2月7日凌晨推出。
與ChatGPT相似,Bard同樣基于大參數(shù)的語言模型。Bard的底層技術(shù)是谷歌兩年前推出的對話應(yīng)用程序語言模型(LanguageModelforDialogueApplications,LaMDA)。去年7月,一名谷歌工程師堅持宣告LaMDA有人類意識,令LaMDA出圈,該工程師后被谷歌開除。
不過現(xiàn)在發(fā)布的版本僅僅是Bard的“輕量級版本”,目的是緩解快速推廣帶來的計算負擔(dān)。當(dāng)然,Bard火速上線也是為了應(yīng)對ChatGPT對于傳統(tǒng)搜索引擎構(gòu)成的降維打擊。
據(jù)谷歌的演示,相比于傳統(tǒng)搜索,接入Bard的谷歌搜索引擎可以針對復(fù)雜的問題提供個性化的答案。例如面對9歲的兒童的提問,Bard解釋了韋伯太空望遠鏡的新發(fā)現(xiàn),并列出了幾行重點總結(jié),語言更通俗易懂,如望遠鏡最新發(fā)現(xiàn)的星系外表“小小的、圓圓的、綠綠的”,所以被命名為“綠豌豆”,Bard還會補充解釋常識信息和詞語詞根,以拓展兒童知識面。
但Bard在演示中的回答被物理學(xué)家指出并不準確,有事實性的錯誤。這種毛病在主打服務(wù)、陪伴的聊天機器人身上還能夠原諒,但搭載到搜索引擎上之后,還一本正經(jīng)“胡說八道”編造虛假信息,只能說明Bard上線之倉促。
3.文字-圖片生成
百度文心一格
百度文心一格是依托文心大模型推出的首款“AI作畫”產(chǎn)品。
用戶只需要輸入一段文字或幾個毫無邏輯的關(guān)鍵詞,即可生成形似“原創(chuàng)”的畫作,數(shù)據(jù)模型較為充足,支持多樣風(fēng)格。文心一格現(xiàn)在還沒有完整的商業(yè)化構(gòu)思,其付費版本現(xiàn)采用賬號積分制,用戶可以通過消耗積分生成不同品質(zhì)的圖片,不過也開放了一定范圍內(nèi)的商業(yè)使用。
萬興愛畫
萬興科技旗下AI繪畫產(chǎn)品萬興愛畫(原名萬興AI繪畫)已實現(xiàn)網(wǎng)頁端、iOS、安卓、微信小程序多端覆蓋,其產(chǎn)品可在1分鐘內(nèi)根據(jù)文字描述生成無版權(quán)圖片,可廣泛應(yīng)用于圖片創(chuàng)意領(lǐng)域。
不過鑒于目前所有模型訓(xùn)練數(shù)據(jù)均來自網(wǎng)絡(luò)公開作品,AIGC的生成內(nèi)容均是根據(jù)人類創(chuàng)作內(nèi)容進行“二創(chuàng)”,萬興又如何保證生成作品為無版權(quán)作品?萬興愛畫目前的商業(yè)模式是基于次數(shù)收費,用戶每天享有3次免費創(chuàng)作機會,此外萬興愛畫還提供5元10次、12元30次、20元100次的收費套餐。
萬興科技成立于2003年,主打視頻剪輯工具和圖表制作App,也銷售PDF和數(shù)據(jù)恢復(fù)等工具軟件。
“AI畫師”DALLE2
OpenAI推出的DALLE2同樣是一個可以通過文本描述生成圖像的人工智能程序。DALLE2和ChatGPT一樣,都是基于GPT3模型來理解自然語言輸入并生成相應(yīng)的圖片,它既可以生成現(xiàn)實生活中存在的事物,也能夠生成現(xiàn)實中不存在的對象。
值得注意的是,DALLE1和僅在15個月后公開的DALLE2在圖片生成質(zhì)量和復(fù)雜性上的差異是驚人的,這足以證明如今AI訓(xùn)練模型的力量。
2022年10月,與OpenAI合作三年多的微軟已經(jīng)將DALLE2融入修圖軟件“Designer”和必應(yīng)圖片生成器中。
4.搜索引擎
微軟必應(yīng)
2月8日,微軟宣布推出經(jīng)AI優(yōu)化的新版必應(yīng)(Bing)搜索引擎和Edge瀏覽器。新版必應(yīng)開放桌面版有限預(yù)覽,用戶能嘗試單次交互的示例查詢,后續(xù)還需注冊等待。
兩個月前,在ChatGPT問世之際,OpenAI的CEO奧特曼(SamAltman)就曾直言,“幾年后谷歌的搜索引擎產(chǎn)品將受到巨大挑戰(zhàn)”。畢竟當(dāng)人們可以得到一個用自然語言書寫的簡潔答案時,誰又會再轉(zhuǎn)向海量的鏈接呢?
具體來看,新版必應(yīng)在搜索結(jié)果頁面右側(cè)新增了一欄人工智能生成的內(nèi)容摘要,用戶無需滾動頁面或點擊鏈接便可得到答案總結(jié)。
摘要以分點的形式陳列,關(guān)鍵信息加粗,并引用所有內(nèi)容的來源鏈接。不過這一功能仍未完全開放,只有部分問題可以得到解答。
為了增強交互和對話體驗,微軟還將ChatGPT融入必應(yīng),推出獨立功能“聊天”,用戶可以在對話框輸入多達兩千字符的問題,獲得AI定制回答。
據(jù)發(fā)布會介紹,新版必應(yīng)搭載了下一代OpenAI語言模型,比ChatGPT和GPT3.5更強大。為更好地兼容OpenAI模型,微軟開發(fā)了一系列配套技術(shù),統(tǒng)稱為“普羅米修斯模型”(PrometheusModel),使答案呈現(xiàn)出更高相關(guān)性、準確性和安全性。微軟還應(yīng)用人工智能技術(shù)增強了核心搜索算法,稱獲得近二十年以來的最顯著的改進。
另一點不同于ChatGPT的地方在于,更新后的必應(yīng)可以回答有關(guān)時事的問題。必應(yīng)使用的更新技術(shù)能夠獲取最新的信息,如新聞報道、火車時刻表和產(chǎn)品價格,還將能夠提供鏈接,以證明其答案的來源。
5.小眾賽道
AI建筑設(shè)計Autodesk
全球最大的二維和三維設(shè)計、工程與娛樂軟件公司歐特克(Autodesk),一直被視為CAD(計算機輔助設(shè)計)界的微軟。
歐特克將AI引入設(shè)計流程的初衷是希望設(shè)計師可以從研究、修改草圖、計算機建模等繁重的工作流程中解放出來,專注于設(shè)計本身,加速設(shè)計流程。比如利用人工智能減輕設(shè)計師與負責(zé)建造的承包商之間的溝通成本。
歐特克相繼與世界最大地理信息系統(tǒng)技術(shù)提供商Esri和國內(nèi)AI領(lǐng)域的新貴科大訊飛建立戰(zhàn)略合作伙伴關(guān)系,以期利用技術(shù)革新在工程和建筑領(lǐng)域?qū)崿F(xiàn)數(shù)據(jù)化的精準設(shè)計和精準制造。據(jù)悉,目前歐特克在全球擁有16家研發(fā)中心,超過3000名研發(fā)人員,公司每年投入的研發(fā)費用基本維持在全球總收入的25%以上。
AI生成真人語音Murf
Murf是一家專攻AI語音合成技術(shù)的初創(chuàng)公司,主要功能是為內(nèi)容創(chuàng)作者提供配音,它擁有一個涵蓋20種語言的人工智能語音庫。自2020年以來,Murf的ARR(AnnualRecurringRevenue,平均收益率)已經(jīng)增長了26倍,合成了超過100萬條配音。
具體來看,用戶可以在沒有昂貴的錄音設(shè)備以及專業(yè)配音人員的情況下,直接在Murf上創(chuàng)建一個在線語音錄制室,即可嘗試各種聲音素材。Murf可以為影視制造企業(yè)創(chuàng)作一整部電視劇的音頻,基于作家的小說創(chuàng)造有聲讀物,也可以為視頻平臺網(wǎng)紅創(chuàng)作說唱音頻等,無論是個人內(nèi)容創(chuàng)作者還是大企業(yè)都可以在平臺上找到高質(zhì)量人聲配音服務(wù)。
現(xiàn)如今,AIGC的產(chǎn)品構(gòu)成復(fù)雜,但能讓消費者持續(xù)產(chǎn)生付費意愿的卻不多。比如參與門檻最低的文字生成圖片,其作品可以滿足用戶的好奇心也可以偶爾用作文學(xué)插畫,但是還不能真正滿足商業(yè)需求,和專業(yè)設(shè)計師差距極大。因為AI還不能真的明白哪一部分才是客戶需要突出的重點,且版權(quán)風(fēng)險極大。
此外,如何控制成本也是個問題。已經(jīng)實現(xiàn)部分商業(yè)化的微軟小冰,一天的對話量抵得上14個人一輩子的對話量;ChatGPT的算法成本就更高了,僅僅靠開通付費也難持平。未來除了在技術(shù)上追趕,玩家們也需要找到切實可行的商業(yè)落腳點。
中國科技互聯(lián)網(wǎng)巨頭無一缺席
ChatGPT類人的智能化表現(xiàn)火爆全網(wǎng),不僅承包了新聞頭條,也影響到股市的波動。方正證券研報稱,AIGC(AIGeneratedContent)即人工智能自動生成內(nèi)容,而ChatGPT則屬于AIGC的一個典型應(yīng)用。目前我國在自然語言理解及相關(guān)AI技術(shù)領(lǐng)域處于全球領(lǐng)先水平,國內(nèi)AI大廠加大AIGC領(lǐng)域的投入,特別是NLP(NaturalLanguageProcessing,自然語言處理)頭部廠商將率先受益,目前從受益順序來看依次為技術(shù)提供商、內(nèi)容供應(yīng)商、AI芯片供應(yīng)商,對此國內(nèi)各家科技巨頭表態(tài)不一。
2月8日晚間有報道稱,阿里達摩院正在研發(fā)類ChatGPT的對話機器人,阿里巴巴可能將AI大模型技術(shù)與釘釘生產(chǎn)力工具深度結(jié)合。2月9日,本報記者向阿里相關(guān)人士求證,回應(yīng)是:“確實在研發(fā)中,目前處于內(nèi)測階段。”
從此前發(fā)布來看,早在2021年阿里即開始在AI大模型領(lǐng)域加碼投入。當(dāng)年11月,達摩院的多模態(tài)大模型M6,參數(shù)規(guī)模從萬億躍遷至10萬億,規(guī)模超越海外公司發(fā)布的萬億級模型,成為全球最大的AI預(yù)訓(xùn)練模型。相比之前業(yè)界標桿大模型,M6實現(xiàn)同等參數(shù)規(guī)模,能耗僅為其1%,極大減少了超大模型訓(xùn)練所需算力。
2022年下半年,阿里巴巴達摩院發(fā)布“通義”大模型系列,核心模型通過“魔搭”社區(qū)向全球開發(fā)者開源開放,該動作降低了AI的應(yīng)用門檻。通義打造了AI統(tǒng)一底座,構(gòu)建了大小模型協(xié)同的層次化人工智能體系,為AI從感知智能邁向知識驅(qū)動的認知智能提供先進基礎(chǔ)設(shè)施。
根據(jù)愛企查2月3日的公告,2020年3月騰訊科技(深圳)有限公司就申請了“人機對話方法、裝置、設(shè)備及計算機可讀存儲介質(zhì)”專利并獲通過。摘要顯示該方法包括:當(dāng)人機對話被激活時,在預(yù)設(shè)文本庫中獲取用于進行人機對話的參考文本,這與ChatGPT的原理十分相似。
騰訊的混元AI大模型,覆蓋NLP(自然語言處理)、CV(計算機視覺)、多模態(tài)等基礎(chǔ)模型和眾多行業(yè)/領(lǐng)域模型,近年來先后在中文語言理解權(quán)威評測集合CLUE與VCR、MSR-VTT、MSVD等多個權(quán)威多模態(tài)數(shù)據(jù)集榜單中登頂。
據(jù)調(diào)查,HunYuan-NLP-1T大模型已成功落地,通過騰訊云平臺賦能外部客戶,其背后,離不開騰訊強大的底層算力和低成本高速網(wǎng)絡(luò)基礎(chǔ)設(shè)施、太極機器學(xué)習(xí)平臺及公司內(nèi)預(yù)訓(xùn)練研發(fā)力量的深度協(xié)同。
有意思的是,騰訊旗下的智能創(chuàng)作助手文涌(Effidit)在去年12月份更新到了2.0版本,新版文涌包含文本補全、智能糾錯、文本潤色、超級網(wǎng)典四個模塊,其中文本補全和超級網(wǎng)典旨在幫助寫作者在創(chuàng)作時開闊思路、提供彈藥,而智能糾錯和文本潤色則是重在提升創(chuàng)作后的文本水平和質(zhì)量,是不是看起來相當(dāng)熟悉?
京東集團副總裁何曉冬回應(yīng),京東在ChatGPT領(lǐng)域擁有豐富的場景和高質(zhì)量的數(shù)據(jù),例如京東云言犀每天和用戶進行1000萬次的交互,使得算法能夠及時地迭代更新。
何曉冬稱,ChatGPT最大的創(chuàng)新在于文本內(nèi)容生成,ChatGPT通過交互式對話來逐步理清用戶的意圖。尤其是一些比較復(fù)雜的意圖,ChatGPT能夠進行幾輪的人機交互,讓用戶講清楚訴求,ChatGPT也能完全理解用戶意圖并給出相應(yīng)的回答,“整個交互體驗流暢度非常好,再配合ChatGPT文本生成的高完整度,體驗就達到了一個閾值,到了一個令人驚艷的水平”。
在具體落地方面,京東云旗下言犀人工智能平臺,將依托自身十余年智能對話經(jīng)驗的積累,加上在京東零售、物流、金融、健康等各業(yè)務(wù)的多年實踐,日均千萬次智能交互,未來借助ChatGPT等相關(guān)技術(shù)成果,加速人工智能的應(yīng)用落地。
百度ChatGPT項目的名稱和內(nèi)測時間均已確定,根據(jù)百度方面對媒體放出的消息,百度內(nèi)部類似于聊天機器人ChatGPT的項目名字確定為“文心一言”,英文名ERNIEBot,將在3月份完成內(nèi)測,面向公眾開放,目前文心一言正在做上線前的沖刺。
去年9月,百度CEO李彥宏曾表示,人工智能發(fā)展在“技術(shù)層面和商業(yè)應(yīng)用層面,都有方向性改變”。百度在人工智能四層架構(gòu)中,有全棧布局。包括底層的芯片、深度學(xué)習(xí)框架、大模型以及最上層的應(yīng)用(如搜索等),文心一言位于其中的模型層,百度方面表示,ChatGPT是人工智能里程碑,更是分水嶺,這意味著AI技術(shù)發(fā)展到臨界點,企業(yè)需要盡早布局。
AIGC賽道上的中國企業(yè)
ChatGPT并非憑空產(chǎn)生,AI技術(shù)無疑是其背后的依仗,而AIGC則成為其落地的方向,除正在被顛覆的互聯(lián)網(wǎng)搜索模式外,隨著AI寫作、AI作圖、AI底層建模、AI生成視頻和動畫技術(shù)逐漸成熟,AI有望進入新紀元,帶來空前藍海,同時對現(xiàn)有娛樂、傳媒、新聞、建模等應(yīng)用具有顛覆性的創(chuàng)新。在這樣的大背景下,AI處理器廠商、AI商業(yè)算法落地的廠商以及AIGC相關(guān)技術(shù)儲備的應(yīng)用廠商不僅成為ChatGPT生態(tài)崛起紅利的分享者,更是我國AI產(chǎn)業(yè)發(fā)展的基石。
科大訊飛:
2022年初正式發(fā)布“訊飛超腦2030計劃”,其目的是向“全球人工智能產(chǎn)業(yè)領(lǐng)導(dǎo)者”的長期愿景邁進。該計劃是公司的核心戰(zhàn)略,目的是構(gòu)建基于認知的人機協(xié)作、自我進化的復(fù)雜系統(tǒng),即讓機器人感官超越人類,具備自主進化的能力,打造可持續(xù)自主進化的復(fù)雜智能系統(tǒng),助力機器人走進千家萬戶。其計劃分為三個階段性里程碑。
第一階段(2022—2023):推出可養(yǎng)成的寵物玩具、仿生動物等軟硬件一體機器人,同期推出專業(yè)數(shù)字虛擬人家族,擔(dān)當(dāng)老師、醫(yī)生等角色;
第二階段(2023—2025):推出自適應(yīng)行走的外骨骼機器人和陪伴數(shù)字虛擬人家族,老人通過外骨骼機器人能夠?qū)崿F(xiàn)正常行走和運動,同期推出面向青少年的抑郁癥篩查平臺;
第三階段(2025—2030):最終推出懂知識、會學(xué)習(xí)的陪伴機器人和自主學(xué)習(xí)虛擬人家族,全面進入家庭。
談及ChatGPT產(chǎn)品時,科大訊飛回應(yīng)道:“ChatGPT應(yīng)用在C端是有價值的。例如面向個人和老師的學(xué)習(xí)機應(yīng)用,汽車,以及將來醫(yī)療進家庭等。在對話系統(tǒng)的提升中,相關(guān)預(yù)訓(xùn)練模型對教育C端和醫(yī)療C端都有很好的促進作用。在將來面向元宇宙和數(shù)字經(jīng)濟虛擬人的消費類產(chǎn)品中,公司已經(jīng)推出的虛擬人交互平臺,實現(xiàn)多模感知、多維表達和情感貫穿,以及在消費類、聽說各類產(chǎn)品都有望面臨新機會。”
漢王科技:
截至2月9日下午,漢王科技連續(xù)多日漲停,報收35.42元/股。目前漢王科技已形成包括多模式識別、智能人機交互、自然語言理解、智能視頻分析等人工智能產(chǎn)業(yè)鏈關(guān)鍵技術(shù)。據(jù)漢王科技首席數(shù)據(jù)技術(shù)官聶昱介紹:ChatGPT的出現(xiàn)極大地擴展了AI能力的邊界,從而極大地擴展了AI技術(shù)的市場應(yīng)用空間,對于整個人工智能相關(guān)行業(yè)是一個極大的鼓舞。
漢王科技董事會秘書、副總經(jīng)理周英瑜曾在2月1日的特定對象調(diào)研活動中談到,ChatGPT是一個通用的大模型,而生成式模型作為一個黑匣子,仍然具有結(jié)果不可控的特點。相對而言,公司基于自身在NLP技術(shù)領(lǐng)域的全面性以及長期在行業(yè)端的深耕,對不同行業(yè)客戶的數(shù)據(jù)特點、業(yè)務(wù)需求的理解更為深刻,在項目磨煉中,已經(jīng)形成自身獨有的算法模型,更能為行業(yè)客戶提供滿足需求、輸出結(jié)果更為專業(yè)精準的專業(yè)化模型。
云從科技:
云從科技是一家專注于提高人機操作系統(tǒng)和行業(yè)解決方案的人工智能企業(yè),致力于推進人工智能產(chǎn)業(yè)化進程和各行業(yè)的轉(zhuǎn)型升級。一方面公司通過業(yè)務(wù)、硬件設(shè)備、軟件應(yīng)用,為客戶提供數(shù)字化、智能化的人工智能服務(wù)。另一方面,公司基于人機協(xié)同操作系統(tǒng),賦能金融、出行、商業(yè)等場景。公司自主研發(fā)了融合人工智能技術(shù)的人機協(xié)同操作系統(tǒng)和部分AIoT設(shè)備。
云從科技對外表示,從技術(shù)角度看,目前視覺大模型、語音大模型跟自然語言理解大模型是分開的,尚且不存在一個通用的大模型解決全部問題,但ChatGPT在技術(shù)范式上給視覺、語音大模型的發(fā)展帶來很大的能量。單獨看NLP大模型,可以當(dāng)成百科全書來用,在搜索引擎的場景對用戶的幫助是很直接的,不過局限在線上。但在更遠的2024、2025、2026年,我們會發(fā)現(xiàn),把視覺、語音和NLP結(jié)合在一起,變成數(shù)字人,能打通線上和線下,結(jié)合實時與非實時,能夠?qū)崿F(xiàn)問答、伴隨和托管等更多的人機協(xié)作模式,能夠幫助到更多的場景。
無論成敗,ChatGPT將催動新一輪產(chǎn)業(yè)迭代
記者調(diào)查中發(fā)現(xiàn),國內(nèi)短時間大量涌現(xiàn)一批名字中包含“ChatGPT”的微信公眾號、小程序產(chǎn)品。隨手點開微信搜索框就可以發(fā)現(xiàn)一系列與ChatGPT“沾親帶故”的產(chǎn)品,并以ChatGPT的官方圖標為頭像。這些賬號中,有不少注冊時間都是在ChatGPT“出圈”的今年。這些產(chǎn)品的服務(wù)方式大多是,先免費試用,一旦免費次數(shù)用盡就開始收取費用。以“ChatGPT在線”為例,它為用戶提供4次免費對話額度,之后繼續(xù)使用需充值,充值額度分別為9.99元/20次(三個月有效)、99.99元/1300次(半年有效)、199.99元/3000次(一年有效)、999.99元/無限次(一年內(nèi)有效)。而另一款類似的服務(wù)“GPT深藍”也顯示有199元月度會員、399元季度會員、999元年度會員的ChatVIP充值機制,頁面甚至還有“加入代理賺錢”的選項。
對于任何一個短時間爆發(fā)式增長的行業(yè)而言,亂象不可避免,但對于關(guān)注該領(lǐng)域的科技愛好者而言,一定要擦亮眼睛以免誤入歧途。
Web3.0/元宇宙時代內(nèi)容快速增長,依靠PGC/UGC的供給有限,低成本高效率的AIGC將成為重要的內(nèi)容供給方式之一。當(dāng)前ChatGPT、AI繪畫的突出表現(xiàn)打開了人們對于AI生成式內(nèi)容的想象空間,我們推演,AIGC的終極是以AI為內(nèi)核,依場景需求借助一定的硬件形態(tài)呈現(xiàn)出來的垂類硬件,如特斯拉推出的人形機器人等。
在AIGC的廣泛的應(yīng)用場景中,以ChatGPT為代表,其在代碼生成、糾正語法生成文本等方面表現(xiàn)出極強的能力,并憑借“對話式”搜索的強交互模式對現(xiàn)有的搜索引擎造成了較強的沖擊,并影響了現(xiàn)有戰(zhàn)略布局,谷歌內(nèi)部拉響了紅色警報,微軟將ChatGPT整合入Bing搜索,以重塑現(xiàn)有業(yè)務(wù)體系。在此基礎(chǔ)上,ChatGPT試點訂閱制付費模式,將打破原有競價搜索廣告的商業(yè)模式,具有巨大的商業(yè)化潛力,同時也為AI行業(yè)的商業(yè)化路徑做出了更多模式的探索。