張書琛
4月18日,字節(jié)跳動旗下的云服務(wù)平臺火山引擎在其舉辦的“原動力大會”上重磅發(fā)布了多款云產(chǎn)品,其中,全新升級的機器學(xué)習(xí)平臺憑借領(lǐng)先的性能和基于抖音大規(guī)模機器學(xué)習(xí)工程實踐的經(jīng)驗而格外受到外界關(guān)注,也顯示出火山引擎致力于成為AI 大模型訓(xùn)練發(fā)動機的決心。
火山引擎自研DPU發(fā)布
作為云計算和數(shù)字化領(lǐng)域的頭部盛會,火山引擎原動力大會延續(xù)了“敏捷迭代”“數(shù)據(jù)驅(qū)動”“體驗創(chuàng)新”的增長三要素。除了技術(shù)驅(qū)動極致性價比,開放共享和業(yè)務(wù)價值驅(qū)動也是火山引擎始終堅持的做云服務(wù)的理念。
值得注意的是,火山引擎此次發(fā)布的多款技術(shù)產(chǎn)品已經(jīng)被實際應(yīng)用到這場發(fā)布會中,貫穿整個大會,并取得了較為驚艷的效果?;鹕揭嬖瓌恿Υ髸暇烤共捎昧四男┛萍寂c狠活兒,電腦報記者帶你一探究竟。
在這次大會開始之前,電腦報記者作為受邀人,在填寫報名信息后就可以自動生成漫畫風格頭像邀請函。盡管對科技圈人士來說,這已經(jīng)是比較普遍的多模態(tài)生成技術(shù)的應(yīng)用了,市面上基于AI 算法、輸入文字或圖片即可生成相應(yīng)的高質(zhì)量圖片的產(chǎn)品并不少,但火山引擎的優(yōu)勢在于這一智能繪圖產(chǎn)品性能更強可以更快速地出圖。
火山引擎AI 團隊基于Stable Diffusion 模型,利用自研Diffusion Model 蒸餾算法,減少了采樣步數(shù),顯著降低了推理耗時,因此其智能繪圖相對于官方基準模型的出圖速度可以提升4~8倍,且效果更加精細穩(wěn)定。
這種效率的提升首先就應(yīng)用在了字節(jié)旗下的社交短視頻平臺上——去年在抖音上走紅的“AI繪畫”特效,從啟動到上線只有一周左右,模型訓(xùn)練僅由一名算法工程師完成,生成圖片的速度已經(jīng)能控制在5 秒左右。通過采用DataFinder 增長分析平臺為邀請函埋點,火山引擎還能通過數(shù)據(jù)分析,了解受邀客戶對最新技術(shù)及火山引擎產(chǎn)品的關(guān)注度。
火山引擎在生成式AI 賽道的應(yīng)用
經(jīng)過AI算法生成的漫畫風格圖片
拍視頻、拍Vlog是網(wǎng)絡(luò)原住民們記錄生活的最佳方式之一,在大會現(xiàn)場,媒體參與者可以直接通過“智能硬件拍攝+ 云端剪輯”的方式,享受高精度“自動打卡”視頻成片。不僅降低了用戶拍攝Vlog的硬件和技術(shù)門檻,還可以直接連接抖音集團旗下的短視頻平臺,發(fā)布成片,這也是火山引擎音視頻云端一體解決方案的充分展示,對于文旅、營銷、城市文化等行業(yè),這一方案有助于提升游客和用戶的場景體驗,打造文化IP,提升品牌宣傳效果。
在一些不經(jīng)意的角落也可以看出火山引擎在算力調(diào)度上的經(jīng)驗優(yōu)勢。會場中,參會者可以隨時看到展區(qū)即時的人流熱力圖、曲線等,這都是利用展區(qū)部署的攝像頭對展區(qū)人流量及重點區(qū)域停留時間進行識別與分析得到的,所利用的都是火山引擎邊緣云基礎(chǔ)設(shè)施。
音視頻技術(shù)降低Vlog拍攝門檻
在“物聯(lián)網(wǎng)”時代,數(shù)以千億計的設(shè)備將會聯(lián)網(wǎng),包括大量的攝像頭和傳感器,它們既是人類新的眼睛,也是智慧化服務(wù)的基礎(chǔ)。而萬物互聯(lián)時代的基本需求是“低時延、大帶寬、低成本、本地化”,目前帶寬成本和傳輸時延都還是個大問題,邊緣計算正是“解藥”。
火山引擎邊緣云是指以云計算基礎(chǔ)技術(shù)和邊緣異構(gòu)算力結(jié)合網(wǎng)絡(luò)為基礎(chǔ),構(gòu)建在邊緣大規(guī)?;A(chǔ)設(shè)施之上的云計算服務(wù)。火山引擎技術(shù)人員介紹,從用戶到云中心之間所有的算力層都被定義為邊緣云的范疇,包括從現(xiàn)場邊緣、近場邊緣到云邊緣三層,覆蓋5-40ms 時延的范圍,分別提供從用戶現(xiàn)場、本地城市節(jié)點和區(qū)域中心匯聚節(jié)點等的整體邊緣云能力,確保用戶就近接入,可以滿足業(yè)務(wù)超低時延的算力調(diào)度和網(wǎng)絡(luò)轉(zhuǎn)發(fā)能力的需求。
本次大會十幾場主題演講和論壇分享會的直播更能展示出火山引擎在音視頻技術(shù)上的積累。大會的直播間里,火山引擎視頻云、火山同傳、全站加速等產(chǎn)品相繼上陣,無論是在現(xiàn)場還是在線上都能獲得高清流暢的參會體驗。
火山引擎總裁譚待認為,我們現(xiàn)在所處的時代,可以被劃分為“超視頻”時代,互聯(lián)網(wǎng)用戶對視頻有了更極致的需求,不再僅僅滿足于清晰流暢的觀看體驗,而是對高清化、交互性、沉浸式的體驗有了更多訴求。
據(jù)了解,在抖音2022年世界杯直播中,火山引擎支持了累計106億人次的直播觀看,決賽直播觀看人數(shù)更是高達2.3億;高清化方面,火山引擎通過自研BVC編碼器與智能編碼方式,大幅提升直播畫質(zhì);互動方面,火山引擎通過RTC開拓了邊看邊聊互動模式,通過SFU+MCU融合方案,同時兼顧好了用戶規(guī)模和互動體驗;更沉浸方面,火山引擎支持了PICO的VR 直播,基于全真超清顯示技術(shù),讓觀影清晰度提升50%。
隨著需要處理的數(shù)據(jù)體量不斷攀升,音視頻應(yīng)用對計算和存儲架構(gòu)性能的要求也日益嚴苛。尤其在高吞吐量、大數(shù)據(jù)量請求的場景下,需要尋求一種可以經(jīng)濟高效地擴展容量同時又不影響系統(tǒng)性能的方案。
邊緣云的應(yīng)用
火山引擎則在架構(gòu)上探索出了一條創(chuàng)新路徑——通過端云一體的整體架構(gòu),從邊緣基礎(chǔ)設(shè)施的支撐、計算+網(wǎng)絡(luò)的數(shù)字基礎(chǔ)服務(wù)到視頻云的應(yīng)用解決方案提供生產(chǎn)、存儲、處理到分發(fā)的全棧能力。
在大會中,火山引擎也帶來6 款音視頻方向的新產(chǎn)品和相關(guān)升級:火山引擎云游戲產(chǎn)品,提供面向云游戲渲染、試玩和互動的一站式服務(wù);創(chuàng)意互動Vlog,提供全新高精度拍攝和自動成片技術(shù);升級AR 互動營銷方案,優(yōu)化AR try-on和AR 互動能力,打通抖音廣告和電商;WTN(WebRTC傳輸網(wǎng)絡(luò)),幫助客戶實現(xiàn)高清、實時的線上互動體驗;升級數(shù)字人產(chǎn)品,增加支持十多種“外語”,生成趨近于真人的數(shù)字分身;音視頻云端一體解決方案veVOS,幾周內(nèi)即可完成應(yīng)用上線。
文物修復(fù)同樣需要視頻云的算法技術(shù)支撐
以近期火山引擎攜手PICO 技術(shù)實現(xiàn)VR 復(fù)活古籍的VR 互動紀錄片《古籍尋游記》為例,為了保護文物,火山引擎視頻云可以采用神經(jīng)輻射場技術(shù),在不傷害文物的低噪情況下,掃描重建出文物的三維結(jié)構(gòu)。
據(jù)了解,這類VR 視頻制作中,空間建圖是行業(yè)的一個難題,除了模型本身的結(jié)構(gòu)會更復(fù)雜,質(zhì)感想做好也很難。在重建敦煌石窟場景的過程中,火山引擎視頻云團隊由于具備基于視覺、RGBD 數(shù)據(jù)集,以及多模態(tài)數(shù)據(jù)作為支撐,只需要掃描視覺數(shù)據(jù),再融合應(yīng)用SLAM、深度學(xué)習(xí)等技術(shù),就能對場景及其細節(jié)進行更快速和精準的復(fù)刻。
與火山引擎發(fā)布的機器學(xué)習(xí)平臺經(jīng)過抖音等海量用戶業(yè)務(wù)長期打磨的邏輯相同,火山引擎原動力大會上各項技術(shù)的落地亮相,很好地呼應(yīng)了火山引擎對自己的介紹:將字節(jié)跳動快速發(fā)展過程中積累的增長方法、技術(shù)能力和應(yīng)用工具開放給外部企業(yè),幫助企業(yè)構(gòu)建用戶體驗創(chuàng)新、數(shù)據(jù)驅(qū)動決策和業(yè)務(wù)敏捷迭代等數(shù)字化能力,實現(xiàn)業(yè)務(wù)可持續(xù)增長。
作為一朵“新云”,火山引擎如何在競爭激烈的云業(yè)務(wù)賽道另辟蹊徑其實已經(jīng)明晰。正如譚待所言:“不管是今天還是未來,我們都會圍繞著敏捷迭代、數(shù)據(jù)驅(qū)動和體驗創(chuàng)新這三個要素去構(gòu)建產(chǎn)品服務(wù)體系?!北诌@樣的理念,在AI 大模型推動云上創(chuàng)新的大趨勢下,火山引擎能否借力彎道超車,讓我們拭目以待。