国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

九零后中國留學(xué)生開發(fā)出AI“隱身衣”技術(shù)

2020-12-25 06:37胡巍巍
海外星云 2020年15期
關(guān)鍵詞:隱身衣像素算法

胡巍巍

剛剛過去的 2020 年 ECCV(歐洲計(jì)算機(jī)視覺國際會(huì)議),有一項(xiàng) AI“隱身衣”技術(shù)引人矚目。該技術(shù)來自本次會(huì)議收錄的論文《光流 - 邊緣引導(dǎo)的視頻補(bǔ)全》。ECCV 是計(jì)算機(jī)視覺三大會(huì)議之一,每兩年舉辦一次,論文錄取率僅 27%。該論文第一作者高諶是一位九零后北京小伙,目前在弗吉尼亞理工大學(xué)計(jì)算機(jī)工程專業(yè)就讀博士三年級(jí),師從華人教授黃嘉斌。

該研究成果主要是開發(fā)出一項(xiàng) AI 視頻處理算法,其能實(shí)現(xiàn)諸多 “炫彩” 成果:比如正在行駛的車輛,突然人間蒸發(fā);正在坐秋千的小孩,突然只剩下秋千架;正在騎馬的運(yùn)動(dòng)員,跨過欄桿人和馬都不見。這不是變魔術(shù),而是本次 AI 視頻處理算法的功能之一,它依托一種名為光流引導(dǎo)(Optical Flow)的方法。

據(jù)了解,當(dāng)前視頻處理主要面臨幾大難題:補(bǔ)全后的光流難以做到分段光滑,難以保證時(shí)序連續(xù)型,難以在高分辨率下實(shí)現(xiàn)修復(fù),更難以降低視頻對計(jì)算的開銷?;诖?,高諶提出一種以光流邊緣為引導(dǎo)的光流補(bǔ)全技術(shù),再利用補(bǔ)全的光流來完成視頻補(bǔ)全的算法。相比此前方法,該算法可保持運(yùn)動(dòng)邊界的清晰度。

研究起源于在 Facebook 的實(shí)習(xí)

本次研究開始于 2019 年暑假,當(dāng)時(shí)高諶在 臉書實(shí)習(xí),他跟導(dǎo)師黃嘉斌討論后決定了該方向。在查考相關(guān)文獻(xiàn)、并了解該領(lǐng)域的現(xiàn)有問題后,他開始著手算法開發(fā)。該研究的主要原理——光流法是視域中物體運(yùn)動(dòng)檢測的概念,其用于描述運(yùn)動(dòng)所造成的觀測目標(biāo)、表面或邊緣的運(yùn)動(dòng),主要應(yīng)用于計(jì)算機(jī)視覺和影像處理等。使用光流法,可尋到不同幀之間的關(guān)系,并通過在不同幀之間傳播信息來補(bǔ)全視頻。

本次研究主要包含3個(gè)步驟:光流完成、內(nèi)容傳播和融合。第一步是光流完成。具體操作時(shí),要計(jì)算相鄰幀之間的正向光流和反向光流、以及一組非相鄰幀 (Non-local) 的正向光流和反向光流。由于視頻可能出現(xiàn)破損,計(jì)算出的光流也需要補(bǔ)全。另外,因?yàn)楣饬魇欠侄喂饣?,是否能得到一個(gè)銳利光流邊緣,將直接影響最后的光流補(bǔ)全結(jié)果。最終,高諶選擇利用神經(jīng)網(wǎng)絡(luò)來補(bǔ)全光流邊緣,再以光流邊緣為引導(dǎo)補(bǔ)全光流。第二步是內(nèi)容傳播。這時(shí)要按照光流的軌跡,為每個(gè)丟失的像素找到一組候選像素。順著正向光流和反向光流,最多可找到兩個(gè)候選點(diǎn)。而在非局部光流的幫助下,通過檢查三個(gè)額外的幀,可以獲得額外的三個(gè)候選幀。高諶表示,對于每個(gè)候選幀,都要估計(jì)一個(gè)置信分?jǐn)?shù)以及一個(gè)二進(jìn)制有效性指標(biāo)。第三步是融合。使用置信加權(quán)平均值,將每個(gè)缺失像素的候選像素與至少一個(gè)有效候選像素融合。并通過梯度域的操作方式,可避免明顯的拼接裂縫,從而生成無縫的結(jié)果。假如一個(gè)像素沒有任何候選像素,就意味著它無法通過時(shí)間傳播來填充。這時(shí),高諶選擇一個(gè)關(guān)鍵幀,并使用單個(gè)圖像補(bǔ)全技術(shù)來填充它。

可實(shí)現(xiàn)無痕補(bǔ)視頻

本次算法,相比同類算法主要有三大優(yōu)點(diǎn):第一,此前的補(bǔ)全視頻中,用戶可明顯看出視頻 “補(bǔ)過”,“補(bǔ)丁” 邊界處非常明顯。如下圖所示,其結(jié)果往往帶有痕跡,顯得很不自然。而使用本次算法得到的補(bǔ)全視頻,其補(bǔ)全區(qū)域是無痕的。第二,此前用算法給視頻補(bǔ)幀時(shí),只能補(bǔ)到前一幀和后一幀,如果找不到前一幀或后一幀的信息,就會(huì)無法補(bǔ)全。而本次算法,不僅能補(bǔ)全前一幀和后一幀,還能跳著補(bǔ)幀。比如,直接跳到第一幀去借用信息,或者直接跳到最后一幀去借信息,這樣就不局限于上一幀或下一幀。另外,此前方法在處理有周期性運(yùn)動(dòng)物體出現(xiàn)的視頻時(shí)往往比較困難,針對該難題高諶通過引入非局部 ( Non-local ) 信息,來提升視頻修復(fù)的準(zhǔn)確度。第三,以前的算法補(bǔ)出來的光流不是很平滑,往往帶有明顯的接縫。而該團(tuán)隊(duì)的算法主要基于光流邊緣進(jìn)行補(bǔ)全,最終可得到分段光滑的光流。以上三個(gè)原因,讓本次研究的結(jié)果,比以前方法更好。

此外,由于此算法不局限于 GPU 內(nèi)存,所以可處理最高 2K 分辨率的視頻。這種全自動(dòng)的算法,可告別之前手動(dòng)一幀幀地刪除視頻內(nèi)容。眾所周知,機(jī)器學(xué)習(xí)算法的開發(fā)過程費(fèi)時(shí)費(fèi)力,開發(fā)成本高。高諶認(rèn)為,他們的新算法以完全自動(dòng)化的流程取代手工,會(huì)達(dá)到更低的成本。事實(shí)上,機(jī)器學(xué)習(xí)相當(dāng)于優(yōu)化問題的過程,優(yōu)化過程中需要很多 CPU 和 GPU 資源,比如在本次研究中臉書就提供了大量 GPU。所以,算法開發(fā)成本非常高,而算法一旦開發(fā)出來,就可以一勞永逸地進(jìn)行部署,不管多少視頻都能完全自動(dòng)化處理。并且,對于一般視頻剪輯者來說,即便沒有計(jì)算機(jī)知識(shí),也能使用該技術(shù)。

已經(jīng)開源,可供廠商和個(gè)人使用

在肉眼觀感上,依托該算法修復(fù)的視頻,已能做到無痕抹除水印、無痕補(bǔ)全畫面殘缺,在目標(biāo)識(shí)別和影視后期(視頻編輯)中,具有很大應(yīng)用前景。

除用于視頻編輯外,Vlog 創(chuàng)作者們可使用該算法,營造一個(gè)人突然消失的場景;普通用戶則可完成 “美圖秀秀” 式的視頻處理,比如假期旅游拍攝視頻時(shí),可能你本來想拍景點(diǎn),但由于游客太多擋住了景點(diǎn),使用該算法就能把游客刪掉,最終只保留景點(diǎn)本身的視頻。雖然這一過程和刪除圖片中的內(nèi)容很相似,但這里是刪除同一幀視頻中的內(nèi)容,這也是相比照片處理的難度所在。

再就是針對部分內(nèi)容缺失的老舊視頻,該算法能修復(fù)出丟失或破壞的地方。以幾十年前的膠片視頻為例,假如視頻左上角被水淹過,此處就是完全一片黑色,既無顏色也無信息,而使用本次算法,則可補(bǔ)全已缺失部分。具體操作時(shí),如果某一幀有缺失,就得看能否從視頻中的其他幀借到有用信息,也就是 “補(bǔ)丁” 內(nèi)容不是憑空生成,而是本身就在視頻里。這樣補(bǔ)出來的視頻在播放時(shí),就會(huì)非常流暢。

還有一種可能,整個(gè)視頻都找不到可借用部分,那就只能求助另一個(gè)算法,這種方法叫單幀補(bǔ)全,也就是說從其他幀借不到信息,就只能用一個(gè)網(wǎng)絡(luò)來把這一幀缺失的信息補(bǔ)全。這一幀補(bǔ)全的信息,還可以借給其他幀,即先從其他人那借,借不過來就自己生成一些,相當(dāng)于雞生蛋蛋生雞,不斷循環(huán)借出去借回來的過程,直到最后可讓整個(gè)視頻都補(bǔ)全,且播放非常流暢。當(dāng)前的局限在于,算法無法理解視頻的內(nèi)容,它只能借助光流找到信息并把信息補(bǔ)全,這也是當(dāng)前人類 ”摳圖師”的優(yōu)勢所在。

本算法已經(jīng)在 GitHub 開源,任何人都可以免費(fèi)使用。高諶表示,歡迎廠商或其他研究人員把該項(xiàng)目的源代碼合并到軟件中。由于已經(jīng)開源,只要你對視頻編輯感興趣,就能直接用本次研究結(jié)果來做創(chuàng)造性作品。在 DAVIS 數(shù)據(jù)集上,高諶將該成果與已有成果進(jìn)行對比,在峰值信噪比(PSNR,Peak Signal to Noise Ratio,一種評(píng)價(jià)圖像的客觀標(biāo)準(zhǔn))、結(jié)構(gòu)相似性(SSIM,Structural SIMilarity,一種衡量兩幅圖像相似度的指標(biāo),LPIPS)上,均優(yōu)于其他成果。不過,高諶在論文中坦言:“我們的方法運(yùn)行速度為 0.12 fps,(速度)與其他基于光流的方法相當(dāng)...... 我們承認(rèn)運(yùn)行時(shí)間稍慢是個(gè)弱點(diǎn)?!睂Υ?,他表示該成果已經(jīng)開源,因此非常期待圈內(nèi)人士對其進(jìn)行優(yōu)化。

今年 28 歲的高諶,本科時(shí)就讀于俄勒岡州立大學(xué),主修電子與計(jì)算機(jī)工程;碩士來到密歇根大學(xué)安娜堡分校,就讀于電氣與計(jì)算機(jī)工程專業(yè);博士則就讀于弗吉尼亞理工大學(xué)計(jì)算機(jī)工程專業(yè),師從華人教授 Jia-Bin Huang。截止目前,已發(fā)表 7 篇被 ECCV、NeurIPS 等頂會(huì)錄用的論文。2019 年夏季,高諶在 Facebook 計(jì)算攝影組擔(dān)任研究實(shí)習(xí)生。2020 年夏季,則在谷歌安卓相機(jī)算法團(tuán)隊(duì),擔(dān)任研究實(shí)習(xí)生。談及他未來的計(jì)劃,他表示仍然想去企業(yè)工作。

(摘自美《深科技》)(編輯/費(fèi)勒萌)

猜你喜歡
隱身衣像素算法
隱身衣
“像素”仙人掌
Travellng thg World Full—time for Rree
捉迷藏
學(xué)習(xí)算法的“三種境界”
算法框圖的補(bǔ)全
算法初步知識(shí)盤點(diǎn)
高像素不是全部
地球君的隱身衣
地球君的隱身衣
伊春市| 辰溪县| 望奎县| 昌图县| 聂荣县| 恩平市| 宝坻区| 旬阳县| 安义县| 云安县| 改则县| 廊坊市| 濮阳市| 临高县| 萨迦县| 闻喜县| 三河市| 清河县| 朔州市| 迁安市| 中西区| 略阳县| 开阳县| 原阳县| 大兴区| 曲水县| 开封县| 班玛县| 任丘市| 团风县| 乌兰浩特市| 星座| 沅陵县| 西青区| 龙泉市| 安宁市| 平凉市| 乐东| 蒙自县| 秭归县| 南安市|