鄭茂典
攝影技術(shù)的廣泛普及與飛速發(fā)展深刻地改變了大眾的生活,不知不覺中早已對(duì)隨時(shí)隨地拿出手機(jī)拍攝記錄習(xí)以為常。但對(duì)很多人而言,老照片卻承載著心中綿長(zhǎng)的歲月和難忘的回憶,凝滯著時(shí)光與那些不經(jīng)意間被遺忘的美好瞬間,翻閱老照片就像是在與遙遠(yuǎn)過(guò)去進(jìn)行的一場(chǎng)隔空對(duì)話。
昔日舊照的分享也頻登熱門話題榜,帶人們坐上時(shí)光穿梭機(jī),掀起一場(chǎng)又一場(chǎng)的“復(fù)古風(fēng)潮”。但由于年限久遠(yuǎn),早期攝影設(shè)備的技術(shù)受限,手機(jī)搭載的攝像頭像素較低,老照片的清晰度往往不高,許多照片還因經(jīng)過(guò)數(shù)次轉(zhuǎn)載與壓縮導(dǎo)致畫質(zhì)受損嚴(yán)重。
廈門美圖網(wǎng)科技有限公司(以下簡(jiǎn)稱“美圖公司”)深悉用戶需求,2010年成立了核心研發(fā)部門——美圖影像研究院(MT Lab),致力于計(jì)算機(jī)視覺、深度學(xué)習(xí)、計(jì)算機(jī)圖形學(xué)等人工智能(AI)相關(guān)領(lǐng)域的研發(fā),以核心技術(shù)創(chuàng)新推動(dòng)公司業(yè)務(wù)發(fā)展。2019年,美圖影像研究院正式推出人像畫質(zhì)修復(fù)技術(shù),通過(guò)便捷的一鍵操作就能實(shí)現(xiàn)老照片中低畫質(zhì)人像的高清還原。與此同時(shí),還能修復(fù)模糊、失焦以及因壓縮所導(dǎo)致的畫質(zhì)受損等各類低清圖像場(chǎng)景。此后,針對(duì)目前人像畫質(zhì)修復(fù)所面對(duì)的兩個(gè)關(guān)鍵性挑戰(zhàn):其一,如何更好地去除圖像上導(dǎo)致畫質(zhì)受損的噪聲、馬賽克、模糊等影響因素;其二,在人像畫質(zhì)修復(fù)過(guò)程中,如何保留人臉身份信息(identity)并保持人臉不發(fā)生形變。MT Lab持續(xù)迭代升級(jí)AI圖像生成技術(shù),基于深度學(xué)習(xí)方法自主與前沿技術(shù),自主研發(fā)全新生成網(wǎng)絡(luò)結(jié)構(gòu) MTIR-GAN,并在此基礎(chǔ)上憑借美圖數(shù)億量級(jí)數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練學(xué)習(xí),令MTIR-GAN具備優(yōu)異的人像修復(fù)能力。
基于MTIR-GAN的美圖畫質(zhì)修復(fù)算法V2(升級(jí)版),最終實(shí)現(xiàn)了對(duì)睫毛、眉毛、發(fā)絲和膚質(zhì)等臉部細(xì)節(jié)最大限度的還原修復(fù),并保留人臉身份信息(identity)保持人臉不發(fā)生形變。同時(shí),有效解決因圖像多次壓縮所導(dǎo)致的畫質(zhì)受損,以及由于拍攝環(huán)境如夜拍、抓拍和拍攝過(guò)程抖動(dòng)等造成的照片模糊、失焦、噪聲、馬賽克等畫質(zhì)修復(fù)方面的關(guān)鍵問(wèn)題。不僅如此,還通過(guò)算法升級(jí)不斷優(yōu)化美圖自研神經(jīng)網(wǎng)絡(luò)推理框架,有效提升修復(fù)效率,用戶在1.5秒以內(nèi)即可看到單人像修復(fù)后的驚艷效果,最大限度地節(jié)省了用戶的等待時(shí)間。
基于人臉技術(shù)實(shí)現(xiàn)畫質(zhì)效果增強(qiáng)
美圖畫質(zhì)修復(fù)算法V2采取三個(gè)步驟對(duì)待修復(fù)圖像進(jìn)行處理。首先,基于MT Lab的人臉技術(shù)對(duì)人臉點(diǎn)進(jìn)行精準(zhǔn)定位,針對(duì)人臉面部細(xì)節(jié)多,需要精細(xì)化處理的情況,單獨(dú)對(duì)臉部畫質(zhì)進(jìn)行修復(fù)與還原。與此同時(shí),同步對(duì)全圖進(jìn)行去彩噪、去噪、去馬賽克、去jpeg壓縮、去模糊、去輕微抖動(dòng)等畫質(zhì)修復(fù)操作,實(shí)現(xiàn)全圖畫質(zhì)效果的增強(qiáng),其中包括低分辨率修復(fù)和高分辨率增強(qiáng)。此外,針對(duì)分辨率較高的圖像處理耗時(shí)較為嚴(yán)重的問(wèn)題,美圖畫質(zhì)修復(fù)算法V2采取先將待修復(fù)圖縮小到一定尺度,再進(jìn)行分塊、去噪等畫質(zhì)修復(fù)操作,最后通過(guò)guided-filter網(wǎng)絡(luò)結(jié)構(gòu)的畫質(zhì)增強(qiáng)方案將其恢復(fù)為原始分辨率,從而高效提升計(jì)算效率,大幅壓縮處理所需的等候時(shí)長(zhǎng)。上述臉部修復(fù)工作和全圖修復(fù)工作并行處理完成,修復(fù)后的臉部將被貼回圖像中,合成完整的修復(fù)圖。最后,利用超分網(wǎng)絡(luò)對(duì)合成的完整修復(fù)圖進(jìn)行處理,實(shí)現(xiàn)圖像整體畫質(zhì)的清晰度提升。
人臉修復(fù)是美圖畫質(zhì)修復(fù)算法升級(jí)的核心部分,人臉修復(fù)具體流程包括人臉裁框和臉部生成修復(fù)兩個(gè)部分。其一,是基于最小包圍盒矩形框的人臉裁框。MT Lab在人臉裁框上舍棄了以往單純利用眼睛間距進(jìn)行人臉裁切的方式,而采用最小包圍盒矩形框?qū)θ四樳M(jìn)行裁切,以最大限度保證人臉的完整性。其二,是基于MTIR-GAN網(wǎng)絡(luò)設(shè)計(jì)的臉部生成修復(fù)。目前,StyleGAN2可以生成逼真且高清的人臉,但其生成的人臉是隨機(jī)的,因而會(huì)導(dǎo)致人像身份信息發(fā)生改變,無(wú)法直接用于人像畫質(zhì)修復(fù)。對(duì)此,MT Lab通過(guò)自研的Encoder網(wǎng)絡(luò)提取待修復(fù)人像的結(jié)構(gòu)信息和紋理,基于結(jié)構(gòu)信息保持人像五官形狀,防止發(fā)生形變。同時(shí),紋理信息可以用來(lái)引導(dǎo)人像發(fā)絲、膚色、睫毛等細(xì)節(jié)生成,繼而再輸入StyleGAN2的生成網(wǎng)絡(luò),就能夠獲得修復(fù)完好且保留人臉身份信息(identity),保持人臉不發(fā)生形變的人像照片。實(shí)際上,整個(gè)流程即通過(guò)替代StyleGAN2的w+空間向量和輸入其生成網(wǎng)絡(luò)的常量實(shí)現(xiàn)。例如,輸入一張大小為1024×1024像素待修復(fù)的人像圖,經(jīng)過(guò)Encoder網(wǎng)絡(luò)的8次下采樣,可以得到4×4×32的結(jié)構(gòu)特征和512維度的紋理向量,再經(jīng)過(guò)StyleGAN2的生成網(wǎng)絡(luò)即可得到1024×1024像素的修復(fù)臉部圖。損失函數(shù)包括L1 Loss、Perceptual Loss、Identity Loss、Global D Loss、Facial D Loss。通過(guò)修復(fù)后圖像和target求得L1 Loss,L1 Loss可以使圖像恢復(fù)得更加清晰。
Perceptual Loss采用vgg-19網(wǎng)絡(luò)進(jìn)行計(jì)算,可以更好地恢復(fù)人像膚色、質(zhì)感、細(xì)節(jié)等信息。為更好地實(shí)現(xiàn)人像身份信息的保留,采用MT Lab自研的人臉識(shí)別算法對(duì)人像圖進(jìn)行特征提取求得loss。判別網(wǎng)絡(luò)類型主要分為全局和局部,基于該分類可以確保修復(fù)后的人臉呈現(xiàn)更加真實(shí)的狀態(tài),局部五官信息則更加清晰并具有豐富細(xì)節(jié)。其中,全局網(wǎng)絡(luò)采用類似StyleGAN2的合成方法;局部網(wǎng)絡(luò)基于人臉點(diǎn)裁剪出眼睛、嘴巴、眉毛三個(gè)部位,然后統(tǒng)一resize到256×256尺度再輸入判別網(wǎng)絡(luò)求得Loss。
MT Lab深耕AI領(lǐng)域,聚焦技術(shù)應(yīng)用
目前,美圖畫質(zhì)修復(fù)算法V2已于美圖秀秀上線,滿足用戶對(duì)照片修復(fù)的多元需求,在實(shí)現(xiàn)對(duì)人像五官、發(fā)絲、眉毛、睫毛等人臉細(xì)節(jié)的進(jìn)一步優(yōu)化修復(fù),提升皮膚真實(shí)、細(xì)膩質(zhì)感的同時(shí),也解決了在夜間拍攝、昏暗環(huán)境、拍攝抖動(dòng)、抓拍等不同場(chǎng)景下對(duì)畫質(zhì)清晰度提升的關(guān)鍵需求。
MT Lab在自研人像畫質(zhì)修復(fù)算法上實(shí)現(xiàn)了優(yōu)化升級(jí)與不斷突破,作為美圖公司的頂級(jí)研發(fā)團(tuán)隊(duì),在人臉技術(shù)、美顏技術(shù)、美妝技術(shù)、人體技術(shù)、圖像分割、圖像生成等多個(gè)技術(shù)領(lǐng)域處于世界先進(jìn)水平,以核心技術(shù)創(chuàng)新推動(dòng)美圖公司的業(yè)務(wù)發(fā)展,并通過(guò)美圖AI開放平臺(tái)與行業(yè)共享AI領(lǐng)域最前沿的專業(yè)算法服務(wù)與解決方案。
在影像科技智能化領(lǐng)域,美圖公司的布局和探索背后離不開優(yōu)秀人才的投入和創(chuàng)新,通過(guò)AI人才激勵(lì)與引入計(jì)劃,持續(xù)引導(dǎo)AI人才生態(tài)的完整化。在人才培養(yǎng)方面,美圖公司致力于構(gòu)建頂尖技術(shù)研發(fā)團(tuán)隊(duì),注重人才培養(yǎng),在北京、深圳、廈門等城市均設(shè)立研發(fā)團(tuán)隊(duì),成員來(lái)自于新加坡國(guó)立大學(xué)、復(fù)旦大學(xué)、廈門大學(xué)、華中科大等國(guó)內(nèi)外頂尖高校碩博人才。多年來(lái),美圖公司堅(jiān)守影像產(chǎn)業(yè),不斷科技創(chuàng)新,根據(jù)國(guó)家戰(zhàn)略需要和行業(yè)發(fā)展趨勢(shì),持續(xù)加大研發(fā)投入,開展關(guān)鍵核心技術(shù)攻關(guān),將公司長(zhǎng)期積累的技術(shù)優(yōu)勢(shì)轉(zhuǎn)化為新發(fā)展動(dòng)能,為用戶和行業(yè)提供更好的產(chǎn)品與服務(wù),持續(xù)提升自身核心競(jìng)爭(zhēng)力。目前,美圖公司已注冊(cè)專利451項(xiàng),持有軟件產(chǎn)品著作權(quán)192項(xiàng),在AI領(lǐng)域取得多項(xiàng)榮譽(yù)和技術(shù)突破。美圖公司已逐步形成了由底層、中間層和應(yīng)用層構(gòu)建的人工智能產(chǎn)品生態(tài),通過(guò)生態(tài)的結(jié)構(gòu),持續(xù)為用戶帶來(lái)更優(yōu)質(zhì)的影像體驗(yàn)。作為一家人工智能的科技公司,美圖公司聚焦“生產(chǎn)力和全球化”戰(zhàn)略,堅(jiān)持科技創(chuàng)新與產(chǎn)品引領(lǐng),通過(guò)不斷探索和精耕用戶向、行業(yè)向的影像數(shù)字化解決方案,為用戶提供了更好的服務(wù)體驗(yàn)。
2023年1月,中國(guó)非游戲廠商出海收入排行榜,美圖公司排名第4位;2023上半年,美圖秀秀蟬聯(lián)中國(guó)圖片美化賽道用戶規(guī)模第一名,美顏相機(jī)蟬聯(lián)中國(guó)拍照攝影賽道用戶規(guī)模第一名,美圖秀秀、美顏相機(jī)斬獲全球多個(gè)國(guó)家的應(yīng)用市場(chǎng)總榜冠軍。截至2023年6月,美圖公司月活躍用戶數(shù)為2.47億,其中海外月活躍用戶數(shù)約7369萬(wàn),產(chǎn)品和服務(wù)覆蓋全球200多個(gè)國(guó)家和地區(qū)。