頓雄,付強,李浩天,孫天成,王建,孫啟霖
1. 同濟大學,上海 200092; 2. 阿卜杜拉國王科技大學,麥加 239556900,沙特阿拉伯;3. 奕目(上海)科技有限公司,上海 200240; 4. Google, 華盛頓州 98103,美國; 5. Snap Research,紐約 10036,美國;6.香港中文大學(深圳),深圳 518172; 7. 點昀技術(深圳、南通)有限公司,深圳 518172,南通 226007
物理空間中包含有多種維度的信息,例如光源光譜、反射光譜、偏振態(tài)、3維形態(tài)、光線角度和材料性質(zhì)等。而成像系統(tǒng)最終成得的像取決于光源光譜、光源位置、物體表面材料的光學性質(zhì)如雙向投射/散射/反射分布函數(shù)以及物體3維形態(tài)等。然而,傳統(tǒng)的光學成像依賴于以經(jīng)驗驅(qū)動的光學設計,旨在優(yōu)化點擴散函數(shù)(point spread function, PSF)、調(diào)制傳遞函數(shù)(modulation transfer function,MTF)等指標,目的是使得在探測器上獲得更清晰的圖像、更真實的色彩。通?!八娂此谩?,多維信息感知能力不足。隨著光學、新型光電器件、算法和計算資源的發(fā)展,可將它們?nèi)跒橐惑w地計算成像技術,逐步解放了人們對物理空間中多維度信息感知的能力。與此同時,隨著顯示技術的發(fā)展,特別是3D甚至6D電影,虛擬現(xiàn)實(vitual reality,VR)/增強現(xiàn)實(augmented reality,AR)技術的發(fā)展,給多維度信息提供了展示平臺。以目前對物理尺度限制嚴格的手機為例,手機廠商正與學術界緊密結(jié)合。算法層面如高動態(tài)范圍成像、低照度增強、色彩優(yōu)化、去馬賽克、噪聲去除甚至是重打光逐步應用于手機中,除去傳統(tǒng)的圖像處理流程,神經(jīng)網(wǎng)絡邊緣計算在手機中日益成熟。光學層面如通過非球面乃至自由曲面透鏡優(yōu)化像差,通過優(yōu)化拜爾(Bayer)濾光片平衡進光量和色彩。
本文圍繞端到端光學算法聯(lián)合設計、高動態(tài)范圍成像、光場成像、光譜成像、無透鏡成像、偏振成像、低照度成像、主動3維成像和計算攝影等具體實例全面闡述當前計算成像發(fā)展現(xiàn)狀、前沿動態(tài),熱點問題、發(fā)展趨勢和應用指導。任務框架如圖1所示。
圖1 計算成像的任務Fig.1 The task of computational imaging
端到端光學算法聯(lián)合設計(end-to-end camera design)是近年來新興起的熱點分支,對一個成像系統(tǒng)而言,通過突破光學設計和圖像后處理之間的壁壘,找到光學和算法部分在硬件成本、加工可行性、體積重量、成像質(zhì)量、算法復雜度以及特殊功能間的最佳折中,從而實現(xiàn)在設計要求下的最優(yōu)方案。端到端光學算法聯(lián)合設計的突破為手機廠商、工業(yè)、車載、空天探測和國防等領域提供了簡單化的全新解決方案,在降低光學設計對人員經(jīng)驗依賴的同時,將圖像后處理同時自動優(yōu)化,為相機的設計提供了更多的自由度,也為光學系統(tǒng)輕量化和實現(xiàn)特殊功能提供了全新的解決思路。
光場成像(light field imaging,LFI)能夠同時記錄光線的空間位置和角度信息,是3維測量的一種新方法,逐漸成為一種新興的非接觸式測量技術。自攝影發(fā)明以來,圖像捕捉就涉及在場景的2維投影中獲取信息。然而,光場不僅提供2維投影,還增加了另一個維度,即到達該投影的光線的角度。光場具有關于光陣列方向和場景2維投影的信息,并且可以實現(xiàn)不同的功能。例如,可以將投影移動到不同的焦距,這使用戶能夠在采集后自由地重新聚焦圖像。此外,還可以更改捕獲場景的視角,已逐漸應用于工業(yè)、虛擬現(xiàn)實、生命科學和3維流動測試等領域,幫助快速獲得真實的光場信息和復雜3維空間信息。
光譜成像(spectrum imaging)由傳統(tǒng)彩色成像技術發(fā)展而來,能夠獲取目標物體的光譜信息。每個物體都有自己獨特的光譜特征,就像每個人擁有不同的指紋一樣,光譜也因此被視為目標識別的“指紋”信息。通過獲取目標物體在連續(xù)窄波段內(nèi)的光譜圖像,組成空間維度和光譜維度的數(shù)據(jù)立方體信息,可以極大地增強目標識別和分析能力。光譜成像可作為科學研究、工程應用的有力工具,已經(jīng)廣泛應用于軍事、工業(yè)和民用等諸多領域,對促進社會經(jīng)濟發(fā)展和保障國家安全具有重要作用。例如,光譜成像對河流、沙土、植被和巖礦等地物都有很好的識別效果,因此在精準農(nóng)業(yè)、環(huán)境監(jiān)控、資源勘查和食品安全等諸多方面都有重要應用。光譜成像還有望用于手機、自動駕駛汽車等終端。當前,光譜成像已成為計算機視覺和圖形學研究的熱點方向之一。
無透鏡成像(lensless imaging)技術為進一步壓縮成像系統(tǒng)的尺寸提供了一種全新的思路(Boominathan等,2022)。傳統(tǒng)的成像系統(tǒng)依賴點對點的成像模式,其系統(tǒng)極限尺寸仍受限于透鏡的焦距、孔徑和視場等核心指標。無透鏡成像摒棄了傳統(tǒng)透鏡中點對點的映射模式,將物理空間的點投影為像空間的特定圖案,不同物點在像面疊加編碼,形成一種人眼無法識別,但計算算法可以通過解碼復原圖像信息。其在緊湊性方面具有極強的競爭力,而且隨著解碼算法的發(fā)展,其成像分辨率也得到大大提升。因此,在可穿戴相機、便攜式顯微鏡、內(nèi)窺鏡和物聯(lián)網(wǎng)等應用領域極具發(fā)展?jié)摿?。另外,其獨特的光學加密功能,能夠?qū)δ繕酥忻舾械纳镒R別特征進行有效保護,在隱私保護的人工智能成像方面也具有重要意義。
低光照成像(low light imaging)也是計算攝影里的研究熱點一。手機攝影已經(jīng)成為人們用來記錄生活的常用方式之一,手機夜景模式也成為各大手機廠商爭奪的技術要點。不同手機的相機在白天的強光環(huán)境下拍照差異并不明顯,然而在夜晚弱光情況下則差距明顯。其原因是成像依賴于鏡頭收集物體發(fā)出的光子,且傳感器在光電轉(zhuǎn)換、增益和模數(shù)轉(zhuǎn)換等一系列過程中會有不可避免的噪聲;白天光線充足,信號的信噪比高,成像質(zhì)量很高;晚上光線微弱,信號的信噪比下降數(shù)個數(shù)量級,成像質(zhì)量低;部分手機搭載使用計算攝影算法的夜景模式,比如基于單幀、多幀、RYYB(red,yellow,yellow,blue)陣列等的去噪,有效地提高了照片的質(zhì)量。但目前依舊有很大的提升空間。
主動3維成像(active 3D imaging)以獲取物體或場景的點云為目的,被動方法以雙目立體匹配為代表,但難以解決無紋理區(qū)域和有重復紋理區(qū)域的深度。主動光方法一般更為魯棒,能夠在暗處工作,且能夠得到稠密的、精確的點云。主動光方法根據(jù)使用的光的性質(zhì)可分為結(jié)構(gòu)光、基于光速如TOF(time-of-fligt),包括連續(xù)波TOF(indirect TOF, iTOF)和直接TOF(direct TOF, dTOF),和基于光的波的性質(zhì)如干涉儀,其中前兩種方法的主動3維成像已廣泛使用在人們的日常生活中。雖然主動方法通過打光的方式提高了準確性,但也存在由于環(huán)境光、多路徑干擾引起的問題,這些都在近些年的研究過程中有了很大的改進。
計算攝影學(computational photography)是計算成像的一個分支學科,從傳統(tǒng)攝影學發(fā)展而來。傳統(tǒng)攝影學主要著眼于使用光學器件更好地進行成像,如佳能、索尼等相機廠商對于鏡頭的研究;與之相比,計算攝影學則更側(cè)重于使用數(shù)字計算的方式進行圖像拍攝。隨著移動端設備計算能力的迅速發(fā)展,手機攝影逐漸成為計算攝影學研究的主要方向:在光學鏡片的物理尺寸、成像質(zhì)量受限的情況下,如何使用合理的計算資源,繪制出用戶最滿意的圖像。計算攝影學在近年得到了長足的發(fā)展,其研究問題的范圍也所有擴展,如夜空攝影、人臉重光照和照片自動美化等。其中重點介紹:自動白平衡、自動對焦、人工景深模擬以及連拍攝影算法。篇幅所限,本文僅介紹目標為還原拍攝真實場景的真實信息的相關研究。
相機的設計在圖像質(zhì)量之間進行了復雜的權衡(例如,銳度、對比度和色彩保真度), 并對其實用性、成本、外形尺寸和重量等因素進行了綜合考量。一般的,高質(zhì)量成像系統(tǒng)需要多個光學元件來消除各種像差。傳統(tǒng)的設計過程通常是依賴如ZEMAX 和 Code V 這樣的光學設計輔助工具,基于評價函數(shù)對圖像區(qū)域、景深或縮放范圍等進行對點擴散函數(shù)綜合設計。其設計過程需要大量的光學設計經(jīng)驗,對點擴散函數(shù)的設計通常忽略了后續(xù)圖像處理操作、具體應用場景,或者需要在圖像中編碼額外信息。因此,如何整體優(yōu)化成像系統(tǒng)、降低對研發(fā)人員依賴、在成本與效果間尋找最佳折中以及針對特定任務為光學和算法找到聯(lián)合最優(yōu)解逐漸成為研究熱點。
光學、算法聯(lián)合設計(Peng等,2019;Sun等,2018),數(shù)據(jù)驅(qū)動的端到端設計(Sitzmann等,2018)正在構(gòu)建起光學設計和圖像后處理之間的橋梁。光學算法聯(lián)合設計已經(jīng)在深度估計(Haim等,2018;Chang和Wetzstein,2019;Wu等,2019b)、大視場成像(Peng等,2019)、大景深成像(Chang和Wetzstein,2019)、對SPAD(single photo avalanche diode)傳感器最優(yōu)化光學采樣(Sun等,2020b)、高動態(tài)范圍成像(Sun等,2020a;Metzler等,2020)、高光譜和深度成像(Baek等,2021)取得了巨大的成功。Chang等人(2018)將端到端光學算法聯(lián)合設計應用到了圖像分類。然而,其可微光學模型仍局限在單層可微、傍軸近似以及單種光學材料的衍射光學元件(diffractive optical element,DOE),極大地限制了其設計空間。最近,基于神經(jīng)網(wǎng)絡模擬(Tseng等,2021)、可微光線追蹤模擬點擴散函數(shù)(Halé等,2021)的復雜透鏡的端到端設計方法,以及基于可微光線追蹤、跳過點擴散函數(shù)直接構(gòu)建光學參數(shù)與最終圖像之間的可微關系(Sun等,2021b;Sum,2021c)將端到端相機設計推向了新的高度。
1.2.1 高動態(tài)范圍成像原理
高動態(tài)范圍成像數(shù)據(jù)獲取主要有6種方法,對圖像傳感器本身而言,其動態(tài)范圍(dynamic range, DR)可表示為
式中,Qsat代表阱容量,idc代表底電流,tint代表曝光時間,σ代表噪聲。1)可以通過提高感光肼Qsat來實現(xiàn)HDR,但容易使得響應變?yōu)榉蔷€性,處理難度變大。2)多次曝光融合,即用長短曝光結(jié)合來獲取更亮和更暗處的細節(jié)。3)通過多傳感器長短曝光信息融合實現(xiàn)HDR成像。4)單幀空域曝光的光強調(diào)制,即對一些像素光強進行衰減,此方法會犧牲一定分辨率,但在實際使用中有低成本、穩(wěn)定和易量產(chǎn)等優(yōu)點,已得到產(chǎn)業(yè)應用。5)動態(tài)光強調(diào)制,通過模仿人眼視網(wǎng)膜側(cè)抑制效應,對亮處信息降低感光度,對暗處信息增加曝光度,實現(xiàn)局部自適應;或者將亮處暗處信息搬移到傳感器可響應的位置。6)特殊成像器件,包括QIS(quanta image sensor)(Gnanasambandam和Chan,2020)、SPAD陣列傳感器(Zarghami等,2019)、Two Bucket Camera(Wei等,2018)、對數(shù)圖像傳感器(Kavadias等,2000;Frank,2018)和分離像素(Liu等,2011;Asatsuma等,2019)等。
1.2.2 圖像傳感器中的HDR成像技術與產(chǎn)業(yè)化
目前,國際主流傳感器廠商如索尼、三星、豪威、安森美等均具有HDR傳感器產(chǎn)品,通常動態(tài)范圍可達120 dB,特殊模式下可達140 dB。其主要已量產(chǎn)方案有BME(binned multiplexed exposure)隔行長短曝光方案、SEM(spatially multiplexed exposure)棋盤格排列長短曝光方案(Nayar和Mitsunaga,2000;Hanwell等,2020;McElvain等,2021)、QBC(quad bayer coding)的四子像素方案(Gluskin,2020;Okawa等,2019;Jiang等2021)、DOL(digital overlap)/交錯HDR(staggered HDR)長短曝光準同時輸出方案、DCG(dual conversion gain)HDR對同一像素使用兩路信號增益、分離像素(split/sub pixel)等。
1.2.3 基于光強調(diào)制的HDR成像技術
基于光強調(diào)制的HDR成像技術通常包括靜態(tài)光強調(diào)制和動態(tài)光強調(diào)制技術。靜態(tài)的基于濾光片衰減調(diào)制,包括使用3×3中性密度濾光片(Manakov等,2013)從而實現(xiàn)18擋(108 dB)的動態(tài)范圍,2×2塊衰減多次曝光(Suda等,2021)和上文所述BME,SEM,QBC等方案。Alghamdi等人(2021)通過將深度學習訓練出的掩膜貼至傳感器表面結(jié)合恢復算法來實現(xiàn)HDR圖像的獲取。Metzler等人(2020)通過直接學習衍射光學元件調(diào)制點擴散函數(shù)來實現(xiàn)對高亮信息的獲取,但結(jié)果仍存在較大缺陷。與此同時,Sun等人(2020a)通過低秩衍射元件分解有效解決了DOE訓練難以收斂的問題,并實現(xiàn)了全局信息的調(diào)制,從而實現(xiàn)了對動態(tài)范圍8檔的擴展,峰值信噪比(peak signal to noise ratio,PSNR)相較以往方法提升大于7 dB,HDR-VDP2指標提升大于6個百分點。偏振相機是近年來問世的新產(chǎn)品,在傳統(tǒng)的傳感器基礎上疊加4個角度的線偏振片。自然光在不同的偏振角度上會對應不同程度的衰減,根據(jù)這個原理可融合生成HDR圖像(Wu等,2020b;Ting等;2021)。
動態(tài)光強調(diào)制技術通過使用LCD/LCOS/DMD來對空間中不同的光強加以調(diào)制(Yang等,2014;Feng等,2016,2017;Mazhar和Riza等,2020;Niu等,2021;Martel等,2020;Martel和Wetzstein,2021;Guan等,2021),并通過一定的反饋來對強光抑制,弱光增強,從而實現(xiàn)更大的動態(tài)范圍。
1.2.4 基于多幀融合的HDR成像技術
多次曝光融合(Debevec和Malik,1997,2008;Grossberg和Nayar,2003;Hasinoff等,2010;Mann和Picard,1995;Mertens等,2009;Reinhard等,2010)在消費電子、車規(guī)級HDR傳感器中取得了廣泛的應用。更快速地HDR融合技術(Hasinoff等,2016;Heide等,2014;Mildenhall等,2018)實現(xiàn)了對低照度處理、噪聲去除等,從而提高HDR圖像質(zhì)量。
多次曝光融合面臨著運動模糊問題的巨大挑戰(zhàn),故而HDR圖像縫合(Kang等,2003;Khan等,2006)、光流法(Liu,2009)、塊匹配(Gallo等,2009;Granados等,2013;Hu等,2013;Kalantari等,2013;Sen等,2012)和深度學習(Kalantari和Ramamoorthi,2017,2019)使得HDR視頻變成了可能。但此類方法通常后續(xù)處理過度消耗計算資源,限制了其應用場景。
1.2.5 基于多傳感器的HDR成像技術
多傳感器HDR成像是利用多個探測器在不同曝光程度和增益下獲取圖像,通過去畸變、單應性變換等手段對齊,而后融合實現(xiàn)HDR。早在2001年,Aggarwal和Ahuja(2001,2004)通過分光片和兩個傳感器不同程度曝光的方法來實現(xiàn)HDR成像。此后,多種類似HDR成像技術(Tocci等,2011;McGuire等,2007)相繼提出完善。Kronander等人(2014)提出了一種統(tǒng)一的多傳感器實時HDR重建的架構(gòu)。Yamashita和Fujita(2017)采用復雜的分光系統(tǒng)實現(xiàn)了四傳感器融合HDR成像。此外,芬蘭JAI公司2012年推出了2-CCD的HDR相機,動態(tài)范圍可達120 dB,但目前已停產(chǎn)。Seshadrinathan和Nestares(2017)提出了2×2陣列式HDR融合相機。類似的,Huynh等人(2019)在此基礎上引入偏光片,進一步提高了HDR成像質(zhì)量。目前為止,相關技術產(chǎn)品僅有少量型號產(chǎn)品問世??紤]近期多攝手機畫質(zhì)提升需求,多傳感融合實現(xiàn)HDR方案具有潛在的應用可能,但仍需克服多傳感器配準算法復雜度和手機算力功耗之間的矛盾,目前主流方案有立體匹配(需出廠標定)或通過光流來對齊像素(算力消耗大)。不過,隨著低延時傳輸和云計算的發(fā)展,或深度相機在手機中的廣泛應用和分辨率提升,多傳感融合方案將逐步于市場推廣。
1.2.6 高動態(tài)范圍圖像重建
HDR圖像重建主要有多次曝光融合和逆色調(diào)映射以及其他調(diào)制型HDR成像重建方案。
多次曝光融合是當前消費、工業(yè)等領域主流的HDR成像方案。Goshtasby(2005)的方案局部色彩和對比度不發(fā)生變化,但圖像尺寸僅適用于固定情況。Rovid等人(2007)提出基于梯度的融合方案,可從較差的多幀不同曝光圖中重建較高質(zhì)量HDR圖像,但僅限于黑白圖像。Varkonyi-Koczy等人(2008)實現(xiàn)了高質(zhì)量HDR彩圖重建,但僅限于靜態(tài)圖像。Mertens等人(2009)實現(xiàn)了更多圖像的融合但處理速度較慢。Gu等人(2012)對梯度場實現(xiàn)了高速高效的融合,但僅限于對慢速移動的物體。Li等人(2012)通過二次優(yōu)化,可在實現(xiàn)HDR成像的基礎上增強細節(jié)獲取能力,但對過曝部分處理欠佳。Song等人(2012)實現(xiàn)了基于概率的融合方案,表現(xiàn)優(yōu)于以往的方法。Shen等人(2013)提出了基于感知質(zhì)量測量的融合方法,實驗上比以往表現(xiàn)更優(yōu),但判據(jù)對多圖像源難以拓展。Ma等人(2015)提出了對一般圖像融合的算法。Huang等人(2018a)、Huang等人(2018b)提出了一種新的彩圖融合方法,比以往更好地保留圖像細節(jié),但仍無法應用于動態(tài)場景。Kinoshita等人(2018)通過曝光補償,統(tǒng)計上更接近自然圖像,但難以清晰地確定合適的曝光值。
逆色調(diào)映射是恢復HDR圖像的一種常見方法。Larson等人(1997)提出了色調(diào)響應曲線(tonal response curve,TRC),對大部分圖像有效,但僅限于對視覺效果提升。Durand和Dorsey(2000)解決了色調(diào)映射中的一些關鍵問題,但相比當時最新算法速度較慢。Reinhard等人(2002)提出了區(qū)域自動減淡加深系統(tǒng),可很好地適應大部分HDR圖像。Landis(2002)提出了全局擴展的方法,利用指數(shù)函數(shù)對SDR圖像超過閾值部分處理構(gòu)建HDR圖像,但整體處理效果欠佳。Banterle等人(2006)應用Reinhard等人(2002)的方法來實現(xiàn)對SDR圖像的擴展。Akyüz等人(2007)實現(xiàn)了簡單的線性擴展,但無法有效增強過曝部分細節(jié)。Kovaleski和Oliveira(2009)可提升過曝部分的細節(jié),但會帶來色彩失真,無法真正解決過暗過亮部分細節(jié)問題。Kinoshita等人(2017)實現(xiàn)了高相似度低計算復雜度的方法。近年來,隨著深度學習技術的發(fā)展,逆色調(diào)映射得到了長足的進步,代表性方法有Eilertsen等人(2017)提出的HDR-CNN,在過飽和區(qū)細節(jié)丟失問題得到部分解決,但動態(tài)范圍擴展能力有限。緊接著,多種基于卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)的算法相繼提出(Zhang等,2017;Endo等,2017;Moriwaki等,2018;Marnerides等,2018,2020;Lee等,2018b;Khan等,2019;Santos等,2020;Choi等,2020;Han等,2020)。最近,Sharif等人(2021)提出了兩步神經(jīng)網(wǎng)絡的逆映射方法,Chen等人(2020)結(jié)合逆色調(diào)映射和去噪,Marnerides等人(2021)提出基于生成對抗網(wǎng)絡的逆色調(diào)映射方法來填充過暗過曝部分損失的信息。此類方法繁多,近年來取得了巨大的進步,已有少量低計算復雜度算法應用于產(chǎn)業(yè)界。
1.2.7 高動態(tài)范圍圖像顯示處理
通過對圖像局部對比度的調(diào)整,色調(diào)映射實現(xiàn)了動態(tài)范圍的圖像到較小動態(tài)范圍的顯示設備上的映射。傳統(tǒng)的色調(diào)映射算法一般可分為全局即空間不變算法(Schlick,1995;Tumblin和Turk,1999;Reinhard等,2002)、局部即變化算法(Drago等,2003;Kim等,2011;Durand和Dorsey,2002)、基于圖像分割的算法(Lischinski等,2006;Ledda等,2004)、基于梯度的算子(Tumblin等,1999;Banterle等,2011;Yee和Pattanaik,2003;Krawczyk等,2005)等。傳統(tǒng)的色調(diào)映射算法通常對參數(shù)較為敏感,但對于算力受限的場景有著較大的優(yōu)勢。最近的方法傾向于利用深度神經(jīng)網(wǎng)絡來實現(xiàn)無參數(shù)的算法來解決參數(shù)敏感和泛化的問題。Hou等人(2017)利用深層特征連續(xù)和深度圖像變換訓練CNN來實現(xiàn)色調(diào)映射。Gharbi等人(2017)利用雙邊網(wǎng)格實現(xiàn)了實時的增強。近年來,利用conditional-GAN一定程度獲得了更佳的效果(Cao等,2020;Montulet等,2019;Panetta等,2021;Patel等,2017;Rana等,2019;Zhang等,2019a)。Vinker等人(2021)實現(xiàn)了非配對的數(shù)據(jù)訓練的HDR色調(diào)映射。
光場(Gershun,1939)描述了光線在3維自由空間內(nèi)的分布情況,由7維全光函數(shù)定義。Gabor(1948)使用相干光干涉效應得到了世界首張全息圖,包含了光線的方向和位置信息,可以視為簡化的光場圖像。Adelson等人(1992)搭建了光場相機模型,通過分析子圖像陣列的視差初步估計其深度信息。Levoy和Hanrahan(1996)陸續(xù)完成了光場的參數(shù)化定義的簡化,設計了光場相機陣列(Wilburn等,2005)來采集光場和進行渲染處理。Ng等人(2005)實現(xiàn)了先成像后聚焦的手持式非聚焦型光場相機。同時還表明光場相機能夠產(chǎn)生視差,這為3D測量和3D重建應用提供了新的可能性。Levoy等人(2006,2009)開發(fā)了光場顯微鏡,成功測出生物體的3維結(jié)構(gòu)。Lumsdaine和Georgiev(2008,2009)基于Ng等人(2005)的工作,提出了微透鏡陣列位于主透鏡的像空間焦平面后的聚焦型光場相機。光場3維成像技術在近些年快速發(fā)展,已廣泛用于工程測試領域,例如粒子圖像測速技術(Fahringer等,2015;Fahringer和Thurow,2018;Shi等,2016a,2017,2018b)、火焰3維溫度場測量(Sun等,2016)、多光譜溫度測量(Luan等,2021)以及物體3維形貌測量(Chen和Pan,2018;Shi等,2018a;Ding等,2019)等。本文主要針對基于光場的3維重建技術以及基于光場的粒子圖像測速技術進行簡要介紹。
1.3.1 基于光場成像的3維重建技術
眾多學者對光場3維重建進行了相關研究(Wu等,2017b;Zhu等,2017b)。光場相機校準、光場深度估計以及光場超分辨率是光場3維重建的關鍵流程。
光場超分辨率大致分為空間、角度以及空間與角度超分辨率。包括基于投影模型、先驗假設優(yōu)化以及深度學習的方法(Cheng等,2019a):1)基于投影模型的光場圖像的超分辨率:利用了不同視角光場子孔徑圖像之間的像素偏移信息。Lim等人(2009)利用角度數(shù)據(jù)中的冗余信息實現(xiàn)了光場空間超分辨率。Georgiev等人(2011)提出在投影模型中進行像素點匹配以得到亞像素偏移,將光場子圖像的分辨率提高了兩倍。2)基于先驗假設的方法針對遮擋反光等因素做出先驗模型假設,結(jié)合4D光場結(jié)構(gòu)建立數(shù)學或幾何模型,通過優(yōu)化框架求解得到超分辨的光場圖像。Rossi和Frossard(2017)采用類似多幀超分辨率的方法,提出了一種將多幀范式與圖正則化器耦合起來的模型框架,并利用不同視圖來增強整個光場的空間分辨率。針對噪聲問題,Alain和Smolic(2018)提出了一種結(jié)合BM3D(block-matching and 3D filtering)稀疏編碼的單圖像超分辨率濾波器(Egiazarian和Katkovnik,2015)和用于光場圖像去噪聲的LFBM5D濾波器(Alain和Smolic,2017),實現(xiàn)了性能良好的圖像空間超分辨率。3)基于深度學習的方法通過搭建神經(jīng)網(wǎng)絡對光場數(shù)據(jù)進行端到端訓練,來實現(xiàn)光場超分辨率。Yoon等人(2015)利用深度學習的方法同時對其角度分辨率和空間分辨率上采樣,得到相鄰視圖間的新穎視圖,對子孔徑圖像的細節(jié)實現(xiàn)了增強。
隨著光場理論的不斷發(fā)展,通過光場圖像計算場景深度信息的方法不斷推出。光場合成數(shù)據(jù)集網(wǎng)站4D Light Benchmark(Vaish等,2004;Johannsen等,2017)進一步加速推動了光場深度算法的發(fā)展。根據(jù)獲取視差信息方法的不同,一般可分為:基于子圖像匹配點的算法、基于EPI(epipolar image)的方法、聚焦/散焦算法以及基于深度學習的方法。最具代表性的方法就是基于外極線(epipolar iine)圖像深度估計算法(EPI)。Johannsen等人(2017)首次提出基于外極線圖像的方法進行光場相機深度計算。利用結(jié)構(gòu)感知機,Wanner和Goldluecke(2014)計算了外極線圖像斜率,并利用快速濾波算法優(yōu)化視差圖。另一種較為主流的方法是由Tao等人(2013)提出的基于重聚焦和相關性原理的深度估計算法,并且通過基于增加陰影信息和遮擋信息進一步發(fā)展完善該算法(Wang等,2016a),具有較高的計算精度,并且對噪聲、非朗伯體表面和遮擋情況進行了優(yōu)化。Williem和Park(2016)提出了基于一種角度熵和自適應的重聚焦算法,優(yōu)化了深度估計結(jié)果。韓國科學技術院(Korea Advanced Institute of Science and Technology, KAIST)的Jeon等人(2015)提出了基于相移的多視角深度算法,利用光場全部視角信息計算深度圖像,并基于機器學習優(yōu)化得到了精度更高的視差圖(Jeon等,2019a)。Neri等人(2015)使用基于多尺度自適應窗口變化的局部梯度算子進行視差計算,提出了RM3DE(multi-resolution depth field estimation)算法,提高了深度估計速度。Strecke等人(2017)提出了OFSY_330/DNR(occlusion-aware focal stack symmetry)算法,使用4個方向的多視角圖像進行深度計算,并且在計算遮擋區(qū)域時僅考慮橫縱方向視角,有助于優(yōu)化計算表面法向量。隨著深度學習的快速發(fā)展,Johannsen等人(2016)首次利用深度學習在多尺度場景中取得了不錯的效果。Heber和Pock(2016)利用端到端的深度學習架構(gòu)估計光場深度。隨后,Heber等人(2017)提出了融合神經(jīng)卷積網(wǎng)絡(CNN)和變分最優(yōu)方法光場深度估計算法,用于計算光場外極線圖像斜率。韓國KAIST的Shin等人(2018)又基于CNN設計了一個全卷積神經(jīng)網(wǎng)絡EPINET(epipoloar geometry of light-field images network)。在真實場景上取得了良好效果,但在某些場景的泛化效果不佳。Alperovich等人(2018)使用encoder-decoder結(jié)構(gòu)基于光場多視角圖像同時得到了視差圖和光場的光照信息。
光場相機校準用于將深度估計算法所得的視差圖轉(zhuǎn)換成物理空間中的尺寸,是實現(xiàn)光場3維測量的關鍵環(huán)節(jié)。由于光場相機內(nèi)部光線路徑的復雜性,國內(nèi)外眾多學者提出了不同的校準方法。Dansereau等人(2013)提出了一種包含15個參數(shù)(含 3個冗余參數(shù))的光場相機投影模型。在考慮光學畸變的情況下,得出了將每個記錄的像素點位置與3D空間中光線相關聯(lián)的4D本征矩陣。Bok等人(2017)利用一種新奇的線特征改進了Dansereau的15個參數(shù)投影模型,提出了僅12個參數(shù)的光場相機投影模型。利用幾何投影模型來校準非聚焦型光場相機。Nousias等人(2017)提出了一種基于棋盤格中角點的聚焦型光場相機幾何校準方法。O′brien等人(2018)提出了一種基于全光圓盤特征的可用于聚焦和非聚焦型光相機的校準方法。Hall等人(2018)的工作提出了一種基于多項式映射函數(shù)的光場相機校準方法,無需具體的透鏡參數(shù)。其考慮了透鏡畸變以提高校準精度,非平面校準的實驗結(jié)果表明了該方法的靈活性。
1.3.2 基于光場成像的粒子圖像測速技術
將光場成像技術應用于流場測量(light-field particle image velocimetry, LF-PIV),單目實現(xiàn)3維速度場測量,是3維診斷技術在受限空間中應用的一個重要進展。這方面工作主要有美國Auburn大學的Brian Thurow團隊和國內(nèi)上海交通大學的施圣賢團隊。Brian Thurow團隊設計并封裝了基于正方形微透鏡陣列的光場相機(Fahringer等,2015)。LF-PIV技術需要解決的關鍵問題之一是如何從單幀光場圖像重構(gòu)出流場示蹤顆粒(數(shù)百納米至幾十微米)的3維圖像。Fahringer和Thurow(2016)提出了基于MART和重聚焦的光場粒子圖像重構(gòu)算法。
Thomason等人(2014)針對光路畸變所導致的重構(gòu)誤差,研究了光學傳播介質(zhì)折射對重構(gòu)粒子的位置的影響,其將拍攝光路中的折射介質(zhì)分為外部介質(zhì)(位于鏡頭和示蹤粒子之間,如拍攝水洞時的壁面)和內(nèi)部介質(zhì)(位于主透鏡和CCD陣列之間)。Fahringer和Thurow(2016)為了降低重構(gòu)誤差,提出了帶閾值后處理的粒子重構(gòu)算法,重構(gòu)粒子場強的信噪比比直接重聚焦方法有所提高。國外學者已經(jīng)將LF-PIV技術應用于多種復雜流動實驗研究,包括腦瘤內(nèi)的血液流動(Carlsohn等,2016)、扁口射流以及圓柱擾流(Seredkin等,2016,2019)。
光譜成像通常分為掃描式和快照式,其中快照式因其只需單次曝光就可以獲取整個數(shù)據(jù)立方體信息,在應用上更具潛力和前景,因此當前計算機視覺和圖形學關于光譜成像的研究也主要集中在快照式光譜成像技術上??煺帐焦庾V成像按照實現(xiàn)方式不同,可以分為分孔徑光譜成像、分視場光譜成像和孔徑/視場編碼光譜成像等。
1.4.1 分孔徑光譜成像
1.4.2 分視場光譜成像
分視場光譜成像技術的種類很多,包括基于切片鏡的分視場光譜成像(Content等,2013)、基于可變性光纖束分視場光譜成像(Gat等,2006)、微透鏡陣列分視場光譜成像(Dwight和Tkaczyk,2017)、針孔陣列分視場光譜成像(Bodkin等,2009)、圖像映射光譜成像(Gao等,2010),以及像素濾光片陣列光譜成像(Geelen等,2014)。其中像素級濾光片光譜成像直接將濾光片陣列集成到探測器上,具有體積小、集成度高等優(yōu)點,是未來最有望用于手機等終端的光譜成像技術。早期的像素級濾光片陣列就是人們?nèi)粘I钪衅毡槭褂玫牟噬獵MOS探測器,Geelen等人(2014)將其推廣,制作了4×4陣列16通道的像素級光譜濾光片。但像素級濾光片多基于多層膜體系制作,成本極高;像素級濾光片本質(zhì)上是通過犧牲空間分辨率換取光譜分辨率,光譜通道數(shù)越多,空間分辨率越小;光譜通道數(shù)越多,單個光譜通道的能量就越小,信噪比越低。為了解決像素級濾光片制作難度的問題,研究者提出了基于FP腔的像素級濾光片光譜成像(Huang等,2017;Williams等,2019),利用FP腔的窄帶透射特性且簡單的“高反層—中間透射層—高反層”結(jié)構(gòu),使用灰度光刻直接一次性做出不同譜段的濾光片陣列,制作難度大幅降低。為了解決光譜通道數(shù)越多,通道能量下降致使信噪比越低的問題,研究者又提出了基于寬譜像素級濾光片的光譜成像技術:例如Bao和Bawendi(2015)使用量子點可調(diào)的譜段吸收特性實現(xiàn)了寬譜段像素級光譜成像,超表面、銀納米線等作為一種在近乎平面空間內(nèi)對光波進行超控的新材料,也是一種理想的寬譜濾光片實現(xiàn)形式,如Craig等人(2018)和Meng等人(2019)展示的可以用于紅外波段的芯片級光譜成像技術,Wang等人(2019c)展示了基于光子晶體的寬譜段光譜成像,Yang等人(2019)和Cadusch等人(2019)展示的基于銀納米線的寬譜段光譜成像。為了解決像素濾光片陣列光譜分辨率與空間分辨率相互制約的問題,研究者發(fā)展了基于壓縮感知的光譜重建技術(Nie等,2018;Kaya等,2019),通過探究每個像素的最佳光譜響應曲線(Fu等,2022;Stiebel和Merhof,2020;Sun等,2021a),達到僅使用較少的光譜像素規(guī)模,實現(xiàn)超光譜探測能力,打破光譜分辨率與空間分辨率的制約關系。
1.4.3 孔徑/視場編碼光譜成像
孔徑/視場編碼光譜成像屬于基于壓縮感知理論進行光譜圖像重建的技術,利用空間光譜數(shù)據(jù)立方體的稀疏性,比基于像素級濾光片陣列中利用壓縮感知的維度更多、更全面,主要研究的側(cè)重點為編碼方式、重建算法等。最典型的孔徑/視場編碼光譜成像系統(tǒng)是CASSI(coded aperture snapshot spectral imaging)系統(tǒng)(Brady和Gehm,2006;Wagadarikar等,2008),它的主要問題之一是由于利用了對自然場景的稀疏假設,不可避免地會出現(xiàn)重建誤差,且重建算法非常復雜,無法實時對高光譜數(shù)據(jù)進行重建。Wang等人(2017,2019b)提出了一種基于互補觀測的雙相機成像系統(tǒng),并提出了將數(shù)據(jù)與先驗知識相結(jié)合的高光譜圖像重建算法。CASSI系統(tǒng)的主要問題之二是體積太大,不適合集成,Baek等人(2017)通過直接在標準單反相機鏡頭上增加一個色散棱鏡,實現(xiàn)了縮小系統(tǒng)體積,但僅適合恢復邊緣處的光譜信息,導致重建問題高度病態(tài),光譜重建精度較差。Golub等人(2016)則使用單個散射片替換棱鏡作為色散元件,進一步減小了體積,且通過與彩色CMOS探測器結(jié)合可以提高光譜重建的精度。進一步為減小體積,Jeon等人(2019b)提出了基于單個衍射光學元件同時作為成像鏡頭和色散元件的方法,首先通過設計一個可以產(chǎn)生波長相關的點擴散函數(shù)進行孔徑/視場聯(lián)合編碼,然后通過基于模型的深度學習算法重建高光譜圖像。與直接使用單個衍射光學元件類似,使用單個強色散的散射片也可以實現(xiàn)光譜成像(Sahoo等,2017;French等,2017),這樣的系統(tǒng)本質(zhì)上是利用了散斑對空間光譜數(shù)據(jù)立方體進行編碼,但這類系統(tǒng)光譜分辨率嚴重依賴于不同波長的散斑之間的相關性,光譜分辨率通常較低。針對以上問題,Monakhova等人(2020)提出了散射片結(jié)合像素級濾光片陣列的技術方案,既保留了單散射片的輕薄特性,也通過像素級濾光片陣列確保了高的光譜分辨率。特別地,該方法還通過解碼散斑編碼的空間信息,可以避免像素級濾光片陣列光譜成像必然帶來的空間分辨率降低的問題。
隨著微納光學和計算成像等領域的快速發(fā)展,平面光學元件以其獨特的緊湊型光學結(jié)構(gòu)優(yōu)勢,正發(fā)展成為傳統(tǒng)折、反射式透鏡(如照相物鏡、望遠鏡和顯微鏡等)的替代光學方案(Capasso,2018)。典型的平面光學元件有衍射光學元件(diffractive optical elements, DOEs)和超透鏡(Metalens)(Yu和Capasso,2014;Banerji等,2019)。盡管此類平面光學元件將傳統(tǒng)的透鏡尺寸壓縮到微觀的波長或亞波長結(jié)構(gòu),其成像原理仍是點對點的映射關系,其系統(tǒng)極限尺寸仍受限于透鏡的焦距、孔徑和視場等核心指標。為進一步壓縮成像系統(tǒng)的尺寸,近年來涌現(xiàn)出的一種無透鏡成像技術提供了一種全新的思路(Boominathan等,2016)。
無透鏡成像摒棄了傳統(tǒng)透鏡中點對點的映射模式,而是將物空間的點投影為像空間的一種特殊的點擴散函數(shù),不同物點在像面疊加,形成了一種人眼無法識別但計算算法可以復原的原始數(shù)據(jù)。這種無透鏡成像方式在光學硬件上對圖像信息進行編碼,并在計算算法中解碼,因此形成了光學和算法的聯(lián)合設計。
無透鏡成像最早起源于仿生復眼的研究(Cheng等,2019b;Lee等,2018a)。在自然界中,脊椎動物的視覺(如人眼)通常采用透鏡式的點對點映射成像,而多種生物(如昆蟲等)則通過復眼的形式感知自然環(huán)境(Schoenemann等,2017)。這種復眼結(jié)構(gòu)包含了幾十甚至幾百個小眼(ommatidia)單元,包含角膜、晶椎、色素細胞和視網(wǎng)膜細胞、視桿等結(jié)構(gòu)。復眼結(jié)構(gòu)采集到的光線信息最終通過視神經(jīng)傳遞到大腦進行處理,獲取自然界的環(huán)境信息。受此啟發(fā),科學家模仿復眼結(jié)構(gòu)制造了多種無透鏡成像器件。然而,這種直接模擬昆蟲復眼的無透鏡成像形式仍然具有結(jié)構(gòu)復雜、分辨率低等缺點,無法滿足人們對緊湊型高質(zhì)量成像日益增加的需求。
近年來,隨著計算成像技術的不斷進步,圖像復原算法在成像系統(tǒng)中的作用日益提升。人們開始以計算的思維來設計無透鏡成像系統(tǒng),而不是對自然復眼結(jié)構(gòu)的簡單模仿。這主要體現(xiàn)在,無透鏡光學系統(tǒng)的點擴散函數(shù)應與圖像重建算法協(xié)同設計,使得光學系統(tǒng)中編碼的圖像信息能夠被算法有效解碼?;谠撍悸?,近年來涌現(xiàn)出多種振幅型和相位型的平面無透鏡成像系統(tǒng),大大提高了復眼型無透鏡成像的分辨率,同時保持極高的結(jié)構(gòu)緊湊性。
無透鏡系統(tǒng)主要包括平面光學元件的設計和圖像重建算法兩個方面。其光學元件設計可分為振幅型和相位型,通常采用啟發(fā)式的優(yōu)化設計方法,尋求利于算法重建的點擴散函數(shù),根據(jù)光的衍射定律反向設計對應的振幅或相位型光學元件,典型設計包括FlatCam(Asif等,2017),DiffuserCam(Antipa等,2018),PhlatCam(Boominathan等,2020)和Voronoi-Fresnel(Fu等,2021)等。圖像重建算法則一般采用正則化的逆問題求解算法(如采用全變分(total variation, TV)的正則化項),以及針對大模糊核的基于深度學習的圖像重建方法。
振幅型無透鏡成像采用二值的黑白圖案對光波進行調(diào)制。早期的二值圖案采用簡易的隨機分布的小孔陣列或均與冗余陣列(uniformly redundant arrays, URA),依賴圖案在光傳播過程中的陰影效應在圖像傳感器上制造一定圖案樣式的點擴散函數(shù)。這種簡易的點擴散函數(shù)通常具有較差的數(shù)值穩(wěn)定性,不易得到高質(zhì)量的重建圖像。DeWeert和Farm(2015)提出了一種可分離的雙托普利茨矩陣(Doubly-Toeplitz)掩膜版,產(chǎn)生的點擴散函數(shù)降低了逆問題的病態(tài)性,從而獲得了更好的圖像質(zhì)量。Asif等人(2017)深入研究了不同形式的掩膜設計及其數(shù)值穩(wěn)定性,并提出了一種由兩個1維M序列編碼進行外積得到的2維可分離掩膜設計,稱為FlatCam,這種掩膜設計的優(yōu)勢不僅在于更好的數(shù)值穩(wěn)定性,同時易于實現(xiàn)和標定,是振幅型無透鏡系統(tǒng)的較優(yōu)設計。此外,Tajima等人(2017)提出了采用二值菲涅爾波帶片作為掩膜版,利用摩爾條紋效應產(chǎn)生圓環(huán)狀的圖案,并利用其對深度獨立的特性,得到了能夠進行重聚焦的無透鏡光場成像系統(tǒng)。然而,振幅型無透鏡成像存在一個內(nèi)在缺點,其允許的光通量至多為50%,因此損失了一部分的光強,能量利用率偏低。
相位型無透鏡成像能夠充分利用所有入射光,對入射光波的相位進行調(diào)制,從而在探測器面生成光強調(diào)制的圖案。Gill(2013)提出一種奇對稱的二值相位(0和1)衍射光柵,其菲涅爾衍射圖案能夠產(chǎn)生螺旋形的點擴散函數(shù),通過在2維平面周期性平鋪這種單元二元光柵結(jié)構(gòu),形成螺旋光斑陣列圖案,稱為PicoCam,能夠?qū)崿F(xiàn)高通量的無透鏡成像。由于二值相位光柵的衍射效率仍然有限,Antipa等人(2018)提出采用隨機散射片(diffuser)生成焦散圖案作為點擴散函數(shù)的無透鏡成像方案DiffuserCam,能夠產(chǎn)生高對比度的點擴散函數(shù),并且其形狀隨著焦深的變化呈現(xiàn)縮放特性,形成了深度依賴的點擴散函數(shù)。利用此性質(zhì),DiffuserCam能夠?qū)崿F(xiàn)單幀圖像的3維無透鏡成像功能。該方法采用的散射片通常取自透明膠帶等元件,因此是一種欠優(yōu)化的光學器件。為了使這類相位型無透鏡成像元件的點擴散函數(shù)的結(jié)構(gòu)更有利于算法重建,Boominathan等人(2020)總結(jié)了點擴散函數(shù)的幾個有益特征,即圖形稀疏、對比度高、具有多樣化的方向濾波特性。根據(jù)這些特征,作者提出了采用將Perlin噪聲二值化生成的團作為目標點擴散函數(shù),通過迭代正向和反向菲涅爾衍射過程優(yōu)化設計連續(xù)的相位函數(shù)以生成所需的點擴散函數(shù)。這種無透鏡系統(tǒng)稱為PhlatCam,產(chǎn)生的點擴散函數(shù)形似等高線,具備作者所提出的所有有益特征。然而,這一類的點擴散函數(shù)都是基于啟發(fā)式的方法,其最優(yōu)性并非通過客觀的指標得到,而是從實驗中總結(jié)而來。Fu等人(2021)提出了一種基于調(diào)制傳遞函數(shù)的傅里葉域指標,調(diào)制傳遞函數(shù)體積(modulation transfer function volume, MTFv),能夠客觀衡量光學系統(tǒng)中采集的信息量多少,MTFv值越大,則系統(tǒng)編碼的信息量越多。利用此原則,作者設計了一種類似昆蟲復眼的無透鏡相位函數(shù),稱為維諾—菲涅爾(Voronoi-Fresnel)相位。該相位函數(shù)由理想透鏡的菲涅爾函數(shù)作為基本單元,在2維空間中按照維諾圖的形式緊密排列。所生成的點擴散函數(shù)同時具備稀疏性和高對比度的特性,而且每個維諾單元的多邊形孔徑在傅里葉域代表了方向濾波,且具有更緊湊的空間分布。另外,該方法采用MTFv作為客觀指標,優(yōu)化這些基本單元的分布,所得到的相位函數(shù)具有更優(yōu)的頻域特性和光學性能。
無透鏡成像系統(tǒng)的原始數(shù)據(jù)是非可視化的圖像數(shù)據(jù),需要采用相應的圖像重建算法對圖像進行復原。目前常用的圖像復原算法可分為傳統(tǒng)正則化求解的退卷積(deconvolution)算法,以及采用數(shù)據(jù)驅(qū)動的深度學習算法。在初期的DiffuserCam,PhlatCam和Voronoi-Frensel等幾類無透鏡成像系統(tǒng)的圖像重建中,作者采用全變分(TV)正則化的退卷積優(yōu)化方法,采用ADMM(atternating direction method of multipliers)優(yōu)化框架,進行高效的圖像重建。這種方法通常受到成像模型不精確、信噪比低和雜散光干擾等因素的影響,圖像質(zhì)量受限。Monakhova等人(2019)以DiffuserCam為樣機,采集了大量無透鏡成像數(shù)據(jù)庫,并提出采用unrolled ADMM結(jié)構(gòu)的3種深度學習框架Le-ADMM, Le-ADMM*, 以及Le-ADMM-U 對DiffuserCam數(shù)據(jù)進行復原,取得了較好的效果。Khan等人(2022)以FlatCam和PhlatCam為樣機,提出采用兩步法重建圖像的FlatNet模型。原始圖像首先經(jīng)過第1層訓練網(wǎng)絡得到初步的重建圖像,然后通過第2個網(wǎng)絡進行感知增強,使得重建圖像具有更好的人眼感知質(zhì)量。為解決高質(zhì)量無透鏡成像數(shù)據(jù)集較難大規(guī)模采集的問題,Monakhova等人(2021)在深度圖像先驗(deep image prior)工作的基礎上提出了一種無需大量訓練而實現(xiàn)圖像高質(zhì)量復原的方法。該方法采用圖像生成網(wǎng)絡尋求無透鏡圖像中的抽象先驗,建立原始圖像的高維度抽象先驗網(wǎng)絡,再以成像模型生成探測器上得到的原始數(shù)據(jù),并與實際采集的原始數(shù)據(jù)進行比較,求解網(wǎng)絡參數(shù)的優(yōu)化問題,最終實現(xiàn)無訓練的圖像重建方法。為簡化點擴散函數(shù)難以準確標定的問題,Rego等人(2021)以DiffuserCam為例,利用生成對抗網(wǎng)絡(generative adversarial network, GAN)結(jié)構(gòu),同時表征原始圖像和點擴散函數(shù),再以成像模型為基礎,對比生成的原始圖像和采集的原始圖像,通過大量訓練求解高質(zhì)量的清晰圖像信息。
低光照成像近些年取得了較大進展。按照輸入分類可以分為單幀輸入、多幀輸入(burst imaging)、閃光燈輔助拍攝和傳感器技術:1)單幀輸入經(jīng)典的方法有各種濾波器(如高斯濾波器、中值濾波器和雙邊濾波器)、非局部均值濾波(non local means,NLM)、3維塊匹配濾波(BM3D)、基于字典學習或小波的去噪方法等。Pl?tz和Roth(2017)在收集的真實數(shù)據(jù)上進行評測發(fā)現(xiàn),雖然很多方法在合成的帶高斯噪聲的數(shù)據(jù)上比BM3D好,但在真實數(shù)據(jù)上BM3D依然表現(xiàn)最佳。Lefkimmiatis(2018)使用神經(jīng)網(wǎng)絡來實現(xiàn)BM3D的每一步。Abdelhamed等人(2018)提供了基于手機相機的真實數(shù)據(jù)集。研究表明,RAW域去噪(Chen等,2018a,2019;Jiang和Zheng,2019)比經(jīng)過去馬賽克等處理后的RGB圖片效果更佳,其原因在于經(jīng)過后處理算法,圖片中的噪聲分布變得更復雜,因此更難去除。當僅有經(jīng)過后處理的圖片時,Brooks等人(2019)將其逆處理回RAW域去噪獲得了更佳效果。2)多幀輸入已廣泛應用于手機中,如谷歌Pixel手機、iPhones等。Hasinoff等人(2016)和Liba等人(2019)對谷歌的整個算法流程做了充分介紹。Mildenhall等人(2018)針對多幀去噪提出核預測網(wǎng)絡,Xia等人(2020)利用核之間的冗余對核預測網(wǎng)絡進行優(yōu)化,以此來提高重建質(zhì)量和速度。3)閃光燈可以用來增加場景的照度來提高照片質(zhì)量。其中,最簡單的方法為使用白色閃光燈。白色閃光燈的光譜和環(huán)境光光源的光譜不一致會使得前景和背景的色調(diào)不一致,故而iPhone提出使用“True-tone”閃光燈,使得閃光燈的光譜接近于環(huán)境光。閃光燈的使用會引入問題,限制了其廣泛使用。如圖像光照不自然、刺眼、距離有限等。針對這些問題,研究人員也提出了相關方案,如閃光/無閃光兩張照片融合(Petschnigg等,2004;Eisemann和Durand,2004,Xia等,2021),使用不可見光如紅外/紫外(Krishnan和Fergus,2009),使用人眼響應不強烈的深紅色閃光燈(Xiong等,2021)。然而距離有限還亟待解決,因為物理上的限制,光隨著距離的平方遞減。4)對傳感器技術進行提高或使用新型傳感器成像,例如使用背照式傳感器,利用微透鏡提高填充率收集光線,使用SPAD傳感器成像(Ma等,2020)。
主動3維成像常用的方法有結(jié)構(gòu)光和Time-of-flight(包括iTOF和dTOF)。雖然原理有所不同,如結(jié)構(gòu)光使用三角法得到距離,TOF測量光的飛行時間,其面臨的挑戰(zhàn)是類似的:1)易受到環(huán)境光的干擾,例如太陽光產(chǎn)生的光子噪聲(非偏置)會把信號淹沒。2)有非直接光的情況,準確度會受到極大影響。結(jié)構(gòu)光和TOF均假設光發(fā)射出后,僅單次被物體反射回接收設備,這樣的光可稱做直接光;若物體有凹面,或物體半透明,或傳播媒介有很多小微粒使光產(chǎn)生散射,這些光可統(tǒng)稱為非直接光。此時3維成像會產(chǎn)生較大誤差。3)多設備串擾近些年取得了很大的進展,以下將重點闡述對環(huán)境光和非直接光干擾的解決方法,部分方法可同時適用于結(jié)構(gòu)光和TOF。
對于非直接光,很多方法受到Nayar等人(2006)啟發(fā),通過投影儀打出空間上高頻圖案來分離直接光和非直接光的影響,可在計算深度前分開直接光和非直接光,然后用直接光計算深度。也可使用高頻圖案非直接光部分自動抹平,從而不會影響深度計算。對相機的像素進行分類,然后自適應迭代(Xu和Aliaga,2007,2009);使用多重照明來減少圖案數(shù)量(Gu等,2011)。另外,使用高頻圖案讓非直接光抹平或相消的方法有:調(diào)制相移(Chen等,2008)使用高頻圖案來作為載波、使用高頻單個圖案(Couture等,2011)、修改傳統(tǒng)的灰度編碼(Gupta等,2011)、微相移(Gupta和Nayar,2012)使用多個鄰近的高頻圖案以及嵌入式相移在高頻圖案中嵌入低頻(Moreno等,2015)等。還有方法是在光學上阻止非直接光,如O′Toole等人(2014)利用投影儀和相機的光學上的極線限制,以及通光率得到改善的Episcan3D(O′Toole等,2015)。對于iTOF,以上方法均有借鑒意義,Naik等人(2015)使用直接全局分離的結(jié)果來指導iTOF的去多徑干擾,Gupta等人(2015)使用高頻來讓多徑的干擾相互抵消,EpiTOF是Episcan3 d的TOF版本。對于半透明的物體,Chen等人(2007b)提出使用偏振光來做結(jié)構(gòu)光,直接光易維持偏振性,而散射光易失去偏振性。dTOF沒有非直接光問題的困擾,但是對傳播媒介的散射,比如在煙、霧中,結(jié)構(gòu)光、iTOF和dTOF都面臨挑戰(zhàn)。相關方法一般基于媒介散射特性可分為:1)與鄰域比較,結(jié)構(gòu)光對應著空間上的曲線(Narasimhan等,2005),TOF對應著時間上的曲線(Satat等,2018);2)在光路上消除雜光,如光幕(Wang等,2018);3)使用更長的波長,如短波紅外(如DualSL(Wang等,2016b))和長波紅外(Erdozain等,2020)。最后,使用深度學習來觀察含有錯誤的深度圖并糾正,也取得了很好的效果(Marco等,2017)。
1.8.1 自動白平衡
白平衡是ISP(image signal processor)中重要的一環(huán)。人眼在觀察圖像時,會自動修正光照顏色對物體造成的色差。因此,在數(shù)字成像的過程中,為了還原物體在人眼中觀察到的色彩,相機也同樣需要從圖像中估計出光照的顏色,并加以修正。這種過程稱為自動白平衡。
自動白平衡的方法主要分為兩類。傳統(tǒng)的白平衡算法的輸入一般僅為單張圖片,算法通過分析這張圖片的顏色分布估計出圖片中場景的光照,從而實現(xiàn)顏色的校正。Buchsbaum(1980)提出了“灰色世界”(grey world)模型,該模型假設圖像中的物體的平均顏色為灰色,從而對圖片的顏色進行校準。Finlayson和Trezzi(2004)對“灰色世界”模型進行了拓展,使用明科夫斯基測度計算平均顏色,并通過實驗發(fā)現(xiàn)使用p=6的明科夫斯基測度可以得到最好的結(jié)果。van de Weijer等人(2007)提出在圖像的高階差分上計算平均顏色。Cheng等人(2014)使用主成分分析(principal component analysis, PCA)的方法估計光照的顏色;Qian等人(2019)則通過找到圖片中的灰色像素來消除光照帶來的色差。
另一方面,使用機器學習的自動白平衡算法通常需要較為龐大的數(shù)據(jù)集作為輔助。通過訓練機器學習模型學習大量已經(jīng)完成顏色校準的圖片中的規(guī)律,從而能夠更好地對新拍攝的圖片進行白平衡。Brainard和Freeman(1997)以及Gehler等人(2008)使用貝葉斯理論對物體材質(zhì)和光照顏色等先驗知識進行建模。Finlayson等人(2006)將白平衡問題轉(zhuǎn)化為色域映射問題進行求解。Barron等人(Barron,2015;Barron和Tsai,2017)將圖像中像素的顏色映射到對數(shù)色彩空間中,并使用模式識別的方法進行白平衡。Shi等人(2016c)提出了一種新的深度神經(jīng)網(wǎng)絡結(jié)構(gòu)來甄別與篩選圖像中可能的光照顏色;而Hu等人(2017)則通過深度神經(jīng)網(wǎng)絡識別出圖像中易于推測出真實顏色的部分,從而計算出光照的顏色。
1.8.2 背景虛化
由于移動端的成像設備存在大小、厚度等諸多限制,使用手機鏡頭拍攝到的圖片普遍具有很長的景深,即很難拍攝出專業(yè)相機中背景虛化的效果。近年來,有許多文章著手于使用后期處理來人工模擬淺景深、虛背景的效果。Shen等人(2016a,b)嘗試將人像圖片分割成前景與后景,并對后景進行均勻虛化;Zhu等人(2017a)進一步提出了加速人像前后景分割的算法。然而,對后景進行均勻虛化并不真實,因為在現(xiàn)實中,距離越遠的物體會越模糊。
為了實現(xiàn)更加真實的景深模擬,學者們嘗試從單幅圖像中預測物體深度(Eigen等,2014;Liu等,2016;Zhou等,2017;Luo等,2020)。然而,單幅圖像預測出的深度普遍存在較大誤差。谷歌Pixel手機團隊(Wadhwa等,2018)提出使用手機相機中的“雙像素”(dual pixel)更好更快地進行深度預測,從而模擬出更加真實的背景虛化。Ignatov等人(2020)采集了大量使用單反相機拍攝的不同景深的圖片,并提出使用端到端(end-to-end)的方式直接用神經(jīng)網(wǎng)絡對圖像進行背景虛化,從而跳過深度預測的步驟。
1.8.3 連拍攝影
連拍攝影在之后得到了較大的發(fā)展。Mildenhall等人(2018)以及Godard等人(2018)提出使用神經(jīng)網(wǎng)絡對連拍攝影進一步進行降噪處理;Aittala和Durand(2018)使用神經(jīng)網(wǎng)絡實現(xiàn)了連拍攝影去模糊;Kalantari和Ramamoorthi(2017)使用連拍的多張低動態(tài)范圍圖像合成出了高質(zhì)量的高動態(tài)范圍圖像;Liba等人(2019)進一步改進了谷歌Pixel手機中的連拍攝影技術,實現(xiàn)了在超低光照的條件下進行高質(zhì)量拍攝;Wronski等人(2019)進一步使用連拍攝影的方式實現(xiàn)了圖像超分辨率。
端到端光學算法聯(lián)合設計的研究國內(nèi)起步相對較晚,孫啟霖團隊提出端到端學習、光學編碼的超分辨率SPAD相機(Sun等,2018,2020b),利用衍射元件實現(xiàn)了最優(yōu)的光學采樣和高質(zhì)量的深度、超快速重建。孫啟霖團隊提出了基于向量分解的端到端衍射光學設計,利用可微的衍射元件結(jié)合可微的神經(jīng)網(wǎng)絡來實現(xiàn)單次曝光高動態(tài)范圍成像(Sun等,2020a)。頓雄團隊提出了基于可微衍射元件的用于全光譜計算成像的旋轉(zhuǎn)對稱衍射消色差技術(Dun等,2020),可以在自然光照下解決現(xiàn)實世界中各種場景的精細細節(jié)和色彩逼真度。申俊飛團隊利用變種U-Net來模擬模糊過程,實現(xiàn)了帶有單透鏡的端到端大景深成像(Liu 等,2021)。侯晴宇團隊使用快速可微光線追蹤的端到端學習單鏡頭設計(Li等,2021)。香港中文大學(深圳)、點昀技術孫啟霖團隊于2021年首次實現(xiàn)了基于可微光線追蹤的復雜透鏡設計引擎,可直接構(gòu)建光學參數(shù)與最終圖像之間的可微關系(Sun等,2021b),將端到端相機設計推向了新的高度,未來有望顛覆傳統(tǒng)的光學設計方式,引領計算成像進入光學、算法聯(lián)合自動優(yōu)化時代。
在產(chǎn)業(yè)化方面,受消費電子、工業(yè)和車載等產(chǎn)業(yè)需求的影響,國內(nèi)圖像傳感器廠家如豪威、思特威、格科微和長光辰芯等對HDR 圖像傳感器產(chǎn)品均有產(chǎn)品推出或相關預研。其產(chǎn)品多數(shù)集中在多次曝光融合、DOL/Staggered HDR 等方案。
1)多傳感器融合HDR成像。多曝光HDR成像, 通常會因鬼影檢測不準確導致鬼影去除失敗, 而單幀參考圖的鬼影去除方法會導致細節(jié)損失,張登輝和霍永青(2018)提出了多曝光HDR成像生成去鬼影的HDR圖像。根據(jù)兩幅不同曝光圖像累計直方圖拓展原則,賀理等人(2020)對兩幅圖像分別進行動態(tài)范圍拓展,并采用像素級融合方法實現(xiàn)對拓展圖像序融合。
2)基于光強調(diào)制類 HDR成像。結(jié)合微通道板增強器和圖像傳感器,潘京生等人(2017)實現(xiàn)了模擬和光子計數(shù)兩種模式的HDR成像。利用固定積分級數(shù)的成像方法,并結(jié)合圖像熵和灰度分布方差構(gòu)造評價函數(shù),孫武等人(2018)實現(xiàn)了推掃式遙感相機超滿阱HDR成像。王延杰等人(2014)、呂偉振等人(2014)、何舒文(2015)、呂濤等人(2015)、馮維等人(2017)、Xu和Hua(2017)、Sun等人(2019)、Zhou 等人(2019)均利用SLM(spatial light modulator)調(diào)制光強來實現(xiàn) HDR成像。
3)多曝光圖像融合。利用卷簾快門的空閑電路資源來縮短多次曝光幀間間隔,李曉晨等人(2013)提高了系統(tǒng)效率且加速了輸出響應。為了實現(xiàn)實時的HDR圖像融合,樸永杰等人(2014)對快速多分辨率金字塔分解融合算法進行了改進。胡燕翔和萬莉(2014)使用整體亮度范圍、局部對比度和顏色飽和度指導亮度融合來實現(xiàn)HDR圖像融合。兼顧局部細節(jié)和全局亮度的融合權重函數(shù),陳闊等人(2015)、江燊煜等人(2015)實現(xiàn)了較好的快速融合。針對噪聲對HDR圖像的影響,劉宗玥(2016)、陳曄曜等人(2018)提出了基于局部線性變換的色階映射算法以及多曝光圖像融合過程中的相關降噪算法。都琳等人(2017)利用基于色彩梯度的微分光流法來實現(xiàn)動態(tài)目標的HDR圖像融合。李雪奧(2018)通過U-Net網(wǎng)絡進行多曝光融合,加強了圖像細節(jié)并一定程度去除運動影響。張淑芳等人(2018)采用主成分分析與梯度金字塔的HDR圖像生成方法來避免生成圖像的光暈和泛灰問題。李洪博等人(2018)利用轉(zhuǎn)換增益、黑電平偏移參數(shù)間接獲取融合系數(shù),提高了相機的動態(tài)范圍。吳蕊(2020) 使用3層級聯(lián)網(wǎng)絡結(jié)構(gòu)和長短期記憶網(wǎng)絡與膨脹卷積提升了HDR圖像生成效果。劉穎等人(2020)提出了基于亮度分區(qū)模糊融合的高動態(tài)范圍成像算法。
4)高動態(tài)范圍圖像重建。為了獲取HDR場景的準確的亮度以及色度信息,Wu等人(2017a)提出了與CIEXYZ設備無關的基于相機色度法的色彩空間重建方法。針對圖像過曝光和欠曝光區(qū)域細節(jié)易損失,常猛等人(2018)對圖像過曝光和欠曝光區(qū)域利用雙分支神經(jīng)網(wǎng)絡進行分別校正。Li和Fang(2019)提出了一種混合損失函數(shù)并使用通道注意機制來自適應地調(diào)整通道特征。葉年進(2020)提出基于深度學習的單幀LDR圖像生成HDR圖像的方法。Liu 等人(2020)提出了一種防抖的單曝光HDR復原方法。Liang等人(2020)通過設計具有多分支特征提取和多輸出圖像合成功能的深度逆色調(diào)映射網(wǎng)絡,實現(xiàn)了單次濾波LDR圖像重建HDR圖像的方法。Hou等人(2021)使用深度不受監(jiān)督的融合模型重建高動態(tài)范圍圖像。Ye等人(2021)利用深度雙分支網(wǎng)絡的單次曝光高動態(tài)范圍圖像重建。
5)色調(diào)映射。為了適應不同的圖像亮度范圍, 蘆碧波等人(2017)首先利用韋伯—費希納定律將圖像分區(qū),用不同尺度的參數(shù)的對數(shù)映射來實現(xiàn)對不同區(qū)域圖像的動態(tài)范圍壓縮,再根據(jù)比例融合。通過在CIE空間內(nèi)對數(shù)亮度平均值劃分亮度閾值分段壓縮, 劉穎等人(2018)實現(xiàn)了較好的細節(jié)和整體亮度。通過聯(lián)合鄰域強化連接和視覺皮質(zhì)模型,李成等人(2018)實現(xiàn)了高視覺質(zhì)量的HDR圖像顯示,對非均勻光照效果明顯。王峰和嚴利民(2019)提出一種亮度分區(qū)和導向濾波相結(jié)合的色調(diào)映射算法。針對色調(diào)映射過程中亮暗區(qū)域不同的顏色偏移,馮維等人(2020)實現(xiàn)了對色度信息的自適應矯正。
在光場3維重建方面,譚鐵牛院士團隊(Wang 等,2018)設計了一種隱式多尺度融合方案來進行超分辨重建。張朔等人提出了光場空間超分辨率殘差式網(wǎng)絡(Zhang等,2019d)框架(ResLF)。為了實現(xiàn)光場子孔徑圖像的空間超分辨,Zhao等人(2020)提出了利用神經(jīng)網(wǎng)絡融合多尺度特征的光場圖像超分辨方法。
在光場深度算法方面,Zhu和Wang(2016)在原先外極線圖像算法的基礎上優(yōu)化了背景算法。Zhang等人(2016)提出了SPO(spinning parallelogram operator)算法,有效解決噪聲、混疊和遮擋引入的問題,從而獲取更準確的視差圖。Zhang 等人(2016)通過最優(yōu)方向搜索的方法對 EPI 中直線斜率進行初始估計,取得了較優(yōu)異的深度估計效果。Wu等人(2019a)利用EPI清晰的紋理結(jié)構(gòu),將角度超分辨率建模為基于CNN的EPI角度信息恢復問題,對復雜結(jié)構(gòu)以及不同采集形式獲得的光場圖像的重建效果均很優(yōu)異。施圣賢團隊(Ma等,2019)提出了VOMMANet深度估計網(wǎng)絡,有效、快捷且高精度地處理非朗伯體,無/少紋理表面。
Zhang等人(2019c)提出了光場相機標定方法,包括六參數(shù)的光場相機多投影中心模型。Zhang和Wang(2018)研究了多投影中心模型對二次曲線和平面的映射,在光場中重建共自配極三角形。張琦和王慶(2021)提出了一種基于離心圓共自配極三角形的光場相機標定方法。宋征璽等人(2021)針對環(huán)形光場的2維對極幾何圖特征軌跡不完整問題,提出了一種基于3維霍夫變換的環(huán)形光場3維重建方法。Zhang等人(2021a)將傳統(tǒng)針孔相機的自校準技術拓展到光場相機,提出了一種光場相機自校準方法。施圣賢團隊(趙圓圓和施圣賢,2020)根據(jù)高斯幾何光學提出了用于3維形狀測量的非聚焦型光場相機尺度校準算法,絕對精度達到微米級別。
在光場PIV(LF-PIV)方面,施圣賢團隊設計并封裝了基于六邊形微透鏡陣列的光場相機(Shi等,2016a,b)。針對示蹤顆粒的光場3維重構(gòu)問題,Shi等人(2017)提出了基于密集光線追蹤的DRT-MART(dense ray tracing-based multiplicative algebraic reconstruction technique)重構(gòu)算法,可精準地重構(gòu)示蹤粒子,同時豐富的視角避免了虛假粒子的產(chǎn)生。針對主鏡頭—微透鏡耦合光學畸變的矯正問題。Shi等人(2019)和Zhao等人(2021)先后針對常規(guī)鏡頭光場成像和移軸鏡頭光場成像的光學畸變,提出了基于彌散圓模型的校準算法和基于蒙特卡洛方法的MART權重系數(shù)算法。與權重系數(shù)、基于光線追蹤的算法相比,該算法進一步提高了測量精度和穩(wěn)定性。
3維重構(gòu)和光場畸變算法的發(fā)展,有效地推動了這一新技術在多種復雜流動實驗中的應用,包括逆壓力梯度邊界層(Zhao等,2019)、零質(zhì)量沖擊射流(Zhao等,2021)和超聲速射流(Ding等,2019)。此外,系統(tǒng)的對比研究表明,單光場相機LF-PIV,在一定條件下可以達到與多相機層析PIV(tomographic PIV, Tomo-PIV)同等測量精度(Zhao等,2019)。
針對光場顯微成像,清華大學戴瓊海院士團隊于提出了一個由攝像頭陣列組成的光場顯微成像系統(tǒng),該系統(tǒng)能夠?qū)崿F(xiàn)基本的重聚焦、視角變換以及相位重建(Lin等,2015)。該團隊近年提出一種數(shù)字自適應光學掃描光場互迭代層析成像方法(Zhou等,2019)。
國內(nèi)在開展無透鏡成像工作方面也取得了很大進展。Wu等人(2020a)采用菲涅爾波帶片作為實現(xiàn)元件,在非相干光照明的情況下實現(xiàn)了單幀圖像的高信噪比圖像重建。以內(nèi)嵌全息圖的觀點,采用壓縮感知的方法解決圖像重建中的孿生圖像問題。Cai等人(2020)采用散射光學元件,在DiffuserCam的基礎上進一步探討散射介質(zhì)對光場的編碼作用,并開發(fā)求解光場圖像的逆問題算法,能夠?qū)崿F(xiàn)利用散射元件的無透鏡多視角成像。
國內(nèi)的企業(yè)和高校在低光照成像方面開展了系列優(yōu)秀工作。企業(yè)如華為手機的夜景模式令人驚艷,采用的方法包括RGB相機+灰度相機融合,使用RYYB陣列而不是傳統(tǒng)的RGGB來獲得更多的光,使用更長的burst來提高融合后的圖片質(zhì)量,以及使用優(yōu)化的圖像增強算法提高圖像觀感。高校如Wei等人(2020)通過對RAW域數(shù)據(jù)進行精準噪聲建模來生成數(shù)據(jù),以此訓練的網(wǎng)絡在真實數(shù)據(jù)上也表現(xiàn)優(yōu)異;在使用閃光燈的方法中,為了解決閃光燈圖片的色調(diào)蒼白問題,提出了閃光和無閃光的融合方法。在算法方面,Yan等人(2013)提出基于優(yōu)化的方法,用一個中間變量尺度圖(scale map)來描述閃光燈下圖的邊緣與非閃光燈下圖的邊緣的區(qū)別;Guo等人(2020)提出雙向指導濾波muGIF,在指導去噪的同時避免只有存在于閃光燈下圖像中的信息滲透。
國內(nèi)在結(jié)構(gòu)光和TOF上的研究較多,但鮮有處理環(huán)境光干擾和非直接光干擾方面的工作。非直接光主要是指光在離開發(fā)射器后,在場景中反射了兩次或以上,再回到相機。如果相機的時間分辨率足夠大,達到皮秒級別,則可以觀察到光的飛行,這樣的超高幀率成像稱做瞬態(tài)成像。通過分析瞬態(tài)成像,可以將直接光和非直接光分離。清華大學戴瓊海院士和劉燁斌團隊在這方面做出了突出工作。比如利用iTOF掃頻(根據(jù)“頻率—相位”矩陣)得到數(shù)據(jù),并且利用非正弦特性得到高頻段信息,從而實現(xiàn)瞬態(tài)成像(Lin等,2014,2017;Wang等,2021)。對于結(jié)構(gòu)光中的多徑干擾,Zhang等人(2019e)提出使用多個頻率的圖案來解決一個相機像素既看到前景又看到背景的情況(一個相機像素對應兩個投影儀像素);Zhang等人(2021c)認為一個相機像素可能看到多個投影儀像素,用信號稀疏的先驗知識的約束得到清晰的深度邊緣。
國內(nèi)科研機構(gòu)對于計算攝影學的研究起步較晚。在自動白平衡方面,Shi等人(2016c)提出了一種新的深度神經(jīng)網(wǎng)絡結(jié)構(gòu)來甄別與篩選圖像中可能的光照顏色;Hu等人(2017)則通過深度神經(jīng)網(wǎng)絡識別出圖像中易于推測出真實顏色的部分,從而計算出光照的顏色。在背景虛化方面,Shen等人(2016a,b)使用神經(jīng)網(wǎng)絡將人像圖片分割成前景與后景,并對后景進行均勻虛化;Zhu等人(2017a)進一步提出了加速人像前后景分割的算法。在連拍攝影方面,Tan等人(2019)提出了一種新的殘差模型(residual model)對連拍攝影進行降噪。
在端到端光學算法聯(lián)合設計方面,特別在基于可微光線追蹤的復雜透鏡的端到端設計方面,點昀技術(深圳、南通)有限公司已率先突破了各環(huán)節(jié)聯(lián)合優(yōu)化壁壘,同時該公司亦擁有全套可微衍射端到端設計及其應用,并處于國際領先地位。但當前主流的端到端光學算法聯(lián)合設計多出自國外研究團隊,國內(nèi)在相關領域仍需加強。但國內(nèi)相關成像產(chǎn)業(yè)發(fā)達,尤其是手機、工業(yè)和車載等領域,新技術的發(fā)展往往容易得到快速的產(chǎn)業(yè)化應用,并反向推進學術進展,形成良性循環(huán)。
在高動態(tài)范圍成像方面,國內(nèi)外產(chǎn)業(yè)界研究主要集中在多次曝光融合、濾光片光強調(diào)制或新型像素結(jié)構(gòu)等方法,學術界則不拘泥于量產(chǎn)需求,方法新穎且形態(tài)各異。針對消費電子等領域的 HDR成像應用,主要集中于手機廠商多次曝光融合方案或Staggered HDR傳感器,除華為Mate和P系列外,均使用高通平臺,然而平臺價格較貴,定制周期較長,國內(nèi)高性能圖像處理平臺較國外仍有較大差距,如蘋果、三星等均有自研平臺。就目前來看,靜態(tài)場景HDR成像的捕獲和處理已經(jīng)日臻成熟,但動態(tài)場景HDR成像仍有巨大的挑戰(zhàn)。從算法上,目前國內(nèi)外差距正逐漸縮小,部分技術已達到國際先進水平。從成像器件上,目前國內(nèi)外仍存在較大差距,大部分受限于半導體工藝、設計迭代周期等問題。從算法計算平臺上,國內(nèi)僅個別企業(yè)保持國際前列,其他廠商均依賴于國外廠商處理器產(chǎn)品。從新型方法上,國內(nèi)已出現(xiàn)國際領先的技術,如點昀技術孫啟霖團隊(Sun等,2020a)利用衍射元件和深度學習算法實現(xiàn)了相關的動態(tài)HDR解決方案。
在光場成像方面,國外在光場發(fā)展初期進行了較為深入的探索,尤其是美國、德國率先展開了光場基礎理論的研究和完善,逐漸搭建了光場深度估計、光場超分辨率和校準等方面的理論框架和基石。美國Lytro、Google和德國Raytrix同時也將光場成像應用于消費端、專業(yè)級和工業(yè)級,讓光場逐漸走進大眾的視野。國內(nèi)科研機構(gòu)和院所如清華大學、中國科學院自動化研究所、上海交通大學和西北工業(yè)大學等在國外研究的理論框架基礎上,針對特定需求,不斷深入開拓,在光場算法理論、光場應用上突破創(chuàng)新。從算法上,目前國內(nèi)外差距正逐漸縮小,部分技術已達到國際領先水平。當美國Lytro消費級光場相機于2018年退出市場后,德國Raytrix曾一度是國際上唯一的光場相機提供商。國內(nèi)的奕目科技VOMMA于2019年打破了這一壟斷,推出了系列自主工業(yè)級光場相機,并在芯片、屏幕模組和動力電池等3維缺陷產(chǎn)線檢測獲得了批量應用。基于中國更為廣泛的產(chǎn)業(yè)需求和政府的大力支持,國內(nèi)光場技術在以上領域的彎道超車基本已經(jīng)顯現(xiàn)。
在光譜成像方面,國內(nèi)在光譜成像,特別是快照式光譜成像研究上也有廣泛研究,在這一領域,國內(nèi)學者的研究與國外相比基本處于齊頭并進的狀態(tài),例如南京大學提出的PMVIS系統(tǒng)、浙江大學提出的深度學習驅(qū)動的寬譜濾光片編碼光譜成像技術,以及西安交通大學提出的分孔徑光譜成像,分別都是各自方向的代表性技術之一。但當前主流的光譜重建算法多出自國外研究團隊,國內(nèi)在光譜重建優(yōu)化算法方面的研究還有待加強。
在無透鏡成像方面,國內(nèi)外的研究目前都主要集中在光學系統(tǒng)的優(yōu)化設計和圖像重建算法的研究上。國外的研究兼顧這兩個方面,因此涌現(xiàn)出了諸如FlatCam,DiffuserCam,PhlatCam及Voronoi-Fresnel等不同形式的無透鏡光學方案,而且這些無透鏡系統(tǒng)進一步應用到了無透鏡的單幀圖像解析高速視頻、多光譜成像和隱私保護的目標識別等領域。而國內(nèi)的研究重心則在于利用現(xiàn)有的光學結(jié)構(gòu),研究高效的圖像重建算法,并將其應用到2維圖像重建和光場重建等逆問題上。由于深度學習的迅速發(fā)展,國內(nèi)外目前都在利用深度學習重建無透鏡成像系統(tǒng)方面進行相關的研究工作。
在低光照成像方面,通常以產(chǎn)業(yè)主導,比如谷歌、華為、蘋果等。從性能來看,華為手機的夜景模式已達領先水平,盡管在圖像增強方面,華為手機和蘋果手機選擇了略微不同的路線,前者追求觀感,后者強調(diào)真實。從發(fā)表的研究成果看,國外的影響力仍大于國內(nèi),如谷歌的相關夜景文獻正引領著行業(yè)發(fā)展。
主動3維成像方面,其魯棒性方面的研究(環(huán)境光干擾、非直接光干擾等)目前仍由國外高校主導,比如美國哥倫比亞大學的Shree Nayar團隊,沙特阿拉伯阿卜杜拉國王科技大學(King Abdullah University of Science and Technology, KAUST)的Wolfgang Heidirch團隊及其衍生團隊(美國斯坦福大學的Gordon Wetzstein團隊,美國普林斯頓大學的Felix Heide團隊,香港中文大學深圳孫啟霖團隊等),美國卡內(nèi)基梅隆大學(Carnegie Mellon University, CMU)的計算成像組,包括Srinivasa Narasimhan,Matthew P. O′Toole,美國威斯康辛大學麥迪遜分校的Mohit Gupta團隊,加拿大多倫多大學的Kyros Kutulakos團隊等。其原因可能在于此工作一般需要硬件、軟件結(jié)合,是光學、電子和機械方面的交叉學科,前期在光學儀器上的投入較大。
在計算攝影方面,與國外科研機構(gòu)相比,國內(nèi)的科研機構(gòu)對于計算攝影學的研究起步較晚。因此,歐美的科研機構(gòu)一般處于“領跑”的狀態(tài),而國內(nèi)的科研機構(gòu)更多的是屬于“跟跑”的狀態(tài):大多數(shù)計算攝影的開創(chuàng)性工作由歐美科研機構(gòu)開展,而國內(nèi)的科研機構(gòu)開展的主要是對其提出方法的改進與優(yōu)化。另一方面,國內(nèi)的手機廠商,如華為、榮耀、OPPO、小米和VIVO等,均在計算攝影方面投入了大量的研究,并發(fā)布了很多計算攝影相關的新產(chǎn)品。然而,這些企業(yè)發(fā)表的論文較少,希望未來這些來自工業(yè)界的研究機構(gòu)能夠通過論壇、白皮書和發(fā)表論文等方式更好地使科研人員跟進計算攝影的產(chǎn)業(yè)應用情況與發(fā)展狀態(tài)。
端到端光學算法聯(lián)合設計旨在打破傳統(tǒng)的成像系統(tǒng)中,光學、傳感器、圖像后處理算法以及顯示處理等環(huán)節(jié)之間的壁壘,降低每個環(huán)節(jié)對人經(jīng)驗的依賴,為諸多場景提供傻瓜式的全新解決方案。端到端光學算法聯(lián)合設計目前已有突破,可直接用于復雜透鏡及其后處理之間的相互優(yōu)化,且可兼容傳統(tǒng)的光學設計以及后端處理,擁有諸多的應用,如鏡片減薄、降低生產(chǎn)成本以及特殊功能應用。雖然該技術雖仍處于早期階段,但已成為各大相關產(chǎn)業(yè)競爭焦點,短期看,未來幾年便可得到相關產(chǎn)業(yè)應用。長期看,整體的趨勢不僅是光學、傳感器、算法和處理器的聯(lián)合設計優(yōu)化,而且朝著集成化發(fā)展,尤其是傳感器自身對ISP的集成和光學配合,會大幅降低整個光學、攝像模組行業(yè)的生產(chǎn)成本和降低下游廠商對高性能處理器的依賴和提高自由度。此外,隨著5G的發(fā)展,高速低延時通訊使得云端計算資源為手機計算成像部分需要復雜計算的應用提供了有力的保障,目前國內(nèi)外主流廠商均已經(jīng)開始布局。端到端成像技術的不斷完善有望對整體成像產(chǎn)業(yè)鏈進行重新洗牌,突破成本和功能瓶頸。
高動態(tài)范圍成像技術已逐步應用于消費電子、車載和工業(yè)等場景,且目前已經(jīng)成為手機廠商的競爭焦點,亦是車規(guī)級圖像傳感器的必要條件。未來技術發(fā)展的關注點 主要包括:1)以Two-bucket相機、大小像素結(jié)構(gòu)等為代表的新型模擬圖像傳感器,極大提升了低照度下的靈敏度和信噪比;SPAD陣列、QIS以及北京大學黃鐵軍團隊的Spiking Cameras(Zheng等,2021)等為代表的計數(shù)型圖像傳感器,在高度靈敏的同時,將模擬的電荷積分以數(shù)字計數(shù)器替代,具有極大的動態(tài)范圍和設計靈活性。2) 目前來看,傳統(tǒng)的算法和近年來基于深度學習的神經(jīng)網(wǎng)絡等,雖在最終效果上取得了巨大的成功,但仍然面臨算力消耗較為嚴重、速度慢和延時大等問題,尤其是在手機等對計算功耗極為敏感的場景以及工業(yè)、車載對延時敏感的場景。故而有兩種技術趨勢,一是將算法通過ASIC(application specific integrated circuit)門級電路優(yōu)化實現(xiàn),流式處理結(jié)構(gòu)可確保低功耗和低延時,適合移動端低功耗的要求,亦滿足工業(yè)、車載和軍事等對延時的苛刻要求,整體模組成本因器件減少會有做降低,當前點昀技術已實現(xiàn)了相關技術。另一種技術趨勢為云計算,將終端算力、功耗受限的場景上傳至云端進行計算、隨著5G低延時傳輸?shù)钠占?,當前多?shù)手機廠商、汽車廠商已經(jīng)在云端處理布局。
光場成像在過去幾年中發(fā)展迅速,尤其是在工業(yè)領域、VR/AR、生物醫(yī)療和自動駕駛領域逐步開展產(chǎn)業(yè)應用。針對不同產(chǎn)業(yè)的應用場景,對光場成像提出了不同的發(fā)展要求。未來技術發(fā)展的關注點主要包括:1)高精度3維重建。隨著光場逐步在工業(yè)場景得到應用,相對于其他3維測量技術,光場在同等測量視野下,精度成為最大限制和短板。2)對非朗伯體、無紋理區(qū)域和遮擋區(qū)域的3維重建。基于被動式成像的特性,光場的核心缺點和雙目成像類似,對于非朗伯體、無紋理區(qū)域存在局限,部分光場算法精度會降低或者失效。3)真實光照場景的高質(zhì)量重建。在虛擬現(xiàn)實領域,光場成像系統(tǒng)能夠?qū)⒍嘟嵌裙庹招畔⒊浞植杉,F(xiàn)有算法重構(gòu)的3維場景仍然存在不夠真實的問題。4)高性能3維重建。在自動駕駛和生物醫(yī)療領域?qū)τ?維測量的實時性和計算效率仍然存在瓶頸。
光譜成像在過去的幾年中得到了長足發(fā)展,特別是像素級濾光片陣列光譜成像技術,是未來極有可能在手機等移動端實現(xiàn)光譜成像系統(tǒng)落地的技術。但盡管超表面、光子晶體和銀納米線等平面濾光片器件極大地降低了像素級濾光片的制作的難度,這些新型濾光片器件普遍對角度敏感,使得真正用于實際場景時使用條件受限。未來迫切需要發(fā)展兼顧制備且對角度變化魯棒的濾光片器件,并輔以面向應用場景的濾光片光譜曲線和光譜重建算法端到端協(xié)同設計。此外,具有實時成像能力(采集和處理均實時)的像素級濾光片光譜成像技術高空間和高光譜分辨率難以兼顧,盡管已有一些多光譜融合的解決方案,但融合的光譜精度仍有待提升,如何以較低的時間代價高精度地獲取更高空間分辨率和更高光譜分辨率的高光譜圖像,在未來仍是一個十分值得研究的問題。
無透鏡成像系統(tǒng)具有極簡的硬件結(jié)構(gòu),將圖像的重建更多地轉(zhuǎn)移到相對廉價的算法之上,因此在簡化光學系統(tǒng)方面具有極強的應用價值。隨著深度學習算法的更廣泛應用,這種無透鏡成像的方式有望在計算環(huán)境成像、隱私保護和物聯(lián)網(wǎng)等諸多領域取得更廣泛的應用。
低光照成像目前取得了很大的進展,相關研究成果已經(jīng)得到廣泛應用,但仍存在一些問題,如單幀去噪因信息損失過多有成像質(zhì)量瓶頸;連拍去噪拍攝時間過長,運算復雜度也較高,在極弱光下依然無法使用;使用閃光燈的方法局限于短距離;新型傳感器如SPAD的空間分辨率較低,像素較大。低光照下拍視頻依然是難點、痛點。
主動3維成像在解決環(huán)境光干擾和非直接光干擾方面涌現(xiàn)了很多方案,大部分成果已經(jīng)申請專利,有的已經(jīng)投入使用。但是很多方案僅針對一個問題。對于3維成像,最終需要的是一個高空間分辨率和高時間分辨率、高深度準確性的傳感器,且在復雜惡劣的環(huán)境下也能穩(wěn)定工作,并且價格低廉。目前還缺少相關方法,短期內(nèi)可能會出現(xiàn)現(xiàn)有的方法和深度學習的結(jié)合的方案。點昀技術即將推出相關高精度、低延時的RGBD相機。
計算攝影在過去10年經(jīng)過了蓬勃的發(fā)展,大部分核心問題已經(jīng)基本得到解決。然而,仍舊存在一些問題:1)大部分計算攝影算法,如連拍攝影算法,無法做到實時。因此其算法僅能在拍攝時進行,而無法運行在取景器中。如何加速這些計算算法,使其可以實時運行是一個亟待解決的問題。2)計算攝影目前的重點仍舊局限在照片拍攝,而不是視頻拍攝。隨著各個短視頻平臺的興起,視頻拍攝逐漸成為主流。因此,高質(zhì)量視頻拍攝(低光照、高動態(tài)范圍)是一個值得研究的方向。3)目前的連拍攝影仍舊是在像素級別進行計算,如果將場景識別等方法結(jié)合到照片拍攝過程中,照片拍攝質(zhì)量可能會進一步得到提升。
致 謝本文由中國圖象圖形學學會三維視覺專業(yè)委員會組織撰寫,該專委會更多詳情請見鏈接:http://www.csig.org.cn/detail/2696。