王錦凱,宋錫瑾
(1.阿里巴巴(杭州),浙江 杭州 310023;2.浙江大學(xué))
計算機(jī)視覺(Computer Vision,CV)是進(jìn)入二十一世紀(jì)之后非?;钴S的研究方向,隨著圖像采集設(shè)備的不斷推陳出新,視覺信息生產(chǎn)的爆炸式增長,機(jī)器算力的不斷提升,以及深度神經(jīng)網(wǎng)絡(luò)模型的提出,視覺領(lǐng)域的圖像處理技術(shù)日新月異,所適用的領(lǐng)域場景在不斷拓寬,新的問題在被不斷定義。
傳統(tǒng)的圖像采集設(shè)備如攝像機(jī),監(jiān)控探頭,主要采集可見光波段的信息,形成圖像或者視頻記錄下來,其攜帶起來比較笨重,采集范圍很有限?,F(xiàn)如今各種移動設(shè)備和專業(yè)儀器的加入,采集的信息已經(jīng)拓廣至各電磁波波段,而由此也促使信息呈爆炸式增長,為計算機(jī)視覺領(lǐng)域算法的訓(xùn)練提供了大量的可用樣本,大大降低了獲取數(shù)據(jù)的難度和成本。
另一方面,GPU(Graphics Processing Unit,圖形處理器)的引入,為深度學(xué)習(xí)和并行計算插上了強(qiáng)有力的翅膀。以往的純CPU 計算,在面對諸如矩陣運(yùn)算,像素塊卷積時,只能線性的一個接一個執(zhí)行加減乘除,極大地限制了吞吐速度,而GPU 在誕生伊始,為了符合圖像和視頻的處理場景條件,設(shè)計上需要并行處理各個像素點(diǎn)或者像素塊的數(shù)學(xué)計算,因此天然帶有了上千上萬個算術(shù)邏輯單元(Arithmetic Logic Unit,ALU),對于處理互不相關(guān)獨(dú)立的數(shù)學(xué)計算非常方便,也大大加速了深度學(xué)習(xí)在計算和推理過程中經(jīng)常出現(xiàn)的矩陣運(yùn)算。
由于數(shù)據(jù)和算力的充足,進(jìn)入二十一世紀(jì)以后,之前幾乎被人拋棄的神經(jīng)網(wǎng)絡(luò)模型被再次提及,進(jìn)化為更大型更多層的深度神經(jīng)網(wǎng)絡(luò),因深度學(xué)習(xí)的泛化能力強(qiáng),需要的先驗(yàn)知識少,同時又能很好地利用目前大量的數(shù)據(jù),成為了到現(xiàn)在為止占據(jù)主導(dǎo)的算法。
本文接下來著重于闡述當(dāng)前計算機(jī)視覺在幾個領(lǐng)域的應(yīng)用場景,并提出一些可能的拓展,對未來的邊界予以展望。
計算機(jī)視覺目前主流的任務(wù)有四類:分類(Classification),檢測(Detection),識別(Identification),分割(Segmentation)。分類,即對一幅圖片進(jìn)行一個整體的劃分,研究者關(guān)注在一個圖片中占主要部分的物體的類別。分類的范圍是圖片的粒度,常見的公開數(shù)據(jù)集比如ImageNet,MNIST 都是以這樣的方式進(jìn)行分類,再用于后續(xù)的訓(xùn)練和測試。檢測,則是對圖像中物體進(jìn)行幾何定位,以包圍框(BoundingBox)的形式,把它框定出來,用于后續(xù)的識別。識別則是準(zhǔn)確地判斷出這個物體是什么或者是什么意思,最典型的比如人臉的重識別(Re-Identification),行人的重識別等。最后是分割,其目的比檢測更進(jìn)一步,在像素級別對圖像本身進(jìn)行區(qū)分,劃分出像素來自于不同的物體,以分割為基礎(chǔ),后續(xù)做AR/VR 互動的時候,可以讓真實(shí)世界準(zhǔn)確的與虛擬世界進(jìn)行交互,模擬現(xiàn)實(shí)世界的物理特性。
在深度神經(jīng)網(wǎng)絡(luò)被大范圍應(yīng)用之前,計算機(jī)視覺面臨的最重要的門檻就是特征工程。顧名思義,需要找到合適的特征來對你的研究對象進(jìn)行表征(比如經(jīng)典的Scale-invariant feature transform,SIFT 和Histogram of Oriented Gradient,HOG),好的特征需要對研究對象有足夠的了解才能夠獲得,比如早期的人臉識別,相關(guān)研究者通過提取出人臉上一些關(guān)鍵的部位和比例構(gòu)成一個特征向量,并以此來訓(xùn)練一組或者多組分類器,最終可以得到一個比較理想的人臉識別。但是在尋找合適的特征,組合合適的分類器過程當(dāng)中需要大量的試錯,也需要實(shí)驗(yàn)的人有很豐富的經(jīng)驗(yàn),因此這種做法很難推廣到其他各個領(lǐng)域,每個領(lǐng)域都需要很多專業(yè)知識來對特征進(jìn)行選取,無疑需要很高的人力成本和時間成本。
深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的引入為研究者們打開了新的大門,雖然CNN的概念早在上世紀(jì)八十年代就有被提及,但是淺層的CNN 的效果并不如前面提到的特征工程+分類器的方式。直到數(shù)據(jù)和算力的具備才使得深層的CNN 成為可能?,F(xiàn)今,業(yè)界的主流骨干架構(gòu)(Backbone)以CNN 為主,算法工程師們通過對經(jīng)典骨干架構(gòu)改造和調(diào)優(yōu),可以快速適配業(yè)務(wù),將模型遷移到自身的垂域上去。而開發(fā)工程師則嘗試從整個模型的訓(xùn)練,測試,推理等各個階段進(jìn)行加速,繼續(xù)降本提效。
2021 年,谷歌將之前自然語言處理領(lǐng)域(Natural Language Processing,NLP)比較火熱的Transformer(變形模型)引入到計算機(jī)視覺領(lǐng)域,其核心是注意力模型。在該領(lǐng)域,研究者們致力于尋找詞與詞之間的聯(lián)系,給定一組輸入的詞匯,可以找到與其有強(qiáng)關(guān)聯(lián)的詞匯輸出,使得機(jī)器可以更好地理解人類的語義。而將這個技術(shù)引入到視覺領(lǐng)域之后,將一幅圖像,切割為多個方塊,每個方塊有其自有的位置信息保留,然后一并輸入到Transformer 的架構(gòu)中進(jìn)行訓(xùn)練。在這個過程當(dāng)中,把這樣的一個個圖塊,看作了一個個單詞輸入,而其輸出亦可以是一個單詞或者是一組單詞,不管什么樣的訓(xùn)練任務(wù),最終都能抽象為一些“詞”的輸入,得到另一些“詞”的輸出。因?yàn)樵贜LP 領(lǐng)域取得的成功,以及在CV 領(lǐng)域的許多任務(wù)中取得了不亞于甚至超過CNN框架的準(zhǔn)確率,Transformer目前大有取代CNN成為新的行業(yè)標(biāo)桿的趨勢,正吸引著越來越多的研究者進(jìn)行探索。
隨著5G時代的來臨,人們獲取信息的主要方式已經(jīng)從文字和圖像過渡到視頻和語音,其攜帶的信息量成倍的提升,為了能夠更好地存儲,管理以及使用這些海量視頻,視頻分析成為一個必備的手段。視頻分析主要是通過計算機(jī)視覺的技術(shù)手段,將視頻當(dāng)中的內(nèi)容進(jìn)行分析,轉(zhuǎn)換成一些結(jié)構(gòu)化,半結(jié)構(gòu)化的信息。這些信息會更有利于使用數(shù)據(jù)庫進(jìn)行存儲,同時幫助計算機(jī)像人類一樣去理解一個視頻。
一般常見的視頻分析流程如圖1所示,首先,對一個視頻進(jìn)行解封裝和解碼,得到逐幀的圖像。之后對得到的幀進(jìn)行下采樣,這樣做的原因,一方面是視頻當(dāng)中圖像的變化,一般不足以快到只持續(xù)幾幀,目前通過網(wǎng)絡(luò)傳輸?shù)囊曨l的幀率在20fps 到30fps,適當(dāng)?shù)夭蓸硬粫绊懰惴ň?;另一方面,通過下采樣,也能提升系統(tǒng)的處理吞吐速度,節(jié)省成本。之后視覺算法會對幀圖像進(jìn)行諸如分類,檢測,識別,分割等任務(wù)的執(zhí)行,這里主要看實(shí)際應(yīng)用的需求場景以及所預(yù)計的計算成本,收益如何。
圖1 視頻分析的常見流程
經(jīng)過視頻分析得到的結(jié)果主要分成兩部分:整個視頻級維度的部分和片段(clip)維度的部分。視頻級維度一般是一整個視頻給出一個或者幾個概括性的分類的結(jié)果,稱之為標(biāo)簽,如“體育-足球”、“影視劇-故事劇”。標(biāo)簽的存在,幫助分析者對視頻有整體的把握,實(shí)際應(yīng)用場景下可以通過視頻標(biāo)簽做后續(xù)的視頻歸檔,視頻推薦甚至簡單的檢索。片段維度的視頻分析結(jié)果則復(fù)雜一些,每個片段結(jié)果由起止時間戳和分析結(jié)果構(gòu)成,最常見的如人臉的標(biāo)簽,一般需要分析出一個人臉何時出現(xiàn)在視頻的什么位置,這個人是誰,置信度有多少,如果無法在底庫中命中已知的人臉,也可以在整個視頻中標(biāo)記出來為陌生臉X,以便進(jìn)行后續(xù)的更新。再比如現(xiàn)在流行的直播帶貨視頻,需要分析出每個商品出現(xiàn)的時間段,以及展示的是什么樣的商品。有了這樣的信息,便于研究者更精準(zhǔn)的了解視頻的內(nèi)容,也可以很方便的進(jìn)行視頻片段的劃分和精準(zhǔn)投放,必要時也可以進(jìn)行敏感人物,敏感場景的過濾刪減。這對于當(dāng)前的各個視頻內(nèi)容生產(chǎn)平臺而言,是很必要的手段。
總的說來,視頻分析能力已經(jīng)成為視頻網(wǎng)站,各大媒體和檔案資料部門不可或缺的管理手段,視頻分析能力的質(zhì)量和效率,直接決定了其下游提供的各種服務(wù)能力和響應(yīng)速度。在一個萬物信息化的時代,以此為根據(jù),越來越多的個性化分析能力必將成為這個細(xì)分領(lǐng)域不可缺少的能力。而隨著生產(chǎn)和采集設(shè)備的多樣化,視頻分析結(jié)合多種多樣的信息輸入來提高其準(zhǔn)確率和精度也將成為一個熱門話題。
安全領(lǐng)域是一個老生常談的話題,而隨著科技的不斷進(jìn)步,現(xiàn)階段對安防提出了響應(yīng)更快捷,處理更智能化的要求。
以校園安防為例,除了傳統(tǒng)的攝像頭布控和人工監(jiān)控之外,AI技術(shù)的引入可以大大降低人力投入的成本,同時提高識別的效率和準(zhǔn)確率,圖2展示了當(dāng)前智能安防系統(tǒng)的常見結(jié)構(gòu)體系。校園安防首先需要對校園的全體師生和員工們進(jìn)行人臉采集和分類標(biāo)識,形成人臉底庫。在日常的監(jiān)控當(dāng)中,部署在校園內(nèi)外的各處的攝像頭可以對出現(xiàn)的活體人臉進(jìn)行檢測,同時識別到是否有陌生人進(jìn)入到校園附近的范圍,并根據(jù)事先設(shè)定的閾值進(jìn)行報警。陌生人臉經(jīng)由老師或者學(xué)生辨認(rèn),可以加入到人臉底庫成為可信人物或者上報到公安機(jī)關(guān)。在這個過程中,主要是使用各種目標(biāo)重識別技術(shù),如人臉重識別,行人重識別等。
圖2 智能安防的常見結(jié)構(gòu)體系
通過對多個攝像頭的數(shù)據(jù)綜合,可以還原目標(biāo)在校園內(nèi)外的行動軌跡,便于對校園突發(fā)事件進(jìn)行還原。此外,行為識別、擁堵檢測也是常見的處理技術(shù)。行為識別,利用時間和空間上的數(shù)據(jù)可以檢測出一些常見的行為,如走路,跑步,摔倒,打架,抽煙等,便于安保人員和有關(guān)領(lǐng)導(dǎo)快速掌握關(guān)鍵視頻段落。而擁堵檢測,可以對框定范圍內(nèi)的區(qū)域進(jìn)行人頭數(shù)清點(diǎn),一旦滿足一定的預(yù)設(shè)閾值,則會進(jìn)行擁堵報警,便于安保人員進(jìn)行提前到場進(jìn)行人流疏散。
可以說校園安防是一個計算機(jī)視覺處理技術(shù)綜合應(yīng)用的典型場景,除了應(yīng)用于校園,諸如公司園區(qū),工廠廠區(qū)等也正在嘗試接入這種新型的管理方式。視覺處理的算法技術(shù)應(yīng)對這些場景,一般只需要進(jìn)行簡便的參數(shù)調(diào)優(yōu),配置以相應(yīng)的底庫數(shù)據(jù),以及和攝像頭位置信息的互相配合,就可以達(dá)到比較好的效果。這使得大規(guī)模的推廣智能安防落地成為了可能,同時日常采集到的大量視頻和圖片數(shù)據(jù),則可以反哺背后的算法模型,不斷提升其精度和準(zhǔn)確率。各類園區(qū)有其實(shí)際的環(huán)境特性和工程部署難度,也需要技術(shù)人員在這個過程中不斷積累經(jīng)驗(yàn),快速應(yīng)對。
近年來,遙感衛(wèi)星數(shù)量不斷增長,在中國,每年有超過30顆的遙感衛(wèi)星發(fā)射升空,這些遙感衛(wèi)星被廣泛用于氣象,物種資源,測繪等領(lǐng)域,給相關(guān)研究人員帶來了海量的多波段數(shù)據(jù)。另一方面,隨著無人機(jī)更多的民用化,商用化,大量的低空飛行器也為人們帶來了粒度更細(xì),分辨率更高的地面視頻和圖像。豐富的影像數(shù)據(jù)和不斷發(fā)展的計算機(jī)視覺技術(shù)疊加,催生出了新一代的遙感+AI視覺技術(shù)。
遙感影像的常見分析任務(wù)包含但不限于地物分類,變化檢測,路網(wǎng)提取等。地物分類,是對圖像上的物體進(jìn)行分類,比如樓房,道路,水域,耕田等。雖然是一個分類問題,本質(zhì)上是一個視覺里的分割任務(wù),最終輸出的結(jié)果是對遙感影像里的各種語義進(jìn)行著色,凸顯其邊界和范圍。有了地面物體的信息之后,既可以在時序上對比前后兩次的遙感影像,進(jìn)行變化檢測。也可以在空間上進(jìn)行路網(wǎng),水網(wǎng)信息的提取,獲得一個城市的“脈絡(luò)圖”。變化檢測可以被用于檢測季節(jié)的變化,自然災(zāi)害帶來的變化,如洪澇,暴雪,地震等,以及人為帶來的變化,比如城市發(fā)展建設(shè),退耕還林等。而路網(wǎng),水網(wǎng)的信息提取則為把控地理空間上的信息提供了有力的幫助,通過對遙感影像的分析,可以大范圍,快速高效地進(jìn)行路網(wǎng)提取,再進(jìn)行從影像到地理坐標(biāo)系的映射,最終可將其納入到地圖系統(tǒng)當(dāng)中用于導(dǎo)航和提供基于地理信息的服務(wù)。
以上介紹的一些任務(wù)主要集中在可見光波段,而事實(shí)上,遙感衛(wèi)星所提供的數(shù)據(jù),覆蓋了從整個可見光波段,再到近紅外,短波紅外以及熱紅外波段,這些波段的數(shù)據(jù),同樣拓展了更多地物分類的場景以及語義,也使得計算機(jī)視覺技術(shù)加持的遙感影像分析可以被運(yùn)用到氣象預(yù)報,極端自然災(zāi)害監(jiān)測,森林火險預(yù)警,資源勘探等各種領(lǐng)域,這降低了處理海量數(shù)據(jù)的人工參與成本,同時提高了處理能力和響應(yīng)速度,并能獲得不俗的準(zhǔn)確率和召回率。
諸如此類的視覺應(yīng)用領(lǐng)域還有許多,常見的有醫(yī)療領(lǐng)域根據(jù)核磁、CT、B 超影像的早期癥狀診斷;工廠流水線上根據(jù)圖像識別來判斷工件的質(zhì)量,清點(diǎn)工件的數(shù)量;農(nóng)業(yè)領(lǐng)域通過視覺的方式無接觸的獲取植物當(dāng)前生長狀況。限于篇幅此處不一一展開陳述。可以說一般只要擁有足夠的規(guī)范數(shù)據(jù)和一個符合視覺任務(wù)的目標(biāo)定義,都可以讓計算機(jī)視覺技術(shù)一展身手。
本文主要介紹了當(dāng)前的計算機(jī)視覺圖像處理技術(shù)在視頻分析,安防監(jiān)控以及遙感影像分析等幾個領(lǐng)域的應(yīng)用場景。對于其帶來的降低人工處理分析成本,同時提高處理效率的能力給予了肯定,也探討了其可能的邊界拓展并展望了其在未來的價值。
可以說,目前的計算機(jī)視覺發(fā)展重點(diǎn)已經(jīng)從基礎(chǔ)能力的構(gòu)建逐漸過渡到細(xì)分垂直領(lǐng)域的探索了,雖然近年來有像Google 提出的Transformer 模型逐漸進(jìn)入到視覺領(lǐng)域,但是就目前看來,其本身的提升效果和幅度依然不夠明顯,泛化效果不如卷積神經(jīng)網(wǎng)絡(luò),性價比在工業(yè)界還達(dá)不到讓大家為此去重新設(shè)計底層部署邏輯與推理加速框架的地步。另一方面,計算機(jī)視覺本身的能力越來越成為一個基礎(chǔ)的模塊被集成在某個領(lǐng)域的大系統(tǒng)當(dāng)中去發(fā)揮具體的作用,由于理論和工程能力的不斷成熟,其應(yīng)用門檻也在不斷降低,正逐漸成為一個普惠的技術(shù)存在。
正因?yàn)槿绱耍?dāng)下研究的方向如果單純從提高模型的準(zhǔn)確率和召回率的角度出發(fā),實(shí)際的應(yīng)用價值比較低,也難以很快大范圍地推廣。更多時候帶來最終表現(xiàn)提升的往往是大量優(yōu)質(zhì)的數(shù)據(jù)和處理數(shù)據(jù)的方式方法。作為一門偏技術(shù)性的學(xué)科,擁有一些工程和實(shí)踐思維在目前來說更為重要,從降低使用成本,提升訓(xùn)練和推理的效率,提高泛化能力,降低應(yīng)用門檻和操作難度等這些角度去定義問題將更有實(shí)際意義。接下來的應(yīng)用研究方向,將是朝著更便捷的部署,更快的響應(yīng)速度,更廣闊的適用范圍,更靈活的自定義配置去落地實(shí)施。