張 坤, 王燁東, 李文元, 李昌祿, 雷志春*
(1.天津大學(xué) 微電子學(xué)院,天津 300072;2.海信視像科技股份有限公司,山東 青島 266071)
膚色檢測實(shí)質(zhì)上是在數(shù)字圖像中劃分皮膚和非皮膚區(qū)域的過程。隨著信息社會(huì)的發(fā)展,圖像和視頻已經(jīng)成為人們廣泛使用的信息載體,對于膚色檢測和處理的需求也日益增多。在各種計(jì)算機(jī)視覺任務(wù)中,膚色檢測已經(jīng)被應(yīng)用于人臉檢測[1]、人體追蹤[2]、表情識(shí)別[3]、手勢識(shí)別[4]、疲勞駕駛[5]、智能監(jiān)控[6]、中醫(yī)皮膚病診斷[7]以及敏感圖像過濾[8-9]等方面。近年來,“美圖秀秀”、“天天P圖”等人像自動(dòng)美化軟件受到了廣大女性用戶的喜愛,膚色檢測在網(wǎng)絡(luò)社交媒體中展現(xiàn)出很高的應(yīng)用價(jià)值。2019年度中國網(wǎng)絡(luò)視聽發(fā)展研究報(bào)告中[10]指出,截止2018年底,我國網(wǎng)絡(luò)視頻用戶總規(guī)模已達(dá)7.25億,短視頻、網(wǎng)絡(luò)直播等領(lǐng)域正表現(xiàn)出迅猛發(fā)展之勢,人們更加喜歡使用皮膚美化功能來使自己的皮膚表現(xiàn)得白皙、有吸引力。同時(shí),“智能電視”也迎來了發(fā)展革新的浪潮,膚色呈現(xiàn)作為衡量畫質(zhì)的重要指標(biāo)自然受到廣泛的關(guān)注。因此,膚色檢測作為膚色美化[11]、膚色增強(qiáng)[12]的關(guān)鍵步驟,也變得越來越重要。
近20年來,從最初的閾值分割法到現(xiàn)在的深度學(xué)習(xí)語義分割技術(shù),有大量膚色檢測相關(guān)的方法和理論被提出。文獻(xiàn)[13]中根據(jù)是否涉及物理成像過程將膚色檢測方法分為基于物理的方法和基于統(tǒng)計(jì)的方法,但由于需要使用光譜攝制儀等成像設(shè)備,基于物理的方法應(yīng)用范圍較小。根據(jù)是否需要獲取像素的空間分布信息,可以將膚色檢測方法分為基于區(qū)域的檢測方法和基于像素的檢測方法兩大類型,綜述文獻(xiàn)[14]中重點(diǎn)對基于像素的各種膚色檢測方法及其所涉及的相關(guān)技術(shù)進(jìn)行了總結(jié)。
上述文獻(xiàn)中所介紹的內(nèi)容主要是靜態(tài)的膚色檢測方法,而這些方法在非限制性場景中的實(shí)用性較低。值得注意的是,統(tǒng)計(jì)法和機(jī)器學(xué)習(xí)法依賴于一定規(guī)模的訓(xùn)練數(shù)據(jù)并受到數(shù)據(jù)集質(zhì)量的影響。雖然深度學(xué)習(xí)技術(shù)可以通過在特征提取網(wǎng)絡(luò)中增加隱藏層來提高精確度,但與此同時(shí),也將會(huì)增加訓(xùn)練時(shí)間和計(jì)算成本。自適應(yīng)技術(shù)可以在提高準(zhǔn)確率的同時(shí),減少或避免對數(shù)據(jù)集的依賴,維持較低的計(jì)算成本,具有極強(qiáng)的實(shí)用價(jià)值。本文對自適應(yīng)膚色檢測方法近20年來的研究成果進(jìn)行了歸納總結(jié),主要從基于參數(shù)動(dòng)態(tài)調(diào)整和基于高層語義特征的自適應(yīng)膚色檢測方法入手,介紹了各類代表性方法,并進(jìn)行了分析和討論。
為了便于理解膚色檢測技術(shù)的研究背景,本部分簡要介紹了傳統(tǒng)的靜態(tài)膚色檢測技術(shù)以及近些年應(yīng)用較廣的深度學(xué)習(xí)方法,并分析了這些技術(shù)在實(shí)際場景中所面臨的難題,介紹了幾種常用的性能評價(jià)指標(biāo)。
靜態(tài)膚色檢測方法主要通過使用某種固定規(guī)則來實(shí)現(xiàn)膚色檢測,主要涉及色彩空間的選擇、膚色模型的建立兩大步驟。本文總結(jié)了常見的靜態(tài)膚色檢測方法,詳細(xì)分類如圖1所示。
圖1 靜態(tài)膚色檢測技術(shù)
色彩空間是一種表示顏色的抽象數(shù)學(xué)模型,常用的色彩空間有RGB、YCbCr、HSV等,膚色在不同色彩空間中的分布特征存在差異,如圖2所示。根據(jù)色彩模型構(gòu)建的方式不同,靜態(tài)膚色檢測方法可以細(xì)分為閾值法、統(tǒng)計(jì)法、機(jī)器學(xué)習(xí)法、區(qū)域生長法等。
閾值法是一種實(shí)現(xiàn)簡單、計(jì)算量小、速度快的分割方法[15],閾值法的性能表現(xiàn)與所設(shè)定的閾值密切相關(guān),適用于目標(biāo)和背景存在明顯灰度級(jí)差異的場景,而在復(fù)雜環(huán)境中無法準(zhǔn)確地描述膚色的分布。統(tǒng)計(jì)法根據(jù)膚色樣本在色彩空間中的分布構(gòu)建膚色概率圖(Skin Probability Map,SPM),即在離散化的色彩空間中為每個(gè)點(diǎn)分配概率值,然后利用建立起來的SPM判斷待檢測顏色是否屬于膚色。非參數(shù)化模型通常使用直方圖估計(jì)樣本的SPM,主要方法包括自組織映射(Self-Organizing-Map,SOM)、查找表(Look-Up-Table,LUT)、貝葉斯分類器等方法。但是建立可靠的非參數(shù)化模型需要較大規(guī)模的膚色樣本點(diǎn)和較高的存儲(chǔ)空間。參數(shù)化方法則根據(jù)膚色聚類特性,直接使用高斯模型或橢圓模型等已有模型進(jìn)行擬合即可。由于參數(shù)化模型可以在較少訓(xùn)練樣本中得到可靠的SPM,因此常被用于自適應(yīng)方法[16-17]。機(jī)器學(xué)習(xí)方法與統(tǒng)計(jì)法類似,即通過學(xué)習(xí)訓(xùn)練樣本中的規(guī)律來實(shí)現(xiàn)膚色檢測,但與之不同的是機(jī)器學(xué)習(xí)技術(shù)不需要建立明確的膚色模型,而是將膚色檢測視為一個(gè)二分類的過程。其中常用的方法有支持向量機(jī)(Support Vector Machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)等。
圖2 膚色分別在(a) HSV, (b) YCbCr, (c) RGB色彩空間中的分布特征[15]。
上述膚色檢測方法主要是通過每個(gè)像素點(diǎn)的色彩信息判斷其是否屬于膚色點(diǎn),沒有考慮像素與像素之間關(guān)系,而基于區(qū)域的方法則主要通過像素之間的空間關(guān)系來進(jìn)行判斷。區(qū)域生長法從種子點(diǎn)開始,不斷向周圍進(jìn)行擴(kuò)散,將具有與種子相似屬性的鄰近像素附加到每個(gè)種子上,并繼續(xù)向周圍擴(kuò)散,直到遇到邊緣或者臨近像素均不與種子點(diǎn)相似為止。區(qū)域生長法可以使用圖像的紋理特征,對去除背景有一定幫助,但是區(qū)域生長法十分依賴種子點(diǎn)的選取,并且在實(shí)際圖像尺寸中需要較大的計(jì)算量[15]。
值得注意的是,近些年來機(jī)器學(xué)習(xí)得到了空前的發(fā)展,神經(jīng)網(wǎng)絡(luò)的層數(shù)越來越多,學(xué)習(xí)到的特征也越來越豐富,深度學(xué)習(xí)逐漸發(fā)展成為解決圖像問題的一個(gè)重要的分支,在膚色檢測領(lǐng)域也得到了越來越多的關(guān)注。
Lumini等學(xué)者[18]發(fā)現(xiàn)使用SegNet[19]、Unet[20]、DeepLab[21]等深度學(xué)習(xí)語義分割網(wǎng)絡(luò)檢測膚色能夠獲得明顯優(yōu)于傳統(tǒng)方法的結(jié)果。一方面,借助深層的特征提取網(wǎng)絡(luò),深度學(xué)習(xí)網(wǎng)絡(luò)可以有效地提取膚色區(qū)域的顏色、紋理等特征,有助于減輕復(fù)雜背景的干擾,提升檢測精確度,因此深度學(xué)習(xí)方法通常能夠得到比傳統(tǒng)方法更加出色的檢測效果。但另一方面,深度學(xué)習(xí)方法需要使用大量標(biāo)注的皮膚數(shù)據(jù)進(jìn)行訓(xùn)練,而像素級(jí)的準(zhǔn)確標(biāo)注仍是一項(xiàng)艱巨的任務(wù)。盡管Dourado等學(xué)者[22]以及He等學(xué)者[23]已經(jīng)嘗試通過遷移學(xué)習(xí)和多任務(wù)弱監(jiān)督技術(shù)來減弱網(wǎng)絡(luò)對大量標(biāo)注膚色數(shù)據(jù)集的依賴,但是一個(gè)性能優(yōu)異的膚色檢測網(wǎng)絡(luò)通常需要結(jié)構(gòu)復(fù)雜的特征提取網(wǎng)絡(luò)以及較長的訓(xùn)練時(shí)間。在深度學(xué)習(xí)中,檢測精度和速度之間的矛盾也在一定程度上制約了深度學(xué)習(xí)膚色檢測在實(shí)際中的應(yīng)用。例如DeepLab通用分割網(wǎng)絡(luò)的深度較大,能得到出色的精度,在本文第3章的實(shí)驗(yàn)對比中有所體現(xiàn)。但對于一張306×306的輸入圖像,即使在TITAN X GPU中也僅能獲得8 FPS (Frames Per Second)的速度,與實(shí)時(shí)性要求差距較大。因此在一些實(shí)時(shí)性要求高、運(yùn)行設(shè)備性能低的情況下,深度學(xué)習(xí)方法可能不是最佳的選擇。
靜態(tài)和深度學(xué)習(xí)膚色檢測技術(shù)主要受到以下因素的影響:
一方面,在非限制性場景中,光照分布和強(qiáng)度的改變都會(huì)導(dǎo)致膚色出現(xiàn)變化,是影響膚色檢測性能的最重要因素之一;其次,種族、性別等個(gè)體差異,化妝等皮膚涂覆手段、相機(jī)傳感器的性能和參數(shù)、圖像的尺寸、清晰度、噪聲以及調(diào)色處理過程等都會(huì)對膚色造成影響;此外,去除背景中與膚色相近的顏色干擾也是一個(gè)比較困難的問題。雖然深度學(xué)習(xí)方法可以在一定程度上改善上述問題,但是網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度高、訓(xùn)練成本大、不易平衡精度與速度的特點(diǎn)限制了其實(shí)際應(yīng)用范圍。另一方面,數(shù)據(jù)集是獲取先驗(yàn)規(guī)則或訓(xùn)練模型的基礎(chǔ),但是標(biāo)注數(shù)據(jù)工作量大,目前公開的膚色數(shù)據(jù)集較少、質(zhì)量不高,不同種族覆蓋程度不均衡等因素也限制著膚色檢測技術(shù)的發(fā)展。
膚色檢測的評價(jià)指標(biāo)主要分為定性和定量兩種。其中定性方法將膚色檢測結(jié)果可視化為二值圖像,通過主觀判斷來確定膚色檢測的好壞。膚色檢測任務(wù)實(shí)質(zhì)上是對每個(gè)像素進(jìn)行的二分類任務(wù),因此研究中常用的定量分析指標(biāo)有:
(1)
(2)
(3)
(4)
(5)
(6)
式中,TP(True positive)、TN(True negative)分別代表正確分類為膚色和背景的樣本數(shù),F(xiàn)P(False positive)、FN(False negative)分別代表錯(cuò)誤分類為膚色和背景的樣本數(shù),在膚色檢測中總樣本數(shù)是圖像中的總像素?cái)?shù)。式(1)~(6)中,F(xiàn)NR、FPR、Precision、Recall、Accuracy以及F-measure分別代表漏檢率、誤檢率、精確率、檢出率、準(zhǔn)確率和F值,其中F值常被用作膚色檢測器的綜合性能指標(biāo)。除此之外,還有ROC曲線[24]、混淆矩陣行列式[25]等定量分析指標(biāo)。
在非限制性場景中,膚色容易受到光照變化的影響,從而出現(xiàn)不同程度的亮度和色彩偏移。人眼具有顏色恒常性的特點(diǎn)[26],即人可以在圖像整體存在色調(diào)偏移時(shí)正確識(shí)別出圖像中物體原有的顏色,而拋開了所受光照的影響。然而,目前人們并未研究透徹顏色恒常性的機(jī)制,無法得到完美覆蓋不同環(huán)境的靜態(tài)方法,同時(shí)在很多場景中對實(shí)時(shí)性有較高的要求,因此研究學(xué)者提出了各種自適應(yīng)膚色檢測技術(shù)來加以解決。在本文中,自適應(yīng)膚色檢測方法主要分為兩種:基于參數(shù)動(dòng)態(tài)調(diào)整和基于高層語義特征的自適應(yīng)膚色檢測方法。
3.1.1 自適應(yīng)閾值法
雖然使用特定的閾值方法具有實(shí)現(xiàn)簡單、易于調(diào)整、計(jì)算成本低的特點(diǎn),但是固定閾值無法適應(yīng)光照變化的環(huán)境,針對這種情況,學(xué)者們提出使用自適應(yīng)閾值法來提高檢測準(zhǔn)確性,光照變化通常會(huì)給皮膚帶來亮度和顏色上的變化。許多膚色檢測算法選擇舍棄亮度分量,而Jayaram等學(xué)者[27]在850張圖像中對比了使用亮度分量和不使用亮度分量的方法,發(fā)現(xiàn)亮度分量可以提供不同層次的皮膚顏色信息,因此設(shè)定一組隨亮度信息變化的規(guī)則可以達(dá)到自適應(yīng)膚色檢測的目的。Gracia等學(xué)者[28]在YCbCr和HSV色彩空間中分別設(shè)定了一組受亮度控制的膚色檢測規(guī)則,有效提高了不均勻光照環(huán)境中的檢測準(zhǔn)確率。由于該方法在兩個(gè)色彩空間中使用的是同一種實(shí)現(xiàn)方案,因此本文只介紹YCbCr色彩空間中的自適應(yīng)閾值規(guī)則,即如果像素滿足以下條件,則將其判定為膚色像素:
(7)
(8)
.
(9)
Cho等學(xué)者[29]在HSV色彩空間中初始化了一組閾值H(0.4, 0.7),S(0.15, 0.75),V(0.35, 0.95),然后根據(jù)S-V平面的直方圖信息進(jìn)行閾值更新。該方法對顏色復(fù)雜的場景表現(xiàn)不佳,只適用于背景簡單的限制性場景,使用類似方法更新閾值的還有文獻(xiàn)[30-31]。
郭聳等學(xué)者[32]提出了一種基于膚色相似度的自適應(yīng)閾值方法,通過計(jì)算類間方差、類內(nèi)離散相似度的方式確定分割膚色的最佳閾值,減輕了Adaboost人臉檢測算法的計(jì)算負(fù)擔(dān),但是對人臉檢測率提升較小。
張明吉等學(xué)者[33]利用4種線索輔助建立最優(yōu)閾值。該方法認(rèn)為最優(yōu)閾值通常位于膚色概率分布圖的某個(gè)谷底,且一般靠近膚色峰左側(cè)?;诖艘?guī)則,作者使用機(jī)器學(xué)習(xí)技術(shù)尋找最滿足條件的谷底位置作為最優(yōu)閾值。結(jié)果顯示,該方法可以獲得88.6%的檢出率,12.1%的誤檢率,其中檢出率與Cho等學(xué)者[29]的結(jié)果相比較提高了11.76%。Phung等學(xué)者[34]提出了一種利用人體皮膚紋理特征來選擇合適膚色閾值的膚色檢測方法,結(jié)合非顏色特征能夠有效提高膚色模型的性能,該方法得到了4.5%的誤檢率和4.0%的漏檢率。
自適應(yīng)閾值法雖然能夠在一定程度上提升膚色檢測效果,但是在復(fù)雜背景中不容易得到可靠的閾值范圍,同時(shí)在某些情況下閾值法難以精確描述膚色的分布情況。
3.1.2 自適應(yīng)橢圓模型
膚色在YCbCr等色彩空間的色度平面中通常呈現(xiàn)橢圓分布,但是在光照變化、不同人種等情況下,固定的橢圓模型不一定能準(zhǔn)確描述實(shí)際膚色。
李曉光等學(xué)者[35]提出了一種在DCT壓縮域中使用的動(dòng)態(tài)橢圓模型。作者利用圖像亮度對色度聚類造成的非線性影響,根據(jù)亮度變化采用不同參數(shù)的橢圓模型表示膚色,形成了一種三維的橢圓模型,可以適應(yīng)于不同的光照強(qiáng)度。
Hsu等學(xué)者[17]提出了一種使用光照補(bǔ)償?shù)淖赃m應(yīng)橢圓模型,如圖3所示。首先判斷圖像中參考白(前50%亮度)的像素個(gè)數(shù),如果大于某個(gè)閾值,則對RGB圖像各分量進(jìn)行線性調(diào)整。同時(shí)作者為了消除膚色和亮度分量之間的非線性關(guān)聯(lián),提出了YCb'Cr'色彩空間,并在Cb'Cr'平面建立橢圓模型用于膚色檢測。該方法對一般光照強(qiáng)度變化適應(yīng)較好,但是在復(fù)雜的光照環(huán)境中,光照補(bǔ)償可能使圖像更糟,同時(shí)也未能很好地解決偏色問題。
(a) YCbCr色彩空間(a) Color space of YCbCr
(b) CbCr子空間投影(b) Projection of CbCr subspace
夏思宇等學(xué)者[36]在Hsu基礎(chǔ)上提出了一種自適應(yīng)橢圓模型,使用白平衡法代替Hsu中的亮度補(bǔ)償,利用退水法從二維直方圖中獲取新的橢圓模型中心,然后使用調(diào)整后的橢圓模型進(jìn)行膚色檢測。該方法中的結(jié)果一定程度上依賴于白平衡算法的實(shí)際效果以及退水法選擇膚色峰的精確度。曾飛等學(xué)者[37]在Hsu自適應(yīng)模型基礎(chǔ)上,設(shè)計(jì)了可以隨光照環(huán)境變化改變長短軸的橢圓模型,以解決人臉檢測中的色彩偏移問題。在200張不同環(huán)境的測試圖像中,改進(jìn)的模型相比Hsu的橢圓模型提高了3.5%的人臉檢測精確率,同時(shí)漏檢率和誤檢率也得到了一定程度的降低。
橢圓模型可以刻畫膚色在色度平面的分布特征,但是難以描述膚色在橢圓區(qū)域中的概率分布,此外,在橢圓模型建立不準(zhǔn)確時(shí),會(huì)產(chǎn)生較差的效果。
3.1.3 自適應(yīng)高斯模型
高斯模型是一種有效描述膚色分布的方法,描述了膚色的概率分布情況,主要使用的是單高斯模型(Single Gaussian Model,SGM)和混合高斯模型(Gaussian Mixture Model,GMM)。Sun等學(xué)者[16]提出了一種基于直方圖技術(shù)和動(dòng)態(tài)GMM的視頻皮膚區(qū)域跟蹤方法。通過預(yù)訓(xùn)練的膚色模型對檢測器進(jìn)行初始化,然后利用GMM估計(jì)皮膚像素的分布,對每一幅圖像的膚色模型進(jìn)行微調(diào)。
熊霞[38]使用相關(guān)矩陣法對環(huán)境光照進(jìn)行了估計(jì),主要分為室內(nèi)白熾燈、室外晴天、室內(nèi)日光燈、室外陰天,如果檢測圖像屬于某一預(yù)設(shè)的光照環(huán)境,則使用對應(yīng)單高斯模型進(jìn)行檢測;反之,則使用4個(gè)SGM組成的GMM進(jìn)行膚色檢測。
張情等學(xué)者[39]在移動(dòng)端掌紋分割應(yīng)用中,通過“工”字形輔助定位手掌中心的小塊區(qū)域,得到該子區(qū)域Cb、Cr的均值mf,根據(jù)圖像中所有像素點(diǎn)到mf的歐氏距離進(jìn)行排序,選擇距離小的點(diǎn)作為膚色參考點(diǎn)生成單高斯模型進(jìn)行后續(xù)膚色檢測。江國來等學(xué)者[40]使用固定閾值獲得膚色的高概率區(qū)域。然后由此得到高斯模型的均值和方差參數(shù),再使用高斯模型進(jìn)行膚色檢測,對檢測結(jié)果中位于固定閾值之外的膚色區(qū)域,使用貝葉斯分類器做進(jìn)一步判斷。其中高概生成的高概率區(qū)域和最終結(jié)果如圖4所示。
圖4 文獻(xiàn)[40]方法中的(a) 原圖, (b) 膚色高概率區(qū)域, (c) 最終結(jié)果。
高斯模型作為一種普遍使用的參數(shù)化模型,能夠較好地刻畫膚色的分布規(guī)律,常用于進(jìn)行膚色概率圖的構(gòu)建,在許多其他自適應(yīng)模型中也有所體現(xiàn),單獨(dú)使用高斯模型的自適應(yīng)文獻(xiàn)相對較少。
3.1.4 其他自適應(yīng)模型
Khan等學(xué)者[41]提出了一種自動(dòng)切換色彩空間的方法。該方法使用馬科維茲最優(yōu)化理論對不同色彩空間在膚色檢測中的實(shí)際表現(xiàn)進(jìn)行評估,并由此設(shè)定每個(gè)色彩分量的權(quán)重參數(shù)。這種方法可以利用色彩空間的不同特性進(jìn)行最優(yōu)組合,但是會(huì)大大提高檢測方法的計(jì)算復(fù)雜度,類似的方法還有文獻(xiàn)[42-43]等。自動(dòng)選擇色彩空間的方法試圖尋找最優(yōu)空間,但受色彩空間本身的限制,這種方法不一定能夠獲得明顯的優(yōu)化效果,但卻會(huì)帶來較大的計(jì)算負(fù)擔(dān)。
Brancati等學(xué)者[44]發(fā)現(xiàn)在YCbCr的子空間YCb和YCr中,膚色分布表現(xiàn)為梯形,如圖5所示。通過方程擬合兩個(gè)子空間的梯形邊界,可以確定膚色的色彩范圍。實(shí)驗(yàn)結(jié)果顯示該方法在背景簡單的情況下,對高低亮度均可以獲得較好的結(jié)果,但是容易受大面積明、暗背景的影響而出現(xiàn)錯(cuò)誤。
圖5 Brancati[44]提出的梯形膚色分布。(a)室內(nèi);(b)室外;(c)弱光環(huán)境。
在實(shí)際的膚色檢測任務(wù)中,由于變化的光照環(huán)境、復(fù)雜的背景等因素影響,僅依靠色彩信息或簡單紋理構(gòu)建模型將不可避免地出現(xiàn)性能下降的現(xiàn)象。針對上述問題,學(xué)者們利用人臉等高層特征確定膚色區(qū)域,并根據(jù)可靠的膚色信息建立或調(diào)整膚色模型。
由于膚色是特指人體皮膚所表現(xiàn)出的顏色,而人臉作為圖像中最常出現(xiàn)的膚色載體,同時(shí)人臉也是人眼重點(diǎn)關(guān)注的區(qū)域,通過建立膚色與人臉之間的聯(lián)系可以有效提高膚色檢測模型的適應(yīng)性。此類方法通常假設(shè)圖像中至少有一個(gè)可靠的人臉,并且能夠被有效地檢測到[45]。Wimmer等學(xué)者[25]首次利用膚色與人臉在同一幅圖像中的相關(guān)性,提出了可動(dòng)態(tài)調(diào)整的膚色模型,混淆矩陣的行列式平均值可達(dá)78.1。同時(shí)給出了3種對人臉區(qū)域膚色建模的常用方法:立方體聚簇、橢圓型聚簇以及基于規(guī)則的聚簇表示法。其中,立方體聚簇是通過計(jì)算每個(gè)分量在樣本中的平均值和標(biāo)準(zhǔn)差。由于膚色分布為類高斯分布,因此通常根據(jù)95%置信區(qū)間近似邊界設(shè)定色彩分量的上下限:
lr=μr-2σr,ur=μr+2σr,
(10)
lg=μg-2σg,ug=μg+2σg,
(11)
lbase=μbase-2σbase,ubase=μbase+2σbase,
(12)
式中,σI和μI分別代表對應(yīng)分量的標(biāo)準(zhǔn)差和均值,l和u分別代表對應(yīng)分量的上下界。橢圓型聚簇是根據(jù)待檢測顏色cp與人臉區(qū)域膚色均值μ之間的馬氏距離(Mahalanobis distance)mp來確定概率的,其中馬氏距離mp表示為:
mp=(cp-μ)TS-1(cp-μ),
(13)
如果馬氏距離mp小于閾值t,則可以認(rèn)為當(dāng)前顏色屬于膚色,反之則屬于非膚色。
圖6 Tan等學(xué)者[47]使用的檢測人眼區(qū)域的方法
Yogarajah等學(xué)者[46]的研究也證實(shí)了以人臉顏色信息為依據(jù),構(gòu)建動(dòng)態(tài)膚色模型的可行性。Tan等學(xué)者[47]使用機(jī)器感知工具箱(Machine Perception Toolbox)[48]中預(yù)訓(xùn)練的 Haar-GentleBoost模型檢測人臉和人眼位置,并以兩眼中心點(diǎn)為原點(diǎn)獲取人眼橢圓區(qū)域,如圖6所示。然后經(jīng)過Sobel邊緣檢測去除紋理區(qū)域,并使用直方圖與GMM的混合策略來生成膚色模型,需要對每一個(gè)檢測到的人臉進(jìn)行一次操作,最終將結(jié)果進(jìn)行融合。但是由于人臉和人眼通常尺寸較小,僅根據(jù)其Haar-like特征進(jìn)行檢測容易受到畫面中其他相似區(qū)域的干擾,從而產(chǎn)生較高的誤檢率。本方法的性能幾乎完全取決于人臉和人眼檢測的精確度,結(jié)果中的漏檢和誤檢將容易導(dǎo)致無法建立準(zhǔn)確的膚色模型,如圖7所示。
(a)原圖像(a)Original pictures
(b)錯(cuò)誤檢測結(jié)果(b)Wrong results of skin detection圖7 Tan等學(xué)者[47]方法中誤檢人臉時(shí)產(chǎn)生的膚色分割結(jié)果
方晶晶等學(xué)者[49]首先使用Adaboost人臉檢測器自動(dòng)獲取人臉的位置,并使用固定閾值排除明顯不是膚色的區(qū)域,然后利用GMM來擬合人臉中心區(qū)域的色彩信息,從而形成適應(yīng)性的膚色模型。Luo等學(xué)者[50]提出了一種基于人臉定位和面部結(jié)構(gòu)估計(jì)的自適應(yīng)皮膚檢測器,其中排除了紋理區(qū)域,提取了人臉的中心平滑區(qū)域來生成皮膚模型。此方法構(gòu)建的膚色檢測器在TDSD數(shù)據(jù)集(Test Database for Skin Detection)[51]中性能表現(xiàn)良好,能得到93.74%的準(zhǔn)確率和87.42%的檢出率。但是本方法為了提高精度,引入了多個(gè)高斯模型來獲取人臉區(qū)域的膚色分布,在對當(dāng)前圖像生成概率圖之后,還需要再使用動(dòng)態(tài)閾值法確定最終區(qū)別膚色與非膚色的概率閾值,因此該方法在提高結(jié)果的同時(shí)引入了大量的計(jì)算量和時(shí)間開銷。此外,Mohanty等學(xué)者[52]和Shifa等學(xué)者[6]使用了RGB, HSV, YCbCr的聯(lián)合色彩空間來優(yōu)化基于人臉的膚色模型。
上述研究都論述了如何從人臉區(qū)域獲取可靠膚色,但并未考慮如何避免與膚色顏色相近的復(fù)雜背景對膚色檢測造成的干擾。Bianco等學(xué)者[53]根據(jù)皮膚區(qū)域是人體區(qū)域的一個(gè)子集的事實(shí),提出了使用人體檢測來優(yōu)化膚色檢測結(jié)果的方法,從而降低復(fù)雜背景的干擾,提供相對于單獨(dú)使用人臉檢測方案更可靠的膚色模型,可以在TDSD中得到更好的綜合性能。該方法檢測人體區(qū)域的過程如圖8所示。
圖8 Bianco等學(xué)者[53]所使用的人體區(qū)域檢測示意圖
基于人的面部與手部具有相似膚色的假設(shè),Hsieh等學(xué)者[45]還提出了一種應(yīng)用于手勢識(shí)別的融合模型。該方法通過Viola-Jones[54]人臉檢測器定位人臉位置,舍棄總像素?cái)?shù)小于閾值的人臉區(qū)域以達(dá)到減弱誤檢現(xiàn)象的目的,使用人臉的中心區(qū)域生成膚色模型。在歸一化和標(biāo)準(zhǔn)RGB的混合空間[r,g,R]中,依據(jù)人臉直方圖分布規(guī)律形成自適應(yīng)性的膚色模型,表現(xiàn)出對種族、膚質(zhì)、偏色、光照環(huán)境等良好的適應(yīng)性,整體過程可以實(shí)現(xiàn)640×480下39.5 FPS的處理速度,平均精度達(dá)到95.73%?;诟邔诱Z義的自適應(yīng)方法與深度學(xué)習(xí)方法相比,在處理速度上和實(shí)現(xiàn)復(fù)雜度上具有一定優(yōu)勢。
在TDSD數(shù)據(jù)集中,本文定量地分析了上述幾種自適應(yīng)動(dòng)態(tài)膚色檢測方法,如表1所示。同時(shí)在表中也對比了一種常用的深度學(xué)習(xí)網(wǎng)絡(luò)DeepLab v3+,使用文獻(xiàn)[18]中的訓(xùn)練方法進(jìn)行測試分析。實(shí)驗(yàn)結(jié)果表明,基于高層語義特征的自適應(yīng)方法通常能獲得比基于動(dòng)態(tài)參數(shù)調(diào)整的自適應(yīng)模型更高的準(zhǔn)確率和綜合性能。雖然Bianco等人[53]的方法可以獲得0.854 0的綜合性能,但是該方法在無法檢測到人體時(shí)會(huì)出現(xiàn)性能衰退。Luo等人[50]的方法與前面的方法相比,可以實(shí)現(xiàn)較高的精確度,但會(huì)增大計(jì)算量,對實(shí)時(shí)性表現(xiàn)會(huì)造成一定的影響。與深度學(xué)習(xí)方法相比,自適應(yīng)方法表現(xiàn)出較為接近的綜合性能,在訓(xùn)練時(shí)間和計(jì)算成本上自適應(yīng)方法占有一定的優(yōu)勢,同時(shí)減輕了對大規(guī)模膚色數(shù)據(jù)集的依賴。
表1 膚色檢測方法對比
自適應(yīng)動(dòng)態(tài)膚色檢測方法是對傳統(tǒng)方法的改進(jìn),避免了過高的訓(xùn)練耗時(shí),更加著重于實(shí)用性和易操作性,針對不同的應(yīng)用場景可選擇使用不同的自適應(yīng)方法?;诟呒?jí)語義特征的方法利用了膚色與人臉等部位之間的相關(guān)性,能夠構(gòu)建符合當(dāng)前圖像的膚色模型,但是容易受到人臉檢測精確度、人臉非膚色區(qū)域的影響。在視頻等圖像序列中可以通過人臉跟蹤建立隨時(shí)間變化的動(dòng)態(tài)模型。參數(shù)自適應(yīng)調(diào)整參數(shù)的方法,雖然難以適應(yīng)各種的復(fù)雜環(huán)境,但是在大多數(shù)應(yīng)用場景中可以大幅提升傳統(tǒng)方法的效率,滿足實(shí)際使用需求。
在高性能、輕量化的深度學(xué)習(xí)技術(shù)全面產(chǎn)業(yè)化之前,實(shí)際非限制性場景中的膚色檢測主要還是以自適應(yīng)方法為主。隨著硬件水平的不斷增長,自適應(yīng)方法可以結(jié)合部分深度學(xué)習(xí)技術(shù),例如已經(jīng)較成熟的輕量級(jí)人臉檢測、跟蹤網(wǎng)絡(luò)來實(shí)現(xiàn)輔助檢測;此外,可以通過使用更有效的色彩空間、形態(tài)學(xué)后處理步驟、不同的膚色檢測算法組合來提高精度、降低復(fù)雜度。未來的膚色檢測任務(wù)將會(huì)更加注重實(shí)時(shí)性的需求,與顯卡等并行計(jì)算設(shè)備的結(jié)合也將是一個(gè)研究方向。
本文總結(jié)歸納了自適應(yīng)動(dòng)態(tài)膚色檢測方法的研究現(xiàn)狀,從基于色彩模型和基于人臉檢測的自適應(yīng)方法方面進(jìn)行了詳細(xì)介紹,分析了各種方法的優(yōu)勢和不足,為膚色檢測研究人員提供參考。