梅舒歡 閔巍慶 劉林虎 段華 蔣樹強(qiáng)
摘要 面向食品領(lǐng)域的圖像檢索和分類等方面的研究成為多媒體分析和應(yīng)用領(lǐng)域越來越受關(guān)注的研究課題之一.當(dāng)前的主要研究方法基于全圖提取視覺特征,但由于食品圖像背景噪音的存在使得提取的視覺特征不夠魯棒,進(jìn)而影響食品圖像檢索和分類的性能.為此,本文提出了一種基于Faster R-CNN網(wǎng)絡(luò)的食品圖像檢索和分類方法.首先通過Faster R-CNN檢測圖像中的候選食品區(qū)域,然后通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法提取候選區(qū)域的視覺特征,避免了噪音的干擾使得提取的視覺特征更具有判別力.此外,選取來自視覺基因庫中標(biāo)注好的食品圖像集微調(diào) Faster R-CNN網(wǎng)絡(luò),以保證Faster R-CNN食品區(qū)域檢測的準(zhǔn)確度.在包括233類菜品和49 168張食品圖像的Dish-233數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).全面的實(shí)驗(yàn)評估表明:基于Faster R-CNN食品區(qū)域檢測的視覺特征提取方法可以有效地提高食品圖像檢索和分類的性能.關(guān)鍵詞食品圖像;圖像檢索;圖像分類;深度學(xué)習(xí);Faster R-CNN;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號 TP391.41
文獻(xiàn)標(biāo)志碼 A
0 引言
Web2.0的迅速發(fā)展使得食品圖像分享網(wǎng)站得到迅速的發(fā)展,例如國內(nèi)的大眾點(diǎn)評網(wǎng)和國外的Yummly網(wǎng)站等.食品圖像檢索和識別可以對網(wǎng)絡(luò)中的食品圖像實(shí)現(xiàn)有效的組織、總結(jié)和檢索.自動的食品圖像檢索和識別也是食品和健康等許多領(lǐng)域中最有前途的應(yīng)用之一,可以進(jìn)一步幫助估計(jì)食品的熱量和分析人的飲食習(xí)慣,實(shí)現(xiàn)個性化的服務(wù).因此本文主要解決面向食品領(lǐng)域的圖像檢索和分類問題.
由于食品圖像檢索和識別廣泛的應(yīng)用價值,近年來,越來越多的研究者開始研究面向食品圖像的分析、檢索和分類等問題.例如文獻(xiàn)[1]用一種基于統(tǒng)計(jì)的方法計(jì)算食品圖像的特征,實(shí)現(xiàn)食品圖像的識別.但是該方法僅適用于在標(biāo)準(zhǔn)的食品圖像數(shù)據(jù)集上,不具有泛化性.文獻(xiàn)[2]提出用隨機(jī)森林的方法提取圖像中的局部視覺特征實(shí)現(xiàn)食品圖像的分類.隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于CNN的方法[3]已經(jīng)成為提取圖像視覺特征的主流方法.例如文獻(xiàn)[4]采用AlexNet網(wǎng)絡(luò)提取圖像的視覺特征實(shí)現(xiàn)食品圖像的檢測和分類.文獻(xiàn)[5]采用Google的Inception網(wǎng)絡(luò)提取圖像的視覺特征實(shí)現(xiàn)食品圖像的分類.文獻(xiàn)[6]采用GoogLeNet網(wǎng)絡(luò)提取圖像視覺特征實(shí)現(xiàn)食品圖像和非食品圖像的分類.這些方法主要針對整張食品圖像進(jìn)行視覺特征提取,沒有考慮食品圖像背景信息對食品圖像分類的影響.在現(xiàn)實(shí)世界中,拍攝的食品圖片不僅包含食品本身的視覺信息,還包含各種各樣的背景信息.圖1展示了來自Dish數(shù)據(jù)集[7]一些菜品圖像的例子,比如CBD壽司圖片中包含人的背景信息;三文魚圖片包含調(diào)料、蝦等其他物的背景信息.現(xiàn)有的方法由于針對整張圖像信息提取視覺特征,會不加區(qū)分地把不相關(guān)的背景信息也作為菜品視覺表示的一部分,從而影響食品圖像檢索和分類的性能.
為了解決該問題,本文提出了一種基于Faster R-CNN的食品圖像檢索和分類方法,如圖2所示.該方法主要包括以下2個步驟:首先微調(diào)(fine-tune)Faster R-CNN,使用訓(xùn)練的Faster R-CNN網(wǎng)絡(luò)檢測食品圖像的食品區(qū)域;然后基于檢測的食品區(qū)域,利用CNN深度神經(jīng)網(wǎng)絡(luò)提取該候選區(qū)域的視覺特征;最后將提取的食物圖像的視覺特征應(yīng)用到食品圖像檢索和分類任務(wù)中.本文在Dish-233食品數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集為菜品數(shù)據(jù)集[7]的一個子集,包括233類菜品和49 168張圖像.全面的實(shí)驗(yàn)評估表明本文提出的方法相較于其他方法,提取的視覺特征更具有判別性,在食品圖像檢索和分類任務(wù)中,性能均得到了改善.
本文的主要貢獻(xiàn)包括以下2個方面:1)提出了一種基于Faster R-CNN的食品圖像檢索和分類方法,由于提取的視覺特征僅針對圖片的食物區(qū)域因而更為魯棒和更具有判別力;2)將提出的方法應(yīng)用到Dish-233數(shù)據(jù)集上,全面的實(shí)驗(yàn)評估驗(yàn)證了本文所提方法的有效性.
1 相關(guān)工作
本節(jié)將對近年來食品圖像檢索和分類相關(guān)技術(shù)和方法進(jìn)行介紹,主要包括2部分,第1部分主要介紹食品圖像檢索和分類的相關(guān)技術(shù)方法;第2部分主要介紹基于物體檢測的卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)方法.
1.1 食品圖像檢索和分類
近年來,食品圖像檢索和分類受到了越來越多研究者的關(guān)注.例如Farinella等[8]提出了一種基于紋理Anti-Textons特征用于食品圖像的檢索與分類的方法.Yang等[1]提出了一種基于統(tǒng)計(jì)的食品圖像的特征表示方法用于食品圖像的分類,但該方法僅局限于標(biāo)準(zhǔn)的食品.Xu等[7]通過隨機(jī)森林的方法學(xué)習(xí)食品圖像中判別性的特征表示實(shí)現(xiàn)菜品識別.相比于以上淺層模型的方法,Kagaya等[4]利用當(dāng)前的深度卷神經(jīng)網(wǎng)絡(luò)(CNN)提取食品圖像的特征用于食品圖像的檢測和識別.Hassannejad等[5]進(jìn)一步采用更深層的網(wǎng)絡(luò)實(shí)現(xiàn)食品圖像的識別.還有一些工作集中在面向餐館上下文信息的菜品識別[10]和面向移動端的菜品識別[11-12].此外,近來的一些工作例如文獻(xiàn)[10,13-14]則進(jìn)一步考慮圖像的原料信息,以一種多任務(wù)的方法建模原料信息、視覺信息和類別信息之間的關(guān)聯(lián).Salvador等[15]學(xué)習(xí)食品圖像和原料信息等不同模態(tài)信息的嵌入,實(shí)現(xiàn)跨模態(tài)的檢索.
本文也研究基于面向食品領(lǐng)域的圖像檢索和分類.不同以上基于整張圖片提取視覺特征的方法,考慮食品圖像中包含許多和食品無關(guān)的背景信息,因此提出了首先用Faster R-CNN方法檢測食品的圖像區(qū)域,然后利用CNN方法提取目標(biāo)物體區(qū)域的視覺特征實(shí)現(xiàn)面向食品圖像的檢索與分類.
1.2 基于物體檢測的卷積神經(jīng)網(wǎng)絡(luò)(CNNs)
卷積神經(jīng)網(wǎng)絡(luò)(CNNs)已作為一種主流的特征提取方法成功應(yīng)用到許多任務(wù)中,例如圖像的分類[16]和檢索[17-18].相比于傳統(tǒng)的視覺方法,CNNs能夠提取更為豐富的語義信息.為了將基于CNN的方法應(yīng)用到物體檢測任務(wù)中,許多基于檢測的CNN方法被相繼提出.例如Girshick等[19]提出了R-CNN深度框架,該框架首先利用Object Proposal算法提取圖像的候選區(qū)域,將這些候選區(qū)域作為輸入進(jìn)行模型訓(xùn)練.為了改進(jìn)R-CNN的速度和準(zhǔn)確度,有學(xué)者提出了SPP-Net[20]和Fast-RCNN[21].Ren等[22]進(jìn)一步引入了Faster R-CNN網(wǎng)絡(luò),提出了一個Region Proposal Network(RPN)方法用于克服object proposal的依賴.近來一些學(xué)者為了能夠更快地檢測物體,提出了YOLO9000[23].考慮到資源的消耗和準(zhǔn)確度性能等的因素,本工作充分利用Faster R-CNN算法提取食品圖像的區(qū)域,提取食品區(qū)域的特征并將其應(yīng)用到食品圖像的檢索和分類任務(wù)中.
2 基于Faster R-CNN的區(qū)域視覺特征提取
為了有效提取食品圖像的視覺特征,采用了以下2個步驟:1)微調(diào)Faster R-CNN;2)基于食品檢測區(qū)域的CNN特征提取.
如上分析,大多數(shù)食品圖像都含有不相關(guān)的背景信息,如果只針對食品區(qū)域進(jìn)行特征提取,將會降低食品圖像背景信息帶來的影響.為了解決該問題,需要對圖像的食品區(qū)域進(jìn)行檢測.Faster R-CNN[9]已經(jīng)成為物體區(qū)域檢測的有效方法,因而也可采用Faster R-CNN檢測圖像的食品區(qū)域.但是現(xiàn)有的Faster R-CNN模型主要基于VOC2007中20類常見的物體預(yù)訓(xùn)練得到的模型,并沒有涉及到與食品相關(guān)的類別,為此首先從視覺基因庫中選擇和食品類別相關(guān)的標(biāo)定好的圖像,然后利用選擇的食品圖像數(shù)據(jù)集微調(diào)Faster R-CNN,最終得到每張食品圖像的候選區(qū)域.
微調(diào)Faster R-CNN后,利用微調(diào)的Faster R-CNN網(wǎng)絡(luò)模型獲得食品圖像的候選框和對應(yīng)的每個候選框的得分.
CNNs網(wǎng)絡(luò)已經(jīng)成為視覺特征提取的有效方法.對于每張圖像得分較高的候選區(qū)域,根據(jù)候選框的坐標(biāo),用AlexNet網(wǎng)絡(luò)提取FC7層的特征,然后將得分較高的區(qū)域的特征進(jìn)行串聯(lián)得到最終圖像的特征表示.
對于圖像檢索任務(wù),給定一張查詢圖像,基于微調(diào)的Faster R-CNN和CNN提取食品圖像的視覺特征,通過和查詢數(shù)據(jù)庫進(jìn)行相似度計(jì)算返回檢索的結(jié)果.對于食品圖像分類任務(wù),對所有的訓(xùn)練集和測試集的食品圖像通過上述方法提取視覺特征,然后通過訓(xùn)練集訓(xùn)練分類器,基于訓(xùn)練的分類模型得到分類的結(jié)果.在提取圖像食品區(qū)域的視覺特征時,通常選取得分最高的圖像候選區(qū)域.
3 實(shí)驗(yàn)評估
在本節(jié)中,首先描述實(shí)驗(yàn)設(shè)置,包括數(shù)據(jù)集和實(shí)現(xiàn)細(xì)節(jié),然后在Dish-233食品數(shù)據(jù)集上驗(yàn)證所提方法在食品圖像檢索和分類任務(wù)中的有效性.
3.1 數(shù)據(jù)庫
利用Dish-233數(shù)據(jù)集來驗(yàn)證本文所提方法的有效性.原始的菜品數(shù)據(jù)集[7]包含117 504張圖像和11 611種菜品類別.從中挑選出圖像數(shù)量大于或者等于15的菜品類別,最終獲得233種菜品類別和49 168張圖像,稱這個數(shù)據(jù)集為Dish-233.圖3展示了Dish-233數(shù)據(jù)集中的一些食品類別的例子.
3.2 實(shí)現(xiàn)細(xì)節(jié)
為了利用Faster R-CNN[9]對食品圖像區(qū)域進(jìn)行檢測,需要微調(diào)(fine-tune)Faster R-CNN,為此需要帶有區(qū)域邊框標(biāo)注的食品圖像數(shù)據(jù)集.視覺基因組數(shù)據(jù)庫(visual genome)[24]包含了標(biāo)定的108 077張圖像,其中包括大量的食品圖像.因此利用Dish-233數(shù)據(jù)集的類別名,將其翻譯成成英文,作為查詢詞,構(gòu)建查詢詞典列表,利用關(guān)鍵詞匹配從視覺基因數(shù)據(jù)集中選取食品圖像.為了得到更多的食品圖片,進(jìn)一步選用其他食品數(shù)據(jù)庫的類別信息(比如Food-101),選取食品圖片,然后經(jīng)過人工進(jìn)一步的篩選,去掉非食品圖像,最終得到10 641張食品圖像及對應(yīng)標(biāo)定的區(qū)域,稱之為VisGenome-11K.圖4展示了來自視覺基因帶有標(biāo)注框的菜品圖像.
對于模型的參數(shù)設(shè)置,在Faster R-CNN訓(xùn)練過程中,最小批尺寸(mini-batch)為從一張圖像中提取的256個anchor,迭代次數(shù)為80 000.其中在前60 000迭代,學(xué)習(xí)率設(shè)為0.001,在后20 000迭代,學(xué)習(xí)率設(shè)為0.000 1.momentum參數(shù)設(shè)為0.9,權(quán)重衰減參數(shù)設(shè)為0.000 5.在微調(diào)AlexNet模型時,將初始學(xué)習(xí)率設(shè)為0.001,每20個時期(epoch)之后,將學(xué)習(xí)率調(diào)整為之前的0.1.最大迭代次數(shù)設(shè)為60個時期(epoch).
將VisGenome-11K圖像集劃分成2部分,80%用于訓(xùn)練集,20%用于驗(yàn)證集.利用VisGenome-11K微調(diào)Faster R-CNN,然后通過微調(diào)的Faster R-CNN模型對Dish數(shù)據(jù)集的食品圖像進(jìn)行區(qū)域檢測得到圖像中的食品區(qū)域,再利用在ImageNet上預(yù)訓(xùn)練的AlexNet模型從檢測的食品區(qū)域提取4096-D的視覺特征.圖5是經(jīng)過微調(diào)Faster R-CNN網(wǎng)絡(luò)得到的一些食品圖片的檢測結(jié)果,從中可以看到經(jīng)過食品區(qū)域檢測,可以排除背景噪音的干擾,使得提取的視覺特征更具有判別性.
對所有的圖像進(jìn)行區(qū)域檢測和視覺特征提取之后,將其應(yīng)用到食品圖像檢索和分類任務(wù)中.
3.3 檢索任務(wù)
對于檢索任務(wù),從Dish-233 數(shù)據(jù)集的每一類菜品圖像集中隨機(jī)選取25%的圖像作為查詢圖像,然后將數(shù)據(jù)集的全集作為查詢數(shù)據(jù)庫進(jìn)行檢索.
3.3.1 評價指標(biāo)和比較方法
采用Precision和MAP 2個評價指標(biāo),這2個指標(biāo)均為信息檢索中常用的指標(biāo).為了驗(yàn)證本文方法的有效性,和以下方法進(jìn)行了比較:1) CNN-G[25].該方法主要是利用7層的AlexNet直接提取全局圖像的視覺特征;2) CNN-G-F.相比CNN-G,CNN-G-F首先利用訓(xùn)練集對AlexNet網(wǎng)絡(luò)進(jìn)行微調(diào),利用微調(diào)的網(wǎng)絡(luò)提取整張圖像的視覺特征;3)Faster R-CNN-G.該方法直接用Faster R-CNN網(wǎng)絡(luò)檢測圖像的候選食品區(qū)域,然后對得分最高的候選區(qū)域用微調(diào)的AlexNet網(wǎng)絡(luò)提取視覺特征.方法1)和2)均未用Faster R-CNN進(jìn)行區(qū)域檢測,方法3)是為了進(jìn)一步說明通過VisGenome-11K微調(diào)Faster-RCNN產(chǎn)生的影響.
3.3.2 檢索結(jié)果及分析
分別用上述4種方法在Dish-233數(shù)據(jù)集上進(jìn)行檢索實(shí)驗(yàn).具體來說,采用Precision@K和MAP@K(K表示在檢索過程中返回候選圖像的數(shù)量),K={1,20,40,60,80,100}.圖6 展示了4種不同方法檢索在這2個指標(biāo)的檢索結(jié)果.從中可以得出以下結(jié)論:1)CNN-G-F要比CNN-G的檢索性能好,說明通過微調(diào)AlexNet網(wǎng)絡(luò)可以得到更適合Dish數(shù)據(jù)集的視覺特征;2)Faster R-CNN-G和本文方法要超過CNN-G-F,說明經(jīng)過Faster R-CNN對食品圖像區(qū)域進(jìn)行檢測后可以有效減少食品圖像背景信息產(chǎn)生的干擾,進(jìn)而提高了檢索性能;3)本文方法比Faster R-CNN-G的性能有適度的提升,說明利用VisGenome-11K微調(diào)可以改進(jìn)食品圖像檢測的準(zhǔn)確度.
圖7展示了一些例子的檢索結(jié)果.從中可以看到本文方法在所有方法中檢索結(jié)果是最好的,這進(jìn)一步驗(yàn)證了其有效性.
3.4 分類任務(wù)
對于分類任務(wù),將每一類75%的數(shù)據(jù)集作為訓(xùn)練集,25%的數(shù)據(jù)集作為測試集.由于分類任務(wù)為單標(biāo)簽的,所以采用準(zhǔn)確率(accuracy)作為評價指標(biāo).為了驗(yàn)證本文方法的有效性,采用和檢索任務(wù)相同的比較算法進(jìn)行比較圖8展示了不同方法的分類性能.從中可以看到本文方法的性能最好,相比于CNN-G-F,性能提升了5個百分點(diǎn).
圖9展示了隨機(jī)選取的20類菜品在不同方法的分類結(jié)果.可以看到在大多數(shù)例子中,本文方法的分類性能是最好的,進(jìn)一步驗(yàn)證了其有效性.
4 總結(jié)與展望
本文提出了一種基于Faster R-CNN的食品圖像檢索和分類方法.該方法主要利用Faster R-CNN網(wǎng)絡(luò)檢測圖像的食品區(qū)域,對檢測的食品圖像區(qū)域通過CNN網(wǎng)絡(luò)提取視覺特征.相比于傳統(tǒng)的基于SIFT和CNN的全局視覺特征提取方法,本文方法所提取的視覺特征更為魯棒.將本文方法應(yīng)用到食品圖像檢索和分類任務(wù)中,并在Dish-233數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了其有效性.在未來的研究中將考慮以下研究方向:1)在更多更大規(guī)模的食品數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),比如Food-101[2],以驗(yàn)證本文方法的可擴(kuò)展性;2)考慮更多食品圖像的上下文信息,比如地理位置信息等實(shí)現(xiàn)基于上下文的食品圖像檢索和分類.另外,將其應(yīng)用到移動設(shè)備中實(shí)現(xiàn)移動食品圖像的檢索和分類,以及針對食品區(qū)域的熱量估計(jì)[25]等也將作為后續(xù)工作探索的研究方向.
參考文獻(xiàn)
References
[1] Yang S L,Chen M,Pomerleau D,et al.Food recognition using statistics of pairwise local features[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2010:2249-2256
[2] Bossard L,Guillaumin M,Van Gool L.Food-101-mining discriminative components with random forests[C]∥European Conference on Computer Vision,2014:446-461
[3] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]∥International Conference on Neural Information Processing Systems,2012:1097-1105
[4] Kagaya H,Aizawa K,Ogawa M.Food detection and recognition using convolutional neural network[C]∥ACM International Conference on Multimedia,2014:1085-1088
[5] Hassannejad H,Matrella G,Ciampolini P,et al.Food image recognition using very deep convolutional networks[C]∥International Workshop on Multimedia Assisted Dietary Management,2016:41-49
[6] Singla A,Yuan L,Ebrahimi T.Food/non-food image classification and food categorization using pre-trained GoogLeNet model[C]∥International Workshop on Multimedia Assisted Dietary Management,2016:3-11
[7] Xu R,Herranz L,Jiang S Q,et al.Geolocalized modeling for dish recognition[J].IEEE Transactions on Multimedia,2015,17(8):1187-1199
[8] Farinella G M,Allegra D,Moltisanti M,et al.Retrieval and classification of food images[J].Computers in Biology & Medicine,2016,77:23-39
[9] Krishna R,Zhu Y K,Groth O,et al.Visual genome:Connecting language and vision using crowdsourced dense image annotations[J].International Journal of Computer Vision,2017,123(1):32-73
[10] Min W Q,Jiang S Q,Wang S H,et al.A delicious recipe analysis framework for exploring multi-modal recipes with various attributes[C]∥ACM International Conference on Multimedia,2017(in press)
[11] Dehais J,Anthimopoulos M,Mougiakakou S.Dish detection and segmentation for dietary assessment on smartphones[C]∥International Conference on Image Analysis and Processing,2015:433-440
[12] Tanno R,Okamoto K,Yanai K.Deepfoodcam:A DCNN-based real-time mobile food recognition system[C]∥International Workshop on Multimedia Assisted Dietary Management,2016:89
[13] Chen J J,Ngo C-W.Deep-based ingredient recognition for cooking recipe retrieval[C]∥ACM on Multimedia Conference,2016:32-41
[14] Min W Q,Jiang W Q,Sang J T,et al.Being a super cook:Joint food attributes and multi-modal content modeling for recipe retrieval and exploration[J].IEEE Transactions on Multimedia,2017,19(5):1100 - 1113
[15] Salvador A,Hynes N,Aytar Y,et al.Learning cross-modal embeddings for cooking recipes and food images[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2017:3020-3028
[16] Szegedy C,Liu W,Jia Y Q,et al.Going deeper with convolutions[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9
[17] Tolias G,Sicre R,Jégou H.Particular object retrieval with integral max-pooling of CNN activations[J].arXiv e-print,2015,arXiv:1511.05879
[18] Radenovic F,Tolias G,Chum O.CNN image retrieval learns from DoW:Unsupervised fine-tuning with hard examples[C]∥European Conference on Computer Vision,2016:3-20
[19] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587
[20] He K M,Zhang X Y,Ren S Q,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[C]∥European Conference on Computer Vision,2014:346-361
[21] Girshick R.Fast R-CNN[C]∥IEEE International Conference on Computer Vision,2015:1440-1448
[22] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149
[23] Redmon J,F(xiàn)arhadi A.YOLO9000:Better,faster,stronger[J].arXiv e-print,2016,arXiv:1612.08242
[24] Min W Q,Bao B K,Mei S H,et al.You are what you eat:Exploring rich recipe information for cross-region food analysis[C]∥IEEE Transactions on Multimedia,2017(In public)
[25] Meyers A,Johnston N,Rathod V,et al.Im2Calories:Towards an automated mobile vision food diary[C]∥IEEE International Conference on Computer Vision,2015:1233-1241