周文惠
摘要:隨著計(jì)算機(jī)硬件技術(shù)的不斷發(fā)展,三維物體成為一項(xiàng)重要的信息載體,不同于聲音、文字、二維圖像等抽象的信息表現(xiàn)形式,三維模型承載的內(nèi)容更為豐富,使空間信息更加直觀,在日常生活中的應(yīng)用變得十分廣泛,因此我們?nèi)S模型的檢索需求也越來(lái)越廣泛。該文針對(duì)深度學(xué)習(xí)在跨域三維模型檢索工作的應(yīng)用進(jìn)行分析與總結(jié),并對(duì)未來(lái)的工作進(jìn)行展望。
關(guān)鍵詞:三維模型;檢索;深度學(xué)習(xí)
中圖分類(lèi)號(hào):TP3 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)31-0209-02
近年來(lái),人工智能技術(shù)在我們的生活中應(yīng)用十分廣泛,不同于以往大眾印象中人工智能就是的機(jī)器人印象,實(shí)際上我們手機(jī)的智能語(yǔ)音助手、人臉識(shí)別的支付系統(tǒng)、醫(yī)院的智慧醫(yī)療系統(tǒng)等都是由人工智能技術(shù)進(jìn)行技術(shù)支持的,隨著科技的不斷發(fā)展,人工智能技術(shù)已經(jīng)在計(jì)算機(jī)科學(xué)領(lǐng)域、科技金融領(lǐng)域、游戲領(lǐng)域等取得了很大的進(jìn)展,給我們的生活帶來(lái)了巨大的便利,在無(wú)人超市場(chǎng)景,超市可以通過(guò)對(duì)顧客進(jìn)行人臉識(shí)別進(jìn)行收款并且可以判斷顧客是否來(lái)過(guò)這家超市并根據(jù)顧客的購(gòu)買(mǎi)記錄給顧客進(jìn)行產(chǎn)品推薦,從而使顧客擁有更好的購(gòu)物體驗(yàn)。在停車(chē)場(chǎng)場(chǎng)景中,現(xiàn)在的人工智能車(chē)牌識(shí)別取代了原來(lái)需要管理員對(duì)車(chē)牌號(hào)進(jìn)行記錄收費(fèi)。在家庭生活場(chǎng)景中,現(xiàn)有的人工智能技術(shù)已經(jīng)為掃地機(jī)器人添加了計(jì)算機(jī)視覺(jué)技術(shù),使其能夠在清掃過(guò)程中識(shí)別各項(xiàng)家具和常用生活物品從而在清掃過(guò)程中合理的避開(kāi)障礙。
機(jī)器學(xué)習(xí)作為人工智能的實(shí)現(xiàn)方法由于其強(qiáng)大的學(xué)習(xí)能力受到了廣泛的應(yīng)用,機(jī)器學(xué)習(xí)可以通過(guò)現(xiàn)有的大量數(shù)據(jù)中不斷訓(xùn)練,最終完成對(duì)其設(shè)定的任務(wù)。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種實(shí)現(xiàn)技術(shù),其原理受啟發(fā)于人腦神經(jīng)網(wǎng)絡(luò)的原理,其對(duì)大量數(shù)據(jù)強(qiáng)大的處理能力和學(xué)習(xí)能力能夠完成許多任務(wù),使人工智能的應(yīng)用更加廣泛。本文將從深度學(xué)習(xí)對(duì)草圖跨域三維模型這一工作的應(yīng)用進(jìn)行介紹和總結(jié),并對(duì)未來(lái)的工作進(jìn)行展望。
1三維模型檢索背景
隨著計(jì)算機(jī)硬件技術(shù)的不斷發(fā)展,三維物體成為一項(xiàng)重要的信息載體,不同于聲音、文字、二維圖像等抽象的信息表現(xiàn)形式,三維模型承載的內(nèi)容更為豐富,使空間信息更加直觀,在日常生活中的應(yīng)用變得十分廣泛。在建筑行業(yè),三維建模已經(jīng)成為一項(xiàng)重要的使用技術(shù),工程師可以利用三維建模技術(shù)將提議的設(shè)計(jì)模型進(jìn)行展現(xiàn)。如何在現(xiàn)有的大量的三維數(shù)據(jù)中檢索需要的三維模型成為一項(xiàng)重要研究?jī)?nèi)容。在三維模型檢索的工作中存在的基于文字的三維模型檢索工作和基于三維模型的三維模型檢索工作,這兩項(xiàng)研究工作雖然能實(shí)現(xiàn)對(duì)三維模型的檢索但仍然存在的一定的缺陷:1)在基于文字的三維模型檢索工作中,由于文字的表達(dá)能力有限,不能完整的表達(dá)三維模型造成檢索的準(zhǔn)確率下降。2)在基于三維模型的三維模型檢索工作中,由于用來(lái)檢索的三維模型獲取比較困難,給該項(xiàng)工作造成了一定的局限性。為了解決現(xiàn)有研究工作中存在的問(wèn)題,研究者們?cè)诖嘶A(chǔ)上提出了基于草圖的三維模型檢索,下圖1為基于三維模型的三維模型檢索過(guò)程。
由于草圖能夠克服使用文字信息進(jìn)行檢索的局限性,并且由于其繪畫(huà)簡(jiǎn)單、容易獲取等特點(diǎn)能夠避免使用三維模型檢索中檢索樣本難獲取的問(wèn)題,基于草圖的三維模型研究方法備受研究者們關(guān)注,但由于草圖和三維模型的特征差異性該項(xiàng)研究工作有以下難點(diǎn):1)由于三維模型的空間特殊性,如何對(duì)三維模型準(zhǔn)確的描述成為一項(xiàng)有挑戰(zhàn)的任務(wù); 2)手繪草圖所包含的信息內(nèi)容較少,如何對(duì)草圖進(jìn)行有代表的特征表述也是研究者的探究的問(wèn)題。在傳統(tǒng)的基于草圖的三維模型研究工作中,需要大量人力對(duì)草圖和三維模型進(jìn)行手工特征描述符的特征提取,再進(jìn)行特征比配進(jìn)行檢索,不僅耗費(fèi)大量的人力并且由于手工特征描述符的局限性有時(shí)并不能完整的表達(dá)跨域的特征。而現(xiàn)有的基于深度學(xué)習(xí)的草圖三維模型研究工作能夠克服基于傳統(tǒng)方法帶來(lái)的問(wèn)題,將檢索過(guò)程分為特征提取和跨域特征嵌入兩個(gè)部分,本文將從這深度學(xué)習(xí)的角度對(duì)這兩部分進(jìn)行分別介紹。
2 深度學(xué)習(xí)在跨域檢索中的應(yīng)用
(1)三維模型特征表征。三維模型的有效表示是計(jì)算機(jī)視覺(jué)、多媒體分析和計(jì)算機(jī)圖形學(xué)中的一個(gè)重要課題,它在形狀特征提取分析中起著基礎(chǔ)性作用,可以應(yīng)用于各種領(lǐng)域,如自動(dòng)駕駛、AR/VR、智能機(jī)器人和醫(yī)療。三維物體的表征方法可以分為基于視圖的方法和基于體積的方法。基于視圖的方法為將三維模型投影成多張二維視圖,使用二維視圖的處理方法對(duì)其進(jìn)行特征表示,其中二維視圖投影方法如下。
體積方法依賴(lài)于直接從本機(jī)3D表示中計(jì)算出的3D特性,包含mesh網(wǎng)格、體素化的三維網(wǎng)格和點(diǎn)云。本文對(duì)三維模型的兩種表示方法進(jìn)行對(duì)比和總結(jié),兩種方法的優(yōu)缺點(diǎn)如表1所示。
(2)跨域特征提取與度量學(xué)習(xí)。在基于深度學(xué)習(xí)的草圖跨域三維模型檢索的特征提取階段中,研究者們使用了模仿人腦神經(jīng)元的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并使用了度量學(xué)習(xí)對(duì)卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行學(xué)習(xí)使得特征空間中同類(lèi)的特征距離近,不同類(lèi)的特征距離遠(yuǎn)。由于草圖的特征比較稀疏,因此研究者們提出了將使用將卷積神經(jīng)網(wǎng)絡(luò)的卷積核改大,從而更好地提高網(wǎng)絡(luò)的特征性。Zhang[1]設(shè)計(jì)了針對(duì)草圖的網(wǎng)絡(luò),該作者認(rèn)為草圖缺少顏色和紋理的信息并且草圖的類(lèi)間差異性因此提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的草圖特征表示學(xué)習(xí)方法并且使用了自定義的損失函數(shù)使得使類(lèi)間距離大,類(lèi)內(nèi)距離小。該網(wǎng)絡(luò)開(kāi)發(fā)了一個(gè)由草圖、正、負(fù)實(shí)像組成的三元組作為神經(jīng)網(wǎng)絡(luò)的輸入。為了發(fā)現(xiàn)草圖與其正對(duì)之間的相干視覺(jué)結(jié)構(gòu),該作者引入了softmax作為損失函數(shù)。在此基礎(chǔ)上,該提出了一種排序機(jī)制,使正配對(duì)獲得比負(fù)配對(duì)更高的分?jǐn)?shù),從而實(shí)現(xiàn)魯棒表示。隨著深度學(xué)習(xí)的發(fā)展,殘差網(wǎng)絡(luò)、注意力機(jī)制等網(wǎng)絡(luò)模型的出現(xiàn),Song[2]等人體除了在深度神經(jīng)網(wǎng)絡(luò)上都添加了注意力模塊,使該網(wǎng)絡(luò)的特征的學(xué)習(xí)可以更多地關(guān)注顯著性區(qū)域?qū)崿F(xiàn)基于細(xì)粒度的檢索,為了在網(wǎng)絡(luò)經(jīng)過(guò)全連接后不丟失細(xì)節(jié)的細(xì)粒度特征,該網(wǎng)絡(luò)模塊在注意力機(jī)制模塊后使用shortcut連接,將粗粒度和細(xì)粒度特征進(jìn)行融合,在損失函數(shù)中使用了一個(gè)基于高階可學(xué)習(xí)的能量損失函數(shù),該損失函數(shù)建立了兩個(gè)模態(tài)特征之間的關(guān)聯(lián)關(guān)系,使其對(duì)不同模態(tài)未對(duì)齊的特征具有更好的魯棒性。
3總結(jié)與展望
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,三維模型檢索工作中大量基于卷積神經(jīng)網(wǎng)絡(luò)的方法被提出,在三維形狀識(shí)別和檢索方面具有良好的性能。目前,基于體積和多視圖的方法是兩種主流的基于卷積神經(jīng)網(wǎng)絡(luò)的三維形狀分析方法?;隗w積的方法直接利用三維卷積的三維體積模型所表示的信息,而基于多視圖的方法學(xué)習(xí)使用二維卷積神經(jīng)網(wǎng)絡(luò)從不同視點(diǎn)呈現(xiàn)的多個(gè)二維投影來(lái)表示三維形狀?;诙嘁晥D的方法將三維視覺(jué)任務(wù)轉(zhuǎn)換為二維圖像域,可以直接利用圖像識(shí)別領(lǐng)域技術(shù)對(duì)三維模型進(jìn)行處理。本文針對(duì)了基于草圖的跨域三維模型檢索的工作方法進(jìn)行了一定的分析和總結(jié)。在未來(lái)的研究工作中,跨域三維模型檢索應(yīng)該充分利用現(xiàn)有的研究基礎(chǔ)在提高檢索效率的基礎(chǔ)上,提高一定的準(zhǔn)確率。
參考文獻(xiàn):
[1] Zhang H, Liu S, Zhang C, et al. SketchNet: Sketch Classification with Web Images[C]//IEEE Conference on Computer Vision & Pattern Recognition.IEEE Computer Society,2016.
[2] Song J, Yu Q, Song Y Z, et al. Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017.
【通聯(lián)編輯:代影】