多模態(tài)深度學習綜述

2020-11-10 07:10孫影影賈振堂朱昊宇

計算機工程與應用 2020年21期

孫影影，賈振堂，朱昊宇

上海電力大學電子與信息工程學院，上海 200090

1 引言

每一種信息的來源都可以稱為一種模態(tài)，模態(tài)是指人接受信息的方式，人有聽覺、視覺、嗅覺、觸覺等多種感知方式來認識事物，當某一種模態(tài)信息缺失時，能否準確地認知事物是人們關(guān)注的重點。由于多媒體數(shù)據(jù)通常是多種信息的傳遞媒介，例如一段視頻中會同時含有文字信息、視覺信息和聽覺信息，多模態(tài)學習已成為多媒體內(nèi)容分析與理解的主要手段。隨著深度學習的發(fā)展，諸如圖像、文本、聲音、視頻等多媒體數(shù)據(jù)的急劇增長，催生出對圖像文本對、圖像聲音對等多模態(tài)問題的研究。多模態(tài)學習由來自不同模態(tài)的信息組成，一般都是包含兩個或兩個以上的模態(tài)，旨在聯(lián)合表示不同模態(tài)的數(shù)據(jù)，捕捉不同模態(tài)之間的內(nèi)在關(guān)聯(lián)，實現(xiàn)各個模態(tài)的信息相互轉(zhuǎn)化，即使在某些模態(tài)缺失的情況下能夠填充在傳遞過程中缺少的信息。多模態(tài)深度學習給機器學習帶來了巨大的機遇與挑戰(zhàn)，文獻[1]將多模態(tài)深度學習實現(xiàn)過程中的共有問題分為模態(tài)表示、模態(tài)傳譯、模態(tài)融合和模態(tài)對齊四類，并對各問題進行子分類和論述，同時列舉了為解決各問題產(chǎn)生的神經(jīng)網(wǎng)絡模型。

通過多模態(tài)學習能夠處理和關(guān)聯(lián)來自多種模式信息的模型，對于許多實際問題，深度多模態(tài)學習常常為涉及多模式數(shù)據(jù)的問題提供了很多改進的性能。例如，手勢識別旨在理解人體的動態(tài)手勢，是人機交互領(lǐng)域極其重要的交互方式之一，由于視頻樣本中手勢的短期、中期以及長期時空特征性，文獻[2]提出了一種基于淺三維稠密網(wǎng)的多模態(tài)手勢識別方法，所提出的方法在手勢識別公開數(shù)據(jù)集大規(guī)模離散手勢數(shù)據(jù)集上進行了評估，并取得了目前最好效果。多模態(tài)學習區(qū)別于傳統(tǒng)機器學習方法的特點可體現(xiàn)在表1中分析[3]。

表1 多模態(tài)學習與傳統(tǒng)機器學習方法比較

多模態(tài)研究支持計算機視覺領(lǐng)域的許多關(guān)鍵應用，如圖像字幕、跨模態(tài)檢索。由于許多多模態(tài)數(shù)據(jù)具有顯著的弱配對特性，即模態(tài)之間沒有樣本到樣本的對應關(guān)系，而是一種模態(tài)中的樣本類別對應另一種模態(tài)中的樣本類別。這為跨模式的檢索學習提供了巨大的挑戰(zhàn)[4]。本文的目的是針對深度多模態(tài)學習的幾個應用方面進行的介紹，進而指出多模態(tài)學習的本質(zhì)問題。由于近些年來在主要會議和期刊上發(fā)表此類文章的數(shù)量的不斷增加，更加堅信了多模態(tài)深度學習的廣大應用前景。如圖1為深度多模態(tài)學習論文的發(fā)表數(shù)量，涉及到計算機科學、工程方面的文章。

圖1 多模態(tài)學習論文的發(fā)表情況

從圖1的增長趨勢可以看出，近年來有關(guān)多模態(tài)學習的論文數(shù)量增長較快，并有持續(xù)增長的趨勢。重要的原因是多模態(tài)涉及到的領(lǐng)域的普遍化，例如，在圖像配準問題的處理上，由于圖像灰度特性的非線性變化，如何對多模態(tài)圖像有效測量，就需要依靠多模態(tài)深度學習來分析圖像特征[5]；醫(yī)療上綜合反映研究對象的生物學信息仍然是一種迫切的需求和重大的挑戰(zhàn)，多模態(tài)核磁共振圖像聯(lián)合分析為揭開腦結(jié)構(gòu)變化和腦功能變化的關(guān)系提供了可能，另外這種聯(lián)合分析提供的全面醫(yī)學影像信息對探索腦工作原理具有重要作用[6]；在航天領(lǐng)域研究太陽射電頻譜時，由于頻率的多樣性，需要將不同頻率信道捕獲的太陽射電頻譜看作不同的模態(tài)，學習這些不同頻率信道的太陽射電頻譜也是多模態(tài)學習的范疇[7]。多模態(tài)深度學習作為機器學習的最新發(fā)展，其研究成果在軍事、農(nóng)業(yè)、醫(yī)學、安防等諸多場景都具有重要的應用前景。作為一種能讓機器擁有更多人類智能特性的學習方法，多模態(tài)深度學習定能在之后的一個時期獲得長足的發(fā)展。

2 應用發(fā)展過程

1956 年，心理學家Frank Rosenblatt 首次提出了可以模擬人類感知能力的機器，并稱之為感知機（Perceptron），感知機是有單層計算單元的神經(jīng)網(wǎng)絡。由于單層感知機的局限性，后來有了多層感知機，但由于多層感知機對隱藏層權(quán)值的訓練存在問題，有很長一段時期神經(jīng)網(wǎng)絡的發(fā)展進入了瓶頸[8]。最經(jīng)典的發(fā)展就是反向傳播神經(jīng)網(wǎng)絡（Back Propagation algorithm，BP），這是一種監(jiān)督學習算法，為以后的多模態(tài)深度學習打下了堅實的基礎(chǔ)。2006年，Hinton提出多層人工神經(jīng)網(wǎng)絡模型有很強的學習能力，深度學習模型可以學習到原始數(shù)據(jù)更本質(zhì)的表示，且對于深度神經(jīng)網(wǎng)絡很難訓練到最優(yōu)問題，提出了逐層訓練的方法[9]。

多模態(tài)學習作為深度學習的一種，最早始于1970年，經(jīng)歷了幾個發(fā)展階段，在2010年后全面步入深度學習階段。最早的多模態(tài)研究應用之一是視聽語音識別，這一點在McGurk 效應中首次得到證明，大多數(shù)受試者都將帶有語音ba 和視覺ga 視為da，這是由于在語音感知過程中聽覺和視覺之間的相互作用而產(chǎn)生的結(jié)果[10]，這些結(jié)果促使許多研究人員將他們的研究領(lǐng)域擴展到視覺信息上。于是在進行聲音識別過程中，研究人員開始聯(lián)合視頻和聲音兩個模態(tài)，結(jié)果比在原來的只有單個聲音模態(tài)輸入的系統(tǒng)上實現(xiàn)了較大的飛躍，多模態(tài)機器學習開始表現(xiàn)出其優(yōu)秀的學習能力。

另一種重要的多模態(tài)應用是對多媒體數(shù)據(jù)內(nèi)容的檢索，從1990 年開始，隨著信息領(lǐng)域的發(fā)展，多媒體數(shù)據(jù)所占的比例越來越大，網(wǎng)絡信息不再只是單純的文字信息，圖形圖像、視頻、聲音等多媒體信息在因特網(wǎng)中所占比重越來越大[11]。但多媒體數(shù)據(jù)的檢索技術(shù)還遠遠跟不上多媒體數(shù)據(jù)的迅速產(chǎn)生，這在一定程度上影響了多媒體信息檢索技術(shù)的應用和推廣。于是研究人員開始關(guān)注對多媒體內(nèi)容的檢索，基于內(nèi)容的檢索已經(jīng)成為多媒體領(lǐng)域研究的熱點。

第三類應用是在21世紀初圍繞著新興的多模式交互領(lǐng)域建立起來的，目的是了解人類的多模態(tài)行為。在計算機視覺領(lǐng)域，單項生物特征識別技術(shù)已經(jīng)不能滿足客戶的要求了，多模態(tài)的解決辦法被業(yè)內(nèi)專家提出，并成為眾多計算機視覺公司逐步去落實的事情[12]。例如虹膜識別、識別距離與人臉識別技術(shù)同時工作，兩種技術(shù)實現(xiàn)了真正意義上的融合。由于在自動人臉檢測、面部標志檢測和面部表情方面取得了很大的進步，情感識別和情感計算領(lǐng)域在2010年初開始蓬勃發(fā)展。

最具代表性的應用程序之一是圖像描述，它類似于給定一幅圖片來獲取它的文字表述。圖像描述自動生成是一個融合計算機視覺、自然語言處理和機器學習的綜合性問題，圖像描述自動生成的主要挑戰(zhàn)是如何評估預測描述的質(zhì)量，該任務不僅需要利用模型去理解圖片的內(nèi)容并且還需要用自然語言去表達它們之間的關(guān)系[13]。例如，通過攝像頭獲取到的圖像或視頻，結(jié)合圖像描述以及語音生成技術(shù)，可以獲得對眼前事物的準確描述。

3 多模態(tài)學習的應用研究

多模態(tài)學習依據(jù)模態(tài)判別的標準不同可以有多種多樣的應用。例如在太陽射電爆發(fā)分類的多模式深度學習一文中，把從不同頻率信道捕獲的太陽射電頻譜看作不同的模態(tài)，學習這些不同頻率信道的太陽射電頻譜也是多模態(tài)學習的范疇[7]。多模式機器學習旨在建立能夠從多種模式中處理和關(guān)聯(lián)信息的模型。由于數(shù)據(jù)的異質(zhì)性，不同模態(tài)之間存在鴻溝，阻礙了信息間的直接交互，多模態(tài)機器學習的研究給研究者帶來了一些獨特的挑戰(zhàn)。本文主要介紹多模態(tài)學習的幾個主要應用研究領(lǐng)域，僅關(guān)注三種模式：自然語言、視覺信號以及語音信號。多模態(tài)學習的應用涉及許多方面，目前比較熱門的研究方向包括計算機視覺領(lǐng)域，醫(yī)療領(lǐng)域以及自動駕駛汽車等。

3.1 視聽語音識別

多模態(tài)研究中應用較成熟的是視聽語音識別，一種融合了語音和視覺模式的深度多模學習方法。在視聽語音識別中，說話人的錄音和視頻都可以在培訓時使用。針對視聽雙通道的語音識別，文獻[14]建立了基于隱馬爾科夫（HMM）的視聽融合模型，并對模型進行訓練和識別，實現(xiàn)了視聽雙通道的語音識別系統(tǒng)。文獻[15]最先聯(lián)合聲音和視頻對兩個獨立的網(wǎng)絡分別進行音頻和視覺特征的訓練，利用隨機梯度下降算法對網(wǎng)絡進行優(yōu)化。并引入了雙線性DNN 模型，如圖2 所示。融合發(fā)生在最后一個隱藏層，可以通過雙線性DNN 模型捕捉模態(tài)中的非線性特征之間的相關(guān)性。然后保持固定的特征空間，而在這個融合空間中訓練一個深的或淺的Softmax網(wǎng)絡，直到達到目標。

圖2 雙線性DNN

結(jié)果顯示使用雙線性DNN模型對兩種模態(tài)進行訓練比單一模態(tài)達到的效果好，語音識別準確度提高，但針對噪聲影響較大的語音效果不好。又由于噪聲因素不可避免，文獻[16]以噪聲環(huán)境下的自動語音識別為研究背景，建立視聽信息決策層的多模態(tài)融合模型，在隱馬爾科夫（HMM）統(tǒng)計模型的基礎(chǔ)上，通過多模態(tài)融合處理來降低或消除音頻噪聲，通過HMM的訓練步驟估計模型的參數(shù)，由關(guān)聯(lián)處理最終進行融合判決，仿真結(jié)果表明應用多模態(tài)視聽信息融合能有效克服噪聲干擾，提高識別準確度。

3.2 圖文情感分析

多模態(tài)的研究可用于學習多模態(tài)數(shù)據(jù)的情感分析，可以幫助更好地理解對某些事件的態(tài)度或觀點，情感分析中的多模態(tài)數(shù)據(jù)處理一直是一項具有挑戰(zhàn)性的任務。首先，與傳統(tǒng)的單一情態(tài)情感分析相比，多模態(tài)情感分析中包含著不同的表現(xiàn)形式，因此，情感分析方法應該有效地彌合不同模式之間的差距。

傳統(tǒng)的情感分析方法往往不能同時考慮圖片影響、特殊符號信息以及上下文信息，而導致情感分析方法準確率不高的問題，文獻[17]提出了一種基于轉(zhuǎn)移變量的圖文融合微博情感分析方法，通過處理句子的情感從屬和主題從屬，引入圖片因素為情感濃度來影響文本的情感分布，最后計算微博的整體情感傾向。實驗結(jié)果表明，與傳統(tǒng)情感分析模型相比，本模型測試數(shù)據(jù)集的準確率更高。由于微博文本具有長度受限、寫作不規(guī)范、風格隨意、主題發(fā)散等特點，針對這個問題，文獻[18]提出了一種基于依存關(guān)系的情感詞識別方法，通過對情感詞相關(guān)依存關(guān)系的統(tǒng)計和分析，構(gòu)建情感詞識別模版以識別微博語料中的網(wǎng)絡情感詞，再利用基于點互信息量方法計算情感詞的傾向性，從而構(gòu)建網(wǎng)絡情感詞典。

為了挖掘不同模式下的互補信息和非冗余信息，文獻[19]提出了基于視覺關(guān)注模型、語義關(guān)注模型和多模態(tài)關(guān)注模型三種模型的后期融合方案，即融合到一個多模態(tài)情感分析的整體框架中，運用了一種結(jié)合視覺注意機制的長短期記憶網(wǎng)絡（Long Short-Term Memory，LSTM），用于捕捉圖像與文本之間的關(guān)聯(lián)，以達到正確獲取社會圖像情感的目的，模型結(jié)構(gòu)如圖3。實驗在Getty image、Twitter和Flickr三個大型數(shù)據(jù)集上對該模型的性能進行了一系列實驗，結(jié)果表明，提出的方法在三個數(shù)據(jù)集上的性能優(yōu)于目前最新的方法。所提出的融合模型有效地將不同的數(shù)據(jù)模式結(jié)合在一起，從而實現(xiàn)較理想的情感分類性能。

圖3 圖文情感識別模型

3.3 協(xié)同標注

多模態(tài)的研究可用于多媒體數(shù)據(jù)標注，多媒體數(shù)據(jù)由文本、圖像、視頻、音頻、時間序列等多種形式組成。有時模態(tài)數(shù)據(jù)可能會存在缺乏標注數(shù)據(jù)、樣本含大量噪聲以及數(shù)據(jù)收集質(zhì)量不可靠等問題，可通過不同模態(tài)間的知識遷移提高質(zhì)量較差模態(tài)的性能。文獻[19]提出一種基于注意力機制的LSTM 網(wǎng)絡，利用語義一致性，捕捉視頻的顯著結(jié)構(gòu)，探索多模態(tài)表示之間的關(guān)系來完成視頻標注，但針對復雜視頻信息效果不好；文獻[20]在利用注意力機制的基礎(chǔ)上，基于語言知識選擇性地關(guān)注視覺屬性的標注方法，該方法將神經(jīng)網(wǎng)絡中的隱藏狀態(tài)映射到潛在嵌入空間，從而獲得語言與視覺屬性的對應關(guān)系；后來文獻[21]提出一種包含屬性的LSTM和RNN網(wǎng)絡來發(fā)現(xiàn)圖像視覺屬性與語義表達之間的復雜關(guān)系，還關(guān)注了句子和視頻的對應關(guān)系。文獻[22]提出了一種跨模態(tài)知識遷移網(wǎng)絡，利用源域和目標域的模式作為橋梁，將知識同時遷移到兩種模態(tài)，而層共享相關(guān)子網(wǎng)絡保留固有的跨模態(tài)語義相關(guān)性以進一步適應跨模式檢索任務。事實上，不同模態(tài)的多媒體內(nèi)容從各自的形式描述給定的標簽，并相互補充，探索異類數(shù)據(jù)分析和多媒體注釋的先進技術(shù)變得至關(guān)重要?；谶@一思想，文獻[23]提出了一種新的異構(gòu)多媒體協(xié)同標注多模態(tài)相關(guān)學習方法，即統(tǒng)一空間學習，將異構(gòu)媒體數(shù)據(jù)投影到一個統(tǒng)一的空間中，所提出的投影空間如圖4所示。

圖4 統(tǒng)一空間映射模型

將多媒體標注任務轉(zhuǎn)化為半監(jiān)督學習框架，學習不同媒體類型的不同投影矩陣。對于一個新的媒體樣本，可以很容易地將其嵌入到統(tǒng)一的空間中，然后將其相鄰的相關(guān)標簽分配給該樣本[24]。通過對圖像、音頻片段、視頻和三維模型數(shù)據(jù)集的實驗結(jié)果表明，不同的媒體內(nèi)容相互協(xié)調(diào)，共同為給定的語義標簽提供了一個更為互補的輪廓，可以學習到異構(gòu)媒體數(shù)據(jù)的更有效表示[25]。

3.4 匹配和分類

多模態(tài)的研究可學習圖像和文本之間的共享表示特征，用于多模態(tài)的匹配和分類，匹配即特征嵌入問題，分類即預測類標簽。與目前僅關(guān)注多模式匹配或分類的方法不同，文獻[23]提出了一個統(tǒng)一的網(wǎng)絡來共同學習圖像和文本之間的多模態(tài)匹配和分類。所提出的多模態(tài)匹配和分類網(wǎng)絡模型涉及視覺和語言之間，它可以無縫集成匹配和分類組件。其中實現(xiàn)兩個組件的融合是關(guān)鍵，這就涉及到多模態(tài)融合問題。多模態(tài)信息的融合能獲得更全面的特征，提高模型魯棒性，并且保證模型在某些模態(tài)缺失時仍能有效工作[26]。

針對多模態(tài)融合問題，包括網(wǎng)絡結(jié)構(gòu)上的改進以及算法的優(yōu)化兩大方面：在網(wǎng)絡結(jié)構(gòu)方面，常用的是帶注意力機制的遞歸神經(jīng)網(wǎng)絡，再利用注意力機制將文本與圖像特征融合[27]。但是這種網(wǎng)絡結(jié)構(gòu)往往不能高度集中地表示數(shù)據(jù)，于是有了一種新型端到端的深度融合卷積神經(jīng)網(wǎng)絡，將二維與三維數(shù)據(jù)輸入網(wǎng)絡進行特征提取和融合，進而獲得高度集中的特征表示，可應用于人臉表情識別[28]。在算法優(yōu)化方面：新型高效的融合方法是哈希算法，它將弱監(jiān)督方式提取出的多模態(tài)特征統(tǒng)一整合為二進制編碼，從而使用核函數(shù)配合SVM 進行分類[29]。文獻[23]不僅提出了一個統(tǒng)一的網(wǎng)絡結(jié)構(gòu)，還提出了一種結(jié)合匹配和分類損失的多級訓練算法，它可以使匹配和分類組件在一個統(tǒng)一的模型中更加兼容。通過四個眾所周知的基實驗表明，所提出的網(wǎng)絡模型具有較好的魯棒性，優(yōu)于匹配或分類單獨作用時的效果，對與匹配或分類相關(guān)的多模態(tài)任務有很好的推廣應用前景。

3.5 對齊表示學習

多模態(tài)研究還可用于不同模態(tài)之間的對齊表示，可在不同模式之間傳遞所學的知識。對齊旨在挖掘不同模態(tài)之間的對應關(guān)系，從而促使學習到的多模態(tài)表示更加精確，并且也為多媒體檢索提供更細致的檢索線索[30]。在多模態(tài)的對齊學習中，常用最大邊距學習方式結(jié)合局部對齊和全局對齊方法學習共同嵌入表示空間[29]。在跨模態(tài)檢索方法中，模態(tài)與模態(tài)之間存在一定的數(shù)據(jù)相關(guān)性，基于判別性字典學習的跨模態(tài)檢索方法可以增強來自不同類別的模態(tài)內(nèi)數(shù)據(jù)的辨別能力，運用判別性字典來解釋每種模態(tài)，通過標簽對齊方法進一步增強跨模態(tài)數(shù)據(jù)的區(qū)分性和相關(guān)性[31]。

對齊的跨模態(tài)表示將對計算機視覺產(chǎn)生很大的影響，因為它們是機器感知理解模式之間關(guān)系的基本組成部分。在實際學習詞、句子、圖像以及圖像區(qū)域的特征對齊表示時，提出了層次化多模態(tài)LSTM 的密集視覺-語義嵌入方法，可以有效地學習詞、句子、圖像以及圖像區(qū)域的對齊表示[32]。文獻[33]設計了一個跨模態(tài)網(wǎng)絡模型，它可以接受圖像、聲音或句子作為輸入，并產(chǎn)生一個跨模式共享的通用表示。通過實驗表明，深度跨模態(tài)表示法比以往的聚類CCA 和線性回歸都有很大的優(yōu)勢。因為所提出的網(wǎng)絡能夠?qū)W習高層次的特性，更容易跨模式對齊。但是當模態(tài)之間不匹配或者匹配程度低時，不容易學習它們的對齊表示，就需要設計一種深層跨模態(tài)對齊網(wǎng)絡多次進行訓練學習以盡可能消除模態(tài)間的不匹配問題[34]。

表示學習的目的是將被研究對象中所蘊含的語義信息抽象為實值向量，研究對象包括結(jié)構(gòu)化數(shù)據(jù)以及圖像、視頻、語音、文本等非結(jié)構(gòu)化數(shù)據(jù)[30]。最初基于模態(tài)相關(guān)性約束，出現(xiàn)了一種面向多模態(tài)表達的緊致哈希編碼方法，該方法首先基于模態(tài)內(nèi)和模態(tài)間的相關(guān)性約束，提出了一種新的深度學習模型生成哈希編碼[35]。但是由于數(shù)據(jù)不是連續(xù)的，會造成部分模態(tài)數(shù)據(jù)的缺失問題，又發(fā)展了一種基于自適應相似結(jié)構(gòu)正則化的部分多模態(tài)稀疏編碼模型，能很好地解決數(shù)據(jù)稀疏造成的模態(tài)缺失問題[36]。

多模態(tài)學習的研究起源于人們?nèi)粘Ｉ钪械脑S多實際問題，目的是幫助人們解決復雜度更高的問題。多模態(tài)學習應用可以很廣泛，涉及計算機視覺領(lǐng)域、醫(yī)療領(lǐng)域、天文學探測方面以及自動駕駛汽車等[37]。從以上多模態(tài)深度學習的幾個應用領(lǐng)域看，深度多模式學習的研究已取得較大的成果，有巨大的發(fā)展?jié)摿?。從最近幾年的多模態(tài)應用方面的文章看，多模態(tài)學習有極好的發(fā)展前景，應用實際生活中具有重要的現(xiàn)實意義。越來越多的文章致力于從圖像、聲音、視頻和文本等熱門方向著手來尋求各個模態(tài)之間的互聯(lián)想，逐漸形成一個以神經(jīng)網(wǎng)絡為基礎(chǔ)的完善的理論體系結(jié)構(gòu)，通過一系列基準實驗證明了該結(jié)構(gòu)的可實現(xiàn)性[38]。第4章將針對多模態(tài)學習的具體實現(xiàn)細節(jié)加以說明。

4 實現(xiàn)細節(jié)

4.1 多模態(tài)本質(zhì)問題

從多模態(tài)在第3章的幾個典型應用可以發(fā)現(xiàn)，來自不同模態(tài)的信息要想達到較好的實驗效果，它們區(qū)分單一模態(tài)的關(guān)鍵在于如何構(gòu)建一個共享表示空間，該共享表示空間可以融合來自兩個或多個模態(tài)的特征，從而可以找出各個模態(tài)之間的對應關(guān)系[39]。研究多模態(tài)學習的目的就是通過建立共享空間表示，學習不同模態(tài)之間的關(guān)系，最后實現(xiàn)模態(tài)之間的互聯(lián)想。這樣，同一現(xiàn)象的多個模態(tài)信息可以相互補充，當某一模態(tài)數(shù)據(jù)缺失時，多模態(tài)學習仍能達到很好的效果。

多模態(tài)學習有重要的現(xiàn)實意義，但是目前針對多模態(tài)學習的研究仍然十分有限。對于多模態(tài)學習，比較熱門的研究方向包括多模態(tài)的表示學習、不同模態(tài)之間的相互轉(zhuǎn)化、多模態(tài)融合、多模態(tài)對齊和共同學習等等。盡管多模態(tài)應用廣泛，但其本質(zhì)問題是在不同模態(tài)之間實現(xiàn)某種關(guān)聯(lián)。下面主要介紹建立一個共享表示空間的兩個關(guān)鍵過程：多模態(tài)融合和多模態(tài)對齊，并對多模態(tài)學習中常用的數(shù)據(jù)集進行介紹。

4.2 多模態(tài)融合

在多模態(tài)學習的早期就已經(jīng)開始了對多模態(tài)融合的研究，這是多模態(tài)學習研究最多的方面之一，它的工作可以追溯到25 年前[40]。首先，多模態(tài)融合從技術(shù)上講，是將來自多種模態(tài)的信息集成在一起的概念，目的是通過分類方法來預測一個類。例如在醫(yī)學領(lǐng)域，醫(yī)生就診更多根據(jù)圖像在局部區(qū)域高層語義特征（如是否病變、病變類型等）的差異，粗粒度地判斷圖像的相似程度，針對現(xiàn)有的醫(yī)學圖像特征表達忽略了醫(yī)學圖像特有的高層語義特征，致使醫(yī)學圖像聚類效果不佳的問題，文獻[41]提出了一種多模態(tài)醫(yī)學圖像聚類方法，就融合了醫(yī)學圖像紋理特征和特有形態(tài)學特征，并通過實驗驗證了該方法的有效性?？梢姸喾N模態(tài)的信息相互融合可以實現(xiàn)信息補充，提升預測結(jié)果的精度，提高預測模型的魯棒性，使最后的結(jié)果更可靠。

一般的融合分為特征融合和決策融合，特征融合指網(wǎng)絡一起提取的表達融合，之后接一個分類層；決策融合指模型組合，融合網(wǎng)絡計算的分類得分。在此主要介紹特征融合，特征融合即輸入兩個模態(tài)的特征向量，輸出融合后的向量，最常用的方法是拼接、按位乘、按位加。特征融合能有效提高某些算法的準確度，例如，針對單模態(tài)行人檢測在光照條件較差、目標部分遮擋、目標多尺度時檢測效果較差的問題，文獻[42]提出了一種基于可見和紅外雙模態(tài)特征金字塔融合的行人檢測算法，實驗結(jié)果表明在KAIST 數(shù)據(jù)集上的檢測效果超過了目前該數(shù)據(jù)集上的最佳模型。從特征融合的結(jié)構(gòu)上分，可分為早期融合、后期融合，后來又有了中間融合[43]。三種融合結(jié)構(gòu)的特點如表2所示。

表2 融合結(jié)構(gòu)特點

早期融合主要用于分類，在進行特征提取后立即集成，通常只是簡單連接它們的表示，廣泛出現(xiàn)在多模態(tài)學習任務中；晚期融合用于回歸，一般在每個模塊之后再執(zhí)行集成，可以有效地處理數(shù)據(jù)的異步性，但實現(xiàn)程度較早期融合較難；中間融合用于分類回歸，它結(jié)合了早、晚期融合的優(yōu)點，同時模型復雜度和實現(xiàn)難度也增加了[44]。

從融合方法上看，又可分為基于核融合、基于圖像模型和基于神經(jīng)網(wǎng)絡的方法，其中基于神經(jīng)網(wǎng)絡的融合方法是比較流行的方法。文獻[45]把多模態(tài)表示分為聯(lián)合表示和協(xié)同表示，聯(lián)合表示是將多個單模信號合并到同一個表示空間，學習各個模態(tài)間的共享表示；協(xié)同表示是在信號投影之前強制執(zhí)行一定相似性約束來協(xié)調(diào)它們[46]。

以圖像、文本的融合為例，(Xi,Yi)表示經(jīng)過預處理后得到的圖像和文本特征，i=1～N。假設所提取的特征向量的維數(shù)相同，最簡單的方法是采用直接疊加的方式將它們的特征向量加在一起，然后采用卷積運算來學習自適應權(quán)值，但是并沒有改變原始的基網(wǎng)絡[47]。在融合過程中，將得到的這兩個分支中的嵌入圖像、文本特征經(jīng)過正則化處理分別表示為S(Xi)和S(Yi)。融合后的視覺特征f(Xi)，文本特征g(Yi)可以由下式計算：

匹配損失函數(shù)目的減少匹配對距離，增加非匹配對的距離，較小的匹配距離表示圖像文本對存在某種關(guān)聯(lián)[48]。所采用的直接融合只適應于維數(shù)相同的情況，但是針對神經(jīng)網(wǎng)絡維數(shù)不同的問題，通常處理方法是將某一模態(tài)的維數(shù)進行PCA降維處理至與另一模態(tài)相同的維數(shù)，然后再進行相同的融合操作[49]。僅僅通過上面計算余弦相似度來設置匹配函數(shù)是不夠的，為了保持潛在空間中的相似性約束，通常需要在匹配損失上加約束函數(shù)。例如，文獻[50]是基于一個類似于有效雙向秩損失函數(shù)重新定義了匹配損失。為了利用更有代表性的非匹配對，該文在每一小批中選出了最具代表性的K類最不同的候選對象。直觀地，這個損失函數(shù)是為了減小匹配對的距離和增加非匹配對的距離而設定的。損失函數(shù)的計算公式如下：

m為邊緣參數(shù)，用來平衡兩個三重因子，其中的d(f(Xi),g(Yi))表示匹配對的距離，d(f(Xi),g(Yiˉ,k)) ，d(f(Xiˉ,k),g(Yi))表示非匹配對的距離。將這一損失函數(shù)最小化將產(chǎn)生一個理想的潛在空間，其中匹配對的距離應小于任何不匹配對之間的距離。為了使用損失函數(shù)得到的結(jié)果直觀的表示，使用了t-SNE 算法可視化特征嵌入f(Xi)和g(Yi)，就可以得到圖像文字特征的可視化表示?？梢暬Y(jié)果表明：相匹配的圖像文本在可視圖中距離較近，不匹配的圖像文本距離較遠，該文所用的嵌入模型能夠有效學習到圖像文本的對齊表示，也即融合效果較好。

4.3 多模態(tài)對齊

在多模態(tài)學習中，除模態(tài)之間的融合外，模態(tài)對齊也是多模態(tài)學習的核心問題[51]。多模態(tài)的對齊負責對來自同一個實例的不同模態(tài)信息的子分支元素尋找對應關(guān)系。這個對應關(guān)系可以是時間維度的，例如電影畫面、語音、字幕的自動對齊；對齊又可以是空間維度的，比如圖片語義分割：嘗試將圖片的每個像素對應到某一種類型標簽，實現(xiàn)視覺和詞匯對齊。多模態(tài)對齊指的是分別處理多個單模信號，但在信號投影之前通過強制執(zhí)行一定相似性約束來協(xié)調(diào)它們，即多模態(tài)表示中的協(xié)調(diào)表示，如圖5為模態(tài)對齊示意圖。每種模式都有相應的投影函數(shù)，它們在一定相似性約束下互相對應。

圖5 模態(tài)對齊結(jié)構(gòu)示意圖

目前針對多模態(tài)對齊，常見的兩種分類為：隱式對齊和顯式對齊[52]。隱式對齊一般是另一個任務的中間步驟，例如在基于文字的圖像檢索中，指單詞和圖像區(qū)域之間的對齊步驟，它確定了兩種類型的隱式對齊模型；顯示對齊是顯式地將感興趣的子模式之間的對齊[33]。它主要介紹如何實現(xiàn)不同子模式的對齊表示，以圖像和聲音兩種模態(tài)作為研究對象，對于超過兩種模態(tài)之間的對齊，采用兩兩對齊的方式以實現(xiàn)多模態(tài)對齊。

在實際中，僅僅依靠相似度判別對齊實現(xiàn)的效果并不可靠，希望多模態(tài)的對齊表示既有一致性又有區(qū)分性，即判別對齊的準確度較高。目前有兩種方法來解決這個問題：模型傳遞對齊和按等級對齊[53]。模型傳遞對齊是利用有區(qū)別的視覺模型來教學生模型一個有對齊的表示方法。以圖像Xi和聲音Yi兩種模態(tài)作為研究對象，例如Xi代表一個圖像，Yi代表圖像對應的聲音。用fX(Xi)和fY(Yi)分別表示圖像和聲音模態(tài)的特征表示。假設g(Xi)是某一特定模態(tài)類概率的教師模型，它可以估定特定模態(tài)的概率，由于各個模式是同步的，可以用另一種模式fY(Yi)來預測教師模型g(Xi)的概率問題，使用KL散度作為損失函數(shù)計算公式如下：

這一目標本身將使對齊能夠出現(xiàn)在g(Xi)所預測的類別級別上。為了使內(nèi)部表示出現(xiàn)對齊，需要限制網(wǎng)絡上層跨模態(tài)的共享參數(shù)來實現(xiàn)，網(wǎng)絡的上層參數(shù)在前期是特定于單個模態(tài)的，添加限制條件后上層參數(shù)將被各個模態(tài)共享，通過約束上層參數(shù)來轉(zhuǎn)化為對齊表示[54]。為使對齊的區(qū)分效果更好，通常用按等級對齊方式的排序損失函數(shù)來獲得有區(qū)分的對齊表示，該函數(shù)表示為：

其中，Δ代表邊緣超參數(shù)，ψ是一個相似函數(shù)，j是迭代負例子。這一損失函數(shù)區(qū)別于前面僅僅靠余弦相似度判別對齊的好處在于，各自對齊的例子在表示空間中更加緊密的推到一起，達到一定的邊緣設置參數(shù)。最后在三個基準實驗上，在給定一個模式查詢的情況下，在所有模式中都找到了相似的示例，驗證了提出的對齊模型在視覺、聲音和文本方面學到了更好的對齊[33]。

4.4 數(shù)據(jù)集

多模態(tài)深度學習具有極大的發(fā)展?jié)摿?，大量的研究在對現(xiàn)有的模型不斷地進行改善和創(chuàng)新。除了尋求一切算法結(jié)構(gòu)模型上的突破之外，不斷更新完善數(shù)據(jù)集，提高多模態(tài)深度學習模型運算速度，提高輸出預測準確率，對多模態(tài)學習的發(fā)展至關(guān)重要[55]。在本章列舉常見的多模態(tài)任務相應的數(shù)據(jù)集，多模態(tài)學習區(qū)分單一模態(tài)在數(shù)據(jù)集上也有很大不同，下面介紹幾種多模態(tài)常用的數(shù)據(jù)集。最初為了對會議室環(huán)境下說話人進行更好的研究，便于運用語音視頻處理技術(shù)，需要大量的語音視頻數(shù)據(jù)庫。在這一領(lǐng)域收集的第一個里程碑數(shù)據(jù)集之一是AMI會議語料庫，這是到目前為止信息量最多，功能最全面的音視頻語料會議庫，其中包含100多個小時的會議視頻記錄，每場會議由4到5個人組成，所有這些都經(jīng)過了完整的轉(zhuǎn)錄和注釋，以便人們更好地進行會議室環(huán)境下視頻處理和語義分割等方面的研究[56]。另一個重要的數(shù)據(jù)集是信號語料庫，主要研究說話者和聽者之間的動態(tài)關(guān)系[57]。

這些數(shù)據(jù)集通常以人為中心的視覺理解，以及包括情感識別在內(nèi)的變體，群體行為分析等[58]。例如：對于字母識別，avletters是最常用的數(shù)據(jù)庫之一，包含來自10個揚聲器的錄音，每個字母重復3次，分辨率為376×288像素和25 幀[59]。后來又進行了改進，avletters2 解決了avletters 的一些問題，例如低分辨率或揚聲器數(shù)量有限[60]。具體來說，avletters2 增加了發(fā)聲次數(shù)，每個揚聲器重復 3 到 7 次和分辨率 1 920×1 080 像素和 50 幀。Pascal數(shù)據(jù)集：它包含來自20個類別的1 000幅圖像（每類50 幅），其中一幅圖像由5 個不同的句子描述[61]。Flowers數(shù)據(jù)集：包含102個類，共有8 189幅圖像。在訓練階段使用2 040 幅圖像，其余6 149 幅圖像用于測試[62]。CUB-Bird 數(shù)據(jù)集：它包含來自200 個類別的11 788 張鳥類圖像，其中5 994 張圖像用于培訓，5 794張圖像用于測試[63]。表3為常用的多模態(tài)數(shù)據(jù)集。

表3 多模態(tài)數(shù)據(jù)集

5 發(fā)展趨勢與結(jié)論

關(guān)于目前的多模態(tài)深度學習，未來的發(fā)展趨勢主要從以下幾點說起：（1）探索如何應用神經(jīng)網(wǎng)絡研究多模態(tài)學習，還需要進一步研究形成一個以神經(jīng)網(wǎng)絡為基礎(chǔ)的完善的理論體系結(jié)構(gòu)，這取決于神經(jīng)網(wǎng)絡的理論體系的成熟發(fā)展；（2）與多模態(tài)相關(guān)的數(shù)據(jù)集也應該進一步完善，將直接決定深度學習模型的運算速度，輸出預測準確率的高低，對多模態(tài)學習的發(fā)展也至關(guān)重要；（3）不同模態(tài)特征在融合過程中會受到噪聲影響，使融合后信息不準確，并且在包含時序關(guān)系的多模態(tài)學習中，每種模態(tài)可能遭受噪聲干擾的時刻也可能不同，因此在融合方式方面看是否還有更適合的方法；（4）現(xiàn)階段的對齊方法顯示對齊的數(shù)據(jù)信息量較少，且不同模態(tài)間信息甚至無法匹配使模型性能嚴重下降，在未來的工作中，還需設計同時進行度量學習和對齊的方法提高相關(guān)模型的性能。

隨著深度學習的快速發(fā)展，人們獲取信息的方式的不斷更新，由于信息數(shù)據(jù)的廣泛性，數(shù)據(jù)庫也不可能包含所需的全部信息，因此建立模態(tài)之間的相互聯(lián)想能力格外重要，即使在數(shù)據(jù)信息不足，同樣能夠根據(jù)模態(tài)間的映射關(guān)系獲取對事件的正確認知[64]。當然多模態(tài)應用很廣，比較熱門的研究方向用在自動駕駛汽車、多媒體應用和醫(yī)療領(lǐng)域等[65]。在這篇文章中，回顧了在深度多模式學習在視聽語音識別、協(xié)同標注、匹配和分類以及對齊表示學習上的幾個熱門應用，對它們的具體實現(xiàn)過程作了簡要概述，所提出的試聽語音自動識別模型、統(tǒng)一空間映射模型、統(tǒng)一的多模式匹配和分類網(wǎng)絡模型和跨模態(tài)對齊模型都有較好的實驗效果。多模態(tài)學習是一個充滿活力的多學科領(lǐng)域，具有日益重要和巨大的潛力。不可否認，將多種模式納入學習問題會對網(wǎng)絡結(jié)構(gòu)、數(shù)據(jù)處理、目標函數(shù)設置等方面產(chǎn)生各種各樣的影響，這在很大程度上是一個有很大挑戰(zhàn)的領(lǐng)域，必然會出現(xiàn)許多新的創(chuàng)新，也期待著多模態(tài)學習領(lǐng)域這個方向更加蓬勃發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡