何 俊,張彩慶,李小珍,張德海
(1.昆明學院 信息工程學院,昆明 650214; 2.云南大學 a.外國語學院; b.軟件學院,昆明 650206)
近年來,深度學習(Deep Learning,DL)在圖像識別、機器翻譯、情感分析、自然語言處理(Natural Language Processing,NLP)等領域得到廣泛應用并取得較多研究成果,為使機器能更全面高效地感知周圍的世界,需要賦予其理解、推理及融合多模態(tài)信息的能力,并且由于人們生活在一個多領域相互交融的環(huán)境中,聽到的聲音、看到的實物、聞到的味道都是一種模態(tài),因此研究人員開始關注如何將多領域數據進行融合實現(xiàn)異質互補,例如語音識別的研究表明,視覺模態(tài)提供了嘴的唇部運動和發(fā)音信息,包括張開和關閉,有助于提高語音識別性能。可見,利用多種模式的綜合語義對深度學習研究具有重要意義。深度學習中的多模態(tài)融合技術(Multimodality Fusion Technology,MFT)[1]是模型在分析和識別任務時處理不同形式數據的過程。多模態(tài)數據的融合可為模型決策提供更多信息,從而提高決策總體結果的準確率,其目標是建立能夠處理和關聯(lián)來自多種模態(tài)信息的模型。
MFT主要包括模態(tài)表示、融合、轉換、對齊技術[2]。由于不同模態(tài)的特征向量最初位于不同的子空間中,即具有異質性,因此將影響多模態(tài)數據在深度學習領域的應用[3]。為解決該問題,可將異構特征投影到公共子空間,由相似向量表示具有相似語義的多模態(tài)數據[4]。因此,多模態(tài)融合技術的主要目標是縮小語義子空間中的分布差距,同時保持模態(tài)特定語義的完整性,例如利用多模態(tài)融合特征,提高視頻分類[5]、事件檢測[6-7]、情感分析[8-9]、跨模態(tài)翻譯[10]等跨媒體分析性能。特別是多模態(tài)融合近期在計算機視覺、NLP和語音識別等應用中取得的突出性成果[11],已引起學術界和工業(yè)界的廣泛關注。本文根據多模態(tài)融合架構、融合方法、模態(tài)對齊方式和公開數據資源等,對面向深度學習的多模態(tài)融合技術進行分析與研究。
多模態(tài)融合的主要目標是縮小模態(tài)間的異質性差異,同時保持各模態(tài)特定語義的完整性,并在深度學習模型中取得較優(yōu)的性能。多模態(tài)融合架構分為[2]:聯(lián)合架構,協(xié)同架構和編解碼器架構。聯(lián)合架構是將單模態(tài)表示投影到一個共享語義子空間中,以便能夠融合多模態(tài)特征。協(xié)同架構包括跨模態(tài)相似模型和典型相關分析,其目標是尋找協(xié)調子空間中模態(tài)間的關聯(lián)關系。編解碼器架構是將一個模態(tài)映射到另一個模態(tài)的多模態(tài)轉換任務中。3種融合架構在視頻分類、情感分析、語音識別等領域得到廣泛應用,且涉及圖像、視頻、語音、文本等融合內容,具體應用情況如表1所示。
表1 3種多模態(tài)融合架構的應用情況
Table 1 Application situation of three architectures for multimodal fusion
架構應用領域融合內容參考文獻聯(lián)合架構視頻分類語音、視頻、文本文獻[5,12]事件檢測語音、視頻、文本文獻[7]情緒分析語音、視頻、文本文獻[13-14]視覺問答圖像、文本文獻[15-16]情感分析語音、視頻、文本文獻[17]語音識別語音、視頻文獻[18]協(xié)同架構跨模態(tài)搜索圖像、文本文獻[19-20]圖像標注圖像、文本文獻[21]跨模態(tài)嵌入圖像、視頻、文本文獻[22-23]轉移學習圖像、文本文獻[24]編解碼器架構圖像標注圖像、文本文獻[25]視頻解碼視頻、文本文獻[26-27]圖像合成圖像、文本文獻[28]
多模態(tài)融合策略是集成不同類型的特征來提高機器學習模型性能,消除不同模態(tài)的異質性差異。聯(lián)合架構是將多模態(tài)空間映射到共享語義子空間中,從而融合多個模態(tài)特征[2],如圖1所示。每個單一模態(tài)通過單獨編碼后,將被映射到共享子空間中,遵循該策略,其在視頻分類[12]、事件檢測[7]、情感分析[13-14]、視覺問答[15-16]和語音識別[17-18]等多模態(tài)分類或回歸任務中都表現(xiàn)出較優(yōu)的性能。
圖1 聯(lián)合融合架構示意圖
多模態(tài)聯(lián)合架構的關鍵是實現(xiàn)特征“聯(lián)合”,一種較簡單的方法是直接連接,即“加”聯(lián)合方法。該方法在不同的隱藏層實現(xiàn)共享語義子空間,將轉換后的各個單模態(tài)特征向量語義組合在一起,從而實現(xiàn)多模態(tài)融合,如式(1)所示:
(1)
其中,z是共享語義子空間中的輸出結果,v是各單模態(tài)的輸入,w是權重,下標表示不同的模態(tài),通過映射f將所有子模態(tài)語義轉換到共享子空間。
另一種常用方法是“乘”聯(lián)合方法,如文獻[29]將語言、視頻和音頻等模態(tài)融合在統(tǒng)一的張量中,而張量是由所有單模態(tài)特征向量的輸出乘積構成,如式(2)所示:
(2)
其中,z表示融合張量后的結果輸出,v表示不同的模態(tài),?表示外積算子。
盡管“加”聯(lián)合方法簡單且容易實現(xiàn),但其特征向量語義組合容易造成后期語義丟失,使模型性能降低,而“乘”聯(lián)合方法彌補了這一不足,通過張量計算使特征語義得到充分融合,例如文獻[17]的多模態(tài)情感預測模型由包括許多內部乘積的連續(xù)神經層組成,其充分利用深度神經網絡的多層性質,將不同模態(tài)有序分布在不同層中,并在模型訓練過程中動態(tài)實現(xiàn)向量語義組合。
此外,聯(lián)合架構對每個單模態(tài)的語義完整性有較高要求,數據不完整或錯誤問題在后期融合中會被放大,一些研究人員通過聯(lián)合訓練或模態(tài)相關性來解決這一問題。文獻[30-31]通過多模態(tài)聯(lián)合處理某些單模態(tài)中的部分數據缺失問題,以便可以利用更多且更完整的訓練數據,或者在一種或多種模態(tài)數據缺失的情況下,盡量減少對后續(xù)訓練任務的影響。文獻[12]利用各單模態(tài)特征之間的相關性(如權重相似性)來發(fā)現(xiàn)模態(tài)之間的關系,從而對這些特征進行分類使用,該方法在視頻分類任務中的實驗結果表明其有助于提高機器學習模型性能。
多模態(tài)聯(lián)合架構的優(yōu)點是融合方式簡單,且共享子空間通常具備語義不變性,有助于在機器學習模型中將知識從一種模態(tài)轉換到另一種模態(tài)。其缺點是各單模態(tài)語義完整性不易在早期發(fā)現(xiàn)和處理。
多模態(tài)協(xié)同架構是將各種單模態(tài)在一些約束的作用下實現(xiàn)相互協(xié)同[2]。由于不同模態(tài)包含的信息不同,因此協(xié)同架構有利于保持各單模態(tài)獨有的特征和排它性,如圖2所示。
圖2 協(xié)同融合架構示意圖
協(xié)同架構在跨模態(tài)學習中已經得到廣泛應用,主流的協(xié)同方法是基于交叉模態(tài)相似性方法,該方法旨在通過直接測量向量與不同模態(tài)的距離來學習公共子空間[32]。基于交叉模態(tài)相關性的方法旨在學習一個共享子空間,從而使不同模態(tài)表示集的相關性最大化[4]。
交叉模態(tài)相似性方法在相似性度量的約束下保持模態(tài)間和模態(tài)內的相似性結構,使得相同語義或相關對象的跨模態(tài)相似距離盡可能小,不同語義的距離盡可能大,例如文獻[23]提出的模態(tài)間排名方法用于完成視覺和文本融合任務,將視覺和文本的匹配嵌入向量表示為(v,t)∈D,融合目標函數用一個損失函數f表示,如式(3)所示:
(3)
其中,α是邊緣,S是相似性度量函數,t-是與v不匹配的嵌入向量,v-是與t不匹配的嵌入向量,且t-和v-是隨機選擇的樣本。該方法保持了模態(tài)間和模態(tài)內的相似性結構,同時實現(xiàn)模態(tài)之間相互協(xié)同。此外,文獻[22,33-34]采用其他方法來度量距離,如歐式距離,其目的都是使配對樣本距離最小化。除了學習模態(tài)間相似性的度量外,跨模態(tài)應用的另一個關鍵問題是保持模態(tài)間相似性結構,此類方法通常對模態(tài)特征的類別進行分類,使它們在每種模態(tài)下具有一定的區(qū)分度[19],同時兼顧模態(tài)協(xié)同和特征融合。由于協(xié)同架構的這一靈活特點,使其在語音識別、遷移學習和圖像標注等領域都有廣泛應用。
協(xié)同架構的優(yōu)點是每個單模態(tài)都可以獨立運行,這一特性有利于跨模式遷移學習,其目的是在不同模態(tài)或領域之間傳遞知識。其缺點是模態(tài)融合難度較大,使跨模態(tài)學習模型不容易實現(xiàn),同時模型很難在兩種以上的模態(tài)之間實現(xiàn)遷移學習。
編解碼器架構通常用于將一種模態(tài)映射到另一種模態(tài)的多模態(tài)轉換任務中,主要由編碼器和解碼器兩部分組成。編碼器將源模態(tài)映射到向量v中,解碼器基于向量v生成一個新的目標模態(tài)樣本。該架構在圖像標注、圖像合成、視頻解碼等領域有廣泛應用,如圖3所示。
圖3 編解碼器融合架構示意圖
目前,編解碼器架構重點關注共享語義捕獲和多模序列的編解碼問題。為有效捕獲源模態(tài)和目標模態(tài)兩種模態(tài)的共享語義,主流的解決方案是通過一些正則化術語保持模態(tài)之間的語義一致性,需確保編碼器能正確檢測和編碼信息,而解碼器能推理高級語義和生成語法,以保證源模態(tài)中語義的正確理解和目標模態(tài)中新樣本的生成。為解決多模序列的編碼和解碼問題,需訓練一個靈活的特征選擇模塊,而訓練序列的編碼或解碼可以看作順序決策問題,因此通常需采用決策能力強的模型和方法處理該問題,例如深度強化學習(Deep Reinforcement Learning,DRL),其是一種常用的多模序列編解碼工具[35]。
盡管多數編解碼器架構只包含編碼器和解碼器,但也有一些架構是由多個編碼器或解碼器組成。例如:文獻[36]提出一種跨樂器翻譯音樂的模型,其中涉及一個編碼器和多個解碼器;文獻[37]是一種圖像到圖像的翻譯模型,由多個內容編碼器和樣式編碼器組成,每個編碼器都負責一部分工作。
編解碼器架構的優(yōu)點是能夠在源模態(tài)基礎上生成新的目標模態(tài)樣本。其缺點是每個編碼器和解碼器只能編碼其中一種模態(tài),并且決策模塊設計復雜。
多模態(tài)融合方法是多模態(tài)深度學習技術的核心內容,本文將從融合技術的角度出發(fā)對早期、晚期和混合融合方法[38-39]進行分析。多模態(tài)融合方法如表2所示。
表2 多模態(tài)融合方法
將多模態(tài)融合方法分為模型無關的方法和基于模型的方法,前者不直接依賴于特定的深度學習方法,后者利用深度學習模型顯式地解決多模態(tài)融合問題,例如多核學習(Multiple Kernel Learning,MKL)方法、圖像模型(Graphical Model,GM)方法和神經網絡(Neural Network,NN)方法等。
模型無關的融合方法可以分為早期融合(基于特征)、晚期融合(基于決策)和混合融合[11]。如圖4所示,早期融合在提取特征后立即集成特征(通常只需連接各模態(tài)特征的表示),晚期融合在每種模式輸出結果(例如輸出分類或回歸結果)后才執(zhí)行集成,混合融合結合早期融合方法和單模態(tài)預測器的輸出。
圖4 3種模型無關的多模態(tài)融合方法
2.1.1 早期融合方法
為緩解各模態(tài)中原始數據間的不一致性問題,可以先從每種模態(tài)中分別提取特征的表示,然后在特征級別進行融合,即特征融合。由于深度學習本質上會涉及從原始數據中學習特征的具體表示,從而導致有時需在未抽取特征之前就進行數據融合,因此特征層面和數據層面的融合均稱為早期融合。
模態(tài)之間通常是高度相關的,但這種相關性在特征層和數據層提取難度很大。文獻[52]認為,不同的數據流所包含的信息之間在較高層次才能具有相關性。文獻[53]提出多模態(tài)數據的早期融合不能充分展示模態(tài)之間的互補性,但可能導致冗余向量的輸入。因此,研究人員通常采用降維技術來消除輸入空間中的冗余問題,例如文獻[54]中的主成分分析(Principal Component Analysis,PCA)方法被廣泛應用于多模態(tài)深度學習的降維處理中。此外,多模態(tài)早期融合方法還需解決不同數據源之間的時間同步問題,文獻[55]提出多種解決同步問題的方法,如卷積、訓練和池融合等,能較好地將離散事件序列與連續(xù)信號進行整合,實現(xiàn)模態(tài)間的時間同步。
2.1.2 晚期融合方法
晚期融合方法也稱為決策級融合方法,深度學習模型先對不同模態(tài)進行訓練,再融合多個模型輸出的結果。因為該方法的融合過程與特征無關,且來自多個模型的錯誤通常是不相關的,因此該融合方法普遍受到關注。目前,晚期融合方法主要采用規(guī)則來確定不同模型輸出結果的組合,即規(guī)則融合,例如最大值融合、平均值融合、貝葉斯規(guī)則融合以及集成學習等規(guī)則融合方法[56]。文獻[55]嘗試將早期和晚期融合方法進行比較,發(fā)現(xiàn)當模態(tài)之間相關性比較大時晚期融合優(yōu)于早期融合,當各個模態(tài)在很大程度上不相關時,例如維數和采樣率極不相關,采用晚期融合方法則更適合。因此,兩種方法各有優(yōu)缺點,需要在實際應用中根據需求選擇。
2.1.3 混合融合方法
混合融合方法結合了早期和晚期融合方法,在綜合兩者優(yōu)點的同時,也增加了模型的結構復雜度和訓練難度。由于深度學習模型結構的多樣性和靈活性,比較適合使用混合融合方法,因此在多媒體、視覺問答、手勢識別[57]等領域應用廣泛。文獻[58]在視頻和聲音信號融合過程中,先進行僅基于視頻信號和聲音信號的視聽深度神經網絡模型訓練,分別產生模型預測結果,再將視頻信號和聲音信號的集成特征輸入視聽深度神經網絡模型中產生模型預測結果,最后采用加權方式整合各模型的預測結果,獲得最終識別結果。混合融合方法的組合策略的合理性問題是提高模型性能的關鍵因素。文獻[42]利用混合融合方法實現(xiàn)多媒體事件檢測的典型應用,通過早期融合與晚期融合來捕捉特征關系和處理過擬合問題,設計雙融合的混合融合方案,達到88.1%的準確率,是目前該領域取得的最優(yōu)結果。
綜上,3種融合方法各有優(yōu)缺點,早期融合能較好地捕捉特征之間的關系,但容易過度擬合訓練數據。晚期融合能較好地處理過擬合問題,但不允許分類器同時訓練所有數據。盡管混合多模態(tài)融合方法使用靈活,但研究人員針對當前多數的體系結構需根據具體應用問題和研究內容選擇合適的融合方法。
基于模型的融合方法是從實現(xiàn)技術和模型的角度解決多模態(tài)融合問題,常用方法包括MKL、GM、NN方法等。
2.2.1 多核學習方法
MKL是內核支持向量機(Support Vector Machine,SVM)方法的擴展,其允許使用不同的核對應數據的不同視圖[59]。由于核可以看作各數據點之間的相似函數,因此該方法能更好地融合異構數據且使用靈活,在多目標檢測[43]、多模態(tài)情感識別[44]和多模態(tài)情感分析[45]等領域均具有非常廣泛的應用。文獻[60]使用MKL從聲學、語義和社會學等數據中進行音樂藝術家相似性排序,將異構數據集成到一個單一、統(tǒng)一的相似空間中,該方法較符合人類的感知。文獻[61]在阿爾茨海默病分類中使用MKL進行多模態(tài)融合,通過在高斯核上進行傅里葉變換,顯式計算映射函數,從而得到一個更簡單的解決方案,其是一種較新的多核學習框架。這兩個研究成果都具有可擴展性和易于實現(xiàn)的特點,并取得了非常出色的學習性能。
除了核選擇的靈活性外,MKL的另一個優(yōu)勢是損失函數為凸,允許使用標準優(yōu)化包和全局最優(yōu)解進行模型訓練,可大幅提升深度神經網絡模型性能。MKL的主要缺點是在測試期間需要依賴訓練數據,且占用大量內存資源。
2.2.2 圖像模型方法
GM是一種常用的多模態(tài)融合方法,主要通過圖像分割、拼接和預測對淺層或深度圖形進行融合,從而生成模態(tài)融合結果。常見圖像模型有聯(lián)合概率生成模型和條件概率判別模型[62]等。早期人們多數使用生成模型進行多模態(tài)融合,如耦合和階乘隱馬爾可夫模型、動態(tài)貝葉斯網絡等,這些模型充分利用聯(lián)合概率的預測能力進行建模,但不利于實現(xiàn)數據的空間和時間結構。近期提出的條件隨機場(Conditional Random Fields,CRF)方法通過結合圖像描述的視覺和文本信息,可以更好地分割圖像[63],并在多模態(tài)會議分割[64]、多視點隱藏[65]、潛在變量模型[66]、多媒體分類任務、連續(xù)版本的數據擬合等方面都有較好的融合效果。GM方法利用回歸模型對多個連續(xù)版本的數據進行擬合,預測后續(xù)版本數據的趨勢,從而提高多媒體分類任務的性能。
GM融合方法的優(yōu)點是能夠有效利用數據空間和時間結構,適用于與時間相關的建模任務,還可將人類專家知識嵌入到模型中,增強了模型的可解釋性,但是模型的泛化能力有限。
2.2.3 神經網絡方法
NN是目前應用最廣泛的方法之一,已用于各種多模態(tài)融合任務中[30]。視覺和聽覺雙模語音識別(Audio-Visual Speech Recognition,AVSR)是最早使用神經網絡方法進行多模態(tài)融合的技術,目前神經網絡方法已在很多領域得到了應用,例如視覺和媒體問答[67]、手勢識別[68]和視頻描述生成[69]等,這些應用充分利用了神經網絡方法較強的學習能力和分類性能。近期神經網絡方法通過使用循環(huán)神經網絡(Recurrent Neural Network,RNN)和長短期記憶網絡(Long Short-Term Memory,LSTM)來融合時間多模態(tài)信息,例如文獻[50]使用LSTM模型進行連續(xù)多模態(tài)情感識別,相對于MKL和GM方法表現(xiàn)出更優(yōu)的性能。此外,神經網絡多模態(tài)融合方法在圖像字幕處理任務中表現(xiàn)良好,主要模型包括神經圖像字幕模型[70]、多視圖模型[71]等。神經網絡方法在多模態(tài)融合中的優(yōu)勢是具備大數據學習能力,其分層方式有利于不同模態(tài)的嵌入,具有較好的可擴展性,但缺點是隨著模態(tài)的增多,模型可解釋性變差。
多模態(tài)對齊是多模態(tài)融合的關鍵技術之一,指從兩個或多個模態(tài)中查找實例子組件之間的對應關系。例如,給定一個圖像和一個標題,需找到圖像區(qū)域與標題單詞或短語的對應關系[72]。多模態(tài)對齊方法分為顯式對齊和隱式對齊。顯式對齊關注模態(tài)之間子組件的對齊問題,而隱式對齊則是在深度學習模型訓練期間對數據進行潛在對齊,如表3所示。
表3 多模態(tài)對齊方法
無監(jiān)督方法在不同模態(tài)的實例之間沒有用于直接對齊的監(jiān)督標簽,例如:文獻[73]提出的動態(tài)時間扭曲(Dynamic Time Warping,DTW)方法是一種動態(tài)規(guī)劃的無監(jiān)督學習對齊方法,已被廣泛用于對齊多視圖時間序列;文獻[74]根據相同物體的外貌特征來定義視覺場景和句子之間的相似性,從而對齊電視節(jié)目和情節(jié)概要。上述兩個研究成果都在沒有監(jiān)督信息的前提下,通過度量兩個序列之間的相似性,在找到它們之間的最佳匹配后按時間對齊(或插入幀),實現(xiàn)字符標識和關鍵字與情節(jié)提要和字幕之間的對齊。還有類似DTW的方法用于文本、語音和視頻的多模態(tài)對齊任務,例如文獻[75]使用動態(tài)貝葉斯網絡將揚聲器輸出語音與視頻進行對齊。盡管無監(jiān)督對齊方法無需標注數據,可以節(jié)省數據標注成本,但對實例的規(guī)范性要求較高,需具備時間一致性且時間上沒有較大的跳躍和單調性,否則對齊性能會急劇下降。
監(jiān)督方法是從無監(jiān)督的序列對齊技術中得到啟發(fā),并通過增強模型的監(jiān)督信息來獲得更好的性能,通常可以將上述無監(jiān)督方法進行適當優(yōu)化后直接用于模態(tài)對齊。該方法旨在不降低性能的前提下,盡量減少監(jiān)督信息,即弱監(jiān)督對齊。例如:文獻[76]提出一種類似于規(guī)范時間扭曲的方法,主要利用現(xiàn)有(弱)監(jiān)督對齊數據完成模型訓練,從而提升深度學習模型性能;文獻[77]利用少量監(jiān)督信息在圖像區(qū)域和短語之間尋找協(xié)調空間進行對齊;文獻[78]訓練高斯混合模型,并與無監(jiān)督的潛變量圖像模型同時進行弱監(jiān)督聚類學習,使音頻信道中的語音與視頻中的位置及時對齊。因此,監(jiān)督方法的對齊性能總體上優(yōu)于無監(jiān)督方法,但需要以標注數據為基礎,而準確把握監(jiān)督信息的參與程度是一項極具挑戰(zhàn)的工作。
圖像模型方法最早用于對齊多種語言之間的語言機器翻譯及語音音素的轉錄[79],即將音素映射到聲學特征生成語音模型,并在模型訓練期間對語音和音素數據進行潛在對齊。構建圖像模型需要大量訓練數據或手工運行,因此隨著深度學習研究的深入及訓練數據的有限,該方法已不適用。
神經網絡方法是目前解決機器翻譯問題的主流方法,無論是使用編解碼器模型還是通過跨模態(tài)檢索都表現(xiàn)出較好的性能。利用神經網絡模型進行模態(tài)隱式對齊,主要是在模型訓練期間引入對齊機制,通常會考慮注意力機制。例如,圖像自動標注應用中在生成連續(xù)單詞時[80],注意力機制允許解碼器(通常是RNN)集中在圖像的特定部分,該注意力模塊為一個淺層神經網絡,其與目標任務一起完成端到端訓練。該方法目前已被廣泛應用于語音數據標注、視頻文本對齊和視頻轉錄等領域[81],但由于深度神經網絡的復雜性,因此設計注意力模塊具有一定的難度。
多模態(tài)融合技術作為一個具有極大發(fā)展?jié)摿Φ难芯糠较?大量研究人員一直對現(xiàn)有模型進行不斷創(chuàng)新和探索以完善數據集,提升多模態(tài)深度學習模型性能,提高預測準確率。表4列舉了常見用于多模態(tài)融合技術研究和應用的公開數據集,并給出各數據集目前的最優(yōu)學習結果,其中包括準確率(Accurary,ACC)、正確分類率(Correct Classification Rate,CCR)、等錯誤率(Equal Error Rate,EER)和平均精度均值(Mean Average Precision,MAP)。
表4 多模態(tài)融合公開數據集
現(xiàn)有多模態(tài)融合技術可有效提升深度學習模型性能,但仍有一些問題亟待解決,例如跨模態(tài)遷移學習、特征間語義鴻溝、模態(tài)泛化能力等。
1)多模態(tài)融合技術在深度學習等新興研究領域的進一步應用探索。隨著深度學習應用的不斷深入,多模態(tài)融合技術的優(yōu)勢凸顯,如基于傳感器數據、人類活動識別、醫(yī)學研究等多模態(tài)融合方面,這些領域會在未來幾年獲得更多的關注。特別是自主機器人和多媒體兩個應用領域中的多模態(tài)融合問題正在引起深度學習研究人員的極大關注,例如視頻轉錄、圖像字幕、在線聊天機器人等。
2)多模態(tài)融合技術為多數據集之間的跨模態(tài)遷移學習提供了橋梁,盡管遷移學習已廣泛應用于多模態(tài)深度學習領域,但由于長期以來人工數據標注成本高和許多領域的標注數據資源稀缺問題,因此基于多模態(tài)融合的遷移學習仍是下一步將重點關注的方向。
3)目前深度學習多模態(tài)融合中的語義沖突、重復和噪聲等問題仍未得到較好解決。雖然注意力機制可以部分處理這些問題,但其主要為隱式運行,不易受到主動控制。解決該問題的一種有效方法為將邏輯推理能力集成到多模態(tài)融合技術中,深度學習與邏輯推理的結合將賦予機器智能更多的認知能力。
4)多模態(tài)融合技術將在情感識別與分析領域發(fā)揮更大作用。目前利用多模態(tài)融合進行情感識別研究仍處于部分融合階段,尚未建立一個情感分析的綜合數據庫,下一步可將人體的所有特征包括面部表情、瞳孔擴張、語言、身體運動、體溫等進行多模態(tài)融合,以獲得更全面、詳細的情感識別結果。
5)多模態(tài)融合中的特征間語義鴻溝、模態(tài)泛化能力、多模態(tài)組合評價標準等關鍵問題仍將得到持續(xù)關注。為解決多模態(tài)特征的語義鴻溝,實現(xiàn)各模態(tài)信息的無障礙交流互通,需要探索更有效的語義嵌入方法。模態(tài)泛化能力是將已有模態(tài)上學習的多模態(tài)表示和模型推廣到未知模態(tài)上,使機器具備高效、準確學習數據庫外數據的能力。如何高效、規(guī)范地組合模態(tài)是一個從理論到具體算法都亟待解決的問題,并且還需設計一個更具普適性的評價標準來判定組合形式的優(yōu)劣。
6)多模態(tài)深度學習的目標函數通常為非凸優(yōu)化函數,目前的深度學習訓練算法不能有效避開鞍點,導致尋優(yōu)過程失敗,使得研究人員無法獲知是優(yōu)化過程未找到最優(yōu)解導致預測結果較差,還是其他模態(tài)融合和模態(tài)對齊中存在問題。針對該情況,需設計求解非凸優(yōu)化問題的求解算法。
本文總結了深度學習領域多模態(tài)融合技術的研究現(xiàn)狀,對融合架構、融合方法、模態(tài)對齊等進行重點分析。融合架構按照特征融合方式的不同,分為聯(lián)合架構、協(xié)同架構和編解碼器架構。融合方法包括早期、晚期、混合這3種與模型無關的方法以及多核學習、圖像模型這2種基于模型的方法。模態(tài)對齊是多模態(tài)融合技術的難點,其常用處理方式為顯示對齊和隱式對齊。近期在模態(tài)融合技術上的研究促進了大量新型多模態(tài)算法的提出,并且拓展了多模態(tài)學習的應用范圍。這些模型和算法各有優(yōu)缺點,可在不同領域應用中發(fā)揮優(yōu)勢和作用。多模態(tài)深度學習作為一種能使機器具有更多人類智能特性的技術,有望在今后獲得長足發(fā)展。后續(xù)將針對模態(tài)語義沖突消解、多模態(tài)組合評價、跨模態(tài)轉移學習等問題進行深入研究,促進多模態(tài)融合技術在深度學習等新興領域的應用與發(fā)展。