国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

跨模態(tài)數(shù)據(jù)融合綜述

2022-10-10 01:23祁鏵穎
軟件工程 2022年10期
關(guān)鍵詞:圖文注意力模態(tài)

祁鏵穎,賀 萍

(河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院,河北 石家莊 050061)

1 引言(Introduction)

隨著智能設(shè)備的不斷更新迭代,越來越多的人選擇在微博、抖音等社交平臺上以文本、圖像、短視頻等形式發(fā)表個人觀點。面對海量的社交媒體數(shù)據(jù),若能夠?qū)崿F(xiàn)其合理利用,則將在網(wǎng)絡(luò)監(jiān)管等方面產(chǎn)生極大的價值。不同于特征簡單的數(shù)據(jù)拼接,數(shù)據(jù)融合不但包括數(shù)據(jù)顯示融合,而且包括數(shù)據(jù)深層次的語義交互及不同數(shù)據(jù)之間關(guān)系的建模。目前,數(shù)據(jù)融合的對象包括單模態(tài)、多模態(tài)和跨模態(tài)三種類型數(shù)據(jù)。

通過對三種不同類型數(shù)據(jù)的梳理,發(fā)現(xiàn)單模態(tài)數(shù)據(jù)融合主要集中于文本、圖像數(shù)據(jù);多模態(tài)數(shù)據(jù)融合主要集中在文本、圖像、音頻和視頻等數(shù)據(jù),包括模態(tài)的兩兩結(jié)合或者三種模態(tài)相結(jié)合;跨模態(tài)數(shù)據(jù)融合同樣是對不同模態(tài)的數(shù)據(jù)進行融合,但它通過跨模態(tài)關(guān)系抽取來獲取不同模態(tài)間的交互信息。目前,跨模態(tài)數(shù)據(jù)融合是高效利用海量媒體數(shù)據(jù)的有效手段之一。

2 單模態(tài)數(shù)據(jù)融合方法(Single-mode data fusion method)

模態(tài)是指數(shù)據(jù)的存在形式,單模態(tài)是模態(tài)中的一種形式,是對文本或圖像單獨進行處理的一種方法。以基于文本的單模態(tài)融合為例,對文本單模態(tài)數(shù)據(jù)進行處理步驟如下:(1)源數(shù)據(jù)預(yù)處理;(2)向量表示;(3)特征提??;(4)模型分類/回歸;(5)輸出結(jié)果(圖1)。

圖1 文本單模態(tài)數(shù)據(jù)融合Fig.1 Single-mode data fusion of the text

首先對源數(shù)據(jù)進行預(yù)處理,對文本進行分詞、刪除標(biāo)簽、歸一化等清洗工作,并將數(shù)據(jù)序列化;然后在文本分析階段,將獲取的向量表示的文本嵌入同一維度的矩陣中,之后提取文本特征;最后經(jīng)過模型的分類回歸處理得出結(jié)果。

文本特征的提取結(jié)果對文本挖掘起到至關(guān)重要的作用。PANG等人首次使用基于機器學(xué)習(xí)的方法解決文本情感分類問題,該方法使用電影評論作為數(shù)據(jù),效果優(yōu)于傳統(tǒng)人工標(biāo)注。張慶慶等人針對特征向量維度高的問題,提出BPSO與隨機子空間方法結(jié)合的選擇性集成算法,使文本情感分類的準(zhǔn)確率得到提升,模型具有較優(yōu)的泛化能力。但是,基于機器學(xué)習(xí)的方法不能充分獲取文本信息,需要經(jīng)過大量的訓(xùn)練語料和復(fù)雜的樣本特征抽取的過程才能得到較準(zhǔn)確的分類結(jié)果。隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)方法體系可以自動學(xué)習(xí)語義特征,避免出現(xiàn)龐大的特征提取過程,常用的方法如使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)提取文本特征。盧強等人將非情感詞、情感詞、否定詞和程度詞等中文語法規(guī)則以正則化的形式同雙向長短期記憶網(wǎng)絡(luò)(Bidirectional Long Short Term Memory,Bi-LSTM)模型相結(jié)合,應(yīng)用于中文文本分類。在此基礎(chǔ)上,盧強等人在模型中引入了注意力機制和雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit,Bi-GRU),能夠更好地提取文本關(guān)鍵信息,捕捉文本上下文語義,應(yīng)用于情感分析中。YUE等人提出了一個Word2vec-BiLSTM-CNN混合模型,該模型得益于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)提取特征的能力和Bi-LSTM學(xué)習(xí)文本短期雙向依賴性的特性,證明了混合網(wǎng)絡(luò)模型在短文本中的性能優(yōu)于單一結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò),但不足之處是它需要比現(xiàn)有基線模型更多的訓(xùn)練數(shù)據(jù)和訓(xùn)練時間。

對圖像單模態(tài)數(shù)據(jù)進行處理步驟如下:(1)源數(shù)據(jù)預(yù)處理;(2)特征提取;(3)模型分類/回歸;(4)輸出結(jié)果(圖2)。

圖2 圖像單模態(tài)數(shù)據(jù)融合Fig.2 Single-mode data fusion of the image

首先對源數(shù)據(jù)進行預(yù)處理,對圖像進行去均值、標(biāo)注、歸一化等清洗工作,剔除不相關(guān)的區(qū)域;然后在圖像處理階段,將獲取的向量表示的圖像嵌入同一維度的矩陣中,之后提取圖像特征作為下一層的輸入;最后經(jīng)過模型的分類回歸處理得出結(jié)果。

人眼在圖像處理方面具有很大優(yōu)勢,傳統(tǒng)的基于機器學(xué)習(xí)的視覺特征提取包括底層特征提取和中高層特征提取。COLOMBO等人在圖像和視頻數(shù)據(jù)中根據(jù)顏色、溫暖度、位置和大小等特征分割不同的區(qū)域,獲取比物體本身更高的語義層次,應(yīng)用于藝術(shù)類圖片的情感分析中。僅從圖像底層特征中提取的信息是有偏差的,黃崑等人提取了圖像物理感知層、情感接受層與喜好層三層不同特征進行情感分類。隨著深度學(xué)習(xí)的發(fā)展,可以自動提取圖像特征,常用的方法如使用CNN提取圖像特征。在此基礎(chǔ)上,李志義等人使用改進的卷積網(wǎng)絡(luò)模型,將圖像的底層特征融入圖像的高層語義中,提高了情感分析的準(zhǔn)確率和模型的泛化能力,但存在信息冗余的不足。蔡國永等人使用注意力機制以關(guān)注圖像中的顯著區(qū)域,融合高層特征和底層特征用于情感分類。

單模態(tài)數(shù)據(jù)融合的優(yōu)勢與問題:單一模態(tài)的數(shù)據(jù)融合具有計算復(fù)雜度低、表達更簡練的優(yōu)點,例如在線評論中短文本的情感分類有利于完成用戶的推送服務(wù)。但是現(xiàn)代社會的信息具有豐富的特征,僅靠單一模態(tài)往往容易造成收集信息不全面從而導(dǎo)致判斷的不準(zhǔn)確性,所以多模態(tài)數(shù)據(jù)融合方法應(yīng)運而生,以更好地滿足人們以圖文、音頻、視頻等多模態(tài)形式表達自己的需求。

3 多模態(tài)數(shù)據(jù)融合方法(Multi-modal data fusion method)

多模態(tài)是指兩個或兩個以上模態(tài)的各種組合形式。多模態(tài)數(shù)據(jù)融合步驟如下:(1)單模態(tài)特征提??;(2)特征融合;(3)模型分類/回歸;(4)結(jié)果輸出(圖3)。

圖3 多模態(tài)數(shù)據(jù)融合Fig.3 Multi-modal data fusion

文本、圖像、音頻是多模態(tài)研究的三種主要異構(gòu)數(shù)據(jù)類型,首先提取不同數(shù)據(jù)源的特征;然后將提取到的不同特征進行融合,在融合階段可以采用特征級融合、決策級融合、混合融合三種不同的融合方式;最后進行模型分類、回歸等操作得出結(jié)果。

3.1 基于顯式融合方式的多模態(tài)融合

特征級融合是對從原始數(shù)據(jù)中提取的特征信息進行融合的一種方式,適用于模態(tài)之間高度相關(guān)的情況。YANG等人采用特征級融合的方法對音頻和視頻特征進行處理,用于語音識別,但存在特征提取難度大的不足,并不是最理想的融合方法。隨著深度學(xué)習(xí)的發(fā)展,林淑瑞等人分別采用特征級融合和決策級融合對音頻和視頻進行融合,應(yīng)用于情感分析研究,證明了多模態(tài)融合優(yōu)于單模態(tài)融合,且決策級融合結(jié)果略高于特征級融合結(jié)果,但當(dāng)特征數(shù)量增大時,很難獲得不同特征之間的交叉相關(guān)性。模糊推理法、產(chǎn)生式規(guī)則法等都是特征級融合的常見方法。

決策級融合是對數(shù)據(jù)經(jīng)過進一步評估或推理得到的局部決策信息進行融合的一種方式。決策級融合可以融合異質(zhì)數(shù)據(jù),但存在容易造成信息損失的缺點。謝豪等人充分挖掘圖文之間的相似性信息,運用多層語義決策級融合模型,對社交媒體中的圖文進行情感分類。周紅標(biāo)在單一模態(tài)情感識別的基礎(chǔ)上,將基于隱馬爾可夫的語音情感識別結(jié)果和基于最小二乘支持向量機的脈搏情感識別結(jié)果進行決策級融合,使情感分類準(zhǔn)確率大大提高。貝葉斯概率推理法、D-S證據(jù)推理法等都是決策級融合的常見方法。

混合融合是上述特征級融合和決策級融合的結(jié)合,它保留了上述兩種融合策略的優(yōu)勢,但同時也使模型更加復(fù)雜,學(xué)習(xí)難度加大。由于深度學(xué)習(xí)模型具有靈活性和多樣性的結(jié)構(gòu)特點,比較適合使用混合融合方法,但也需要根據(jù)具體問題選擇最合適的融合方法。例如,周新民等人提出了一種深度多模態(tài)融合模型,該模型兼顧特征級融合、決策級融合及混合融合多層級數(shù)據(jù)融合方式,實現(xiàn)了多模態(tài)數(shù)據(jù)的有效融合。混合融合一般應(yīng)用于網(wǎng)絡(luò)安全、遙感影像等領(lǐng)域。

3.2 基于隱式融合方式的多模態(tài)融合

與簡單的向量整合操作(如元素相加或拼接)只考慮多模態(tài)特征之間的簡單相關(guān)性不同,雙線性池化方法由于兩模態(tài)之間的二階相互作用而成為信息融合研究的關(guān)鍵。但是,直接使用雙線性池化方法會導(dǎo)致學(xué)習(xí)參數(shù)和計算資源的急劇增加,針對這一問題,人們提出了多種解決方法,如多模態(tài)緊合型雙線性池化(MCB)、多模態(tài)低秩雙線性池化(MLB)、多模態(tài)因子化雙線性池化(MFB)和多模態(tài)Tucker Fusion(MUTAN)。

條件隨機場在自然語言處理方面具有較好的效果,廣泛應(yīng)用于標(biāo)注場景。為提高多模態(tài)數(shù)據(jù)分類效果,JIANG等人提出了一種基于監(jiān)督學(xué)習(xí)的多模態(tài)數(shù)據(jù)分類方法——多模態(tài)隱條件隨機場(Multi-modal Hidden Conditional Random Field,M-HCRF),捕捉輸入數(shù)據(jù)的潛在信息,從而促進多模態(tài)數(shù)據(jù)的分類。

多模態(tài)情感分析是一個越來越受歡迎的研究領(lǐng)域,它將傳統(tǒng)的基于語言的情感分析定義擴展到一個多模態(tài)設(shè)置,其中其他相關(guān)的模式伴隨著語言。ZADEH等人針對在線視頻中口語的不穩(wěn)定特性及伴隨的手勢和聲音問題,引入一種新的張量融合網(wǎng)絡(luò)模型,融合語言、視覺和聽覺,應(yīng)用于情感分析中。實驗證明,張量融合能較好地保留多模態(tài)數(shù)據(jù)中各模態(tài)之間的交互信息,但存在信息冗余的不足。

近年來,在自然語言處理過程中,注意力機制得到了廣泛應(yīng)用。得益于深度學(xué)習(xí)的發(fā)展,郭可心等人以文本內(nèi)容為驅(qū)動,充分利用圖像的中低層特征,并在多層圖像特征中引入注意力機制,從多個角度挖掘圖文之間的情感共現(xiàn),但其只在單一模態(tài)中使用注意力機制,忽略了不同模態(tài)間的交互作用。范濤等人提出一種基于多模態(tài)聯(lián)合注意力機制模型,即通過詞引導(dǎo)的注意力機制引導(dǎo)圖像注意,使用圖像引導(dǎo)的注意力機制引導(dǎo)詞注意,將文本和圖像進行融合,應(yīng)用于網(wǎng)民情感分析,相對減少了冗余與噪聲。

多模態(tài)數(shù)據(jù)融合的優(yōu)勢與問題:與傳統(tǒng)的單一模態(tài)相比,多模態(tài)數(shù)據(jù)融合負(fù)責(zé)將多個模態(tài)的信息進行有效整合,提供了更加豐富的信息,且信息之間具有互補的優(yōu)勢。但因為每種模態(tài)數(shù)據(jù)看待事物的角度不同,所以存在一些交叉,要想保存各模態(tài)信息與各模態(tài)間的交互信息,就必然造成數(shù)據(jù)的冗余,由此跨模態(tài)應(yīng)運而生。

4 跨模態(tài)數(shù)據(jù)融合方法(Cross-modal data fusion method)

隨著人工智能的發(fā)展,跨模態(tài)數(shù)據(jù)融合逐漸走進人們的視野??缒B(tài)數(shù)據(jù)融合步驟如下:(1)跨模態(tài)關(guān)系抽??;(2)各模態(tài)特征提??;(3)跨模態(tài)特征融合;(4)模型分類/回歸;(5)輸出結(jié)果(圖4)??缒B(tài)數(shù)據(jù)融合主要是文本、圖像和音頻的融合,首先從源數(shù)據(jù)中進行跨模態(tài)關(guān)系抽取,獲取各個模態(tài)的交互信息;其次結(jié)合模態(tài)本身得到相互獨立的文本特征、音頻特征、圖像特征,得到的特征更加全面、準(zhǔn)確,這是對多模態(tài)的精簡和補充,結(jié)果也更準(zhǔn)確;最后將得到的各模態(tài)特征進行融合,應(yīng)用于情感分析等眾多領(lǐng)域。

圖4 跨模態(tài)數(shù)據(jù)融合Fig.4 Cross-modal data fusion

4.1 基于深度學(xué)習(xí)的跨模態(tài)融合

CNN因其無須手動提取特征,權(quán)值共享且可以直接輸入網(wǎng)絡(luò)的優(yōu)勢,被廣泛應(yīng)用于語音識別和圖像處理中,而跨模態(tài)融合的核心任務(wù)在于跨模態(tài)關(guān)系抽取和聯(lián)合特征學(xué)習(xí)。2016 年,AlphaGO戰(zhàn)勝李世石,深度學(xué)習(xí)得到迅猛發(fā)展,蔡國永等人最早使用CNN對圖文進行情感預(yù)測,并將結(jié)果通過決策級融合后進行分類,但圖像和文本的表達具有差異。在此基礎(chǔ)上,申自強針對圖文之間情感互斥問題提出一種基于圖文融合的跨模態(tài)社交媒體方法,使用CBOW(Continuous Bag of Words)和CNN分別提取文本與圖像特征,但該方法只是提取了圖像中的高級語義特征,而中、低級語義特征同樣影響著情感分類的準(zhǔn)確性。針對這個問題,陳巧紅等人在圖像特征提取中利用VGG13網(wǎng)絡(luò)外接卷積層,分別獲取高、低、中層次的圖像特征,對文本圖像進行跨模態(tài)融合,應(yīng)用于情感分析。

21 世紀(jì)初,RNN發(fā)展為深度學(xué)習(xí)算法之一,LSTM作為RNN的變形,克服了RNN長期依賴的缺點。安迅利用LSTM提取文本特征,使其擁有更強的記憶功能,對文本特征和圖像特征進行跨模態(tài)的特征對齊,使用Softmax進行情感分類。雖然LSTM能夠保留較長時間的信息,但是文本的語義同時與上下文有著密切聯(lián)系。針對這類問題,陳巧紅等人利用BERT詞嵌入加Bi-GRU提取文本特征,GRU通過添加更新門與重置門,能夠?qū)斎氲臅r序信息選擇性地保留與遺忘,從而捕捉到重要的長期信息。同時Bi-GRU更好地結(jié)合了文本的上下文語義,將文本特征和圖像特征進行注意力融合,應(yīng)用于情感分析中,但存在計算復(fù)雜度大的問題。

深度學(xué)習(xí)雖然可以提取復(fù)雜的數(shù)據(jù)特征,但是會出現(xiàn)梯度消失的問題,使用殘差網(wǎng)絡(luò)可以使神經(jīng)網(wǎng)絡(luò)的層數(shù)超越之前的約束,達到幾十層、上百層甚至上千層,為高級語義特征提取和分類提供了可行性。王茂等人使用LSTM提取問題詞特征,使用ResNet-152提取圖像特征,并利用改進的殘差通道自注意力增強圖像特征,將圖文特征進行跨模態(tài)動態(tài)融合,應(yīng)用于視覺問答領(lǐng)域,提高了視覺問答的準(zhǔn)確性。在此基礎(chǔ)上,吳瓊在圖像特征提取時使用預(yù)訓(xùn)練的152 層殘差網(wǎng)絡(luò),在文本特征提取時使用LSTM,將圖文兩種特征進行拼接,再與圖像的局部和全局特征加權(quán)求和,得到最終的視覺表示;接著通過緊湊雙線性融合,對融合后特征進行跨模態(tài)的情感分類,從文本、圖像及二者融合三方面研究情感變化,融合結(jié)果更加準(zhǔn)確,但增加了計算的復(fù)雜度。

4.2 基于注意力的跨模態(tài)融合

在深度學(xué)習(xí)中引入注意力機制是使機器更貼合人類行為的重要方法,最早是在圖像情感分析中應(yīng)用注意力機制。針對傳統(tǒng)的單模態(tài)情感分析存在的不足且在特征提取時容易忽略重要特征的情感信息的問題,陳小敏等人提出一種基于注意力機制的TAI-CNN(Text And Image-Convolutional Neural Networks)圖文跨模態(tài)情感分類方法,解決了上述問題,但該模型仍存在改進空間。陳巧紅等人提出一種基于多層跨模態(tài)注意力融合的圖文情感分析模型,如圖5所示。

圖5 多層跨模態(tài)注意力融合模型Fig.5 Multi-layer cross-modal attention fusion model

該模型使用Bi-GRU完成對文本情感的表示,并使用軟注意力機制給予文本中表示情感的關(guān)鍵詞更多的權(quán)重;使用VGG13網(wǎng)絡(luò)外接卷積層,獲取不同層次的圖像特征,將文本特征與多層圖像特征進行注意力融合,并將圖文融合特征輸入多層感知機及Softmax分類器進行情感分類。但基于情感分析的跨模態(tài)融合不應(yīng)只局限于文本和圖像之間,王雨竹等人針對文本、視覺、音頻三種模態(tài),結(jié)合跨模態(tài)上下文信息并使用注意力機制過濾冗余信息,將融合信息應(yīng)用在情感分析領(lǐng)域。

跨模態(tài)數(shù)據(jù)融合的優(yōu)勢與問題:跨模態(tài)數(shù)據(jù)融合與多模態(tài)數(shù)據(jù)融合相比,兩者的相同之處是數(shù)據(jù)都來自所有模態(tài),兩者的差別是跨模態(tài)融合的數(shù)據(jù)只用于某一個模態(tài),而多模態(tài)融合的數(shù)據(jù)用于所有模態(tài)。融合后的跨模態(tài)數(shù)據(jù)相比于單一模態(tài)數(shù)據(jù)具有去冗余、全面、多元及互補的優(yōu)點,從而實現(xiàn)數(shù)據(jù)的合理有效利用。今后跨模態(tài)數(shù)據(jù)融合會不斷得到改進,獲得全面發(fā)展。

5 跨模態(tài)的應(yīng)用(Cross-modal applications)

5.1 在跨模態(tài)圖文檢索上的應(yīng)用

跨模態(tài)圖文檢索能更好地豐富用戶對同一事物的認(rèn)知,如以文搜圖或以圖搜文,其核心任務(wù)是特征提取和語義相似性度量。為提高跨模態(tài)圖文檢索的精度和速率,朱路等人提出了一種基于語義自編碼哈希學(xué)習(xí)的跨模態(tài)檢索方法,不僅減小了不同模態(tài)數(shù)據(jù)之間的異構(gòu)鴻溝,而且降低了存儲空間。當(dāng)在檢索中出現(xiàn)新數(shù)據(jù)時,會使計算量大大增加,江朝杰等人針對檢索數(shù)據(jù)的不斷迭代,提出增量跨模態(tài)檢索方法,實驗證明其在新增類樣本集上具有良好的檢索精度。

隨著網(wǎng)絡(luò)數(shù)據(jù)表現(xiàn)形式越來越多樣化,跨模態(tài)圖文檢索逐漸成為研究熱點??缒B(tài)圖文檢索具有檢索精度高和應(yīng)用范圍廣等優(yōu)勢,目前主要應(yīng)用于公安領(lǐng)域輿情分析、個性化推薦、醫(yī)學(xué)數(shù)據(jù)存儲等方面。減小跨模態(tài)之間的語義鴻溝仍是未來的一個研究方向。

5.2 在推薦系統(tǒng)上的應(yīng)用

推薦系統(tǒng)最早的一個獨立研究領(lǐng)域是新聞推薦,目前還有很大的發(fā)展空間?;獜目缒B(tài)語義分析的角度展開研究,通過引入外部信息源,解決了現(xiàn)實網(wǎng)絡(luò)中的數(shù)據(jù)稀疏問題,完成高質(zhì)量推薦。推薦系統(tǒng)性能優(yōu)越的關(guān)鍵就是了解用戶的潛在興趣,賈冬柏從跨模態(tài)角度對用戶興趣進行分析,結(jié)合艾賓浩斯遺忘曲線,提出構(gòu)建基于興趣衰減和多模態(tài)特征融合的興趣挖掘模型來獲取用戶興趣所在,實現(xiàn)微博用戶個性化推薦。

跨模態(tài)數(shù)據(jù)在推薦系統(tǒng)中的應(yīng)用使推薦精準(zhǔn)度得到提升,目前,基于跨模態(tài)數(shù)據(jù)融合的推薦系統(tǒng)得到了信息檢索、計算機視覺等多個學(xué)科研究者的關(guān)注。相信隨著跨模態(tài)數(shù)據(jù)融合技術(shù)的不斷發(fā)展,推薦系統(tǒng)的精度會越來越高,能夠更好地服務(wù)于大眾。

5.3 在情感分析上的應(yīng)用

情感分析作為近幾年的熱點話題,得到了廣大研究者的青睞。目前,基于注意力機制的圖文跨模態(tài)情感分析成為研究主流。陳巧紅等人將文本與圖像進行注意力融合,應(yīng)用于情感分析。ZHOU等人通過使圖文間的語義和情感交互被分層提取,顯著呈現(xiàn)不同模態(tài)之間的語義關(guān)聯(lián),用于圖文情感分析,解決了噪聲問題和聯(lián)合理解上的差異問題,提高了情感分析結(jié)果的準(zhǔn)確性。

與單一模態(tài)情感分析相比,跨模態(tài)能夠獲得更加全面的數(shù)據(jù),提高情感分析的準(zhǔn)確度。目前,基于跨模態(tài)數(shù)據(jù)融合的情感分析主要應(yīng)用于政府部門監(jiān)控輿情、微博情感分析及微博用戶情緒異常預(yù)警中。但跨模態(tài)數(shù)據(jù)融合不應(yīng)只包括圖像、文本,基于圖文、音頻、視頻等模態(tài)的融合進行情感分析是未來的一個研究方向。

5.4 在人機對話系統(tǒng)上的應(yīng)用

跨模態(tài)學(xué)習(xí)作為一種能讓機器更加貼近人類行為的技術(shù),已經(jīng)成為人工智能相關(guān)領(lǐng)域研究者關(guān)注的熱點問題??梢晢柎鹱鳛榭缒B(tài)的一個主要示例,也受到越來越多的關(guān)注。LAO等人提出了共同注意學(xué)習(xí)方法和跨模態(tài)多步融合網(wǎng)絡(luò),該模型通過句子引導(dǎo)詞注意力和問題引導(dǎo)圖注意力提取不同模態(tài)的特征,通過跨模態(tài)多步驟融合網(wǎng)絡(luò)來生成多步驟特征并實現(xiàn)兩種模態(tài)的多個交互,它區(qū)別于大多數(shù)現(xiàn)有的特征融合方法僅專注于兩種模態(tài)之間的復(fù)雜交互建模,通過使用池化方法將最終的融合特征應(yīng)用于答案預(yù)測,實現(xiàn)較為精準(zhǔn)的視覺問答。

人機對話系統(tǒng)不斷朝著智能化的方向發(fā)展,基于文本的細(xì)粒度分析和對圖像的關(guān)鍵區(qū)域提取信息,不僅解決了對話內(nèi)容的單調(diào)性,還能充分結(jié)合用戶的個性化特征,確保能夠準(zhǔn)確識別用戶意圖。針對個性化人機對話系統(tǒng),如何有效融合文本、視覺和聽覺等模態(tài)構(gòu)造人機對話系統(tǒng)將成為未來的研究方向。

6 結(jié)論(Conclusion)

跨模態(tài)數(shù)據(jù)融合近年來才得到關(guān)注,隨著更多研究者的關(guān)注,其關(guān)鍵技術(shù)也將得到提升,可以從以下三方面著手進行研究。

(1)針對社交媒體中網(wǎng)絡(luò)新語層出不窮,可考慮在跨模態(tài)融合中建立詞典,降低文本模態(tài)的噪音,提升跨模態(tài)融合性能。

(2)針對視覺數(shù)據(jù)讀取與用戶對相同信息的理解存在差異的問題,利用注意力模型對齊不同模態(tài)特征之間的細(xì)粒度將是未來跨模態(tài)融合研究的熱點問題。

(3)目前,跨模態(tài)融合主要集中在文本和圖像數(shù)據(jù)上,而視頻數(shù)據(jù)可以更好地表達人們的不同狀態(tài)。因此,整合文本、圖像、視頻等不同模式是未來研究需要考慮的問題。

猜你喜歡
圖文注意力模態(tài)
讓注意力“飛”回來
畫與理
“揚眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
圖文配
圖文配
多模態(tài)話語模態(tài)的協(xié)同及在外語教學(xué)中的體現(xiàn)
大庆市| 工布江达县| 湖南省| 梓潼县| 石城县| 维西| 米易县| 洪洞县| 什邡市| 西贡区| 沾化县| 油尖旺区| 桂东县| 于田县| 忻州市| 德安县| 海南省| 宁南县| 中山市| 永新县| 淮南市| 额济纳旗| 河西区| 东乡族自治县| 房产| 广州市| 女性| 厦门市| 赤城县| 罗田县| 潞城市| 中江县| 孟连| 库伦旗| 郑州市| 玛多县| 沭阳县| 阳江市| 许昌市| 汶上县| 阳信县|