国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)融合與多層注意力的視頻內容文本表述研究

2022-10-16 12:27趙宏郭嵐陳志文鄭厚澤
計算機工程 2022年10期
關鍵詞:音頻模態(tài)特征

趙宏,郭嵐,陳志文,鄭厚澤

(蘭州理工大學計算機與通信學院,蘭州 730050)

0 概述

隨著移動互聯網的快速發(fā)展和智能設備的普及,人類信息化進程進入了新階段。視頻由于包含豐富內容且能夠直觀表達觀點,因此逐漸在互聯網上流行。例如,在各種社交平臺上由用戶生成的共享短視頻已成為人們社交的重要手段。當前,如何自動地分析和理解視頻內容,并將其轉換為文本表達方式,成為視頻內容文本表述領域的研究熱點。視頻內容文本表述研究也一直是計算機和多媒體領域極具挑戰(zhàn)性的研究課題[1-2],該研究在回答圖像問題[3]、應用圖像與視頻檢索[4-6]、協助視覺障礙的患者理解媒體內容[7]等領域具有廣闊的應用前景。

視頻內容文本表述的早期研究主要基于固定模板結構[8-10],包括內容識別和根據模板生成句子2 個階段。其中,內容識別通過對視頻中的主要對象進行視覺識別和分類;根據模板生成的句子將內容識別的實體匹配到模板所需的類別,如主語、謂語、賓語和地點。但該方法過于依賴預先設定的模板,導致生成的描述靈活性差,生成的句子過于單一,不能全面覆蓋視頻內容。受機器翻譯方向編碼器-解碼器框架的啟發(fā),目前視頻內容文本表述主流方法預先采用在對象識別與檢測領域廣泛應用的卷積神經網絡(Convolutional Neural Networks,CNN)[11-13]獲取視覺信息并生成視覺表征向量,然后使用在自然語言處理方面取得巨大進步的循環(huán)神經網絡(Recurrent Neural Network,RNN)[14-16]作為編碼器接收視覺表征向量并進行編碼,生成中間隱藏向量,接著將其送到由RNN 組成的解碼器,生成序列化的自然語言表達。然而,現實中的視頻由不同模態(tài)的內容構建而成[17],其不僅包含圖像信息,還具有視頻中對象的運動、背景中的音頻、上下文的時序等信息,且不同模態(tài)信息之間具有高度相關性和互補性,這些模態(tài)通過相互配合提供完整的信息。

本文基于不同模態(tài)信息之間具有高度相關性和互補性的特征,提出一種將多模態(tài)融合與多層注意力相結合的視頻內容文本表述模型。采用融合互補模態(tài)信息訓練視頻內容文本表述模型,并針對不同的視頻模態(tài)信息,采用預訓練模型提取視頻中靜態(tài)幀和音頻表征信息,提升視頻內容文本表述的準確率?;谧宰⒁饬C制設計嵌入層,對單模態(tài)特征向量進行嵌入建模,使不同模態(tài)間的互補信息能更好地擬合。最后,采用協作表示進行跨模態(tài)特征融合,并通過融合特征有效提升模型對視頻內容的描述質量。

1 相關工作

視頻內容文本表述研究旨在通過使用自然語言的方式對視頻所展示的內容進行分析、理解與表述,目前視頻內容文本表述的主流方法以“編碼-解碼”架構為基礎,主要可以分為基于視覺特征均值/最大值、基于視頻序列記憶建模和基于三維卷積特征這3 種方法。

基于視覺特征均值/最大值的方法對視覺特征進行提取,并求解特征均值或最大值。其中,文獻[18]基于長短期記憶(Long Short-Term Memory,LSTM)網絡提出一種LSTM-MY 模型,采用幀特征均值池化的方式對視覺特征進行提取,其性能相較于基于模板的方法有所改善。文獻[19]針對生成文本和視頻內容關聯性不夠的問題提出RUC-UVA 模型,通過結合Video tagging 方法提取視頻關鍵詞,并將關鍵詞和視頻幀特征相結合作為解碼器的輸入,能有效提高生成文本的準確性。但該類方法難以捕獲視頻片段內的時序特征,極易造成動態(tài)特征的丟失。

在基于視頻序列記憶建模的方法中,文獻[20]針對視頻數據預處理時需要注意時序信息提出時間注意力(Temporal Attention,TA)模型,該模型在時間維度上結合注意力機制,將得到的特征輸入解碼器生成文本表述,生成的句子適應性較高。文獻[21]針對視頻不定長的問題將序列到序列模型應用到視頻到文本任務上,實現了對視頻幀序列輸入、文字序列輸出的端到端視頻描述。雖然該方法可以實現時序特征提取與語言模塊的端到端訓練,但是CNN 特征經過序列變換之后極易導致視頻幀中空間信息的破壞與丟失。

基于三維卷積特征的方法對視頻的時空特征進行編碼,挖掘視頻的靜態(tài)特征和時序動態(tài)特征。文獻[22]提出M3-inv3 模型,通過提取視頻幀的2D 和3D 特征對視覺信息和語言信息共同建模,較好地解決了LSTM 中多模態(tài)信息長期依賴與語義錯位的問題。文獻[23]提出一種用于圖像和視頻字幕的具有自適應注意方法的分層LSTM,利用空間或時間注意力選擇區(qū)域預測相關詞。

視頻所攜帶的音頻信號對視頻具有重要的意義,視頻配音能夠以聲音的形式說明視頻的要點和主題,例如掌聲、鳴笛、說話與唱歌的區(qū)別只能從音頻信息中捕獲到。如圖1 所示為一段視頻的3 個畫面,對其進行描述的3 個文本如下:

圖1 視頻內容文本描述示例Fig.1 Example of video content text description

1)a man giving a speech。

2)a man wearing a suit is giving a speech。

3)a man speech won applause from the audience。

其中,第3 種文字描述最為準確,因為其結合音頻特征,提取出了視頻中的“掌聲”信息。

綜上,當前視頻內容文本表述模型對提取到的單模態(tài)表征信息利用不足,且未利用視頻所攜帶的音頻等信息,導致生成的文本對視頻內容表述質量不高。因此,本文綜合考慮單模態(tài)特征參數學習以及視頻多模態(tài)表征信息之間的互補性,通過提取視頻不同模態(tài)的表征信息獲得每種模態(tài)所表達的語義屬性,將其進行融合后對視頻內容進行表述,從而提高模型對視頻內容文本表述的性能。

2 視頻內容文本表述模型

2.1 模型結構

圖2 所示為多層注意力的跨模態(tài)視頻內容文本表述模型的結構,包括視頻預處理、單模態(tài)特征提取、編碼(單模態(tài)信息嵌入、多模態(tài)信息融合)和解碼4 部分。

圖2 多模態(tài)視頻內容文本生成模型Fig.2 Multi-modal video content text generation model

在圖2 中,視頻預處理模塊主要提取視頻幀、抽取視頻的音頻信息。單模態(tài)特征提取模塊利用改進的殘差網絡(Residual Network,ResNet)網絡[24]提取視頻的2D 幀特征、FFmpeg 提取音頻MFCC 特征。編碼器模塊由嵌入層與融合層組成,嵌入層包括自注意力機制[25]和兩層LSTM 網絡[26],融合層由協作表示構成。編碼器將幀、音頻模態(tài)的特征向量作為輸入,并分別送入嵌入層進行單模態(tài)信息建模,最終編碼為單獨的隱藏向量{hv,haudio},然后通過協作表征方式將各模態(tài)信息映射到統(tǒng)一的多模態(tài)向量空間Vmulti。解碼器接收Vmulti進行解碼,預測當前時間的隱藏狀態(tài),依次輸出每一時間步的概率分布向量。最后,利用貪心搜索算法取解碼時刻每一時間步上概率最大的單詞作為預測輸出結果。在當前時間步t下各個單詞的概率分布表達式如式(1)所示:

其中:ht是當前隱藏狀態(tài);Yt-1是上一時間步得到的結果;Vmulti是統(tǒng)一的多模態(tài)向量空間;softmax 函數是歸一化指數函數。將結果映射到(0,1)之間作為概率值,并當所有概率分布計算結束后,采用貪心搜索算法取解碼時刻每一個時間步上概率最大的單詞作為預測輸出結果,直到輸出<eos >,解碼完成。

2.2 特征提取

視頻數據與圖片數據的不同點在于視頻是連續(xù)的多幀畫面,該特性使視頻更適合描述連續(xù)性動作,且視頻附帶對應的音頻信息可以形象地記錄一個事件。相比單張圖片,視頻不僅包含了空間特征,還具有時序特征、音頻、動作等特征[27]。因此,在上下文中確定需要表達的內容并進行準確描述是一項很大的挑戰(zhàn)。

本文采用融合視頻的多種模態(tài)特征進行視頻內容文本表述任務。對于視頻的靜態(tài)幀特征提取,在殘差網絡ResNet152 中加入文獻[28]提出的通道注意力(Squeeze and Excitation,SE)模塊,以提取幀級2D 特征。對于視頻中音頻信息的提取,采用FFmpeg 提取語音信號的Mel 頻率倒譜系數(Mel Frequency Cepstral Coefficient,MFCC)。特征提取具體如下。

1)自注意力

自注意力模塊對輸入的特征圖進行自主學習并分配權重,從而獲取特征圖中的重要信息,減少模型對外部信息的依賴,使網絡更注重于捕捉信息內部的相關性。此外,自注意力模塊的序列特征提取能力較強,因此采用自注意力模塊結構來設計本文模型的嵌入層,其結構如圖3 所示。

圖3 自注意力模塊的結構Fig.3 Structure of self attention module

由圖3 可知,自注意力模塊首先創(chuàng)建3 個向量Q、K和V,并在訓練過程中對向量進行調整優(yōu)化,通過向量Q與向量K的點積計算得到QKT向量,將結果除以維度平方根使梯度更加穩(wěn)定,再通過softmax函數歸一化計算得到權重信息。最后將計算得出的權重信息與向量V相乘,放大重點關注信息,弱化不重要的特征信號。具體計算式如式(2)所示:

2)視頻幀特征提取

在ResNet152 網絡中嵌入SE 模塊,并將其作為視頻幀特征提取網絡,如圖4 所示為ResNet 模塊的原始結構與嵌入SE 模塊的SE-ResNet 結構。通過嵌入SE 模塊對ResNet 網絡提取的特征進行重調,并利用提取的全局信息衡量每一特征的重要性,使其得到各通道間的相關性,協助完成特征的重新標定。此處,為簡化模型參數的復雜性,在SE 模塊的ReLU激活函數兩端依次采用1×1 的全連接層[29],從而使網絡具有更多的非線性,能夠擬合通道間的相關性,同時提升重要特征的權重并抑制非重要特征的權重。

圖4 ResNet 模塊與SE-ResNet 模塊的結構對比Fig.4 Structure comparison of ResNet module and SE-ResNet module

將數據集中每條視頻預處理成固定幀,每條視頻等間隔取40 個關鍵樣本幀,然后送入經過ImageNet 數據集預訓練的SE-ResNet 模型中提取幀的特征信息,得到40×2 048 的高維特征向量。

3)音頻MFCC 特征提取

目前語音特征提取方法有線性預測倒譜系數(Linear Predictive Cepstral Coefficient,LPCC)提 取法[30]和MFCC 提取法[31]。其中,MFCC 提取法主要基于人的非線性聽覺機理,模仿人耳的功能分析語音的頻率,能夠更好地提取語音信號特征[32]。其中,Mel 是感知音調或音調頻率的度量單位,1 Mel 為1 000 Hz 的音調感知程度的1/1 000,其具體定義如式(3)所示:

其中:fmel為Mel 頻標;fHz為實際線性頻率。

Mel 濾波器倒譜參數特征在語音特征提取中占有重要的地位,且計算簡單、區(qū)分能力較突出。MFCC 的特征參數提取原理如圖5 所示。

圖5 MFCC 特征參數提取Fig.5 MFCC feature parameter extraction

由圖5 可知,MFCC 特征參數提取過程首先對抽取出來的音頻信號進行預加重、分幀、加窗等預處理操作,并對分幀之后的單幀信號進行離散傅里葉變換,最終得到頻域數據,如式(4)所示:

其中:xi(k)是第i幀的數據;k表示頻域中第k條譜線。

其次,將頻域數據通過w個Mel 頻率濾波器進行濾波,提取頻譜、Mel 濾波器組和頻率包絡,濾波器的頻域響應Hw(k)表達式如式(5)所示:

然后,對處理過的能量頻譜取對數,使傅里葉變換中幅度乘法轉換為加法,得到對數能量Si(w),該過程的計算式如式(6)所示:

其中:i為第i幀:k為頻域中第k條譜線。

最后,將對數能量代入離散余弦變換(Discrete Cosine Transform,DCT),得到MFCC 系數,計算式如式(7)所示:

其中:w指第w個Mel 濾波器;i指第i幀;n為DCT 之后得到的譜線。

將數據集中每條視頻抽取的音頻分成1 120 幀,并從每一幀中提取20 維的MFCC 信號,將其存儲為1 120×20 的高維音頻特征矩陣。

2.3 特征融合

采用聯合表示以及協作表示2 種多模態(tài)特征融合方法[33]。其中,聯合表示方法的示意圖如圖6 所示,其通過將多個模態(tài)的信息統(tǒng)一映射到一個多模態(tài)向量空間中,獲得多個模態(tài)特征,拼接融合得到表征,并在拼接向量維度較高時進行主成分分析(Principal Component Analysis,PCA)降維操作,形成多維特征向量空間。協作表示方法的示意圖如圖7 所示,該策略并不尋求融合而是通過建模多種模態(tài)數據之間的相關性,將多個模態(tài)信息映射到協作空間,映射關系為f(x1)~f(xm),其中“~”表示一種協作關系。網絡的優(yōu)化目標就是優(yōu)化協作關系。

圖6 聯合表示方法的示意圖Fig.6 Schematic diagram of joint representation method

圖7 協作表示方法的示意圖Fig.7 Schematic diagram of collaborative representation method

將預訓練模型提取到的模態(tài)特征作為自注意力機制嵌入層的輸入,并進行單模態(tài)參數學習,然后在特征融合階段分別利用聯合表示和協作表示對提取的單模態(tài)特征進行融合實驗。實驗結果表明,聯合表示方法保留了多個模態(tài)各自獨立的表示空間,而協作表示方法注重捕捉多個模態(tài)的互補性,通過融合多個輸入模態(tài)x1,x2,…,xm獲得多模態(tài)表征X=f(x1,x2,…,xm)。因此,本文選擇協作表示方法對多種模態(tài)數據之間的相關性進行建模。

3 實驗結果與分析

3.1 實驗硬件平臺

實驗服務器配置為48 核Intel?Xeon?Gold 5118 CPU,內存128 GB,顯存為32 GB 的NVIDIA Tesla V100 GPU,操作系統(tǒng)為Ubuntu18.04,加速庫為NVIDIA CUDA 11.3 和cuDNN v8.2.1,模型建立與訓練框架為PyTorch。

3.2 數據集

本文選用MSR-VTT 數據集和大型電影描述挑戰(zhàn)賽(LSMDC)數據集,具體描述如下。

1)MSR-VTT 數據集

MSR-VTT[34]是微軟發(fā)布的視頻生成文本的大規(guī)模公共數據集。本文實驗采用2017 年更新版MSR-VTT 數據集,該數據集包含10 000 個訓練視頻片段和3 000 個測試視頻片段,總時長達41.2 h,平均每個片段包含20個自然語言標注語句,共計200 000個語句。該數據集包含20 個代表性類別(包括烹飪和電影)的257 個熱門門類視頻片段,是當前較全面和具有代表性的經典數據集。數據集內容分布如圖8所示,其中,X軸為視頻類別,共20 類,Y軸為各類別下的視頻總數。

圖8 MSR-VTT 數據集的內容分布Fig.8 Content distribution of MSR-VTT dataset

2)LSMDC 數據集

LSMDC 數據集由MPII 電影描述數據集(MPII-MD)[35]和蒙特利爾視頻注釋數據集(M-VAD)[36]兩組分組成。包含大約128 000 個句子片段和158 h 的視頻,其中訓練、驗證、公共、盲測試集分別有101 079、7 408、10 053、9 578 個視頻片段。由于用來描述動作片的詞匯可能與喜劇電影中使用的詞匯差異較大,因此該劃分方式可以平衡每一組電影中的電影類型,使數據分布更合理。

3.3 評價指標

為驗證模型的有效性,采用當前主流的視頻內容文本表述評價指標,包括CIDEr[37]、METEOR[38]、ROUGEL[39]和BLEU[40],具體介紹如下。

1)CIDEr 指標是專門為圖像或視頻描述領域設定的評估指標,將模型生成的描述和真實描述表示為詞頻和逆向詞頻的向量形式,通過求其余弦相似度為生成的描述評分,在視頻描述領域該評價指標具有較高的參考性。

2)METEOR 指標的計算基于單精度的加權調和平均數和單字召回率,其評價結果與人工評判結果具有一定相關性。

3)ROUGEL 指標在評價描述時考慮句子中單詞的順序,能夠評價句子層級的意義。

4)BLEU 指標通過定義4 元詞的個數來度量生成結果和目標語句之間的語義相似度。

以上4 種標準評價指標值越高,均表明所生成的描述語義越接近真實描述,準確率越高。

3.4 實驗結果

3.4.1 實驗參數設置

在模型讀取每一幀圖像之前,先將提取到的原始幀大小縮放至256×256 像素,對每幀圖像進行15°隨機旋轉后再進行隨機裁剪,得到224×224 像素大小的圖像,最后對分詞之后的文本詞匯進行匯總統(tǒng)計,將大于低頻閾值的詞形成詞匯表,剔除低于低頻閾值的詞匯。本文將詞匯閾值設定為5,最終得到16 860 個詞匯。

在模型訓練階段,參數優(yōu)化采用Adam[41]算法,優(yōu)化器參數α=0.9,β=0.999,ε=10-8,模型初始學習率為0.001,學習衰減速率為0.8,設定連續(xù)50 輪訓練損失沒有下降時的學習率衰減為0.8。采用負對數似然損失函數度量數據集標注語句與模型生成語句間的距離,迭代輪次為3 000 次,批處理大小設置為128。單模態(tài)嵌入層網絡結構采用2 層LSTM 網絡,將融合特征編碼器以及解碼器部分LSTM 層數分別設置為1、2、3 層進行實驗。

3.4.2 結果分析

在模型訓練過程中,每隔50 輪保存一次平均損失值,損失值下降曲線如圖9 所示??梢钥吹?,剛開始時損失值下降較明顯,在2 200 輪以后,損失值整體趨于穩(wěn)定。

圖9 訓練損失值曲線Fig.9 Training loss value curve

為驗證本文模型的有效性以及具體參數對模型的影響,在相同實驗環(huán)境下對視頻的靜態(tài)幀特征Vf、視頻所攜帶音頻的MFCC 特征Vaudio分別在模態(tài)Vf、雙模態(tài)Vf+Vaudio下進行視頻內容文本表述的訓練,并在各模態(tài)組合的基礎上,將單模態(tài)嵌入模塊及編碼器模塊的LSTM 網絡層數分別設置為1、2、3 層進行模型訓練。模型在MSR-VTT 數據集上的實驗結果如表1 所示??梢钥闯觯疚哪P屯ㄟ^學習單模態(tài)信息的參數及融合互補模態(tài)的表征信息,各類指標均有所提升,這驗證了不同模態(tài)信息間具有高度的相關性以及互補性。由表1 還可以看出,在固定LSTM 層數時,在融合2D 幀特征、音頻的MFCC 特征兩種互補模態(tài)信息時模型評價得分最高。在固定模態(tài)時,當嵌入層、編碼器2 個模塊中的LSTM 層數為2 時,實驗效果最佳。在固定模態(tài)以及LSTM 網絡層數情況下,多模態(tài)融合方案采用協作表示方法訓練得到的模型相較于采用協作表示方法得到的模型測試得分較高,這表明在視頻內容文本表述中,采用協作表示方法進行模態(tài)信息融合效果較好。此外,表1 也驗證了聯合表示方法能夠保留多個模態(tài)各自獨立的表示空間,更適合僅有一個模態(tài)作為輸入的應用,如跨模態(tài)檢索、翻譯等任務。而協作表示方法較注重捕捉多模態(tài)的互補性,通過融合多個輸入模態(tài)x1,x2,…,xm獲得多模態(tài)表征X=f(x1,x2,…,xm),更適合多模態(tài)作為輸入的情況。

表1 消融實驗的結果對比Table 1 Comparison of results of ablation experiments

本文模型首先對基于自注意力結構的嵌入層進行單模態(tài)相關參數學習,然后再通過協作表示方法進行多模態(tài)信息融合,融合后將其送入解碼器。通過表1 的消融實驗結果對比可以看出,相較于單模態(tài)及無嵌入層結構時的雙模態(tài)情況,本文模型能夠提升模型的性能,其評價指標相較于單模態(tài)模型的BLEU4、METEOR、ROUGEL 和CIDEr分別提升了0.088、0.030、0.068、0.073。

本文分別與第2 屆MSR-VTT 挑戰(zhàn)賽中排名前5的模型,即參賽組織RUC&CMU、TJU、NII、Tongji University 以及IIT DeIhi 所發(fā)布模型,以及當前主流視頻內容文本表述模型MPool、S2VT、TA、M3-Inv3、Shared Enc 進行對比,結果分別如表2 和表3 所示。由表2 和表3 可知,本文模型相較于MSR-VTT 挑戰(zhàn)賽中IIT DeIhi 發(fā)布的模型,評價指標BLEU4、METEOR、ROUGEL、CIDEr分別提升了0.082、0.037、0.115、0.257,相較于主流模型TA 分別提升了0.101、0.034、0.135、0.113,這證明多種互補模態(tài)相互融合對視頻內容文本表述性能的提升具有積極作用。

表2 本文模型與第2 屆MSR-VTT 挑戰(zhàn)賽排名前5 模型的結果對比Table 2 Comparison between the results of model in this paper and the top 5 models in the 2nd MSR-VTT challenge

表3 不同模型的結果對比Table 3 Comparison of results of different models

此外,為驗證本文模型的泛化性能,本文對比了不同模型在LSMDC 數據集下的METEOR 指標得分,結果如表4 所示。

表4 不同模型在LSMDC數據集下的METEOR值對比Table 4 Comparison of METEDR value of different models under LSMDC dataset

由表4 可知,相比當前主流視頻內容文本表述模型frcnnBigger 和rakshithShetty,本文模型的METEOR 指標分別提升了0.018 以及0.005,雖然相比最優(yōu)模型EITanque 得分稍有不足,但差距甚微。表2~表4 的結果驗證了本文模型在保持較好性能的基礎上,在不同數據集下也具有較好的泛化性能。

綜合以上實驗結果可知,通過引入視頻的多種模態(tài)信息,可以獲得更互補、更多樣化的表征信息,使模型具有更好的魯棒性。此外,多模態(tài)信息對復雜類視頻片段的文本生成也同樣具有積極作用,究其原因是視頻不同模態(tài)信息間具有高度的相關性和互補性。

圖10 所示為本文模型在MSR-VTT 數據集分割測試集的4 個視頻片段示例,本文模型對以上4 個不同類別的視頻片段進行文本生成,并挑選每個視頻片段的前5 個真實數據(Ground Truth,GT)進行對比,分別用GT0~GT4 表示,結果如表5 所示。其中,本文模型輸出的數據為生成數據。由表5 可知,本文模型所生成的視頻文本內容豐富,且準確率更高,這驗證了多種互補模態(tài)可以相互融合,提升模型性能。

圖10 視頻內容文本生成示例Fig.10 Example of video content text generation

表5 本文模型對視頻片段的文本生成結果對比Table 5 Comparison of text generation results of video clips by model in this paper

4 結束語

本文提出一種將多模態(tài)融合與多層注意力相結合的視頻內容文本表述模型,通過預訓練模型提取視頻所包含的靜態(tài)幀及音頻信息,利用自注意力模塊的嵌入層進行單個模態(tài)的特征參數學習,以增強各模態(tài)間的互補性,為視頻生成文本提供較為豐富、全面的表征信息,使模型生成的自然語言表達更加準確。在MSRVTT 及LSMDC 數據集上的實驗結果表明,本文模型相較于MPool、S2VT、TA 等當前主流模型,在BLEU4、METEOR、ROUGEL、CIDEr 這4 個評價指標上的得分均有明顯提升,生成的文本準確率更高。下一步將充分利用視頻中對象與真實描述之間的對應關系及各種模態(tài)信息間的互補性,并結合注意力機制改進模型,使各種模態(tài)信息與文本信息對齊,在生成高質量文本的同時保證模型的輕量性。

猜你喜歡
音頻模態(tài)特征
基于BERT-VGG16的多模態(tài)情感分析模型
離散型隨機變量的分布列與數字特征
多模態(tài)超聲監(jiān)測DBD移植腎的臨床應用
跨模態(tài)通信理論及關鍵技術初探
柏韻音頻舉辦Pureaudio 2021新產品發(fā)布會
抓特征解方程組
不忠誠的四個特征
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
基于Daubechies(dbN)的飛行器音頻特征提取
Pro Tools音頻剪輯及修正
乐都县| 梨树县| 会宁县| 靖西县| 石景山区| 昌乐县| 无棣县| 台东县| 浦县| 峡江县| 霍州市| 秦安县| 牡丹江市| 乐东| 常德市| 桓仁| 霍州市| 江永县| 涿州市| 武平县| 喜德县| 邢台市| 泰来县| 福州市| 原阳县| 德兴市| 安化县| 盐城市| 抚顺县| 阳泉市| 高雄市| 邵阳县| 和政县| 长岛县| 宽甸| 四子王旗| 德昌县| 城固县| 连云港市| 商南县| 香河县|