李巧鳳, 趙 燁
(合肥工業(yè)大學 計算機與信息學院, 合肥 230009)
作為主要的多媒體信息載體,海量的視頻豐富了我們的生活,也為科技的快速發(fā)展帶來巨大機遇,但每天拍攝上傳到網絡上的海量視頻,使得視頻分析耗費大量財力。因此,迫切需要更加有效的信息組織,總結和分析的技術,了解在這個視頻中哪個幀和鏡頭是不可或缺的。本文的目的就是通過強化學習機制處理包含差異特征的多路特征,來獲取得分最高的視頻幀子集,即所需的關鍵幀。考慮到基于差異特征獲取關鍵幀的做法相對較少,本文的思路為視頻摘要的獲取方法做了補充,具有一定的學術價值,通過視頻關鍵幀提取和視頻結構化生成一個有著現實意義并且能夠體現視頻主要內容的結構大綱。有文獻提出通過對大量視頻搜索與檢索可以滿足對所需內容的有效需求[1],但是并沒有提供實際視頻內容的具體意義,很難快速找到所需的內容, 基于內容頻率或非冗余雖然簡單有效,但是卻與視頻的實時性缺少直接的聯系;有文獻提出的預測模型用于預定義的一組類別,還有將搜尋對象限制在有限的對象域將關鍵幀提取的效果進行了改進[2];有研究提出使用基于標題的圖像搜索結果來尋找視頻中的關鍵幀和重要鏡頭[3]。因為視頻標題是通過挑選以最大程度的描述其主題,使用標題搜索的圖像可以包含噪聲(與視頻內容無關的圖像)和方差(不同主題的圖像),其開發(fā)了共同原型分析技術,通過兩個數據集TVSum和SumMe 的聯合因子學習圖像和視頻之間共享的規(guī)范視覺概念,將視頻摘要的質量極大地提高;有研究提出利用視覺線索、語義線索和上下文線索標簽重要性預測模型[4]。采用結構支持向量機(structured support vector machine ,SSVM)公式,保證預測模型的有效訓練。然后,利用正則相關分析(canonical correlation analysis,CCA)學習圖像視覺特征與標簽重要性之間的關系,獲得魯棒檢索性能。深度視頻摘要模型(deep summarization network , DSN),利用獎勵機制提取視頻摘要。逐漸出現的深層語意嵌入的視頻摘要。提出了一種新的基于深度語義嵌入(DSSE)的視頻摘要生成模型,該模型充分利用了視頻摘要的邊信息(標題,查詢,描述),通過交互最小化兩個單模態(tài)自編碼器的語義相關損失和特征重構損失,可以更完整地學習視頻幀與邊信息之間的公共信息。有文獻基于深度神經網絡的軟計算技術集成在一個兩層的框架中來實現多視點視頻摘要(MVS)[5]。主要的思路是首先在線層執(zhí)行基于目標外觀的鏡頭分割,并將其存儲在一個查找表中,該查找表將被傳輸到云以進行進一步處理。第二層從查找表中序列的每一幀中提取深度特征,并將其傳遞給深度雙向長短時記憶(DB-LSTM),獲取信息量的概率,生成摘要;有文獻引入視頻幀的空間流RGB圖像和空間流多幀運動矢量以及輸入視頻的時間信息來進行視頻摘要[6];有文獻提出一種基于聚類的多尺度以自我為中心的視頻摘要與動作排序算法[7],可以一次運行中生成多個摘要,然后再以以自我為中心的視頻中出現的行為動作進行優(yōu)先級的排序來獲得視頻摘要。如何使提取的視頻摘要質量高,多樣性強。從這一問題入手,文章提出采用多路特征的卷積神經網絡模型來優(yōu)化選取視頻幀子集的質量。
利用差異特征進行視頻中關鍵幀的選取,本文提出了一種多路特征進行視頻關鍵幀提取的架構。
本文提出的包含差異特征的多路特征檢測關鍵幀的方法包含了視頻幀更多的特征信息。在提出的檢測方法中,既著眼于提取出的視頻的原特征,又側重于處理兩兩視頻幀之間顯著性差異對象之間的差特征,通過使用多路特征網絡模型來對視頻進行關鍵幀的檢測和選取,本文的多路視頻摘要網絡模型如圖1所示。
圖1 多路特征視頻摘要網絡
強化學習是一種自學習系統(tǒng),主要通過反復試驗來學習,最終找到規(guī)律,達到學習的目的[8]。其關鍵要素為:智能體(agent)、環(huán)境(environment)、獎勵(reward)、動作(action) 和狀態(tài)(state),通過這些要素建立一個強化學習的模型,基本原理是:agent的某個行為策略導致環(huán)境正的獎賞增大,那么agent以后產生這個行為策略的趨勢便會增強,agent的目標是在每個離散狀態(tài)發(fā)現最優(yōu)策略以使期望的折扣獎賞和最大。強化學習把學習看作試探評價過程,agent選擇一個動作作用于environment,environment接受該動作后狀態(tài)發(fā)生變化,同時產生一個強化信號(獎或罰)反饋給agent,agent根據強化信號和環(huán)境當前state再選擇下一個action,選擇的原則是使受到正強化reward的概率增大。本文將強化學習運用于視頻摘要,通過判斷選擇關鍵幀的獎勵的大小反過來影響采取該動作的概率。實驗結果證明,在關鍵幀的提取上效果不錯。強化學習模型如圖2所示。
圖2 強化學習模型
為了使關鍵幀檢測模型效果好,需要一個好的關鍵幀解碼器,本文采用端到端的編解碼深度摘要網絡,編碼器是卷積神經網絡CNN。文中用x=[x1x2...xt...xT]表示視頻的幀序列特征,xt表示表示在第t幀的視覺特征,解碼器使用的是性能突出的雙向長短時記憶網絡Bi-LSTM,把提取出的原始視覺特征[x1x2...xt...xT]送入Bi-LSTM,同時用xad表示經過處理的幀序列特征,xad=[x1-x2x2-x3...xt-xt+1...xT-1-xT],xad表示相鄰幀序列之間差異的視覺特征,把處理后的整個視覺特征xad也完整地送入到Bi-LSTM,生成t時刻相應的隱藏狀態(tài)ht, Bi-LSTM對信息的處理方式分為兩個方向,前向狀態(tài)和后向狀態(tài),它封裝了當前幀過去的和未來的信息,經過Bi-LSTM處理后轉換為表示向量v=[v1v2...vt...vT],與LSTM相連接的全連接層(fully connected layer,FC)以sigmoid函數為每一幀預測得分,p1表示的是原始視頻幀的重要性得分,p2表示的是差異視頻的重要性得分。作為該視頻幀是否被選擇的概率,σ代表sigmoid函數,通過伯努利函數B采取相應的動作,at表示所采取的動作,at=1表示第t幀被選取,為0則舍棄,式(1)~(4),實驗結果如圖3所示。
(1)
Pt=σ(FC(ht)).
(2)
Pall=p1+p2,
(3)
at~B(pall).
(4)
圖3 實驗結果
1.3.1 狀態(tài)-動作值函數對agent的作用
評判視頻摘要模型生成的摘要質量的高低,狀態(tài)-動作值的大小就是很好的指標,由于強化學習的原理機制,狀態(tài)-動作值越大,說明視頻摘要生成的質量越高,這是一個不斷學習的過程,以確保視頻摘要的重要性和多樣性。本文的模型中,重要性表示視頻摘要對全文視頻信息的覆蓋能力,把它當做一個k-medoids問題,公式(5)所示:
E(xt)=min‖xt-xt′‖2,
(5)
其中,t和t′表示為非同一時刻,即最大重要性值可表示為式(6):
(6)
在視頻摘要技術的發(fā)展過程中,已經提出了很多衡量視頻摘要多樣性的模型。本文通過特征空間所選幀之間的差異大小,來評估視頻摘要多樣性的高低。用S=[f1f2...ft...fT]表示所選的視頻幀,則其兩兩之間的差異性,可以表示為式(7)和式(8):
(7)
(8)
視頻摘要的屬性判別也就是關鍵幀的屬性判別。它的屬性就是重要性和多樣性公式(6)的Qi越高,代表重要性越強;同樣道理公式(7)Qd越大,多樣性的信息量就越豐富。
整個視頻摘要用Qd與Qi的和狀態(tài)-動作值函數Q(st,at)表示最大獎勵(reward),選擇的視頻幀質量越高,深度摘要網絡獲得的狀態(tài)-動作值越大,就會促使系統(tǒng)選取更多這樣的視頻幀,二者相輔相成,式(9)。
Q(s,a)=Qi+Qd.
(9)
1.3.2 策略梯度
在不同的狀態(tài)(state)采取的動作(action)也就是策略梯度policy gradient。為了最大化狀態(tài)-動作值,實驗中用策略函數πθ和參數θ來最大化期望獎勵,式(10)和式(11):
J(θ)=Epθ(a1:T)[Q(st,at)],
(10)
(11)
式中,at為采取的動作;st為隱藏層的狀態(tài);
pθ(a1:T)表示通過動作序列得到的概率分布。
為了方便計算避免個體的偏差,需要多次取樣并利用均值提高其準確率,并在這里引入一個基準值b,其為狀態(tài)-動作值的平均值,則公式(11)就變形為式(12):
(12)
參數θ的更新為公式(13):
(13)
其中,α為學習速率;β1和β2為平衡權重的參數,l決定選取的視頻幀的百分比。
本實驗依然是在2個公共基準數據集SumMe和TVSum做評估。SumMe數據集包含25個用戶視頻,視頻的長度從1到6 min不等,記錄了各種各樣的事件,包括了運動、假期和烹飪等,且每個視頻由15到18個人注釋,每個視頻有多個基本事實摘要(ground-truth)。TVSum收錄了從YouYube的50個視頻,每個時長2到10 min不等,數據集覆蓋10類別,包括了動物美容、汽車輪胎和讓汽車脫困等內容,而且TVSum可以提供幀級重要性分數。這些都是作為基本事實標簽。在實驗中隨機將數據集分為訓練集和測試集,其中訓練集占比80%,測試集占比20%。
實驗結果采用目前通用方式計算F-score來評估本文提出的方法。即量化視頻摘要與ground-truth之間的相似性,生成的視頻摘要(A)和ground-truth (B)。精確度(P)和召回率(R)的公式定義式(14)和式(15):
(14)
(15)
F-score定義為式(16):
(16)
本文對視頻進行2幀/秒的速度采樣到幀序列中,選擇使用GooLeNet的pool5層的輸出,在ImageNet上訓練,實驗中RNN單元的隱藏狀態(tài)維數為256,epoch最大數量為60,達到這個數量,訓練將停止。在實驗中隨機將數據集分為訓練集和測試集,其中訓練集占比80%,測試集占比20%。視頻摘要的長度控制在原視頻的15%。學習率為0.000 01。
在SumMe數據集中video_8、video_20和TVSum數據集中video_33、video_42的實驗結果如圖4所示,紅色的曲線表示真實得分(ground truth),藍色表示的是本文的方法生成預測得分。從結果中可以得出本文方法的預測的得分與數據集中真實得分的曲線對比。通過多次的實驗結果表明本文的方法預測出的分數曲線可以很好的去接近真實分數。
圖4 SumMe和TVSum數據集實驗結果
本文方法在SumMe和TVSum數據集上和其他方法的做了比較。在同等的實驗條件下,由表格1的后兩項實驗結果可以看出,在SumMe和TVSum兩個數據集上,本文的方法比原始單一特征的F-score分別提高了1%和將近2%,對于表1中所有的F-score值,在實際的操作中,以訓練集和測試集所占的百分比為基準,表中的結果都是測試集的平均值。如在SumMe數據集中,計算的是5個視頻結果的平均分為F-score值,在TVSum數據集中則是10個視頻結果的平均分數。這充分說明了本文方法進行視頻摘要的有效性。
同時,還可以看出本文的實驗結果比目前絕大部分視頻摘要方法有更好的性能指標。與表1中表現較好的GANdpp和DR-DSN以及DTR-GAN相比,雖然后者采用了LSTMs產生的網絡對抗來進行視頻摘要。但是文中的方法和其相比依然不差。對于DR-DSN來說,在SumMe和TVSum數據集上,F-score分別提高了4%和3%左右。與DTR-GAN相比也有1.4%和1.6%的提高。在和新近的Cycle-SUM和Reg比較時文中的方法依然有不錯的表現。SUM-GAN-AAE因為有注意力機制的加入在SumMe數據集上表現要比文中的方法好,但是在TVSum數據集上,文中的方法在F-score依然有2%左右的提升。這充分說明基于差異特征的強化學習視頻摘要方法更能全面有效的提取和利用原視頻的信息。
表1 F-score實驗結果對比
本文提出了一種基于差異特征的強化學習視頻摘要的方法,闡述如何有效利用提取視頻幀的圖像特征,建立視頻幀對象之間的聯系,對視頻幀包含的信息達到一個長期有效的記憶的方式。通過聯合相鄰幀間的差異信息來有效地進行關鍵幀提取,達到預期的實驗效果。由實驗結果可以看出,本文提出的方法在兩個標準數據總體性能表現優(yōu)越。