国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于音視頻特征的新聞拆條算法

2018-03-30 07:10:30李晨杰朱允斌
微型電腦應(yīng)用 2018年2期
關(guān)鍵詞:分界點(diǎn)靜音音頻

李晨杰, 朱允斌

1(復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203) 2(上海視頻技術(shù)與系統(tǒng)工程研究中心,上海 201203)

0 引言

隨著大數(shù)據(jù)和網(wǎng)絡(luò)信息傳輸技術(shù)的發(fā)展,用戶可接觸到的視頻信息越來越多,新聞視頻作為其中一類,充斥著用戶的日常生活。用戶對(duì)于新聞?lì)愐曨l的需求更多的是根據(jù)喜好與需要選擇單個(gè)新聞條目,與實(shí)際生活中電視臺(tái)播送的時(shí)間較長(zhǎng)的整檔節(jié)目并不吻合。新聞拆條算法可以自動(dòng)地將較長(zhǎng)的新聞視頻節(jié)目按其內(nèi)容拆分成多個(gè)新聞條目,改變目前新聞視頻拆條以人工剪輯為主的狀況,使新聞視頻服務(wù)供應(yīng)商能更快速有效地對(duì)新聞進(jìn)行細(xì)分,從而進(jìn)行更為精準(zhǔn)的內(nèi)容推送,在視頻數(shù)據(jù)存儲(chǔ)等方面也擁有更大的靈活性。

本文的研究?jī)?nèi)容為基于音視頻特征的新聞視頻拆條算法,旨在將時(shí)間較長(zhǎng)的新聞視頻按其內(nèi)容進(jìn)行劃分,找出不同新聞條目之間的分界點(diǎn)。主要內(nèi)容圍繞著新聞視頻主持人特征和音頻靜音段特征展開,包括特征提取及如何基于這些特征進(jìn)行拆條。主要工作包含視頻鏡頭分割、人臉識(shí)別、靜音段提取和條目分界點(diǎn)的確定等。本文對(duì)算法進(jìn)行大量實(shí)驗(yàn),找到針對(duì)特定的新聞視頻拆條最有效的實(shí)驗(yàn)參數(shù),總結(jié)分析優(yōu)劣。

1 相關(guān)工作

Anuj[1]基于主持人特征進(jìn)行新聞拆條,且找出同一個(gè)主持人鏡頭中不同新聞播報(bào)的分界點(diǎn)。Misra[2]用狄利克雷分布獲取主題字幕特征,并結(jié)合主持人特征來判斷新聞條目的分界點(diǎn)。Tarek[3]以新聞節(jié)目的語境和結(jié)構(gòu)特征為先驗(yàn)規(guī)則,找出各種場(chǎng)景中的主持人特征作為新聞分界點(diǎn)。Ma[4]從多媒體信號(hào)源中檢測(cè)出關(guān)鍵項(xiàng),并與音頻特征相結(jié)合來判定新聞邊界。Wei[5]將靜音段在視頻中所處的位置、主持人特征和鏡頭邊界結(jié)合來判斷邊界。Emilie[6]結(jié)合了多種新聞視頻的視覺和音頻特征模型來判斷新聞條目邊界,通過實(shí)驗(yàn)得出各個(gè)特征對(duì)結(jié)果的影響,總結(jié)了各特征對(duì)新聞拆條工作而言的重要性,然而其所找出的新聞分界點(diǎn)允許存在前后10秒的誤差。劉嘉琦[7]基于主題字幕、靜音段和主持人特征來劃分新聞故事邊界。馮柏嵐[8]采用啟發(fā)式規(guī)則獲取條目邊界的視覺和語音候選點(diǎn),用音視頻融合策略對(duì)邊界進(jìn)行定位計(jì)算,從而確定邊界。

大多算法使用了新聞視頻的多種特征,以求能適用普遍情況,但提取的特征越多意味著時(shí)間復(fù)雜度越大,不利于實(shí)際運(yùn)用。以秒作為視頻拆分的最小單位則影響了整體算法的精確度。本文提出的新聞拆條算法僅采用關(guān)鍵性的主持人和靜音段特征,在通過人臉識(shí)別得到主持人鏡頭關(guān)鍵幀之后,結(jié)合靜音段找出新聞條目分界點(diǎn)。本文算法將視頻拆分的最小單位精確到幀,相較于以秒為單位的算法有了較大的提升。

2 新聞拆條算法的主要內(nèi)容

2.1 新聞拆條算法概述

本章將介紹新聞拆條算法的主要內(nèi)容。在本小節(jié)中將介紹新聞條目的模式,闡述本文的新聞拆條算法所選取的新聞視頻特征,并概述算法的思路與流程。其余小節(jié)將詳細(xì)地描述算法各個(gè)步驟的具體內(nèi)容。

2.1.1 新聞條目的模式

新聞視頻可以分為節(jié)目片頭、開場(chǎng)問候、主持人播報(bào)、新聞詳細(xì)視頻內(nèi)容和結(jié)束語五個(gè)部分。除特別指明外,本文所指的新聞視頻是指由若干個(gè)主持人播報(bào)和新聞詳細(xì)視頻內(nèi)容組成的新聞視頻片段,不涉及其他三個(gè)部分。新聞拆條算法需要找出正確的新聞條目分界點(diǎn),根據(jù)新聞視頻的內(nèi)容將其拆分成多個(gè)新聞條目。結(jié)合圖1可知新聞條目大致分為以下3種模式:

(1)主持人播報(bào)+詳細(xì)視頻內(nèi)容,新聞條目1、條目2和條目4,如圖1所示。

圖1 中央電視臺(tái)新聞聯(lián)播節(jié)目的新聞條目示例

(2)主持人播報(bào)詳細(xì)內(nèi)容,如圖1所示的新聞條目3;

(3)詳細(xì)視頻內(nèi)容,如圖1的新聞條目5。

2.1.2 新聞視頻特征的選取

新聞拆條算法常用的特征包含視覺和音頻兩個(gè)方面。視覺特征如主持人、演播室場(chǎng)景、電視臺(tái)標(biāo)識(shí)和主題字幕等。音頻特征如靜音段、播報(bào)員聲音和語音內(nèi)容關(guān)鍵詞等。本文僅選取主持人特征和音頻靜音段特征來確定新聞條目的分界點(diǎn),原因如下:

(1)特征選取應(yīng)首先考慮普遍性,即在大多數(shù)新聞視頻中都具備的要素(如主持人和靜音段),這樣才能使得新聞拆條算法更具通用性。僅適用于特定新聞視頻的特征(如臺(tái)標(biāo)和演播室場(chǎng)景等)不滿足普遍性要求;

(2)和新聞節(jié)目?jī)?nèi)容相關(guān)的特征(如語音內(nèi)容等)屬于較高層的特征,其提取和分析過程較復(fù)雜,通常涉及到關(guān)鍵字提取或主題聚類等更復(fù)雜的問題。因此這類特征不適用于新聞拆條算法;

(3)在新聞視頻中,主持人畫面的出現(xiàn)往往意味著一段新聞條目的開始,因此該特征對(duì)新聞拆條算法而言必不可少。另一個(gè)廣泛存在且不依賴特定新聞或播報(bào)員的特征是音頻靜音段,新聞條目的分界點(diǎn)通常都位于音頻靜音段內(nèi),因此靜默段特征對(duì)于新聞拆條算法也具有很大的意義。

2.1.3 新聞拆條算法的思路與流程

新聞條目的邊界往往是視頻鏡頭的邊界[9],因此本文僅以鏡頭關(guān)鍵幀作為切入點(diǎn),整體思路圍繞著新聞視頻的主持人和音頻靜音段特征展開,通過處理新聞視頻的鏡頭關(guān)鍵幀來獲取主持人鏡頭序列和靜音鏡頭序列,結(jié)合分析兩個(gè)序列完成拆條工作,在節(jié)約計(jì)算時(shí)間的同時(shí),能以幀作為新聞條目邊界的精確度。

算法1 基于音視頻特征的新聞拆條算法

輸入:離線新聞視頻

輸出:新聞條目分界點(diǎn)(視頻中的幀號(hào))

主要步驟(a和b并列進(jìn)行):

1a.對(duì)輸入視頻進(jìn)行鏡頭分割得到鏡頭關(guān)鍵幀集合;

1b.運(yùn)用短時(shí)能量及短時(shí)過零率特征提取音頻段;

2a.鏡頭關(guān)鍵幀集合經(jīng)由主持人分析階段得到該新聞視頻的主持人鏡頭序列;

2b.靜音段中音頻幀號(hào)定位轉(zhuǎn)換為鏡頭圖像幀號(hào),篩選靜音段,生成靜音鏡頭序列;

3.結(jié)合主持人鏡頭序列和靜音鏡頭序列進(jìn)行新聞拆條分析,得到該新聞視頻條目的分界點(diǎn)。

2.2 鏡頭分割階段

鏡頭分割旨在尋找鏡頭之間的分界點(diǎn)。鏡頭由若干個(gè)圖像幀構(gòu)成,鏡頭分割階段需要找出每一個(gè)鏡頭的起始幀作為關(guān)鍵幀,并將起始幀號(hào)集合輸出,如圖2所示。

在新聞視頻中,絕大多數(shù)的鏡頭轉(zhuǎn)換為切變,尤其在不同新聞條目之間,這意味著前一個(gè)鏡頭的末尾幀和下一個(gè)鏡頭的第一幀之間存在巨大的差異。因此本文選取傳統(tǒng)的基于顏色直方圖的鏡頭分割方法。進(jìn)行鏡頭分割之后得到一個(gè)集合,其保存了新聞視頻中每一個(gè)鏡頭的起始幀號(hào)。

圖2 某新聞視頻的部分鏡頭分割結(jié)果

2.3 主持人分析階段

主持人分析階段根據(jù)鏡頭起始幀號(hào)從視頻中獲取鏡頭起始幀圖像集合,并對(duì)該集合中的圖像進(jìn)行人臉識(shí)別,判斷其是否為主持人,并生成主持人鏡頭序列。

2.3.1 人臉識(shí)別

算法對(duì)鏡頭起始幀圖像集合中的每一幅圖像進(jìn)行人臉識(shí)別,人臉識(shí)別具體分為人臉檢測(cè)、面部特征點(diǎn)定位和人臉特征提取等三個(gè)步驟進(jìn)行。

人臉檢測(cè)的方法基于多層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),其采用漏斗型級(jí)聯(lián)結(jié)構(gòu)[10],專門針對(duì)多姿態(tài)人臉檢測(cè)而設(shè)計(jì),可以實(shí)現(xiàn)準(zhǔn)正面人臉的準(zhǔn)確檢測(cè)。面部特征點(diǎn)定位采用了一種由粗到精的自編碼網(wǎng)絡(luò)[11]來解決從人臉表觀到人臉形狀的復(fù)雜非線性映射問題,實(shí)現(xiàn)人臉對(duì)齊,從而解決由人的不同姿態(tài)、表情及環(huán)境光照或人臉遮擋等因素產(chǎn)生的影響。判斷每一張圖像中是否包含人臉,若有,則記錄該人臉?biāo)鶎俚溺R頭號(hào),并進(jìn)行人臉特征的提取。特征提取基于深度卷積神經(jīng)網(wǎng)絡(luò)VIPLFaceNet[12]實(shí)現(xiàn),得到人臉的2048維特征向量。

2.3.2 序列生成

比較人臉特征向量的歐幾里得距離,即可得到相似的人臉特征,基于這些相似結(jié)果以及人臉?biāo)鶎俚溺R頭幀號(hào),若滿足以下3個(gè)條件則認(rèn)為該人臉為主持人:

(1)該人臉出現(xiàn)在畫面中央;

(2)該人臉在鏡頭關(guān)鍵幀序列中多次出現(xiàn);

(3)出現(xiàn)的位置分散在整個(gè)視頻節(jié)目之中。

具體判斷步驟為:給定閾值τ,找出出現(xiàn)在畫面中央且次數(shù)大于τ的全部人臉,針對(duì)不同的人臉分別計(jì)算其最后一次出現(xiàn)的畫面幀號(hào)與第一次出現(xiàn)的幀號(hào)的差值,差值越大則人臉分布越廣。

經(jīng)上述步驟后,針對(duì)每一個(gè)鏡頭起始幀可以判定其是否含有主持人,從而生成主持人鏡頭序列。假設(shè)某新聞視頻共被分割成N個(gè)鏡頭,則生成一個(gè)長(zhǎng)度為N的數(shù)值序列,每一位數(shù)字代表對(duì)應(yīng)圖像幀是否含有主持人。針對(duì)圖1所示的新聞視頻構(gòu)造的主持人鏡頭序列,結(jié)果為10…010…0110…00…0,共N位。其中1表示該鏡頭關(guān)鍵幀含有主持人,省略號(hào)省去的皆為0。

2.4 靜音段分析階段

2.4.1 靜音段的圖像幀定位

對(duì)視頻采取基于短時(shí)能量和過零率的端點(diǎn)檢測(cè)方法[13]來獲取語音段落,并根據(jù)結(jié)果獲取靜音段集合。隨后需要將靜音段集合中的音頻幀號(hào)定位轉(zhuǎn)換為新聞視頻中的圖像幀號(hào),才能與鏡頭關(guān)鍵幀位置相對(duì)應(yīng),生成靜音鏡頭序列。已知靜音段集合為M,則有式(1)。

M={si,ei|1≤i≤K,i∈Z}

(1)

其中K表示靜音段落總數(shù),si和ei分別表示第段靜音段的起始音頻幀號(hào)和結(jié)束音頻幀號(hào)。對(duì)于si,其所在的位置對(duì)應(yīng)視頻中的圖像幀號(hào)pi為式(2)。

(2)

其中fs表示音頻采樣頻率,Lf表示音頻幀長(zhǎng),fv表示視頻幀率。用同樣的方法求得ei所在的位置對(duì)應(yīng)的視頻圖像幀號(hào)qi,便最終得到基于視頻圖像幀號(hào)的靜音段集合M′為式(3)。

M′={pi,qi|1≤i≤K,i∈Z}

(3)

其中K表示靜音段落總數(shù),pi和qi分別表示第段靜音段落的起始圖像幀號(hào)和結(jié)束圖像幀號(hào)。

2.4.2 生成靜音鏡頭序列

設(shè)鏡頭關(guān)鍵幀集合和結(jié)果靜音鏡頭序列分別為式(4)、(5)。

F={fj|1≤j≤N,j∈Z}

(4)

S={sj|1≤j≤N,j∈Z}

(5)

其中N為視頻被分割成的鏡頭數(shù)目,fj表示第j個(gè)鏡頭的起始幀號(hào),sj為需要生成的整型數(shù)值。為了生成S中的每一項(xiàng)sj,需要遍歷集合F,對(duì)于其中每一項(xiàng)fj,判斷是否存在正整數(shù)i,使得式(6)。

pi≤fj≤qi,1≤i≤K,1≤j≤N,i、j∈Z

(6)

其中K表示靜音段落總數(shù)。若滿足該條件表示鏡頭起始幀fj處在一個(gè)靜音段中,但是并不意味著該靜音段一定是新聞條目鏡頭轉(zhuǎn)換之間的停頓,需進(jìn)一步判斷是否滿足以下條件為式(7)。

qi-pi≥τ且fj-pi>qi-fj

(7)

其中τ為事先設(shè)置好的靜音段長(zhǎng)度的閾值,單位為幀。通過判斷是否滿足條件qi-pi≥τ即對(duì)靜音段落的長(zhǎng)度提出要求,以舍棄說話語句之間的短暫停頓。此外,大部分新聞節(jié)目有如下特征:新聞條目開始時(shí)的靜音段時(shí)長(zhǎng)較短,且新聞稿會(huì)在視頻內(nèi)容播完前結(jié)束?;谶@樣的觀察,對(duì)靜音段提出如下條件限制:鏡頭起始幀fj將靜音段落分割成了前后兩個(gè)部分,要求fj-pi>qi-fj,即前一部分的長(zhǎng)度要大于后一部分。

若上述條件均被滿足,則sj=1;否則sj=0。從而最終得到靜音鏡頭序列S。

2.5 新聞拆條分析階段

該階段根據(jù)已得到的主持人鏡頭序列和靜音鏡頭序列確定新聞條目的分界點(diǎn),從而完成新聞拆條的工作。以圖1所示的新聞結(jié)構(gòu)為例,在2.3.2節(jié)中已知其主持人鏡頭序列H為10…010…0110…00…0,將該新聞視頻通過語音段檢測(cè)階段和靜音段分析階段,得到其靜音鏡頭序列S為11…011…0110…01…0。這兩個(gè)序列均為N位,省略號(hào)都省去了0。每一位數(shù)字代表其對(duì)應(yīng)的鏡頭起始幀是否含有主持人或者是否處在滿足本文算法要求的靜音段中。結(jié)合分析這兩個(gè)序列,在其中標(biāo)定若干值,這些值所代表的鏡頭起始幀就是這段新聞視頻中的新聞條目分界點(diǎn)。具體方法為:

遍歷hi∈H,si∈S,1≤i≤N,若:

(1)hi=1,則新聞視頻的第i個(gè)鏡頭的起始幀為新聞條目分界點(diǎn);

(2)si=1且hi-1=0,i≥2,則新聞視頻的第i個(gè)鏡頭的起始幀為新聞條目分界點(diǎn)。

條件(1)表示只要是主持人在新聞節(jié)目中出現(xiàn),算法就認(rèn)為其是新聞條目的分界點(diǎn)。條件(2)根據(jù)靜音段來確定新聞條目分界點(diǎn),hi-1=0的限定是為了解決毛刺問題,在本例中當(dāng)i=2時(shí)就會(huì)出現(xiàn)毛刺問題:對(duì)于“主持人播報(bào)+詳細(xì)視頻內(nèi)容”模式,往往在主持人播報(bào)完畢后出現(xiàn)一段靜音,使得下一個(gè)鏡頭起始幀就處在了滿足算法要求的靜音段中,靜音鏡頭序列中被標(biāo)記為1,而上一個(gè)主持人鏡頭起始幀才應(yīng)該是這段新聞條目的起點(diǎn),于是出現(xiàn)了毛刺現(xiàn)象。

至此,本文算法找出了新聞視頻中不同新聞條目的分界點(diǎn),完成了新聞拆條的工作。

3 算法實(shí)驗(yàn)與結(jié)果

3.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)標(biāo)準(zhǔn)

本文所使用的測(cè)試數(shù)據(jù)為時(shí)長(zhǎng)3 000分鐘的中央電視臺(tái)新聞聯(lián)播節(jié)目,其格式為MPEG-4影片,畫面幀大小為640*480像素,視頻幀率為25f/s。針對(duì)這些新聞視頻進(jìn)行人工的新聞條目分界點(diǎn)標(biāo)注,總計(jì)得到1 309個(gè)新聞條目分界點(diǎn)。算法得到的新聞條目正確分界點(diǎn)必須精確到新聞條目的起始幀。本文通過以下三種數(shù)值來評(píng)估新聞拆條算法:

(1)新聞邊界點(diǎn)召回率recall=算法得到的正確分界點(diǎn)個(gè)數(shù)/應(yīng)得到的正確分界點(diǎn)個(gè)數(shù);

(2)新聞邊界點(diǎn)準(zhǔn)確率precision=算法得到的正確分界點(diǎn)個(gè)數(shù)/算法得到的所有分界點(diǎn)個(gè)數(shù);

(3)新聞邊界點(diǎn)值F1=2×召回率×準(zhǔn)確率/(召回率+準(zhǔn)確率)。

3.2 實(shí)驗(yàn)結(jié)果與分析

3.2.1 總體實(shí)驗(yàn)結(jié)果與分析

本文算法測(cè)試上述數(shù)據(jù)集得到分界點(diǎn)個(gè)數(shù)為1 202個(gè),其中正確的分界點(diǎn)1 121個(gè),實(shí)驗(yàn)結(jié)果為:召回率0.856 3;準(zhǔn)確率0.932 6;F1值0.892 8。

算法在實(shí)驗(yàn)中存在漏檢情況有以下原因:

(1)由于沒有絕對(duì)的標(biāo)準(zhǔn)閾值界定新聞條目間的靜音段時(shí)長(zhǎng),新聞條目分界點(diǎn)所處的靜音段存在長(zhǎng)度小于閾值的情況,且占據(jù)了算法漏檢的較大比重。

(2)新聞視頻中存在“主持人播報(bào)詳細(xì)內(nèi)容”模式與其他新聞的“詳細(xì)視頻內(nèi)容”相連的情況。在2.5節(jié)中提到了主持人播報(bào)的語音毛刺問題,其解決方式為忽略主持人播報(bào)后的靜音毛刺,而詳細(xì)視頻內(nèi)容主要依靠靜音段檢測(cè),因此當(dāng)這兩種模式相連時(shí),算法會(huì)出現(xiàn)漏檢“詳細(xì)視頻內(nèi)容”模式新聞條目的情況。

算法在實(shí)驗(yàn)中存在錯(cuò)檢情況的主要原因是新聞內(nèi)容中存在長(zhǎng)度大于閾值的靜音段落。這類情況主要發(fā)生在新聞播報(bào)內(nèi)容為人物演講時(shí),此時(shí)視頻鮮有背景雜音,只有人說話的聲音,而演講往往抑揚(yáng)頓挫,語句之間也會(huì)存在有較長(zhǎng)停頓的情況。

3.2.2 靜音段長(zhǎng)度閾值對(duì)實(shí)驗(yàn)結(jié)果的影響

從上述分析中可知,算法所設(shè)的靜音段閾值對(duì)新聞拆條的結(jié)果有著十分重要的影響。當(dāng)閾值較高時(shí),得到的新聞條目分界點(diǎn)個(gè)數(shù)會(huì)較少,即漏檢情況發(fā)生較多,從而召回率較低,但準(zhǔn)確率較高;當(dāng)閾值較低時(shí),得到的分界點(diǎn)個(gè)數(shù)會(huì)增多,即錯(cuò)檢情況發(fā)生較多,從而準(zhǔn)確率較低,但召回率較高。本算法采用不同的靜音段閾值進(jìn)行實(shí)驗(yàn)所得到的結(jié)果,如圖2所示。

圖2 靜音段長(zhǎng)度閾值對(duì)實(shí)驗(yàn)結(jié)果的影響

當(dāng)閾值取值在50左右時(shí),F(xiàn)1值處在總體較高水平。

3.2.3 靜音段限制條件對(duì)實(shí)驗(yàn)結(jié)果的影響

在2.4.2小節(jié)中介紹了算法在靜音序列生成階段,通過條件限制篩選得到符合要求的靜音段落。本節(jié)通過對(duì)比實(shí)驗(yàn)佐證了靜音段限制條件對(duì)實(shí)驗(yàn)結(jié)果的影響,結(jié)果如圖3所示。

圖3 靜音段限制條件對(duì)實(shí)驗(yàn)結(jié)果的影響

當(dāng)有限制條件時(shí),算法得到的召回率、準(zhǔn)確率和F1值均高于無限制條件時(shí)的結(jié)果。

3.2.4 處理音頻毛刺對(duì)實(shí)驗(yàn)結(jié)果的影響

3.2.1節(jié)提到了新聞視頻中有主持人播報(bào)后直接連接其他新聞詳細(xì)視頻內(nèi)容的情況,這種情況與算法所設(shè)置的處理音頻毛刺現(xiàn)象的方法相沖突,從而導(dǎo)致算法產(chǎn)生漏檢情況,影響了算法的召回率。本節(jié)通過對(duì)比實(shí)驗(yàn)得出處理音頻毛刺現(xiàn)象對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生的影響,如圖4所示。

在不處理毛刺現(xiàn)象時(shí)算法得到的召回率更高,但準(zhǔn)確率遠(yuǎn)低于處理毛刺現(xiàn)象時(shí)的結(jié)果,從而在值方面要差很多。這

圖4 處理音頻毛刺現(xiàn)象對(duì)實(shí)驗(yàn)結(jié)果的影響

說明在新聞視頻中主持人播報(bào)后緊跟其他新聞的詳細(xì)視頻內(nèi)容情況的出現(xiàn)頻率要比“主持人播報(bào)+詳細(xì)視頻內(nèi)容”的常規(guī)模式低很多。盡管不處理毛刺現(xiàn)象可以檢測(cè)出一些被漏檢的新聞條目分界點(diǎn),但也造成了更多的錯(cuò)檢情況的發(fā)生。

3.3 其他算法結(jié)果對(duì)比分析

本文算法與其他算法的對(duì)比結(jié)果。所選取的數(shù)據(jù)集均為新聞聯(lián)播節(jié)目,如表1所示。

表1 對(duì)比實(shí)驗(yàn)分析結(jié)果

[5]采用四集約128分鐘的新聞聯(lián)播作為實(shí)驗(yàn)數(shù)據(jù)集,其算法同樣是基于主持人和音頻靜音段特征,默認(rèn)主持人播報(bào)始終是單獨(dú)的新聞條目,即使主持人播報(bào)后有相關(guān)新聞的詳細(xì)視頻報(bào)道,也認(rèn)為是兩個(gè)不同的新聞條目,在此前提下得到較高的召回率,但準(zhǔn)確率較低。參考文獻(xiàn)[7]同樣對(duì)四集新聞聯(lián)播進(jìn)行實(shí)驗(yàn),使用了主持人特征、主題字幕特征和音頻靜音段特征,對(duì)新聞視頻中的故事單元進(jìn)行切割,獲得了不錯(cuò)的實(shí)驗(yàn)結(jié)果,但其新聞分界點(diǎn)的邊界精確度為秒。

4 總結(jié)

本文提出了一種新聞視頻拆條算法,主要工作體現(xiàn)在以下幾個(gè)方面:

(1)僅采用最普遍且最關(guān)鍵的主持人特征和音頻靜音段特征來設(shè)計(jì)新聞拆條算法;

(2)以鏡頭關(guān)鍵幀作為切入點(diǎn)進(jìn)行處理,相比于以固定時(shí)長(zhǎng)的一小段視頻為切入點(diǎn)進(jìn)行處理,且邊界精確度為秒的新聞拆條算法,本文的算法在節(jié)約計(jì)算時(shí)間的同時(shí),提高了條目邊界的準(zhǔn)確率;

(3)針對(duì)從新聞視頻中提取的音頻靜音段落進(jìn)行篩選,對(duì)靜音段落有長(zhǎng)度和其他條件限制,同時(shí)針對(duì)靜音的毛刺現(xiàn)象進(jìn)行處理,使算法的值大有提高。

(4)針對(duì)同一類型的新聞視頻,本文相比于其他算法使用了大量的實(shí)驗(yàn)數(shù)據(jù),以驗(yàn)證算法的各項(xiàng)性能。

參考文獻(xiàn)

[1] Goyal A, Punitha P, Hopfgartner F, et al. Split and Merge Based Story Segmentation in News Videos[C]//31st European Conference on IR Research. Toulouse, the 2009, 766-770.

[2] Misra H, Hopfgartner F, Goyal A. TV news story segmentation based on semantic coherence and content similarity[C]//Proceedings of the 16th international conference on Advances in Multimedia Modeling. Chongqing 2010, 347-357.

[3] Zlitni T, Bouaziz B, Mahdi W. Automatic topics segmentation for TV news video using prior knowledge[J]. Multimedia Tools and Applications,2016,75(10): 5645-5672.

[4] Ma C, Byun B, Kim I, et al. A detection-based approach to broadcast news video story segmentation[C]//Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing. Taipei, 2009, 1957-1960.

[5] Wei W, Gao W. Automatic segmentation of news items based on video and audio features[J]. Compute Science and Technology,2002, 17(2):189-195.

[6] Dumout E., Quenot G. Automatic Story Segmentation for TV News Video Using Multiple Modalities [J]. International Journal of Digital Multimedia Broadcasting, 2012.

[7] 劉嘉琦. 基于多模態(tài)特征的新聞視頻結(jié)構(gòu)分析[D]. 西安:西安電子科技大學(xué). 2011.

[8] 馮柏嵐,鄭榮,陳智能,等. 一種面向海量廣播電視監(jiān)管的自動(dòng)新聞拆條. 中國(guó)專利:CN 103546667A[P],2014-01-29.

[9] Smeaton] A F, Over P, Kraaij W. TRECVID—an over-view[C]//Proceedings of TRECVID. 2003.

[10] Wu Shuzhe, Kan Meina, He Zhenliang, et al. Funnel-Structured Cascade for Multi-View Face Detection with Alignment-Awareness. Neurocomputing (under review), 2016.

[11] Zhang Jie, Shan Shiguang, Kan Meina, et al. Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment[C]//ECCV 2014.

[12] Liu Xin, Kan Meina, Wu Wanglong, et al. VIPL FaceNet: An Open Source Deep Face Recognition SDK[J]. Frontier of Computer Science.

[13] 劉波.基于短時(shí)能量和過零率分析的語音端點(diǎn)檢測(cè)方法研究[D].武漢:武漢理工大學(xué),2007.

猜你喜歡
分界點(diǎn)靜音音頻
圖說
靜音輪胎、靜音輪胎的質(zhì)量控制方法及控制系統(tǒng)
橡膠科技(2022年11期)2022-03-01 22:55:23
瀝青路面降噪原理及其靜音化設(shè)計(jì)
石油瀝青(2021年3期)2021-08-05 07:41:08
關(guān)注特殊值,巧解一類導(dǎo)數(shù)壓軸題
怎樣確定含參二次函數(shù)問題中分類討論的“分界點(diǎn)”
必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
找分界點(diǎn)思想在一類導(dǎo)數(shù)題中的應(yīng)用
為靜音超市點(diǎn)贊
大港区| 新龙县| 江门市| 盱眙县| 广州市| 日照市| 西城区| 达州市| 宁武县| 抚宁县| 吉林市| 平果县| 通辽市| 延寿县| 潍坊市| 鸡东县| 东至县| 绿春县| 黑水县| 麻江县| 衡阳市| 沂南县| 吕梁市| 凤冈县| 牡丹江市| 灌云县| 阆中市| 逊克县| 余干县| 乌兰县| 图们市| 南和县| 随州市| 酒泉市| 南京市| 剑阁县| 时尚| 高陵县| 达州市| 茂名市| 华安县|