何麗媛
內(nèi)蒙古新聞出版廣電局監(jiān)管中心 內(nèi)蒙古 呼和浩特市 010050
當(dāng)今,互聯(lián)網(wǎng)音視頻節(jié)目正在以前所未有的速度發(fā)展著。這些互聯(lián)網(wǎng)音視頻節(jié)目中所包含的圖片、視頻和語音等多種信息也在大量且迅速的傳播著。隨之而來也產(chǎn)生了許多問題,其中,用戶如何迅速準(zhǔn)確的在海量信息中獲取自己所需的內(nèi)容是一個(gè)可以不容忽視的方面。由此,音視頻檢索系統(tǒng)應(yīng)運(yùn)而生,為用戶提供了文本檢索、視頻檢索、音頻檢索等多形式的檢索查詢服務(wù)。音視頻檢索系統(tǒng)主要由文本檢索模塊、視頻檢索模塊、音頻檢索模塊三部分組成。音視頻檢索系統(tǒng)以輿情信息、音視頻節(jié)目數(shù)據(jù)庫為基礎(chǔ),建立包含關(guān)鍵字、視頻樣例、音頻片斷、說話人、文本說話內(nèi)容等在內(nèi)的多模態(tài)檢索方式,從而實(shí)現(xiàn)對(duì)各類信息綜合檢索功能。
文本檢索模塊的主要功能是,當(dāng)用戶需要查看某些音視頻節(jié)目時(shí),只需要在檢索框中輸入想要查詢的音視頻節(jié)目的關(guān)鍵詞,即可檢索出相關(guān)音視頻節(jié)目。信息檢索系統(tǒng)平臺(tái)是基于文本數(shù)據(jù)索引之上而建立的。信息檢索平臺(tái)的建立,可以讓系統(tǒng)操作維護(hù)人員能夠針對(duì)某些特定的關(guān)鍵詞或者某些特定主題,進(jìn)行實(shí)時(shí)、高效、智能的檢索。進(jìn)而通過檢索出來的信息了解掌握當(dāng)前互聯(lián)網(wǎng)音視頻節(jié)目的發(fā)展動(dòng)向。
文本檢索子系統(tǒng)的構(gòu)架,如圖1所示。
圖1 文本檢索子模塊系統(tǒng)結(jié)構(gòu)圖
文本信息檢索系統(tǒng)的整體結(jié)構(gòu)包括四個(gè)部分,分別是:數(shù)據(jù)預(yù)處理與分析模塊、索引系統(tǒng)模塊、查詢系統(tǒng)模塊、結(jié)果生成模塊。這四個(gè)模塊合作運(yùn)行,其功能可以滿足不同用戶的各類檢索需求,并可以為用戶提供既高效又準(zhǔn)確的檢索結(jié)果。
視頻檢索模塊分為關(guān)鍵字檢索和特定片段檢索兩個(gè)獨(dú)立模態(tài)的檢索。
關(guān)鍵字檢索,要對(duì)視頻節(jié)目抽取例如如網(wǎng)頁描述,語音腳本等這樣的文字描述。與此同時(shí),系統(tǒng)需要完善文字與時(shí)間的對(duì)應(yīng)關(guān)系,建立起一個(gè)完整的索引結(jié)構(gòu)。并以該索引為基礎(chǔ),在后續(xù)的檢索過程中,可以快速準(zhǔn)確的找到所有包含所查詢關(guān)鍵字的視頻文件及其所對(duì)應(yīng)的時(shí)間。
特定關(guān)鍵幀的檢索,是把特定片斷轉(zhuǎn)化為一個(gè)關(guān)鍵幀。特定關(guān)鍵幀的檢索,其實(shí)就是特定片斷檢索的一個(gè)特例,如圖2所示。
圖2 特定片段檢索模塊結(jié)構(gòu)圖
視頻解碼模塊:采用解碼器對(duì)目前互聯(lián)網(wǎng)上最為主流的文件格式和各類編碼方式處理進(jìn)行處理。
特征抽取模塊:其作用是以幀和鏡頭為單位,將特定的底層特征抽取出來。
鏡頭劃分模塊:通過判斷出鏡頭邊界技術(shù),把一個(gè)完整的視頻劃分為若干個(gè)零散的鏡頭。
建立索引模塊:建立各個(gè)鏡頭的特征索引,一般采用SR-Tree 等索引結(jié)構(gòu)或者h(yuǎn)ash 方式來完成。
檢索模塊:當(dāng)用戶向系統(tǒng)提交了一個(gè)視頻片斷所對(duì)應(yīng)的特征信息時(shí),系統(tǒng)就會(huì)運(yùn)用之前離線生成的索引,精確找到所有包含了此片斷的視頻節(jié)目,并顯示其相應(yīng)的位置。
檢索結(jié)果以網(wǎng)頁形式表現(xiàn),其中包含結(jié)果視頻的摘要鏈接用于顯示該節(jié)目的摘要,保存鏈接用于轉(zhuǎn)存該節(jié)目。并且在網(wǎng)頁中內(nèi)嵌mplayer 等播放器對(duì)象,用戶在網(wǎng)頁內(nèi)觀看該節(jié)目。根據(jù)檢索結(jié)果的URL,可以查看該節(jié)目在互聯(lián)網(wǎng)上的分布情況。
音頻檢索模塊的作用是當(dāng)用戶在系統(tǒng)界面提交了一個(gè)關(guān)鍵詞、特定音頻片段、特定說話人的語音樣本時(shí),系統(tǒng)就會(huì)對(duì)范圍內(nèi)所有的音頻節(jié)目進(jìn)行對(duì)應(yīng)的檢索。在檢索結(jié)束之后,向用戶返回全部包含了查詢內(nèi)容的音頻節(jié)目。用戶可以通過網(wǎng)頁界面,查看播放查詢結(jié)果,同時(shí)可以將查詢結(jié)果下載轉(zhuǎn)存。
音頻檢索模塊運(yùn)用網(wǎng)絡(luò)內(nèi)容搜索技術(shù),將互聯(lián)網(wǎng)上的語音節(jié)目所包含的音頻文件下載到本地計(jì)算機(jī)上,之后將這些下載下來的音頻文件集合起來,建立起一個(gè)本地音頻庫。再借助語音和音頻檢索系統(tǒng)來響應(yīng)用戶的查詢,將所查詢的音頻信息與音頻庫里的信息進(jìn)行對(duì)比,最后把檢索出的相關(guān)信息反饋給用戶,如圖3所示。
圖3 互聯(lián)網(wǎng)語音/音頻信息監(jiān)測(cè)系統(tǒng)示意圖
對(duì)于圖3中的特定內(nèi)容的語音/音頻信息檢索系統(tǒng)來說,一般通過預(yù)處理階段和檢索階段兩個(gè)階段來實(shí)現(xiàn)。
預(yù)處理階段:預(yù)處理階的作用是負(fù)責(zé)對(duì)音頻庫中的原始音頻數(shù)據(jù)進(jìn)行預(yù)處理,將其結(jié)構(gòu)化成易檢索的“音頻元數(shù)據(jù)”的形式?!耙纛l元數(shù)據(jù)”事實(shí)上是一種對(duì)原始音頻數(shù)據(jù)內(nèi)容的緊湊表示,是一種用來描述原始音頻數(shù)據(jù)的數(shù)據(jù)。預(yù)處理階段最終輸出的是一種被稱為“元數(shù)據(jù)”的數(shù)據(jù)形式。“元數(shù)據(jù)”由音頻特征、識(shí)別得到的音素圖、說話人的分析結(jié)果這三項(xiàng)所組成。在預(yù)處理階段,特定內(nèi)容的語音/音頻信息檢索系統(tǒng)是在元數(shù)據(jù)的基礎(chǔ)上建立音頻內(nèi)容索引的。
檢索階段:特定內(nèi)容的語音/音頻信息檢索系統(tǒng)的檢索階段,用戶輸入不同的查詢條件,系統(tǒng)只需在預(yù)處理階段生成的“元數(shù)據(jù)"內(nèi)容索引中,利用相關(guān)的元數(shù)據(jù)就可以完成對(duì)用戶所需內(nèi)容的檢索。
音視頻檢索系統(tǒng)作為一種綜合檢索模式,可以為上級(jí)領(lǐng)導(dǎo)和業(yè)務(wù)部門提供多模態(tài)的查詢,以便于監(jiān)管部門及時(shí)掌握輿情信息、視聽節(jié)目的傳播趨勢(shì)與動(dòng)態(tài)。為互聯(lián)網(wǎng)音視頻節(jié)目的監(jiān)管工作提供了有效的技術(shù)支持。