呂東澤
大慶油田房地產(chǎn)開(kāi)發(fā)有限責(zé)任公司,黑龍江大慶 163000
?
基于視頻流的圖像識(shí)別技術(shù)發(fā)展與應(yīng)用
呂東澤
大慶油田房地產(chǎn)開(kāi)發(fā)有限責(zé)任公司,黑龍江大慶 163000
摘 要首先針對(duì)流媒體環(huán)境下的圖像識(shí)別技術(shù)價(jià)值展開(kāi)分析,對(duì)于當(dāng)前流媒體圖像識(shí)別技術(shù)的主要應(yīng)用領(lǐng)域以及需求狀態(tài)加以說(shuō)明,而后從技術(shù)的角度針對(duì)當(dāng)前該領(lǐng)域中的幾種主要技術(shù)展開(kāi)討論,希望對(duì)于切實(shí)推動(dòng)加深認(rèn)識(shí)有積極價(jià)值。
關(guān)鍵詞視頻;流媒體;圖像識(shí)別;技術(shù)
流數(shù)據(jù)格式在當(dāng)前網(wǎng)絡(luò)環(huán)境中愈加常見(jiàn),其應(yīng)用范圍已經(jīng)突破了常規(guī)的傳媒以及安全領(lǐng)域,而進(jìn)入到了更多的應(yīng)用環(huán)境中,對(duì)應(yīng)的制作工作人員也不再限于相關(guān)專業(yè),更多專業(yè)和不專業(yè)的人參與到了流媒體的工作環(huán)境中來(lái)。這種情況,從客觀上要求在視頻流環(huán)境中引入更為自動(dòng)化的工作方式,從而實(shí)現(xiàn)對(duì)于相關(guān)工作的支持,其中圖像識(shí)別技術(shù)就是首要的需求之一。
圖像識(shí)別技術(shù)在流媒體領(lǐng)域中有著較高的應(yīng)用需求,主要的需求來(lái)源于對(duì)大量數(shù)據(jù)的有效存儲(chǔ)和閱讀,以及工業(yè)環(huán)境的實(shí)時(shí)監(jiān)控兩個(gè)方面。對(duì)于前者而言,由于流媒體本身的特征,決定了它在存儲(chǔ)和查找的時(shí)候都無(wú)法做到像傳統(tǒng)數(shù)據(jù)格式那樣的快捷有效,甚至于一直以來(lái)對(duì)于流媒體的存儲(chǔ)、歸類以及檢索,都要依賴于工作人員添加的標(biāo)簽才能完成,而這對(duì)于流媒體的相關(guān)操作效率的提升無(wú)疑有著不利影響。
當(dāng)前圖像識(shí)別領(lǐng)域的應(yīng)用已經(jīng)日趨成熟,流媒體本身由眾多的數(shù)據(jù)幀組成,因此在圖像識(shí)別技術(shù)成熟的基礎(chǔ)之上應(yīng)用到流媒體領(lǐng)域,無(wú)論從技術(shù)還是價(jià)值方面都有一定的積極價(jià)值。而從應(yīng)用的角度看,眾多領(lǐng)域都存在顯著需求,突出表現(xiàn)的幾個(gè)方面,包括流格式數(shù)據(jù)的存儲(chǔ)與檢索,安全領(lǐng)域的自動(dòng)識(shí)別應(yīng)用以及工業(yè)環(huán)境中對(duì)于數(shù)字儀表的自動(dòng)讀取,以及新聞視頻中的字幕信息自動(dòng)提取等。相對(duì)而言,當(dāng)前在安全和工業(yè)領(lǐng)域中的需求較為突出,并且也取得了矚目成果,但是從長(zhǎng)遠(yuǎn)的角度看,流格式數(shù)據(jù)的深入識(shí)別,必然能夠推動(dòng)其存儲(chǔ)與檢索的優(yōu)化,這對(duì)于帶動(dòng)流媒體在多個(gè)領(lǐng)域中的深入應(yīng)用都會(huì)存在積極意義。
當(dāng)前在流媒體領(lǐng)域中,圖像識(shí)別技術(shù)的發(fā)展已經(jīng)取得一定成果,依據(jù)不同領(lǐng)域中的需求狀況以及圖像特征,可以有多種技術(shù)供選用。在實(shí)際工作中,應(yīng)當(dāng)依據(jù)具體情況進(jìn)行選擇,才能獲取良好效果。
對(duì)于流媒體數(shù)據(jù)格式中的文字識(shí)別而言,常規(guī)的方法有基于邊緣、基于紋理、基于區(qū)域的三種主要工作方式。其中基于邊緣的識(shí)別方式,主要是在圖像中尋找垂直邊緣來(lái)對(duì)文字實(shí)現(xiàn)檢測(cè)。其主要的工作方式是先確定出圖像的邊緣,而后通過(guò)平滑濾波或形態(tài)學(xué)膨脹的方法來(lái)將邊緣連接成為文字塊,最終加以識(shí)別。此種工作方式表現(xiàn)出良好的工作效率,但是如果圖像背景復(fù)雜文字區(qū)域反差小,也會(huì)造成誤碼率偏高問(wèn)題的發(fā)生。而且基于紋理的識(shí)別方法,是利用圖像中的紋理特征去對(duì)比,從而確定一個(gè)像素點(diǎn)是否屬于文字區(qū)域。此種識(shí)別方式通用性較強(qiáng),不僅僅能夠?qū)崿F(xiàn)文字的識(shí)別,對(duì)于其他類型的圖像識(shí)別,諸如對(duì)運(yùn)動(dòng)物體等的識(shí)別也能發(fā)揮良好作用。但是此種工作方式在有效提取紋理信息的過(guò)程中可能會(huì)面臨較大運(yùn)算量,從而造成系統(tǒng)整個(gè)運(yùn)行緩慢,工作效率低下的問(wèn)題,并且無(wú)法抵御高噪影響。最后,基于區(qū)域的方法則是基于文字像素均存在相似顏色的架設(shè)而展開(kāi),此種工作方式可以對(duì)于新聞視頻中的文字進(jìn)行識(shí)別,但是無(wú)法對(duì)工業(yè)儀表等示值有效識(shí)別,整體效果和應(yīng)用領(lǐng)域都相對(duì)有限。
除去對(duì)于文字的識(shí)別,對(duì)人臉的識(shí)別同樣也是
當(dāng)前視頻流數(shù)據(jù)中圖像識(shí)別的重要的技術(shù)表現(xiàn)。相對(duì)于文字識(shí)別而言,人臉識(shí)別更為復(fù)雜,并且經(jīng)過(guò)了更漫長(zhǎng)的探索過(guò)程,至今都仍然處于不斷地完善之中。當(dāng)前在人臉識(shí)別領(lǐng)域中,比較常見(jiàn)的方式是為人臉建立起對(duì)應(yīng)的面部模型用于圖像中的識(shí)別和對(duì)比,實(shí)現(xiàn)匹配之后進(jìn)一步對(duì)其面部數(shù)據(jù)進(jìn)行分析和提取,最終實(shí)現(xiàn)識(shí)別。
無(wú)論是人臉識(shí)別,還是對(duì)于流媒體數(shù)據(jù)內(nèi)相關(guān)信息進(jìn)行識(shí)別,都需要必要的硬件以及軟件運(yùn)算能力加以支持。除此以外,系統(tǒng)本身的學(xué)習(xí)能力,作為圖像識(shí)別技術(shù)前進(jìn)的重要技術(shù)因素不容忽視。學(xué)習(xí)本身是系統(tǒng)的一種自適應(yīng)體現(xiàn),例如對(duì)視頻流字幕進(jìn)行定位的過(guò)程中,即便是同一場(chǎng)景也有可能會(huì)出現(xiàn)字幕的不一致問(wèn)題,包括位置以及大小、色彩等,都會(huì)發(fā)生變化,同樣的變化也會(huì)出現(xiàn)在工業(yè)環(huán)境中的儀表示值監(jiān)測(cè)領(lǐng)域,因此系統(tǒng)必須能夠?qū)崿F(xiàn)主動(dòng)學(xué)習(xí),才能切實(shí)展開(kāi)圖像識(shí)別。除此以外,人工智能等方面技術(shù)的深入應(yīng)用,對(duì)于流媒體系統(tǒng)中的圖像識(shí)別工作質(zhì)量提升同樣意義重大。而實(shí)際在展開(kāi)圖像識(shí)別的過(guò)程中,圖像數(shù)據(jù)的多幀平滑,以及多層前向反饋神經(jīng)網(wǎng)絡(luò)等技術(shù)的應(yīng)用,同樣也是推動(dòng)該領(lǐng)域工作效果提升的重要武器。
對(duì)于視頻流媒體的圖像識(shí)別,關(guān)系到社會(huì)工作的多個(gè)方面,其有效存儲(chǔ)和管理關(guān)系到數(shù)據(jù)挖掘和分析的技術(shù)實(shí)現(xiàn)效果,并且從效率方面有著不容忽視的影響,而圖像識(shí)別更是相關(guān)領(lǐng)域自動(dòng)化的堅(jiān)實(shí)基礎(chǔ)和有力保證。實(shí)際工作中需要依據(jù)具體情況來(lái)對(duì)眾多技術(shù)進(jìn)行選擇,確保能夠滿足準(zhǔn)確和效率兩個(gè)方面的均衡需求。
參考文獻(xiàn)
[1]黃萬(wàn)軍,尹寶才,陳通波,等.基于三維可變形模板的眼睛特征提取[J].計(jì)算機(jī)研究與發(fā)展,2002,39(4):495-501.
[2]李默,李弼程,鄧子健.新聞視頻主持人鏡頭的半屏幕檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2005(15):183-185.
[3]王旭智,向長(zhǎng)波,宋建中,等.實(shí)時(shí)字符識(shí)別在視頻讀表系統(tǒng)中的應(yīng)用[J].電子器件,2006,29(4):1334-1337.
作者簡(jiǎn)介:呂東澤,工作單位為大慶油田房地產(chǎn)開(kāi)發(fā)有限責(zé)任公司。當(dāng)前計(jì)算機(jī)相關(guān)技術(shù)與通信網(wǎng)絡(luò)的發(fā)展達(dá)到前所未有的高度,信息的消費(fèi)對(duì)于社會(huì)環(huán)境中的生產(chǎn)生活而言,已經(jīng)不僅僅是單純的提高效率,而是上升到了成為社會(huì)各類活動(dòng)必要支持的高度。而在網(wǎng)絡(luò)環(huán)境中的數(shù)據(jù)格式,也隨著相關(guān)技術(shù)的進(jìn)步有所變化,其中流媒體成為首當(dāng)其沖的重點(diǎn)所在。
中圖分類號(hào)TP3
文獻(xiàn)標(biāo)識(shí)碼A
文章編號(hào)2096-0360(2016)04-0026-01