賈孟君 霍精民
現(xiàn)階段我國絕大多數(shù)廣播電視發(fā)射臺(tái)都采用有人值守,值機(jī)員的任務(wù)就是用眼觀、耳聽、鼻聞、手觸等感官監(jiān)視發(fā)射機(jī)及其附屬設(shè)備的運(yùn)行狀態(tài)和信號(hào)傳送質(zhì)量,完全依賴值班人員的判斷來保證播出的安全。但在長時(shí)間的值機(jī)過程中,人難免會(huì)出現(xiàn)疲勞且注意力不集中的情況,一旦發(fā)生播出事故,很難在值機(jī)的全部過程中做到第一時(shí)間作出反應(yīng),所以需要輔助工具。如果能有一套識(shí)別監(jiān)視信號(hào)異常功能的系統(tǒng)幫助值機(jī)員進(jìn)行監(jiān)控,對(duì)廣電的安全播出將會(huì)有極大的保障。本文利用深度學(xué)習(xí)的技術(shù),改善值機(jī)系統(tǒng),將人工與智能監(jiān)控進(jìn)行結(jié)合,推進(jìn)廣電值機(jī)系統(tǒng)的智能化,逐步向“智慧機(jī)房”邁進(jìn)。
人工智能(AI)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的關(guān)系如圖1所示,在深度學(xué)習(xí)之前,人們一般用傳統(tǒng)的機(jī)器學(xué)習(xí)算法,如支持向量機(jī)(SVM)、決策樹等等,這些淺層的學(xué)習(xí)方法僅僅是將輸入數(shù)據(jù)變換到一兩個(gè)連續(xù)的表示空間,通常使用簡單的變換,這些技術(shù)雖然有著非常成熟和完整的數(shù)學(xué)理論基礎(chǔ),但這些技術(shù)通常無法得到復(fù)雜問題所需要的精確表示。因此,人們必須竭盡全力讓初始輸入數(shù)據(jù)更適合用這些方法處理,也必須手動(dòng)為數(shù)據(jù)設(shè)計(jì)好的表示層,這叫作特征工程。然而實(shí)踐證明,在復(fù)雜的環(huán)境下,手動(dòng)的特征工程往往不能得到一個(gè)很好的表示。與此相反,這個(gè)步驟在深度學(xué)習(xí)里面是完全自動(dòng)化的,也就是并不需要手動(dòng)設(shè)計(jì),是一個(gè)簡單的、端到端的學(xué)習(xí)模型。
圖1 人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)關(guān)系
深度學(xué)習(xí)的深,是指神經(jīng)網(wǎng)絡(luò)的層數(shù)深,能否用傳統(tǒng)的淺層表示方法,重復(fù)使用從而達(dá)到深度學(xué)習(xí)的效果呢?這個(gè)是不行的,深度學(xué)習(xí)的變革性在于,模型可以在同一時(shí)間共同學(xué)習(xí)所有表示層,而不是依次連續(xù)學(xué)習(xí)(這被稱為貪婪學(xué)習(xí))。通過共同的特征學(xué)習(xí),一旦模型修改某個(gè)內(nèi)部特征,所有依賴于該特征的其他特征都會(huì)相應(yīng)地自動(dòng)調(diào)節(jié)適應(yīng),無須人為干預(yù)。一切都由單一反饋信號(hào)來監(jiān)督:模型中的每一處變化都是為了最終目標(biāo)服務(wù)。這種方法比貪婪地疊加淺層模型更加強(qiáng)大,因?yàn)樗梢酝ㄟ^將復(fù)雜、抽象的表示拆解為很多個(gè)中間空間(層)來學(xué)習(xí)這些表示,每個(gè)中間空間僅僅是前一個(gè)空間的簡單變換。也就是說每一層都要考慮上下兩層的需要,這使得深度學(xué)習(xí)的表示能力比傳統(tǒng)的淺層學(xué)習(xí)更加強(qiáng)大。
早期的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于20世紀(jì)90年代,LeNet神經(jīng)網(wǎng)絡(luò)由深度學(xué)習(xí)三巨頭之一的Yan LeCun提出,應(yīng)用于手寫數(shù)字分類問題,并被當(dāng)時(shí)的美國郵政署采用,用于自動(dòng)讀取信封上的郵政編碼。但由于當(dāng)時(shí)缺乏大規(guī)模的訓(xùn)練數(shù)據(jù),計(jì)算機(jī)硬件的性能也較低,因此LeNet神經(jīng)網(wǎng)絡(luò)在處理復(fù)雜問題時(shí)效果并不理想。伴隨著當(dāng)時(shí)核方法、SVM、決策樹等方法的興起,人們很快將神經(jīng)網(wǎng)絡(luò)拋之腦后。但真正的轉(zhuǎn)折性時(shí)刻出現(xiàn)在2012年,當(dāng)年Hinton小組參加了每年一次的大規(guī)模圖像分類挑戰(zhàn)賽ImageNet。ImageNet挑戰(zhàn)賽在當(dāng)時(shí)以困難著稱,參賽者需要對(duì)140萬張高分辨率彩色圖像進(jìn)行訓(xùn)練,然后將其劃分到1000個(gè)不同的類別中。2011年,獲勝的模型基于經(jīng)典的計(jì)算機(jī)視覺方法,其top-5精度只有74.3%。到2012年,由Alex Krizhevsky帶領(lǐng)并由Geoffrey Hinton提供建議的小組,實(shí)現(xiàn)了83.6%的top-5精度——這是一項(xiàng)重大突破。此后,這項(xiàng)競賽每年都由深度卷積神經(jīng)網(wǎng)絡(luò)所主導(dǎo)。到了2015年,獲勝者的精度達(dá)到了96.4%,此時(shí)ImageNet的分類任務(wù)被認(rèn)為是一個(gè)已經(jīng)完全解決的問題。自2012年以來,深度卷積神經(jīng)網(wǎng)絡(luò)(convnet)已成為所有計(jì)算機(jī)視覺任務(wù)的首選算法。更一般地說,它在所有感知任務(wù)上都有效。在2015年和2016年的主要計(jì)算機(jī)視覺會(huì)議上,幾乎所有演講都與convnet有關(guān)。與此同時(shí),深度學(xué)習(xí)也在許多其他類型的問題上得到應(yīng)用,比如自然語言處理。它已經(jīng)在大量應(yīng)用中完全取代了SVM與決策樹。舉個(gè)例子,歐洲核子研究中心(CERN)多年來一直使用基于決策樹的方法來分析來自大型強(qiáng)子對(duì)撞機(jī)(LHC)ATLAS探測(cè)器的粒子數(shù)據(jù),但CERN最終轉(zhuǎn)向基于Keras的深度神經(jīng)網(wǎng)絡(luò),因?yàn)樗男阅芨?,而且在大型?shù)據(jù)集上易于訓(xùn)練。
卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和目標(biāo)檢測(cè)領(lǐng)域應(yīng)用地非常廣泛,我們首先可以用其圖像檢測(cè)功能,從外部來檢測(cè)值機(jī)時(shí)用的監(jiān)控視頻里面有沒有信號(hào)或信號(hào)異常。從外部檢測(cè)是用一個(gè)攝像頭對(duì)畫面進(jìn)行實(shí)時(shí)識(shí)別,將攝像頭捕捉到的畫面進(jìn)行分幀處理,形成一幀一幀的圖片,對(duì)分幀后的圖片進(jìn)行圖像識(shí)別,如若圖像里面有內(nèi)容,則繼續(xù)進(jìn)行下一幀的識(shí)別,如若圖像里面沒有內(nèi)容,完全是黑的,則發(fā)出異常的警報(bào)。這其實(shí)就是一個(gè)二分類的過程,我們可以對(duì)這兩類數(shù)據(jù)進(jìn)行標(biāo)簽,在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的時(shí)候,首先對(duì)這兩類數(shù)據(jù)進(jìn)行大量的收集,這個(gè)數(shù)據(jù)其實(shí)就是機(jī)房的監(jiān)示器圖像,一種是正常的,一種是出現(xiàn)異常的(如:屏幕全部變黑),將收集到的數(shù)據(jù)分開存放,并用這些數(shù)據(jù),對(duì)要使用的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直至訓(xùn)練集和驗(yàn)證集的錯(cuò)誤率減小并收斂,準(zhǔn)確率增大并收斂。
有些電視中場景的轉(zhuǎn)場本來就是全黑的,這個(gè)時(shí)候卷積神經(jīng)網(wǎng)絡(luò)反而有很大概率會(huì)判定其沒有畫面,是異常情況。這種情況,僅僅通過圖像識(shí)別,很容易錯(cuò)誤地對(duì)圖像進(jìn)行分類,從而發(fā)出誤判的警報(bào)。所以這個(gè)時(shí)候我們還需要對(duì)電視中的臺(tái)標(biāo)進(jìn)行一個(gè)識(shí)別。臺(tái)標(biāo)一般在屏幕左上角,如果畫面中沒有臺(tái)標(biāo)或者是錯(cuò)誤的臺(tái)標(biāo),則系統(tǒng)馬上發(fā)出異常的警報(bào);如果畫面是全黑,但左上角檢測(cè)出有臺(tái)標(biāo),系統(tǒng)依然會(huì)判定這種是正常的情況。對(duì)臺(tái)標(biāo)我們用目標(biāo)檢測(cè)的方法,目前,基于深度學(xué)習(xí)算法的一系列目標(biāo)檢測(cè)算法大致可以分為兩大流派:1.兩步走(two-stage)算法:先產(chǎn)生候選區(qū)域然后進(jìn)行CNN分類(RCNN系列);2.一步走(one-stage)算法:直接對(duì)輸入圖像應(yīng)用算法并輸出類別和相應(yīng)的定位(YOLO系列)。電視臺(tái)的值機(jī)監(jiān)控系統(tǒng),一般會(huì)有幾個(gè)甚至十幾個(gè)屏幕,因此需要一個(gè)對(duì)多目標(biāo)檢測(cè)比較好的模型。又因?yàn)橹禉C(jī)人員要在很短的時(shí)間內(nèi)發(fā)現(xiàn)異常,因此還需要系統(tǒng)識(shí)別的實(shí)時(shí)性非常的好,所以我們這里推薦用YOLOv4模型對(duì)臺(tái)標(biāo)進(jìn)行檢測(cè)。該目標(biāo)檢測(cè)的數(shù)據(jù)集,依然可以用之前圖像識(shí)別收集到的數(shù)據(jù),只需要對(duì)每個(gè)圖像上的臺(tái)標(biāo)進(jìn)行一個(gè)標(biāo)記即可。總體步驟如圖2所示。
圖2 總體識(shí)別步驟
無論是圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)還是YOLOv4模型,都需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。不同機(jī)房前排的監(jiān)控布局是不一樣的,所以需要對(duì)不同的機(jī)房,訓(xùn)練特定的卷積神經(jīng)網(wǎng)絡(luò)。我們建議對(duì)機(jī)房監(jiān)控進(jìn)行錄像,每種類別的錄像的時(shí)長最好大于30分鐘,并且錄像的時(shí)間應(yīng)該分開為早、中、晚各錄一次,機(jī)房開燈、關(guān)燈時(shí)各錄一次,晴天和陰天各錄一次,以此獲得數(shù)據(jù)的多樣性,可以使神經(jīng)網(wǎng)絡(luò)適應(yīng)環(huán)境的變化。將錄好的視頻進(jìn)行分幀,每4幀提取以此圖像,假設(shè)每秒是24幀,這樣30分鐘就可以獲取30×60×(24/4)=10800張圖像,對(duì)于訓(xùn)練其中任何一種情況是夠了的。
我們提出利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別,用YOLOv4網(wǎng)絡(luò)對(duì)臺(tái)標(biāo)進(jìn)行目標(biāo)檢測(cè),這樣可以在不用更換硬件設(shè)備的前提下,進(jìn)一步提升值機(jī)的效率,即使后期廣電更新了硬件設(shè)備,我們也只需要對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行重新的訓(xùn)練即可。因此利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行輔助值機(jī),不僅可以提高播送的安全性,還節(jié)省了硬件的成本,并且訓(xùn)練數(shù)據(jù)在機(jī)房是極其容易獲得的。
建設(shè)“智慧機(jī)房”、實(shí)現(xiàn)無人值機(jī)是廣播電視發(fā)射技術(shù)升級(jí)的必然趨勢(shì),人工智能、深度學(xué)習(xí)的應(yīng)用將發(fā)揮積極作用。