徐巖柏
(運(yùn)城學(xué)院數(shù)學(xué)與信息技術(shù)學(xué)院,山西運(yùn)城 044000)
當(dāng)前教學(xué)環(huán)境與教學(xué)模式發(fā)生了巨大變革,越來越多的高校利用網(wǎng)絡(luò)信息技術(shù)將傳統(tǒng)面對(duì)面教學(xué)的課堂教學(xué)模式同網(wǎng)絡(luò)教學(xué)模式有機(jī)結(jié)合[1],在高校教育過程中引入教學(xué)視頻資源,以此改善傳統(tǒng)教學(xué)模式,完善教學(xué)資源[2]。但由于教學(xué)資源的海量性,對(duì)教學(xué)資源管理系統(tǒng)提出更高要求,令教學(xué)資源管理問題成為當(dāng)前教育領(lǐng)域中的熱點(diǎn)問題。
國(guó)內(nèi)外的學(xué)者對(duì)于海量教學(xué)資源的管理進(jìn)行深入研究,得到了一定的研究成果,例如Yan[3]將微技術(shù)與教學(xué)視頻資源管理相結(jié)合,設(shè)計(jì)基于微技術(shù)的教學(xué)視頻資源管理系統(tǒng)。有學(xué)者利用智能視頻識(shí)別技術(shù)對(duì)海量視頻進(jìn)行管理,提升視頻內(nèi)容的檢測(cè)精度[4]。但上述文獻(xiàn)中所設(shè)計(jì)的系統(tǒng)在設(shè)計(jì)過程中均忽略了視頻資源的海量性,導(dǎo)致教學(xué)視頻資源管理性能受到一定限制。
大數(shù)據(jù)領(lǐng)域內(nèi)每年都會(huì)產(chǎn)生較多的新技術(shù),成為大數(shù)據(jù)處理與分析的有效方式??紤]教學(xué)視頻的海量性特征,采用大數(shù)據(jù)分析技術(shù)能夠有效提升教學(xué)視頻管理的性能?;诖嗽O(shè)計(jì)基于大數(shù)據(jù)分析的海量教學(xué)視頻資源管理系統(tǒng)。
基于大數(shù)據(jù)分析的海量教學(xué)視頻資源管理系統(tǒng)中考慮教學(xué)視頻資源的海量性,通過由認(rèn)證服務(wù)、代理服務(wù)和存儲(chǔ)服務(wù)共同構(gòu)成的云存儲(chǔ)平臺(tái)完成教學(xué)視頻資源管理。系統(tǒng)整體采用“模型—視圖—控制器”研發(fā)模式設(shè)計(jì)架構(gòu)[5],整體架構(gòu)如圖1所示。
圖1 系統(tǒng)整體架構(gòu)
為保障實(shí)際運(yùn)行過程中系統(tǒng)內(nèi)部的穩(wěn)定性與協(xié)調(diào)性,將系統(tǒng)整體劃分為應(yīng)用表現(xiàn)層、服務(wù)中間層、云存儲(chǔ)層以及采集層四個(gè)層次,采集層的主要功能是采集教學(xué)視頻資源,所采集視頻資源存儲(chǔ)于云存儲(chǔ)層內(nèi);云存儲(chǔ)層內(nèi)主要包括業(yè)務(wù)流程數(shù)據(jù)、教學(xué)視頻數(shù)據(jù)等,為服務(wù)中間層內(nèi)的各項(xiàng)服務(wù)提供數(shù)據(jù)支撐;服務(wù)中間層包括應(yīng)用服務(wù)與應(yīng)用服務(wù)引擎兩部分,通過應(yīng)用表現(xiàn)層的web 應(yīng)用為用戶提供用戶管理、文件管理以及教學(xué)視頻資源管理等服務(wù)。系統(tǒng)各層次之間既相互獨(dú)立,又緊密相連,在必要條件下實(shí)施數(shù)據(jù)交互,由此實(shí)現(xiàn)教學(xué)視頻資源管理。
采集層的主要功能是通過教學(xué)視頻采集模塊采集教學(xué)視頻資源。教學(xué)視頻采集模塊設(shè)計(jì)過程中不僅要確保所設(shè)計(jì)的模塊可有效穩(wěn)定地采集教學(xué)視頻數(shù)據(jù),還要確保所采集的教學(xué)視頻數(shù)據(jù)能夠壓縮并傳輸至云存儲(chǔ)層內(nèi)進(jìn)行存儲(chǔ)[6]。并且教學(xué)視頻采集模塊設(shè)計(jì)過程中還要考慮教學(xué)視頻信號(hào)數(shù)據(jù)時(shí)序要求、采集速度與海量數(shù)據(jù)等實(shí)際情況[7]。教學(xué)視頻采集模塊結(jié)構(gòu)框圖如圖2 所示。教學(xué)視頻采集模塊內(nèi)USB 攝像頭的主要功能是采集教學(xué)視頻,ARM S3C2410A 微處理器通過RS232串行數(shù)據(jù)通信接口標(biāo)準(zhǔn)控制教學(xué)視頻數(shù)據(jù)的采集與傳輸,嵌入式Linux 操作系統(tǒng)和所采集的教學(xué)視頻數(shù)據(jù)存儲(chǔ)于同步動(dòng)態(tài)隨機(jī)存取內(nèi)存與FLASH 擴(kuò)展存儲(chǔ)器內(nèi),通過通用異步收發(fā)傳輸器接口與USB 接口完成該模塊與系統(tǒng)間的通信連接,最終存儲(chǔ)于云存儲(chǔ)層內(nèi)。整個(gè)教學(xué)視頻數(shù)據(jù)采集過程中,不僅能夠確保數(shù)據(jù)采集的有效性與可靠性,同時(shí)還能夠滿足教學(xué)視頻信號(hào)數(shù)據(jù)的時(shí)序性要求與數(shù)據(jù)采集的實(shí)時(shí)性要求。
圖2 教學(xué)視頻采集模塊結(jié)構(gòu)圖
ARM S3C2410A 微處理器內(nèi)包含USB1.1 接口,該接口支持兩種不同的傳輸速率[8]:1.5Mbps 的低速傳輸與12Mbps 的高速傳輸。通過USB1.1 接口標(biāo)準(zhǔn)變化生成USB2.0 標(biāo)準(zhǔn),其傳輸速率高達(dá)480Mbps,能夠達(dá)到大部分外界設(shè)備的速率標(biāo)準(zhǔn),并且兩個(gè)接口標(biāo)準(zhǔn)通過同一驅(qū)動(dòng)程序驅(qū)動(dòng),不存在無法兼容的問題。圖3為BUB接口電路原理圖。
圖3 BUB接口電路原理圖
圖3USB 主機(jī)接口與設(shè)備接口間的切換通過J23完成,D-與D+分別連接DN1 與微處理器的DP1,COM6AP為BSU數(shù)碼攝像頭連接接口。
作為系統(tǒng)的核心環(huán)節(jié),服務(wù)中間層內(nèi)的教學(xué)視頻資源管理考慮教學(xué)視頻的海量性,將具體管理過程分為預(yù)處理、分布式處理以及數(shù)據(jù)合并三個(gè)環(huán)節(jié)[9]:
(1)預(yù)處理環(huán)節(jié):對(duì)教學(xué)視頻資源實(shí)施視頻切割,視頻幀提取等預(yù)處理,并將預(yù)處理后所得數(shù)據(jù)傳輸至Hadoop分布式文件系統(tǒng)HDFS內(nèi);
(2)分布式處理環(huán)節(jié);針對(duì)HDFS 內(nèi)的教學(xué)視頻數(shù)據(jù)實(shí)施分布式處理;
(3)數(shù)據(jù)合并環(huán)節(jié):將分布式處理后的數(shù)據(jù)進(jìn)行合并。
圖4 為教學(xué)視頻資源管理流程。所示的三個(gè)環(huán)節(jié)中包含較多進(jìn)程,其中教學(xué)視頻切割進(jìn)程為Video Cut(全部大于HDFS塊的教學(xué)視頻均需被切割成若干個(gè)小于HDFS 塊的視頻)。由于Hadoop 使用的切割方式為物理切割[10],這種切割較為適于云存儲(chǔ)平臺(tái)使用,但對(duì)于視頻處理來說并不合適,因?yàn)榻虒W(xué)視頻資源的文件結(jié)構(gòu)與文本或圖像的文件結(jié)構(gòu)具有顯著差異性,其中包含教學(xué)視頻資源的主要信息,如基礎(chǔ)信息、數(shù)據(jù)塊索引等。通過物理切割方式切割教學(xué)視頻將導(dǎo)致其不能有效播放。因此系統(tǒng)中采用MP4Box 圖形化工具切分教學(xué)視頻數(shù)據(jù),滿足Hadoop使用需求。視頻幀提取與視頻合并的進(jìn)程分別為Video Frame 和Video Merge,在全部視頻處理作業(yè)結(jié)束后,通過視頻合并將全部待合并的視頻分片由HDFS 內(nèi)下載至本地后根據(jù)視頻處理順序完成視頻合并[11]。
圖4 教學(xué)視頻資源管理流程
考慮到教學(xué)視頻大數(shù)據(jù)的海量性,系統(tǒng)內(nèi)采用基于深度神經(jīng)網(wǎng)絡(luò)與內(nèi)容檢索的教學(xué)視頻推薦算法根據(jù)用戶實(shí)際情況向用戶推薦可用的教學(xué)視頻,具體過程如下。x={x1,x2,…,xm} 和y={y1,y2,…,yn} 分別表示用戶屬性和教學(xué)視頻的屬性,其中xi和yi分別為用戶的屬性和教學(xué)視頻的屬性。將x={x1,x2,…,xm} 和y={y1,y2,…,yn} 輸入至基于深度學(xué)習(xí)與內(nèi)容檢索的推薦模型內(nèi),獲取用戶與教學(xué)視頻的屬性特征向量和:
式中w、b和f()分別為權(quán)重、偏置和激活函數(shù)。
通過concatenate()函數(shù)融合用戶與教學(xué)視頻的不同屬性特征獲取用戶與教學(xué)視頻特征,得到ui和sj:
基于深度神經(jīng)網(wǎng)絡(luò)與內(nèi)容檢索的教學(xué)視頻推薦算法中卷積神經(jīng)網(wǎng)絡(luò)的主要功能是由教學(xué)視頻文本信息內(nèi)采集教學(xué)視頻的文本特征。將卷積神經(jīng)網(wǎng)絡(luò)定義為一個(gè)函數(shù),在其中輸入教學(xué)視頻的文本信息,由此得到教學(xué)視頻文本信息j的特征向量tj:
式中,W和Yj分別為全部的權(quán)重與偏置變量和教學(xué)視頻j的文本信息。
基于式(2)內(nèi)教學(xué)視頻屬性特征和式(3)內(nèi)教學(xué)視頻文本信息特征向量能夠得到教學(xué)視頻j的特征vj為:
基于式(2)所示的用戶屬性特征uj與式(4)所得的vj,利用多層感知機(jī)實(shí)現(xiàn)預(yù)測(cè)評(píng)分。將用戶與教學(xué)視頻特征融合后輸入多層感知機(jī)內(nèi)作為輸入向量x0,輸入向量經(jīng)過多層感知機(jī)若干層輸出后得:
通過模型能夠得到預(yù)測(cè)評(píng)分,公式描述如下:
依照上述過程所得的預(yù)測(cè)評(píng)分由高至低生成圖鑒列表,向用戶推薦滿足其實(shí)際需求的教學(xué)視頻。
為驗(yàn)證本文系統(tǒng)的實(shí)際管理性能,以某平臺(tái)教學(xué)視頻資源為實(shí)驗(yàn)對(duì)象,采用本文系統(tǒng)對(duì)其進(jìn)行管理,所得結(jié)果如下。
系統(tǒng)中對(duì)于教學(xué)視頻資源進(jìn)行管理過程中采用MP4Box 圖形化工具切分教學(xué)視頻數(shù)據(jù),對(duì)切分后的教學(xué)視頻數(shù)據(jù)進(jìn)行分布式處理,滿足海量教學(xué)視頻管理需求。
圖5所示為系統(tǒng)對(duì)視頻切割大小的測(cè)試結(jié)果,其中用于測(cè)試的視頻大小分別為100 MB、500 MB、1 GB和2 GB,4 份教學(xué)視頻資源均經(jīng)過預(yù)處理、視頻幀提取、人臉檢測(cè)以及文本生成等不同處理環(huán)節(jié)。將4份教學(xué)視頻資源分別切割為10 MB、20 MB、…、70 MB大小,測(cè)試不同大小的教學(xué)視頻資源處理時(shí)間。分析圖5 得到,系統(tǒng)中將四份教學(xué)視頻資源分割為10 MB 和20 MB 條件下,教學(xué)視頻資源處理所花費(fèi)的時(shí)間差異較小,均控制在0.1 s 以內(nèi)。當(dāng)教學(xué)視頻資源被劃分為30 MB 時(shí),4 份教學(xué)視頻資源處理所花費(fèi)的時(shí)間顯著上升。考慮到視頻分割量與后續(xù)視頻合并的效率得到,在教學(xué)視頻資源處理過程中將教學(xué)視頻資源分割為20 MB大小較為合理。
圖5 視頻切割大小測(cè)試結(jié)果
系統(tǒng)中采用基于深度神經(jīng)網(wǎng)絡(luò)與內(nèi)容檢索的教學(xué)視頻推薦算法向用戶推薦滿足用戶自身實(shí)際需求的教學(xué)視頻資源。為測(cè)試系統(tǒng)的教學(xué)視頻推薦性能,以歸一化折損累積增益與命中率為評(píng)估指標(biāo)評(píng)估本文系統(tǒng)教學(xué)視頻推薦性能。命中率指標(biāo)的計(jì)算公式如下:
式中,p∈testsrt&p∈RN和testsrt分別表示測(cè)試集內(nèi)教學(xué)視頻資源同時(shí)處于推薦集合內(nèi)和測(cè)試集數(shù)量。命中率越高說明系統(tǒng)所使用推薦算法推薦性能更好。
歸一化折損累積增益主要評(píng)估的是排序位置的敏感性,計(jì)算公式如下:
式中,DCGn為折損累積增益,其可通過獲取,其中,表示第i個(gè)教學(xué)視頻資源同用戶間的關(guān)聯(lián)度。在實(shí)驗(yàn)過程中設(shè)定教學(xué)視頻資源為正樣本與負(fù)樣本條件下的關(guān)聯(lián)度分別為1 和0,若關(guān)聯(lián)度越高的教學(xué)視頻資源排序越靠前,則DCGn值越高。IDCGn表示預(yù)期的DCGn值。指標(biāo)值越高說明教學(xué)視頻資源推薦列表內(nèi)關(guān)聯(lián)性越高的排序越靠前,即推薦算法性能越好。
為測(cè)試推薦列表內(nèi)教學(xué)視頻資源數(shù)量對(duì)教學(xué)視頻資源推薦效果的影響,設(shè)定推薦列表內(nèi)教學(xué)視頻資源數(shù)量分別為5,10,15,20,30,50,100,分別由兩個(gè)評(píng)估指標(biāo)出發(fā)評(píng)價(jià)系統(tǒng)中的推薦算法性能,所得結(jié)果如圖6。分析圖6 得到,在推薦列表內(nèi)教學(xué)視頻資源數(shù)量逐漸提升的條件下,系統(tǒng)推薦算法的兩個(gè)評(píng)估指標(biāo)值在整體均呈現(xiàn)逐漸上升的趨勢(shì)。在推薦列表內(nèi)教學(xué)視頻資源數(shù)量由15 個(gè)提升至20 個(gè)的條件下,歸一化折損累積增益指標(biāo)值顯著提升,之后提升幅度變緩;在推薦列表內(nèi)教學(xué)視頻資源數(shù)量由20個(gè)提升至30個(gè)的條件下,命中率指標(biāo)值顯著提升,之后提升幅度變緩。綜合之下得到,系統(tǒng)針對(duì)不同用戶推薦的教學(xué)視頻資源數(shù)量應(yīng)為20~30個(gè)較為合適,在該推薦數(shù)量條件下能夠取得較好的推薦性能。
圖6 測(cè)試結(jié)果
系統(tǒng)內(nèi)通過Set 命令和Get 命令分別實(shí)現(xiàn)以鍵值對(duì)形式將教學(xué)視頻數(shù)據(jù)存儲(chǔ)于云存儲(chǔ)層和獲取相應(yīng)鍵對(duì)應(yīng)教學(xué)視頻數(shù)據(jù)的目的。為測(cè)試系統(tǒng)的云存儲(chǔ)性能,分別測(cè)試上述兩個(gè)命令的吞吐量上限與可支持并發(fā)數(shù)上限,并發(fā)數(shù)越大說明系統(tǒng)可同時(shí)處理的命令越多。測(cè)試所得結(jié)果如表1 和圖7 所示。分析表1 得到,Set 命令與Get 命令的吞吐量上限分別為85 046和108 936,在并發(fā)數(shù)有所差異的條件下,兩者吞吐量上限波動(dòng)較小。分析圖7 得到在并發(fā)數(shù)之間提升的條件下,兩個(gè)命令的響應(yīng)時(shí)間均表現(xiàn)為線性提升的趨勢(shì),這是由于在并發(fā)數(shù)量逐漸提升的條件下,系統(tǒng)需同時(shí)處理的命令數(shù)量也逐漸提升,但系統(tǒng)節(jié)點(diǎn)的處理性能是不變的,因此造成部分命令被注視,令系統(tǒng)命令的響應(yīng)時(shí)間延長(zhǎng)。測(cè)試結(jié)果說明系統(tǒng)可同時(shí)處理大量命令,具有較高的吞吐量。
圖7 命令響應(yīng)時(shí)間隨并發(fā)數(shù)波動(dòng)情況
表1 吞吐量上限
設(shè)計(jì)大數(shù)據(jù)分析的海量教學(xué)視頻資源管理系統(tǒng),通過由認(rèn)證服務(wù)、代理服務(wù)和存儲(chǔ)服務(wù)共同構(gòu)成的云存儲(chǔ)平臺(tái)完成教學(xué)視頻資源管理,并通過實(shí)驗(yàn)驗(yàn)證了系統(tǒng)的管理性能。系統(tǒng)雖實(shí)現(xiàn)了功能,但測(cè)試環(huán)境僅為局域網(wǎng)小范圍內(nèi)本文的分布式部署,尚未最大限度體現(xiàn)分布式集群優(yōu)勢(shì),因此在后續(xù)優(yōu)化過程中將針對(duì)這一點(diǎn)進(jìn)行深入研究。