劉佶鑫,韓光,楊海根,孫寧
(南京郵電大學 寬帶無線通信技術(shù)教育部工程研究中心,南京 210003)
新冠大流行的產(chǎn)生與持續(xù)導致中國學校教學的授課形式發(fā)生了根本改變,過去作為輔助手段的在線教學(也可稱為在線課堂)已經(jīng)逐漸成為一種常態(tài)化的主要教學方式,特別是在各地區(qū)疫情嚴重的階段幾乎是不可替代的選擇。因此,認識和研究在線教學過程的新矛盾、新問題是必要且緊迫的。在傳統(tǒng)課堂上,教師講授的同時可以通過觀察學生群體的專注程度,達到評估教學方法是否得當?shù)哪康?,進而實時調(diào)整教育技術(shù)來提高整體授課質(zhì)量。無疑,這種師生雙向的教學狀況實時交互是重要且必須的,但是該過程在向在線課堂遷移的過程中卻產(chǎn)生了新的困難和挑戰(zhàn)。當前主流在線教學的本質(zhì)是視頻會議[1],其實施過程天然地將教與學分為了2條途徑:一方面,相比于傳統(tǒng)課堂,在線教學中從教師到學生方向的講授過程無疑是有效且通透的,能夠基本達到傳統(tǒng)課堂的功能替代;但是,另一方面,在線教學過程中從學生到教師方向的學習狀態(tài)實時反饋則存在明顯的不足、甚至缺失,而這對于教學質(zhì)量的負面影響可能很大。對此,本研究嘗試運用團隊前期面向居家場景提出的視覺隱私保護模型,設(shè)計一套適于視覺隱私保護視頻數(shù)據(jù)的學生專注度監(jiān)測系統(tǒng),通過兼顧解決學生隱私安全、教師監(jiān)管智能化、以及網(wǎng)絡(luò)傳輸應(yīng)用效率等現(xiàn)有模式的應(yīng)用痛點,達到在線課堂的教學質(zhì)量提升目的。
在線教學的技術(shù)本質(zhì)源于視頻會議,但是其對于學生專注度的監(jiān)管方式則相當于視頻監(jiān)控的一種應(yīng)用拓展。理論上,視頻會議的主體雙方都有各自的任務(wù),演講者側(cè)重于發(fā)言,參與者側(cè)重于聆聽;而在視頻監(jiān)控中,主體任務(wù)則偏重于監(jiān)視者這邊,被監(jiān)視者相對沒有任務(wù)要求。但是,對于在線教學的教師,除了要完成教學發(fā)言(即視頻會議的任務(wù))之外,還需關(guān)注學生狀態(tài)(即視頻監(jiān)控的任務(wù)),這相比于傳統(tǒng)課堂而言是較為難以兼顧的。
事實上,在線教學的學生專注度研究已經(jīng)成為國內(nèi)外相關(guān)領(lǐng)域的關(guān)注熱點。近年來,國際上的代表研究主要有:Monkaresi 等人[2]通過表情和心率的視頻人臉評估嘗試解決在線教學學生專注度監(jiān)測。Bhardwaj 等人[3]針對電子學習環(huán)境下學生專注度運用深度學習進行了相關(guān)研究。Hasnine 等人[4]以學生情緒提取與可視化來實施在線學習的專注度檢測。Liu 等人[5]將情緒與認知專注度檢測用于慕課的教學目標達成預(yù)判。國內(nèi)同類研究的代表成果包括:李振華等人[6]引入模型集成的思路來處理在線學習投入度評測。付長鳳[7]基于“課堂在線”微課平臺開展了學習投入度的相關(guān)研究。左國才等人[8]選擇了深度學習模型進行學生課題參與行為研究。
綜上可見,現(xiàn)有在線教學的專注度監(jiān)測實際就是視頻監(jiān)控和視頻會議的綜合應(yīng)用。但是,這種典型的實時視頻流交互監(jiān)管模式與傳統(tǒng)教學模式之間是存在矛盾的,概括講有3 個主要方面:
(1)不符合學生的居家聽課形式。在線課堂能夠替代教師向?qū)W生講授的過程,但是并不能替代傳統(tǒng)課堂環(huán)境,特別是疫情期間多名學生同在宿舍或與家人共處一室等情況普遍存在,讓學生全程開啟語音視頻有時并不適宜可行。
(2)不符合教師的在線教學形式。即便學生能夠全程語音視頻,但是教師講授課程的同時也很難像傳統(tǒng)課堂一樣通過視覺直觀地兼顧大規(guī)模學生的聽課狀況,有必要提供能夠替代人眼監(jiān)測的輔助手段。
(3)不符合國內(nèi)現(xiàn)有常規(guī)網(wǎng)絡(luò)環(huán)境。在線課堂中教師與學生如果想模擬正常情況的視覺交互,其數(shù)十或上百人的實時視頻碼流傳輸對帶寬資源消耗很大,這對于目前手機或電腦設(shè)備動輒1 080 p、甚至4 k的攝像頭配置也是不小的挑戰(zhàn),尤需指出的是教師人眼監(jiān)測的低效執(zhí)行難以匹配這種數(shù)據(jù)開銷的高昂代價。
針對上述問題,本研究通過引入多層壓縮感知視覺隱私保護機制用以實現(xiàn)學生居家隱私保護和視頻數(shù)據(jù)降維保真的平衡,進而輔助教師達到視覺隱私保護數(shù)據(jù)態(tài)下在線教學過程學生專注度的高效智能監(jiān)測,系統(tǒng)架構(gòu)如圖1 所示。
圖1 本文系統(tǒng)的總體架構(gòu)Fig.1 General architecture of the proposed system in this paper
針對在線教學的視覺隱私保護學生專注度監(jiān)測需求,系統(tǒng)的宏觀架構(gòu)上劃分為視覺隱私保護編碼、人臉提取表征和專注度監(jiān)測共3 個模塊。具體來講,視覺隱私保護編碼模塊的任務(wù)在于實現(xiàn)在線教學視頻幀層面的視覺隱私保護編碼;人臉提取表征模塊是針對視覺隱私保護視頻幀進行人臉提取和特征融合兩方面任務(wù);專注度監(jiān)測模塊則側(cè)重于面向?qū)W生人臉視覺隱私保護特征實施智能化專注度監(jiān)測。
視覺隱私保護[9]是本團隊前期提出的一種針對圖像或視頻數(shù)據(jù)的隱私保護新概念,而多層壓縮感知模型是自主研究形成的一種實現(xiàn)視覺隱私保護編碼的理想工具。以此為基礎(chǔ),本次研究不僅解決了該理論從定性到定量的成熟優(yōu)化[10],而且已將其用于居家老人跌倒檢測等應(yīng)用問題[11],最新工作獲得了相關(guān)領(lǐng)域較高的學術(shù)認可[12]。因此,多層壓縮感知模型對于解決視覺隱私保護編碼的應(yīng)用需求具有天然的匹配優(yōu)勢。
相比于傳統(tǒng)壓縮感知采樣,其多層化擴展能夠在繼承數(shù)據(jù)高保真的同時大幅降低數(shù)據(jù)規(guī)模。經(jīng)典的壓縮感知采樣過程是類似如下的一套降維投影運算:
其中,x∈?N表示源信號;y表示感知數(shù)據(jù);觀測矩陣Φ為投影軸集合這里通過降維條件M <<N實現(xiàn)采樣壓縮集成。
雖然經(jīng)典壓縮感知采樣已具備了視覺隱私保護的可能,但是由于全局化的處理思路,使得數(shù)據(jù)狀態(tài)過于緊湊,從而缺乏應(yīng)對不同智能應(yīng)用的靈活性。為此,采取了一種寬松化程度更高的分塊壓縮感知編碼,即:
依托上式就形成了分塊壓縮感知采樣的單層模型,這就在理論上具備了傳統(tǒng)壓縮感知采樣的一系列同等屬性,并且能夠保障多層化擴展的智能化靈活度大幅提高。以壓縮感知中最為重要的有限等距約束為例,一種具現(xiàn)化的多層化擴展模型為:
此時原始的有限等距約束屬性將逐層繼承,可以保證多層擴展后的數(shù)據(jù)保真度幾乎等同于初始層采樣效果。圖2 給出了多層壓縮感知模型的機制示意,同時從人臉圖像的編碼實例可看出處理后的視覺隱私保護效果。
圖2 多層壓縮感知機制及視覺隱私保護效果示例Fig.2 Multilayer compressed sensing(MCS)mechanism and visual privacy protection(VPP)via MCS
本團隊的前期工作[9-10]表明,多層機制中3 層及以后的數(shù)據(jù)形態(tài)在主流主客觀視覺評價指標下都能達到較高的隱私保護等級,這意味著可將其作為一種優(yōu)質(zhì)經(jīng)驗?zāi)P陀糜陔[私需求迫切的智能應(yīng)用場景,事實上在居家跌倒檢測等問題上該思路已取得了良好驗證[11-12]。因此,本文將在延續(xù)上述思路的基礎(chǔ)上用其實現(xiàn)在線教學的視頻幀視覺隱私保護編碼。
視頻形態(tài)下人臉無疑是學生專注度的關(guān)鍵信息載體,對此相關(guān)研究[2]已經(jīng)給出了明確的論證和探討。事實上,相比于人臉整體,主流思路對于局部五官所蘊含的信息往往更加重視,這在情緒識別等關(guān)聯(lián)領(lǐng)域已經(jīng)形成了一定的共識[13-16]。因此,本環(huán)節(jié)的處理重點不僅要解決全局人臉的實時檢測,還需兼顧到局部五官的有效提取。
人臉檢測的本質(zhì)可以理解為目標檢測的一種特例,其中公認的經(jīng)典方法是Viola 等人[17]提出的VJ(Viola-Jones)檢測算法。該算法運用類Haar 特征結(jié)合級聯(lián)Adaboost 機制實現(xiàn)了快速高效的人臉檢測,憑借其優(yōu)異性能被廣泛應(yīng)用于手機等智能設(shè)備上。但是,VJ 為代表的傳統(tǒng)目標檢測大多依賴于手工設(shè)計特征,這對于自然場景等復雜情況明顯是存在缺陷的,因此深度學習等魯棒性更高的方法逐漸占據(jù)主流。在深度學習思路下,目前已形成了單階段和雙階段兩種代表思路。簡單講,單階段算法對目標的定位和分類一步完成,而雙階段則多了一個候選框生成的步驟。
一方面,考慮到本文的核心任務(wù)是專注度監(jiān)測,這就意味著對于人臉檢測的精確性要求是相對更重要的,因此選取深度學習的雙階段目標檢測算法更為契合。另一方面,視覺隱私保護編碼對視頻數(shù)據(jù)的視覺形態(tài)存在一定影響,對此傳統(tǒng)算法中弱分類器級聯(lián)強化的機制優(yōu)勢非常值得借鑒。綜合兩方面因素,Cascade RCNN[18]成為了能夠兼顧二者的理想方案。圖3 給出了Cascade RCNN 的架構(gòu)示意。圖3中,“I”表示輸入圖;“conv”表示主干網(wǎng)絡(luò);“pool”表示分區(qū)特征提取;“H”表示網(wǎng)絡(luò)頭;“B”表示邊界框;“C”表示分類器。由此架構(gòu)可見,Cascade RCNN在繼承典型雙階段目標檢測架構(gòu)的基礎(chǔ)上以級聯(lián)形式進行了拓展創(chuàng)新。
圖3 Cascade R-CNN 與典型雙階段目標檢測算法的架構(gòu)對比[18]Fig.3 Comparison between Cascade R-CNN and typical twostage target detection algorithm [18]
現(xiàn)有深度學習架構(gòu)(包括Cascade RCNN)在人臉提取中的有效性基本都是經(jīng)過實踐檢驗的,但是這些方法的成立大多存在一個潛在前提,即輸入的視頻幀序列應(yīng)當具備正常、甚至高清的視覺水平。然而,視覺隱私保護編碼在視覺層面產(chǎn)生的影響,會產(chǎn)生一個新的問題:視覺隱私保護視頻還能使用常規(guī)人臉提取工具嗎?事實上,多層壓縮感知的高保真優(yōu)勢,確保了視覺隱私保護人臉提取的天然可行性。在多層壓縮感知模型中,各層的編碼過程依然遵循了壓縮感知的所有基本特性,其中數(shù)據(jù)保真的關(guān)鍵依賴于觀測矩陣的有限等距屬性。針對公式(2),所謂有限等距約束是指各分塊觀測矩陣均滿足如下關(guān)系:
其中,δ為有限等距參數(shù)。
壓縮感知理論規(guī)定:觀測矩陣構(gòu)造方式是影響壓縮感知數(shù)據(jù)處理質(zhì)量的決定性要素,而觀測矩陣的優(yōu)劣主要通過有限等距屬性來反映。由于本團隊的分塊壓縮感知編碼機制[9-10]天然繼承了觀測矩陣的理論特性,因此視覺隱私保護視頻可視為原始視頻數(shù)據(jù)的一種高保真變體。換言之,面向原始視頻的目標提取算法同樣可適用于視覺隱私保護視頻幀形態(tài)。圖4 展示了Cascade RCNN 在原始態(tài)和視覺隱私保護編碼(3 層壓縮感知)下提取的全局和局部人臉效果。圖4(a)~(d)中,左邊圖像為原始態(tài),右邊圖像為視覺隱私保護。圖4中,圖4(a)和圖4(b)是單人情況,人臉全局保持一致,而局部五官即便在戴墨鏡的情況下也絕大部分一致;圖4(c)和圖4(d)是多人情況,在視覺隱私保護下畫面主目標的提取依然有效,其人臉全局和局部也均保持一致。
圖4 人臉目標提取示例Fig.4 Face object extraction examples
在獲得視覺隱私保護全局-局部人臉的基礎(chǔ)上,即可進入到智能數(shù)據(jù)處理階段。本質(zhì)上,該階段的學術(shù)內(nèi)核是典型的模式識別問題,因此特征描述和分類器設(shè)計是本階段難以回避的2 項重點任務(wù)。前一項任務(wù)中,關(guān)于視覺隱私保護人臉的特征描述,LBP(Local Binary Pattern)算子[19]是非常理想的選擇。無論是全局人臉、還是各個五官,相比于整個視頻幀來講都可以算作“局部”的范疇,因此采用LBP機制可獲得如下特征描述形式:
其中,gc為LBP 算子的窗口中心;gp為窗口中心的鄰居像素、即p=0,…,P -1;s()為二值化函數(shù)。對于單個圖像塊窗口半徑為R的P個鄰居點,LBP 算子的模式水平可達2P。顯然,對于多圖像塊融合的情況,特別是串聯(lián)融合的形式,經(jīng)典LBP 的特征維度將大幅增加,這還會導致數(shù)據(jù)的冗余度過高,從而影響智能監(jiān)測的性能。對此,本團隊前期工作[9-10]中已經(jīng)針對視覺隱私保護人臉引入了基于等價模式(Uniform Pattern)的LBP 改進。簡單講,針對經(jīng)典LBP 模式中0-1 或1-0 的跳變規(guī)律,將最多2 次跳變的情況定義為等價模式,從而形成特征維度的極大約減。新的特征描述形式如下:
這里函數(shù)U()滿足:
由此可將模式水平從2P降低至P(P -1)+1,從而在保持表征質(zhì)量的前提下達到維度約減的效果。
作為智能數(shù)據(jù)處理階段的另一個重要任務(wù),分類器設(shè)計也使得本研究進入到專注度智能監(jiān)測的后一項、數(shù)據(jù)處理關(guān)鍵環(huán)節(jié)。面向視覺降質(zhì)數(shù)據(jù)的分類任務(wù),稀疏識別方法具有獨特優(yōu)勢。視覺隱私保護人臉在隱私保護的同時,其典型的視覺特征往往存在不同程度的損失,如角點或邊緣等幾何特征。因此,不僅是特征提取需要采用紋理等魯棒性高的描述形式,分類器設(shè)計也應(yīng)以魯棒性優(yōu)勢為重點選取依據(jù)。在諸多分類器方案中,稀疏識別在人臉應(yīng)用中的高魯棒性特點是學術(shù)界較為公認的[20]。在相關(guān)領(lǐng)域,本團隊前期也有一定的積累[21-23],特別是針對特征融合的情況提出了魯棒性能較好的類字典學習方法。在本文研究的相關(guān)領(lǐng)域,目前可公開獲得的數(shù)據(jù)集中最符合需求的是由Kamath 等人[24]構(gòu)建的慕課學習者數(shù)據(jù)集,其數(shù)據(jù)標注可理解為“專注”、“松懈”和“走神”共3 類。因此,本研究涉及的專注度監(jiān)測即可等價為模式識別的經(jīng)典多分類問題,相應(yīng)地,本團隊的前期研究[21]已歸納出可選的稀疏分類機制,主要有如下3 種代表形式。
(1)基于稀疏表示的分類器。假設(shè)類別數(shù)為k的訓練樣本集T=則稀疏識別的分類計算過程如下:
其中,α為特征F在訓練集T上的稀疏表示,為上述優(yōu)化問題的最優(yōu)解。由此,分類器的判定依據(jù)如下:
其中,δi為第i類的稀疏取值。
(2)基于字典學習的分類器。字典學習的稀疏分類則將訓練集按類拆分后進行逐個訓練,其過程如下:
其中,D為第i類的稀疏字典,Γ為Ti在該字典下的稀疏表示。在此基礎(chǔ)上,分類器判據(jù)調(diào)整如下:
其中,D′Ti為DTi的轉(zhuǎn)置。
(3)自主提出的類字典學習分類器。類字典學習是本團隊自主提出的一種新型稀疏分類方法,其有效性已經(jīng)在人臉識別[21,23]和場景識別[22]等智能領(lǐng)域得到了一定驗證。本質(zhì)上,該方法相當于稀疏表示和字典學習的一種綜合創(chuàng)新,其核心分類機制如下:
這里,公式(8)的訓練集T被替換為相應(yīng)的學習字典。而字典DT=的學習可參照公式(10)的相關(guān)過程,由此分類器的判據(jù)調(diào)整為:
根據(jù)分類器判據(jù)的結(jié)果,可形成當前視頻幀內(nèi)視覺隱私保護人臉的專注度等級歸類,從而實現(xiàn)在線教學視覺隱私保護條件下學生學習專注程度的實時監(jiān)測和量化評估。
本研究討論的重點聚焦在3 個問題,即:視覺隱私保護的處理效果、視覺隱私保護人臉目標的提取效果、以及視覺隱私保護專注度的監(jiān)測效果。因此,實驗的設(shè)計和數(shù)據(jù)集的選擇都是圍繞上述問題進行的:針對視覺隱私保護方法,選取面向視覺質(zhì)量研究的代表性數(shù)據(jù)集LIVE(Laboratory for Image & Video Engineering)[25],包含29 幅參考圖、5 種失真,共779幅圖像;針對視覺隱私保護人臉提取,選擇非受限人臉識別研究的代表性數(shù)據(jù)集LFW(Labeled Faces in the Wild)[26],共有13 233 張人臉圖像,每張尺寸為250×250,共5 749 人;針對視覺隱私保護專注度監(jiān)測,選擇的Kamath 等人[24]構(gòu)建的慕課學習者數(shù)據(jù)集,包含23人,其專注度等級“Very engaged”、“Nominally engaged”和“Not engaged”,分別對應(yīng)于本文的“專注”、“松懈”和“走神”三類。圖5 展示了上述數(shù)據(jù)集的一些樣本情況。實驗的軟硬件條件為:處理器Intel i9-11900K,內(nèi)存64 G,顯卡NVIDIA RTX3090,操作系統(tǒng) Ubuntu 和深度學習架構(gòu)PyTorch。
圖5 不同數(shù)據(jù)集的樣本示例Fig.5 Some samples of different datasets
3.2.1 視覺隱私保護效果的驗證與分析
為驗證多層壓縮感知模型的視覺隱私保護效果,本環(huán)節(jié)選取4 種經(jīng)典視覺降質(zhì)方法和本研究方案進行對比實驗,具體包括:離焦模糊、運動模糊、高斯噪聲、椒鹽噪聲和壓縮感知(本文方案)。相關(guān)方法的詳細內(nèi)容參見本團隊前期工作[9]。以人臉數(shù)據(jù)為例,圖6 展示了上述方法的視覺隱私保護的直觀效果。
圖6 本研究所用視覺隱私保護方法的直觀示例Fig.6 Visual effect examples of the proposed VPP method
本團隊前期研究[9]表明,無參考圖像質(zhì)量評價方法中的SFA(semantic feature aggregation)、視覺安全性評估方法中的LE(Local Entropy)、以及本團隊針對多層壓縮感知模型自主提出的VPLE(Visual Privacy-preserving Level Evaluation)是當前相關(guān)技術(shù)中較為適合視覺隱私保護編碼的質(zhì)量評價工具。依據(jù)前期研究經(jīng)驗,關(guān)于這些數(shù)值的有效性和可信度等主要從單調(diào)性、一致性和準確性三方面衡量,對應(yīng)的指標有:SROCC(Spearman Rank Order Correlation Coefficient)、RMSE(Root Mean Square Error )和PLCC(Pearson Linear Correlation Coefficient)。其中,針對單調(diào)性還有另一個指標KROCC(Kendall Rank Order Correlation Coefficient)可選,但其作用與SROCC基本等效,因此這里只用其一即可。
表1~3 給出了所提出的5 種視覺隱私保護方法在3 種視覺隱私保護評價方法下的SROCC、RMSE和PLCC結(jié)果。單調(diào)性方面,SROCC的取值在圖像質(zhì)量評價時通常在0-1 之間,越大表示一致性越好,而在視覺隱私保護中則越小越好;一致性方面,RMSE的取值在圖像質(zhì)量評價時越接近0 越好,在視覺隱私保護中也遵循同樣規(guī)律;準確性方面,PLCC的取值在圖像質(zhì)量評價時從-1 到1,無論正負越遠離0 越好,而視覺隱私保護中則相反。結(jié)果表明,本研究采用的壓縮感知方案在單調(diào)性和一致性方面有著顯著優(yōu)勢,而準確性方面除SFA 外也同樣具有較好的性能,即便在SFA的PLCC中也是能達到最接近最優(yōu)水平的次優(yōu)結(jié)果。因此,針對自然場景隨機成像的條件下,可以認為多層壓縮感知能夠較好地滿足在線課堂的視覺隱私保護需求。
表1 不同方法評價的SROCC 結(jié)果Tab.1 SROCC results of different VPP methods
表2 不同方法評價的RMSE 結(jié)果Tab.2 RMSE results of different VPP methods
表3 不同方法評價的PLCC 結(jié)果Tab.3 PLCC results of different VPP methods
3.2.2 視覺隱私保護人臉目標提取的驗證與分析
為驗證視覺隱私保護數(shù)據(jù)的人臉目標提取效果,本環(huán)節(jié)選取一些最具代表性的人臉檢測算法和Cascade R-CNN 進行對比實驗,主要借鑒文獻[18]的思路,選取了單階段代表算法YOLO 和雙階段代表算法Faster R-CNN,而算法對比的衡量指標主要選擇了平均精度和提取時間兩項??紤]到對比的公平性,以Cascade RCNN 提出的時間階段為參照,YOLO 并非最新的v5 版、而是同時期的v3版,F(xiàn)aster R-CNN 也采用的是同時期基于FPN(Feature Pyramid Network)的版本。數(shù)據(jù)選取策略參照文獻[21],從LFW 中樣本個數(shù)超25 的類別中隨機選取30個,并進行壓縮感知編碼。同時,結(jié)合LFW 的特點,以各樣本中心點在橫縱坐標約70%范圍內(nèi)的VJ人臉提取的同尺寸下采樣為基準。
表4 展示了幾種代表性人臉檢測算法在視覺隱私保護LFW 數(shù)據(jù)上的提取效果,具體來看:就深度學習架構(gòu)的對比,雙階段思路基本優(yōu)于單階段思路;就主干網(wǎng)絡(luò)的對比,ResNet 系列的性能也大多好于Darknet;就參數(shù)選擇的對比,Batchsize的增大有利于精度方面的性能提升,但提取速度(這里即指測試速度)的差異并不明顯。因此,實驗結(jié)果表明本研究所提以Cascade R-CNN 為基礎(chǔ)實施視覺隱私保護人臉目標提取的方案在可行性和實用性等方面得到了一定支撐。
表4 幾種代表性算法的視覺隱私保護人臉提取結(jié)果Tab.4 VPP face object extraction results via some representative algorithms
3.2.3 視覺隱私保護專注度監(jiān)測的驗證與分析
為驗證視覺隱私保護改進LBP 特征下不同分類器的專注度監(jiān)測效果,本環(huán)節(jié)選取幾種代表性算法進行對比實驗,具體包括:最近鄰(Nearest Neighbor,NN)、支持向量機(Support Vector Machines,SVM)、稀疏表示、字典學習、以及本團隊提出的類字典學習。由于在線課堂專注度研究的特殊性,Kamath 數(shù)據(jù)集的規(guī)模相對較?。ㄒ曈X隱私保護編碼的數(shù)據(jù)就更少),這導致深度學習相關(guān)的分類器性能難以發(fā)揮,因此本實驗主要采用了非深度學習方法。為保證實驗公平性,訓練和測試樣本在交叉驗證過程的隨機選取規(guī)模借鑒了文獻[24],并且每次實驗中各類別采用one-vs-all 的統(tǒng)計形式,分別記錄并計算原始態(tài)和視覺隱私保護的500 次平均。
表5 作為幾種算法的監(jiān)測統(tǒng)計結(jié)果,可以提供3 方面的解讀:從代表性方法看,稀疏類3 種方法普遍優(yōu)于經(jīng)典思路、即NN 和SVM,而類字典方法由于集成了稀疏表示和字典學習的優(yōu)勢,其正確率在稀疏類方法中為最佳;從數(shù)據(jù)集類別劃分看,“專注”和“走神”類相對較容易監(jiān)測,而“松懈”類可能由于數(shù)據(jù)標簽的主觀標定方式,其監(jiān)測效果還有一定的提升空間;從數(shù)據(jù)形態(tài)看,視覺隱私保護的監(jiān)測結(jié)果略低于原始視頻,但其微弱損失相對于隱私保護的增強來講是能夠接受的。概括起來,類字典學習對于視覺隱私保護的專注度監(jiān)測具有較好的效果,而針對“松懈”類或者是類別標定方式的改進可能會有利于系統(tǒng)整體性能的進一步提高。
表5 幾種代表性算法的視覺隱私保護專注度監(jiān)測正確率Tab.5 VPP engagement monitoring accuracy via some representative algorithms %
專注度監(jiān)測技術(shù)有利于幫助老師掌握在線教學的學生學習質(zhì)量,而視覺隱私保護處理則可有效平衡學生的隱私保護訴求和視頻流的數(shù)據(jù)冗余困境。因此,本研究能夠較好契合疫情條件下線上教學的技術(shù)發(fā)展需求。從實驗結(jié)果看,多層壓縮感知編碼、Cascade R-CNN、改進LBP 以及類字典學習等自研為主的數(shù)據(jù)處理技術(shù),能夠有效滿足宏觀和局部層面等各方面的系統(tǒng)構(gòu)建具體需要,從而為在線課堂的視覺隱私保護專注度監(jiān)測提供了一種較為可行的方案探索。當然,由于相關(guān)研究及應(yīng)用領(lǐng)域較為前沿,目前國內(nèi)外在數(shù)據(jù)儲備及研發(fā)經(jīng)驗等方面普遍存在一定的不足或欠缺,后續(xù)將針對數(shù)據(jù)集、評價體系以及驗證標準等方面開展更多的攻關(guān)和突破,以便該技術(shù)能夠盡早應(yīng)用于實際的線上教學場景。