陳章寶 鄧運(yùn)生 李 壯
(蚌埠學(xué)院電子與電氣工程學(xué)院, 安徽 蚌埠 233030)
人工智能技術(shù)是新一輪科技創(chuàng)新和產(chǎn)業(yè)變革的重要驅(qū)動力量,深度學(xué)習(xí)是其中最有影響力的關(guān)鍵技術(shù)。近十年來,深度學(xué)習(xí)在技術(shù)創(chuàng)新和產(chǎn)業(yè)實(shí)踐中均取得了巨大成就,使得基于深度學(xué)習(xí)的計算機(jī)視覺、自然語言處理、語音技術(shù)取得了突破性發(fā)展,并在相關(guān)領(lǐng)域中得到了廣泛的應(yīng)用。與機(jī)器學(xué)習(xí)的其他方法相比較,深度學(xué)習(xí)使用深層神經(jīng)網(wǎng)絡(luò)構(gòu)建特征表示和分類的一體化模型,利用大量的樣本數(shù)據(jù)對模型進(jìn)行訓(xùn)練,讓模型從大數(shù)據(jù)中學(xué)習(xí)以提高自身的性能。計算機(jī)視覺是深度學(xué)習(xí)技術(shù)發(fā)展最重要的領(lǐng)域,作為深度學(xué)習(xí)模型的LeNet是第一個卷積神經(jīng)網(wǎng)絡(luò),并且在手寫數(shù)字識別上取得了很好的效果,2012年AlexNet模型在ImageNet大賽上奪冠,將錯誤率從26%降低到了15%,從此深度卷積神經(jīng)網(wǎng)絡(luò)大幅度超越傳統(tǒng)的特征提取+分類器的計算機(jī)視覺方法,在圖像分類、目標(biāo)檢測、圖像分割等領(lǐng)域均取得了長足發(fā)展。
目前本科專業(yè)的計算機(jī)視覺教學(xué)以圖像的基礎(chǔ)處理和傳統(tǒng)的機(jī)器視覺算法為主,且圖像處理的內(nèi)容較多,如圖像變換、圖像濾波、形態(tài)學(xué)圖像處理、圖像編碼與壓縮等,機(jī)器視覺算法主要介紹邊緣檢測、區(qū)域分割、SIFT/SURF、ADABOOST等算法,沒有將近年來以深度學(xué)習(xí)為基礎(chǔ)的計算機(jī)視覺最新研究成果涵蓋進(jìn)來。本文根據(jù)我校自動化和機(jī)器人工程專業(yè)的圖像處理和計算機(jī)視覺課程教學(xué)實(shí)踐,在基礎(chǔ)的圖像處理和傳統(tǒng)的計算機(jī)視覺算法介紹的基礎(chǔ)上,加入了基于深度學(xué)習(xí)理論的計算機(jī)視覺部分,開展卷積神經(jīng)網(wǎng)絡(luò)相關(guān)知識的講授,進(jìn)行了圖像分類、目標(biāo)檢測、圖像分割等教學(xué)案例設(shè)計。
人類感知周圍環(huán)境80%的信息來源于視覺,計算機(jī)視覺就是要讓機(jī)器像人一樣具有視覺感知能力,如圖像分類、目標(biāo)檢測、圖像分割、三維視覺、目標(biāo)跟蹤等。計算機(jī)視覺對世界的認(rèn)知還處于實(shí)現(xiàn)單一任務(wù)的初級視覺階段,還遠(yuǎn)沒有達(dá)到人類的視覺感知、信息處理和認(rèn)識能力,不過在人類生物視覺的啟發(fā)下,通過模仿生物視覺神經(jīng)系統(tǒng)的感受野(receptive field)概念,提出的基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)理論并持續(xù)發(fā)展,當(dāng)今計算機(jī)視覺在復(fù)雜場景下的視覺理解,融合視覺、語音和文字等多源信息的視頻理解方面均取得了重要的研究成果。
圖像分類是計算機(jī)視覺的最基本任務(wù),也是深度學(xué)習(xí)技術(shù)研究最為充分的視覺任務(wù)場景。ILSVIC(ImageNet Large-Scale Visual Recognition Challenge)大賽是一個基于ImageNet數(shù)據(jù)集的圖像分類任務(wù)挑戰(zhàn)賽,該競賽從2010年開始舉辦,到2017年是最后一屆。2012年Alex Krizhevsky提出AlexNet網(wǎng)絡(luò)并在ILSVRC大賽中奪冠,以15.3%的Top-5的錯誤率遠(yuǎn)超傳統(tǒng)算法如SIFT、LBP、HOG等傳統(tǒng)的圖像分類方法,顯示了深度學(xué)習(xí)強(qiáng)大的特征抽象和表示能力,并輕松實(shí)現(xiàn)端到端的訓(xùn)練,在大數(shù)據(jù)下表現(xiàn)出明顯的優(yōu)勢。隨后VGG、GoogleNet、ResNet[1]等網(wǎng)絡(luò)被相繼提出,圖像分類錯誤率進(jìn)一步減少,甚至超出了人類對圖像的分類能力,目前細(xì)粒度圖像分類(Fine-grained image categorization,F(xiàn)GIC)技術(shù),實(shí)現(xiàn)同一類別的子類分類,也取得了長足的發(fā)展。圖像分類模型的發(fā)展歷程如圖1上所示,這些模型是計算機(jī)視覺技術(shù)的基礎(chǔ)網(wǎng)絡(luò),圖像分類中的經(jīng)典網(wǎng)絡(luò)也成為目標(biāo)檢測、圖像分割等其他視覺任務(wù)的骨干(Backbone)網(wǎng)絡(luò)。
圖1 計算機(jī)視覺模型發(fā)展歷程
目標(biāo)檢測是對圖像中感興趣的對象進(jìn)行定位(Localization)并分類(Classification),輸出對象的邊界方框和標(biāo)簽。由于受到目標(biāo)的復(fù)雜背景、光照變化、尺度變化、姿態(tài)多樣、相互遮擋、非剛性形變等多種因素的影響,使得目標(biāo)檢測任務(wù)更加具有挑戰(zhàn)性?;谏疃葘W(xué)習(xí)的視覺目標(biāo)檢測網(wǎng)絡(luò)主要有二階段網(wǎng)絡(luò)R-CNN系列和單階段網(wǎng)絡(luò)YOLO、SSD系列等。
2014年Girshick等提出基于選擇性搜索(selective search)的R-CNN[2](region with convolutional neural network)兩階段目標(biāo)檢測網(wǎng)絡(luò),使得基于深度學(xué)習(xí)的目標(biāo)檢測的準(zhǔn)確率超越了傳統(tǒng)的目標(biāo)檢測方法30%,隨后Fast R-CNN、Faster R-CNN網(wǎng)絡(luò)被陸續(xù)提出,使得目標(biāo)檢測精度大幅度提高而且檢測速度達(dá)到實(shí)時狀態(tài),基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)進(jìn)入實(shí)用階段。2016年以YOLO[3](You Only Look Once)為代表的單階段目標(biāo)檢測系列模型相繼提出,通過將目標(biāo)檢測設(shè)計成單一的回歸任務(wù),同時回歸出目標(biāo)的位置和類別,使得單階段目標(biāo)檢測算法達(dá)到了滿足實(shí)時檢測要求(FPS > 30)的高精度算法,并實(shí)現(xiàn)在邊緣端的部署, YOLO系列模型逐漸成為物體檢測的主流模型。目標(biāo)檢測算法的發(fā)展歷程如圖1下所示。近年來基于 Transformer 的目標(biāo)檢測算法研究引發(fā)熱潮,Transformer模型基于注意力機(jī)制,首先在自然語言處理(NLP)領(lǐng)域取得巨大成功,并成功遷移到計算機(jī)視覺領(lǐng)域。
圖像分割的任務(wù)是區(qū)分出圖像中不同物體所在的區(qū)域,按照分割的精細(xì)程度,可以將圖像分割歸為三類:語義分割、實(shí)例分割和全景分割。語義分割是要求區(qū)分出圖像中每個像素所屬的類別,實(shí)現(xiàn)像素級別的分類;實(shí)例分割是在語義分割的基礎(chǔ)上,實(shí)現(xiàn)同一類別的不同個體區(qū)域的劃分;全景分割包含語義分割和實(shí)例分割兩大任務(wù),實(shí)現(xiàn)對圖像中的所有物體,包括背景進(jìn)行像素級別的分類。2017年隨著全卷積網(wǎng)絡(luò)[4](Fully convolutional network, FCN) 的提出,隨后相繼出現(xiàn)了DeepLab系列、U-Net、PSPNet等圖像語義分割模型,DeepMask、Mask R-CNN、PANet、Mask SSD等實(shí)例分割模型;UPSNet、AUNet、TASCNet等全景分割模型?;谏疃葘W(xué)習(xí)的圖像分割算法超越了傳統(tǒng)的基于邊緣和閾值等算法。
近年來隨著短視頻在社交媒體的廣泛流行,基于深度學(xué)習(xí)的視頻分析和處理技術(shù)備受關(guān)注,在視頻理解、行為識別、目標(biāo)跟蹤以及視頻生成等領(lǐng)域,深度學(xué)習(xí)技術(shù)均取得了突破性的進(jìn)展和應(yīng)用落地,特別是結(jié)合視頻、文字和語音的多源信息融合的視頻分析和理解技術(shù)研究定會稱為未來的發(fā)展趨勢,必將成為今后一段時間最為熱門的研究領(lǐng)域。
從深度學(xué)習(xí)理論在計算機(jī)視覺領(lǐng)域的發(fā)展和應(yīng)用現(xiàn)狀可以看出,深度學(xué)習(xí)是推動計算機(jī)視覺發(fā)展的關(guān)鍵技術(shù),并引領(lǐng)計算機(jī)視覺技術(shù)繼續(xù)發(fā)展。這也為本科階段的圖像處理和計算機(jī)視覺課程的教學(xué)內(nèi)容更新和教學(xué)手段的改進(jìn)提出了新要求,教學(xué)革新勢在必行。
計算機(jī)視覺技術(shù)可以分解為三個層次,既底層的圖像處理、中層的特征提取和上層的圖像分析。底層的圖像處理技術(shù)實(shí)現(xiàn)圖像的增強(qiáng)與復(fù)原,其輸入和輸出皆為圖像,便于后續(xù)的圖像特征提取和分析;中層處理是從圖像中提取特征,形成“非圖像”的表示和描述,典型的特征表示方法有直方圖、LBP、SIFT、SURF、HOG等算法;高層的圖像分析主要包括圖像分類、分割、目標(biāo)檢測、視覺跟蹤、視頻理解等。現(xiàn)有的計算機(jī)視覺課程的教材和教學(xué)內(nèi)容大多以“特征提取+分類”的模式。在深度學(xué)習(xí)的大背景下,計算機(jī)視覺技術(shù)表現(xiàn)為如下的特點(diǎn)。
(1) 深度學(xué)習(xí)的計算機(jī)視覺方法采用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)作為視覺系統(tǒng)的基本網(wǎng)絡(luò),構(gòu)成圖像分類、目標(biāo)檢測、圖像分割、目標(biāo)跟蹤和視頻分析的骨干網(wǎng)絡(luò),通過海量數(shù)據(jù)訓(xùn)練出網(wǎng)絡(luò)參數(shù),端到端的實(shí)現(xiàn)特征提取與分類,避免了復(fù)雜的特征工程設(shè)計,最終的圖像分類精度等指標(biāo)大幅度超越了傳統(tǒng)方法。
(2) 深度學(xué)習(xí)更加容易發(fā)揮大數(shù)據(jù)的優(yōu)勢,傳統(tǒng)的機(jī)器學(xué)習(xí)方法如BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(support vector machine, SVM)、AdaBoost等機(jī)器視覺方法在數(shù)據(jù)量少時泛化能力弱,導(dǎo)致分類效果差,數(shù)據(jù)量多時效果提升變緩。深度學(xué)習(xí)具有與生俱來的適配大數(shù)據(jù)的能力,數(shù)據(jù)量越大效果越好。深度學(xué)習(xí)的標(biāo)準(zhǔn)數(shù)據(jù)集皆為大規(guī)模數(shù)據(jù)集,如ImageNet數(shù)據(jù)集就有1400萬張標(biāo)注圖片,常用數(shù)據(jù)子集也有百萬張圖片,深度學(xué)習(xí)在工業(yè)界的應(yīng)用中,也需要有大量的場景數(shù)據(jù),海量的數(shù)據(jù)可以解決一切問題。
(3) 深度學(xué)習(xí)強(qiáng)大的特征表示能力,利用模型中的很多個隱藏層,通過特征組合的方式,逐層將原始的輸入圖像轉(zhuǎn)化為淺層的空間特征,中層的語義特征和高層的目標(biāo)特征,最終實(shí)現(xiàn)分類和預(yù)測任務(wù)。深度神經(jīng)網(wǎng)絡(luò)不僅可以實(shí)現(xiàn)圖像特征的抽取,同樣也可以實(shí)現(xiàn)語音、文字信號等特征的抽取和表示,具有很強(qiáng)的通用性,更易于實(shí)現(xiàn)融合視頻、文字和語音的多任務(wù)學(xué)習(xí)和多模態(tài)學(xué)習(xí)任務(wù),推動視頻分析技術(shù)的發(fā)展。
(4) 實(shí)現(xiàn)端到端的訓(xùn)練,傳統(tǒng)的計算機(jī)視覺技術(shù)需要進(jìn)行“圖像預(yù)處理+特征提取+分類預(yù)測”三個階段,對于特定的任務(wù),需要進(jìn)行針對性的特征工程設(shè)計和分類器設(shè)計。深度學(xué)習(xí)不需要進(jìn)行任務(wù)的階段劃分,而是完全交給深度神經(jīng)網(wǎng)絡(luò)模型直接學(xué)習(xí)從原始數(shù)據(jù)到期望輸出的映射,直接實(shí)現(xiàn)從圖像輸入到任務(wù)輸出。
深度學(xué)習(xí)對實(shí)驗(yàn)平臺的要求主要體現(xiàn)為大數(shù)據(jù)集、硬件訓(xùn)練和部署平臺、軟件框架三個方面。傳統(tǒng)計算機(jī)視覺算法對數(shù)據(jù)集和訓(xùn)練平臺的要求都不高,在個人電腦和ARM控制器上就可以實(shí)現(xiàn)訓(xùn)練和部署,而深度學(xué)習(xí)發(fā)展起來的幾個關(guān)鍵因素,就是龐大的數(shù)據(jù)集、GPU的并行算力,以及深度學(xué)習(xí)框架。
在計算機(jī)視覺落地項目中,很難獲取像標(biāo)準(zhǔn)數(shù)據(jù)集的規(guī)模,在工業(yè)品瑕疵視覺檢測和異常場景分析中,數(shù)據(jù)采集比較困難,導(dǎo)致數(shù)據(jù)量較少,樣本數(shù)據(jù)類別的不均衡等情況,解決此類問題的方法可以通過數(shù)據(jù)擴(kuò)增的方法解決數(shù)據(jù)量不足的問題,通過損失函數(shù)的樣本權(quán)重設(shè)計等來解決數(shù)據(jù)不均衡的問題,將通用數(shù)據(jù)集上的預(yù)訓(xùn)練模型遷移到場景數(shù)據(jù)集等來提高視覺模型效果。
通常深度學(xué)習(xí)的訓(xùn)練和部署對硬件平臺的要求較高,需要用高配置的GPU電腦、服務(wù)器,或者云服務(wù)器等。對精度和實(shí)時性要求不高的場合,也可以進(jìn)行模型的輕量化設(shè)計,利用模型蒸餾、神經(jīng)網(wǎng)絡(luò)搜索、剪枝和量化,進(jìn)行模型壓縮,獲取小容量模型并部署到移動端或者嵌入式設(shè)備上。
深度學(xué)習(xí)的快速發(fā)展,以及模塊化設(shè)計和計算特性給深度學(xué)習(xí)框架的開發(fā)提供了便利,目前具有代表性的框架有Google的TensorFlow、Meta的Pytorch,國內(nèi)的深度學(xué)習(xí)框架包括百度于2016年推出的飛漿(PaddlePaddle)、曠視科技的MegEngine、華為的MindSpore和清華大學(xué)的Jitter。框架的推出為深度學(xué)習(xí)的研究和落地提供了極大的便利,加速了深度學(xué)習(xí)的研究進(jìn)度,降低了模型設(shè)計和訓(xùn)練的難度,推動了相關(guān)項目的快速落地。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,在計算機(jī)視覺課程教學(xué)中加入深度學(xué)習(xí)的入門知識和基礎(chǔ)理論勢在必行,由于課時的有限,需要弱化部分圖像處理和傳統(tǒng)計算機(jī)視覺的內(nèi)容,同時進(jìn)行教學(xué)資源和實(shí)驗(yàn)平臺建設(shè),并進(jìn)行教學(xué)模式的創(chuàng)新,在進(jìn)行傳統(tǒng)計算機(jī)視覺教學(xué)的同時,緊跟新技術(shù)的發(fā)展步伐,引領(lǐng)學(xué)生進(jìn)行基于深度學(xué)習(xí)理論的計算機(jī)視覺技術(shù)學(xué)習(xí)和研究。
在深度學(xué)習(xí)主導(dǎo)計算機(jī)視覺技術(shù)的當(dāng)今,為了將深度學(xué)習(xí)理論融入計算機(jī)視覺課程的教學(xué)中,需要對原有的計算機(jī)視覺課程的教學(xué)內(nèi)容進(jìn)行部分的優(yōu)化,壓縮傳統(tǒng)視覺方法中的部分教學(xué)內(nèi)容,特別是傳統(tǒng)“特征提取+分類器”等被深度學(xué)習(xí)完美替代部分的教學(xué)內(nèi)容,對壓縮的部分只進(jìn)行理論知識的介紹,不講算法的實(shí)現(xiàn)過程。下面以張錚的教材《數(shù)字圖像處理與機(jī)器視覺》[5]為例,涉及的部分教學(xué)內(nèi)容如表1所示,需要增加深度學(xué)習(xí)理論的基礎(chǔ)教學(xué)內(nèi)容如表2所示。
表1 部分壓縮的教學(xué)內(nèi)容
表1對計算機(jī)視覺課程的教學(xué)內(nèi)容進(jìn)行了優(yōu)化設(shè)計,壓縮了部分教學(xué)內(nèi)容,如圖像的頻域增強(qiáng),傳統(tǒng)的圖像特征提取和分類器等,壓縮不等于不講,而是簡單講,在教學(xué)設(shè)計中是需要了解的內(nèi)容。強(qiáng)化了與深度學(xué)習(xí)理論相關(guān)的部分內(nèi)容,這些內(nèi)容在教學(xué)設(shè)計中是需要重點(diǎn)掌握,如圖像幾何變換常用于數(shù)據(jù)增擴(kuò),結(jié)合遷移學(xué)習(xí),在深度學(xué)習(xí)的落地項目中廣泛使用;SVM作為經(jīng)典的分類模型,在小樣本分類項目中表現(xiàn)優(yōu)越,經(jīng)典深度學(xué)習(xí)模型也有用SVM進(jìn)行分類;BP神經(jīng)網(wǎng)絡(luò)模型是深度學(xué)習(xí)模型的基礎(chǔ),也是經(jīng)典的分類器模型,是學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)的入門知識。此外在圖像的空域增強(qiáng)中,圖像濾波算子結(jié)合卷積核進(jìn)行介紹,濾波算子參數(shù)是確定的,而卷積核參數(shù)是學(xué)習(xí)出來的,更容易讓學(xué)生了解圖像卷積的概念。
表2 深度學(xué)習(xí)教學(xué)內(nèi)容
表2給出了本科專業(yè)教學(xué)中深度學(xué)習(xí)的基本教學(xué)內(nèi)容,包括神經(jīng)網(wǎng)絡(luò)基礎(chǔ),基本的圖像分類、目標(biāo)檢測、圖像分割模型,模型訓(xùn)練和優(yōu)化的基礎(chǔ)教學(xué)內(nèi)容,以及常用的深度學(xué)習(xí)框架。此表是在計算機(jī)視覺課程的教學(xué)實(shí)踐中,總結(jié)出來的關(guān)于深度學(xué)習(xí)的教學(xué)類容設(shè)計,強(qiáng)調(diào)基礎(chǔ)知識的掌握,基本平臺的應(yīng)用,引領(lǐng)學(xué)生入門深度學(xué)習(xí)技術(shù)。
深度學(xué)習(xí)是在大數(shù)據(jù)和大算力的推動下發(fā)展起來的技術(shù),且其網(wǎng)絡(luò)模塊眾多,基礎(chǔ)理論復(fù)雜,這些因素都給學(xué)生入門深度學(xué)習(xí)造成了很大的難度。深度學(xué)習(xí)通過信號的前向傳輸和誤差的反向傳遞,實(shí)現(xiàn)基于梯度下降的訓(xùn)練優(yōu)化,編程特性和計算特性較為模式化,統(tǒng)一的編程框架會給學(xué)習(xí)和開發(fā)提供極大的便利,當(dāng)今的深度學(xué)習(xí)框架也被稱為人工智能時代的操作系統(tǒng)。教學(xué)中利用百度公司開源的飛漿(PaddlePaddle)深度學(xué)習(xí)框架[6],飛漿深度學(xué)習(xí)框架是國內(nèi)開源最早的深度學(xué)習(xí)框架,其下接芯片,可以適配不同的底層硬件,上承應(yīng)用,適應(yīng)各種算法應(yīng)用,對接云計算和大數(shù)據(jù)資源,集核心框架、工具組件和服務(wù)平臺于一體,飛漿全景圖如圖2所示。
飛漿核心框架實(shí)現(xiàn)動態(tài)圖和靜態(tài)圖兩種編程方式的統(tǒng)一,集模型訓(xùn)練和預(yù)測于一體,開源了計算機(jī)視覺、自然語言處理、推薦系統(tǒng)和語音識別四大類官方模型,其中飛將視覺模型庫(PaddleCV)提供了大量的圖像分類、目標(biāo)檢測、圖像分割、圖像生成、視頻分析等視覺算法的預(yù)訓(xùn)練模型。飛漿還集成了遷移學(xué)習(xí)、訓(xùn)練可視化等一系列工具組件,進(jìn)行深度學(xué)習(xí)的開發(fā)訓(xùn)練和應(yīng)用部署。飛漿還提供的AI Studio在線開發(fā)實(shí)訓(xùn)平臺,集合了教程、案例、經(jīng)典數(shù)據(jù)集、云端的運(yùn)算資源、以及比賽平臺和社區(qū)。利用百度飛漿深度學(xué)習(xí)框架和AI Studio平臺,全面解決了深度學(xué)習(xí)教學(xué)中對大數(shù)據(jù)、大算力、框架和平臺的要求。百度公司的平臺保障和技術(shù)支持,為開展深度學(xué)習(xí)的教學(xué)、科研和工程開發(fā)提供了極大的便利。
教學(xué)資源建設(shè)是基于百度AI Studio平臺開展教學(xué)活動,進(jìn)行教學(xué)案例設(shè)計,開展集數(shù)據(jù)準(zhǔn)備、模型設(shè)計、模型訓(xùn)練與評價于一體的教學(xué)活動,教學(xué)中進(jìn)行了如表3所示的教學(xué)案例設(shè)計。在本科階段計算機(jī)視覺教學(xué)中,深度學(xué)習(xí)理論的教學(xué)案例設(shè)計側(cè)重于入門案例[7]和基礎(chǔ)案例,前沿技術(shù)案例可以簡要介紹,要進(jìn)行進(jìn)階式的案例設(shè)計,并將深度學(xué)習(xí)的基礎(chǔ)知識融入教學(xué)案例中。
表3 深度學(xué)習(xí)的教學(xué)案例設(shè)計
(續(xù)表3)
“計算機(jī)視覺”是在傳統(tǒng)圖像處理和機(jī)器視覺課程的基礎(chǔ)上,融入了深度學(xué)習(xí)技術(shù)的課程,實(shí)踐性強(qiáng)。新工科背景下,課程教學(xué)堅持以“學(xué)生為中心,以產(chǎn)出為導(dǎo)向”的OBE教學(xué)理念,進(jìn)行教學(xué)模式創(chuàng)新[8]。本科階段的“計算機(jī)視覺”課程教學(xué)以基礎(chǔ)理論講解、案例教學(xué)、工程實(shí)踐為主,通過規(guī)范教學(xué)與實(shí)驗(yàn)平臺、改革課程教學(xué)模式和實(shí)踐項目化教學(xué)等手段開展課程教學(xué)的改革和探索。
(1) 規(guī)范教學(xué)與實(shí)驗(yàn)平臺?;谏疃葘W(xué)習(xí)理論的計算機(jī)視覺教學(xué)需要大數(shù)據(jù)和計算平臺的支撐,打造規(guī)范的教學(xué)和實(shí)驗(yàn)平臺是開展教學(xué)活動的基礎(chǔ),采用百度PaddlePaddle深度學(xué)習(xí)框架,百度AI Studio教學(xué)平臺開展教學(xué)活動和管理。
(2) 改革課程教學(xué)模式。首先,以案例推動教學(xué),通過案例引申出具體的教學(xué)內(nèi)容,實(shí)現(xiàn)由面及點(diǎn)、由點(diǎn)到面的知識體系教學(xué),例如通過圖像分類案例,可以講解數(shù)據(jù)集預(yù)處理、模型設(shè)計、訓(xùn)練和預(yù)測等一系列知識點(diǎn),所有知識點(diǎn)又構(gòu)建了整個分類模型。其次,以作業(yè)提升教學(xué),教學(xué)中以學(xué)生為中心,引導(dǎo)學(xué)生去分析問題和解決問題,通過優(yōu)質(zhì)的課程作業(yè)設(shè)計,讓學(xué)生掌握數(shù)據(jù)處理與增擴(kuò)、深度學(xué)習(xí)框架應(yīng)用、模型結(jié)構(gòu)優(yōu)化、參數(shù)調(diào)節(jié)對提高分類精度的效果。最后,以應(yīng)用拓展教學(xué),通過深度學(xué)習(xí)視覺案例的應(yīng)用部署,激發(fā)學(xué)生的學(xué)習(xí)興趣,例如將訓(xùn)練好的預(yù)測模型如花卉識別、手勢識別、交通標(biāo)志檢測、人體分割和摳圖等,部署到云端、服務(wù)器和電腦端,嵌入式邊緣設(shè)備端等。
(3) 實(shí)踐教學(xué)。實(shí)踐教學(xué)是課程教學(xué)的延伸,主要通過課程設(shè)計、畢業(yè)設(shè)計、大創(chuàng)項目、學(xué)科競賽、學(xué)生參與教師的工程項目和科學(xué)研究等方式,讓學(xué)生掌握工程需求分析與系統(tǒng)設(shè)計、數(shù)據(jù)分析與采集,模型設(shè)計與優(yōu)化、模型部署的全過程,增強(qiáng)學(xué)生利用所學(xué)知識解決實(shí)際工程的能力,提高工程化應(yīng)用型人才的培養(yǎng)成效。實(shí)踐中,在實(shí)驗(yàn)室搭建了一個人臉識別項目,帶領(lǐng)學(xué)生不斷提升系統(tǒng)性能,從當(dāng)初的人臉識別、口罩識別、到現(xiàn)在的融合視覺和語音的人機(jī)互動;指導(dǎo)學(xué)生參加全國智能汽車競賽,講授智能車的視覺導(dǎo)航和目標(biāo)識別關(guān)鍵技術(shù),讓學(xué)生實(shí)踐深度學(xué)習(xí)的技術(shù)在智能車、自動駕駛的應(yīng)用;在工業(yè)機(jī)器人視覺引導(dǎo)抓取的項目中,實(shí)現(xiàn)了3D視覺的目標(biāo)物體姿態(tài)檢測,并引導(dǎo)機(jī)械臂以適當(dāng)?shù)淖藨B(tài)進(jìn)行抓取,這些系統(tǒng)得到了大創(chuàng)項目、學(xué)校工程和科研項目的經(jīng)費(fèi)支撐,并轉(zhuǎn)化為學(xué)生的畢業(yè)設(shè)計課題;學(xué)生參與老師的病雞識別、玻璃品瑕疵檢測項目,提高了學(xué)生的工程能力,培養(yǎng)了學(xué)生的科研意識。
通過在計算機(jī)視覺課程中引入深度學(xué)習(xí)的教學(xué)內(nèi)容,通過教學(xué)內(nèi)容優(yōu)化、教學(xué)資源建設(shè)和教學(xué)模式創(chuàng)新,開展案例化的教學(xué),引導(dǎo)學(xué)生逐步進(jìn)入學(xué)科前沿知識的學(xué)習(xí)和應(yīng)用工程開發(fā)。通過多年的教學(xué)實(shí)踐,學(xué)生對基于深度學(xué)習(xí)的視覺技術(shù)產(chǎn)生了濃厚的興趣,我院學(xué)生在近三年的全國大學(xué)生智能車競賽百度深度學(xué)習(xí)創(chuàng)意組比賽中屢獲大獎;學(xué)生在百度AI studio平臺的比賽中,輕松獲取Top10名次。本著“以學(xué)生為中心,以產(chǎn)出為導(dǎo)向”的OBE教學(xué)理念,開展課程教學(xué)研究與改革,進(jìn)行工程化應(yīng)用型人才的培養(yǎng),學(xué)生的學(xué)習(xí)熱情持續(xù)增長,工程能力顯著提升,科研素養(yǎng)逐漸養(yǎng)成。