国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于媒體認(rèn)知課程的人工智能人才培養(yǎng)方法探索

2018-06-27 07:53:08王生進(jìn)
計(jì)算機(jī)教育 2018年6期
關(guān)鍵詞:人臉準(zhǔn)確率卷積

楊 毅,顏 歷,王生進(jìn),喬 飛

(1.清華大學(xué) 電子工程系,北京 100084;2. 英特爾(中國)有限公司,北京 100013)

1 背 景

隨著電子信息技術(shù)日新月異,電子信息教學(xué)領(lǐng)域也面臨著全新的挑戰(zhàn),需要培養(yǎng)具有全方位視野和超強(qiáng)能力的新一代工程師及領(lǐng)導(dǎo)者。

媒體與認(rèn)知是清華大學(xué)電子信息學(xué)科在課程體系改革過程中提出的一門重要的必修課程。結(jié)合清華大學(xué)電子工程系在該領(lǐng)域研究的基礎(chǔ)、優(yōu)勢和創(chuàng)新性成果,我們有針對性地將已有科研成果轉(zhuǎn)化為教學(xué)內(nèi)容,建設(shè)了一套全新的涵蓋人機(jī)感知交互、媒體信息處理、虛擬現(xiàn)實(shí)及信號(hào)處理領(lǐng)域的前沿教學(xué)平臺(tái),并采用集體創(chuàng)新培養(yǎng)和個(gè)人研究探索相結(jié)合的方式,最終達(dá)到理工與人文、技術(shù)與藝術(shù)、感知與思考的高度融合,使學(xué)生成為具有國際一流水平的、兼具科研創(chuàng)新能力和未來探索精神的領(lǐng)軍型人才。

通過參考國內(nèi)外諸多科研院所及名企與智能感知技術(shù)相關(guān)的項(xiàng)目內(nèi)容,結(jié)合本系在該領(lǐng)域研究的基礎(chǔ)優(yōu)勢和創(chuàng)新性成果,本課程建設(shè)了多種基于人工智能技術(shù)的項(xiàng)目。經(jīng)由對該項(xiàng)目的學(xué)習(xí)和研究研發(fā),學(xué)生能夠獲得智能感知技術(shù)的基礎(chǔ)理論知識(shí)和開發(fā)能力,力爭成為具有國際領(lǐng)先水平的智能感知技術(shù)專業(yè)人才[1-2]。

2 基于Realsense的微信表情輸入項(xiàng)目

英特爾的RealSense設(shè)備[3]是一種能通過采集視覺、深度、音頻等多種媒體信息獲得手勢、語音等表征意圖的智能感知設(shè)備,可以廣泛應(yīng)用于自然互動(dòng)、沉浸式協(xié)作與創(chuàng)作等創(chuàng)新應(yīng)用,能夠幫助開發(fā)人員在游戲、娛樂和內(nèi)容創(chuàng)建交互方面實(shí)現(xiàn)新的突破。

2.1 系統(tǒng)框架

基于Realsense的微信表情輸入項(xiàng)目通過Realsense體感攝像頭采集輸入視頻,調(diào)用SDK中的C++接口,實(shí)現(xiàn)在Windows電腦版微信中根據(jù)人面部表情自動(dòng)識(shí)別并輸入如圖1所示的6種表情的功能。

圖1 需要識(shí)別的6種表情

系統(tǒng)框架如圖2所示。

首先,通過Realsense攝像頭采集輸入視頻;然后調(diào)用Realsense SDK識(shí)別出14種低層次的面部表情特征,如微笑、張嘴、閉眼、伸舌頭、揚(yáng)眉毛、嘟嘴等。

圖2 基于Realsense的表情識(shí)別系統(tǒng)流程

其次,基于表情初級(jí)特征建立與微信表情的映射關(guān)系并引入開關(guān)和鎖變量,避免表情的重復(fù)識(shí)別和誤識(shí)別。

最后,通過控制鍵盤的方式與微信連接,實(shí)現(xiàn)在Windows電腦版微信中根據(jù)人面部表情自動(dòng)識(shí)別并輸入表情的功能。

2.2 主要模塊及屬性定義

本項(xiàng)目主要使用Realsense算法模塊中的面部跟蹤和識(shí)別模塊(face tracking and recognition)。該模塊提供人臉檢測、78個(gè)面部關(guān)鍵點(diǎn)的檢測和定位、14種初級(jí)表情屬性的識(shí)別以及人臉跟蹤、人臉識(shí)別等功能,可以同時(shí)檢測和跟蹤4張人臉。項(xiàng)目主要使用SDK的表情識(shí)別部分,該部分可以對14種表情屬性給出0~100的置信度打分。14種初級(jí)表情屬性定義見表1。根據(jù)實(shí)測的14種屬性的靈敏度和誤報(bào)情況,確立合適的閾值和表情映射關(guān)系。

在表情識(shí)別中,為了避免對同一個(gè)表情的重復(fù)識(shí)別,或在不需要識(shí)別的時(shí)候發(fā)生誤識(shí)別,產(chǎn)生錯(cuò)誤判斷,可進(jìn)行如下兩種處理:

(1)加入開關(guān)功能。按下鍵盤上的“向右”方向鍵,開啟表情識(shí)別功能;再次按下該鍵,停止表情識(shí)別。

(2)引入鎖變量。引入整型變量expression_LOCK記錄上一幀識(shí)別的表情編號(hào)(0:未識(shí)別到有效表情;1~6:對應(yīng)6種微信表情);只有當(dāng)前幀識(shí)別到的表情與expression_LOCK不同時(shí),才產(chǎn)生有效輸出,相同時(shí)不產(chǎn)生重復(fù)輸出。

表1 初級(jí)表情屬性定義

基于這兩種方法,重復(fù)識(shí)別的問題可以避免;當(dāng)開關(guān)持續(xù)打開時(shí),表情變化過程中的誤識(shí)別無法完全避免,但也有效減少。

2.3 接口調(diào)用及系統(tǒng)輸出

在調(diào)用微信接口時(shí),主要通過C++頭文件中的keybd_event()函數(shù)控制鍵盤,在微信中輸入對應(yīng)表情的英文名稱,再輸入回車鍵,即可發(fā)送出對應(yīng)的表情。具體實(shí)現(xiàn)時(shí),整體框架使用樣例DF_FaceTracking,在源文件“FaceTrackingRenderer2D.cpp”中加入void keybord(int Express[])函數(shù)完成表情映射、邏輯判斷和微信鍵盤輸入的功能;并在FaceTrackingRenderer2D類的DrawExpressions函數(shù)中調(diào)用keybord函數(shù),實(shí)現(xiàn)整個(gè)框架的功能。最終實(shí)現(xiàn)的結(jié)果如圖3所示。測試表明,該系統(tǒng)對特定用戶的6種人臉表情識(shí)別正確率超過90%以上。

3 基于深度學(xué)習(xí)的人臉表情識(shí)別項(xiàng)目

人臉識(shí)別[4]是當(dāng)前最活躍的人工智能領(lǐng)域應(yīng)用之一。傳統(tǒng)的表情識(shí)別方法主要有活動(dòng)外觀模型(active appearance model,AAM)、Gabor小波變換[5-6]等。這些方法的共同點(diǎn)就是使用一組人工設(shè)計(jì)的特征,在一定程度上損失了原有的特征信息,或者假設(shè)屬性之間相互獨(dú)立,往往與實(shí)際應(yīng)用環(huán)境下不相符合。深度學(xué)習(xí)算法舍棄了依靠人工精心設(shè)計(jì)的顯示特征提取方法,通過逐層構(gòu)建一個(gè)多層的深度神經(jīng)網(wǎng)絡(luò),讓機(jī)器自主地從樣本數(shù)據(jù)中學(xué)習(xí)到表征這些樣本的更加本質(zhì)的特征,從而使得學(xué)習(xí)到的特征更具有推廣性和表征能力。

圖3 人臉表情實(shí)現(xiàn)微信表情輸入的實(shí)例

3.1 卷積神經(jīng)網(wǎng)絡(luò)

近年來,卷積神經(jīng)網(wǎng)絡(luò)[7](convolutional neural network,CNN)利用局部感受野的原理,在ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ImageNet large scale visual recognition challenge, ILSVRC)中大大提升了人臉表情識(shí)別準(zhǔn)確率,連續(xù)刷新了圖像分類和目標(biāo)定位任務(wù)的識(shí)別率記錄。

本項(xiàng)目構(gòu)建并訓(xùn)練了一個(gè)含有3層卷積結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),通過取消每個(gè)卷積層中的偏置項(xiàng)增快訓(xùn)練速度。軟硬件環(huán)境為modern Linux OS,256GB memory,32 cores CPU,1 NVIDIA TITAN X (Pascal),Caffe & Keras Deep Learning Framework。

3.2 系統(tǒng)主要模塊

首先使用開源的caffe框架[8]實(shí)現(xiàn)的 MTCNN完成對原始圖片的alignment任務(wù)。該網(wǎng)絡(luò)是一個(gè)三階級(jí)聯(lián)的網(wǎng)絡(luò),流程圖如圖4所示,隨后使用Data Augmentation方法擴(kuò)充訓(xùn)練數(shù)據(jù)量,從而提升模型精度;對每張圖片隨機(jī)采取平移、縮放、旋轉(zhuǎn)、剪切等操作,每一張圖片都隨機(jī)生成3張新的圖片。

圖4 原始圖片alignment方法

本項(xiàng)目的CNN網(wǎng)絡(luò)總共含有3個(gè)卷積層,每個(gè)卷積層分別有64、128、256個(gè)5*5的filters,所有的激活函數(shù)均采用ReLU。每個(gè)卷積層都放棄偏置項(xiàng),這能夠加快網(wǎng)絡(luò)的訓(xùn)練。每個(gè)卷積層后面都有一個(gè)max pooling層,pool核的大小為2*2;之后又連接了一層含有300個(gè)神經(jīng)元的全連接層,最后有一層長度為8的softmax層用于分類,輸入格式為96*96*1的灰度圖像矩陣。

本項(xiàng)目使用的損失函數(shù)是cross-entropy loss,所用的優(yōu)化器是隨機(jī)梯度下降(SGD),初始學(xué)習(xí)率設(shè)為0.5,并采用annealing方法在訓(xùn)練過程中調(diào)整學(xué)習(xí)率,這會(huì)使loss更穩(wěn)定地收斂。weight decay參數(shù)為1e-5, momentum參數(shù)為0.9。在全連接層前面還使用了概率為0.5的dropout,可以防止過擬合。訓(xùn)練過程采用批訓(xùn)練,batch-size為64,一共訓(xùn)練 20個(gè) epoch。

3.3 系統(tǒng)性能及分析

在訓(xùn)練過程中,隨機(jī)選取10%的圖片作為驗(yàn)證集。隨著epoch的增加, loss收斂到0.3左右,訓(xùn)練和交叉驗(yàn)證準(zhǔn)確率變化如圖5所示,模型最終在驗(yàn)證集上的準(zhǔn)確率為81.4%。

分析發(fā)現(xiàn)此模型對happy和neutral的識(shí)別能力最好,對于sad、surprise和angry識(shí)別效果最差;模型傾向于將angry當(dāng)成disgust,把sadness和surprise當(dāng)成fear,把fear當(dāng)成sadness。最終此模型的測試結(jié)果為公開訓(xùn)練集的準(zhǔn)確率88.47%,自采訓(xùn)練集的準(zhǔn)確率65.83%。

圖5 訓(xùn)練和交叉驗(yàn)證準(zhǔn)確率

4 結(jié) 語

本文主要介紹了媒體與認(rèn)知課程的自主研發(fā)項(xiàng)目“基于Realsense的微信表情輸入項(xiàng)目”和“基于深度學(xué)習(xí)的人臉表情識(shí)別項(xiàng)目”,實(shí)現(xiàn)了用人臉表情輸入微信表情及用卷積神經(jīng)網(wǎng)絡(luò)完成人臉表情識(shí)別兩個(gè)完整的開發(fā)平臺(tái)。下一步,我們將在這些項(xiàng)目平臺(tái)中引入其他更先進(jìn)的算法和數(shù)據(jù),進(jìn)行更加深入的研究探索。

[1]清華大學(xué)電子工程系. 院系簡介[EB/OL]. [2018-03-01]. http://www.ee.tsinghua.edu.cn/publish/ee/3684/index.html.

[2]楊毅, 徐淑正, 喬飛, 等. 媒體認(rèn)知實(shí)驗(yàn)教學(xué)改革研究與探索[J]. 計(jì)算機(jī)教育, 2015 (9): 107-109.

[3]Intel Corporation. Intel? RealSense? Technology [EB/OL]. [2018-03-01]. http://www.intel.com/content/www/us/en/architectureand-technology/realsense-overview.html.

[4]Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Washington D C: IEEE, 2015: 1-9.

[5]COOTES T F, EDWARDS G J, TAYLOR C J. Active appearance models[J]. IEEE Transaction Pattern Analysis and Machine Intelligence, 2001, 23(6): 681-685.

[6]GU W, XIANG C, Venkatesh Y V, et al. Facial expression recognition using radial encoding of local Gabor features and classifier synthesis[J]. Pattern Recognition, 2012, 45(1): 80-91.

[7]Deng J. A large-scale hierarchical image database[C]// 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR).Washington D C: IEEE, 2009: 1-8.

[8]Jia Y Q. Caffe: Deep learning framework by BAIR[EB/OL]. [2018-03-01]. http://caffe.berkeleyvision.org/.

猜你喜歡
人臉準(zhǔn)確率卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
有特點(diǎn)的人臉
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
三國漫——人臉解鎖
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
馬面部與人臉相似度驚人
万载县| 东莞市| 桑日县| 伊金霍洛旗| 肇源县| 深圳市| 房产| 正阳县| 绿春县| 平潭县| 博罗县| 泸州市| 大渡口区| 苗栗县| 阿瓦提县| 乌兰浩特市| 泸溪县| 滁州市| 内丘县| 伽师县| 博湖县| 重庆市| 民县| 彰化市| 蒙山县| 晋城| 高青县| 怀宁县| 云龙县| 明星| 祁门县| 凤山县| 于田县| 新余市| 玉田县| 象州县| 梁河县| 名山县| 建始县| 桓台县| 海宁市|