潘樹(shù)誠(chéng) 章堅(jiān)武
摘 要:目前,互聯(lián)網(wǎng)身份認(rèn)證普遍采用單一的固定密碼認(rèn)證模式,認(rèn)證安全性非常低,因此迫切需要一種安全系數(shù)高又能普及的身份認(rèn)證方式。聲紋作為一種高活性生物特征,用于身份認(rèn)證具有十分廣闊的應(yīng)用前景?;谏疃葘W(xué)習(xí)(DL)的語(yǔ)音認(rèn)證系統(tǒng)包含兩個(gè)模型:聲紋辨別(VI)模型和聲紋文本匹配(VTM)模型,都基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)。其中,VI模型是一個(gè)二分類模型,主要用于確認(rèn)當(dāng)前說(shuō)話人是否為惡意(錄音)攻擊者;VTM模型是一個(gè)多分類模型,主要用來(lái)匹配用戶預(yù)先設(shè)定的身份認(rèn)證信息。通過(guò)實(shí)驗(yàn),兩個(gè)模型在ASVD數(shù)據(jù)集的識(shí)別率分別達(dá)到100%和98.3%,相比caffe-net模型,VTM模型的識(shí)別率提高了10.8個(gè)百分點(diǎn)。
關(guān)鍵詞關(guān)鍵詞:VI模型;VTM模型;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)
DOIDOI:10.11907/rjdk.181193
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)010-0022-05
英文摘要Abstract:The current Internet anthentication mode is generally in the form of single fixed passwords with very low security. Therefore it is urgent to have a new anthentication mode with high security and extensive adaptibility. As a highly active biometric feature, voiceprint has broad application prospect in identity anthentication. The vocie anthentication system based on deep learning includes two models:vocie identification model (VI) and vocie text matching model (VTM), which are both based on convolutional neural network (CNN). VI model is a binary-classification model mainly used to confirm if the current speaker is a malicious attacker or a recording. VTM model is a multi-classification model mainly used to match the preset users′ identity anthentication. According to the experiment, the two models achieve 100% and 98.3% recognition rates resepectively in the ASVD dataset. The recognition rate of VTM model has 10.8 percentage increase than that of CaffeNet model.
英文關(guān)鍵詞Key Words:VI model; VTM model; deep learning; convolutional neural network
0 引言
在當(dāng)今移動(dòng)互聯(lián)網(wǎng)時(shí)代,人與人之間的通信大部分是在線上完成的,比如通話、游戲、購(gòu)物等。要在線上實(shí)現(xiàn)使用者的身份驗(yàn)證,傳統(tǒng)的解決方案是通過(guò)設(shè)置密碼,運(yùn)用系統(tǒng)自帶的加解密算法實(shí)現(xiàn)身份驗(yàn)證。然而現(xiàn)在網(wǎng)上的應(yīng)用非常多,如果每個(gè)賬戶都設(shè)置一個(gè)新密碼,顯然是不可取的;所有賬戶都使用一個(gè)密碼,又保證不了信息安全,很容易被黑客攻擊。根本原因是密碼驗(yàn)證類似于非生物活性特征的指紋識(shí)別驗(yàn)證,是“非活性”、容易被復(fù)制的。由于每個(gè)人的聲紋特征不一致并難以被仿制,采用聲紋識(shí)別技術(shù)可以較好解決上述密碼驗(yàn)證安全問(wèn)題。
近年來(lái),人工智能深度學(xué)習(xí)技術(shù)開(kāi)始慢慢進(jìn)入人們的視野,成為當(dāng)下最熱門的話題之一。自從2006年Hinton等[1]提出深度學(xué)習(xí)(Deep Learning,DL)的概念,并基于深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)提出非監(jiān)督貪心逐層訓(xùn)練算法以來(lái),國(guó)內(nèi)外掀起了深度學(xué)習(xí)的研究熱潮[2]。2012年6月,斯坦福大學(xué)機(jī)器學(xué)習(xí)教授Andrew Ng和大規(guī)模計(jì)算機(jī)系統(tǒng)專家Jeff Dean共同主導(dǎo)了Google Brain項(xiàng)目[3];2014年3月,F(xiàn)acebook的Deep-Face項(xiàng)目基于9層深度網(wǎng)絡(luò)的人臉識(shí)別模型其識(shí)別率達(dá)到97.35%[4];2016年3月,基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的人工智能-Alpha Go大戰(zhàn)世界圍棋冠軍李世石,并以4∶1的戰(zhàn)績(jī)?nèi)〉脛倮?,舉世震驚;2016年10月,硅谷推出的無(wú)人駕駛汽車在美國(guó)加州正式上路。語(yǔ)音識(shí)別技術(shù)隨著深度學(xué)習(xí)的熱浪得到了高速發(fā)展,目前國(guó)內(nèi)外很多公司都在積極推動(dòng)語(yǔ)音識(shí)別技術(shù)的應(yīng)用。亞馬遜于2011-2013年相繼收購(gòu)Yap、Evi和Ivona Software,增強(qiáng)語(yǔ)音識(shí)別在商品搜索上的技術(shù);Facebook于2013年相繼收購(gòu)Mobile Technologies和Mit.ai,加強(qiáng)了定向廣告中的語(yǔ)音技術(shù);蘋果于2010-2015年相繼收購(gòu)Siri Inc、Novauris Technologies、VocallQ和Emotient,進(jìn)一步完善了Siri的功能;微軟研發(fā)Skype、Contana和微軟小冰,其中Contana在Win10系統(tǒng)中應(yīng)用較為成功;國(guó)內(nèi)華為、阿里巴巴、百度和科大訊飛等互聯(lián)網(wǎng)、通信巨頭也都紛紛在語(yǔ)音識(shí)別領(lǐng)域投入巨資進(jìn)行大量應(yīng)用性研究。
目前,深度學(xué)習(xí)技術(shù)被廣泛應(yīng)用到各個(gè)領(lǐng)域,其中發(fā)展最為迅速的屬圖像領(lǐng)域。圖像識(shí)別技術(shù)被廣泛應(yīng)用到實(shí)際生活中,比如支付寶的“刷臉”功能、汽車車牌識(shí)別功能及交通人流量的控制功能等。圖像識(shí)別在大數(shù)據(jù)分類、統(tǒng)計(jì)、識(shí)別等方面有很好的效果,但是作為一種非生物活性特征,其安全性系數(shù)比較低,所以在安全認(rèn)證方面有很大的不足。為解決該問(wèn)題,阿里巴巴提出用戶在識(shí)別階段通過(guò)多個(gè)角度的臉部姿態(tài)增加人臉識(shí)別的安全性,但是對(duì)用戶體驗(yàn)有很大的影響。鑒于此問(wèn)題,本文提出基于語(yǔ)音信號(hào)的識(shí)別-匹配安全認(rèn)證模式系統(tǒng),將語(yǔ)音信號(hào)轉(zhuǎn)換成語(yǔ)譜圖和聲譜圖,通過(guò)圖像分類模型進(jìn)行分類,并經(jīng)過(guò)系統(tǒng)的二次判決保證認(rèn)證系統(tǒng)的安全性。結(jié)合圖像識(shí)別技術(shù)高識(shí)別率和語(yǔ)音特征高生物活性系數(shù)兩個(gè)優(yōu)點(diǎn),加強(qiáng)了認(rèn)證模式的安全性和適用性。
1 認(rèn)證模式
近年來(lái)不斷出現(xiàn)單口令密碼認(rèn)證系統(tǒng)被暴力破解[5-6]和字典分析[7]事件,說(shuō)明單口令密碼認(rèn)證系統(tǒng)的安全系數(shù)有待提高。本文針對(duì)該問(wèn)題,提出以表征生物特征活性系數(shù)最高的聲紋為基礎(chǔ)的二次判決識(shí)別匹配模式。該模式由3個(gè)模塊構(gòu)成:聲紋辨別(Voiceprint Identification,VI)模塊、短語(yǔ)句文本匹配模塊和系統(tǒng)判決模塊。
單獨(dú)的短語(yǔ)句文本匹配VTM模型在原聲和錄音聲的多分類任務(wù)中效果不是很理想,而聲紋辨別VI模型和VTM模型分別在二分類問(wèn)題及多分類問(wèn)題上有很好的表現(xiàn)。首先將轉(zhuǎn)換后的語(yǔ)譜圖數(shù)據(jù)輸入二分類VI模型,分析模型輸出數(shù)據(jù)并傳遞參數(shù)給下一個(gè)環(huán)節(jié),如果識(shí)別失敗,系統(tǒng)輸出為警報(bào)狀態(tài),反之則進(jìn)入短語(yǔ)句匹配模塊。再將轉(zhuǎn)換后的聲譜圖數(shù)據(jù)送入VTM模型,分析模型輸出數(shù)據(jù)并傳遞參數(shù)給系統(tǒng)輸出。
1.1 聲紋特征優(yōu)勢(shì)
聲紋[8-10]是一種“活性”系數(shù)非常高的生物非表征特征,具有很廣泛的應(yīng)用。在安全性方面,具有其它生物特征不具備的優(yōu)勢(shì),其它一些生物特征如人臉、指紋、掌型、指靜脈和虹膜等都屬于表征特性,很容易被復(fù)制并落入第三方手中,而聲紋作為一種非表征特性,具有無(wú)法被完全復(fù)制的特點(diǎn)。在實(shí)用性方面,語(yǔ)音信號(hào)采集只需要一個(gè)錄音模塊,移動(dòng)終端都具備該功能,所以聲紋識(shí)別的應(yīng)用價(jià)值非常高。聲紋特征與其它生物特征比較如表1所示[11]。
1.2 CNN模型介紹
深度學(xué)習(xí)技術(shù)在語(yǔ)音、圖像領(lǐng)域得到了快速發(fā)展。一些基于深度學(xué)習(xí)的識(shí)別模型漸漸取代了以UBM-MAP-GMM[12]模型(Douglas Reynold)、Joint Factor Analysis[13-16]模型(Patrick Kenny)和i-vector[17-18]模型(NajimDehak)為代表的傳統(tǒng)識(shí)別模型。在語(yǔ)音領(lǐng)域,遞歸神經(jīng)網(wǎng)絡(luò)[19-21](RNN、DRNN、LSTMs)模型因?yàn)榫哂袝r(shí)序上元素關(guān)聯(lián)程度的表達(dá)能力,在語(yǔ)音長(zhǎng)文本識(shí)別中大放異彩。在圖像領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)[22-25](CNN)模型因?yàn)榫哂芯植扛兄獏^(qū)域、權(quán)值共享的優(yōu)勢(shì),在圖像處理方面取得了非常大的成功。
識(shí)別驗(yàn)證系統(tǒng)需要短時(shí)、安全的識(shí)別模式,要求系統(tǒng)能夠快速獲得短語(yǔ)音的識(shí)別結(jié)果,而RNN模型對(duì)短語(yǔ)音識(shí)別效果不是很理想。鑒于CNN模型在圖像領(lǐng)域的巨大成功,本文借用圖像處理的方式進(jìn)行語(yǔ)音識(shí)別。系統(tǒng)中用到了兩個(gè)模型:Binary-Classification(二分類)聲紋辨別模型和短文本匹配(Phrase-Matching)模型,都屬于卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型。
CNN模型可分為輸入層、卷積層、池化層、softmax分類層、全連接層以及輸出層,其中核心層是卷積(convolution)層和池化(pooling)層,屬于隱層。卷積層通過(guò)調(diào)整卷積核的大小和卷積步長(zhǎng),可以大大減少模型網(wǎng)絡(luò)的節(jié)點(diǎn)參數(shù),提高模型的效率;池化層通過(guò)調(diào)整池化核的大小和模式進(jìn)一步減少模型參數(shù),并能夠銳化圖像特征。多層CNN模型一般都是由多個(gè)卷積層和池化層組合構(gòu)成的(見(jiàn)圖2)。
CNN模型結(jié)構(gòu)中有3個(gè)要素:局部感知域、權(quán)值共享及pooling。該3個(gè)要素是卷積神經(jīng)網(wǎng)絡(luò)的核心思想,也是卷積神經(jīng)網(wǎng)絡(luò)能夠在圖像領(lǐng)域被廣泛應(yīng)用的關(guān)鍵。
1.2.1 局部感知域
CNN模型的每個(gè)卷積層中,都會(huì)有不同的卷積核窗口對(duì)輸入圖像進(jìn)行局部卷積,并將結(jié)果作為下一層的輸入圖像,如圖3所示。圖3中前一層的綠色區(qū)域被稱作局部感知域,大小由卷積核窗口的大小決定。每個(gè)局部感知域通過(guò)卷積核窗口映射到下一層的一個(gè)神經(jīng)元。
1.2.2 權(quán)值共享
在卷積層中,卷積核需要對(duì)整個(gè)輸入圖片進(jìn)行局部感知域的卷積掃描,卷積核內(nèi)的值與bias值被稱為該卷積核的權(quán)值。權(quán)值共享就是用同一個(gè)卷積核掃描整個(gè)圖片,它有兩個(gè)很重要的作用:其一,能夠大幅度減少輸出訓(xùn)練參數(shù),從而大幅度減少計(jì)算量;其二,能夠提取到無(wú)關(guān)特征位置的圖片底層邊緣特征,解決目標(biāo)特征空間位置變換的問(wèn)題(見(jiàn)圖4)。
1.2.3 pooling層
pooling層的主要功能是聚化圖像特征、減少訓(xùn)練參數(shù)以及保持圖像(平移、旋轉(zhuǎn)、尺度)不變性。常見(jiàn)的池化方法有均值池化法和最大值池化法,并且池化窗口一般不會(huì)重疊。本文采用最大值池化法處理卷積后的圖片(見(jiàn)圖5)。
1.3 VI模型
聲紋辨別是指通過(guò)語(yǔ)音頻譜圖信號(hào)確定說(shuō)話人的身份信息。本系統(tǒng)中的聲紋辨別模塊采用一個(gè)二分類模型,主要作用為檢測(cè)是否有攻擊性錄音信號(hào)與確定是否為目標(biāo)說(shuō)話人。這個(gè)模型的輸出結(jié)果為3類:一是檢測(cè)是否有攻擊性錄音信號(hào),如果有則系統(tǒng)發(fā)出安全預(yù)警;二是確認(rèn)是否為目標(biāo)說(shuō)話人,如果是則進(jìn)入下一環(huán)節(jié);三是判斷是否非前兩類,如果是則提示重新輸入。該模型由8層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成。
2 實(shí)驗(yàn)及結(jié)果分析
實(shí)驗(yàn)中,訓(xùn)練數(shù)據(jù)采集方法如下:在實(shí)驗(yàn)室環(huán)境下,一個(gè)人說(shuō)10個(gè)短語(yǔ)音片段,每個(gè)短語(yǔ)音片段分別說(shuō)10次(訓(xùn)練)+1次(系統(tǒng)測(cè)試),分成10類;在采集該110個(gè)語(yǔ)音信號(hào)的同時(shí),用另一個(gè)錄音設(shè)備將其錄下來(lái),再經(jīng)過(guò)麥克風(fēng)播放并用同一個(gè)設(shè)備第二次采集,得到新的110個(gè)語(yǔ)音信號(hào);第三次采集10個(gè)非本人發(fā)音的語(yǔ)音片段,就得到了200個(gè)訓(xùn)練數(shù)據(jù)和30個(gè)系統(tǒng)測(cè)試數(shù)據(jù)。本次實(shí)驗(yàn)中兩個(gè)模型訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),比例都是4∶1,即160個(gè)模型訓(xùn)練數(shù)據(jù)和40個(gè)模型測(cè)試數(shù)據(jù)。30個(gè)系統(tǒng)測(cè)試數(shù)據(jù)則通過(guò)任務(wù)要求進(jìn)行不同的搭配,實(shí)現(xiàn)系統(tǒng)的性能測(cè)試。
訓(xùn)練階段,首先將上述采集的200個(gè)數(shù)據(jù),通過(guò)MATLAB程序轉(zhuǎn)換成訓(xùn)練要用的256*256像素灰度語(yǔ)譜圖。然后將該200個(gè)數(shù)據(jù)分為兩類:第一類是原始語(yǔ)音數(shù)據(jù),第二類是錄音設(shè)備播放的語(yǔ)音數(shù)據(jù),并作為二分類模型的訓(xùn)練數(shù)據(jù)。準(zhǔn)備完訓(xùn)練數(shù)據(jù)后,對(duì)二分類網(wǎng)絡(luò)進(jìn)行參數(shù)調(diào)整,實(shí)驗(yàn)采用2個(gè)二分類網(wǎng)絡(luò)模型(caffe-net官方提供模型及自己修改的mulrote-net模型),通過(guò)對(duì)比2個(gè)訓(xùn)練模型結(jié)果,擇優(yōu)選取。實(shí)驗(yàn)中,2個(gè)模型分別迭代3 000次,得到的模型結(jié)果如下:①模型一,訓(xùn)練網(wǎng)絡(luò)識(shí)別率為1,loss值為5.008e-05,訓(xùn)練完成的模型在測(cè)試集上的識(shí)別率為1,loss值為0.23507,識(shí)別率曲線如圖6所示;②模型二,訓(xùn)練網(wǎng)絡(luò)識(shí)別率為0.975,loss值為2.39606e-05, 訓(xùn)練完成的模型在測(cè)試集上的識(shí)別率為0.975,loss值為0.307844,識(shí)別率曲線如圖7所示。
對(duì)比兩者的訓(xùn)練結(jié)果,因?yàn)閏affe-net的識(shí)別率優(yōu)于mulrote-net,所以在VI模型中選用caffe-net網(wǎng)絡(luò)。
接下來(lái)訓(xùn)練VTM模型,將第一次采集的10個(gè)短語(yǔ)分成10類,記為(A1,A2,……A10),同樣把第二次采集的10個(gè)短語(yǔ)分成10類,記為(B1,B2,……B10),最終得到20類訓(xùn)練數(shù)據(jù)。通過(guò)MATLAB程序?qū)⒃紨?shù)據(jù)轉(zhuǎn)換成256*256像素的灰度聲譜圖,作為VTM的訓(xùn)練數(shù)據(jù)。
調(diào)整VTM訓(xùn)練網(wǎng)絡(luò)的訓(xùn)練參數(shù),分別將數(shù)據(jù)送入caffe-net和mulrote-net網(wǎng)絡(luò)訓(xùn)練,迭代3 000次,得到的訓(xùn)練結(jié)果如下:①模型一,訓(xùn)練網(wǎng)絡(luò)識(shí)別率為88%,loss值是2.28352e-07,訓(xùn)練完成的模型在測(cè)試集上的識(shí)別率為87.5%,loss值為0.263325,識(shí)別率曲線如圖8所示;②模型二,訓(xùn)練網(wǎng)絡(luò)識(shí)別率為98%,loss值是1.3113e-07,訓(xùn)練完成的模型在測(cè)試集上的識(shí)別率為97.5%,loss值為0.177345,識(shí)別率曲線如圖9所示。
對(duì)比兩者的訓(xùn)練結(jié)果,因?yàn)閙ulrote-net的識(shí)別率明顯優(yōu)于caffe-net,所以在VTM模型中選用mulrote-net網(wǎng)絡(luò)。
系統(tǒng)測(cè)試階段,數(shù)據(jù)類型分為4類:匹配數(shù)據(jù)、非攻擊性非匹配數(shù)據(jù)、攻擊性匹配數(shù)據(jù)、攻擊性非匹配數(shù)據(jù)。每一組測(cè)試數(shù)據(jù)有3個(gè)語(yǔ)音片段,其來(lái)源組成決定了系統(tǒng)測(cè)試的數(shù)據(jù)類型。本文實(shí)驗(yàn)測(cè)試了12組數(shù)據(jù),數(shù)據(jù)組成如表2所示。
3 結(jié)語(yǔ)
在被稱為“第三次技術(shù)革命”的互聯(lián)網(wǎng)時(shí)代,安全是最重要的一個(gè)環(huán)節(jié)。本文結(jié)合深度學(xué)習(xí)圖像知識(shí)和聲紋特征,在安全識(shí)別方面提出了一個(gè)解決方案。實(shí)驗(yàn)采用一種“活性”系數(shù)非常高的生物特征——聲紋,因?yàn)槠湓紨?shù)據(jù)不能被無(wú)失真地保存下來(lái),所以安全性非常高。也因?yàn)樵撎匦裕Z(yǔ)音在安全領(lǐng)域具有很大的研究?jī)r(jià)值,同時(shí)也有很多技術(shù)難題。本實(shí)驗(yàn)使用的數(shù)據(jù)都是在實(shí)驗(yàn)室環(huán)境下采集的,并手動(dòng)截取高能量語(yǔ)音區(qū)間,弱化了外界干擾對(duì)數(shù)據(jù)的影響。而在實(shí)際應(yīng)用中,語(yǔ)音信號(hào)采集不可避免會(huì)受到不同程度的外界干擾。
接下來(lái)可以研究自動(dòng)分離語(yǔ)音信息能量集中區(qū)間和外界噪音區(qū)間,并通過(guò)噪音分析對(duì)分離出來(lái)的有效語(yǔ)音區(qū)間部分進(jìn)行去噪處理。這一技術(shù)將會(huì)對(duì)語(yǔ)音的實(shí)際應(yīng)用起到關(guān)鍵性作用。
參考文獻(xiàn):
[1] LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436-444.
[2] HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2014,18(7):1527-1554.
[3] HALLIE S.The man behind the google brain: andrew NG and the quest for the new AI[EB/OL].https://www.wired.com.
[4] JOHANNES B,CHRISTIAN E.Face recognition with deep learning for mobile applications [EB/OL].http://informatikprojekt.de.
[5] VAITHYASUBRAMANIAN S,CHRISTY A.An analysis of CFG password against brute force attack for web applications[J].Contemporary Engineering Sciences,2015,8(9):367-374.
[6] 郭鳳宇,錢怡.一個(gè)密碼暴力破解系統(tǒng)的設(shè)計(jì)[J].網(wǎng)絡(luò)與信息,2009(8):30-31.
[7] VISHWAKARMA D,MADHAVAN C E V.Efficient dictionary for salted password analysis[C].IEEE International Conference on Electronics,Computing and Communication Technologies,2014:1-6.
[8] KERSTA L G.Voiceprint identification[J].Nature,1962,196(4861):1253-1257.
[9] KANE J A.Voice print recognition software system for voice identification and matching[P].US,US8595007B2.2013-11-26.
[10] LI L,LIN Y,ZHANG Z,et al.Improved deep speaker feature learning for text-dependent speaker recognition[C].Signal and Information Processing Association Summit and Conference,2015:426-429.
[11] 方植彬.信息與通信網(wǎng)絡(luò)安全技術(shù)——生物識(shí)別技術(shù)[J].電子產(chǎn)品可靠性與環(huán)境試驗(yàn),2014,32(5):55-61.
[12] SHEN Y,YANG Y.A novel data description kernel based on one-class SVM for speaker verification[C].IEEE International Conference on Acoustics,Speech and Signal Processing,2007:489-492.
[13] CHOW D,ABDULLA W H.Robust speaker identification based perceptual log area ratio and Gaussian mixture models[C].International Conference on Interspeech,2004:1761-1764.
[14] HEBERT M.Text-dependent speaker recognition[M].Springer Berlin Heidelberg,2008.
[15] VOGT R J,LUSTRI C J, SRIDHARAN S .Factor analysis modeling for speaker verification with short utterances[J].Journal of Substance Abuse Treatment,2008,10(1):11-16.
[16] VOGT R, BAKER B, SRIDHARAN S.Factor analysis subspace estimation for speaker verification with short utterances[C].Brisbane:Interspeech,Conference of the International Speech Communication Association,2013.
[17] KANAGASUNDARAM A, VOGT R, DEAN D,et al.I-vector based speaker recognition on short utterances[C].Florence:Annual Conference of the International Speech Communication Association,2011.
[18] LARCHER A,BOUSQUET P M,KONG A L,et al.I-vectors in the context of phonetically-constrained short utterances for speaker verification[C].IEEE International Conference on Acoustics,Speech,and Signal Processing,2012:4773-4776.
[19] KOUTNK J,GREFF K,GOMEZ F,et al.A clockwork RNN[J].Computer Science,2014:1863-1871.
[20] JAIN A,ZAMIR A R,SAVARESE S,et al.Structural-RNN: deep learning on spatio-temporal graphs[C].Las Vegas: IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016.
[21] TAI K S,SOCHER R,MANNING C D.Improved semantic representations from tree-structured long short-term memory networks[J].Computer Science,2015,5(1): 36.
[22] SHIN H C,ROTH H R,GAO M,et al.Deep convolutional neural networks for computer-aided detection: CNN architectures,dataset characteristics and transfer learning[J].IEEE Transactions on Medical Imaging,2016,35(5):1285-1298.
[23] ABDULNABI A H,WANG G,LU J,et al.Multi-task CNN model for attribute prediction[J].IEEE Transactions on Multimedia,2016,17(11):1949-1959.
[24] RADENOVIC′,TOLIAS G,CHUM O.CNN image retrieval learns from BoW: unsupervised fine-tuning with hard examples[C].European Conference on Computer Vision,2016:3-20.
[25] YAN Z,ZHANG H,PIRAMUTHU R,et al.HD-CNN: hierarchical deep convolutional neural networks for large scale visual recognition[C].IEEE International Conference on Computer Vision,2016:2740-2748.
(責(zé)任編輯:何 麗)