黃 濤, 陳穎悅, 陳玉明, 曾念峰
(1.廈門理工學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,福建 廈門 361024; 2.易成功(廈門)信息科技有限公司,福建 廈門 361024)
近年來,以深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)為代表的機(jī)器學(xué)習(xí)方法逐漸興起[1],在其內(nèi)部可以自動(dòng)實(shí)現(xiàn)對數(shù)據(jù)的特征學(xué)習(xí),提高工作效率.卷積神經(jīng)網(wǎng)絡(luò)模型(convolutional neural networks,CNN)作為DNN的代表性架構(gòu),更是在機(jī)器視覺[2]和圖像處理[3]等領(lǐng)域大放異彩.然而,實(shí)際生活場景中的基因組[4]、轉(zhuǎn)錄組[5]、和金融分析等數(shù)據(jù)都是非圖像形式的;傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)(Machine Learning,ML)可以在這些領(lǐng)域取得廣泛應(yīng)用,CNN卻因其輸入受限而無法適用.幸運(yùn)的是,國內(nèi)外的科研人員們從未停止過對這一研究鄰域的嘗試.Schmidhuber 于1997年研究出了LSTM網(wǎng)絡(luò)[6],它較好的克服了RNN不擅長處理長序列的問題,在自然語言處理[7]領(lǐng)域得到廣泛應(yīng)用;Yoshua等提出擅長處理序列信號的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurent neural network,RNN)[8];2017年,Google推出了基于純注意力機(jī)制[9]實(shí)現(xiàn)的Transformer網(wǎng)絡(luò)模型[10].隨后,一系列諸如GPT[11],BERT[12]等用于機(jī)器翻譯的注意力機(jī)制的網(wǎng)絡(luò)模型層出不窮.除了提出新型算法,能否通過其他手段使得卷積結(jié)構(gòu)也能具有處理部分非圖像數(shù)據(jù)的能力.帶著這樣的問題,從另一個(gè)角度出發(fā),從非圖像數(shù)據(jù)的源數(shù)據(jù)入手,試圖改變源數(shù)據(jù)的格式使其滿足卷積結(jié)構(gòu)的輸入要求.鑒于此,本文中,筆者在實(shí)驗(yàn)中將選自UCI和Kaggle平臺的連續(xù)型數(shù)據(jù)分別處理為一維和二維卷積網(wǎng)絡(luò)能夠識別的特征向量以及圖像矩陣,結(jié)合自定義的卷積網(wǎng)絡(luò)結(jié)構(gòu),尋求更加簡潔高效的非圖像數(shù)據(jù)處理方法.經(jīng)過與ML中經(jīng)典模型的比較,證明了所提出的適用于卷積結(jié)構(gòu)的非圖像數(shù)據(jù)預(yù)處理方法能夠有效的解決部分非圖像數(shù)據(jù)無法使用卷積網(wǎng)絡(luò)結(jié)構(gòu)的困境,并能夠在分類性能上取得一定的突破.
歸一化處理在模式識別[13]中應(yīng)用廣泛,其用途主要分為2類:一類作為特征提取前的預(yù)處理技術(shù);另一類是對特征提取后的特征向量進(jìn)行特征轉(zhuǎn)換.當(dāng)其作為預(yù)處理技術(shù)時(shí),可以消除不同特征間的量綱差異,從而獲得更好的分類效果.不同的歸一化方法適用于不同的數(shù)據(jù)分布模型.針對一維卷積的數(shù)據(jù)預(yù)處理方法中,選擇表現(xiàn)效果較優(yōu)的標(biāo)準(zhǔn)歸一化.
1) 標(biāo)準(zhǔn)歸一化(Z-score normalization)
(1)
鑒于圖像中相鄰元素共享相似信息的特點(diǎn),在處理面向二維卷積結(jié)構(gòu)的數(shù)據(jù)時(shí)采用了對數(shù)歸一化方法,該方法能夠在一定程度上保持原始特征間的關(guān)系.
2) 對數(shù)歸一化(Log normalization)
XMinf=minXtrain(f,:)
(2)
Xtrain(f,:)←log(Xtrain(f,:)+|XMinf|+1)
(3)
XMaxf=max(Xtrain)
(4)
(5)
其中,Minf取自所有訓(xùn)練樣本中的最小值,以便使用訓(xùn)練極值對測試集進(jìn)行歸一化操作.如果按最小值調(diào)整后,測試集中有特征小于0會被鉗制為0;相應(yīng)的,測試集中大于1的特征鉗制為1.此時(shí)的數(shù)據(jù)同樣分布在[0,1]之間.
為滿足卷積網(wǎng)絡(luò)結(jié)構(gòu)低維和圖像數(shù)據(jù)局部相關(guān)的需求,使用經(jīng)典的T-SNE非線性降維算法對源數(shù)據(jù)進(jìn)行特征提取以及可視化操作.
T-SNE主要用于將高維數(shù)據(jù)降低維度到二維或三維進(jìn)行可視化展示[14].實(shí)驗(yàn)中將數(shù)據(jù)降到二維以方便在平面中展示數(shù)據(jù)信息.T-SNE算法的實(shí)現(xiàn)分為2個(gè)主要步驟:第一步在高維空間中將樣本間歐式距離轉(zhuǎn)換為樣本的概率分布,以表達(dá)點(diǎn)與點(diǎn)之間的相似度;第二步在二維平面中重構(gòu)這些點(diǎn)的概率分布,使用梯度下降法優(yōu)化2個(gè)分布之間的KL散度.條件概率pj‖i(x)是樣本xi選擇xj作為鄰居的主要依據(jù).
(6)
其中x∈Rd,σi是以樣本xi為中心的高斯方差.與其類似,定義出低維映射樣本yi和yj之間的條件概率qj|i.
(7)
DKL(p‖q)=E[lbp(x)-lbq(x)],
(8)
(9)
圖像由若干個(gè)相關(guān)像素組成,像素的位置會對CNN的特征提取精度產(chǎn)生一定的影響.實(shí)驗(yàn)中通過余弦距離衡量樣本之間的相似度并按照相似度大小排列,將相似樣本以樣本簇的形式插入到圖像中,便于有效特征的提取.
將包含d個(gè)的特征向量(樣本)x通過轉(zhuǎn)置變換可以轉(zhuǎn)換為特征矩陣,利用T-SNE的可視化方法,可以將經(jīng)過處理的向量放置到二維笛卡爾坐標(biāo)系中.結(jié)合樣本之間的相似度,遵循“相似近鄰,迥異疏遠(yuǎn)”的原則確定特征矩陣的位置.此后,每個(gè)特征向量都可以在坐標(biāo)系中確定自己的位置.坐標(biāo)以(xj,yj)的形式存在,xj,yj分別代表原始特征向量和其在二維平面上的相似映射.確定位置之后將特征值映射到坐標(biāo)系中,形成每個(gè)樣本對應(yīng)的灰度特征圖.
圖1是使用UCI中的Cargo數(shù)據(jù)集(它有3 942個(gè)樣本和97維特征)進(jìn)行處理后生成的圖片樣例.
圖1 分類標(biāo)簽為1,2,3的樣本Fig.1 Sample Images with Classification Labels 1,2 and 3
通過以上圖像可以發(fā)現(xiàn),特征值會對灰度圖的顏色產(chǎn)生一定影響,這也是卷積神經(jīng)網(wǎng)絡(luò)判別不同類別樣本的主要依據(jù).
隨著深度學(xué)習(xí)的興盛,卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺和圖像處理中的表現(xiàn)大大超越了其他算法模型,呈現(xiàn)統(tǒng)治之勢.組合經(jīng)典的卷積結(jié)構(gòu)組件搭建自定義神經(jīng)網(wǎng)絡(luò)模型,用于分析經(jīng)過預(yù)處理的非圖像數(shù)據(jù),探索卷積結(jié)構(gòu)對連續(xù)型數(shù)據(jù)的適用性.以下詳細(xì)介紹自定義一維和二維卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建過程.
傳統(tǒng)一維CNN多用于處理時(shí)序數(shù)據(jù),它的輸入是一個(gè)特征向量和一個(gè)卷積核,輸出也是一個(gè)特征向量.實(shí)驗(yàn)中的自定義一維卷積網(wǎng)絡(luò)模型基于Sequential容器構(gòu)建,其內(nèi)部添加由Conv1D層 、BatchNormalization層以及DropOut層組合形成的一維卷積塊.卷積得到的相關(guān)特征展平后被接著放入全連接層,在輸出層中調(diào)用Softmax函數(shù)進(jìn)行概率判定,最終得到理想的函數(shù)模型.搭建簡捷高效的網(wǎng)絡(luò)模型一直是科研工作者的追求,為了降低網(wǎng)絡(luò)規(guī)模加快模型的收斂速率,采用了1*1卷積核和表現(xiàn)效果較優(yōu)的LeakyReLu激活函數(shù).緊接著,在模型裝配階段設(shè)置了Adam優(yōu)化器并指定適用于多分類任務(wù)的交叉熵?fù)p失函數(shù)進(jìn)行參數(shù)優(yōu)化.最后,對封裝好的模型進(jìn)行訓(xùn)練,在其內(nèi)部啟用EarlyStopping機(jī)制以保證獲得最佳的模型參數(shù),避免過擬合現(xiàn)象的發(fā)生.自定義一維卷積網(wǎng)絡(luò)模型如圖2所示.
二維卷積神經(jīng)網(wǎng)絡(luò)是整個(gè)卷積神經(jīng)網(wǎng)絡(luò)體系的典型代表,它是圖像處理任務(wù)的不二選擇.自定義二維卷積網(wǎng)絡(luò)模型由經(jīng)典的”Conv-BN-ReLu-Pooling”標(biāo)配單元塊以及2個(gè)全連接層堆疊而成.不同于自定義一維卷積網(wǎng)絡(luò)模型,二維卷積模型的卷積層內(nèi)部分別使用了3*3和5*5卷積核,以便于提取更多有益信息.此外,為了縮減特征圖的尺寸,降低網(wǎng)絡(luò)的參數(shù)量,模型中加入了可用于信息聚合的最大池化層.具體的自定義二維卷積網(wǎng)絡(luò)模型如圖3所示.
圖2 自定義一維卷積網(wǎng)絡(luò)模型架構(gòu) 圖3 自定義二維卷積網(wǎng)絡(luò)模型架構(gòu)Fig.2 Custom 1D Convolutional Network Model Fig.3 NCNN Network Architecture Diagram
3.3.1 一維卷積網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理方法(One-dimensional convolutional network data preprocessing method,CNPM1D)
輸入:多維連續(xù)數(shù)據(jù)值.
輸出:不同類別的概率值.
步驟:
1) 讀取數(shù)據(jù)集,進(jìn)行數(shù)據(jù)清洗(填充空白值,刪除奇異數(shù)據(jù)等);
2) 切分?jǐn)?shù)據(jù)集指定標(biāo)簽特征,將數(shù)據(jù)集按照8∶2的比例分割為訓(xùn)練集和測試集;
3) 使用Z-score normalization對數(shù)據(jù)進(jìn)行歸一化處理;
4) 改變訓(xùn)練集和測試集數(shù)據(jù)的形狀(改為特征向量形式)用于網(wǎng)絡(luò)的輸入;
5) 構(gòu)建自定義一維卷積模型,指定超參數(shù)和早停機(jī)制并裝配模型;
6) 模型訓(xùn)練、參數(shù)保存,可視化訓(xùn)練過程.
3.3.2 二維卷積網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理方法(Two-dimensional convolutional network data preprocessing method,CNPM2D)
輸入:多維連續(xù)數(shù)據(jù)值.
輸出:不同類別的概率值.
步驟:
1) 讀取數(shù)據(jù)集、進(jìn)行數(shù)據(jù)清洗,指定標(biāo)簽項(xiàng);
2) 數(shù)據(jù)隨機(jī)重采樣,降低不平衡數(shù)據(jù)集對分類結(jié)果的影響;
3) 按照8∶2的比例切分?jǐn)?shù)據(jù)集;
4) 對數(shù)據(jù)進(jìn)行Z-score Normalization歸一化處理;
5) 運(yùn)用T-SNE算法對源數(shù)據(jù)進(jìn)行降維操作,使用轉(zhuǎn)置變換將降維后的數(shù)據(jù)轉(zhuǎn)換為圖像矩陣;
6) 可視化得到的灰度圖像,判別圖像所屬類別;
7) 構(gòu)建自定義二維卷積網(wǎng)絡(luò)模型,將固定大小為120*120的圖像送入卷積模型進(jìn)行卷積操作;
8) 最后保存模型,使用模型對測試集進(jìn)行類別判斷,進(jìn)行訓(xùn)練過程的可視化展示.
為了驗(yàn)證自定義網(wǎng)絡(luò)模型的泛化能力,在選取數(shù)據(jù)集時(shí)從樣本容量、特征數(shù)量等多方面進(jìn)行考量,最終從UCI和Kaggle平臺上選取了6個(gè)常用的數(shù)據(jù)集,各個(gè)數(shù)據(jù)集的具體信息如表 1 所示.
表1 實(shí)驗(yàn)中所選用數(shù)據(jù)集的詳細(xì)信息Tab.1 Specific Information of the Data Set Selected for the Experiment
提出了2種針對卷積結(jié)構(gòu)的數(shù)據(jù)預(yù)處理方法,分別適用于一維和二維卷積神經(jīng)網(wǎng)絡(luò).實(shí)驗(yàn)中以分類精度為評估指標(biāo),從多個(gè)角度進(jìn)行數(shù)據(jù)分析和實(shí)驗(yàn)對比,以探究所提方法的實(shí)驗(yàn)效果.
基于常用卷積結(jié)構(gòu)構(gòu)建的兩種自定義網(wǎng)絡(luò)模型用于處理經(jīng)過預(yù)處理的目標(biāo)數(shù)據(jù).同一數(shù)據(jù)集先后被轉(zhuǎn)換為特征向量和圖像矩陣,用于比較一維和二維卷積網(wǎng)絡(luò)模型的分類性能.表2是二者的實(shí)驗(yàn)效果對比.
表2 CNPM1D 與 CNPM2D 模型的分類性能對比Tab.2 Comparison of the Classification Performance of CNPM1D and CNPM2D Models
通過數(shù)據(jù)比較可以發(fā)現(xiàn),相同條件下,一維卷積模型的分類精度要略優(yōu)于二維卷積,這與2者的適用范圍所關(guān)聯(lián).一維卷積常用于處理信號和時(shí)序等連續(xù)型數(shù)據(jù),二維卷積網(wǎng)絡(luò)普遍用于圖像數(shù)據(jù).實(shí)驗(yàn)中通過降維,數(shù)值轉(zhuǎn)換等手段將原本連續(xù)的數(shù)值型數(shù)據(jù)轉(zhuǎn)換為圖像矩陣,雖說基本符合二維卷積的實(shí)驗(yàn)要求,但必定會在轉(zhuǎn)換的過程中造成有益特征的丟失,產(chǎn)生實(shí)驗(yàn)誤差.此外,一維卷積結(jié)構(gòu)在處理連續(xù)型數(shù)據(jù)具有先天的優(yōu)勢,產(chǎn)生這樣的實(shí)驗(yàn)效果也符合設(shè)計(jì)初期的猜想.
傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域的分類器憑借其簡單易實(shí)現(xiàn)的特點(diǎn)得到工業(yè)界的廣泛應(yīng)用,實(shí)驗(yàn)中使用幾種經(jīng)典的分類器模型與所提出的自定義卷積模型進(jìn)行分類效果比較.其中LR,SVM,DT,GB分別代表邏輯回歸、支持向量機(jī)、隨機(jī)森林以及高斯貝葉斯分類模型.表3選用CNPM1D與其他算法進(jìn)行比較,具體情況如下.
表3 CNPM1D與不同機(jī)器學(xué)習(xí)分類器的性能對比Tab.3 Performance Comparison of CNPM1D with Different Machine Learning Classifiers
不難發(fā)現(xiàn),與其他算法相比,CNPM1D方法在多數(shù)數(shù)據(jù)集上取得了較好的分類效果.在常用的breast cancer wisconsin中,CNPM1D的分類精度高出分類效果最好的LR算法近2.6 %,達(dá)到了99.12 %.在多分類問題上,該方法也可以取得較為優(yōu)異的成績.例如cargo 2000 freight tracing and tracing上其能夠與DT算法一樣,取得1.0的精度.雖然它并非在所有的數(shù)據(jù)集上都能獲得最好的分類效果,但相對于其他機(jī)器學(xué)習(xí)算法來說有了一定程度的提升.
實(shí)驗(yàn)過程中使用可視化技術(shù)展現(xiàn)訓(xùn)練過程可以及時(shí)發(fā)現(xiàn)模型存在的問題,進(jìn)而調(diào)整出更加精確的模型.CNPM1D方法在Breast Cancer Wisconsin數(shù)據(jù)集上的訓(xùn)練精確度和訓(xùn)練損失如圖4-5所示,其中縱坐標(biāo)的t,v分別代表模型的訓(xùn)練集和驗(yàn)證集的精度,橫坐標(biāo)e代表訓(xùn)練次數(shù),縱坐標(biāo)a表示精度,l是損失度.
圖4 模型訓(xùn)練精確度圖 圖5 模型訓(xùn)練精確度圖Fig.4 Model Training Accuracy Diagram Fig.5 Model Training Accuracy Diagram
通過圖4和圖5可知,自定義卷積網(wǎng)絡(luò)模型收斂速度較快,訓(xùn)練過程比較穩(wěn)定.訓(xùn)練集在數(shù)據(jù)迭代80~100次之間達(dá)到精度頂峰,驗(yàn)證集精確度有所波動(dòng)但整體上與訓(xùn)練集保持相同趨勢.模型的損失呈明顯下降趨勢,迭代的前20次損失下降最為明顯,80~100次迭代期間損失較為平穩(wěn),基本達(dá)到了最低值;所以該模型在迭代80~100次的情況下可以取得最好的分類結(jié)果.
傳統(tǒng)的一維CNN多用于時(shí)序預(yù)測、文本處理等領(lǐng)域,二維CNN在圖像處理方面獨(dú)占鰲頭.本文中,筆者從細(xì)微處入手,探索卷積網(wǎng)絡(luò)處理非圖像數(shù)據(jù)(連續(xù)數(shù)值)的能力.經(jīng)過實(shí)驗(yàn)驗(yàn)證,發(fā)現(xiàn)卷積結(jié)構(gòu)在非圖像數(shù)據(jù)上也能夠取得優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法的效果,進(jìn)而提出了一維卷積網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理方法(CNPM1D)和二維卷積網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理方法(CNPM2D).經(jīng)過與傳統(tǒng)的分類模型進(jìn)行效果對比,發(fā)現(xiàn)使用了預(yù)處理方法后的卷積模型尤其是自定義一維卷積網(wǎng)絡(luò)在低維的數(shù)據(jù)集上效果較好.與CNPM2D結(jié)合使用的二維自定義卷積網(wǎng)絡(luò)的效果雖不一維卷積那么明顯,但是也在傳統(tǒng)模型的效果上有了一定的提升.此外,不同的歸一化方法對實(shí)驗(yàn)結(jié)果也會產(chǎn)生較大的影響,這就需要在數(shù)據(jù)預(yù)處理之前對數(shù)據(jù)分布有一個(gè)大致的了解,確保可以選擇最佳的預(yù)處理方法,從而獲得更好的分類效果.大數(shù)據(jù)時(shí)代下信息交錯(cuò)、數(shù)據(jù)互融,需要使用合適的降維算法去除干擾特征,降低網(wǎng)絡(luò)的復(fù)雜度和參數(shù)規(guī)模;以簡單的網(wǎng)絡(luò)模型完成復(fù)雜的任務(wù).此次的實(shí)驗(yàn)只是通過簡單的方法嘗試了卷積網(wǎng)絡(luò)處理非圖像數(shù)據(jù)的可能性,工作上還存在著很多可研究空間.如何將非圖像數(shù)據(jù)轉(zhuǎn)化為彩色圖像,卷積網(wǎng)絡(luò)結(jié)構(gòu)能否直接處理聲音等非連續(xù)數(shù)值型數(shù)據(jù)等等.未來的工作中,將繼續(xù)致力于探索CNN對非圖像數(shù)據(jù)的適用性,完善非圖像卷積神經(jīng)網(wǎng)絡(luò)的用途.