張文田
摘要:在大數(shù)據(jù)時代下,現(xiàn)實領(lǐng)域中存在很多帶標簽樣本較少的數(shù)據(jù)集,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法在處理這種數(shù)據(jù)集時分類準確率較低,因此本文提出了基于BP神經(jīng)網(wǎng)絡(luò)的參數(shù)遷移學習算法,該算法以傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)為框架,通過對源領(lǐng)域與目標域之間的相似度學習,把源領(lǐng)域中有用的參數(shù)信息遷移到目標域中,提高目標域中測試集的分類準確率。通過對UCI數(shù)據(jù)集進行實驗,證明了在小數(shù)據(jù)樣本下該算法比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法有更好的效果。
關(guān)鍵詞 :BP神經(jīng)網(wǎng)絡(luò);參數(shù)遷移學習;相似度;小數(shù)據(jù)樣本;大數(shù)據(jù)
中圖分類號:TP181 文獻標識碼:A 文章編號:1009-3044(2019)04-0189-03
Abstract:In the era of big data, there are many data sets with few label samples in the reality field. The traditional neural network algorithm has low classification accuracy when dealing with this data set. Therefore, this paper proposes a BP neural network based parameter transfer learning algorithm. Based on the traditional BP neural network, the algorithm migrates the useful parameter information in the source domain to the target domain by learning the similarity between the source domain and the target domain, and improves the classification accuracy of the test set in the target domain. Experiments on the UCI dataset show that the algorithm has better effects than the traditional neural network algorithm under small data samples.
Key words: BP neural network;parameter transfer learning;similarity;small data samples;big data
1 引言
隨著大數(shù)據(jù)和云計算等新技術(shù)的發(fā)展,機器學習成為大數(shù)據(jù)時代主要的技術(shù)基石之一,傳統(tǒng)的機器學習對數(shù)據(jù)有兩個基本要求:1)監(jiān)督算法需要利用大量帶標簽的數(shù)據(jù),需要有足夠的訓(xùn)練樣本;2)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)需要滿足獨立同分布[1]。但是在現(xiàn)實場景中,有很多領(lǐng)域不具備大量的訓(xùn)練數(shù)據(jù),例如醫(yī)學、安全監(jiān)控、任務(wù)追蹤等領(lǐng)域;由于現(xiàn)實場景的數(shù)據(jù)多有缺失或噪聲,導(dǎo)致訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集不在同一分布下[2]。在這兩種情況下,利用傳統(tǒng)的機器學習進行建模會導(dǎo)致分類準確率不高,逼近效果較差,因此遷移學習應(yīng)運而生,遷移學習就是為了更好地利用各種數(shù)據(jù)而提出的新的研究方向[3]。
遷移學習的學習機制是利用源領(lǐng)域已有的知識對不同但相關(guān)的目標領(lǐng)域進行求解的一種新的機器學習方法[4]。遷移學習作為一種新的機器學習方法引起了國內(nèi)外專家和學者的廣泛關(guān)注和研究。Pan[5]、Weiss[6]、莊福振[4]等人對遷移學習進行了比較深入的綜述。按照遷移內(nèi)容劃分,遷移學習可分為基于特征、基于參數(shù)、基于實例以及基于關(guān)系這四種類型。按照源領(lǐng)域的個數(shù),遷移學習可以分為單源遷移學習和多源遷移學習。Dai 等人[7]提出了 TrAdaBoost 算法、Pan 等人[8]提出了TCA 算法、張倩等人[9]提出的多源動態(tài)TrAdaBoost實例遷移學習算法、Yao 等人[10]提出了TaskTrAdaBoost和 MultiSourceTrAdaBoost 算法、Eaton 等人[11]提出的 TransferBoost 算法。
以上的遷移學習方法多以決策樹和支持向量機(SVM)作為基學習器,以BP神經(jīng)網(wǎng)絡(luò)為基學器的遷移學習還未被探討過,所以本文提出一種基于BP神經(jīng)網(wǎng)絡(luò)的遷移學習算法Tr-BP。該算法以BP神經(jīng)網(wǎng)絡(luò)為基學習器,在真實標簽和預(yù)測標簽誤差最小的約束下進行相似度學習,得到源域與目標域的相似度,最后構(gòu)建適用于目標域的新的神經(jīng)網(wǎng)絡(luò)分類器。將新的模型應(yīng)用于目標域,提高了目標域的分類準確率,并通過實驗驗證了這一算法。
2 相關(guān)工作
2.1 經(jīng)典的BP神經(jīng)網(wǎng)絡(luò)
由圖1可知,含有一個隱含層的BP神經(jīng)網(wǎng)絡(luò)可分為兩部分,第一部分是輸入層與隱含層的連接,第二部分是隱含層與輸出層的連接。本文重點研究的是BP神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)[Wnk]和[Vjk]以一定的相似度遷移到目標領(lǐng)域。在BP神經(jīng)網(wǎng)絡(luò)中,利用梯度下降法優(yōu)化損失函數(shù)[Ei],更新權(quán)重參數(shù)[Wnk]和[Vjk],更新公式如式(4),(5),(6),(7),其中[η]為學習率,在訓(xùn)練時可以先把[η]固定一個值,然后根據(jù)擬合效果動態(tài)調(diào)整。把更新過的權(quán)重系數(shù)作為下一個樣本的權(quán)重系數(shù),一直循環(huán)下去,當損失函數(shù)達到閾值時權(quán)重參數(shù)達到最優(yōu),得到適合數(shù)據(jù)樣本的BP神經(jīng)網(wǎng)絡(luò)分類器。
3.1 Tr-BP算法原理構(gòu)建
Tr-BP算法原理如下圖2所示,Tr-BP算法首先運用源領(lǐng)域的數(shù)據(jù)樣本[DT]按照式(1)-(7)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),使得在訓(xùn)練集上的經(jīng)驗風險最小化,得到最優(yōu)的權(quán)重參數(shù)矩陣[W'T],在訓(xùn)練過程中[WT]的初始值[W0T]是隨機初始化。根據(jù)參數(shù)遷移學習以及相似度學習的策略,用[as]表示源領(lǐng)域與目標領(lǐng)域的相似程度,定義為相似系數(shù),則[Ws=asW'T],[as]的初始值[a0s]可以通過網(wǎng)格搜索進行選取,取值范圍為[0,0.1,1]。然后利用目標域中帶標簽的數(shù)據(jù)[Tv]訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),其中網(wǎng)絡(luò)權(quán)重參數(shù)矩陣[Ws]的初始值[W0s=a0sW'T],在利用梯度下降法進行優(yōu)化時,不再優(yōu)化[Ws],而是優(yōu)化相似系數(shù)[as],當訓(xùn)練集的經(jīng)驗風險最小化時,得到最優(yōu)的[a's],此時得到目標域最優(yōu)的網(wǎng)絡(luò)權(quán)重參數(shù)矩陣[W's=a'sW'T]。通過參數(shù)遷移以及相似系數(shù)的最優(yōu)化學習,成功把源領(lǐng)域的有用參數(shù)信息遷移到目標域中,提高目標域分類的準確率。
3.2 Tr-BP 算法流程
遷移學習目標域分類器具體算法流程如下:
1)通過式(1)-(7)獲得適用于源領(lǐng)域的BP神經(jīng)網(wǎng)絡(luò)最優(yōu)的權(quán)重參數(shù)矩陣[W'T];
2)通過網(wǎng)格搜索的方法選取相似系數(shù)的初始值[a0s],選取范圍為[0,0.1,1];
3)得到目標域構(gòu)造的BP神經(jīng)網(wǎng)絡(luò)權(quán)重系數(shù)矩陣初始值[W0s=a0sW'T];
4)利用式(1)-(7)訓(xùn)練目標域構(gòu)造的神經(jīng)網(wǎng)絡(luò),優(yōu)化相似系數(shù)[as],得到最優(yōu)的相似系數(shù)[a's];
5)得到目標域構(gòu)造的BP神經(jīng)網(wǎng)絡(luò)最優(yōu)的權(quán)重系數(shù)矩陣[W's=a'sW'T],因此得到適用于目標域的BP神經(jīng)網(wǎng)絡(luò);
6)最后利用5)得到的BP神經(jīng)網(wǎng)絡(luò)預(yù)測目標域無標簽的數(shù)據(jù)[Tv]的標簽向量。
4 實驗結(jié)果與分析
4.1 實驗準備和說明
4.2 Letter-recognition數(shù)據(jù)集
本文選取的是UCI中的Letter-recognition數(shù)據(jù)集,數(shù)據(jù)集是由A-Z26個英文字母圖片組成,每個實例代表一個字母。每個實例有16個特征,每個特征都代表著一定的含義由于數(shù)據(jù)集本身是整數(shù)類型,故需要把數(shù)據(jù)歸一化后方可使用本文把該數(shù)據(jù)集分成了6組實驗,其中母B,D,M,W,E,F(xiàn)為正樣本數(shù)據(jù),J-Z隨機選取作為負樣本數(shù)據(jù),所選取的目標域與源領(lǐng)域之間是有一定相似性和差異性的,且分布不同但相似,符合遷移學習的前提。本文將第一個字母作為目標任務(wù),另外一個字母作為源領(lǐng)域數(shù)據(jù),源領(lǐng)域數(shù)據(jù)集中正樣本有200個,負樣本有100個,目標域數(shù)據(jù)集中正樣本有100個,負樣本有100個,其中20%作為帶標簽的訓(xùn)練集,80%作為無標簽的測試集。表1是Letter-recognition數(shù)據(jù)集在多源情況下實驗設(shè)計的形式。
表2是Letter-recognition數(shù)據(jù)集的實驗結(jié)果,結(jié)果中加粗的字體是實驗中分類效果最好的。通過表2可以看出,Tr-BP算法在各組實驗的分類準確率比傳統(tǒng)的機器學習準確率都要高,證明了該算法的實用性較強。從結(jié)果來看,傳統(tǒng)的機器學習沒有引入遷移學習,同時也沒有引入目標域與源領(lǐng)域之間的相似度,無法有效的學習出源領(lǐng)域的參數(shù)信息,因此實用性低于Tr-BP算法。
從上表1可以看出,本文設(shè)計的實驗是以兩個字母為一組,分別進行令字母作為目標域與源領(lǐng)域之間相互替換。
4.3 Wine Quality數(shù)據(jù)集
UCI中的Wine Quality 數(shù)據(jù)集記錄了紅酒和白酒兩個數(shù)據(jù)集信息,每個數(shù)據(jù)集的特征為:fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulphurdioxide,density,pH,sulphates,alcohol;標簽表示酒的質(zhì)量:quality,取值范圍是 0~10,即質(zhì)量越好越接近10。其中紅酒有1599個樣本,白酒有4898 個樣本。所有樣本數(shù)據(jù)需要進行歸一化處理。本文隨機取白酒中的600個作為源領(lǐng)域,紅酒的400個樣本作為目標域,取目標域的10%為訓(xùn)練集,剩余的90%為測試集。實驗結(jié)果如表 3 所示。從結(jié)果中可以看出在預(yù)測白酒質(zhì)量上Tr-BP算法比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法效果好,可以更好地預(yù)測小樣本數(shù)據(jù),當白酒帶標簽樣本很少時,傳統(tǒng)的機器學習不能很好地對白酒的質(zhì)量進行分類。紅酒樣本與白酒樣本具有相同的特征空間,分布不同但相似。因此遷移學習可以應(yīng)用于不同分布但相似的數(shù)據(jù)集,從源領(lǐng)域中可以提取可用于目標域的參數(shù)歷史知識,幫助小樣本的數(shù)據(jù)得到更好的預(yù)測效果。
5結(jié)論
本文以經(jīng)典的BP神經(jīng)網(wǎng)絡(luò)為基學習器,增加源領(lǐng)域與目標域的相似度,引入?yún)?shù)遷移學習,把源領(lǐng)域中有用的參數(shù)信息遷移到目標域中。針對在帶標簽樣本數(shù)據(jù)少的情況下,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)預(yù)測準確率低,逼近效果差的問題進行討論,提出了基于BP神經(jīng)網(wǎng)絡(luò)的參數(shù)遷移學習算法,該算法把參數(shù)遷移學習與相似度學習相結(jié)合,使得該算法可以有效地學習源領(lǐng)域與目標領(lǐng)域之間的相似度,并通過實驗證明了在帶標簽樣本較少,源領(lǐng)域與目標域分布不同但相似的情況下,引入?yún)?shù)遷移學習算法可以提高預(yù)測準確率,有效地解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)逼近小樣本數(shù)據(jù)集時準確率低的缺點。
參考文獻:
[1] 莊福振,羅平,何清,等.遷移學習研究進展[J].軟件學報,2015,26(1):26-39.
[2] 鄭雪輝, 王士同.基于遷移學習的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)學習[J].計算機工程與應(yīng)用唯一官方網(wǎng)站, 2016, 52(5):6-10.
[3] Pan S J, Yang Q. A Survey on Transfer Learning[J].IEEE Transactions on Knowledge & Data Engineering, 2010, 22(10):1345-1359.
[4] huang F, Luo P, He Q, et al. Survey on transfer learning research[J].Journal of Software, 2015(26):26-39.
[5] Pan S J, Yang Q. A Survey on Transfer Learning[J].IEEE Transactions on Knowledge & Data Engineering,2010,22(10):1345-1359.
[6] Weiss K, Khoshgoftaar T M, Wang D D. A survey of transfer learning[J].Journal of Big Data, 2016,3(1):9.
[7] Dai W, Yang Q, Xue G R, et al. Boosting for transfer learning[C]//International Conference on Machine Learning,2007.
[8] Pan S J, Tsang I W, Kwok J T,et al. Domain Adaptation via Transfer Component Analysis[J].IEEE Transactions on Neural Networks,2011,22(2):199-210.
[9] Qian Z, Ming L I, Xue-Song W, et al.Instance-based Transfer Learning for Multi-source Domains[J]. Acta Automatica Sinica,2014,40(6):1176-1183.
[10] Yao Y, Doretto G. Boosting for transfer learning with multiple sources[J].2010.
[11] Eaton E, Desjardins M. Selective transfer between learning tasks using task-based boosting[C]//Aaai Conference on Artificial Intelligence,AAAI Press,2011.
【通聯(lián)編輯:唐一東】