王舒梵,嚴(yán) 濤,姜新盈
(上海工程技術(shù)大學(xué) 數(shù)理與統(tǒng)計學(xué)院,上海 201620)
信息化時代加快了數(shù)據(jù)量的增長速度,各行各業(yè)的數(shù)據(jù)總數(shù)日漸龐大,為在海量數(shù)據(jù)資源中挖掘出隱藏規(guī)律,聚類算法應(yīng)運而生且重要性日益顯著.在同一數(shù)據(jù)集中,若某類別樣本個數(shù)遠(yuǎn)超出余下類別樣本個數(shù),則該數(shù)據(jù)集叫做不平衡數(shù)據(jù)[1].此類數(shù)據(jù)多用于故障診斷、目標(biāo)檢測等實際應(yīng)用中,但當(dāng)前算法大部分都是以數(shù)據(jù)集均衡分布為前提的,在處理不平衡數(shù)據(jù)時極易偏向多數(shù)類,產(chǎn)生錯分情況,降低分類準(zhǔn)度,所以,研究不平衡數(shù)據(jù)集的數(shù)據(jù)挖掘方法具有重要的實踐意義.
向鴻鑫等人[2]通過總結(jié)常用的不平衡數(shù)據(jù)預(yù)處理方法與挖掘算法,從多維度梳理策略性能,分析各應(yīng)用領(lǐng)域的不平衡問題與解決方案后,實現(xiàn)不平衡數(shù)據(jù)挖掘方法綜述; 蔡莉等人[3]構(gòu)建出一種時空特征位置數(shù)據(jù)融合模型,通過數(shù)據(jù)與算法層面,解決不平衡數(shù)據(jù)的挖掘問題,利用架構(gòu)的綜合評價指標(biāo),反映聚類質(zhì)量,融合不平衡數(shù)據(jù)后,完成熱點區(qū)域挖掘; 文獻(xiàn)[4]中許統(tǒng)德等人設(shè)計的多層級聯(lián)式少數(shù)類聚類高精度數(shù)據(jù)挖掘算法中,在聚類欠采樣的前提下,聚類多數(shù)類樣本,獲取與少數(shù)類相同數(shù)量的質(zhì)心,架構(gòu)新的平衡訓(xùn)練集,采用合成少數(shù)類過采樣技術(shù)(Synthetic Minority Oversampling TEchnique,SMOTE)過采樣,級聯(lián)K-means聚類與C4.5決策樹算法,改善分類決策邊界.
鑒于上述文獻(xiàn)方法在融合不平衡數(shù)據(jù)樣本時存在一定的盲目性,故基于譜聚類欠取樣,采用自編碼網(wǎng)絡(luò)來構(gòu)架一種不平衡數(shù)據(jù)挖掘方法.通過譜聚類方法聚類多數(shù)類數(shù)據(jù),在更改數(shù)據(jù)空間結(jié)構(gòu)的基礎(chǔ)上,有選擇地欠取樣處理了多數(shù)類數(shù)據(jù)集,通過選取代表性數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),經(jīng)過數(shù)據(jù)篩選,使分類邊界適當(dāng)偏移,提升劃分準(zhǔn)確率; 利用自編碼器升、降維數(shù)據(jù),實現(xiàn)初始數(shù)據(jù)重構(gòu); 引入網(wǎng)絡(luò)調(diào)整操作,增加了目標(biāo)領(lǐng)域網(wǎng)絡(luò)的學(xué)習(xí)空間,使其與目標(biāo)領(lǐng)域樣本特征表示更匹配.
譜聚類就是按照譜圖理論[5]完成數(shù)據(jù)分類,將聚類問題轉(zhuǎn)換成無向圖多路徑劃分問題.
采用下列公式界定無向圖G的度矩陣:
譜聚類算法流程具體描述如下:
(3)經(jīng)過標(biāo)準(zhǔn)化處理建立拉普拉斯矩陣;
在不平衡數(shù)據(jù)挖掘過程中,多數(shù)類數(shù)據(jù)通常會攜帶多個冗余數(shù)據(jù)信息與噪聲數(shù)據(jù),導(dǎo)致分類邊界偏移至少數(shù)類數(shù)據(jù)方向,加大錯分概率,若想解決該問題,就要對多數(shù)類數(shù)據(jù)實施相應(yīng)處理,即欠取樣處理,使分類邊界偏移至多數(shù)類數(shù)據(jù)方向.傳統(tǒng)欠取樣處理方法多為去除與邊界距離較遠(yuǎn)的數(shù)據(jù)點,或隨機去除多數(shù)類數(shù)據(jù),這種不考慮數(shù)據(jù)信息的處理手段雖然均衡了不同類數(shù)據(jù)集,但分類界限調(diào)整得并不夠理想,因此,采用譜聚類方法聚類多數(shù)類數(shù)據(jù),在更改數(shù)據(jù)空間結(jié)構(gòu)的基礎(chǔ)上,有選擇地欠取樣處理了多數(shù)類數(shù)據(jù)集,通過選取代表性數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),經(jīng)過數(shù)據(jù)篩選,獲取分類邊界偏移量.
通過訓(xùn)練令網(wǎng)絡(luò)輸入與輸出相等,完成數(shù)據(jù)隱藏特征學(xué)習(xí)的一種神經(jīng)網(wǎng)絡(luò)模型就是自編碼器(Auto-Encoder,AE)[8],作為深度學(xué)習(xí)網(wǎng)絡(luò)的一種主要結(jié)構(gòu),自編碼網(wǎng)絡(luò)在深度神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練中被廣泛應(yīng)用.該網(wǎng)絡(luò)即便不用帶標(biāo)簽數(shù)據(jù)樣本,也能夠達(dá)成訓(xùn)練目的,也就是說,其學(xué)習(xí)過程屬于無監(jiān)督學(xué)習(xí).自編碼網(wǎng)絡(luò)中的編碼階段是輸入數(shù)據(jù)學(xué)習(xí)至高效表示特征,解碼階段是以習(xí)得的隱藏特征為依據(jù),實現(xiàn)初始數(shù)據(jù)重構(gòu).自編碼器經(jīng)過升、降維數(shù)據(jù),把提取出來的數(shù)據(jù)特征轉(zhuǎn)換為適用、高效的隱藏特征后,輸送至有監(jiān)督學(xué)習(xí)模型內(nèi),即可實現(xiàn)挖掘目標(biāo).圖1所示為自編碼器的基本框架形式,由輸入層、輸出層以及隱含層組成,近似于一個3層神經(jīng)網(wǎng)絡(luò)[9].
圖1 自編碼器框架示意圖
假設(shè)(x1,x2,···,xi)是一個輸入樣本,Sigmoid激活函數(shù)[10]用S表示,輸入層與隱含層間、隱含層與輸出層間的權(quán)值分別為w1與w2,則自編碼器前向傳播表達(dá)式如式(4)和式(5)所示.
由于自編碼器的訓(xùn)練標(biāo)準(zhǔn)期望是輸入與輸出相等,所以,采用下列表達(dá)式描述自編碼器的最終學(xué)習(xí)結(jié)果:
根據(jù)各隱藏單元數(shù),獲取各維度隱藏特征,升、降維處理初始數(shù)據(jù),通過堆疊多個自編碼器,結(jié)合約束條件,實現(xiàn)各層面的數(shù)據(jù)高效表示學(xué)習(xí).
利用無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí),在譜聚類欠取樣條件下架構(gòu)用于挖掘不平衡數(shù)據(jù)的自編碼網(wǎng)絡(luò).因為無標(biāo)簽樣本數(shù)據(jù)在源領(lǐng)域與目標(biāo)領(lǐng)域中均可輕易取得,因此,當(dāng)最大均值差異[11]比預(yù)設(shè)閾值低時,直接跳過網(wǎng)絡(luò)調(diào)整階段,無監(jiān)督訓(xùn)練目標(biāo)領(lǐng)域數(shù)據(jù); 反之,當(dāng)最大均值差異比預(yù)設(shè)閾值高時,按照圖2中所示的自編碼網(wǎng)絡(luò)形式進(jìn)行調(diào)整,并完成隨機初始化.網(wǎng)絡(luò)調(diào)整操作增加了目標(biāo)領(lǐng)域網(wǎng)絡(luò)的學(xué)習(xí)空間,使其與目標(biāo)領(lǐng)域樣本特征表示更匹配.
圖2 自編碼網(wǎng)絡(luò)結(jié)構(gòu)示意圖
在自編碼網(wǎng)絡(luò)中輸入譜聚類欠取樣處理的不平衡數(shù)據(jù)集合,依照以下流程實現(xiàn)數(shù)據(jù)挖掘:
(2)若多數(shù)類數(shù)據(jù)樣本有n個,則高斯核[12]相似矩陣表達(dá)式如下:
(4)根據(jù)各聚類結(jié)果以及聚類中心與少數(shù)類數(shù)據(jù)點的間距大小,選取代表性數(shù)據(jù)點,使分類界面偏移至多數(shù)類樣本,并最大程度刪除多數(shù)類數(shù)據(jù)點的邊界點.各聚類結(jié)果中,數(shù)據(jù)點選用數(shù)量隨著多數(shù)類樣本個數(shù)的增加而增多,隨著聚類中心與少數(shù)類數(shù)據(jù)點間距的增加而上升,基于此,采用下列選取公式,篩選出有效數(shù)據(jù)點.
(6)訓(xùn)練上述多數(shù)類代表數(shù)據(jù)點與所有少數(shù)類數(shù)據(jù),將處理完的數(shù)據(jù)輸入自編碼網(wǎng)絡(luò),在相同數(shù)據(jù)空間中,實現(xiàn)其與譜聚類算法的無縫連接,選取相同參數(shù),令網(wǎng)絡(luò)和參數(shù)與譜聚類相似矩陣保持一致.
(7)根據(jù)上述訓(xùn)練得出的分類界面,完成不平衡數(shù)據(jù)挖掘.
選用具有不同實際應(yīng)用背景的UCI數(shù)據(jù)集[13],從中抽取sonar、breast-w、vehicle、artificial、pendigits、letter、page-blocks、car、seg1、yeast5等10組數(shù)據(jù)作為測試集(如表1所示),驗證挖掘策略的有效性.當(dāng)數(shù)據(jù)包含多個類別時,設(shè)定任意一類為少數(shù)類,多數(shù)類則為其余各類別的合并結(jié)果,所有不平衡數(shù)據(jù)集均經(jīng)過譜聚類欠取樣處理.
表1 UCI數(shù)據(jù)集具體信息統(tǒng)計表
將表1中的不平衡度劃分成下列等級表,如表2所示.
表2 不平衡度等級表
sonar與breast-w兩個低度不平衡等級數(shù)據(jù)集的選取原因是驗證挖掘方法在處理一般數(shù)據(jù)集時的有效性.
針對不平衡數(shù)據(jù)集,采用合理的查全率 Recall、查準(zhǔn)率 Precision、綜合F-measure、AUC(Area Under ROC Curve,ROC曲線下方圖面積)值、G-means等類別不平衡評估指標(biāo),使少數(shù)類挖掘情況得以充分反映,各指標(biāo)均以表3中所示的混淆矩陣為依據(jù)完成創(chuàng)建.
表3 類別混淆矩陣表
其中,具有描述少數(shù)類分類性能的指標(biāo)為F-measure,是查全率與查準(zhǔn)率的調(diào)和均值; AUC作為不同判決閾值對應(yīng)的分類性能反映指標(biāo),性能隨數(shù)值的增加而提升.各評估指標(biāo)表達(dá)式分別如下所示:
分別模擬文獻(xiàn)[2-4]方法以及本文方法在挖掘10組不平衡數(shù)據(jù)集時的效果,通過對比不同方法的評估指標(biāo)數(shù)據(jù),驗證方法的適用性與可行性.對比結(jié)果如表4-表6所示.
表4 各方法F-measure實驗數(shù)據(jù)結(jié)果比對表
表5 各方法AUC值實驗數(shù)據(jù)結(jié)果比對表
表6 各方法G-means實驗數(shù)據(jù)結(jié)果比對表
結(jié)合上列各表可以看出,各方法少數(shù)類評估指標(biāo)均隨著不平衡度的增加而略有下降; 少數(shù)類樣本數(shù)據(jù)個數(shù)總量相對較少,導(dǎo)致文獻(xiàn)[2-4]方法的F-measure值整體偏低; 造成文獻(xiàn)方法AUC值與G-means指標(biāo)較低的原因是未考慮樣本屬性間的相關(guān)性,忽略了監(jiān)督判別性的類別標(biāo)簽信息; 而本文方法因引用了自編碼網(wǎng)絡(luò),根據(jù)各隱藏單元數(shù),獲取各維度隱藏特征,實現(xiàn)了各層面的數(shù)據(jù)高效表示學(xué)習(xí),通過對比最大均值差異比預(yù)設(shè)閾值,完成了網(wǎng)絡(luò)調(diào)整與隨機初始化,利用K-means算法與自編碼網(wǎng)絡(luò),充分結(jié)合了無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)形式,因此,取得了較為理想的少數(shù)類樣本分類效果.
在多個實際應(yīng)用數(shù)據(jù)里找到可用且易于用戶理解的知識,這一過程就叫做數(shù)據(jù)挖掘.當(dāng)挖掘的數(shù)據(jù)集內(nèi)某類別樣本個數(shù)與另外類別樣本個數(shù)相差較大時,該種數(shù)據(jù)集即為不平衡數(shù)據(jù).隨著信息時代與大數(shù)據(jù)時代的來臨,網(wǎng)絡(luò)入侵檢測、文本分類、醫(yī)療診斷等各種領(lǐng)域中普遍存在不平衡數(shù)據(jù),一旦出現(xiàn)錯分情況,將引發(fā)極大損失,因此,本文以自編碼網(wǎng)絡(luò)為核心,提出一種譜聚類欠取樣下的不平衡數(shù)據(jù)挖掘方法.由于時間限制,方法未對運行時間展開針對性的改善,準(zhǔn)備將其作為下一步工作的研究重點,結(jié)合創(chuàng)新型、組合型算法,縮短挖掘時長; 譜聚類方法以圖譜理論為基礎(chǔ),因KNN圖復(fù)雜度相對更低,因此,在今后的研究中需探索一種近似于KNN圖的圖構(gòu)建方法,減小復(fù)雜度.