張 倩,吳 瓊,時慶濤
(長春工業(yè)大學(xué)人文信息學(xué)院,吉林 長春 130000)
隨著信息技術(shù)研究的不斷深入,人們獲取大數(shù)據(jù)的方式越來越多,成本也越來越低,使得大數(shù)據(jù)的形式多種多樣,來源也無法確定。因此,對大數(shù)據(jù)標(biāo)簽的分類已經(jīng)遠(yuǎn)遠(yuǎn)超出了現(xiàn)有系統(tǒng)的正常處理極限。不僅如此,對于大數(shù)據(jù)的標(biāo)簽分類不同于小規(guī)模數(shù)據(jù)分類,其具有大量的的深度知識,信息含量偏高。為此,對于大數(shù)據(jù)標(biāo)簽如何實現(xiàn)高效分類成為了當(dāng)前研究熱點之一。
文獻[1]利用樸素貝葉斯算法,以Map Reduce和Apache Spark框架為依據(jù),構(gòu)建了分布式樸素貝葉斯文本分類模型。在該模型中實現(xiàn)對樣本數(shù)據(jù)集的分類。該算法中將Map Reduce的并行優(yōu)勢運用的非常到位,最終直接在分類結(jié)果中找出最大值所對應(yīng)的文本標(biāo)簽即可。但是在該算法中,文本數(shù)據(jù)的復(fù)雜程度較高且訪問量較大,在后續(xù)的計算過程中將會浪費大量的時間,因此,不利于大范圍推廣使用;文獻[2]以深度自動編碼器為基礎(chǔ),展開對多標(biāo)簽分類的研究。利用軌跡計算算法對網(wǎng)絡(luò)中不同節(jié)點之間的結(jié)構(gòu)相似性進行研究,并將最終結(jié)果輸入到深度自動編碼器中;然后對網(wǎng)絡(luò)中所有節(jié)點的領(lǐng)域信息進行聯(lián)合優(yōu)化處理,使得網(wǎng)絡(luò)展現(xiàn)出高度非線性的特性,最后,再利用支持向量機實現(xiàn)對多標(biāo)簽的分類。該算法充分考慮了節(jié)點之間的相似性,分類效果比較明顯,但是計算量巨大,過程較為繁瑣,分類實時性能較低。
綜合考慮以上算法的優(yōu)缺點,本文將粒度神經(jīng)網(wǎng)絡(luò)引入其中,提出了一種新的大數(shù)據(jù)標(biāo)簽分類方法。首先,通過對大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)以及先驗信息進行處理,得到大數(shù)據(jù)標(biāo)簽的矢量長度值,進而展開對大數(shù)據(jù)標(biāo)簽的屬性特征分析。然后通過大數(shù)據(jù)信息重排序列,完成對大數(shù)據(jù)標(biāo)簽的屬性分類,由此構(gòu)建大數(shù)據(jù)采樣序列的擬合模型。將粒度神經(jīng)網(wǎng)絡(luò)應(yīng)用其中,通過設(shè)置合理的隱含層節(jié)點數(shù)以及主要的參數(shù)值,使輸出結(jié)果為理想值。最后通過建立一個無監(jiān)督學(xué)習(xí)過程,選取合適的全局適應(yīng)度與標(biāo)簽屬性適應(yīng)度,實現(xiàn)對大數(shù)據(jù)標(biāo)簽的分類。
大數(shù)據(jù)的存儲數(shù)據(jù)庫常以交互信息網(wǎng)絡(luò)[3]的形式存在,存儲數(shù)據(jù)庫主要由三層構(gòu)成:I/O輸入/輸出、USB接口和磁盤層,三層模塊協(xié)同工作,完成對大數(shù)據(jù)的存儲以及交互。
在大數(shù)據(jù)存儲庫模型中,假設(shè)存儲數(shù)據(jù)庫的一個分支為Ti=(i=1,2…,n),其中,n表示分支數(shù)量,其長度用Qi(Qi≥1)來表示,由此可得到帶有支持度值的所有存儲節(jié)點集合。對于主支干節(jié)點,只能進行一次支持度計算和集合操作,掃描分支還可得到與之對應(yīng)的B的節(jié)點集合{B,D}{B,A}{…},對于大數(shù)據(jù)存儲庫中的頻繁項集D,在設(shè)置大數(shù)據(jù)標(biāo)簽特征分類匹配條件時,要充分考慮標(biāo)簽特征的分布函數(shù),其結(jié)果對大數(shù)據(jù)標(biāo)簽的分類尤為重要。大數(shù)據(jù)標(biāo)簽分布函數(shù)計算公式如式(1)所示:
F(Gj,i)=w1·R(Gj,i)+w2·(1-dis(Gj,i))
(1)
其中,i表示大數(shù)據(jù)標(biāo)簽在特征采樣過程中所占用的時間序列節(jié)點數(shù);w1表示簇頭節(jié)點所對應(yīng)的加權(quán)權(quán)重值w;w2表示大數(shù)據(jù)標(biāo)簽分類節(jié)點所對應(yīng)的加權(quán)權(quán)重值;R(Gj,i)表示大數(shù)據(jù)標(biāo)簽在存儲數(shù)據(jù)庫內(nèi)遞歸特征;dis(Gj,i)表示兩個大數(shù)據(jù)標(biāo)簽在存儲庫內(nèi)的歐式距離,可用式(2)表示為
dis(Gj,i)=[x(t0),x(t0+Δt),…,x(t0+(K-1)Δt)]
(2)
式中,x(t0)表示存儲庫內(nèi),對大數(shù)據(jù)進行采樣處理的時間序列;K為存儲數(shù)據(jù)庫內(nèi)列空間的窗函數(shù)。
根據(jù)式(2)的計算結(jié)果以及存儲數(shù)據(jù)庫的時間序列模型,可得到大數(shù)據(jù)標(biāo)簽的時間序列采樣如式(3)所示
I={x(t0+iΔt)},i=0,1,2,…,N-1
(3)
其中,N表示大數(shù)據(jù)標(biāo)簽的矢量長度。
通過上述對大數(shù)據(jù)存儲結(jié)構(gòu)模型的分析,以及對大數(shù)據(jù)標(biāo)簽的矢量長度值[4]進行計算,可展開對大數(shù)據(jù)標(biāo)簽屬性特征的劃分,進而實現(xiàn)對大數(shù)據(jù)標(biāo)簽的分類計算。
通過高維相空間重構(gòu)模型可對存儲數(shù)據(jù)庫中的大數(shù)據(jù)執(zhí)行信息重排操作,利用因子分析法,對大數(shù)據(jù)標(biāo)簽時間序列的主成分概率密度置信域進行分析計算,如式(4)所示
(4)
(5)
式中,{ηi}的均值始終為0,σ2表示大數(shù)據(jù)標(biāo)簽標(biāo)準(zhǔn)正態(tài)分布[5]的方差值,φ0,φ1,φ2,…,φp統(tǒng)稱為大數(shù)據(jù)采樣時間序列的關(guān)聯(lián)系數(shù),θ1,θ2,…,θq為滑動時間窗口的平均系數(shù)值。根據(jù)上述計算,即可完成對大數(shù)據(jù)標(biāo)簽的屬性特征劃分,結(jié)合粒度神經(jīng)網(wǎng)絡(luò),展開對標(biāo)簽分類算法的研究。
粒度神經(jīng)網(wǎng)絡(luò)主要由輸入層、隱含層和輸出層三個層次構(gòu)成,結(jié)構(gòu)圖如圖1所示。
圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
(6)
其中,yh表示粒度神經(jīng)網(wǎng)絡(luò)中第h個節(jié)點的輸出結(jié)果;whj表示隱含層內(nèi)節(jié)點j與輸出層內(nèi)節(jié)點d之間連接的權(quán)重值;αj(xd)表示隱含層內(nèi)與第j個節(jié)點所對應(yīng)的基函數(shù)α。
通過對式(6)的計算結(jié)果可知,在粒度神經(jīng)網(wǎng)絡(luò)中,隱含層內(nèi)的節(jié)點信息將會影響到輸出層的輸出結(jié)果,為將影響控制在合理范圍內(nèi),可以通過設(shè)置隱含層內(nèi)與節(jié)點對應(yīng)的基函數(shù),或者調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)中的一些主要參數(shù)值,使得各個節(jié)點之間的連接方式發(fā)生改變,選擇影響最小的連接方式即可。隨機給定一個輸入值,假設(shè)該值可以確保αj(xd)中非零節(jié)點個數(shù)最少,此時αj(xd)中大部分節(jié)點數(shù)都是零。在實際的運用中,對于隨機給定的輸入值,只要對隱含層內(nèi)非零節(jié)點的輸出結(jié)果進行加權(quán)求和計算,即可得到理想數(shù)值。
在對大數(shù)據(jù)主特征提取的多種方法中,多維標(biāo)簽屬性的主成分分析法應(yīng)用得最為廣泛,本文運用該方法進一步研究大數(shù)據(jù)標(biāo)簽的屬性特征,本文對該方法做了部分改進,提出了一種基于粒度神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)標(biāo)簽分類方法。通過粒度神經(jīng)網(wǎng)絡(luò)實現(xiàn)對大數(shù)據(jù)聚類中心[7]的自動更新和標(biāo)簽分類屬性識別。在標(biāo)簽分類屬性識別過程中,在領(lǐng)域L內(nèi)t時刻下對大數(shù)據(jù)標(biāo)簽的分類進行學(xué)習(xí)迭代計算,如式(7)所示
(7)
選擇合適的大數(shù)據(jù)標(biāo)簽加權(quán)權(quán)重值進行計算,得到任意k時刻下大數(shù)據(jù)的信息流狀態(tài)為
(8)
在高維相空間重構(gòu)模型中,通過關(guān)聯(lián)規(guī)則協(xié)議[8]對大數(shù)據(jù)標(biāo)簽進行屬性特征量的提取,再運用主成分分析法對大數(shù)據(jù)隱含的某些特征進行分析計算,最終結(jié)果即為大數(shù)據(jù)采樣時間序列在tn時刻下的狀態(tài)信息,如式(9)所示
(9)
假設(shè)在粒度神經(jīng)網(wǎng)絡(luò)中,對于大數(shù)據(jù)標(biāo)簽的訓(xùn)練樣本集中共有M個神經(jīng)元信息,那么在計算大數(shù)據(jù)標(biāo)簽中含有的主成分以及輸出結(jié)果時,可通過計算式(10)得到
(10)
通過上文對大數(shù)據(jù)主成分進行特征提取[10],可結(jié)合粒度神經(jīng)網(wǎng)絡(luò),建立一個無監(jiān)督學(xué)習(xí)過程,學(xué)習(xí)迭代式如式(11)所示
(11)
由于大數(shù)據(jù)標(biāo)簽屬性[11]的全局適應(yīng)度值低于標(biāo)簽u屬性的適應(yīng)度值,因此需要對粒度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)范圍重新進行調(diào)整,使二者滿足適應(yīng)度條件函數(shù)。
(12)
其中,β表示大數(shù)據(jù)在全局分類搜索[12]中的關(guān)聯(lián)特征變量,nu表示學(xué)習(xí)迭代計算式中的適應(yīng)度值。當(dāng)學(xué)習(xí)迭代次數(shù)達(dá)到最理想狀態(tài)時,粒度神經(jīng)網(wǎng)絡(luò)對于大數(shù)據(jù)的分類學(xué)習(xí)收斂速度達(dá)到最優(yōu),輸出的加權(quán)權(quán)重值滿足式(13)條件
(13)
(14)
為驗證本文方法在大數(shù)據(jù)標(biāo)簽特征匹配、分類效果以及系統(tǒng)運行效率方面是否具有可行性,與文獻[1]、文獻[2]方法展開了對比仿真。仿真平臺的硬盤主頻為2.89GHz,系統(tǒng)運行內(nèi)存為8GB,仿真軟件使用的是比較常用的Matlab7。大數(shù)據(jù)樣本集來自數(shù)據(jù)存儲庫B400C20D40,覆蓋區(qū)域為200×200,共有452365條大數(shù)據(jù)信息。
通過上述對仿真環(huán)境的設(shè)定,將三種方法分別應(yīng)用其中,對大數(shù)據(jù)標(biāo)簽的分類性能在系統(tǒng)運行效率方面進行對比。大數(shù)據(jù)的采樣頻率為450kHz,以時寬Δ=15s來計算大數(shù)據(jù)標(biāo)簽的特征匹配投影值,實驗結(jié)果如圖2所示。
圖2 本文方法大數(shù)據(jù)標(biāo)簽特征匹配投影值
從圖3中可知,運用本文方法對大數(shù)據(jù)標(biāo)簽特征進行匹配,展現(xiàn)出了較優(yōu)的特征提取性能,隨著實驗時間的不斷推移,本文方法在20s處出現(xiàn)了投影匹配值峰值。以此特征匹配結(jié)果在后續(xù)對大數(shù)據(jù)標(biāo)簽進行分類時,可起到很好的推動作用。運用本文方法進行特征分類,結(jié)果如圖2所示。
圖3 本文方法分類效果
從圖3中可以看出,采用本文方法對大數(shù)據(jù)標(biāo)簽進行特征提取后,再進行分類,效果是非常明顯的。這樣不僅可以有效避開各類數(shù)據(jù)之間的特征融合和交叉,而且將一些冗余特征信息剔除掉,在一定程度上提高了標(biāo)簽分類的準(zhǔn)確性。
同時,為了驗證本文方法與文獻[1]、文獻[2]方法在系統(tǒng)運行效率上的性能對比,將大數(shù)據(jù)標(biāo)簽分類的能量開銷作為對比依據(jù),展開了仿真,三種方法實驗結(jié)果如圖4所示。
圖4 三種方法能量開銷對比圖
從圖4中可以看出,本文方法較其它兩種方法相比,所使用的能量開銷最低,說明本文方法在確保分類準(zhǔn)確性的同時花費的系統(tǒng)開銷最小,以此證明了運用粒度神經(jīng)網(wǎng)絡(luò)對大數(shù)據(jù)標(biāo)簽進行分類是非常有效且可行的一種方法。
針對傳統(tǒng)方法在對大數(shù)據(jù)標(biāo)簽分類過程中存在計算開銷大、分類效率較差等問題,本文提出新的大數(shù)據(jù)標(biāo)簽分類算法。首先,計算大數(shù)據(jù)標(biāo)簽的矢量長度值,確保后續(xù)對標(biāo)簽屬性的分析更精準(zhǔn)。然后,通過主成分分析法對大數(shù)據(jù)的先驗特征以及大數(shù)據(jù)標(biāo)簽的屬性特征進行分析計算。最后將粒度神經(jīng)網(wǎng)絡(luò)應(yīng)用其中,對標(biāo)簽屬性的加權(quán)權(quán)重值加以控制,結(jié)合大數(shù)據(jù)標(biāo)簽屬性特征向量,完成對大數(shù)據(jù)標(biāo)簽的分類。通過搭建仿真平臺,將傳統(tǒng)方法與本文方法進行對比,驗證了本文方法在花費最少系統(tǒng)能量開銷的前提下,得到了較高的分類性能和特征匹配值,適合大范圍推廣使用。