張麗萍
〔摘要〕 求解期刊分類大數(shù)據(jù)自動存儲問題時,傳統(tǒng)方法在分解的過程中無法保證準確性與合理性,對解的合并策略選擇不合理,導致尋優(yōu)過程中出現(xiàn)一定的偏差,造成期刊分類存儲效率大大降低。為此,需要提出一種新的基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動存儲方法。確定徑向基神經(jīng)網(wǎng)絡的初始結(jié)構(gòu),通過樣本分布計算徑基寬度獲取隱節(jié)點群,將其當成初始集合。將分類存儲精度最高、Fmeasure最大、期刊特征相似性最高作為目標函數(shù),將其加權(quán)和作為適應函數(shù)。在求解過程中,各子群內(nèi)部通過模擬退火法將分布估計算法和遺傳算法結(jié)合在一起,產(chǎn)生新個體,利用群體協(xié)同合作的方式實現(xiàn)智能聚類。通過進化獲取最優(yōu)個體,得到最終精英集合,將其看作最后得到的徑向基神經(jīng)網(wǎng)絡結(jié)構(gòu),通過得到的徑向基神經(jīng)網(wǎng)絡實現(xiàn)期刊分類大數(shù)據(jù)自動存儲。實驗結(jié)果表明,所提方法期刊分類大數(shù)據(jù)存儲性能強。
〔關(guān)鍵詞〕 群體協(xié)同智能聚類;期刊分類;大數(shù)據(jù);存儲
〔中圖分類號〕TP391〔文獻標識碼〕A〔文章編號〕1008-2689(2019)02-0067-06
引言
大數(shù)據(jù)時代,人們接觸媒體的成本逐漸減少,網(wǎng)絡閱讀逐漸變成一種習慣,大部分期刊社均已經(jīng)進行自助網(wǎng)絡出版,期刊數(shù)字出版迅猛發(fā)展[1][2]。現(xiàn)階段大部分國內(nèi)外科研人員早已習慣查看網(wǎng)絡數(shù)據(jù)資源,對紙質(zhì)期刊的依賴性逐漸降低[3]。隨著數(shù)字期刊量的迅猛增加,對期刊的準確查詢也開始變得越來越困難,需研究一種有效的期刊分類大數(shù)據(jù)自動存儲方法,為大數(shù)據(jù)查詢提供有效的技術(shù)支持。
傳統(tǒng)期刊分類大數(shù)據(jù)自動存儲方法存在不完善的地方,無法有效反映更加普遍意義的協(xié)同思想[4][5]。傳統(tǒng)的大數(shù)據(jù)自動存儲方法在分解的過程中無法保證準確性與合理性,而分解不合理,在解的結(jié)合過程中將出現(xiàn)很大問題,造成期刊分類存儲失敗。不僅如此,傳統(tǒng)方法對解的合并策略選擇不合理,更將會導致合并后解的適應能力差,在尋優(yōu)過程中出現(xiàn)一定的偏差,使得期刊分類存儲效率大大降低。為此,急需發(fā)展出一套新的基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動存儲方法。此方法簡單說就是,首先將大數(shù)據(jù)進行人工的分類,來獲取期刊分類大數(shù)據(jù)的樣本;然后為了消除多余數(shù)據(jù)之間存在的可能性的矛盾對樣本進行并行聚類,通過FCM算法使得多個進程同時并行完成期刊分類大數(shù)據(jù)的聚類任務;最后對性能改進型評估,以便聚類方法的性能得到改善,從而實現(xiàn)期刊分類大數(shù)據(jù)自動存儲。
一、? 期刊分類大數(shù)據(jù)的預處理
本文基于群體協(xié)同智能聚類,通過衰減半徑聚類法[6]獲取徑向神經(jīng)網(wǎng)絡初始結(jié)構(gòu),新添加一個聚類層,也就是通過Kmeans法對已經(jīng)求出的初始隱層節(jié)點聚集在一起,將性質(zhì)類似的引接點聚集為隱節(jié)點群,結(jié)合子種群完成進化。
(一)? 隱節(jié)點結(jié)構(gòu)與參數(shù)的混合編碼
依據(jù)徑向神經(jīng)網(wǎng)絡的結(jié)構(gòu)特點,通過含網(wǎng)絡隱節(jié)點結(jié)構(gòu)與相關(guān)參數(shù)矩陣式混合編碼形式[7]。與各個體相應的隱節(jié)點相應的并非一個隱節(jié)點,而是隱節(jié)點群。Csk用于描述第k個隱節(jié)點群中第s個個體代表的隱節(jié)點中心,k用于描述種群量,s用于描述子種群大小。所有Csk都是nk×d+2的矩陣,nk用于描述隱節(jié)點群所含的節(jié)點數(shù)量, d用于描述輸入向量維數(shù)。通過隱節(jié)點與參數(shù)的混合編碼計算,得rksi=1表示隱節(jié)點的存在。
(二) 初始化
聚類中心的主進程初始化主要包括以下幾個部分:
首先把期刊樣本集合劃分為訓練集、評價集以及測試集,確定初始隱層節(jié)點φj,通過樣本空間信息獲取λ初始值。其次通過優(yōu)化的Kmeans法[7]完成對求出隱層節(jié)點的聚類處理,產(chǎn)生若干節(jié)點。最后針對各隱節(jié)點群,通過任意選擇的部分隱節(jié)點,得到初始群體的個體數(shù),并且使得起作用的隱節(jié)點相應的控制分量位rksi=1。
(三) 群體協(xié)同智能聚類
在協(xié)同進化遺傳算法的基礎上,結(jié)合Pareto支配概念與精英保留策略把協(xié)同進化遺傳算法引入期刊分類大數(shù)據(jù)自動存儲多目標優(yōu)化問題的求解中[8]。設置一種外部精英集合,通過擁擠距離提高外部種群的多樣性,同時依據(jù)聚類思想完成對外部種群的分類處理,對各類構(gòu)造對應概率模型。在進化時各子群內(nèi)部通過模擬退火法將分布估計算法和遺傳算法結(jié)合在一起,產(chǎn)生新個體,然后利用群體協(xié)同合作的方式實現(xiàn)智能聚類。
1 父種群生成
本節(jié)設置外部精英集合,對當前搜尋的優(yōu)秀完整個體進行存儲,父種群生成過程可描述為:
首先完成對精英集合的聚類處理。假設精英集合被劃分成2種聚類,依次針對2種聚類,依據(jù)種群1到種群C的順序,按照不同群的個體,依次構(gòu)造對應概率模型,使得全部種群向更好的方向進化,優(yōu)化解集的分布性。對算法截至當前搜尋的優(yōu)秀解進行保存,避免出現(xiàn)進化倒退的現(xiàn)象。
針對父種群的候選集,從第2代開始,直接從精英集合中選擇最優(yōu)個體形成,所以在進化時,算法一直在優(yōu)秀種群中完成搜尋,找到更優(yōu)個體后,對精英集合進行補充。
在進化的初始階段,精英集合發(fā)揮著很大的作用,需通過精英集合構(gòu)造概率模型,提高種群找到Pareto前沿的速度,并且搜尋到更優(yōu)個體。然而在初始階段,精英集合中個體數(shù)量不多,需完成對其的擴充,令其可構(gòu)造概率模型,同時將其看作下一代父種群的候選種群。假設外部集合的最小容量是R,為了形成下一代父種群,外部集合容量需高于子種群規(guī)模M。
2 新種群產(chǎn)生
通過基因混合模型形成新的個體?;蚧旌系幕驹頌樾纬蓚€體的基因源于各種存在差異的算法。
完整個體通過7個個體基因構(gòu)成,個體基因通過不同算法形成,個體基因通過EDA與GA兩種算法結(jié)合在一起形成的,其中一部分通過EDA建立的概率模型獲取,剩余部分通過GA交叉變異獲取。
通過模擬退火法[9]把EDA與GA兩種算法結(jié)合在一起,在進化的初始階段,通過EDA的全局搜尋性能獲取Pareto前沿,之后,通過GA較差變異在優(yōu)秀種群中繼續(xù)搜尋,發(fā)揮其局部搜尋能力,保證個體的多樣性[10]。首先,EDA算法實現(xiàn)過程如下:
(1) 從種群中任意選取L個優(yōu)秀群體,對柯西分布函數(shù)中的參數(shù)進行計算;
(2) 在優(yōu)秀群體的基礎上,通過clayton copula函數(shù)的參數(shù)估計獲取均勻分布的隨機序列a;
(3) 按照柯西分布的逆累積分布函數(shù)獲取相應向量。
其次GA算法實現(xiàn)過程如下:
(1) 運行GA算法40次,獲取聚類中心矩陣;
(2) 初始化種群。在針對獲取的N個聚類成員,用一個染色體代表一個成員,通過實數(shù)編碼方式對染色體進行描述;
(3) 針對各聚類成員,按照適應度函數(shù)求出其適應度值;
(4) 針對各聚類成員,依據(jù)適應度函數(shù)值,通過輪盤法判斷個體的去留,形成規(guī)模一致的新一代種群;
(5) 針對復制形成的新種群,從種群中依據(jù)交叉概率與變異概率選擇染色體完成交叉和變異處理,得到新種群;
(6) 重復進行上述步驟,直至達到收斂。
在進化時,為了有效均衡EDA和GA算法,通過模擬退火技術(shù),引入尺度因子實現(xiàn)控制。尺度因子的結(jié)果數(shù)值分為兩種條件獲取,當t=1時,尺度因子的結(jié)果數(shù)值即為設定尺度因子上限;當t≠1時,尺度因子的結(jié)果數(shù)值通過設定尺度因子上限與退火因子的乘積,加上設定尺度因子下限的總和得到。其中退火因子,取值范圍是0到1。
均衡合并策略為:將隨機數(shù)與尺度因子相比,在隨機數(shù)小于尺度因子的情況下,選用EDA算法,反之,選用GA算法。
二、? 期刊分類大數(shù)據(jù)自動存儲的實現(xiàn)
基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動存儲實現(xiàn)過程如下:
第一,確定徑向基神經(jīng)網(wǎng)絡的初始結(jié)構(gòu)。通過樣本分布計算徑基寬度,完成對初始隱層的聚類處理,獲取隱節(jié)點群,將其當成初始經(jīng)營集合。
第二,求出不同子種群的個體適應值,對精英集合進行更新。
第三,通過進化獲取最優(yōu)個體,得到最終精英集合,將其看作最后得到的徑向基神經(jīng)網(wǎng)絡結(jié)構(gòu),通過得到的徑向基神經(jīng)網(wǎng)絡實現(xiàn)期刊分類大數(shù)據(jù)自動存儲。
(一) 群體協(xié)同智能聚類方法的改進
傳統(tǒng)群體協(xié)同智能聚類算法在計算時,時常出現(xiàn)獲得局部最佳解的困境。而算法一旦遇到最佳解就會終止,不再繼續(xù)計算,因此聚類算法的收斂性能較低[11][12][13]。為了提高期刊分類大數(shù)據(jù)的聚類精度,設計的大數(shù)據(jù)自主存儲方法采用群體協(xié)同智能聚類算法,在傳統(tǒng)群體協(xié)同智能聚類算法中采用多種群協(xié)同進化的方式,以免出現(xiàn)局部最優(yōu)解。將總體種群劃分成多個子種群,各子種群獨立進化,對期刊分類的大數(shù)據(jù)實施周期性調(diào)控法,并將多種群協(xié)同進化也融入到調(diào)控法中。
群體協(xié)同智能聚類方法是一種群體協(xié)同進化的聚類算法,其將粒子數(shù)設置為N的種群劃分成M個子種群,各子種群采用規(guī)范的群體協(xié)同智能算法實施局部檢索,在檢索時持續(xù)調(diào)整子種群內(nèi)部粒子的效率以及位置。如果進化到第X代,則第一個子種群會獲取局部最佳解一,并將該解傳遞給第二個子種群,用解一更新第二個子種群內(nèi)具有最低適應度函數(shù)的粒子,此時第二個子種群實施X周期的進化,獲取的局部最佳解是解二。再向第三個子種群傳遞解二,循環(huán)運行上述過程。最終一個子種群向首個子種群傳遞解M。每次迭代之前將即刻最佳位置反饋給后續(xù)子種群過程中,應對即刻的局部最佳解i是否符合精度需求進行分析,如果符合則終止聚類計算,否則繼續(xù)聚類計算。各子種群的間隔是X代,相鄰種群間可進行信息交互,循環(huán)進化,直至算法停止 。
聚類計算確保各子種群中的粒子處于最優(yōu)解位置,增強算法的收斂效率。該群體協(xié)同智能聚類方法可確保各子種群同不同子種群間基于少量的局部信息完成交互,實現(xiàn)解區(qū)域中某個子區(qū)域的檢索,運算代價小,并且子種群間的粒子變換能夠完成遠距離的信息共享。
(二) 期刊分類大數(shù)據(jù)的聚類處理
要對期刊分類大數(shù)據(jù)進行聚類,需先對期刊分類大數(shù)據(jù)進行特征提取,然后進行聚類處理[14]。雖然期刊分類大數(shù)據(jù)的特性在數(shù)據(jù)處理的時候較為復雜,但是對于并行聚類處理的方法設計過程來說是必不可少的。其過程為:首先將大數(shù)據(jù)進行人工的分類,來獲取期刊分類大數(shù)據(jù)的樣本。然后為了消除多余數(shù)據(jù)之間存在的可能性的矛盾對樣本 進行并行聚類,并對選取特征性的數(shù)據(jù)。最后對性能改進型評估,以便聚類方法的性能得到改善。
在期刊分類大數(shù)據(jù)的聚類處理中融入并行的FCM算法[15]。所使用的FCM算法有密集計算的特點,先采用并行模式將期刊分類大數(shù)據(jù)進行數(shù)據(jù)分塊,把分塊后的數(shù)據(jù)劃分到多種不同的進程中,使得多個進程同時期并行完成期刊分類大數(shù)據(jù)的聚類任務。具體FCM算法并行實現(xiàn)方法如下:
1 對期刊分類大數(shù)據(jù)采取并行的方式進行讀取。在平臺系統(tǒng)中先將期刊分類大數(shù)據(jù)劃分為若干小份,再講劃分后的數(shù)據(jù)發(fā)送至各個進程,準備并行讀取。
2 聚類中心在主進程中進入初始化階段,再將聚類中心發(fā)送至各個子進程中。
數(shù)據(jù)并行模式是聚類方法中的主要采用模式,其中確保聚類方法精度的基礎步驟即是數(shù)據(jù)的劃分,所提聚類方法根據(jù)大數(shù)據(jù)的計算強度,對期刊分類大數(shù)據(jù)展開并行聚類,優(yōu)化了FCM并行聚類算法的聚類任務負載不夠均衡的問題,推導計算強度預估函數(shù),運用預估函數(shù)對多個計算單元的計算量進行評估與測量,從而實現(xiàn)期刊分類大數(shù)據(jù)的聚類。
大數(shù)據(jù)存儲系統(tǒng)的存儲速度是用戶考慮的重點。本文存儲系統(tǒng)采用的群體協(xié)同智能聚類算法融入多種群協(xié)同進化的方案,避免出現(xiàn)局部最優(yōu)解問題,具有較高的收斂效率,能夠?qū)崿F(xiàn)大數(shù)據(jù)的高效率寫入操作。
三、 自動存儲方法的個體評價和選擇
利用計算合作適應值對子種群中某個體性能進行評價。合作適應值是該個體和源于其余子群的代表集中貢獻值的體現(xiàn),所以為了求解適應值,需從其余各子群中均選擇一個個體,構(gòu)成完整解。文中所有個體的適應值均指該個體和其余子種群的精英個體一起組成隱層結(jié)構(gòu)的徑向基神經(jīng)網(wǎng)絡的評價。
文章選用多個目標函數(shù)進行評價,從而有效保證種群的多樣性。最后將多個目標加權(quán)求和轉(zhuǎn)換為單目標,將其當成個體合作適應值。將分類存儲精度最高作為第一個目標函數(shù)f1,通過將聚類成員δa中被準確聚類成相應種類Ci數(shù)據(jù)對象的數(shù)量γi之和,與數(shù)據(jù)對象數(shù)量N分之一的乘積得出單目標。隨著Microprecision值的逐漸增加,分類存儲效果也逐漸變好。將Fmeasure最大作為第二個目標函數(shù),F(xiàn)measure值主要取決于查全率與查準率。原始分類i的Fmeasure值Fi可通過2倍查全率與查準率乘積,與查全率查準率之和的商得出Fi加權(quán)平均,即可獲取目標函數(shù)f2。Fm值越高,認為分類存儲結(jié)果精度越高。固定期刊聚類,針對各期刊特征簇Ubl,用wpm描述特征bp在第m篇文檔中的權(quán)重,用wim描述第l個特征聚類中心bcl在第m篇期刊中的權(quán)重,通過夾角余弦公式求出。利用上述因子的求和乘積,即可求出該簇中不同特征bp和該特征聚類中心bcl間的關(guān)聯(lián)性,從而得到第三個目標函數(shù)f3。將期刊特征相似性最高作為第三個目標函數(shù),利用求和乘積,從而得到第三個目標函數(shù)f3。設定集合Vdoc表示同時包含特征bp與特征bcl的期刊集合,Vdoc中所含期刊數(shù)量越多,同時出現(xiàn)特征bp與bcl的期刊數(shù)量越多。在此前提下,設ε1、ε2及ε3為既定指標重要性系數(shù);ε1,ε2∈0,1均在[0,1]范圍內(nèi)取值,三者累積和為1,依次取03、03、04。則可通過上述重要性系數(shù),及三個目標函數(shù)加權(quán)平均Fi獲取個體評價和選擇最終結(jié)果。
綜上,個體評價和選擇即把不同個體替換成精英集合中其所處子種群相應的精英個體,同時通過由此構(gòu)成的徑向基神經(jīng)網(wǎng)絡性能確定。
四、 結(jié)果分析
為了驗證所提基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動存儲方法的應用效果,需要進行相關(guān)的實驗并對實驗結(jié)果進行分析。實驗選用6個數(shù)據(jù)集,其中1個數(shù)據(jù)集為二維人工數(shù)據(jù)集,其它5個數(shù)據(jù)集為源于期刊大數(shù)據(jù)的真實數(shù)據(jù)集。6個數(shù)據(jù)集的具體信息分別包括如下內(nèi)容:人工數(shù)據(jù)集的數(shù)據(jù)量為325個,均是2維,集群數(shù)共有3個;期刊真實數(shù)據(jù)集1的數(shù)據(jù)量為1200個,維數(shù)是4,集群數(shù)共有6個;期刊真實數(shù)據(jù)集2的數(shù)據(jù)量為1200個,維數(shù)是4,集群數(shù)共有6個。期刊真實數(shù)據(jù)集3的數(shù)據(jù)量為1800個,維數(shù)是15,集群數(shù)共有12個;期刊真實數(shù)據(jù)集3的數(shù)據(jù)量為1000個,維數(shù)是6,集群數(shù)共有5個;期刊真實數(shù)據(jù)集4的數(shù)據(jù)量為2000個,維數(shù)是14,集群數(shù)共有9個;期刊真實數(shù)據(jù)集5的數(shù)據(jù)量為1500個,維數(shù)是7,集群數(shù)共有8個。
為了驗證所提基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動存儲方法對期刊分類的有效性,針對二維人工數(shù)據(jù)集和真實期刊數(shù)據(jù)集,將基于混合存儲器的大數(shù)據(jù)存儲方法和基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法作為所提方法的對比方法,進行實驗測試。期刊真實數(shù)據(jù)集測試結(jié)果用表1進行描述。
分析可以看出,采用基于混合存儲器的大數(shù)據(jù)存儲方法對期刊分類大數(shù)據(jù)進行自動存儲后,期刊的大數(shù)據(jù)能夠得到大致分類,但分類精度不高。因而自動存儲的結(jié)果中,各期刊的大數(shù)據(jù)有嚴重混雜現(xiàn)象,難以做到精確分類,導致自動存儲的結(jié)果較差。采用基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法對期刊分類大數(shù)據(jù)進行自動存儲后,期刊大數(shù)據(jù)的分類精度相比基于混合存儲器的大數(shù)據(jù)存儲方法提高了很多,但依然存在分類不準確的情況,自動存儲后的結(jié)果中發(fā)現(xiàn)仍有許多混雜在一起的大數(shù)據(jù),不夠準確的分類結(jié)果自然導致了自動存儲效果的不理想。而采用本文方法對期刊分類大數(shù)據(jù)進行自動存儲后,期刊的大數(shù)據(jù)分類精度較高,分類準確性高,因此自動存儲結(jié)果較為理想。對比三種不同方法的實驗結(jié)果可知,本文方法能夠有效將二維人工數(shù)據(jù)集劃分成3類,且劃分精度較高,分類結(jié)果十分準確,分割集群中無其它集群數(shù)據(jù)。相比之下發(fā)現(xiàn),基于混合存儲器的大數(shù)據(jù)存儲方法和基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法分割集群中均有其它集群數(shù)據(jù),劃分結(jié)果不準確,因此驗證了本文方法的有效性。
分別采用基于混合存儲器的大數(shù)據(jù)存儲方法、基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法以及本文方法對期刊分類大數(shù)據(jù)進行自動存儲,以下是對期刊真實數(shù)據(jù)集的存儲,得到三種不同方法的對比測試結(jié)果如表1所示。
表1 期刊真實數(shù)據(jù)集測試結(jié)果
數(shù)據(jù)集
基于群體協(xié)同智能聚類的
期刊分類大數(shù)據(jù)自動存儲
基于混合存儲器的
大數(shù)據(jù)存儲方法
基于大數(shù)據(jù)集的抽樣技術(shù)的
劃分聚類方法
準確率
/%
Fmeasure值
吞吐率
/ops·s-1
準確率
/%
Fmeasure值
吞吐率
/ops·s-1
準確率
/%
Fmeasure值
吞吐率
/ops·s-1
期刊數(shù)據(jù)集1
9253
06852
43512
8539
05952
31058
8129
04926
33982
期刊數(shù)據(jù)集2
8629
06139
40168
8123
04231
35694
7306
04135
29568
期刊數(shù)據(jù)集3
9018
05685
45929
7556
04596
39257
6539
03689
36742
期刊數(shù)據(jù)集4
8395
05813
43221
8712
05288
32199
7542
04521
30286
期刊數(shù)據(jù)集5
9122
05297
44696
8039
04038
34095
6162
04339
35569
分析表1可以看出,采用基于混合存儲器的大數(shù)據(jù)存儲方法對期刊真實數(shù)據(jù)集進行分類后的自動存儲,對各期刊的大數(shù)據(jù)進行分類后,其分類準確率平均約為8034%,F(xiàn)measure值平均約為04012,自動存儲大數(shù)據(jù)的吞吐量平均約為3367%。采用基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法對期刊真實數(shù)據(jù)集進行分類后的自動存儲,對各期刊的大數(shù)據(jù)進行分類后,其分類準確率平均約為6478%,F(xiàn)measure值平均約為03525,自動存儲大數(shù)據(jù)的吞吐量平均約為3002%。與基于混合存儲器的大數(shù)據(jù)存儲方法相比,基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法的分類準確率較低,且Fmeasure值與吞吐量也較低,因此得出基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法的自動存儲效果不如基于混合存儲器的大數(shù)據(jù)存儲方法的自動存儲效果理想。采用本文方法對期刊真實數(shù)據(jù)集進行分類后的自動存儲,對各期刊的大數(shù)據(jù)進行分類后,其分類準確率平均約為8662%,F(xiàn)值平均約為06131,自動存儲大數(shù)據(jù)的吞吐量平均約為4598%。對比三種不同方法的實驗結(jié)果可得,采用本文方法進行期刊真實數(shù)據(jù)集的自動存儲,其分類準確率和F值相比基于混合存儲器的大數(shù)據(jù)存儲方法和基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法的分類準確率高出很多,說明本文方法存儲分類精度更高。且本文方法進行大數(shù)據(jù)自動存儲的吞吐量也遠遠高于基于混合存儲器的大數(shù)據(jù)存儲方法和基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法自動存儲的吞吐量,說明本文方法存儲效率更高,充分驗證了本文方法實用性強的優(yōu)勢。
綜合分析以上實驗結(jié)果得出,所提基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動存儲方法能夠高精度的完成各期刊大數(shù)據(jù)的分類,并且具有較高的吞吐量,能夠在短時間內(nèi)存儲大批量的數(shù)據(jù),因此自動存儲效率高,充分說明了所提方法具有分類準確性高、存儲效率快的良好性能,有效性和實用性強。
五、? 結(jié) 論
本文通過實驗提出一種新的基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動存儲方法。確定徑向基神經(jīng)網(wǎng)絡的初始結(jié)構(gòu),通過樣本分布計算徑基寬度,完成對初始隱層的聚類處理,獲取隱節(jié)點群,將其當成初始集合。將分類存儲精度最高、Fmeasure值最大、期刊特征相似性最高作為目標函數(shù),將其加權(quán)和作為適應函數(shù)。結(jié)合Pareto支配概念與精英保留策略把協(xié)同進化遺傳算法引入期刊分類大數(shù)據(jù)自動存儲多目標優(yōu)化問題的求解中。設置一種外部精英集合,通過擁擠距離提高外部種群的多樣性,同時依據(jù)聚類思想完成對外部種群的分類處理,對各類構(gòu)造對應概率模型。在進化時各子群內(nèi)部通過模擬退火法將分布估計算法和遺傳算法結(jié)合在一起,產(chǎn)生新個體,然后利用群體協(xié)同合作的方式實現(xiàn)智能聚類。求出不同子種群的個體適應值,對精英集合進行更新。通過進化獲取最優(yōu)個體,得到最終精英集合,將其看作最后得到的徑向基神經(jīng)網(wǎng)絡結(jié)構(gòu),通過得到的徑向基神經(jīng)網(wǎng)絡實現(xiàn)期刊分類大數(shù)據(jù)自動存儲。經(jīng)實驗驗證,所提方法整體性能高。
〔參考文獻〕
[1] 劉先花. 基于群體協(xié)同智能聚類的大數(shù)據(jù)存儲系統(tǒng)設計[J]. 現(xiàn)代電子技術(shù), 2017, 40(23):130-133.
[2] 王永貴, 宋真真, 肖成龍. 基于改進聚類和矩陣分解的協(xié)同過濾推薦算法[J]. 計算機應用, 2018, 38(4):1001-1006.
[3] 劉巖, 王存睿. 基于抽樣融合改進的大數(shù)據(jù)聚類方法[J]. 微電子學與計算機, 2017, 34(4):17-21,27.
[4] 曹陽, 錢曉東. 基于局部關(guān)鍵節(jié)點的大數(shù)據(jù)聚類算法[J]. 計算機工程與科學, 2016, 38(7):1338-1343.
[5] 楊光, 鐘忺, 夏紅霞, 喻天寶. 基于分布式處理的關(guān)聯(lián)聚類協(xié)同過濾算法[J]. 武漢理工大學學報, 2015, 37(11):84-92,112.
[6] Mai,H. T., Park,K. H., Lee,H. S., Kim, C. S., Lee, M. & Hur, S. J. Dynamic data migration in hybrid main memories for In‐memory big data storage[J]. Etri Journal, 2014, 36(6):988-998.
[7] 盧志茂, 馮進玫, 范冬梅,楊朋,田野. 面向大數(shù)據(jù)處理的劃分聚類新方法[J]. 系統(tǒng)工程與電子技術(shù), 2014, 36(5):1010-1015.
[8] 王興茂, 張興明, 吳毅濤, 潘俊池. 基于啟發(fā)式聚類模型和類別相似度的協(xié)同過濾推薦算法[J]. 電子學報, 2016, 44(7):1708-1713.
[9]馬蕾, 楊洪雪, 劉建平. 大數(shù)據(jù)環(huán)境下用戶隱私數(shù)據(jù)存儲方法的研究[J]. 計算機仿真, 2016, 33(2):465-468.
[10] 張栗粽, 崔園, 羅光春, 陳愛國,盧國明,王曉雪. 面向大數(shù)據(jù)分布式存儲的動態(tài)負載均衡算法[J]. 計算機科學, 2017, 44(5):178-183.
[11] 羅弦, 查志勇, 徐煥, 劉芬,詹偉. 基于云計算的大數(shù)據(jù)自動分類處理系統(tǒng)設計[J]. 計算機測量與控制, 2017, 25(10):278-280,288.
[12] 趙妍, 蘇玉召. 一種批量數(shù)據(jù)處理的云存儲方法[J]. 科技通報, 2017, 33(7):81-85.
[13] Yang Fan, Zou Sai, Tang YuLiang & Du XiaoJiang. A multichannel cooperative clusteringbased MAC protocol for V2V communications[J]. Wireless Communications & Mobile Computing, 2016, 16(18):3295-3306.
[14] 王瑞通, 李煒春. 大數(shù)據(jù)基礎存儲系統(tǒng)技術(shù)研究[J]. 計算機技術(shù)與發(fā)展, 2017, 27(8):66-72.
[15] 周嬌, 傅穎勛, 劉青昆, 舒繼武. 一種支持網(wǎng)絡硬盤存儲系統(tǒng)的大數(shù)據(jù)傳輸技術(shù)[J]. 小型微型計算機系統(tǒng), 2014, 35(2):329-333.