張靜 陳燕林
摘? 要:針對水下采砂大數(shù)據(jù)中存在信息缺失、冗余、混亂等問題,構建一種K-means聚類與CNN(卷積神經(jīng)網(wǎng)絡)的耦合模型。首先應用最小二乘法得到K-means的聚類閾值,使同類型數(shù)據(jù)更易于聚類;對數(shù)據(jù)集進行CNN網(wǎng)絡訓練,根據(jù)各種不同的樣本進行網(wǎng)絡參數(shù)選擇,同時實現(xiàn)了CNN智能融合處理;再把從現(xiàn)場收集的大數(shù)據(jù)輸入經(jīng)過K-means-CNN智能耦合的模式中,將水下采砂大數(shù)據(jù)分為缺失、冗余、混亂、正常四種類型,并進行標記和數(shù)據(jù)清洗。試驗結果表明,基于K-means-CNN的數(shù)據(jù)清洗模型,對異常數(shù)據(jù)的有效清除率超過80%,提高了水下采砂大數(shù)據(jù)的質量,為后續(xù)水下采砂大數(shù)據(jù)分析打下良好的基礎。
關鍵詞:水下采砂;大數(shù)據(jù)清洗;K-means聚類;最小二乘法;卷積神經(jīng)網(wǎng)絡
中圖分類號:TP311? 文獻標識碼:A? 文章編號:2096-4706(2023)18-0099-07
Research on Intelligent Cleaning Model of Sand Mining Big data Based on K-means-CNN Coupling
ZHANG Jing1, CHEN Yanlin2
(1.School of Information Engineering, Henan Industry and Trade Vocational College, Zhengzhou? 450053, China; 2.School of Electronic Engineering, North China University of Water Resources and Electric Power, Zhengzhou? 450046, China)
Abstract: A coupling model of K-means clustering and CNN (Convolutional Neural Network) is constructed to address the issues of information loss, redundancy, and confusion in underwater sand mining big data. Firstly, the least squares method is applied to obtain the clustering threshold of K-means, making it easier to cluster data of the same type; train CNN networks on datasets, select network parameters based on various samples, and achieve intelligent CNN fusion processing; then, the big data collected from the site is input into the K-means-CNN intelligent coupling mode, and the underwater sand mining big data is divided into four types: missing, redundant, chaotic, and normal, and perform labeling and data cleaning. The experimental results show that the data cleaning model based on K-means-CNN has an effective removal rate of over 80% for abnormal data, improving the quality of underwater sand mining big data and laying a good foundation for subsequent analysis of underwater sand mining big data.
Keywords: underwater sand mining; big data cleaning; K-means clustering; least square method; convolutional neural networks
0? 引? 言
河道砂石是河床的組成部分,主要用來保護河道。近年來,隨著中國經(jīng)濟的快速發(fā)展,砂石作為建筑骨料需求量與日俱增。然而,過量開采河砂會導致河道被破壞,直接影響防汛和治安。為做到合理采砂,保護河流,必須在采砂前獲取河流的砂石信息資料,尤其是要對河流砂石儲量進行合理的計算[1]。
目前的砂石儲量信息檢測技術容易受外部環(huán)境的影響,致使我們所獲取的信息不夠準確,并且水下采砂大數(shù)據(jù)存在缺失、冗余、混亂等問題。為了有效研究水下砂石信息并計算河道砂儲量,需要對水下砂石信息大數(shù)據(jù)進行清洗[2]。大數(shù)據(jù)信息清洗技術已廣泛應用于砂石的信息收集工作[3],它能從海量大數(shù)據(jù)信息中獲得有價值的信息,透過“清洗”達到數(shù)據(jù)的“升值”[4]。
目前的大數(shù)據(jù)清洗處理方法有很多。李昌華等給出一種基于聚類BP神經(jīng)網(wǎng)絡的信息處理模式,利用聚類算法對信息進行排序,然后運用BP神經(jīng)網(wǎng)絡對異常信息進行檢查和校正[5]。所用信息的互動性較強,而BP神經(jīng)網(wǎng)絡的收斂速度緩慢,因此準確度也較低。李爽設計了基于卷積神經(jīng)網(wǎng)絡的電信詐騙鑒別系統(tǒng),實現(xiàn)了用戶話單清洗模式,但由于對原始數(shù)據(jù)的需求量較大,需要在進行卷積系統(tǒng)設計之前處理好一些原始數(shù)據(jù)[6]。張燕對統(tǒng)計清洗中的缺失值進行了基于密度的空間成群聚類算法,并做出了相應的調整改善[7]。計算中需要對每個點的鄰域進行搜索,采用選擇代表點的方法降低了搜索次數(shù),進而減少了計算時間。不過此計算中缺少獲得最優(yōu)估計結果的具體方法。目前,大數(shù)據(jù)清洗工作中還缺少一種通用的方法,尤其是對含砂量數(shù)據(jù)清洗的研究基本上相當于空白。
本文根據(jù)水下砂石大數(shù)據(jù)分析效果較差的實際情況,設計了采砂大數(shù)據(jù)分析智能處理技術,并構建了K-means聚類分析技術和卷積方法與神經(jīng)網(wǎng)絡耦合的取礦大數(shù)據(jù)分析清洗模式。首先,通過最小二乘法確定了K-means的聚類閾值,以此改善取礦的聚類能力;其次,將聚類后的實驗數(shù)據(jù)集用作卷積神經(jīng)網(wǎng)絡模擬的訓練樣本,并對數(shù)據(jù)進行網(wǎng)絡訓練和參數(shù)訓練;最后,將實驗結果集中注入經(jīng)過優(yōu)化的數(shù)據(jù)處理模式中(將數(shù)據(jù)標注為缺失、冗余、混亂、正常四種信息),并進行了適當?shù)奶幚怼?/p>
1? 數(shù)據(jù)清洗算法
2? 基于K-means-CNN的算法模型
基于K-means聚類分析法和CNN的大數(shù)據(jù)清洗流程圖如圖4所示。首先使用最小二乘的K-means系統(tǒng)聚類算法優(yōu)化閾值,以提升采砂信息的聚類效率;其次采用卷積神經(jīng)網(wǎng)絡對經(jīng)過聚類分析的數(shù)據(jù)分析集進行培訓、網(wǎng)絡設計與參數(shù)調整等[17];最后將所有待測的高含砂量數(shù)據(jù)輸入到培訓好的模塊中,通過培訓和標注缺失、冗余、混亂、正常、一般五類數(shù)據(jù)信息,實現(xiàn)對數(shù)據(jù)的快速聚類和分析等處理。
3? 實驗結果與分析
本文通過試驗論證了基于聚類和神經(jīng)網(wǎng)絡對水下采砂信息的處理效果,摒棄了傳統(tǒng)聚類方法、卷積神經(jīng)網(wǎng)絡的弊端,聯(lián)合運用兩種方法對取礦信息進行大數(shù)據(jù)清洗。通過分析離群點特性及樣本訓練的時間長度、正確率等方式來判斷大數(shù)據(jù)清洗的有效性。
原始數(shù)據(jù)散點圖如圖5(a)所示。圖5(a)在二維平面上表示聚類結果,聚類后如圖5(c)所示。由圖5(a)可知,圖上誤差相對較大的數(shù)值稱為異常數(shù)據(jù)信息,而對于異常信息,通過研究其特征并對數(shù)據(jù)信息值加以校正,可以使得信息更加貼合實際。圖5(c)為最終數(shù)據(jù)清洗后的聚類效果圖,明顯高于5(a)和5(b)。由圖5(d)可知,采用K-means法聚類能夠對數(shù)據(jù)結果做出比較合理的排序,且數(shù)據(jù)集中的統(tǒng)計也比較密集,因此效率優(yōu)于傳統(tǒng)聚類方法。
經(jīng)K-means聚類后得到試驗結果集、測試數(shù)據(jù)集,接下來再對模型進行訓練、檢驗。如果所用的激發(fā)參數(shù)為Sigmoid、tanh、ReLU,則試驗數(shù)據(jù)集的尺寸可以進行調整,按照圖1和圖2的步驟,從相同參數(shù)下激發(fā)參數(shù)的變化、輸入數(shù)組尺寸變化對辨識率的影響這兩個角度展開論述。參數(shù)C1 = 6,SCale_S2 = SCale_S4 = 2,C2 = 12,其中,以SaCle為步長,C1和c二卷積核大小均為5×5,而S2、S4的卷積核尺寸均為2×2。在此情況下,系統(tǒng)可以根據(jù)不同的激活參數(shù)或不同的輸入數(shù)組大小,計算出不同的識別率,如表1所示。
由表1可知,如果輸入矩陣長度不變的情況下激活函數(shù)的改變對測試所花費的時間影響不大(如序號1、2、3的持續(xù)時間依次為11.1秒、8.7秒、10.5秒),則可以給出識別率排序:ReLU函數(shù)>tanh函數(shù)>Sigmoid函數(shù)。同樣,ReLU函數(shù)在解決階梯消失時不會造成量度減小,從而便于對深度網(wǎng)絡的學習。從稀疏性來看,ReLU函數(shù)相對輸入值小于零是完全不能被激活的,能夠得到更低的激活概率。因此,這也是使用不同激活函數(shù)獲得不同識別率的主要原因。
圖6是采用K-means-CNN模型通過CNN、K-means-BP和BP等方法進行采砂數(shù)據(jù)清洗后所得到的結果對照表。當輸入的矩陣尺寸為128×128時,識別能力較好,平均識別率可以達到0.800。正常砂石數(shù)據(jù)的辨識率能夠達到0.900。而采用K-means聚類技術和CNN的數(shù)據(jù)清洗模式,對取礦數(shù)據(jù)的有效清除率超過80%,對正常取礦數(shù)據(jù)的辨識率超過90%,識別效果良好。而對缺失、冗余、混亂取礦數(shù)據(jù)的識別率分別為70%、65%和70%。
此外,本文還對誤差輸出進行了研究。不同矩陣體積的誤差值分別在400、600、500時達到一定數(shù)值。然而,隨著矩陣體積的增加,誤差值也會發(fā)生跳躍性的增加,判斷結果也相應地隨之改變。測量100×100時因為誤差值趨于穩(wěn)定向零逼近,達到優(yōu)異的識別性能。實驗顯示,本文給出的樣本處理能力較好,較之常規(guī)的處理方式在質量上有明顯的提高。
試驗中選取3 507組數(shù)據(jù)進行分析,另外選擇3 068組數(shù)據(jù)用作網(wǎng)絡的訓練集,選擇439組數(shù)據(jù)分析用作檢測數(shù)據(jù)分析。K-means-CNN模式產(chǎn)生的Y向量對應統(tǒng)計清洗的四個狀態(tài)類型,依次為缺失、冗余、混亂、正常,相應標記為1、2、3、4。構建前先用3 068組數(shù)據(jù)分析加以鍛煉;構建后再用439組數(shù)據(jù)分析加以測試檢查。如圖6(a)所示為K-means-CNN產(chǎn)出的Y分類矢量和實際分類等級圖,從圖中可知K-means-CNN產(chǎn)出的Y分類矢量的趨勢,與實際分類一致。
再將439組數(shù)據(jù)K-means-CNN模式的輸出數(shù)值與實際差值做減法處理,這樣就可以直接看到每個測點的準確性。如果分類準確,其差值為0,否則為其他非零值,如圖6(b)所示。由圖6(b)可知,K-means-CNN模型的分類偏差較小,共有17處差錯分類,大體集中在對數(shù)據(jù)清洗的重復和異常分類上,差錯主要產(chǎn)生于每個數(shù)據(jù)類型的變化交接處。
為檢驗K-means-CNN模式清洗大數(shù)據(jù)的有效性,我們還在同樣條件下展開了包括CNN、K-means-BP和BP在內的數(shù)據(jù)清洗效果分析,如圖7(a)(b)(c)(d)所示。從圖7(a)中可以看出,K-means-BP模式的劃分偏差小,共有163處存在錯誤,基本聚集在統(tǒng)計清除的異常和遺漏類別上。如圖7(b)所示為CNN對砂石含量統(tǒng)計結果的直接清除,并未采用K-means聚類處理方法,圖7(c)為K-means-BP處理過程的結論,圖7(d)則為BP模式中直接清除的出錯情況。從圖7中可以看出,在K-means-CNN模式的CNN、K-means-BP和BP數(shù)據(jù)信息間清除的時間差值更小,清除效率更佳。
如表2所示為K-means-CNN建模與CNN、K-means-BP和BP等計算對采砂資料數(shù)據(jù)處理后的差錯對比表。由表2可知,K-means-CNN建模的整體分析差錯次數(shù)最少,判斷冗余的錯誤次數(shù)為17次,錯誤率最低,大約為4%。CNN與K-means-BP的出錯次數(shù)也基本相似,分別為163次和178次,對應的失敗率分別為37%和40%;BP神經(jīng)網(wǎng)絡的統(tǒng)計清除錯誤次數(shù)為204次,失敗率為46%。直接分類的統(tǒng)計清除錯誤次數(shù)最多,為252次,失敗率為57%。
4? 結? 論
本文針對采砂中數(shù)據(jù)質量較差的問題,引入K-means-CNN耦合的大數(shù)據(jù)清洗模式,并對結果進行了分析。就CNN神經(jīng)網(wǎng)絡而言,實現(xiàn)比較復雜,全連接方法也過于冗余,效率不高,而聚類算法對離群點的處理能力不足。為此,本文把K-means聚類算法與神經(jīng)網(wǎng)絡組合在一起使用,將經(jīng)過聚類后的樣本用作卷積網(wǎng)絡訓練樣本,從而大幅減少了訓練樣本使用費用,提高了效率,數(shù)據(jù)清洗效果較好,為后續(xù)砂石儲量的有效測量奠定了基礎。
由于實驗條件有限,本文的采砂大數(shù)據(jù)樣本量較少。后續(xù)的工作還需要提高樣本容量,減少試驗誤差。但由于河流砂石信息收集相對難,信息類型復雜,影響因素多,還需要對河流砂石開采信息加以深入細致的分析,探索其變化規(guī)律,以便對河流砂石開采技術進行深層次的探索和完善。
參考文獻:
[1] 王銘軍,潘巧明,劉真,等.可視數(shù)據(jù)清洗綜述 [J].中國圖象圖形學報,2015,20(4):468-482.
[2] 趙一凡,卞良,叢昕.數(shù)據(jù)清洗方法研究綜述 [J].軟件導刊,2017,16(12):222-224.
[3] 夏云峰,蔡喆偉,陳誠,等.模型試驗含沙量量測技術研究 [J].水利水運工程學報,2018(1):9-16.
[4] 關于加強河道采砂管理工作方案 [J].河北水利,2019(5):4-5.
[5] 李昌華,卜亮亮,劉欣.基于聚類和神經(jīng)網(wǎng)絡對建筑節(jié)能氣候數(shù)據(jù)清洗的算法 [J].計算機應用,2018,38(S1):83-86+111.
[6] 李爽.基于卷積神經(jīng)網(wǎng)絡的電信詐騙識別分類器的設計與實現(xiàn) [D].北京:北京郵電大學,2019.
[7] 張燕.基于聚類算法的數(shù)據(jù)清洗的研究與實現(xiàn) [D].保定:華北電力大學,2008.
[8] 林女貴,吳元林.基于改進K-means的大數(shù)據(jù)清洗方法 [J].微型電腦應用,2021,37(11):133-136.
[9] CHANG W, ZHU B. Cluster automorphism groups of cluster alge-bras of finite type [J].Journal of Algebra,2016,447:490-515.
[10] CHANG W,ZHU B. On rooted cluster morphisms and cluster structures in $2$-Calabi-Yau trianguated categories [J/OL].arXiv:1410.5702v1 [math.RT].[2023-03-20].https://arxiv.org/abs/1410.5702v1.
[11] FRANKE R. CHIMERA: Top-down model for hierarchical, overlapping and directed cluster structures in directed and weighted complex networks [J].Physica A: Statistical Mechanics and its Applications,2016,461:384-408.
[12] ZHANG J,ZHANG L Y,DU M,et al. Indentifying the major air pollutants base on factor and cluster analysis, a case study in 74 Chinese cities [J].Atmospheric Environment,2016,144:37-46.
[13] 賈小勇,徐傳勝,白欣.最小二乘法的創(chuàng)立及其思想方法 [J].西北大學學報:自然科學版,2006(3):507-511.
[14] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡研究綜述 [J].計算機學報,2017,40(6):1229-1251.
[15] 張海濤,王丹,徐海玲,等.基于卷積神經(jīng)網(wǎng)絡的微博輿情情感分類研究 [J].情報學報,2018,37(7):695-702.
[16] 胡西祥.基于深度學習的微博評論情感傾向性分析 [D].哈爾濱:哈爾濱工業(yè)大學,2018.
[17] 孫國慶.基于卷積神經(jīng)網(wǎng)絡的加氫裂化裝置建模研究 [D].杭州:浙江大學,2019.
作者簡介:張靜(1992—),女,漢族,河南尉氏縣人,助教,碩士研究生,研究方向:大數(shù)據(jù)技術。