姚娟 于喜志
[摘? ? ? ? ? ?要]? 針對傳統(tǒng)海量數(shù)據(jù)統(tǒng)計方法中存在的統(tǒng)計過程消耗時間長,無法滿足數(shù)據(jù)傳輸?shù)母咝孕枰獑栴},開展對海量數(shù)據(jù)統(tǒng)計方法的研究。通過建立基于點云數(shù)據(jù)特征組合數(shù)學(xué)模型的多維數(shù)據(jù)集及統(tǒng)計指標(biāo),通過對比實驗證明,該數(shù)據(jù)統(tǒng)計方法與傳統(tǒng)統(tǒng)計方法相比統(tǒng)計過程耗時更短,保證了統(tǒng)計數(shù)據(jù)的可用性,更符合實際需要,并以方差統(tǒng)計軟件驗證了實驗的有效性。
[關(guān)? ? 鍵? ?詞]? 點云數(shù)據(jù);特征組合;數(shù)學(xué)模型;海量數(shù)據(jù)統(tǒng)計
[中圖分類號]? G642 ? ? ? ? ? ? ? ? ? ?[文獻標(biāo)志碼]? A? ? ? ? ? ? ? ? ? ? ? [文章編號]? 2096-0603(2020)23-0060-02
在互聯(lián)網(wǎng)環(huán)境中,海量數(shù)據(jù)包含各類格式,包括文本、音頻、視頻、數(shù)字等,傳統(tǒng)海量數(shù)據(jù)統(tǒng)計均是針對單個類型或單個來源對數(shù)據(jù)進行分析,并不能有效地解決多數(shù)據(jù)結(jié)構(gòu)、多數(shù)據(jù)來源的復(fù)雜問題,并且統(tǒng)計得到的分析結(jié)果也十分有限,無法有效地解決特定的問題[1,2]。海量數(shù)據(jù)的統(tǒng)計是針對當(dāng)前互聯(lián)網(wǎng)環(huán)境中每天產(chǎn)生的各類數(shù)據(jù)進行分析,其中包括對海量數(shù)據(jù)的分類、集成、計算分析、提供決策等。與傳統(tǒng)統(tǒng)計學(xué)模型相比點云數(shù)據(jù)特征組合數(shù)學(xué)模型在建模過程中可以提高建模準(zhǔn)確性,同時時間效率、所占內(nèi)存等方面也遠遠超過傳統(tǒng)模型。因此,本文提出一種基于點云數(shù)據(jù)特征組合數(shù)學(xué)模型的海量數(shù)據(jù)統(tǒng)計方法。
一、研究方法與統(tǒng)計指標(biāo)
筆者對點云數(shù)據(jù)特征組合數(shù)學(xué)模型進行過相關(guān)研究,是將其應(yīng)用于機載激光雷達中。此次將點云數(shù)據(jù)特征組合數(shù)學(xué)模型應(yīng)用于海量數(shù)據(jù)統(tǒng)計中,以求提高統(tǒng)計效率。
(一)建立多維數(shù)據(jù)集
首先針對不同來源、不同類型的海量數(shù)據(jù),針對其不確定性特點,選用點云數(shù)據(jù)特征組合數(shù)學(xué)模型中的聯(lián)合分布函數(shù)以及隨機分布函數(shù)獲取海量數(shù)據(jù)的多維數(shù)據(jù)集[3]。本文假設(shè)點云數(shù)據(jù)特征組合數(shù)學(xué)模型為K={k1,k2,k3,…,kn},并且該模型與海量數(shù)據(jù)的多維數(shù)據(jù)集P={1,2,3,…,X}一一對應(yīng),其中X表示每個多維數(shù)據(jù)集中的點云數(shù)量。本文針對整合的海量數(shù)據(jù),將其分為行為日志、用戶維度、時間維度、行為類型維度、行為結(jié)果維度以及作用對象維度共六個部分。通過點云之間的關(guān)系提高整個算法的計算效率,如圖1所示。
(二)統(tǒng)計指標(biāo)建立
選擇互聯(lián)網(wǎng)環(huán)境中海量數(shù)據(jù)作為處理目標(biāo),在數(shù)據(jù)集中包含用戶的自身信息、用戶行為日志以及各來源渠道中的相關(guān)數(shù)據(jù)等[4]。針對不同的數(shù)據(jù)集,對其統(tǒng)計指標(biāo)及計算公式進行設(shè)定。
數(shù)據(jù)停留時間P1:將用戶在互聯(lián)網(wǎng)環(huán)境下向另一方用戶傳輸數(shù)據(jù)時,兩者傳輸?shù)浇邮軙r間的間隔,并計為第一次數(shù)據(jù)傳輸行為的有效停留時間。這一統(tǒng)計指標(biāo)可以有效地體現(xiàn)出用戶對數(shù)據(jù)的黏著度。
頁面行為次數(shù)P2:頁面行為主要以對數(shù)據(jù)的檢索、展現(xiàn)以及瀏覽為主,并且實際范疇遠大于瀏覽行為范疇。這一統(tǒng)計指標(biāo)可以通過對用戶的瀏覽行為判斷數(shù)據(jù)的適應(yīng)程度。
會話數(shù)P3:指海量數(shù)據(jù)統(tǒng)計過程中的會話數(shù)量。
用戶訪問數(shù)P4:指海量數(shù)據(jù)統(tǒng)計過程中不同的用戶數(shù)量[5]。
P1、P2、P3、P4四種不同統(tǒng)計指標(biāo)的計算公式分別為:
平均數(shù)據(jù)停留時間:
公式(1)中,Ssum表示用戶可統(tǒng)計的停留時間總和;Scount表示用戶可統(tǒng)計的停留時間記錄數(shù)的總和[6]。對統(tǒng)計過程中用戶無后續(xù)行為的特殊情況,應(yīng)當(dāng)利用平均頁面停留時間代替用戶有停留時間總長,其公式為:
公式(2)中,Ptotal表示用戶停留時間總長;tavg表示平均會話持續(xù)時間。平均會話持續(xù)時間是以數(shù)據(jù)停留時間的總長與用戶會話數(shù)相除所得,因此平均會話持續(xù)時間可用如下公式表示:
對待統(tǒng)計的海量數(shù)據(jù)的數(shù)據(jù)集,可能存在較大的離群點,進而導(dǎo)致數(shù)據(jù)中隱私信息被泄漏的風(fēng)險,避免離群點存在泄露數(shù)據(jù)信息或增加誤差的問題,因此基于點云數(shù)據(jù)特征組合數(shù)學(xué)模型,將散亂分布的點云數(shù)據(jù)根據(jù)其特征進行融合,獲取不同數(shù)據(jù)集的中心點,完成對數(shù)據(jù)中心點的采集。首先,假設(shè)數(shù)據(jù)集中的離群點云數(shù)據(jù)分布在X軸、Y軸和Z軸方向上的值為Xl、Xr、Yl、Yr、Zl、Zr,假設(shè)γ表示選中的離群點中的點云數(shù)據(jù)量,則γ主要通過點云的取值范圍以及數(shù)據(jù)集離群點分布的曲率進行選擇。
(三)統(tǒng)計學(xué)驗證
基于點云數(shù)據(jù)特征組合數(shù)學(xué)模型對海量數(shù)據(jù)進行統(tǒng)計后,借助SPSS軟件運用方差統(tǒng)計方法對結(jié)果進行分析。
二、海量數(shù)據(jù)統(tǒng)計與分析
(一)數(shù)據(jù)來源
選取某一網(wǎng)站中的交易數(shù)據(jù)作為海量數(shù)據(jù)統(tǒng)計對象,其中包括交易記錄、交易金額等數(shù)據(jù)信息。借助點云數(shù)據(jù)特征組合數(shù)學(xué)模型將離群點數(shù)據(jù)與近似分組相互融合,首先對原分組進行劃分,對海量數(shù)據(jù)而言,通過快速聚合相似分組,可達到最優(yōu)的分組融合效果[7]。再對分組數(shù)據(jù)集進行差分隱私保護處理,從而進一步鞏固海量數(shù)據(jù)統(tǒng)計過程中的隱私性,保證數(shù)據(jù)統(tǒng)計后統(tǒng)計結(jié)果的可用性。
在對海量數(shù)據(jù)統(tǒng)計前,首先要明確應(yīng)用數(shù)據(jù)統(tǒng)計的周期,再確定數(shù)據(jù)總體構(gòu)成的基本數(shù)據(jù)周期。確定指標(biāo)后,估算應(yīng)用指標(biāo)詳單的數(shù)據(jù)總體容量,明確應(yīng)用指標(biāo)統(tǒng)計分組的業(yè)務(wù)主體,再對指標(biāo)分組的環(huán)境因素、數(shù)據(jù)庫服務(wù)器、網(wǎng)絡(luò)交換機能力等綜合考慮,給出分組環(huán)境因子。再將得到的數(shù)據(jù)集中離群點進行融合,降低數(shù)據(jù)統(tǒng)計過程中出現(xiàn)遺漏后數(shù)據(jù)信息隱私泄漏的問題發(fā)生。最終將應(yīng)用指標(biāo)分組全量統(tǒng)計結(jié)果輸入到對應(yīng)的數(shù)據(jù)庫中存儲。
(二)海量數(shù)據(jù)統(tǒng)計結(jié)果對比
依照上述方法,運用本文統(tǒng)計方法與傳統(tǒng)方法的統(tǒng)計結(jié)果作對比,選擇由兩臺計算機搭建的數(shù)據(jù)存儲平臺,并在平臺中構(gòu)建兩種不同類型的數(shù)據(jù)庫。表1為計算機與數(shù)據(jù)庫的配置參數(shù)信息。
分別利用本文提出的海量數(shù)據(jù)統(tǒng)計方法與傳統(tǒng)數(shù)據(jù)統(tǒng)計方法,對兩個數(shù)據(jù)庫中的數(shù)據(jù)進行統(tǒng)計,分別設(shè)為實驗組和對照組,并記錄兩種方法統(tǒng)計完畢后所消耗的時間,如圖2數(shù)據(jù)統(tǒng)計結(jié)果對比圖所示。
由圖2中的統(tǒng)計結(jié)果可以看出,對海量數(shù)據(jù)的統(tǒng)計所消耗的時間實驗組遠遠少于對照組。因此通過對比圖可以看出,本文提出的基于點云數(shù)據(jù)特征組合數(shù)學(xué)模型的海量數(shù)據(jù)統(tǒng)計方法可以較好地解決海量數(shù)據(jù)統(tǒng)計時的運行效率問題,采用本文方法可以對海量數(shù)據(jù)進行有效統(tǒng)計和分析,同時保證數(shù)據(jù)的隱私安全以及運行效率。
(三)方差統(tǒng)計
為驗證對比實驗的準(zhǔn)確性,借助SPSS軟件運用方差統(tǒng)計方法對結(jié)果進行分析,將上述實驗數(shù)據(jù)輸入SPSS軟件,統(tǒng)計結(jié)果如表2所示。
經(jīng)方差統(tǒng)計驗證,證明上述實驗結(jié)果具有統(tǒng)計學(xué)意義,本文設(shè)計的海量數(shù)據(jù)統(tǒng)計方法能夠有效提升運行效率。
三、結(jié)語
為了進一步提高海量數(shù)據(jù)的統(tǒng)計結(jié)果可用性及效率,本文提出了一種基于點云數(shù)據(jù)特征組合數(shù)學(xué)模型的海量數(shù)據(jù)統(tǒng)計方法,解決了傳統(tǒng)海量數(shù)據(jù)統(tǒng)計中存在的計算效率低、統(tǒng)計過程中存在隱私泄漏等問題。同時在對比實驗中得出,該模型可以更好地滿足數(shù)據(jù)安全性需要,保證數(shù)據(jù)統(tǒng)計結(jié)果具有良好的可用性,具有更高的應(yīng)用價值。
參考文獻:
[1]李俊鋒.大數(shù)據(jù)背景下的統(tǒng)計學(xué)發(fā)展方向分析[J].中外企業(yè)家,2020(5):110.
[2]牛永清.大數(shù)據(jù)審計下統(tǒng)計分析方法初探[J].納稅,2019,13(1):225.
[3]唐玉蘭,項瑩雪,馬甜甜,等.基于多元統(tǒng)計分析方法的渾河流域沈撫段水質(zhì)時空特征[J].安全與環(huán)境學(xué)報,2018,18(5):2008-2012.
[4]盧浩宜.基于統(tǒng)計學(xué)方法對試驗室結(jié)果一致性、有效性分析[J].汽車實用技術(shù),2019(4):125-128.
[5]洪慧,李娟,汪洋,等.基于統(tǒng)計學(xué)方法的地下水水質(zhì)評價與成因分析:以齊齊哈爾市為例[J].環(huán)境工程技術(shù)學(xué)報,2019,9(4):431-439.
[6]霍嬌,劉運杰,游一屏,等.大鼠體內(nèi)Pig-a基因突變試驗設(shè)計及統(tǒng)計學(xué)分析方法建議[J].衛(wèi)生研究,2018,47(4):525-529,553.
編輯 馮永霞