郭 亮
(贛南師范大學,江西 贛州 341000)
大數(shù)據(jù)是指融合多種來源,并以多元化的形式存在的龐大數(shù)據(jù)組,具有數(shù)據(jù)量大、增長速度快以及結(jié)構(gòu)多樣的特點,大數(shù)據(jù)包含的數(shù)據(jù)信息具有時效性。通過對海量大數(shù)據(jù)的存儲、檢索、通信、處理等操作,能夠得到更加權威的研究結(jié)果,同時可以制定出有針對性的發(fā)展策略[1]。大數(shù)據(jù)涉及的領域逐漸向人們的日常生活靠近,能夠儲存人們的日??臻g行為數(shù)據(jù)??臻g行為指的是人們在日常生活中發(fā)生的行為動作,包括空間移動行為、社交行為、語言行為等。長期研究發(fā)現(xiàn)大數(shù)據(jù)空間行為以數(shù)據(jù)的方式呈現(xiàn)不夠直觀,為解決該問題,相關學習提出要對空間行為大數(shù)據(jù)進行可視化處理,并以DAG圖的方式呈現(xiàn)用戶的空間行為??梢暬夹g執(zhí)行過程需要使用代碼程序,由于用戶需求不同所以需要用戶自行開發(fā),但并不意味著用戶要進行源代碼開發(fā),而是在工作空間內(nèi)上傳JAR包。
文獻[2]提出基于CiteSpace的大數(shù)據(jù)空間行為可視化技術,以時空知識圖譜及內(nèi)容知識圖譜分析為主要研究方法,基于信息可視化軟件CiteSpace,對大數(shù)據(jù)空間行為進行可視化比較和分析,提出粒計算解決框架,分析了深度學習與粒計算的邏輯關系,提出深度學習本質(zhì)上是多粒度計算,可以用深度學習引導在大數(shù)據(jù)處理中形成數(shù)據(jù)粒和功能粒的最優(yōu)結(jié)構(gòu),討論了量子比特編碼與粒計算的關系,提出用量子比特編碼有可能降低大數(shù)據(jù)問題的規(guī)模和復雜度。但該方法僅能為大數(shù)據(jù)空間行為可視化技術提供理論知識,缺少實際應用。文獻[3]提出基于SuperMap的大數(shù)據(jù)空間行為可視化技術,以海量時空點數(shù)據(jù)為例,采用預處理可視化方案,設計并實現(xiàn)了一套高可擴展的分布式可視分析框架。基于SuperMap技術,還原空間行為,得到可視化結(jié)果。但該方法只能處理部分信息結(jié)構(gòu)簡單的數(shù)據(jù),對于結(jié)構(gòu)復雜、冗余度高的數(shù)據(jù)無法進行準確的可視化處理。
由于大數(shù)據(jù)與空間行為都屬于瞬時行為,要求可視化技術要保證可視信息的實時性,為此需要在傳統(tǒng)可視化技術的基礎上對大數(shù)據(jù)空間行為可視化技術進行優(yōu)化與改進。本研究引入粒計算方法,其基本單位為粒,是論域中的子集、類、簇以及元素通過功能標簽、不可區(qū)分性以及相似性和功能標簽而形成的集合。集合的一個子集、系統(tǒng)的一個模塊等都是粒。將粒計算的構(gòu)建與分解原理應用到大數(shù)據(jù)空間行為的可視化技術中,能夠提升技術速度,實現(xiàn)可視化技術的優(yōu)化。
大數(shù)據(jù)空間行為可視化技術的思想為:將大數(shù)據(jù)空間行為的數(shù)據(jù)信息通過數(shù)據(jù)挖掘、粒計算處理以及變換、編碼等過程轉(zhuǎn)換為圖像數(shù)據(jù)[4]。具體的設計過程如圖1所示。
圖1 空間行為可視化技術流程圖
空間行為數(shù)據(jù)一般采用矢量數(shù)據(jù)模型來表示,矢量數(shù)據(jù)模型由點線面三個基本元素單位組成,用來表示空間行為中的實體。
空間行為數(shù)據(jù)包括社交行為數(shù)據(jù)、邏輯語言行為數(shù)據(jù)和空間移動行為數(shù)據(jù)。挖掘空間行為數(shù)據(jù)的步驟為空間行為數(shù)據(jù)準備、數(shù)據(jù)挖掘、數(shù)據(jù)表述和數(shù)據(jù)評價四個階段[5],其過程如圖2所示。
圖2 數(shù)據(jù)挖掘一般步驟
在按照上圖步驟挖掘大數(shù)據(jù)空間行為數(shù)據(jù)的過程中,首先設定數(shù)據(jù)挖掘的最小支持度為s,最小置信度為C0,進而得到候選項集,如果該集合的支持度大于等于最小支持度,那么就稱之為頻繁項集[6]。對數(shù)據(jù)庫中的大數(shù)據(jù)進行掃描,直到不再產(chǎn)生新的候選項集為止。
按照上述數(shù)據(jù)挖掘步驟對社交行為數(shù)據(jù)進行挖掘,將社交數(shù)據(jù)、話題、命名實體及其關聯(lián)定義為層次語義模型,將每一條消息定義為一個節(jié)點,自然劃分話題不相同的消息,將劃分結(jié)果定義為:
∏={n:n∈VT}
(1)
式中n表示的是空間行為數(shù)據(jù)中的消息數(shù)據(jù),VT為相同話題的消息集合。對劃分遍歷后得到的聚類圖用矩陣向量來表示,圖形表達式如式(2)所示。
AG=〈VT,ET〉
(2)
式中ET表示命名實體分類關系。按照相同的挖掘方法挖掘空間行為中的邏輯語言行為和空間移動行為大數(shù)據(jù),聚類融合空間行為數(shù)據(jù),輸出最終的挖掘結(jié)果,實現(xiàn)空間行為數(shù)據(jù)的挖掘。
基于粒計算進行空間行為數(shù)據(jù)的可視化處理,首先需要標準化數(shù)據(jù)格式,將不同的空間行為數(shù)據(jù)類型轉(zhuǎn)換成為統(tǒng)一的格式,設融合的大挖掘數(shù)據(jù)原始序列的表達式為
X(0)=(x(0)(1),x(0)(2),…,x(0)(n))
(3)
設D1為作用于x(0)的算子,X(0)經(jīng)過算子D1作用后可以得到式(4)中的序列[7]
XD1=(x(0)(1)d1,x(0)(2)d1,…,x(0)(n)d1)
(4)
式中單位元素的計算公式為:
(5)
式中λ為加權變換算子系數(shù),其取值為0<λ<1。由此建立加權變換方程如下
x(0)(k)+ax(1)(k)=b
(6)
式中,a為微分變量,其對應的微分方程可以表示為
(7)
式中,t代表微分作用系數(shù),求解上述微分方程的響應函數(shù),如式(8)所示
(8)
則挖掘原始數(shù)據(jù)的響應序列為
(9)
通過濾波處理、坐標變換、幾何變換、線性分割等步驟,借助粒計算中的粒構(gòu)建和分解原理,從粒度空間優(yōu)化和多粒度聯(lián)合計算兩個方面,實現(xiàn)粒計算的預處理[8]。具體的處理過程如圖3所示。
圖3 粒計算的空間行為數(shù)據(jù)可視化處理框架圖
2.2.1粒度空間優(yōu)化
針對空間行為問題性質(zhì)以及計算過程的約束條件,在問題大數(shù)據(jù)的多粒度表示空間中選擇合適的粒層。通過對空間行為推測出滿意解的粒度,再對本身的粒度進行求解。解的粒度與問題粒度之間的映射關系為MPS,問題的粒度比解的粒度更粗,從而得到特定粒度上的解。在大數(shù)據(jù)空間行為問題的求解過程中,所要計算出的空間行為可視化數(shù)據(jù)處于核實的粒度層次上,在這個過程中所處理的信息粒的粒度稱為計算粒度[9]。從解的粒度到計算粒度之間存在著映射關系,可以表示為MSC。根據(jù)MPS和MSC,能夠得到空間行為問題粒度與計算粒度存在的映射關系,用MPC表示,因此粒度空間優(yōu)化就會轉(zhuǎn)換為求解MPC的過程,如圖4所示。
圖4 問題粒度到計算粒度的映射求解過程
按照圖中的映射求解流程,得出粒子空間的優(yōu)化結(jié)果,并將空間行為大數(shù)據(jù)輸入到該粒度空間中。
2.2.2多粒度聯(lián)合計算
多粒度聯(lián)合計算是指將求解空間行為大數(shù)據(jù)的過程,依次分配到數(shù)據(jù)表示的多個粒度層中,從而形成多個子任務,協(xié)同每一個粒度層次上相對簡單的部分,以此完成復雜問題的求解[10]。圖5當中存在兩條模糊規(guī)則的推理系統(tǒng),對每一個粒層中的功能計算其隸屬度等。
圖5 多層粒度的模糊推理計算示意圖
圖中Ai與Bi分別為多層粒度中的單位粒子,那么映射關系可以通過式(10)來計算。
(10)
ωi=μAi(x)×μBi(x),i=1,2
(11)
其中μ為計算模糊系數(shù)。根據(jù)若干較低層次的粒層,輸出高層次的計算結(jié)果,完成粒計算的可視化處理。
將大數(shù)據(jù)中的空間行為數(shù)據(jù)信息轉(zhuǎn)換為圖形的表示方式,首先要變換空間行為軌跡,此過程分為兩個步驟,分別為空間行為軌跡生成和軌跡變換[11]??臻g行為軌跡生成需要計算行為距離,同時判斷空間行為的方向。在進行距離與方向的計算時需要遍歷空間內(nèi)的每一個節(jié)點,路徑的緩沖區(qū)相交得到空間行為集合L,那么其距離總長度也為L,其中每兩個節(jié)點之間的長度系數(shù)為κ,則空間行為的整體方向值計算公式如下
L=κ1α1+κ2α2+…+κnαn
(12)
其中每一個空間段的方向角為αn,計算得出方向角的值與距離長度值,最終得到空間行為軌跡變換結(jié)果。
將轉(zhuǎn)換完成的空間行為以對應的繪制圖像的形式輸出,圖像的繪制過程如圖6所示。
圖6 繪制過程流程圖
首先繪制變換數(shù)據(jù)的底圖信息,按照對應空間行為配置信息以及元素,實現(xiàn)大數(shù)據(jù)空間行為的可視化。接著按照空間行為的聚集程度,將數(shù)據(jù)全部繪制在畫布上,并使用不同的顏色來表示。對數(shù)據(jù)中的每一個粒子元素做一個緩沖區(qū),緩沖區(qū)的像素值與到元素的距離成反比,也就是逐漸遞減,遞減函數(shù)可通過式(13)來計算
(13)
通過式(13)得出的每一個結(jié)果都包含著該像素的顏色信息,此時畫布中的所有像素都有不同的alpha值。將透明度轉(zhuǎn)換為色彩紙,根據(jù)alpha值的不同,將當前的alpha的值對應的RGB值賦予到像素[12]。
為檢測粒計算下的大數(shù)據(jù)空間行為可視化技術的有效性,需要設計仿真對可視化技術的結(jié)果進行分析。為了保證仿真變量的唯一性,在仿真過程中選擇相同的大數(shù)據(jù)空間行為數(shù)據(jù)作為仿真的仿真數(shù)據(jù)。通過搭建可視化技術應用的處理仿真平臺,對輸入的空間行為數(shù)據(jù)進行可視化技術處理,并對結(jié)果進行具體分析。
由于采集實際空間行為數(shù)據(jù)不可控因素較多,因此直接調(diào)用數(shù)據(jù)庫中的數(shù)據(jù)信息,并搭建仿真環(huán)境,在仿真環(huán)境下對空間行為信息進行可視化處理。
仿真環(huán)境主要由物理設備層、軟件環(huán)境層、業(yè)務邏輯層、服務層以及應用層五個部分組成。其中物理層能夠為整個可視化技術的物理硬件提供支持。在物理層上安裝服務器、CPU處理器以及存儲器等硬件設備。利用服務器強大的運算處理能力,為上層所有功能計算提供支持。軟件環(huán)境層,即為可視化技術處理層,提供可視化數(shù)據(jù)處理平臺最基本的軟件支持。而業(yè)務邏輯層、服務層及應用層,主要支持可視化技術的正常運行以及后期維護處理,保證空間行為可視化技術在仿真過程中可以正常使用。
為了凸顯設計出的粒計算下大數(shù)據(jù)空間行為可視化技術的有效性,在仿真中將傳統(tǒng)的可視化空間行為處理技術作為仿真對照。仿真中兩種可視化技術處理的仿真空間行為數(shù)據(jù)相同,以此保證仿真變量的唯一性。
將兩種空間行為可視化技術作為仿真環(huán)境中的軟件環(huán)境層,將相同的空間行為數(shù)據(jù)輸入到仿真環(huán)境當中。分別使用兩種技術對其進行可視化處理,在數(shù)據(jù)輸入時啟動時間計,直輸出空間行為可視化圖像后,計時結(jié)束。記錄計時器顯示的時間數(shù)據(jù),該數(shù)據(jù)即為可視化技術處理所消耗的時間,對兩種技術的仿真結(jié)果進行對比分析。
路線創(chuàng)建過程如圖7所示。
圖7 大數(shù)據(jù)空間行為軌跡創(chuàng)建過程
設置像素點的圓半徑以及模糊度,使其攜帶新的顏色值,重新在畫布上繪制圖像,并將大數(shù)據(jù)空間行為的可視化繪制圖像輸出,輸出結(jié)果如圖8所示。
圖8 大數(shù)據(jù)空間行為可視化輸出結(jié)果圖
在上述實驗結(jié)果的基礎上,下面對提出方法的穩(wěn)定性進行實驗驗證。將傳統(tǒng)方法作為實驗對照,隨著大數(shù)據(jù)空間行為挖掘時間的增加,輸出方法挖掘穩(wěn)定性,實驗結(jié)果如下:
圖9 穩(wěn)定性對比
圖9對比了兩種方法的應用穩(wěn)定性,從該實驗結(jié)果中可以看出傳統(tǒng)方法的穩(wěn)定性波動較大,最高波動達到±1.5%,該范圍的穩(wěn)定性無法滿足實際應用要求。相比之下,研究方法的穩(wěn)定性波動范圍±0.5%,說明該方法具有更好的穩(wěn)定性,這大大增強了方法的應用性能。
除方法的穩(wěn)定性之外,隨著待挖掘行為數(shù)量的增高,其可視化處理的時長也是衡量方法有效性的關鍵性參數(shù)。經(jīng)過仿真過程,得出有關于空間行為可視化技術的執(zhí)行時間結(jié)果,如表1所示。
表1 實驗對比結(jié)果
從表中的數(shù)據(jù)結(jié)果可以看出,傳統(tǒng)可視化技術的平均消耗時間為0.5秒/kB,而設計出的可視化技術的平均消耗時間僅為0.02秒/kB。隨著處理數(shù)據(jù)量的增加,兩種技術的可視化處理速度也在發(fā)生變化,當空間行為數(shù)據(jù)量達到1GB時,使用設計出的粒計算可視化技術相比于傳統(tǒng)的可視化技術可以節(jié)省大約873.8秒,且經(jīng)過處理與計算發(fā)現(xiàn),兩種可視化技術的處理準確率與輸出結(jié)果的質(zhì)量相近。因此可以得出結(jié)論:當?shù)贸鼋葡嗤梢暬幚斫Y(jié)果時,使用粒計算可視化技術可以節(jié)省大量的處理時間。
通過分析使用粒計算處理大數(shù)據(jù)空間行為,研究大數(shù)據(jù)空間行為和粒計算領域的相關基礎,為實現(xiàn)空間行為的可視化處理,因此提出基于粒計算的大數(shù)據(jù)空間行為可視化技術,將實現(xiàn)的可視化技術應用到實際的研究工作當中,在保證可視化質(zhì)量的前提下,可以節(jié)省大量的處理時間,希望這種基于粒子計算的大數(shù)據(jù)處理方式,可以對研究著提供一些有益的借鑒和幫助。