張小倚,延 慶,李曉霽
(1 陜西延長石油<集團(tuán)>管道運(yùn)輸公司 陜西 延安 716000) (2 陜西延長石油<集團(tuán)>管道運(yùn)輸?shù)谌止?陜西 延安 716000)
可視化技術(shù)在大數(shù)據(jù)應(yīng)用中作為領(lǐng)先的數(shù)據(jù),它能將大量的數(shù)據(jù)和數(shù)據(jù)信息中不明顯的邏輯關(guān)系、復(fù)雜無趣的數(shù)據(jù)進(jìn)行可視化的轉(zhuǎn)化,能在看似復(fù)雜沒有規(guī)律的數(shù)據(jù)信息中發(fā)現(xiàn)其關(guān)聯(lián)性,讓用戶在挖掘復(fù)雜且枯燥的數(shù)據(jù)信息時能降低難度。以前人們只能從大量的數(shù)據(jù)中自己發(fā)現(xiàn)信息,發(fā)現(xiàn)信息的過程浪費(fèi)了大量的人力資源和時間,現(xiàn)如今研究人員可以通過數(shù)據(jù)可視化技術(shù)以簡單且具體的圖形對數(shù)據(jù)進(jìn)行展示和分析,這樣不僅快捷還能大大減少人力資源[1]。由此可見,大數(shù)據(jù)可視化技術(shù)在這個大數(shù)據(jù)時代對數(shù)據(jù)信息的分析起到了一定作用。
數(shù)據(jù)可視化即數(shù)據(jù)的圖形表示,旨在以更易于掌握和理解的有效方式傳達(dá)海量數(shù)據(jù)。從某種意義上說,數(shù)據(jù)可視化是原始數(shù)據(jù)和圖形元素之間的映射,它決定了這些元素的屬性如何變化。借助于圖形化手段如折線圖、柱狀圖、散點(diǎn)圖、餅狀圖、地圖、網(wǎng)絡(luò)圖、矩陣圖等,直觀地表達(dá)數(shù)據(jù)與數(shù)據(jù)直接關(guān)系,獲得數(shù)據(jù)的內(nèi)在信息,從而清晰有效地傳達(dá)信息。
部分學(xué)者對大數(shù)據(jù)可視化的界定:對抽象的數(shù)據(jù)信息進(jìn)行計算機(jī)可視化,通過互動的方式提高思維能力。大數(shù)據(jù)可視化技術(shù)與傳統(tǒng)計算機(jī)上的電子圖像及科學(xué)研究的可視化不一樣,現(xiàn)在的信息可視化研究更偏重于可視化圖形,以及數(shù)據(jù)和數(shù)據(jù)信息內(nèi)隱藏的內(nèi)容和部分容易忽略的規(guī)律,大數(shù)據(jù)可視化更致力于創(chuàng)造類似人的認(rèn)知能力規(guī)律[2-3]。
面對具有大數(shù)據(jù)的海量、異構(gòu)、多樣性特征的數(shù)據(jù)集,如商業(yè)分析、人口狀況分布、用戶行為數(shù)據(jù)等,數(shù)據(jù)可視化要經(jīng)歷數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)管理、數(shù)據(jù)挖掘等在內(nèi)的一系列復(fù)雜的數(shù)據(jù)處理過程,然后根據(jù)業(yè)務(wù)需求確定圖形化方式,如采用三維還是二維、靜態(tài)還是動態(tài)、實用還是交互等。
要想對可視化進(jìn)行剖析需要有各種各樣的基礎(chǔ)理論支持,而在這些基礎(chǔ)里最關(guān)鍵的就是認(rèn)知能力理論模型、建構(gòu)理論模型、人機(jī)交互認(rèn)知能力實體模型,這些都為智能化中大數(shù)據(jù)可視化問題打下了牢固的基礎(chǔ)。
可視化技術(shù)保留了傳統(tǒng)式的科學(xué)研究可視化和信息可視化,以總體目標(biāo)的視角考慮,對各方面的數(shù)據(jù)信息進(jìn)行匯總分析。BEN[4]根據(jù)信息化的特點(diǎn),把可視化技術(shù)分成1-dimensional、2-dimensional、3-dimensional、multi-dimensional、tree、network和temporal。
這幾年,不少學(xué)者圍繞著這些信息種類,提出了信息可視化技術(shù)的新方式和新技術(shù),并且已經(jīng)開始普及[5]。隨著互聯(lián)網(wǎng)大數(shù)據(jù)的快速發(fā)展,社交媒體、互聯(lián)網(wǎng)技術(shù)、社會發(fā)展公共文化服務(wù)的流行,從它們的使用中慢慢演變出了幾種獨(dú)特的信息種類,包含文字信息、互聯(lián)網(wǎng)及多維數(shù)據(jù)信息等。這些與互聯(lián)網(wǎng)大數(shù)據(jù)有關(guān)的信息都與Shneiderman的歸類交叉式結(jié)合,這些將會是大數(shù)據(jù)可視化技術(shù)研究方向的關(guān)鍵所在。
大數(shù)據(jù)可視化的基本模型主要包括Data Transformation(數(shù)據(jù)轉(zhuǎn)換)、Visual Mapping(可視化映射)、ViewTransformation(視圖變換)等方面。
數(shù)據(jù)轉(zhuǎn)換:將原始數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)表形式,以達(dá)到數(shù)據(jù)規(guī)范化的目的。
可視化映射:將數(shù)據(jù)表映射為可視化結(jié)構(gòu),由空間基、標(biāo)記的圖像屬性等可視化表征組成,從而構(gòu)建數(shù)據(jù)的可視化結(jié)構(gòu)。
視圖變換:將數(shù)據(jù)的可視化結(jié)構(gòu)根據(jù)位置、比例、大小等參數(shù)進(jìn)行設(shè)置并顯示在輸出設(shè)備上,以實現(xiàn)可視化輸出。
所謂可視化數(shù)據(jù),其實是根據(jù)數(shù)值用標(biāo)尺、顏色、位置等各種視覺隱喻的組合進(jìn)行表現(xiàn),如深色和淺色的含義不同,二維空間中右上方和左下方的點(diǎn)含義不同??梢暬菑脑紨?shù)據(jù)到條形圖、折線圖和散點(diǎn)圖的飛躍。不論圖在什么位置,可視化都是以數(shù)據(jù)為核心的,大部分組件都是為了展示數(shù)據(jù)而創(chuàng)造,組件的數(shù)據(jù)來源于數(shù)據(jù)源,且每個組件只能綁定一個數(shù)據(jù)源,每個數(shù)據(jù)源只能被一個組件綁定。數(shù)據(jù)源的數(shù)據(jù)必須是二維數(shù)組(集合),并且組件能識別的數(shù)據(jù)也必須是二維數(shù)組。智能數(shù)據(jù)采集及大數(shù)據(jù)可視化系統(tǒng)技術(shù)架構(gòu)如圖1所示,該系統(tǒng)設(shè)計時采用了前后端分離模式,在老式的基礎(chǔ)上又增加采用主流后端技術(shù)棧Spring Cloud+Mysq1+Redis+RabbitMQ等微服務(wù)、微架構(gòu)、分布式。微服務(wù)架構(gòu)容易開發(fā)和維護(hù),是一種軟件開發(fā)技術(shù)面向服務(wù)的體系,都圍繞著具體業(yè)務(wù)進(jìn)行構(gòu)建,并能獨(dú)立部署,可將系統(tǒng)架構(gòu)分為用戶層、業(yè)務(wù)層、信息處理層和數(shù)據(jù)存儲層。
圖1 系統(tǒng)技術(shù)架構(gòu)
用戶層主要對可視化的數(shù)據(jù)進(jìn)行匯總,分析界面;數(shù)據(jù)處理層進(jìn)行數(shù)據(jù)智能收集及可視化分析,包括創(chuàng)建表單;數(shù)據(jù)存儲層就是把所有收集的數(shù)據(jù)進(jìn)行備份存儲等。
用戶層主要是利用系統(tǒng)提供控件并自主創(chuàng)建表單,并能拖曳式全屏編輯,使得采集出來的表單能更加清晰。用戶編輯頁面如圖2所示,可以看出:用戶層可以設(shè)定標(biāo)簽,利用標(biāo)簽進(jìn)行分離,也可以用來標(biāo)識某個特定屬性的表單,對表單進(jìn)行快速定位;還能添加表單的介紹,讓采表填表人員能更加明確地采集到內(nèi)容和要求,有表單發(fā)布時對已經(jīng)創(chuàng)建的表單能進(jìn)行關(guān)聯(lián)性發(fā)布,有需要填表單的成員需要登錄賬戶進(jìn)行數(shù)據(jù)填寫,發(fā)布模式多種,每個人主要知道賬戶都可以填寫。
圖2 用戶編輯頁面
微服務(wù)架構(gòu)主要通過IIystrix庫進(jìn)行隔離訪問,通過聯(lián)系到第三方庫,防止級聯(lián)失效,提高系統(tǒng)的可用性和出錯性。利用Zuul組建服務(wù)網(wǎng)管,Zuul過濾器能驗證用戶身份、測試壓力等功能,Spring ClouddConfig進(jìn)行統(tǒng)一的微服務(wù)管理配置。以上的內(nèi)容能保證用戶的數(shù)據(jù)安全、增強(qiáng)用戶體驗、提高工作效率。
能在系統(tǒng)中通過調(diào)取之前用戶提交的表單收集到數(shù)據(jù),通過智能化數(shù)據(jù)匯總,為用戶提供可視化的界面,讓呈現(xiàn)出來的圖形內(nèi)容更加清晰,為用戶提供了更加方便有效的數(shù)據(jù)。在Hadoop MapReduce中,這個轉(zhuǎn)換過程是直接的,具有固定的執(zhí)行流程,可以直接將包含map/reduce函數(shù)的作業(yè)劃分成map和reduce這2個階段。map階段包含多個可以并行執(zhí)行的map任務(wù),reduce階段包含多個并行執(zhí)行的reduce任務(wù)。map任務(wù)負(fù)責(zé)將輸入的分塊數(shù)據(jù)進(jìn)行處理,并將其輸出結(jié)果寫入緩沖區(qū),在緩沖區(qū)中進(jìn)行數(shù)據(jù)分區(qū)、聚合等操作[6-7],最后將數(shù)據(jù)傳輸?shù)酱疟P上的不同分區(qū)中。reduce任務(wù)主要是將分區(qū)中的數(shù)據(jù)通過網(wǎng)絡(luò)保存到本地內(nèi)存中,內(nèi)存空間不足時,寫入磁盤,并將數(shù)據(jù)寫入分布式文件系統(tǒng)中。
現(xiàn)下的社會已經(jīng)步入了大數(shù)據(jù)時代,根據(jù)相關(guān)文獻(xiàn)數(shù)據(jù),發(fā)現(xiàn)國內(nèi)大數(shù)據(jù)可視化技術(shù)的主要研究分為以下3個階段:
第一階段,可視化技術(shù)的定義和概念產(chǎn)生的階段。在這個階段中,如果有學(xué)術(shù)權(quán)威提出新的概念時,那么它的概念將由此產(chǎn)生或更新。
第二階段,可視化技術(shù)慢慢走向成熟的階段。在發(fā)展的過程中出現(xiàn)了很多新的技術(shù)方法,如數(shù)據(jù)可視化的分析工具、信息采集與信息處理技術(shù)等,這些技術(shù)都為可視化技術(shù)走向成熟打下了堅定的基礎(chǔ)。
第三階段,可視化技術(shù)的應(yīng)用階段。在這個階段中,可視化技術(shù)已經(jīng)能進(jìn)行閱讀、收播新聞、在教育等其他方面也得到了廣泛的應(yīng)用。
現(xiàn)在我國處于一個快速的信息化時代,如果將國內(nèi)外進(jìn)行對比,國內(nèi)更傾向于可視化技術(shù)的理論和技術(shù)探索,應(yīng)用還比較落后;國外大數(shù)據(jù)可視化的技術(shù)與理論都比較超前。因此國內(nèi)現(xiàn)在也將可視化技術(shù)向著智能化的方向邁進(jìn),追求向智慧化的方向發(fā)展,這些都是目前國內(nèi)所要研究的方向[8-9]。
數(shù)據(jù)智能可視化技術(shù)的研究是一個很大的挑戰(zhàn),具有多維度、多領(lǐng)域、易理解、準(zhǔn)確性高等特點(diǎn),能對有效的信息進(jìn)行匯總,同時把一些有規(guī)律的信息進(jìn)行組合,使項目的關(guān)鍵點(diǎn)更加突出,智能可視化技術(shù)的步驟如下:
步驟1 對所給數(shù)據(jù)進(jìn)行智能分析,明確目標(biāo)信息;
步驟2 分析得出目標(biāo)信息屬性,類型等;
步驟3 采用合適的數(shù)據(jù)可視化類型;
步驟4 結(jié)合適當(dāng)?shù)目梢暬椒?
步驟5 一鍵式生產(chǎn)數(shù)據(jù)可視化場景;
步驟6 直接得出項目關(guān)鍵信息。
仔細(xì)觀察以上步驟可以看出,可視化技術(shù)與智能分析的結(jié)合,使數(shù)據(jù)能更好地展示和進(jìn)行更深層次的分析和研究,加大了可視化目標(biāo)的準(zhǔn)確性。將可視化技術(shù)進(jìn)行智能化,更進(jìn)一步優(yōu)化了處理數(shù)據(jù)的能力,還相應(yīng)地減少了數(shù)據(jù)分析的時間,保證了數(shù)據(jù)分析的準(zhǔn)確性和可用性,使智能化的一鍵式生成數(shù)據(jù)可視化場景離實現(xiàn)更近了一步。
大數(shù)據(jù)可視化技術(shù)其自身強(qiáng)硬的交互性、多維性以及可視性特點(diǎn),可以方便用戶實時查看自己的數(shù)據(jù),并通過圖表的方式進(jìn)行呈現(xiàn)。數(shù)據(jù)可視化不僅可以進(jìn)行數(shù)據(jù)狀態(tài)的呈現(xiàn),還可以對存在關(guān)聯(lián)的可視化數(shù)據(jù)進(jìn)行比較,從而挖掘出數(shù)據(jù)與數(shù)據(jù)之間的有效連接,呈現(xiàn)出一個更加嚴(yán)謹(jǐn)性的數(shù)據(jù)發(fā)展趨勢。在大數(shù)據(jù)的環(huán)境下,數(shù)據(jù)可視化服務(wù)具有即時生成的功能,當(dāng)數(shù)據(jù)采集完畢后,可以立即進(jìn)行可視化方案的呈現(xiàn)[10]。例如:電子錢包中的賬單服務(wù),用戶需要通過使用電子錢包所產(chǎn)生的交易數(shù)據(jù),自動生成數(shù)據(jù)圖表,當(dāng)月末時自動進(jìn)行呈現(xiàn)。用戶只需要借助數(shù)據(jù)圖表分析自身的消費(fèi)狀況,實時調(diào)整自己的消費(fèi)規(guī)劃,此類服務(wù)的即時性,可以為用戶創(chuàng)建數(shù)據(jù)可視化,其便利、快捷的優(yōu)勢是其他數(shù)據(jù)無法媲美的[11]。
大數(shù)據(jù)可視化技術(shù)在多媒體領(lǐng)域、多維疊加式數(shù)據(jù)等的應(yīng)用已經(jīng)非常成熟,大數(shù)據(jù)處理分析各種數(shù)據(jù)信息時,這個數(shù)據(jù)加工的過程也是傳播數(shù)據(jù)信息的過程,智能手機(jī)作為人們工作和生活的必需品。其中,所涉及到的大數(shù)據(jù)可視化技術(shù)已經(jīng)滲入到人們工作生活的方方面面,通過智能手機(jī)進(jìn)行信息的搜集和數(shù)據(jù)結(jié)果的展示,為大數(shù)據(jù)可視化技術(shù)的交互發(fā)展奠定了更加堅實的基礎(chǔ)[12]。而多維疊加式數(shù)據(jù)的可視化以社交網(wǎng)絡(luò)和數(shù)字地圖的方式進(jìn)行疊加,其群體主要以年輕人為主,這種數(shù)據(jù)方式具有更加靈活的互動性和娛樂性。大數(shù)據(jù)可視化最終的目標(biāo)是以解決人們實際問題為主,根據(jù)人們的問題對大量的數(shù)據(jù)信息進(jìn)行選擇并剔除無關(guān)聯(lián)的數(shù)據(jù),對篩選的數(shù)據(jù)進(jìn)行綜合分析后,以最佳的描述方式進(jìn)行呈現(xiàn)。
大數(shù)據(jù)可視化技術(shù)就目前的形勢來看,經(jīng)過不斷的努力研究和應(yīng)用,已經(jīng)有了一定的基礎(chǔ)成果。但是技術(shù)的發(fā)展是不停歇的,數(shù)據(jù)的類型只會更多、更復(fù)雜多樣,數(shù)據(jù)分析的也不夠徹底,因此需要提高數(shù)據(jù)分析技術(shù),提高數(shù)據(jù)處理能力和效率,指出一個更加明確的研究方向,讓可視化技術(shù)不僅只是對數(shù)據(jù)的展示的一種工具,更是能為各大領(lǐng)域的發(fā)展提供更深層次的造詣。當(dāng)前,各方面都離不開數(shù)據(jù),相關(guān)研究的發(fā)展對大數(shù)據(jù)可視化技術(shù)的依賴性越來越高,大數(shù)據(jù)可視化技術(shù)已經(jīng)成為了最優(yōu)秀的一種處理信息的手段,是用戶從大量的數(shù)據(jù)中挖掘出重要信息的主要方式。為了使技術(shù)更加的智能化,我國的科研人員還在為之努力奮斗。