【摘 要】在當(dāng)今世界,一切都是以數(shù)字方式記錄的,從我們的網(wǎng)上沖浪模式到我們的醫(yī)療記錄,我們每天都在生成和處理數(shù)十億字節(jié)的數(shù)據(jù)。大數(shù)據(jù)將在生活的各個領(lǐng)域帶來變革,但是僅僅處理和分析這些數(shù)據(jù)是不夠的,當(dāng)數(shù)據(jù)被可視化表示時,人腦往往能更有效地找到模式。數(shù)據(jù)可視化和分析在各個領(lǐng)域的決策中發(fā)揮著重要作用,它還在可視化領(lǐng)域帶來了新的機遇,代表了通過可視化手段解決大數(shù)據(jù)問題的創(chuàng)新思維,但實時或靜態(tài)地可視化如此龐大的數(shù)據(jù)量是一個相當(dāng)大的挑戰(zhàn)。在這篇文章中,我們討論了為什么大數(shù)據(jù)可視化是最重要的,有什么相關(guān)的挑戰(zhàn),并回顧了一些大數(shù)據(jù)可視化工具。
【關(guān)鍵詞】大數(shù)據(jù);可視化;交互式
1 引言
近年來,大數(shù)據(jù)已經(jīng)成為所有行業(yè)(包括學(xué)術(shù)界、信息技術(shù)公司和政府)感興趣的話題。由于物聯(lián)網(wǎng)、我們環(huán)境中的傳感器以及所有離線記錄(如我們的病史等)的數(shù)字化等因素,數(shù)據(jù)增長率在幾年內(nèi)呈指數(shù)級增長。大數(shù)據(jù)已經(jīng)在如此短的時間內(nèi)證明了它對這個世界的重要性,以至于今天幾乎所有的信息技術(shù)和非信息技術(shù)公司都在存儲他們生產(chǎn)的所有數(shù)據(jù)。
如今,企業(yè)努力只存儲大量數(shù)據(jù),而以有意義的方式分析、解釋和呈現(xiàn)數(shù)據(jù)是以后的想法。大數(shù)據(jù)的主要挑戰(zhàn)在于捕獲、存儲、分析、共享、搜索和可視化數(shù)據(jù)。大數(shù)據(jù)分析的一個主要方面是我們可以在巨大的數(shù)據(jù)集中找到有趣的模式,但實際上分析的結(jié)果通常是原始數(shù)據(jù),通過這些數(shù)據(jù)很難解釋任何事情。但是如果這些數(shù)字被直觀地表示出來,那么我們的大腦就更容易找到有意義的模式并據(jù)此做出決定。
數(shù)據(jù)可視化當(dāng)然不是新事物;它已經(jīng)存在了幾個世紀(jì)。數(shù)據(jù)可視化是傳達信息和表示復(fù)雜事物的簡單快捷的方法。我們?nèi)祟愡m應(yīng)于在我們看到的一切中尋找模式。由于數(shù)據(jù)以如此巨大的速度增長,傳統(tǒng)的數(shù)據(jù)呈現(xiàn)方式已經(jīng)過時。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)的特點是5V,即大容量、高容量、高多樣性、低容量和高價值。實際的挑戰(zhàn)不僅僅是處理如此巨大的數(shù)據(jù)量,而是處理高度多樣化的數(shù)據(jù)。數(shù)據(jù)的高度多樣性和不確定性縮短了應(yīng)用程序的響應(yīng)時間,因為它不僅要處理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),還要處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
2 大數(shù)據(jù)可視化所面臨的挑戰(zhàn)
當(dāng)遇到非常大的數(shù)據(jù)集時,傳統(tǒng)的可視化工具已經(jīng)達到了極限,這些數(shù)據(jù)正在不斷發(fā)展。雖然有一些傳統(tǒng)可視化方法的擴展,但它們落后了數(shù)英里??梢暬ぞ邞?yīng)該能夠以盡可能低的延遲為我們提供交互式可視化。為了減少延遲,我們可以采用這樣一些方式對數(shù)據(jù)進行處理,使用預(yù)先計算的數(shù)據(jù);并行化數(shù)據(jù)處理和渲染;使用預(yù)測中間設(shè)備。
大數(shù)據(jù)可視化工具必須能夠處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),因為大數(shù)據(jù)通常具有這種格式。人們認(rèn)識到,為了應(yīng)付對于如此大量的數(shù)據(jù),需要大量的并行處理,這在可視化方面是一個挑戰(zhàn)。并行算法面臨的挑戰(zhàn)是將問題分解成獨立的任務(wù),使它們能夠獨立運行。
大數(shù)據(jù)可視化的任務(wù)是識別有趣的模式和相關(guān)性。我們需要仔細(xì)選擇要可視化的數(shù)據(jù)維度,如果我們縮小維度以降低可視化程度,那么我們可能會失去有趣的模式,但如果我們使用所有維度,我們可能會發(fā)現(xiàn)可視化過于密集,對用戶無用。例如:“給定常規(guī)顯示器(130萬像素),可視化每個數(shù)據(jù)點會導(dǎo)致過度繪圖、重疊,并可能淹沒用戶的感知和認(rèn)知能力。
由于大數(shù)據(jù)量大、規(guī)模大,很難可視化。目前大多數(shù)可視化工具在可擴展性、功能性和響應(yīng)時間方面的性能都很低。已經(jīng)提出了不僅使數(shù)據(jù)可視化而且同時進行處理的方法。這些方法在模型中使用Hadoop和存儲解決方案以及R編程語言作為編譯器環(huán)境,圖1顯示了這種模型的輪廓。
還有一些重大的大數(shù)據(jù)可視化問題,比如,視覺噪聲:數(shù)據(jù)集中的大多數(shù)對象彼此之間過于相關(guān)。將它們分開變得非常困難;信息丟失:為了增加響應(yīng)時間,我們可以降低數(shù)據(jù)集的可見性,但這會導(dǎo)致信息丟失;大圖像感知:即使在實現(xiàn)了期望的機械輸出后,我們也受到了物理感知的限制;圖像變化率高:如果圖像變化率太高,就不可能對數(shù)字做出反應(yīng);高性能要求:在靜態(tài)可視化過程中,與要求更高性能的動態(tài)可視化相比,這一因素可能被忽略。
3 大數(shù)據(jù)可視化的工具
針對上訴所說大數(shù)據(jù)可視化的各種問題,開發(fā)人員開發(fā)出了各種工具來幫助我們解決上述問題。可視化必須具備的最重要的特性是它應(yīng)該是交互式的,這意味著用戶應(yīng)該能夠與可視化進行交互,當(dāng)鼠標(biāo)懸停在可視化上時,可視化必須顯示相關(guān)信息,放大和縮小面板應(yīng)該在那里,如果我們選擇數(shù)據(jù)的子集或超集,可視化應(yīng)該在運行時自我調(diào)整。我們回顧了一些最流行的可視化工具。
3.1 Tableau
Tableau是以商業(yè)智能為重點的交互式數(shù)據(jù)可視化工具。Tableau提供了非常廣泛的可視化選項。它提供了創(chuàng)建自定義可視化的選項。它快速靈活。它主要支持從亞馬遜極光到Cloudera Hadoop和Salesforce等各種服務(wù)器的所有數(shù)據(jù)格式和連接,用戶界面直觀,圖表種類繁多,對于簡單的計算和統(tǒng)計,不需要任何編碼技能,但是對于大量的分析,我們可以在R中運行模型,然后將結(jié)果導(dǎo)入Tableau。根據(jù)我們需要執(zhí)行的任務(wù),這需要相當(dāng)多的編程技能。
3.2 微軟電力商業(yè)智能
電力商業(yè)智能是一個強大的基于云的商業(yè)分析服務(wù)??梢暬墙换ナ胶拓S富的。智能商務(wù)包括3個元素,智能商務(wù)桌面、服務(wù)(SaaS)、應(yīng)用。每項服務(wù)對我們都是可用的,這就是為什么它使電力商業(yè)智能變得靈活和有說服力。有了60多種類型的源代碼集成,開發(fā)人員可以在幾分鐘內(nèi)開始創(chuàng)建可視化。
3.3 Plotly
Plotly也叫Plotly.ly是用python和Django框架構(gòu)建的。它可以執(zhí)行的操作是分析和可視化數(shù)據(jù)。它對用戶是免費的,但功能有限,我們需要購買專業(yè)會員的所有功能。它可以在線創(chuàng)建圖表和儀表板,但也可以在Ipython筆記本、jupyter筆記本和panda中用作離線服務(wù)。不同種類的圖表是可用的,如統(tǒng)計圖,科學(xué)圖表,三維圖表,多軸,儀表板等。Plotly使用了一個名為“網(wǎng)絡(luò)繪圖數(shù)字化儀(WPD)”的工具,它可以自動從靜態(tài)圖像中獲取數(shù)據(jù)。
4 結(jié)論
在大數(shù)據(jù)的世界里,每一個信息都以這樣或那樣的方式至關(guān)重要,我們依靠視覺信息來找到有用的模式。但是傳統(tǒng)的可視化方法跟不上數(shù)據(jù)的速度和數(shù)量,我們需要這樣的工具來處理大數(shù)據(jù)的所有特征,并在不犧牲性能和響應(yīng)時間的情況下為我們提供結(jié)果。在本文中,我們確定了大數(shù)據(jù)可視化為什么重要,以及與此相關(guān)的挑戰(zhàn)和問題是什么。我們還注意到可視化的交互性是最重要的,好的可視化工具應(yīng)該產(chǎn)生交互式可視化。我們還研究了人們?nèi)绾翁岢鲂碌南到y(tǒng)來應(yīng)對這些挑戰(zhàn)。
參考文獻:
[1]Jin X,Wah BW,Cheng X,and Wang Y,“Significance and challenges of big data research,” Big Data Research,2015 Jun 30;2(2):59-64.
[2]夏德宏.JAVA數(shù)據(jù)可視化設(shè)計與實現(xiàn)研究[J].電子世界,2021(06):178-179.
[3]王好平,王超.基于數(shù)據(jù)可視化的海圖銷售實時監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)[J].航海,2021(02):55-57.
作者簡介:
雷雁茹,2001出生,漢族,研究方向:大數(shù)據(jù)開發(fā)。
(作者單位:西南科技大學(xué)城市學(xué)院)