国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺論大數(shù)據(jù)時代數(shù)據(jù)可視化技術(shù)對于數(shù)據(jù)分析的價值

2020-03-15 05:49吳揚楊祎
科海故事博覽·中旬刊 2020年3期
關(guān)鍵詞:數(shù)據(jù)可視化

吳揚 楊祎

摘 要 數(shù)據(jù)分析界有一句經(jīng)典名言,字不如表,表不如圖。數(shù)據(jù)分析的最終目的都是要兜售自己的觀點和結(jié)論的,用最鮮明有效的方式展現(xiàn)出來。在進入互聯(lián)網(wǎng)時代,大數(shù)據(jù)給人類提供更多的契機去挖掘和探索未知的知識領(lǐng)域,與此同時人類也進入了一個如何使用好該類資源的關(guān)鍵時間節(jié)點。因為隨著大數(shù)據(jù)時代的到來,對數(shù)據(jù)解讀的難度和消息干擾力度也隨之增加。在這樣的背景下,數(shù)據(jù)可視化的重要性日益突顯。依托于認知心理學的可視化技術(shù)是從人類認識事物的根本出發(fā)提供數(shù)據(jù)分析的解讀方案,從而從容應(yīng)對了大數(shù)據(jù)時代帶來的部分挑戰(zhàn)及避免數(shù)據(jù)統(tǒng)計分析陷阱??梢暬且惶卓茖W和美學融合的解決方案,在未來的發(fā)展中值得期待。

關(guān)鍵詞 數(shù)據(jù)可視化 技術(shù)與設(shè)計 數(shù)據(jù)解讀

中圖分類號:TN919.1 文獻標識碼:A 文章編號:1007-0745(2020)03-0018-03

在很多城市,私家車的數(shù)量持續(xù)增長而交通并沒有更加擁堵甚至還有所改善的時候,這是因為信號燈和攝像頭除了地理位置以外有了數(shù)據(jù)處理等AI技術(shù)帶來的其他維度的有效地互聯(lián)互通。大數(shù)據(jù)時代的變革讓人受益,在這個時代,人類接觸的幾乎所有事務(wù)都可能轉(zhuǎn)化為數(shù)據(jù)資源。數(shù)據(jù)成為與自然資源、人力資源同樣重要的戰(zhàn)略資源,引起了科技界和企業(yè)界的高度重視。[1]2012年1月,在瑞士小鎮(zhèn)達沃斯舉辦的世界經(jīng)濟論壇上大數(shù)據(jù)成為探討的主題之一并發(fā)布報告“Big data,big impact:New possibilities for international development”。[2]

1 數(shù)據(jù)解讀在大數(shù)據(jù)時代的面臨的挑戰(zhàn)

《史記·蕭相國世家》中記載“何獨先入收秦丞相御史律令圖書藏之……漢王所以具知天下厄塞,戶口多少,強弱之處,民所疾苦者,以何具得秦圖書也?!边@是歷史上數(shù)據(jù)分析幫助人類決策取得成功的經(jīng)典案例。數(shù)據(jù)的采集與分析不是一個新問題。但在大數(shù)據(jù)時代,傳統(tǒng)科學也要面臨新的挑戰(zhàn)。

1.1 大數(shù)據(jù)特征所決定

大數(shù)據(jù)首先應(yīng)該具備其代表性意義的3V特征[3],即大規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)。然而數(shù)據(jù)量的增長并不與數(shù)據(jù)價值呈線性比例增長,反而使我們在其中獲取知識的難度增大。因此,有機構(gòu)提出大數(shù)據(jù)還具有第四個V,價值密度低(Value)[4]。大數(shù)據(jù)這四個特征,對于數(shù)據(jù)科學的各個領(lǐng)域均增加了不同程度的復雜性。

1.2 數(shù)字化統(tǒng)計結(jié)果會有掩蓋性

“謊言有三,普通謊言、嚴重謊言、統(tǒng)計數(shù)據(jù)?!边@是源于19世紀英國政壇的一句名言,足以揭示數(shù)據(jù)化的統(tǒng)計結(jié)果對人類獲取知識并進行決策的危險。[5]誤導決策者的方式主要有:(1)選擇有誤導性的代表值,如經(jīng)常提及的“精心挑選的平均數(shù)”;(2)對統(tǒng)計數(shù)字進行模糊字眼描述;(3)大量樣本充分掩蓋了個別重要數(shù)據(jù),造成對一些重要的信息的忽略和錯誤估計。在大數(shù)據(jù)時代,樣本量可以等同于數(shù)據(jù)總量。美國統(tǒng)計學家赫夫的著作《統(tǒng)計陷阱》(How to lie with statistics)中,描述了各種數(shù)據(jù)誤導現(xiàn)象。自1954年出版以來,至今暢銷。[6]

筆者針對第二點做一下舉例分析。美國《星期日》周報提到“一個嬰兒到第N 個月就能坐直”。許多父母看到這則消息,馬上聯(lián)想到自己的孩子,如果他們的孩子到這個月份還坐不直,就會懷疑孩子存在“ 軟骨”、“發(fā)育不正?!钡葐栴}。這個標準是什么意思呢?據(jù)了解,這是孩子出生到能坐直時間的中位數(shù)。也就是說半數(shù)的孩子在N個月時一定是坐不直的,沒有什么可擔心的?!皹藴省币辉~,意味著達不到此數(shù)據(jù)就不合格,可是中位數(shù)是不能作為標準的。然而我們免去這些復雜的統(tǒng)計學分析,在大數(shù)據(jù)時代下將正常嬰兒坐立時間用分布圖表示,任何人不再有機會使用數(shù)據(jù)進行誤導。這樣能更充分、更科學的制定出相關(guān)數(shù)據(jù),供大家參考。

數(shù)據(jù)分析人員的工種多樣性。用戶正從少數(shù)數(shù)據(jù)專家用戶發(fā)展為廣泛領(lǐng)域的工程技術(shù)人員。在大數(shù)據(jù)和新媒體時代有分析理解數(shù)據(jù)需求的人員從傳統(tǒng)的數(shù)據(jù)分析人員和商業(yè)用戶延伸到社會中幾乎每位信息消費者。然而術(shù)業(yè)有專攻,不可能所有人都受過統(tǒng)計學訓練并能夠讀懂傳統(tǒng)分析結(jié)果(summary),由此可見可視化的普惠性和低門檻借助 Web、移動端、互聯(lián)網(wǎng)及物聯(lián)網(wǎng)等新型環(huán)境便于普通用戶使用??蓴U展的可視化系統(tǒng)已經(jīng)是大數(shù)據(jù)可視化的發(fā)展趨勢之一。

2 數(shù)據(jù)可視化手段

數(shù)據(jù)可視化是是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學技術(shù)研究,是使數(shù)據(jù)分析結(jié)果簡明之致的視覺化表現(xiàn)和傳達過程。[7]這個過程并非簡單地“直譯”數(shù)據(jù),而是要從大量數(shù)據(jù)中把隱藏在深處或各種數(shù)據(jù)之間的關(guān)聯(lián)信息挖掘出來,是一種知識和價值的發(fā)現(xiàn)過程。最終豐富數(shù)據(jù)閱讀者的認識體系并輔助其做出正確決策。其中,這種數(shù)據(jù)的視覺表現(xiàn)形式被定義為,一種以某種概要形式抽提出來的信息,包括相應(yīng)信息單位的各種屬性和變量。它是一個處于不斷演變之中的概念,其邊界在不斷地擴大。主要指的是技術(shù)上較為高級的技術(shù)方法,而這些技術(shù)方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數(shù)據(jù)加以可視化解釋。與立體建模之類的特殊技術(shù)方法相比,數(shù)據(jù)可視化所涵蓋的技術(shù)方法要廣泛得多。

人類從外界獲得的信息約有 80% 以上來自于視覺系統(tǒng)[8],可視化正是利用人類識別圖像的天賦來促進更有效地理解數(shù)據(jù)。基于此原理,可視化技術(shù)將難以直接顯示或不可見的數(shù)據(jù)映射為可以感知的圖形、顏色、文理、符號等,以提高數(shù)據(jù)識別效率并高效傳遞有用的信息。[9]MIT 的學者用眼動儀觀察用戶觀看可視化數(shù)據(jù)的過程,發(fā)現(xiàn):首先,看一眼便能記住的可視化圖形中要含有被記住的內(nèi)容。[10]筆者借一句英文中諺語歸納一下數(shù)據(jù)可視化的價值:“一圖勝千言”。(“A picture is worth a thousand words”)

從對數(shù)據(jù)的認知角度而言,數(shù)據(jù)的以下四個性質(zhì)可以為人類提供相關(guān)知識。它們是關(guān)聯(lián)性、特征性、次序性以及數(shù)量性。可視化的多個變量可以不同程度展示出數(shù)據(jù)的這四個相關(guān)性質(zhì)。

數(shù)據(jù)的關(guān)聯(lián)性可以使用的變量包括顏色、位置、形狀和方向。數(shù)據(jù)的特征性最常使用的變量是顏色,其次是紋理、明度等級和尺寸。數(shù)據(jù)的次序性最佳表現(xiàn)變量是明度等級,其次分別是顏色和尺寸。對于數(shù)據(jù)規(guī)模的大小我們常用尺寸變量來表示。

筆者對可視化實現(xiàn)的功能進行梳理,可以歸納出數(shù)據(jù)可視化的幾大分類。換言之,根據(jù)目標、意圖以及數(shù)據(jù)的表現(xiàn)形式我們大致可以看到可視化會出現(xiàn)五種類型。

(1)時序可視化(RunTime Visualization),隨著時間而變化的數(shù)據(jù)通過可視化的形式來表現(xiàn)。

(2)分布可視化(Distribution Visualization),將所關(guān)心的局部與整體之間的關(guān)系——例如最大、最小用可視化的方式進行表現(xiàn)。

(3)關(guān)聯(lián)可視化(Relationship Visualization),尋找數(shù)據(jù)各個變量之間存在的關(guān)系。

(4)比較可視化(Comparative Visualization),尋找數(shù)據(jù)變量之間的價值比較。

(5)空間可視化(Spatial visualization),旨在表現(xiàn)在地圖上承載的信息。

3 數(shù)據(jù)分析的案例分析[11]

假設(shè)三個組分別采集到如下數(shù)據(jù):

使用python中的statsmodels,對上述數(shù)據(jù)整理并做線性回歸。筆者展示關(guān)鍵部分代碼以及打印出的關(guān)鍵結(jié)果信息。

統(tǒng)計結(jié)果可以讓數(shù)據(jù)分析人員接受這個模型,但需要將數(shù)據(jù)做一下可視化。

從數(shù)據(jù)可視化之后的圖片信息可以看到,筆者只認為對A組做線性回歸是相對科學的解決方案。所以不要輕易相信summary statistics,聰明的人先對數(shù)據(jù)做可視化。

4 數(shù)據(jù)可視化發(fā)展方向

4.1 AR技術(shù)在數(shù)據(jù)可視化中的應(yīng)用

人類是在三維世界中進行物體識別,然而在數(shù)據(jù)可視化中,3D效果的使用卻始終不溫不火甚至飽受質(zhì)疑。其原因是3D圖像可以扭曲感知從而扭曲數(shù)據(jù)。[12]其根本原因是數(shù)據(jù)可視化的展示載體是一個平面。AR技術(shù)使數(shù)據(jù)閱讀者更身臨其境,這大大有利于數(shù)據(jù)分析師構(gòu)建更符合人類觀察習慣的數(shù)據(jù)可視化作品。

4.2 數(shù)據(jù)可視化的視覺合理性研究

可視化研究的重要理論基礎(chǔ)之一是認知心理學。這是一門研究有關(guān)人類如何感知和認識世界的理論,研究人類感知和思維信的過程。[13]不可思議的是最不可識別的可視化圖像 54%來自于政府部門(美國),他們采用的可視化圖像往往是相同的模板和類似的美學特征。因此,容易造成識別的混亂。若要促成數(shù)據(jù)可視化對信息更有效的傳達以及讓閱讀者對數(shù)據(jù)有更深刻的洞察,技術(shù)與設(shè)計、科學與美學需要并駕齊驅(qū)。

4.3 鉆取技術(shù)在數(shù)據(jù)可視化中的應(yīng)用

計算機技術(shù)迅猛發(fā)展為大數(shù)據(jù)產(chǎn)業(yè)提供了強有力的支持。然而工程師們往往更專注后臺的存儲、算法、算力等方面的研究。其實在筆者看來計算機前端的發(fā)展同樣為數(shù)據(jù)分析帶歷史性的變革。這些技術(shù)可以讓數(shù)據(jù)分析人員縱向了解各個級別的數(shù)據(jù),而非僅僅展示出來的橫向部分。

在大多數(shù)情況下,可視化同時包含多個維度和度量。維度是指考察數(shù)據(jù)的角度。度量是某個維度的取值或某些維度的計算結(jié)果。好的可視化結(jié)果可以幫助數(shù)據(jù)分析師找到特征明顯的維度和度量特征。如今非?;馃岬臋C器學習技術(shù),主要依靠的就是數(shù)據(jù)的特征。[14]

鉆取技術(shù)可以幫助數(shù)據(jù)分析師細化這些特征。其更大的意義在于,將可視化的成果變成更有力的數(shù)據(jù)分析工具。

參考文獻:

[1] 陶雪嬌,胡曉峰,劉洋. 大數(shù)據(jù)研究綜述[J]. 系統(tǒng)仿真學報,2013, 08:57.

[2] World Economic Forum. Big data, big impact: New possibilities for international development[R/OL].[2012-10-02].http://www.eforum.org/docs/WEF_TC_MFS_BigDataBiglmpact_Briefing_2012.pdf.

[3] Grobelnik M Big-data computing Creating revolutionary breakthroughs in commerce, science, and socicty [R/OL].[2012-10-02]. http://videolectures. Net.

[4] Barwick H.The “four Vs” of Big Data.Implementing Information Infrastructure Symposium [EB/OL].[2012-10-02].http://www.compute rworld.com.

[5] Best J. Damned lies and statistics:untangling numbers from the media,politicians, and activists,Berkeley :University of California Press,2001.

[6] Huff D.How to lie with statistics[M].New?York:Norton,1954.

[7] 楊祎,張建成等.基于Python的第三方標準庫Ploy.ly實現(xiàn)的數(shù)據(jù)可視化在信息解讀中的應(yīng)用[J].IT經(jīng)理世界,2020.

[8] CARD S K, MACKINLAY J D,SHNEIDERMAN B.Readings in Information Visualization: Using Vision to Think[M].San Francisco: Morgan-Kaufmann Publishers,1999:1-712.

[9] CHARLES D H,CHRIS J.The Visualization Handbook[M].New York:Academic Press,2004:76-85.

[10] 蕭冰.上海交通大學蕭冰詳述基于認知心理學的大數(shù)據(jù)可視化[R].2017.

[11] Arvind Satyanarayan Data from MIT Interactive Data Visualization[Z].2020.

[12] Alberto Cairo? how charts lie [M].W. W. Norton & Company,2019.

[13] 袁國明,周寧.信息可視化和知識可視化的比較研究[J].科技情報開發(fā)與經(jīng)濟,2006(01):93-94.

[14] 唐宇迪.跟著迪哥學python 數(shù)據(jù)分析與機器學習實戰(zhàn)[M].人民郵電出版社,2019.

鄭州宇通客車股份有限公司,河南 鄭州

猜你喜歡
數(shù)據(jù)可視化
移動可視化架構(gòu)與關(guān)鍵技術(shù)綜述
大數(shù)據(jù)時代背景下本科教學質(zhì)量動態(tài)監(jiān)控系統(tǒng)的構(gòu)建
可視化:新媒體語境下的數(shù)據(jù)、敘事與設(shè)計研究
我國數(shù)據(jù)新聞的發(fā)展困境與策略研究
基于R語言的大數(shù)據(jù)審計方法研究
數(shù)據(jù)可視化概念研究
大數(shù)據(jù)背景下數(shù)據(jù)可視化方法研究
基于B/S結(jié)構(gòu)的考試成績分析系統(tǒng)
基于Hadoop的商業(yè)數(shù)據(jù)可視化分析模型的研究
用戶數(shù)據(jù)統(tǒng)計挖掘與展示
绍兴县| 阿拉善盟| 荥经县| 石屏县| 邵阳市| 兴国县| 新竹县| 浠水县| 商南县| 克东县| 临朐县| 榕江县| 阿克苏市| 和顺县| 太和县| 平远县| 慈利县| 浦北县| 微山县| 湖口县| 新巴尔虎右旗| 武宁县| 广宗县| 扎囊县| 新田县| 周宁县| 林西县| 东兰县| 临西县| 策勒县| 丰城市| 电白县| 白沙| 闽清县| 志丹县| 阜阳市| 孟津县| 来安县| 五指山市| 拜城县| 南丹县|