肖明魁
摘要:數(shù)據(jù)可視化,是關于數(shù)據(jù)視覺表現(xiàn)形式的科學技術研究,是以某種概要形式抽提出來的信息,包括相應信息單位的各種屬性和變量。數(shù)據(jù)可視化可以增強數(shù)據(jù)的呈現(xiàn)效果,方便用戶以更加直觀的方式觀察數(shù)據(jù),進而發(fā)現(xiàn)數(shù)據(jù)中隱藏的信息,使用戶在短時間內(nèi)理解數(shù)據(jù)背后的規(guī)律與價值。
關鍵詞:大數(shù)據(jù);Python;類庫;程序設計
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)32-0267-03
1 引言
Python作為近年來最受歡迎的面向?qū)ο缶幊陶Z言之一,廣泛應用于系統(tǒng)管理任務的處理和web編程,具有簡潔性、易讀性以及可擴展性等優(yōu)點,尤其是支持各類豐富,功能強大的第三方類庫,大大拓展了其用途,在科學計算,數(shù)據(jù)庫,人工智能等領域發(fā)揮很重要的作用。numpy,pandas,matliplot和seaborn是數(shù)據(jù)分析和圖形化處理是最常用的模塊,NumPy是Python語言的一個擴充程序庫,支持高級大量的維度數(shù)組與矩陣運算,此外也針對數(shù)組運算提供大量的數(shù)學函數(shù)庫。pandas 是基于NumPy 的一種工具,該工具是為了解決數(shù)據(jù)分析任務而創(chuàng)建的。Pandas 納入了大量庫和一些標準的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。Matplotlib 是一個 Python 的 2D繪圖庫,它以各種硬拷貝格式和跨平臺的交互式環(huán)境生成出版質(zhì)量級別的圖形。Seaborn是在matplotlib的基礎上進行更高級的API封裝,從而使得作圖更加容易,在大多數(shù)情況下我們使用seaborn就能做出直觀形象的圖表,而使用matplotlib就能制作具有更多特色的圖表。本文根據(jù)2014至2015年期間全國各城市空氣質(zhì)量指數(shù)匯總表,探討如何利用基于anaconda開發(fā)環(huán)境之下的python語言及其相關模塊,完成實際操作。
2 模塊和數(shù)據(jù)導入
結果表明,數(shù)據(jù)切分之后數(shù)據(jù)規(guī)模已經(jīng)大大減小,這樣有助于后續(xù)進一步處理。
4 數(shù)據(jù)分析和可視化展示
圖中用不同灰度矩形代表不同城市,X軸坐標代表10月份空氣質(zhì)量等級,縱坐標代表每種空氣質(zhì)量等級的天數(shù),明顯可以看出10月份空氣質(zhì)量為良的城市較多。
如圖所示,X軸表示八個城市,Y軸表示日期,最右側(cè)的灰度條由淺到深代表AQI指數(shù)從低到高,圖中每個小矩形塊的不同色深代表各城市當天的空氣質(zhì)量等級,小矩形塊上的數(shù)字表示當天該城市具體AQI指數(shù)。顯示結果可以看出,北方四城AQI指數(shù)明顯高于南方四城。
5 結語
本文通過實例直觀演示,驗證了python及其相關類庫對于數(shù)據(jù)圖形化處理的高效性和便捷性,隨著大數(shù)據(jù)時代的到來,社會各領域和行業(yè)中數(shù)據(jù)挖掘和數(shù)據(jù)分析工作不可或缺,其中可視化展示技術對于科學分析和制定決策至關重要,未來必然有廣闊的應用和發(fā)展前景。
參考文獻:
[1] 陳明."大數(shù)據(jù)可視化分析"[J].計算機教育,2015-3-10.
[2] 聶晶.“python在大數(shù)據(jù)挖掘和分析中的應用優(yōu)勢”[J].廣西民族大學學報,2018-2-15.
[3] 劉雨珂,王平.“基于Python+Pandas+Matplotlib的學生成績數(shù)據(jù)統(tǒng)計與圖形輸出實現(xiàn)”[J].福建電腦,2017-10-31.
[4] 陳衍鵬.“基于Python第三方庫實現(xiàn)Excel讀寫”[J].微型電腦應用,2017-08.
[5] 李強,白建榮,李振林,張黎明.“基于Python的數(shù)據(jù)批處理技術探討及實現(xiàn)”[J].地理空間信息,2015-04-24.
【通聯(lián)編輯:梁書】