韓文煜
摘? 要:在數(shù)據(jù)爆炸的時(shí)代,數(shù)據(jù)的價(jià)值被人們廣泛的關(guān)注,大數(shù)據(jù)一詞也應(yīng)運(yùn)而生。之所以叫大數(shù)據(jù),是因?yàn)閿?shù)據(jù)體積龐大,且數(shù)據(jù)類型繁雜。如何挖掘數(shù)據(jù)背后的內(nèi)涵,如何分析看似雜亂無(wú)章的數(shù)據(jù)背后的意義等,成為人們津津樂(lè)道并廣泛研究的問(wèn)題。Python作為一種操作性高,上手簡(jiǎn)單,功能齊全的工具,被數(shù)據(jù)分析領(lǐng)域廣泛使用。文章將使用python作為主要工具,利用python中所自帶與集成的庫(kù),對(duì)不同類型的數(shù)據(jù)進(jìn)行分析,并將其可視化。從而證明python在數(shù)據(jù)分析領(lǐng)域的可用性。
關(guān)鍵詞:大數(shù)據(jù);分析;python
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2020)04-0157-02
Abstract: In the time of data explosion, the value of data is widely concerned, and the term "big data" comes into being. It is called big data because the huge volume of data and the complexity of data types. How to mine the connotation behind the data and how to analyze data is becoming a problem that people like to talk about and widely study. Python is a simple data analysis tool. In this paper, python will be used for data analysis and visualization.
Keywords: big data; analysis; python
1 工具介紹
1.1 Python簡(jiǎn)介
Python是一種計(jì)算機(jī)程序設(shè)計(jì)語(yǔ)言。由于它的可讀性高,集成方法比較多且全面,上手簡(jiǎn)單,便于理解等優(yōu)勢(shì),被計(jì)算機(jī)領(lǐng)域及非計(jì)算機(jī)領(lǐng)域數(shù)據(jù)分析時(shí)廣為使用。
1.2 數(shù)據(jù)分析簡(jiǎn)介
廣義上的數(shù)據(jù)分析是指針對(duì)所收集的大規(guī)模數(shù)據(jù),進(jìn)行如數(shù)據(jù)讀取,存儲(chǔ),計(jì)算,可視化,分析等技術(shù),從數(shù)據(jù)之中發(fā)現(xiàn)隱含的,對(duì)決策有參考意義的信息、價(jià)值和趨勢(shì)。因此,數(shù)據(jù)分析是一個(gè)跨越多學(xué)科的計(jì)算機(jī)科學(xué)分支,也是挖掘數(shù)據(jù)價(jià)值的重要手段。
2 方法及使用庫(kù)介紹
對(duì)于數(shù)據(jù)分析人員來(lái)說(shuō),熟悉python中集成的多種類型的庫(kù)是極其重要的。數(shù)據(jù)分析一般分為以下步驟:獲取,保存,讀取,計(jì)算,可視化,分析。Python中包含大量的集成好的包,使用者可以用簡(jiǎn)單的方式調(diào)取,使得分析過(guò)程更加便捷,并穩(wěn)定性高。所以了解重點(diǎn)庫(kù)是數(shù)據(jù)分析的重要一環(huán)。
2.1 Numpy
Numpy是python中用于計(jì)算的基礎(chǔ)模塊,還可以處理大型矩陣。Numpy的數(shù)據(jù)結(jié)構(gòu)容量能夠保存任一類型的數(shù)據(jù),所以numpy可以整合各種數(shù)據(jù),在性能上比python自身嵌套的列表結(jié)構(gòu)要高很多。所以使用python進(jìn)行數(shù)據(jù)分析時(shí)科學(xué)計(jì)算的模塊大多會(huì)使用numpy庫(kù)。
2.2 Pandas
Pandas是python中讀取、保存、設(shè)置數(shù)據(jù)結(jié)構(gòu)類型的主要模塊。由于pandas的靈活性,在處理excel中的數(shù)據(jù)時(shí),可以更加的高效。如讀取excel表格,選擇性的讀取excel表格中的某一列,某一個(gè)數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)類型等。
2.3 Matplotlib
Matplotlib是python中用于可視化的一個(gè)模塊。為了使數(shù)據(jù)更加的便于觀察,利于使用者、學(xué)習(xí)者、分析者、更好的理解數(shù)據(jù)中潛在的含義,數(shù)據(jù)可視化在數(shù)據(jù)分析中是必不可少的模塊。常見(jiàn)的可視化類型有折線圖、柱形圖、餅狀圖、散點(diǎn)圖等等。
2.4 Pyecharts
Pyecharts是一個(gè)用于生成Echarts圖表的類庫(kù)。Echarts是百度開(kāi)源的一個(gè)數(shù)據(jù)可視化JS庫(kù)??梢陨蓜?dòng)態(tài)可選擇的圖片,可視化效果美觀,多變??蛇m合數(shù)據(jù)分析人員做展示使用。
3 實(shí)證分析
3.1 數(shù)據(jù)準(zhǔn)備及整理
我們對(duì)已經(jīng)獲取的數(shù)據(jù)文件進(jìn)行讀取,并選擇需要分析的數(shù)據(jù)。以“實(shí)驗(yàn)數(shù)據(jù)1.xls”為例。
使用pandas讀取excel文件:
3.2 文本數(shù)據(jù)準(zhǔn)備及整理
文本數(shù)據(jù)讀取,包括已經(jīng)解析的關(guān)鍵詞,和關(guān)鍵詞出現(xiàn)的數(shù)量。
3.3 數(shù)據(jù)可視化
使用matplotlib畫折線圖展示(見(jiàn)圖2)。
通過(guò)以上的介紹與展示,可以發(fā)現(xiàn)在數(shù)據(jù)分析領(lǐng)域,python可以完成大部分的分析工作。當(dāng)然python的數(shù)據(jù)分析功能遠(yuǎn)不止這些,比如批量處理數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)的方法分析數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)檢驗(yàn)等等。讀者可以通過(guò)學(xué)習(xí)更多的編程語(yǔ)法來(lái)更好的使用python。
參考文獻(xiàn):
[1]Wes McKinney.利用Python進(jìn)行數(shù)據(jù)分析[M].北京:機(jī)械工業(yè)出版社,2013.
[2]Yves Hilpisch.Python金融大數(shù)據(jù)分析[M].北京:人民郵電出版社,2015.