国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于python數(shù)據(jù)分析技術(shù)的數(shù)據(jù)整理與分析研究

2020-02-25 13:31:25韓文煜
科技創(chuàng)新與應(yīng)用 2020年4期
關(guān)鍵詞:大數(shù)據(jù)分析

韓文煜

摘? 要:在數(shù)據(jù)爆炸的時(shí)代,數(shù)據(jù)的價(jià)值被人們廣泛的關(guān)注,大數(shù)據(jù)一詞也應(yīng)運(yùn)而生。之所以叫大數(shù)據(jù),是因?yàn)閿?shù)據(jù)體積龐大,且數(shù)據(jù)類型繁雜。如何挖掘數(shù)據(jù)背后的內(nèi)涵,如何分析看似雜亂無(wú)章的數(shù)據(jù)背后的意義等,成為人們津津樂(lè)道并廣泛研究的問(wèn)題。Python作為一種操作性高,上手簡(jiǎn)單,功能齊全的工具,被數(shù)據(jù)分析領(lǐng)域廣泛使用。文章將使用python作為主要工具,利用python中所自帶與集成的庫(kù),對(duì)不同類型的數(shù)據(jù)進(jìn)行分析,并將其可視化。從而證明python在數(shù)據(jù)分析領(lǐng)域的可用性。

關(guān)鍵詞:大數(shù)據(jù);分析;python

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2020)04-0157-02

Abstract: In the time of data explosion, the value of data is widely concerned, and the term "big data" comes into being. It is called big data because the huge volume of data and the complexity of data types. How to mine the connotation behind the data and how to analyze data is becoming a problem that people like to talk about and widely study. Python is a simple data analysis tool. In this paper, python will be used for data analysis and visualization.

Keywords: big data; analysis; python

1 工具介紹

1.1 Python簡(jiǎn)介

Python是一種計(jì)算機(jī)程序設(shè)計(jì)語(yǔ)言。由于它的可讀性高,集成方法比較多且全面,上手簡(jiǎn)單,便于理解等優(yōu)勢(shì),被計(jì)算機(jī)領(lǐng)域及非計(jì)算機(jī)領(lǐng)域數(shù)據(jù)分析時(shí)廣為使用。

1.2 數(shù)據(jù)分析簡(jiǎn)介

廣義上的數(shù)據(jù)分析是指針對(duì)所收集的大規(guī)模數(shù)據(jù),進(jìn)行如數(shù)據(jù)讀取,存儲(chǔ),計(jì)算,可視化,分析等技術(shù),從數(shù)據(jù)之中發(fā)現(xiàn)隱含的,對(duì)決策有參考意義的信息、價(jià)值和趨勢(shì)。因此,數(shù)據(jù)分析是一個(gè)跨越多學(xué)科的計(jì)算機(jī)科學(xué)分支,也是挖掘數(shù)據(jù)價(jià)值的重要手段。

2 方法及使用庫(kù)介紹

對(duì)于數(shù)據(jù)分析人員來(lái)說(shuō),熟悉python中集成的多種類型的庫(kù)是極其重要的。數(shù)據(jù)分析一般分為以下步驟:獲取,保存,讀取,計(jì)算,可視化,分析。Python中包含大量的集成好的包,使用者可以用簡(jiǎn)單的方式調(diào)取,使得分析過(guò)程更加便捷,并穩(wěn)定性高。所以了解重點(diǎn)庫(kù)是數(shù)據(jù)分析的重要一環(huán)。

2.1 Numpy

Numpy是python中用于計(jì)算的基礎(chǔ)模塊,還可以處理大型矩陣。Numpy的數(shù)據(jù)結(jié)構(gòu)容量能夠保存任一類型的數(shù)據(jù),所以numpy可以整合各種數(shù)據(jù),在性能上比python自身嵌套的列表結(jié)構(gòu)要高很多。所以使用python進(jìn)行數(shù)據(jù)分析時(shí)科學(xué)計(jì)算的模塊大多會(huì)使用numpy庫(kù)。

2.2 Pandas

Pandas是python中讀取、保存、設(shè)置數(shù)據(jù)結(jié)構(gòu)類型的主要模塊。由于pandas的靈活性,在處理excel中的數(shù)據(jù)時(shí),可以更加的高效。如讀取excel表格,選擇性的讀取excel表格中的某一列,某一個(gè)數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)類型等。

2.3 Matplotlib

Matplotlib是python中用于可視化的一個(gè)模塊。為了使數(shù)據(jù)更加的便于觀察,利于使用者、學(xué)習(xí)者、分析者、更好的理解數(shù)據(jù)中潛在的含義,數(shù)據(jù)可視化在數(shù)據(jù)分析中是必不可少的模塊。常見(jiàn)的可視化類型有折線圖、柱形圖、餅狀圖、散點(diǎn)圖等等。

2.4 Pyecharts

Pyecharts是一個(gè)用于生成Echarts圖表的類庫(kù)。Echarts是百度開(kāi)源的一個(gè)數(shù)據(jù)可視化JS庫(kù)??梢陨蓜?dòng)態(tài)可選擇的圖片,可視化效果美觀,多變??蛇m合數(shù)據(jù)分析人員做展示使用。

3 實(shí)證分析

3.1 數(shù)據(jù)準(zhǔn)備及整理

我們對(duì)已經(jīng)獲取的數(shù)據(jù)文件進(jìn)行讀取,并選擇需要分析的數(shù)據(jù)。以“實(shí)驗(yàn)數(shù)據(jù)1.xls”為例。

使用pandas讀取excel文件:

3.2 文本數(shù)據(jù)準(zhǔn)備及整理

文本數(shù)據(jù)讀取,包括已經(jīng)解析的關(guān)鍵詞,和關(guān)鍵詞出現(xiàn)的數(shù)量。

3.3 數(shù)據(jù)可視化

使用matplotlib畫折線圖展示(見(jiàn)圖2)。

通過(guò)以上的介紹與展示,可以發(fā)現(xiàn)在數(shù)據(jù)分析領(lǐng)域,python可以完成大部分的分析工作。當(dāng)然python的數(shù)據(jù)分析功能遠(yuǎn)不止這些,比如批量處理數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)的方法分析數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)檢驗(yàn)等等。讀者可以通過(guò)學(xué)習(xí)更多的編程語(yǔ)法來(lái)更好的使用python。

參考文獻(xiàn):

[1]Wes McKinney.利用Python進(jìn)行數(shù)據(jù)分析[M].北京:機(jī)械工業(yè)出版社,2013.

[2]Yves Hilpisch.Python金融大數(shù)據(jù)分析[M].北京:人民郵電出版社,2015.

猜你喜歡
大數(shù)據(jù)分析
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
清原| 仪陇县| 乌苏市| 嫩江县| 西丰县| 化隆| 荣成市| 浦江县| 泽库县| 丰原市| 二连浩特市| 乐都县| 合肥市| 枣阳市| 喜德县| 达日县| 无极县| 化德县| 尚志市| 贵州省| 汝州市| 平顶山市| 从化市| 鹰潭市| 甘南县| 喀喇沁旗| 黄大仙区| 青神县| 宿迁市| 广平县| 湖南省| 沁源县| 大余县| 天等县| 白银市| 沈阳市| 眉山市| 达尔| 子长县| 渭南市| 锦屏县|