趙玉新
摘要:該文主要對(duì)轎車(chē)銷(xiāo)量的進(jìn)行初步分析,數(shù)據(jù)來(lái)自數(shù)據(jù)堂網(wǎng)站,主要使用R語(yǔ)言為工具,進(jìn)行數(shù)據(jù)分析,通過(guò)導(dǎo)入sqldf數(shù)據(jù)包,對(duì)原始數(shù)據(jù)進(jìn)行篩選,排序;以及使用高級(jí)繪圖函數(shù)對(duì)轎車(chē)銷(xiāo)量進(jìn)行圖表分析。
關(guān)鍵詞:R語(yǔ)言;數(shù)據(jù)分析;轎車(chē)銷(xiāo)量
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)04-0070-02
R語(yǔ)言是一個(gè)有著統(tǒng)計(jì)分析功能以及強(qiáng)大作圖功能的語(yǔ)言環(huán)境,主要是統(tǒng)計(jì)學(xué)家為解決數(shù)據(jù)分析領(lǐng)域問(wèn)題而開(kāi)發(fā)的語(yǔ)言。
R語(yǔ)言具有功能強(qiáng)大的程序包,在數(shù)據(jù)計(jì)算,統(tǒng)計(jì)分析以及數(shù)據(jù)挖掘等方面都所向披靡,本文基于R對(duì)轎車(chē)銷(xiāo)量數(shù)據(jù)進(jìn)行分析。
1 數(shù)據(jù)情況
數(shù)據(jù)是一件麻煩事,在工作中,有多達(dá)60%的數(shù)據(jù)分析時(shí)間都花在了實(shí)際分析前數(shù)據(jù)的準(zhǔn)備上。
現(xiàn)有2011年4月至2013年10月全國(guó)轎車(chē)車(chē)型銷(xiāo)量排名數(shù)據(jù):
數(shù)據(jù)共有6000多條,按照年份,月份,各廠商品牌統(tǒng)計(jì)轎車(chē)的銷(xiāo)量,數(shù)據(jù)比較雜亂;所以首先要制定分析目標(biāo)與方案。
2數(shù)據(jù)處理
首先我們將excel數(shù)據(jù)導(dǎo)入到R中,將excel文件以剪貼板的格式進(jìn)行保存。然后使用read.delim函數(shù)進(jìn)行導(dǎo)入:
我們首先制定數(shù)據(jù)分析的目標(biāo):
數(shù)據(jù)的特點(diǎn)是分月份,年份,品牌的,我們首先分析2013年度暢銷(xiāo)車(chē)型。
那么我們需要對(duì)2013年各品牌進(jìn)行匯總?cè)缓笈判?,?duì)于求和以及排序,使用SQL語(yǔ)句來(lái)進(jìn)行比較方便,那么在R中如何使用SQL語(yǔ)句呢?
R語(yǔ)言具有sqldf包,要求R是3.3.2版本,所以在R中安裝和加載sqldf包。需要按照年度累計(jì)進(jìn)行降序排序,只保留車(chē)型和本年累計(jì)兩列。
結(jié)果如下:
從排序結(jié)果可以看出,2013年,年度暢銷(xiāo)車(chē)型為大眾朗逸,別克凱越和大眾速騰。
3 圖表分析
上面,我們結(jié)合數(shù)據(jù)分析的目標(biāo),對(duì)原始數(shù)據(jù)進(jìn)行了整理,在R中應(yīng)用sqldf對(duì)數(shù)據(jù)進(jìn)行了篩選和排序,得到暢銷(xiāo)車(chē)型的分析結(jié)果。
字不如表,表不如圖。由于R具有強(qiáng)大的繪圖功能,提供了多種繪圖函數(shù),有高水平繪圖函數(shù),低水平繪圖函數(shù)以及交互式繪圖函數(shù)。
直方圖又稱(chēng)為柱狀圖,用來(lái)估計(jì)數(shù)據(jù)的概率分布;下面我們應(yīng)用高水平函數(shù)中的直方圖函數(shù)來(lái)看一下汽車(chē)年度銷(xiāo)量的分布情況。使用hist函數(shù)。
從圖中可以看出,年度銷(xiāo)量在300000~350000輛之間的車(chē)型頻數(shù)為1,只有大眾朗逸是這個(gè)區(qū)間的。而轎車(chē)銷(xiāo)量在0~50000輛之間的車(chē)型頻數(shù)超過(guò)了150;大多數(shù)車(chē)型銷(xiāo)售量都位于此區(qū)間。
下面使用箱線(xiàn)圖來(lái)作分析,箱線(xiàn)圖主要從四分位的角度來(lái)描述數(shù)據(jù)的分布,使用函數(shù)boxplot來(lái)完成。語(yǔ)句如下:
從繪制的箱線(xiàn)圖可以看出,轎車(chē)銷(xiāo)量的中位數(shù)是20000左右,箱體集中在50000以下,超過(guò)300000只有一個(gè)數(shù)據(jù)。
4 結(jié)束語(yǔ)
以上是筆者對(duì)轎車(chē)銷(xiāo)量的初步分析研究,主要使用R語(yǔ)言的數(shù)據(jù)分析方法,通過(guò)導(dǎo)入sqldf數(shù)據(jù)包,對(duì)原始數(shù)據(jù)進(jìn)行篩選,排序;以及使用高級(jí)繪圖函數(shù)對(duì)轎車(chē)銷(xiāo)量進(jìn)行圖表分析。
R語(yǔ)言功能很強(qiáng)大,除了數(shù)據(jù)分析,還有一些預(yù)測(cè)功能等。比如可以提取某一車(chē)型的月度銷(xiāo)售數(shù)據(jù),形成時(shí)間序列,然后對(duì)未來(lái)的月度銷(xiāo)量進(jìn)行預(yù)測(cè)等。由于篇幅所限,本文只作轎車(chē)銷(xiāo)量的簡(jiǎn)單分析。
參考文獻(xiàn):
[1] 薛毅 陳立萍 .R語(yǔ)言實(shí)用教程[M].北京:清華大學(xué)出版社,2014.
[2] 數(shù)據(jù)堂網(wǎng)站[EB/OL]. http://www.datatang.com/.