耿秀華 冀建平
摘要:R語言是近年來流行的一種用于統(tǒng)計分析的語言,本文介紹了R語言中用來繪制直方圖的函數(shù)-histogram ()函數(shù),通過舉例的方法描述了如何利用histogram()函數(shù)設置條件變量,繪制單面板、多面板、多變量等直方圖。
關鍵詞:histogram()函數(shù);R語言;直方圖
中圖分類號:TP39 文獻標識碼:A 文章編號:1007-9416(2018)09-0219-02
1 綜述
R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng),同時也是一種數(shù)學計算的環(huán)境,它可以提供一些集成的統(tǒng)計工具,但更大量的是它提供各種數(shù)學計算、統(tǒng)計計算的函數(shù),從而使使用者能靈活機動的進行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法。在R網(wǎng)站上提供了統(tǒng)計及各個有關應用領域幾乎所有最新的成果和代碼公開的軟件包。
直方圖(Histogram)又稱質量分布圖。是一種統(tǒng)計報告圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。一般用橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。直方圖是表示資料變化情況的一種主要工具。用直方圖可以解析出資料的規(guī)則性,比較直觀地看出產(chǎn)品質量特性的分布狀態(tài),對于資料分布狀況一目了然,便于判斷其總體質量分布情況。在制作直方圖時,牽涉統(tǒng)計學的概念,首先要對資料進行分組,因此如何合理分組是其中的關鍵問題。按組距相等的原則進行的兩個關鍵數(shù)位是分組數(shù)和組距。
2 示例
本文所有圖形均使用了R中自帶的數(shù)據(jù)iris(鳶尾花),在R平臺中使用命令“>iris”可以直接查看,共有五列:
Sepal.Length(萼片長度)、Sepal.Width(萼片寬度)、Petal.Length(花瓣長度),Petal.Width(花瓣寬度)、Species(品種),其中Species中有三種類型:setosa、virginica以及versicolor。
(1)【示例1】輸入命令
>histogram(~Petal.Length|Species,data=iris)
該圖形以Species(品種)為條件變量,繪出了花瓣長度直方圖,見圖1。
(2)【示例2】輸入命令
>histogram(~Petal.Length|Species,data=iris,nint=20,main="花瓣長度直方圖(多面板)")
該圖形利用參數(shù)nint設置三個面板中總箱體數(shù)量為20,所繪圖形見圖2。
(3)【示例3】輸入命令
>histogram(~Petal.Length,group=Species,data=iris,nint=20,main="花瓣長度直方圖(單面板)")
該圖形使用了分組變量,將直方圖疊加在了一個面板,所繪圖形見圖3。
(4)【示例4】輸入命令
>histogram(~Petal.Length+Petal.Width,group=Species,data=iris,nint=20,main="花瓣長度+花瓣寬度直方圖(多面板)",col=rainbow(20))
該圖形使用了兩個變量:Petal.Length+Petal.Width,所繪圖形如圖4所示。
3 結語
用直方圖可以解析出資料的規(guī)則性,比較直觀地看出產(chǎn)品質量特性的分布狀態(tài),對于資料分布狀況一目了然,便于判斷其總體質量分布情況。在制作直方圖時,牽涉統(tǒng)計學的概念,首先要對資料進行分組,因此如何合理分組是其中的關鍵問題。按組距相等的原則進行的兩個關鍵數(shù)位是分組數(shù)和組距。
參考文獻
[1]Emmanuel Paradis.R語言初學者指南[M].Institutdes Sciences de lEvolutionUniversite Montpellier IIF-34095 Montpellier cedex2005.
[2]R Development Core Team.R語言簡介[M].2006.
[3]張金龍.R語言初步-數(shù)據(jù)處理、繪圖與編程[R].2010.