国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

概率統(tǒng)計在生活中的應(yīng)用

2020-11-28 12:10:51
中國科技縱橫 2020年24期
關(guān)鍵詞:泊松中位數(shù)正態(tài)分布

(上海市新虹橋中學(xué),上海 200051)

0.引言

概率論和數(shù)理統(tǒng)計是數(shù)學(xué)的一個十分重要的分支,它主要研究隨機事件的發(fā)生規(guī)律。根據(jù)概率統(tǒng)計理論,數(shù)學(xué)家可以更高效地收集數(shù)據(jù)、分析數(shù)據(jù),挖掘其中的信息,更清晰直觀地呈現(xiàn)計算結(jié)果。

在17世紀(jì),人們嘗試對賭博和保險中發(fā)生特定事件的可能性進行研究,這便是概率論的起源。如今,概率論與數(shù)理統(tǒng)計已成為生產(chǎn)生活、科學(xué)研究中不可或缺的工具。在進行人口普查、市場調(diào)研、銷量預(yù)測時,概率統(tǒng)計都發(fā)揮著重要的作用。它能夠幫助人們把握隨機事件的發(fā)生規(guī)律,預(yù)測特定事件發(fā)生的可能性。不斷完善概率統(tǒng)計理論,可以幫助人們更加高效地分析隨機變量的分布規(guī)律、隨機事件的發(fā)生規(guī)律,更準(zhǔn)確地預(yù)測事物的未來發(fā)展方向。

1.隨機變量

在數(shù)學(xué)中,隨機變量被定義為可以取不同值的變量。隨機變量的取值是由隨機變量的概率分布規(guī)律決定的。一般而言,隨機變量的實際分布特征與均值和標(biāo)準(zhǔn)差有關(guān),符合正態(tài)分布的隨機變量就屬于這類隨機變量。隨機變量的實際分布特征也與其偏態(tài)性和峰值有關(guān)。此外,當(dāng)存在噪聲或偶然事件時,隨機變量的值也會受到隨機擾動的影響。

在生活中,人們可以將用隨機變量描述多種場景中不能確定的數(shù)值。例如,某地7月中旬的預(yù)期最高溫度和最低溫度、一項體育賽事的預(yù)期出勤率、體育隊的評級以及一支球隊贏得比賽或特定得分的概率,都是隨機變量。

人們也可以將隨機變量納入多種用于預(yù)測的數(shù)學(xué)模型中,從而預(yù)測體育比賽或其他隨機事件的結(jié)果。在這些情況下,分析人員需要根據(jù)隨機變量的分布規(guī)律,估算結(jié)果變量的可能取值。

隨機變量可以是離散值或連續(xù)值。離散隨機變量只能取特定的數(shù)值。例如,體育比賽中的常見離散隨機變量是球隊的得分或主隊得分與客隊得分之間的差值。連續(xù)隨機變量可以取一個區(qū)間內(nèi)的幾乎任何數(shù)值。理論上,連續(xù)隨機變量的小數(shù)位數(shù)可以是任意值。但是,由于測量儀器的精度是有限的,連續(xù)隨機變量有時只保留兩位小數(shù)。例如,體育比賽中的連續(xù)隨機變量可以是球隊的實力等級或與場上表現(xiàn)相關(guān)的指標(biāo),如擊球平均值(可以是無限循環(huán)小數(shù))[1]。

2.描述統(tǒng)計信息的參數(shù)

在收集到相關(guān)數(shù)據(jù)后,人們通常用幾個參數(shù)描述得到的數(shù)據(jù),這些參數(shù)可以很好地展現(xiàn)數(shù)據(jù)的特征,幫助人們總結(jié)變量的分布規(guī)律或變化規(guī)律。在進行統(tǒng)計分析時,最常用的統(tǒng)計量是平均值、中位數(shù)、標(biāo)準(zhǔn)差、變異系數(shù)等。

平均值:也稱算術(shù)平均值、簡單平均值或等加權(quán)平均值。人們一般需要計算統(tǒng)計量的平均值,了解統(tǒng)計量大概位于哪個區(qū)間內(nèi)。

中位數(shù):中位數(shù)是比一半的統(tǒng)計數(shù)據(jù)的數(shù)值小、比另一半的統(tǒng)計數(shù)據(jù)的數(shù)值大的那個統(tǒng)計數(shù)據(jù)。也就是說,如果把統(tǒng)計數(shù)據(jù)按照數(shù)值大小排成一列,中位數(shù)是位于中間的那個數(shù)。如果人們收集到了偶數(shù)個統(tǒng)計數(shù)據(jù),那么中位數(shù)是位于中間的兩個統(tǒng)計數(shù)據(jù)的平均值。中位數(shù)通常不是唯一的。例如,在數(shù)據(jù)系列1、2、3中,中位數(shù)是2;但是在數(shù)據(jù)系列1、2、3、4中,中位數(shù)是2和3的平均值2.5。

標(biāo)準(zhǔn)差:人們通常用標(biāo)準(zhǔn)層描述均值附近的數(shù)據(jù)的分散程度。標(biāo)準(zhǔn)差較小表示數(shù)據(jù)大都接近均值,而標(biāo)準(zhǔn)差較大表示數(shù)據(jù)大都遠(yuǎn)離均值。標(biāo)準(zhǔn)差通常是數(shù)據(jù)的方差的平方根[2]。

變異系數(shù):用標(biāo)準(zhǔn)差除以平均值就可以得到變異系數(shù)。人們可以用變異系數(shù)將數(shù)據(jù)歸一化,以便“公平地”比較平均值不同的幾組數(shù)據(jù)的離散度。例如,當(dāng)人們評估每日或每月股票交易量的數(shù)據(jù)離散度時,他們不能直接比較標(biāo)準(zhǔn)差,因為每日和每月的基礎(chǔ)交易量是不一樣的,但是變異系數(shù)可以幫助人們相對準(zhǔn)確地比較不同交易日和不同月份的交易情況。

偏度:衡量數(shù)據(jù)分布的對稱性的一種方法。正偏斜表示多數(shù)數(shù)據(jù)比平均值大,在概率分布圖像與x軸圍成的圖形中,平均值右側(cè)的面積一般大于平均值左側(cè)的面積。負(fù)偏斜表示多數(shù)數(shù)據(jù)比平均值小,在概率分布圖像上,平均值右側(cè)的面積一般小于平均值左側(cè)的面積。偏度為零表示數(shù)據(jù)是對稱的。偏度也被稱為關(guān)于均值的第三階矩。

峰度:峰度是對數(shù)據(jù)分布的峰值的度量。人們稱峰度為負(fù)的數(shù)據(jù)分布為platykurtic分布,稱峰度為正的數(shù)據(jù)分布為leptokurtic分布[3]。

3.概率統(tǒng)計模型在生活中的應(yīng)用

3.1 正態(tài)分布

正態(tài)分布是統(tǒng)計分析中最重要的概率分布之一。一般而言,自然界中的許多變量是服從正態(tài)分布的。在科學(xué)研究、工業(yè)領(lǐng)域、生態(tài)建設(shè)時,人們常常需要構(gòu)建正態(tài)分布模型模型。當(dāng)數(shù)據(jù)不完全服從正態(tài)分布時,人們可以借助通過正態(tài)分布進行近似,從而分析數(shù)據(jù)的分布特征。此外,在進行參數(shù)估計或建立回歸模型時,正態(tài)分布是非常有用的。

接下來,筆者以接受氣管隆突切除術(shù)的患者的年齡分布分析為例,說明正態(tài)分布模型的應(yīng)用。134位被抽到的患者的平均年齡約為48歲,其年齡標(biāo)準(zhǔn)差(即σ值)約為16歲。求30歲以下的患者的百分比是多少?

30歲與年齡平均值—48歲的差值為-18歲,-18/16=-1.125。問題變成了:在標(biāo)準(zhǔn)正態(tài)分布中,變量小于μ-1.125σ的概率是多少?我們可以在標(biāo)準(zhǔn)正態(tài)分布表中查到,變量大于μ+1.125σ的概率是大概是0.13。由于分布是對稱的,變量小于μ-1.125σ的概率也是0.13,也就是說,接受氣管隆突切除術(shù)的患者中,年齡小于30歲的約占總數(shù)的13%。

3.2 二項分布在生活中的應(yīng)用

在生活中,人們經(jīng)常遇到只有兩種可能結(jié)果的情況:健康或患病、治療的成功或失敗、體液中存在或不存在特定微生物[4]。我們可以用π表示任何隨機試驗中,第一種結(jié)果發(fā)生的概率。如果我們有n次機會進行隨機試驗,并得到n個結(jié)果。例如,n位患者是否在治療后痊愈?則二項分布將告訴我們,第一種結(jié)果將出現(xiàn)多少次。

接下來,筆者以激光手術(shù)的有效率分析為例,說明正態(tài)分布在生活中的應(yīng)用。挪威的一項研究評估了激光小梁成形術(shù)治療開角型青光眼療法的長期成功率。在第2年末,接受手術(shù)的患者復(fù)發(fā)的概率為1/3。假設(shè)一家醫(yī)院中,有6例患者接受了小梁成形術(shù)。在2年末,有且只有一位患者手術(shù)復(fù)發(fā)的概率約為多少?

從6位患者中隨機“選”出一位患者,有6種選法。在這一場景中p=1/3,P(1)=6*p1(1-p)5=192/729=26.34%。也就是說,在接受手術(shù)后的第二年末,有且只有一位患者復(fù)發(fā)的概率為26.34%。

3.3 泊松分布在生活中的應(yīng)用

1837年,Siméon Denis Poisson在研究發(fā)生概率較低的一系列事件時,提出了泊松分布模型。當(dāng)時的人們用泊松分布預(yù)測1875—1894年期間被戰(zhàn)馬踢死的普魯士軍官人數(shù)[5]。

當(dāng)隨機事件的某一結(jié)果出現(xiàn)的可能性很低,且隨機事件會發(fā)生多次時,該結(jié)果發(fā)生的次數(shù)服從泊松分布。此外,還可以將泊松分布定義為單位時間內(nèi)某事件發(fā)生的次數(shù)。例如,在一段時間內(nèi),某常見病的新發(fā)例數(shù)服從泊松分布。

若隨機變量X取0和一切正整數(shù)值,在n次獨立試驗中出現(xiàn)的次數(shù)x恰為k次的概率,式中λ是單位時間內(nèi)隨機事件的平均發(fā)生次數(shù)。

接下來,筆者以通過某路口的汽車是否發(fā)生交通事故為例,說明泊松分布的應(yīng)用。假設(shè)在早高峰期間,通過某路口的每輛汽車發(fā)生事故的概率為p=0.0001,某日早高峰期間有10000輛車通過該路口,求此段時間內(nèi)發(fā)生事故的次數(shù)超過一次的概率。

由于λ=np=10000*0.0001=1,此路段不發(fā)生交通事故的概率為,發(fā)生一次交通事故的概率為。

則此路段發(fā)生交通事故的次數(shù)超過一次的概率為P(X>1)=1-0.368-0.368=0.264。

在分析以上場景時,人們也可以應(yīng)用二項分布模型計算不發(fā)生事故的概率。

P(X=0)=0.999910000=0.368,P(X=1)=10000*0.0001*0.99999999=0.368,但是計算量比泊松分布模型的計算量大。

4.應(yīng)用概率統(tǒng)計知識分析生活中問題的局限性

應(yīng)用概率模型或統(tǒng)計模型,人們可以高效地描述生活中的問題,得到較可靠的結(jié)論。但是,這種分析方法也有一定的局限性。在建立模型的過程中,人們只能將可量化的因素納入模型中,但是無法在模型中體現(xiàn)不可被量化的因素的影響。這可能導(dǎo)致所建立的模型不能貼切地描述問題,得到的結(jié)論與實際不符。此外,人們只能借助模型得到某一事件發(fā)生的可能性,而不能得到其他信息。如果決策者僅根據(jù)計算結(jié)果進行決策,那么他可能遺漏一些重要因素的影響,無法做出周到的安排。例如,在預(yù)測股票的漲跌時,人們只能得到某只股票上漲、下跌的概率,但是無法得到與上漲和下跌背后的風(fēng)險相關(guān)的信息。如果僅根據(jù)與概率統(tǒng)計相關(guān)的計算結(jié)果進行決策,可能會造成一定的損失。因此,建立概率統(tǒng)計模型只是輔助決策的手段,決策者需要在決策時考慮其他因素的影響,才能得到正確的結(jié)論[6]。

5 結(jié)語

概率統(tǒng)計知識在生活中有著廣泛的應(yīng)用。預(yù)測股市走向、購買彩票、賭馬賭球時,人們都需要應(yīng)用與概率統(tǒng)計相關(guān)的模型,如正態(tài)分布模型、泊松分布等模型等分析問題,才能得到較為可靠的結(jié)論。需要注意的是,當(dāng)需要分析的事件比較復(fù)雜時,人們需要盡量將所有的主要影響因素納入模型中,并同時分析可量化的因素和不可量化的因素的影響,才能得到可靠的結(jié)論。

猜你喜歡
泊松中位數(shù)正態(tài)分布
基于泊松對相關(guān)的偽隨機數(shù)發(fā)生器的統(tǒng)計測試方法
帶有雙臨界項的薛定諤-泊松系統(tǒng)非平凡解的存在性
中位數(shù)計算公式及數(shù)學(xué)性質(zhì)的新認(rèn)識
基于對數(shù)正態(tài)分布的出行時長可靠性計算
正態(tài)分布及其應(yīng)用
正態(tài)分布題型剖析
χ2分布、t 分布、F 分布與正態(tài)分布間的關(guān)系
泊松著色代數(shù)
2015年中考數(shù)學(xué)模擬試題(五)
2015年中考數(shù)學(xué)模擬試題(二)
龙里县| 湟中县| 蕲春县| 库车县| 丰宁| 民勤县| 通江县| 莱阳市| 和顺县| 邻水| 义乌市| 于田县| 樟树市| 绩溪县| 得荣县| 永吉县| 永仁县| 彭水| 武川县| 阿城市| 松滋市| 都江堰市| 石屏县| 龙里县| 临清市| 清流县| 新乡县| 磴口县| 曲麻莱县| 吉木乃县| 洛隆县| 丰城市| 柏乡县| 饶平县| 达日县| 凤山县| 应用必备| 湛江市| 嘉黎县| 新河县| 溧阳市|