隨著計算機(jī)的廣泛使用和人工智能時代的來臨,數(shù)據(jù)量越來越龐大,如何處理這些數(shù)據(jù)?如何從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,提煉出有價值的信息?這些都是非常重要的問題,為此,很多人開始從事這些問題的研究工作,他們被稱為數(shù)據(jù)挖掘工程師,現(xiàn)在,讓我們一起來探索數(shù)據(jù)挖掘中的奧妙,
舉一個身邊的例子,我們先觀察某中學(xué)男生的身高數(shù)據(jù),從中找出身材最高和最矮的同學(xué),或者算出他們身高的平均值,如果我們想要知道男生身高數(shù)據(jù)的分布情況,比如1.7米至1.75米之間有多少人,占所有男生的比例是多少,我們應(yīng)該怎么做?如圖1所示,我們可以畫出頻率分布直方圖,將身高最小值至最大值這一區(qū)間等分成若干組,統(tǒng)計每一組男生的人數(shù)和頻率,然后,在平面直角坐標(biāo)系中,用橫坐標(biāo)代表身高,縱坐標(biāo)是每個小組的頻率除以相應(yīng)的組距,并繪制出相應(yīng)的矩形,每個矩形的面積就是該小組男生身高的頻率。
從身高的頻率分布直方圖中我們可以看到,數(shù)據(jù)大致呈現(xiàn)“中間高,兩邊低”的特點(diǎn),在十六七歲的男生中,身高超過1.85米和低于1.5米的人數(shù)都非常少,而大部分人的身高集中在1.6米至1.75米之間,因此,雖然每個人的身高具有隨機(jī)性,但對同一年齡、同一性別的人群來說,其身高的分布是有規(guī)律的。
這種規(guī)律性是只在身高數(shù)據(jù)中體現(xiàn),還是在自然界中普遍存在呢?英國生物統(tǒng)計學(xué)家法蘭西斯·高爾頓做了一個實(shí)驗(yàn),他在一塊木板上畫了一塊等腰三角形,并在三角形區(qū)域內(nèi)釘上n+1層釘子,第1層釘2個釘子,第2層釘3個釘子,下面每一層都比上一層增加1個釘子,上一層的每個釘子都在下一層2個釘子的中間位置,之后,在第n+1層的下面,放人n+2個球槽。
建成后,高爾頓從頂端逐個扔下小球,這些小球在下落的過程中與眾多釘子發(fā)生碰撞,每次碰撞都會使得小球隨機(jī)向左或向右下落,隨著小球個數(shù)的增加,掉入各個球槽內(nèi)的小球的個數(shù)會越來越多,堆積的高度也會不斷增加,最終,如圖2所示,各球槽將呈現(xiàn)出“中間高,兩邊低”的分布,這與我們身高數(shù)據(jù)的分布非常相似。
并且,如果進(jìn)一步增加釘子的層數(shù)和小球的個數(shù),球槽中小球分布形成的曲線就會越來越光滑,最終趨向于圖3“中間高,兩邊低”的“鐘型”曲線,我們將這條曲線稱為正態(tài)分布密度曲線,簡稱正態(tài)曲線。
我們通過觀察這條曲線可以發(fā)現(xiàn),正態(tài)曲線是單峰的,有一條對稱軸,對稱軸所在的位置正是數(shù)據(jù)的平均值,用字母u表示,例如我們的平均身高等。對比圖4中的兩條正態(tài)曲線,我們可以看出虛線對應(yīng)的平均值更大,
圖5中兩條正態(tài)曲線的平均值相同,但是形狀不同,實(shí)線的正態(tài)曲線更加“矮胖”,而虛線的正態(tài)曲線更加“高瘦”,我們用另一個希臘字母σ(σ>0)來反映這種“矮胖”或“高瘦”的程度,假設(shè)這兩條曲線分別代表了兩個班學(xué)生成績的分布情況,兩個班學(xué)生的平均成績相差較小,但虛線對應(yīng)的班級,學(xué)生的成績更集中于平均成績附近,它的σ小,而實(shí)線對應(yīng)的班級,學(xué)生的成績相對分散,它的σ大,可能出現(xiàn)兩極分化的情況,所以,σ反映了數(shù)據(jù)的離散程度,它代表了數(shù)據(jù)的標(biāo)準(zhǔn)差,知道了u和σ這兩個參數(shù),我們就能畫出正態(tài)曲線。
我們也可以從另一個角度理解σ,正態(tài)曲線與直線x=a,x=b和x軸所圍成圖象的面積代表了數(shù)據(jù)在區(qū)間(a,b)所占的比例,假設(shè)工廠生產(chǎn)某種零件,要求孔徑為10mm,但在實(shí)際生產(chǎn)中會有誤差,如果孔徑的分布近似服從平均值為10mm、標(biāo)準(zhǔn)差為0.1mm的正態(tài)分布,那么如圖6(1)(2)(3)所示,孔徑落在9.9-10.1這一范圍的比例應(yīng)該是0.683.這是數(shù)據(jù)分布的主體孔徑落在9.3-10.3這一范圍的比例應(yīng)該是0.997.落在該區(qū)間之外的機(jī)率非常小,如果出現(xiàn)比較多的產(chǎn)品超出了這一范圍,那么我們可以懷疑生產(chǎn)過程出現(xiàn)了問題,這稱為“3σ原則”,在生產(chǎn)的過程中,我們可以根據(jù)這一原則進(jìn)行產(chǎn)品質(zhì)量檢測。
正態(tài)分布在統(tǒng)計中是很常用的,例如在醫(yī)學(xué)上,可以運(yùn)用正態(tài)分布估計人體的某些生理指標(biāo),比如白細(xì)胞數(shù)的正常值范圍,白細(xì)胞數(shù)在正常人群中近似正態(tài)分布,我們可以制定一個上限和下限,比如95%的人在正常范圍之內(nèi),而超出這一范圍的人,我們就認(rèn)為需要對其進(jìn)行特殊關(guān)注了。