王雅辰
摘要:通過對(duì)《女士品茶》這本統(tǒng)計(jì)學(xué)相關(guān)著作的閱讀,結(jié)合金融專業(yè)基礎(chǔ)課程應(yīng)用統(tǒng)計(jì)學(xué)的學(xué)習(xí)及相關(guān)文獻(xiàn)的研讀,我對(duì)應(yīng)用統(tǒng)計(jì)學(xué)的整體框架有了更深層次的認(rèn)識(shí)和理解。本文認(rèn)為,在應(yīng)用統(tǒng)計(jì)學(xué)的學(xué)習(xí)和不斷探索過程中,“求共存異”的思維在解決統(tǒng)計(jì)學(xué)問題中非常重要。在當(dāng)前大數(shù)據(jù)時(shí)代下,非參數(shù)方法的使用將會(huì)是未來應(yīng)用統(tǒng)計(jì)學(xué)的發(fā)展趨勢(shì)。
關(guān)鍵詞:“求共存異”;大數(shù)據(jù)時(shí)代;非參數(shù)方法;
下面本文從“求共”與“存異”兩個(gè)方面來介紹“求同存異”的統(tǒng)計(jì)學(xué)思維,進(jìn)而探索當(dāng)今大數(shù)據(jù)時(shí)代下統(tǒng)計(jì)學(xué)的發(fā)展趨勢(shì)。
一、“求共”思維
第一,中心極限定理下的“求共”思維。
《女士品茶》第9章“鐘形曲線”中提到,中心極限定理、大數(shù)定律、數(shù)理統(tǒng)計(jì)基本定理這三個(gè)“基本理論”中最重要的是中心極限定理。中心極限定理闡明,無(wú)論初始數(shù)據(jù)是怎么來的,這個(gè)分布都可以用正態(tài)概率分布來逼近。這個(gè)正態(tài)概率分布與拉普拉斯的誤差函數(shù)相同,有時(shí)也叫高斯分布,而在淺顯通俗的普及書里,也常被稱為“鐘形曲線”。 由此可以看出中心極限定理理論中的“求共”思維。不管數(shù)據(jù)來自什么地方,以什么形式和渠道獲得,大量數(shù)據(jù)的平均值都可以認(rèn)為是近似服從于正態(tài)分布,中心極限定理下的“求共”思維讓這些看似復(fù)雜的問題變得有法可循。
第二,建模中的“求共”思維。
《女士品茶》第九章鐘形曲線講到了運(yùn)籌學(xué)這一學(xué)科的產(chǎn)生與發(fā)展。英國(guó)1948年經(jīng)濟(jì)就恢復(fù)到二戰(zhàn)前的水平,比一戰(zhàn)后到1925年恢復(fù)戰(zhàn)前水平花費(fèi)的時(shí)間要短的多。 二戰(zhàn)期間不同專業(yè)研究領(lǐng)域的科學(xué)家們聯(lián)合研究了有關(guān)戰(zhàn)爭(zhēng)的一些問題,由此“運(yùn)籌學(xué)”誕生。這些科學(xué)家們要解決的問題包括遠(yuǎn)程轟炸機(jī)對(duì)戰(zhàn)潛水艇的最優(yōu)方案;軍隊(duì)的食物補(bǔ)給問題;為前線軍火補(bǔ)給站選擇最優(yōu)位置等等。同樣的步驟和許多相同的方法也能用來組織工廠里的生產(chǎn),找出倉(cāng)庫(kù)與銷售部門之間的最優(yōu)關(guān)系,解決許多別的商務(wù)問題,均衡有限的資源,或改進(jìn)生產(chǎn)與提高產(chǎn)量。 解決這些問題時(shí)需要構(gòu)建模型,而同一類問題需要構(gòu)建同樣的數(shù)學(xué)模型。在模型的構(gòu)建過程中會(huì)用到許多相同的步驟和類似的方法,提取其中的共性因子總結(jié)結(jié)論,歸納整理成一類問題,這就是建模中的“求共”思維。
第三,跨學(xué)科理論融合的“求共”思維。
《女士品茶》第八章“致死的劑量”中講到了切斯特·布利斯在探究如何構(gòu)建模型分析殺蟲劑作用這一問題上發(fā)明出的一種叫做“概率單位分析”的方法。書中講道,布利斯的概率單位分析已被成功應(yīng)用到毒物學(xué)。從某種意義上說,源于概率單位分析的認(rèn)識(shí)已經(jīng)形成了毒物學(xué)這門科學(xué)的主要基礎(chǔ)。 布利斯的概率單位分析方法的思想來源于皮爾遜的統(tǒng)計(jì)分布,而這種采用概率分布的新的數(shù)學(xué)思想與毒物學(xué)的結(jié)合體現(xiàn)了不同學(xué)科理論的融合。由此可以看出,“求共”思維在一定程度上推動(dòng)了應(yīng)用統(tǒng)計(jì)學(xué)甚至其他學(xué)科領(lǐng)域的發(fā)展。
二、“存異”思維
統(tǒng)計(jì)學(xué)的發(fā)展和革命中有許多“求共”思維的展現(xiàn),其中也包括一些“存異”的地方。比如20世紀(jì)才逐漸發(fā)展起來的統(tǒng)計(jì)學(xué)中的思想與邏輯思想存在不相容的地方。美國(guó)數(shù)學(xué)家埃里克貝爾說過:“數(shù)字不會(huì)說謊,但它有個(gè)偏好,就是在存心說謊的時(shí)候講出真相?!苯y(tǒng)計(jì)學(xué)思維給出了一個(gè)受用于實(shí)際生活的啟示:?jiǎn)栴}和錯(cuò)誤總的來說無(wú)法避免,重要的不是杜絕而是降低問題發(fā)生的概率,從而最大概率避免危害的產(chǎn)生。這就是統(tǒng)計(jì)學(xué)中的“存異”思維。比如說總有殺蟲劑殺不死的蟲子,沒有“零缺陷”的汽車和產(chǎn)品。并不是說徹底杜絕問題的發(fā)生毫無(wú)可能,只能說不能有百分之百的把握認(rèn)為殺蟲劑一定可以殺死所有蟲子,沒有百分之百的把握認(rèn)為生產(chǎn)線上的所有汽車和產(chǎn)品都“零缺陷”。因此需要有“存異”思維,不以杜絕問題的發(fā)生為最終目標(biāo),而以降低問題發(fā)生概率為目標(biāo)。
目前,回歸分析中的參數(shù)檢驗(yàn)、t檢驗(yàn)、z檢驗(yàn)、時(shí)間序列數(shù)據(jù)分析中的許多模型都用到了假設(shè)檢驗(yàn)。如果韋恩的概率定義不正確,那么應(yīng)用到韋恩概率定義的各種理論和模型都是不可靠的。“存異”思維表示要接受這一定義存在爭(zhēng)議的問題,為了最大限度降低錯(cuò)誤發(fā)生的概率,未來的統(tǒng)計(jì)學(xué)研究中應(yīng)該將概率論與數(shù)理統(tǒng)計(jì)結(jié)合起來加以研究。
《女士品茶》第十六章介紹到了非參數(shù)方法并在章節(jié)最后提到了非參數(shù)檢驗(yàn)的發(fā)展過程中幾個(gè)尚未解決的問題,包括參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)的選擇以及非參數(shù)方法的使用條件。隨著大數(shù)據(jù)時(shí)代的發(fā)展,在大數(shù)據(jù)分析中,非參數(shù)方法相較于參數(shù)檢驗(yàn)方法適用性更高。由于大數(shù)據(jù)樣本容量大,類型復(fù)雜的特點(diǎn),快速根據(jù)數(shù)據(jù)分布類型確定模型的難度很大,因此這時(shí)候就無(wú)法用參數(shù)檢驗(yàn)的方法。此外,測(cè)量誤差和離群值會(huì)影響數(shù)據(jù)的處理和分析以及對(duì)預(yù)期的估計(jì)。在過去的三十年中,已有的用來處理可能包含異常值的數(shù)據(jù)的方法大多是半自動(dòng)的,或者在涉及大型數(shù)據(jù)集時(shí)需要大量的計(jì)算時(shí)間。 基于短時(shí)間內(nèi)很難判斷出大數(shù)據(jù)的模型這一現(xiàn)狀,未來統(tǒng)計(jì)學(xué)的發(fā)展方向可能會(huì)向非參數(shù)方法模型的構(gòu)造傾斜。
三、結(jié)語(yǔ)
統(tǒng)計(jì)學(xué)思維不僅僅體現(xiàn)在對(duì)待數(shù)據(jù)的認(rèn)真,處理數(shù)據(jù)時(shí)的嚴(yán)謹(jǐn),分析問題的全面,還應(yīng)該有“求共存異”的思維?!扒蠊病薄獙⒉煌膯栴}提取共性因子歸納為一類;“存異”——接受不同,接受爭(zhēng)議,將有爭(zhēng)議的不同問題融合起來進(jìn)行分析。隨著當(dāng)今大數(shù)據(jù)時(shí)代的變遷和發(fā)展,統(tǒng)計(jì)學(xué)也將會(huì)朝著更加完善,適用性覆蓋性更強(qiáng)的方向發(fā)展。
參考文獻(xiàn)
[1]薩爾斯伯格著:《女士品茶》,中國(guó)統(tǒng)計(jì)出版社,2004年,第80,89,74,273頁(yè)。
[2]車效梅:“淺析第二次世界大戰(zhàn)對(duì)社會(huì)生產(chǎn)力發(fā)展的影響”,《生產(chǎn)力研究》1998年第3期,第2頁(yè)。
[3]林菁:“大數(shù)據(jù)背景下統(tǒng)計(jì)信息化的應(yīng)用研究”,《中外企業(yè)家》2020年第17期,第94-95頁(yè)。
[4]Dariush Khezrimotlagh,Wade D. Cook,Joe Zhu:“ A nonparametric framework to detect outliers in estimating production frontiers,” European Journal of Operational Research, Vol.286, No.1, 2020, pp.1-2.
[5]Dariush Khezrimotlagh,Wade D. Cook,Joe Zhu:“ A nonparametric framework to detect outliers in estimating production frontiers,” European Journal of Operational Research,Vol.286,No.1,2020,pp.1-2.