国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

不要掉入統(tǒng)計數(shù)字的陷阱

2017-03-30 10:43王心儀
現(xiàn)代經(jīng)濟信息 2017年1期
關(guān)鍵詞:陷阱

王心儀

摘要:我們生活在信息時代,信息的主題就是統(tǒng)計數(shù)據(jù),統(tǒng)計數(shù)據(jù)覆蓋經(jīng)濟和社會的各個領(lǐng)域,但是并非所有的統(tǒng)計數(shù)據(jù)都是客觀真實的,本文通過實例來分析有偏的樣本、精選的平均數(shù)、隱藏的部分?jǐn)?shù)據(jù)、誤解的相關(guān)關(guān)系、不完全匹配的資料等幾種統(tǒng)計數(shù)字說謊的方式及其破解的方法。

關(guān)鍵詞:統(tǒng)計數(shù)字;陷阱;破解方法

中圖分類號:F713.8;F712.3 文獻識別碼:A 文章編號:1001-828X(2017)001-000-02

在這個信息爆炸的時代,各種各樣的數(shù)據(jù)充斥在我們周圍,比如“廣東本科生平均月薪7000元,你拖后腿了嗎?”、“北京人初婚平均年齡為27歲,結(jié)婚越晚越穩(wěn)定”……可是,數(shù)字?jǐn)[在那兒,我們就能正確認(rèn)識世界了嗎?我們要如何才能夠看清這些漫天飛舞、貌似客觀真實的統(tǒng)計數(shù)據(jù)背后的謊言?下面我們就來看看幾種統(tǒng)計數(shù)字說謊的例子及其破解的方法。

一、有偏的樣本

我們來看一則媒體報道:“6月15日,人工智能公司iPIN.com在北京發(fā)布了《2015年iPIN.com中國大學(xué)薪酬排行榜》,清華大學(xué)高居榜首,復(fù)旦大學(xué)和上海財經(jīng)大學(xué)分列二三位。這份薪酬排行榜是根據(jù)來自招聘和獵頭公司的4000萬大學(xué)畢業(yè)生真實畢業(yè)去向數(shù)據(jù)分析所得,由各大學(xué)畢業(yè)五年薪酬指數(shù)計算所得?!?/p>

事實上,這個數(shù)據(jù)中就使用了一個有偏的樣本,從以下幾個方面,我們可以看出破綻:首先,對于一群已經(jīng)離開學(xué)校的人,了解他們的平均收入,且精確到以元為單位,幾乎不太可能;其次,對于年收入10萬元以上的階層來說,投資渠道更廣,因此他們的收入不可能完全來自于薪水;再次,這些畢業(yè)生不一定堅持說真話,有些人可能出于虛榮或天生樂觀而夸大數(shù)據(jù),還有一些人也有可能故意縮小數(shù)字;最后,沒有人能夠掌握那些不通過招聘和獵頭公司的學(xué)生就業(yè)情況,比如自我創(chuàng)業(yè)者。因此,得出的數(shù)據(jù)實際上是建立在這樣一個樣本之上:它代表的是畢業(yè)五年的學(xué)生中能夠聯(lián)系上的,并愿意站出來說出真實收入的一個特殊群體。所以,這個樣本的代表性并不強。

因此,為了確保結(jié)論有價值,就要抽取有代表性的樣本,一是要保證樣本足夠大,純隨機抽樣方法效果最好,但是有時純隨機抽樣樣本選取難度大,成本昂貴,可以采取分層隨機抽樣的方法。二是要看內(nèi)在樣本提供的答案是否真實,有時可以通過觀察其調(diào)查的方式來判斷結(jié)果的真實程度。比如,在調(diào)查出租車司機喜歡聽哪個頻道的收音機節(jié)目時,用問卷調(diào)查法就不如用觀察法獲得的結(jié)果相對可靠。

二、精選的平均數(shù)

我們來看一下廣州南方人才市場發(fā)布的《2015-2016年廣東地區(qū)薪酬調(diào)查報告》,報告顯示:廣州地區(qū)平均月薪為6911元,深圳更是高達7631元。(來自《新快報》,2015年9月18日)。這樣的數(shù)據(jù)倒是與一線城市的形象完美契合,但讓那些拿著個稅起征點以下工資的大多數(shù)人情何以堪。那么,導(dǎo)致這種不滿的原因是什么呢?就是精心挑選的平均數(shù)。

事實上,平均數(shù)不僅是簡單意義上的算術(shù)平均數(shù),還包括了中位數(shù)和眾數(shù)。算術(shù)平均數(shù)又稱均值,是將所有數(shù)據(jù)加總后除以樣本數(shù)得來的結(jié)果,也是平常意義上的平均數(shù)。中位數(shù)是將所有數(shù)值從高到低排列,最中間的數(shù)值。眾數(shù)是所有數(shù)值中出現(xiàn)頻率最高的數(shù)值。算術(shù)平均數(shù)并不能夠完全反映真實的薪酬狀況,從統(tǒng)計上說,中位數(shù)和眾數(shù)比算術(shù)平均數(shù)更有說服力。顯然,每月近7000元的收入,在廣州并不算低,但有多少人能達到這個工資水平?只公布薪酬平均數(shù)而不公布其他相關(guān)數(shù)據(jù)只會掩蓋真實問題,薪酬統(tǒng)計就這樣成為了少數(shù)人的狂歡,多數(shù)人的悲哀。因此,在看到平均數(shù)時,我們首先要問問是什么類型的平均,是算術(shù)平均數(shù),中位數(shù),還是眾數(shù),特別是那些沒有標(biāo)明類型的平均數(shù)。

三、隱藏的部分?jǐn)?shù)據(jù)

下面這則牙膏廣告令人印象深刻:“經(jīng)科學(xué)驗證,與高露潔普通含氟牙膏相比,高露潔360°牙膏能減少口腔細(xì)菌滋生,效果最高高出75%,有效對抗八大口腔問題?!保▉碜愿呗稘嵐俜骄W(wǎng)站)??墒峭高^這則品牌牙膏的廣告宣傳,我們卻無法知道以下信息,一是樣本量,即所抽取測試對象的樣本量是多少?二是測試過程,即測試對象是哪些人?測試過程持續(xù)了多長時間?而這些信息都決定了測試結(jié)果的可靠性,商家就是利用這樣不充分的樣本數(shù)據(jù),來達到預(yù)期的廣告效果。這些隱藏的數(shù)據(jù)的欺騙性在于人們經(jīng)常忽略了它們的存在,這當(dāng)然也是它們?nèi)〉贸晒Φ膴W秘。另一種被隱藏的數(shù)據(jù)表明事物的變動范圍(全距)和給定平均數(shù)的偏離水平(標(biāo)準(zhǔn)差)。如“昆明和北非撒哈拉沙漠地區(qū)的年平均氣溫都在15℃左右”的數(shù)據(jù)忽略了昆明的氣溫波動范圍是7~28℃,而沙漠的波動范圍是-9~40℃”。

因此,數(shù)量小的樣本存在偶然因素,必然導(dǎo)致偶然的、毫無意義的統(tǒng)計結(jié)論;要對數(shù)據(jù)進行在一定顯著性水平下(10%或5%或1%)的顯著性檢驗;要注意事物的變動范圍和給定平均數(shù)的偏離水平;要查看引起變化的原因,比如,某個報告得出“最近25年癌癥死亡人數(shù)增多”的結(jié)論,你就要反問:癌癥的死亡人數(shù)真的有增加嗎?數(shù)據(jù)中是否遺漏了“以前許多‘病因不明的案例現(xiàn)在已經(jīng)確診為癌癥”這一引起變化的原因?

四、變身的統(tǒng)計圖

你也許會質(zhì)疑:圖表是很直觀的統(tǒng)計數(shù)據(jù),難道還能不真實嗎?下面就來看看精挑細(xì)選的統(tǒng)計圖是如何欺騙蒙蔽人們雙眼的。

上面這張圖(橫坐標(biāo)表示的是月份,縱坐標(biāo)是每月的體育消費額)是一個原始的、清晰顯示一年來體育消費變化的折線圖,并且變化是逐月反映出來的。然而畫圖者會發(fā)現(xiàn),整張圖按比例繪制,雖然看上去體育消費的確上升了10%,但是卻不振奮人心。這時候,他們就會把底部的數(shù)據(jù)抹去,最后得到下面這張圖的效果:

你是否發(fā)現(xiàn),縱坐標(biāo)的每一個刻度都縮減為了原來的1/10,橫縱坐標(biāo)的比例關(guān)系被更改了。最后出來的效果,就相當(dāng)于將“體育消費支出增長了10個百分點”改寫成“體育消費支出驚人地攀升了10個百分點”。因此,在遇到統(tǒng)計圖時,我們要仔細(xì)觀察圖中的數(shù)據(jù),不能把注意力集中在圖形的直觀效果上,而應(yīng)深究隱含的數(shù)據(jù),通過數(shù)據(jù)的對比得出結(jié)論,才不會被看似“驚人”的變化圖所迷惑。

五、誤解的相關(guān)關(guān)系

存在于兩個事物之間的關(guān)聯(lián)關(guān)系并不能說明其中一個事物的變化將引起另一個事物的變化,也就是說,如果A出現(xiàn)了,緊接著B也出現(xiàn)了,那么就得出A導(dǎo)致了B的結(jié)論,這種推論毫無根據(jù)。比如,大學(xué)中抽煙者的學(xué)習(xí)成績普遍不如不抽煙者,你就能得出“抽煙導(dǎo)致低分”的結(jié)論嗎?會不會是相反的作用關(guān)系呢?也許不理想的成績促使學(xué)生變得愛抽煙,以此釋放壓力呢?雖然這兩種說法都不靠譜,更大的可能性是:吸煙和學(xué)習(xí)成績這兩個因素并不互為因果,而同為性格這個第三個因素的產(chǎn)物,也許性格影響成績,也影響抽煙。因此,在使用相關(guān)關(guān)系時,要注意分辨這個相關(guān)是否是事件變遷的產(chǎn)物或時代趨勢的產(chǎn)物,否則就是對相關(guān)關(guān)系的誤解。

六、不完全匹配的資料

搜集這樣的資料,卻把它說成是那樣一回事,這種掛羊頭賣狗肉的行為就是統(tǒng)計資料的不完全匹配。我們來看這么一組政府統(tǒng)計數(shù)據(jù):“2010年全國鐵路交通死亡人數(shù)1589人,航空運輸方面死亡42人。”那是否就意味著坐飛機比乘火車更安全?答案是否定的,原因有三點,一是統(tǒng)計基數(shù)不同,2010年全國鐵路共發(fā)送旅客16.76億人次,全國民航旅客運輸量則為2,68億人次。二是統(tǒng)計口徑不同,鐵路交通事故熟慮絕大多數(shù)都是路外事故和生產(chǎn)事故,而不是行車事故,即真正因行車事故死亡的車內(nèi)乘客只占一部分,而航空運輸只統(tǒng)計飛行事故,不包含地面事故和生產(chǎn)事故。三是因為直接比較各類交通工具的意外事故數(shù)量來判斷旅途安全情況是不正確的,應(yīng)該詢問每100萬乘客里程的遇難人數(shù),并比較這些人數(shù)才能確定哪種出行方式的風(fēng)險最大。因此,在分析統(tǒng)計資料時,應(yīng)留心從搜集原始資料到形成結(jié)論的整個過程中,是否存在著概念的偷換,也就是將看上去極像、而完全不同的兩件事混淆在一起,如上例中“交通事故死亡人數(shù)”的增多不能等同于“交通事故死亡率”的提高。

七、結(jié)語

人類社會發(fā)展帶來的所有問題,一定要靠社會進一步發(fā)展來解決。就像數(shù)據(jù)這么多造假和扭曲,怎么解決?辦法就是大數(shù)據(jù),大數(shù)據(jù)的本質(zhì)不是數(shù)據(jù)多,也不是數(shù)字大,而是維度豐富。在大數(shù)據(jù)時代,我們每一個人都可以輕松地獲得各種維度的數(shù)據(jù)。比如說這個城市的發(fā)電量、用電量,居民外出度假的總數(shù),這個城市的汽車的增長,房價的漲幅,這個城市的社會商品的零售總額,這個城市的網(wǎng)購的數(shù)量等。當(dāng)這么多數(shù)據(jù)匯集在一起的時候,真相將會越來越纖毫畢現(xiàn)。

參考文獻:

[1](美)達萊爾·哈夫.統(tǒng)計數(shù)字會撒謊[M].中國城市出版社,2009,3.

[2]小島寬之.你一定愛讀的極簡統(tǒng)計學(xué)[M].臺海出版社,2015,1.

[3]朱連慶.數(shù)據(jù)會說謊[J],現(xiàn)代家電,2016(16).

[4]吳磊,等.融合過抽樣和欠抽樣的不平衡數(shù)據(jù)重抽樣方法[J].計算機工程與應(yīng)用,2013(21).

[5]不靠譜的統(tǒng)計數(shù)字如何欺騙了你?http://mt.sohu.com/20160912/n468228624.shtml.

猜你喜歡
陷阱
挖陷阱
注意題中的陷阱
暗處的陷阱(二)
陷阱
雄安,如何跳出被房地產(chǎn)綁架的陷阱
陷阱
陷阱
『陷阱』面前須提防
關(guān)于“中等收入陷阱”
陷阱2