徐玲
歷史上有個著名的偵破數(shù)據(jù)造假的案例,特別有趣。發(fā)現(xiàn)數(shù)據(jù)造假的“大偵探”,是19世紀法國著名數(shù)學家龐加萊,而被發(fā)現(xiàn)數(shù)據(jù)造假的人,是一位“倒霉”的面包師。
原來,龐加萊有個習慣,每天從家附近的面包店里買一條標注1千克重的面包。他回家仔細稱量這些面包后卻發(fā)現(xiàn),平均重量只有950克,顯然面包師故意缺斤少兩,龐加萊氣得馬上報了警。面包師當著警察的面賭咒發(fā)誓,以后堅決不犯了。
之后,龐加萊繼續(xù)在他家買面包,他發(fā)現(xiàn)每天買到的面包確實大了一些。但他仍然覺得有什么地方不對勁。他在接下來的一年中,每天都去買面包仔細稱重。結果,龐加萊終于印證了自己的懷疑:這個面包師根本沒有改過自新,而是繼續(xù)缺斤少兩。
龐加萊的推論過程是這樣的:如果面包店里的面包平均重量是1千克,面包師每次從中隨機拿一條給他,那么他拿到的面包應該是有的比1千克稍微重一點,有的比1千克稍微輕一點。所有面包的重量分布曲線應該呈鐘形,也就是正態(tài)分布,在橫坐標為1千克的地方達到最高點,兩端逐漸下降并左右對稱。
然而,實際的情況是,龐加萊的面包偏輕的太少,偏重的卻過多,鐘形曲線被扭曲了,不再左右對稱。這意味著,面包師并不是從足斤足兩的面包中隨機拿一條給他,而是從依然缺斤少兩的面包中,選出一條最大的來給他。當警察再次上門,面包師大吃一驚,死活想不通龐加萊是怎么看穿他的把戲的。
后來,大家把龐加萊的方法叫作“統(tǒng)計偵查術”,凡是應該符合特定分布形態(tài)的數(shù)據(jù),如果出現(xiàn)了明顯的偏離,那就值得警惕了。后來,有人用同樣的方法,發(fā)現(xiàn)了美國籃球比賽中的打假球現(xiàn)象。你也可以試著“龐加萊附體”,當一回生活中的數(shù)據(jù)偵探。
(摘自“得到”app,Stacy圖)