邱元陽(yáng)
作為信息的具體表現(xiàn)形式,數(shù)據(jù)的重要性顯而易見(jiàn),各種數(shù)據(jù)的獲取和利用,一直貫穿在各行各業(yè)。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的獲取已經(jīng)不是問(wèn)題,但如何對(duì)得到的數(shù)據(jù)進(jìn)行分析,卻往往千差萬(wàn)別。
數(shù)據(jù)分析(Data Analysis)就是用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,將它們加以匯總和理解并消化,以求最大化地開(kāi)發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。但同樣的數(shù)據(jù),不同人分析的結(jié)果,卻可能大相徑庭。
武漢市新冠病毒核酸篩查“十天大會(huì)戰(zhàn)”結(jié)束,這幾天,無(wú)數(shù)武漢人的朋友圈被陰性檢測(cè)結(jié)果刷屏。出乎很多人的意料,這10天檢測(cè)出來(lái)的無(wú)癥狀感染者僅有218人,只占檢測(cè)人數(shù)的0.0035%。而在此之前,很多人不相信國(guó)內(nèi)的數(shù)據(jù),根據(jù)國(guó)外發(fā)病情形和數(shù)據(jù),以及無(wú)癥狀感染者與確診人數(shù)的比例,來(lái)預(yù)測(cè)武漢新冠肺炎感染人數(shù),多數(shù)人分析的結(jié)果是,武漢感染的人數(shù)可能超過(guò)50萬(wàn)人!
這種巨大的預(yù)測(cè)偏差顯然是數(shù)據(jù)分析和利用過(guò)程不正確造成的。但有人卻要回頭質(zhì)疑武漢檢測(cè)結(jié)果的準(zhǔn)確性和檢測(cè)能力。對(duì)于10天完成近千萬(wàn)人的全民核酸篩查,這樣的速度和檢測(cè)能力,要超過(guò)醫(yī)療條件和檢測(cè)能力都非常強(qiáng)的美國(guó)若干倍。從會(huì)戰(zhàn)開(kāi)始前幾天的日檢測(cè)數(shù)量來(lái)看,7萬(wàn),11萬(wàn),22萬(wàn),雖然速度在不斷上升,但距離日均百萬(wàn)的預(yù)期還是相差較遠(yuǎn),但當(dāng)高峰期達(dá)到日檢測(cè)147萬(wàn)時(shí),有人又不相信了。
小時(shí)候很多人都做過(guò)類(lèi)似這樣的智力題:一堆看起來(lái)完全一樣的乒乓球,其中有一個(gè)質(zhì)量稍輕的次品,如何利用天平用最少次數(shù)的稱(chēng)量來(lái)找出這個(gè)次品。大家都會(huì)想到分組稱(chēng)量,天平兩端平衡時(shí),兩組乒乓球應(yīng)該都是正常的。在計(jì)算機(jī)程序設(shè)計(jì)中,類(lèi)似的方法已發(fā)展為各種查找算法。用到武漢核酸篩查方法上,就是“混樣檢測(cè)”,10個(gè)樣本混到一起檢測(cè)一次,如果是陰性則全部是陰性,如果是陽(yáng)性再分別檢測(cè)。在預(yù)估陽(yáng)性率很低的前提下,混樣檢測(cè)極大地減少了檢測(cè)次數(shù),而混樣造成病毒濃度的稀釋在30個(gè)以?xún)?nèi)的樣本混合時(shí)不會(huì)影響檢出。
數(shù)據(jù)分析是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。從這里來(lái)看,外行進(jìn)行數(shù)據(jù)分析和預(yù)測(cè),往往會(huì)忽視很多專(zhuān)業(yè)上的可能,得出完全錯(cuò)誤的結(jié)果。
從已有的各種數(shù)據(jù)中,找到不容易看出的內(nèi)在關(guān)聯(lián),有時(shí)還能夠挖掘出另外的豐富信息。這就是數(shù)據(jù)挖掘,經(jīng)典的例子有大家非常熟悉的“啤酒與尿布”,甚至一些杜撰的商業(yè)營(yíng)銷(xiāo)案例。
數(shù)據(jù)挖掘(Data Mining)是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程,它能夠從大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息。這一非凡過(guò)程通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找出規(guī)律。同樣,錯(cuò)誤的分析和挖掘,找出的規(guī)律也可能是錯(cuò)的。
在歐洲疫情暴發(fā)初期,德國(guó)的病死率僅有0.59%,跟伊朗接近20%的病死率簡(jiǎn)直是天壤之別。于是有人得出結(jié)論:德國(guó)先進(jìn)的醫(yī)療條件和技術(shù),保證了極低的病死率,而伊朗正好相反。如果我們重新審視這個(gè)看似非??茖W(xué)的結(jié)論,會(huì)發(fā)現(xiàn)還是有問(wèn)題?,F(xiàn)在再看,二者的病死率都在5%上下,也就是說(shuō),自身免疫能力而非醫(yī)療水平才是關(guān)鍵。
表面上看,病死率應(yīng)該是病死人數(shù)除以發(fā)病人數(shù),但是發(fā)病人數(shù)一直在變化,感染者人數(shù)未知,分子與分母都不是最終數(shù)據(jù)。美國(guó)天普大學(xué)數(shù)學(xué)教授約翰·艾倫保羅稱(chēng)此為“分母之謎”,簡(jiǎn)單的除法得到的并不是最終病死率。
另外,調(diào)查數(shù)據(jù)的可靠性,幸存者偏差,遺漏和錯(cuò)誤關(guān)聯(lián),都會(huì)使嚴(yán)肅的數(shù)據(jù)分析變得沒(méi)有參考價(jià)值,差之毫厘,謬以千里。