国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)分析與數(shù)據(jù)挖掘

2020-06-12 11:47邱元陽(yáng)
中國(guó)信息技術(shù)教育 2020年11期
關(guān)鍵詞:病死率感染者篩查

邱元陽(yáng)

作為信息的具體表現(xiàn)形式,數(shù)據(jù)的重要性顯而易見(jiàn),各種數(shù)據(jù)的獲取和利用,一直貫穿在各行各業(yè)。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的獲取已經(jīng)不是問(wèn)題,但如何對(duì)得到的數(shù)據(jù)進(jìn)行分析,卻往往千差萬(wàn)別。

數(shù)據(jù)分析(Data Analysis)就是用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,將它們加以匯總和理解并消化,以求最大化地開(kāi)發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。但同樣的數(shù)據(jù),不同人分析的結(jié)果,卻可能大相徑庭。

武漢市新冠病毒核酸篩查“十天大會(huì)戰(zhàn)”結(jié)束,這幾天,無(wú)數(shù)武漢人的朋友圈被陰性檢測(cè)結(jié)果刷屏。出乎很多人的意料,這10天檢測(cè)出來(lái)的無(wú)癥狀感染者僅有218人,只占檢測(cè)人數(shù)的0.0035%。而在此之前,很多人不相信國(guó)內(nèi)的數(shù)據(jù),根據(jù)國(guó)外發(fā)病情形和數(shù)據(jù),以及無(wú)癥狀感染者與確診人數(shù)的比例,來(lái)預(yù)測(cè)武漢新冠肺炎感染人數(shù),多數(shù)人分析的結(jié)果是,武漢感染的人數(shù)可能超過(guò)50萬(wàn)人!

這種巨大的預(yù)測(cè)偏差顯然是數(shù)據(jù)分析和利用過(guò)程不正確造成的。但有人卻要回頭質(zhì)疑武漢檢測(cè)結(jié)果的準(zhǔn)確性和檢測(cè)能力。對(duì)于10天完成近千萬(wàn)人的全民核酸篩查,這樣的速度和檢測(cè)能力,要超過(guò)醫(yī)療條件和檢測(cè)能力都非常強(qiáng)的美國(guó)若干倍。從會(huì)戰(zhàn)開(kāi)始前幾天的日檢測(cè)數(shù)量來(lái)看,7萬(wàn),11萬(wàn),22萬(wàn),雖然速度在不斷上升,但距離日均百萬(wàn)的預(yù)期還是相差較遠(yuǎn),但當(dāng)高峰期達(dá)到日檢測(cè)147萬(wàn)時(shí),有人又不相信了。

小時(shí)候很多人都做過(guò)類(lèi)似這樣的智力題:一堆看起來(lái)完全一樣的乒乓球,其中有一個(gè)質(zhì)量稍輕的次品,如何利用天平用最少次數(shù)的稱(chēng)量來(lái)找出這個(gè)次品。大家都會(huì)想到分組稱(chēng)量,天平兩端平衡時(shí),兩組乒乓球應(yīng)該都是正常的。在計(jì)算機(jī)程序設(shè)計(jì)中,類(lèi)似的方法已發(fā)展為各種查找算法。用到武漢核酸篩查方法上,就是“混樣檢測(cè)”,10個(gè)樣本混到一起檢測(cè)一次,如果是陰性則全部是陰性,如果是陽(yáng)性再分別檢測(cè)。在預(yù)估陽(yáng)性率很低的前提下,混樣檢測(cè)極大地減少了檢測(cè)次數(shù),而混樣造成病毒濃度的稀釋在30個(gè)以?xún)?nèi)的樣本混合時(shí)不會(huì)影響檢出。

數(shù)據(jù)分析是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。從這里來(lái)看,外行進(jìn)行數(shù)據(jù)分析和預(yù)測(cè),往往會(huì)忽視很多專(zhuān)業(yè)上的可能,得出完全錯(cuò)誤的結(jié)果。

從已有的各種數(shù)據(jù)中,找到不容易看出的內(nèi)在關(guān)聯(lián),有時(shí)還能夠挖掘出另外的豐富信息。這就是數(shù)據(jù)挖掘,經(jīng)典的例子有大家非常熟悉的“啤酒與尿布”,甚至一些杜撰的商業(yè)營(yíng)銷(xiāo)案例。

數(shù)據(jù)挖掘(Data Mining)是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程,它能夠從大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息。這一非凡過(guò)程通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找出規(guī)律。同樣,錯(cuò)誤的分析和挖掘,找出的規(guī)律也可能是錯(cuò)的。

在歐洲疫情暴發(fā)初期,德國(guó)的病死率僅有0.59%,跟伊朗接近20%的病死率簡(jiǎn)直是天壤之別。于是有人得出結(jié)論:德國(guó)先進(jìn)的醫(yī)療條件和技術(shù),保證了極低的病死率,而伊朗正好相反。如果我們重新審視這個(gè)看似非??茖W(xué)的結(jié)論,會(huì)發(fā)現(xiàn)還是有問(wèn)題?,F(xiàn)在再看,二者的病死率都在5%上下,也就是說(shuō),自身免疫能力而非醫(yī)療水平才是關(guān)鍵。

表面上看,病死率應(yīng)該是病死人數(shù)除以發(fā)病人數(shù),但是發(fā)病人數(shù)一直在變化,感染者人數(shù)未知,分子與分母都不是最終數(shù)據(jù)。美國(guó)天普大學(xué)數(shù)學(xué)教授約翰·艾倫保羅稱(chēng)此為“分母之謎”,簡(jiǎn)單的除法得到的并不是最終病死率。

另外,調(diào)查數(shù)據(jù)的可靠性,幸存者偏差,遺漏和錯(cuò)誤關(guān)聯(lián),都會(huì)使嚴(yán)肅的數(shù)據(jù)分析變得沒(méi)有參考價(jià)值,差之毫厘,謬以千里。

猜你喜歡
病死率感染者篩查
高危型HPV篩查與TCT聯(lián)合檢查在宮頸癌篩查中的臨床應(yīng)用價(jià)值分析
二維超聲與四維超聲篩查方法在篩查不同孕周產(chǎn)前超聲篩查胎兒畸形情況的應(yīng)用價(jià)值
兩癌篩查中的健康宣教及護(hù)理干預(yù)效果評(píng)價(jià)
梧州市艾滋病病死率相關(guān)影響因素和綜合控制措施的研究
急診對(duì)于急危重癥患兒568例搶救效果臨床分析
枸櫞酸抗凝在膿毒癥急性腎損傷患者血液濾過(guò)中的應(yīng)用
你所不知的宮頸癌篩查小秘密
無(wú)瓣膜病變心房纖顫并腦卒中的臨床分析
保山市| 城口县| 邵东县| 吉首市| 阿拉善右旗| 清流县| 乌恰县| 滁州市| 玉溪市| 包头市| 福建省| 温泉县| 平乐县| 和平区| 扶余县| 福清市| 阳山县| 南溪县| 松滋市| 沙坪坝区| 桓仁| 拉萨市| 贺兰县| 称多县| 垫江县| 桃江县| 成都市| 靖安县| 汽车| 公安县| 韩城市| 江阴市| 大荔县| 杨浦区| 宁明县| 博客| 安陆市| 沙河市| 巴彦淖尔市| 政和县| 龙陵县|