石左虎/編譯
政策:解釋科學(xué)論斷的20個提示
石左虎/編譯
科學(xué)和政策在一些有爭議的重大問題上已經(jīng)發(fā)生沖突,如蜜蜂數(shù)量減少、核電、獾對牛結(jié)核病的作用等等問題
●威廉·薩瑟蘭(William J.Sutherland)、大衛(wèi)·施皮格爾霍爾特(David Spiegelhalter)和馬克·伯格曼(Mark A.Burgman)所列出的內(nèi)容將幫助非科學(xué)人員如何咨詢其顧問,如何掌握證據(jù)的局限。
幾十年來人們一直在呼吁,在政治決策中要更多地運用科學(xué)。然而,從能源到健康,從環(huán)境到教育,在其政策中的科學(xué)運用方面還存在著嚴重問題。
為改變現(xiàn)狀,有人提出這樣一個建議,那就是鼓勵更多的科學(xué)家參與政治。該建議雖然值得稱道,但期待大批科學(xué)家參與政治是不現(xiàn)實的。還有人建議:擴大首席科顧問的作用,增加科學(xué)顧問人數(shù),讓他們更深入地參與政治過程。這兩個建議均未觸到核心問題,即很多在議會有投票權(quán)的人根本不懂科學(xué)。
也許我們可以給政治家們上科學(xué)課程?這是一個有吸引力的想法,但忙碌的政治家們有足夠的時間嗎?實際上,決策者幾乎從不閱讀科學(xué)論文或科學(xué)書籍。關(guān)于當今熱門課題的之研究,例如,線粒體更換、牛結(jié)核或核廢料處置等等,都是由顧問或外部專家向政治家進行解釋。再則,幾乎不存在這樣的受控實驗,即設(shè)計精美、雙盲、隨機、可重復(fù)、大樣本、對解決具體政策議題有明確結(jié)論。
在這種情況下,我們認為,當務(wù)之急是要提高決策者對科學(xué)不完美性的理解。決策者的基本技能應(yīng)包括:能夠明智地詢問專家和顧問,了解其證據(jù)的質(zhì)量缺陷和個人偏見。我們把這些稱為解釋科學(xué)的技能。這些技能比理解基礎(chǔ)科學(xué)本身的技能更容易獲得,大多數(shù)政治家都能夠具備這些技能。
為此,我們提出了20個概念,它們應(yīng)該是公務(wù)員、政治家、政策顧問、媒體工作者以及那些需要與科學(xué)和科學(xué)家互動的人所受教育的一部分。對科學(xué)人士持懷疑態(tài)度的政治家更傾向于用這種關(guān)鍵知識來武裝自己。
我們還沒有天真到認為完美的政策決定會自動產(chǎn)生。我們充分意識到科學(xué)判斷本身是有價值傾向的,偏見和語境對如何收集和解釋信息具有影響。我們所提供的僅僅是一系列觀念,這些觀念可能有助于決策者分析證據(jù)如何影響決定,有助于決策者避免受既得利益者的潛在影響。
差異和機會引發(fā)變化現(xiàn)實世界的變化難以預(yù)測??茖W(xué)的主要任務(wù)是去發(fā)現(xiàn)是什么形成了我們所看到的模式。為什么最近10年比過去10年更熱?為什么有些地區(qū)比其他地區(qū)有更多的鳥類?對于這樣的趨勢有許多解釋,因此,研究面臨的主要挑戰(zhàn)是:從無數(shù)的變化過程(從像農(nóng)業(yè)的強化和入侵物種蔓延那樣的廣泛變化到像決定生物生死的或然事件那樣的地區(qū)變化)中挑選出吸引人的自然過程(例如,氣候變化對鳥類種群的影響)。
測量具有非精確性幾乎所有的測量都有一定的誤差。如果重復(fù)測量過程,人們可能得到別樣的結(jié)果。在某些情況下,測量誤差可能比實際差異大。因此,如果你得知,上個月經(jīng)濟增長0.13%,很有可能經(jīng)濟實際上已經(jīng)萎縮。呈現(xiàn)在你面前的結(jié)果其準確性應(yīng)該與相關(guān)的誤差相稱,應(yīng)避免引用不客觀的精確。
偏見是普遍存在的實驗設(shè)計或測量裝置在一個給定的方向上可能產(chǎn)生非典型的結(jié)果。例如,通過詢問街上的行人和居家者或者通過互聯(lián)網(wǎng)來確定投票反應(yīng)可以反映不同的人口比例,所有這樣的詢問可能得到不同的結(jié)果。因為“統(tǒng)計意義”結(jié)果的研究報告很有可能會報道和出版,科學(xué)文獻往往夸大問題的重要性或解決方案的有效性。某項實驗可能會因期望的緣故而發(fā)生偏差:某個治療方法的參與者可能想當然地認為他們會有不同的體驗,所以會有不同的行為或者效果。收集實驗結(jié)果的研究者可能因知道接受治療的人是誰而受影響。理想的實驗是雙盲的,即參與者和收集信息者均不知道是誰接受治療,均不知道接受何種治療。這種實驗可能在藥物試驗中多見,但是對很多社會研究來說,這種實驗是不可能進行的。當科學(xué)家發(fā)現(xiàn)研究所依據(jù)的是他們自己所偏好的某個理論,他們在對待自己的研究結(jié)果上就會缺乏批判,或停止尋找相反的證據(jù),這樣,在確認研究結(jié)果時會出現(xiàn)偏差。
樣本越大越好從大量的觀測數(shù)據(jù)可以獲得比少量的觀測數(shù)據(jù)更多的信息。也就是說,隨著我們積累的證據(jù)增多,我們的知識亦提高。這一點在我們的研究工作遇到大量的自然變化和測量誤差時顯得特別重要。例如:藥物治療的有效性對不同受試者來說自然是不同的。從有數(shù)萬個受試者參加的試驗得出的平均有效性會比從數(shù)百個受試者受試者參加的試驗得出的平均有效性更可靠更準確。
相關(guān)并不意味因果人們傾向于假設(shè):一種模式導(dǎo)致另一種模式。然而,相關(guān)可能純屬巧合,或者兩種模式的結(jié)果可能是由第三個因素(“共同”或者“隱藏”變量)引起的。例如,曾經(jīng)有一個時期,生態(tài)學(xué)家在認為:河口灣的魚類正遭到毒藻類滅殺。而真實情況是,藻類在魚類死亡的地方生長,藻類并沒有引起魚類死亡。
使用平均值可能誤導(dǎo)人數(shù)據(jù)中的極端模式有可能是(至少部分是)由偶然性或者誤差引起的異常,下一個模式可能就沒那么極端了。例如,如果車速攝像頭放置在事故多發(fā)地,事故的減少不能歸因于攝像頭,任何情況都有可能導(dǎo)致事故減少。
越出數(shù)據(jù)范圍的推斷是危險的在給定范圍內(nèi)發(fā)現(xiàn)的模式并不一定適用于該范圍之外。因此,當生態(tài)系統(tǒng)的變化速度快于現(xiàn)有物種進化歷史中所經(jīng)歷的變化速度,或者當極端天氣可能是完全新出現(xiàn)的,生態(tài)系統(tǒng)對氣候變化的響應(yīng)就很難預(yù)測了。
謹防基率謬誤一次確定某種條件的不完美測試效力取決于該條件出現(xiàn)的可能性(基率)。例如,某人接受了一次血液測試,測試為陽性和患有罕見病的結(jié)論具有“99%準確性”,然而,他可能沒有得此疾病。如果有10 001個人接受測試,他們當中只有一人患該疾病,那人幾乎肯定會有一個陽性的測試結(jié)果。但是,其他100位(1%)雖然沒有患病,也可能測試結(jié)果為陽性。在考慮任何篩選程序時,例如對在機場里的恐怖分子來說,這種類型的計算是有價值的。
認識對照實驗的重要性用完全相同的方法去進行對照組和實驗組,除非該方法對兩組都不適用。沒有對照實驗就難以確定某個給定方法是否真的有效力。對照實驗有助于研究者確信不存在影響結(jié)果的混雜變量。有時候,試驗者因環(huán)境或者提供療法的人,或者甚至一片藥片的顏色之緣故,給出陽性結(jié)果的報告。這種情況表明了結(jié)果與某種對照物(例如無活性成分的片劑[一種用作對照實驗以決定藥物效力的無效對照劑])作比較的重要性。
隨機化避免偏見實驗應(yīng)該盡可能地讓受試個人或者群體隨機介入。例如對孩子的教育成績進行比較,實驗者往往會因孩子家長的緣故表現(xiàn)出偏見,而出自有良好教育家庭的孩子可能更愿意參與受試。設(shè)計完美的實驗往往是隨機地選擇家長來參試。
要真重復(fù)而不是假重復(fù)一般能在多個研究中獨立重復(fù)和相互一致的研究結(jié)果更可靠。若干這樣的實驗結(jié)果可以形成系列觀點或元分析,為研究課題提供全景視野,這樣的研究比個體研究具有更大的統(tǒng)計力量。對某個群體(例如一個班級的兒童)實施干預(yù)可能會產(chǎn)生誤導(dǎo),因為孩子會有許多干預(yù)之外的共同點。研究者要是把發(fā)生在這些孩子身上的現(xiàn)象概括成是更多人群的現(xiàn)象,那就犯了“假重復(fù)”錯誤。假重復(fù)引導(dǎo)人們相信沒有根據(jù)的結(jié)果。例如,研究者對在加拿大紐芬蘭大淺灘的大量鱈魚所作研究得出的“假重復(fù)”結(jié)論是導(dǎo)致這個曾經(jīng)是世界最大的鱈魚漁場崩潰的原因之一。
科學(xué)家是普通人科學(xué)家在其工作中投入了極大精力,盡管有時是為了獲得直接經(jīng)濟利益,但通常是為了地位和獲得進一步研究基金。這可能導(dǎo)致科學(xué)家有選擇地報道研究成果,且偶爾會夸大成果。同行評議并非無懈可擊,報刊編輯可能偏愛積極和具有新聞價值的研究成果。多個獨立證據(jù)和重復(fù)的研究成果更可信。
統(tǒng)計顯著性有意義統(tǒng)計顯著性(P)是表明結(jié)果可能是偶然產(chǎn)生的。例如,P=0.01意味著治療效果可能是隨機發(fā)生的,只有1/100概率,而事實上是幾乎沒有效果。通常情況下,當P值小于0.05(1/ 20)時,科學(xué)家的測試結(jié)果才有意義。
將無效果與無統(tǒng)計顯著性區(qū)分開無統(tǒng)計顯著性的結(jié)果并不意味著沒有潛在效果,它表明沒有檢測出效果。一項小規(guī)模研究可能無法測到真正的差異。例如,轉(zhuǎn)基因的棉花和馬鈴薯等作物產(chǎn)生一種免遭蟲害的毒素,研究者對這種毒素所作檢測結(jié)果表明,它對像傳粉昆蟲那樣的益蟲無不利影響。然而,還沒有大樣本的實驗檢測出對有益物種的影響。
效應(yīng)大小至關(guān)重要很難檢測到小的反應(yīng)。許多重復(fù)研究會引出具有統(tǒng)計意義的結(jié)果,但是它們的效應(yīng)?。ㄒ苍S是不重要的)。效應(yīng)大小的重要性在于,它是一個生物、物理或社會的問題,而不是一個統(tǒng)計問題。上世紀90年代,《美國流行病學(xué)雜志》的編輯要求作者在其投稿中停止使用統(tǒng)計顯著性,因為作者通常曲解統(tǒng)計顯著性實驗的意義,導(dǎo)致出現(xiàn)無效或誤導(dǎo)人的公共衛(wèi)生政策建議。
研究相關(guān)性局限的歸納一項研究的相關(guān)性取決于該研究所處條件與所考慮問題所處條件相似到什么程度。例如,人們從動物或者實驗室實驗歸納出的結(jié)果與從人類研究獲得的結(jié)果存在差異。
情緒影響風險認知從總體上講,風險可被認為是特定時間內(nèi)某事件發(fā)生的可能性,而事件產(chǎn)生的后果被擴大。人們關(guān)于風險的認知受到許多事情的不同影響,這些事情包括:事件的多樣性、人們確信能夠控制的程度、結(jié)果的不利影響、風險是否自發(fā)產(chǎn)生等。例如,在美國,人們對在家里手槍的相關(guān)風險低估了100倍,同時對在某個核電站附近居住的風險高估了10倍。
相關(guān)改變風險人們有可能計算出個別事件的后果,如極端潮汐、大暴雨和重要工人沒上班等。但是,如果諸事件是相互關(guān)聯(lián)的(例如,風暴引起潮汐,或大雨阻止工人進入工地),那么諸事件同現(xiàn)的概率遠遠高于預(yù)期。信譽評價機構(gòu)保證:次級抵押貸款的組合有超低的違約風險,但這些組合一起確是2008年信貸市場崩潰的主要因素。
數(shù)據(jù)可以收集也可以選取人們可以對證據(jù)進行整理以支持某個觀點。在解釋妊娠期間食用酸奶和后代發(fā)生的哮喘之間存在明顯關(guān)聯(lián)時,你需要知道這種關(guān)聯(lián)的提出者是在著手檢驗這個假定,還是正巧從大數(shù)據(jù)獲得了這個發(fā)現(xiàn)。相比之下,關(guān)于希格斯玻色子的證據(jù)能說明:研究者在尋找希格斯玻色子作出了多么艱苦的努力。
極端測試可能誤導(dǎo)人任何測試結(jié)果會由于先天能力、樣本、偏見、測試誤差等因素而變化。然而,由此產(chǎn)生的變化通常解釋為先天能力的不同,而其他因素則被忽視。這樣,關(guān)于某個極端結(jié)果(如及格率成倍提高)的陳述、將極端水平與平均值作比較等是成問題的,將體育聯(lián)賽排名作為各隊成績的評價是缺乏可靠性的。
[資料來源:Nature][責任編輯:岳峰]