陳 瑋
大數(shù)據(jù)時(shí)代下的相關(guān)分析方法變革
陳 瑋
自2008年《自然》(Nature)刊登“大數(shù)據(jù)”??詠?,大數(shù)據(jù)迅速成為學(xué)界、商界、政界關(guān)注的熱點(diǎn)。一般認(rèn)為,大數(shù)據(jù)指新處理模式下具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn),也包括處理這些信息資產(chǎn)的技術(shù)。維克托·邁爾·舍恩伯格及肯尼斯·庫克耶提出大數(shù)據(jù)帶來分析信息的三個(gè)轉(zhuǎn)變,并斷言:“建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心?!盵1]通過比較傳統(tǒng)相關(guān)分析方法的特點(diǎn)可以發(fā)現(xiàn),大數(shù)據(jù)時(shí)代下的相關(guān)分析方法在使用的資源、方法的發(fā)展、科學(xué)研究的目的與動(dòng)因、對(duì)科學(xué)研究的影響等方面發(fā)生著轉(zhuǎn)變。
在大數(shù)據(jù)時(shí)代來臨以前,對(duì)相關(guān)關(guān)系的探究常見于社會(huì)科學(xué)領(lǐng)域,以統(tǒng)計(jì)學(xué)方法即相關(guān)分析方法為代表。在大數(shù)定律及中心極限定理的預(yù)設(shè)下,傳統(tǒng)相關(guān)分析是利用樣本分析以獲得總體變量相關(guān)性的方法。傳統(tǒng)相關(guān)分析方法的優(yōu)勢(shì)在于僅通過對(duì)樣本的少量數(shù)據(jù)進(jìn)行分析就可以最大限度地還原總體信息,省時(shí)省力,能夠降低成本,但傳統(tǒng)相關(guān)分析方法尚存在一些不足。
一方面,傳統(tǒng)相關(guān)分析受樣本限制。統(tǒng)計(jì)分析即樣本分析,而樣本的大小及取樣方式在一定程度上決定使用的數(shù)學(xué)模型以及樣本是否能很好地代表總體。因此樣本數(shù)據(jù)需要精確,且最大限度地排除干擾信息,其取樣易受影響。另一方面,傳統(tǒng)相關(guān)分析缺乏對(duì)所有數(shù)據(jù)的有效利用,使用樣本的同時(shí)就決定了對(duì)總體數(shù)據(jù)的取舍。由于數(shù)學(xué)模型對(duì)數(shù)據(jù)的要求,只有結(jié)構(gòu)化的數(shù)據(jù)可以被分析,而不同的模型會(huì)不同程度地丟棄數(shù)據(jù)所蘊(yùn)含的信息。此外,傳統(tǒng)相關(guān)分析方法在科學(xué)研究中地位較低。傳統(tǒng)相關(guān)分析的過程是假說——檢驗(yàn)的過程,是驗(yàn)證問題而不是發(fā)現(xiàn)問題的過程。在以問題驅(qū)動(dòng)的科學(xué)研究占主流的時(shí)代,傳統(tǒng)相關(guān)分析通常只作為科學(xué)研究中的工具。傳統(tǒng)相關(guān)分析方法在科學(xué)研究中的使用有限,在自然科學(xué)中受到冷遇,歸根結(jié)底在于其方法論基礎(chǔ)是歸納推理,是一種或然性推理,它的前提與結(jié)論之間沒有“必然得出”關(guān)系而只具有或然性關(guān)系。傳統(tǒng)相關(guān)分析方法常用于社會(huì)科學(xué)中對(duì)相對(duì)復(fù)雜的變量關(guān)系進(jìn)行探究,而對(duì)于追求因果關(guān)系的自然科學(xué)則較少使用。
信息時(shí)代,傳統(tǒng)相關(guān)分析在使用上除了以不同的數(shù)學(xué)模型為基礎(chǔ),還會(huì)借助一些統(tǒng)計(jì)軟件,是相關(guān)分析法與信息技術(shù)的早期結(jié)合。但這僅節(jié)約了計(jì)算的時(shí)間成本,是量的改變,并沒有從質(zhì)上使傳統(tǒng)相關(guān)分析法產(chǎn)生變革,即使需要使用者自主導(dǎo)入數(shù)據(jù),也沒有改變相關(guān)分析法使用的問題驅(qū)動(dòng)模式。隨著大數(shù)據(jù)時(shí)代的到來,對(duì)相關(guān)關(guān)系的探究越來越受重視,由此帶來了使用的資源、方法發(fā)展的方法、科學(xué)研究的目的與動(dòng)因、對(duì)科學(xué)研究的影響四個(gè)方面的轉(zhuǎn)變。
2.1 使用更完整的數(shù)據(jù)
傳統(tǒng)相關(guān)分析根據(jù)不同總體分布及數(shù)據(jù)類型采用不同的數(shù)學(xué)模型,但不同的模型對(duì)數(shù)據(jù)信息的保留程度不同。在樣本的選取方面,統(tǒng)計(jì)學(xué)中一般將樣本數(shù)大于30的樣本看作“大樣本”,而擁有“大樣本”的相關(guān)分析可以選擇使用更多的數(shù)學(xué)模型。大數(shù)據(jù)時(shí)代下,往往出現(xiàn)樣本即是總體或無限趨近總體的情況。面對(duì)數(shù)據(jù)體量大、類型繁多但價(jià)值密度低的大數(shù)據(jù)資源,“大樣本”的概念已遠(yuǎn)遠(yuǎn)超出了30的標(biāo)準(zhǔn),只使用包含少量數(shù)據(jù)的樣本難以擺脫干擾信息的影響,因此需要使用更為完整的數(shù)據(jù)。大數(shù)據(jù)的特點(diǎn)不僅在于其數(shù)據(jù),同時(shí)還有能夠?qū)@些數(shù)據(jù)進(jìn)行快速處理的技術(shù)。龐大、可處理的數(shù)據(jù)量使得大數(shù)據(jù)相關(guān)分析在數(shù)學(xué)模型的選擇上可以不受樣本與總體的分布情況的限制,從而保留更多的信息。此外,傳統(tǒng)相關(guān)分析只能處理結(jié)構(gòu)化的數(shù)據(jù),而大數(shù)據(jù)采集的85%以上為非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)[2],大數(shù)據(jù)相關(guān)分析所處理的數(shù)據(jù)更貼近現(xiàn)實(shí)世界??偟膩碚f,大數(shù)據(jù)時(shí)代下的相關(guān)分析所使用的數(shù)據(jù)更完整,研究的是更真實(shí)的世界。
2.2 信息技術(shù)成為突破口
統(tǒng)計(jì)模型是傳統(tǒng)統(tǒng)計(jì)學(xué)數(shù)據(jù)處理的基礎(chǔ),建立不同的統(tǒng)計(jì)模型是傳統(tǒng)統(tǒng)計(jì)學(xué)的發(fā)展方向之一。大數(shù)據(jù)時(shí)代下,相關(guān)分析對(duì)統(tǒng)計(jì)模型的要求發(fā)生變化,一方面削弱了由樣本大小及總體分布等帶來的限制,另一方面,處理非結(jié)構(gòu)化和半結(jié)構(gòu)化信息成為必須具備的能力。大數(shù)據(jù)處理包含數(shù)據(jù)獲取、數(shù)據(jù)集成、數(shù)據(jù)分析和數(shù)據(jù)解釋的過程[3],這幾部分環(huán)環(huán)相扣,相關(guān)分析不是一個(gè)獨(dú)立的環(huán)節(jié)。大數(shù)據(jù)的相關(guān)分析不僅需要獲取龐大的數(shù)據(jù)規(guī)模和繁多的數(shù)據(jù)類型的技術(shù),亦需將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)數(shù)據(jù)的技術(shù),同時(shí)需要識(shí)別并選取關(guān)聯(lián)數(shù)據(jù)的方式技術(shù)。也就是說,大數(shù)據(jù)的相關(guān)分析(關(guān)聯(lián)分析)是數(shù)據(jù)挖掘技術(shù)的一部分[4]。發(fā)展大數(shù)據(jù)相關(guān)分析是要使其適用于大數(shù)據(jù),應(yīng)用于大數(shù)據(jù),最終使我們從大數(shù)據(jù)中獲益。目前已有的大數(shù)據(jù)處理關(guān)鍵技術(shù)主要包括大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)和管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)解釋和應(yīng)用[5],這些技術(shù)都將成為發(fā)展大數(shù)據(jù)相關(guān)分析方法的突破口。
2.3 科學(xué)研究的目的和動(dòng)因的轉(zhuǎn)移
2.3.1 對(duì)于微弱、模糊關(guān)系的重視
傳統(tǒng)統(tǒng)計(jì)學(xué)一般用相關(guān)度R(Relationship)表示相關(guān)關(guān)系的強(qiáng)弱。而大數(shù)據(jù)關(guān)聯(lián)規(guī)則中通常用支持度和置信度來反映所發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則的有用性與確定性[6]。一般而言,人們總希望獲得強(qiáng)相關(guān)以證明事物之間的變化存在某種規(guī)律,即相關(guān)度或支持度、置信度越高越符合人們的心理期望。但著名的啤酒與尿布的故事告訴人們,即使是較低的支持度和置信度,同樣能帶來巨大的商業(yè)價(jià)值。賣場(chǎng)中,香檳與開瓶器、白面包與果醬之間的強(qiáng)相關(guān)早已為人們所料想到而被擺放在一起,而那些微弱相關(guān)商品的組合才是創(chuàng)收的關(guān)鍵。大數(shù)據(jù)的相關(guān)分析方法將事物之間微弱的聯(lián)系呈現(xiàn)出來,蘊(yùn)藏了巨大的未曾開采的財(cái)富。2009年甲型H1N1流感爆發(fā)前,谷歌一群不懂醫(yī)學(xué)的工程師們以事物相關(guān)性的原理對(duì)流感的爆發(fā)做出大數(shù)據(jù)預(yù)測(cè),比公共衛(wèi)生機(jī)構(gòu)更及時(shí)有效[7],大數(shù)據(jù)為非專業(yè)主體的科學(xué)發(fā)現(xiàn)提供了可能性。此外,龐大的數(shù)據(jù)量導(dǎo)致相關(guān)分析中的精確性難以保證。大數(shù)據(jù)所挖掘的相關(guān)關(guān)系往往是復(fù)雜的,從而變得模糊難以被解釋,但這并不影響這種關(guān)系的有用性。正因如此,復(fù)雜性哲學(xué)和科學(xué)實(shí)踐主義哲學(xué)的主張才得到了真正落實(shí)[8]。
2.3.2 以大數(shù)據(jù)相關(guān)分析為起點(diǎn)發(fā)起科學(xué)研究
科學(xué)研究的邏輯起點(diǎn)問題曾在科學(xué)哲學(xué)史上引起關(guān)注,討論主要圍繞科學(xué)研究始于觀察還是問題展開。自波普爾提出科學(xué)研究始于問題以來,問題驅(qū)動(dòng)的科學(xué)研究模式獲得了多數(shù)學(xué)者的認(rèn)可。人們之所以尋求強(qiáng)相關(guān),部分原因在于人的視野束縛了問題驅(qū)動(dòng)的科學(xué)研究,以至于那些微弱的相關(guān)性因不會(huì)被注意到而無法成為科學(xué)研究中的問題。大數(shù)據(jù)4V的特點(diǎn)提供了一種可能,即相關(guān)分析可以是“盲目”的,科學(xué)研究可以始于對(duì)大數(shù)據(jù)的相關(guān)分析。對(duì)于“科學(xué)研究始于機(jī)會(huì),還是始于問題或觀察”[9]的問題,大數(shù)據(jù)擴(kuò)大了科學(xué)研究的可能性空間,為科學(xué)研究提供機(jī)會(huì)和資源;通過對(duì)大數(shù)據(jù)進(jìn)行相關(guān)分析,出現(xiàn)與現(xiàn)有理論不相容的,或與理論預(yù)期發(fā)生沖突的結(jié)果,可以稱之為問題;而這種相關(guān)分析本身即為一種觀察和實(shí)踐,同時(shí)也可以形成一種理論。由此可以預(yù)見,以大數(shù)據(jù)相關(guān)分析為起點(diǎn)的科學(xué)研究將加速人類探索世界的進(jìn)程。
2.4 相關(guān)關(guān)系的地位在提升
因果關(guān)系一直是科學(xué)尤其是自然科學(xué)所追求的規(guī)律,這種追求引發(fā)了科學(xué)體系的建立。而相關(guān)關(guān)系作為一種不夠精確、關(guān)聯(lián)性不夠強(qiáng)的規(guī)律則不被科學(xué)研究所重視。相關(guān)不等同于因果,使用相關(guān)分析方法不能檢驗(yàn)邏輯上的因果關(guān)系。所以傳統(tǒng)相關(guān)分析法通常是經(jīng)驗(yàn)研究和理論研究的配角和檢驗(yàn)者,但大數(shù)據(jù)相關(guān)分析的結(jié)果卻可以成為科學(xué)理論本身[10]。一方面,因?yàn)樯鲜鱿嚓P(guān)分析方法的變化,更多的相關(guān)關(guān)系被發(fā)現(xiàn),使得科學(xué)研究可以更接近真實(shí)復(fù)雜的世界;另一方面,萬有因果律的存在一直飽受詰難;此外,表面上大數(shù)據(jù)的低價(jià)值密度給分析因果關(guān)系造成極大困難,使獲得相關(guān)關(guān)系成為無奈之舉,但實(shí)際上,商業(yè)領(lǐng)域并不關(guān)心因果,相關(guān)分析已足夠?yàn)槠髽I(yè)提供有效措施增加利潤(rùn)[11]。目前大數(shù)據(jù)相關(guān)分析方法已被運(yùn)用到生物醫(yī)學(xué)、天文學(xué)、海洋學(xué)、環(huán)境學(xué)、高能物理等多個(gè)領(lǐng)域,相關(guān)關(guān)系的地位不斷得到提升。
統(tǒng)計(jì)學(xué)中,相關(guān)分析法常作為探究事物之間關(guān)系的方法被社會(huì)科學(xué)使用,但一直存在如取樣困難、浪費(fèi)數(shù)據(jù)等問題。而在大數(shù)據(jù)時(shí)代,相關(guān)分析方法產(chǎn)生極大的轉(zhuǎn)變。從研究的材料來看,大數(shù)據(jù)相關(guān)分析更完整地使用了數(shù)據(jù);從方法本身的發(fā)展來看,信息技術(shù)或許會(huì)成為大數(shù)據(jù)相關(guān)分析法發(fā)展的突破口;從研究目的與動(dòng)因的變化來看,數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究中,人們可以尋求微弱、模糊的相關(guān)關(guān)系,非專業(yè)人士也可涉足其他學(xué)科領(lǐng)域;從產(chǎn)生的影響來看,相關(guān)關(guān)系在科學(xué)研究中的地位將會(huì)越來越高。
[1] 維克托·邁爾·舍恩伯格, 肯尼思·庫克耶. 大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M]. 杭州:浙江人民出版社, 2013:75.
[2] 游士兵,張佩,姚雪梅. 大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)和機(jī)遇[J]. 珞珈管理評(píng)論,2013(2):165-171.
[3] Dou Wanchun, Jiang Cheng. Big Data: Technical Ecosystem and Problem Discovery [J]. ZTE Technology, 2013, 19(4):8-16.
[4] 李平榮. 大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J]. 重慶三峽學(xué)院學(xué)報(bào),2014(3):45-47.
[5] 徐子偉,張陳斌,陳宗海. 大數(shù)據(jù)技術(shù)概述[C]//中國自動(dòng)化學(xué)會(huì)系統(tǒng)仿真專業(yè)委員會(huì),中國系統(tǒng)仿真學(xué)會(huì)仿真技術(shù)應(yīng)用專業(yè)委員會(huì),離散系統(tǒng)仿真專業(yè)委員會(huì).系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)論文集,2014:7.
[6] 金宗澤,馮亞麗,紀(jì)博,張希,高快. 大數(shù)據(jù)分析中的關(guān)聯(lián)挖掘[J]. 計(jì)算機(jī)與數(shù)字工程,2014(10):1924-1928.
[7] 張平. 故事里的大數(shù)據(jù):從求因果到重相關(guān)[J]. 企業(yè)管理,2013(4):112-114.
[8] 黃欣榮. 大數(shù)據(jù)技術(shù)對(duì)科學(xué)方法論的革命[J]. 江南大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2014(2):28-33.
[9] 吳彤. 科學(xué)研究始于機(jī)會(huì),還是始于問題或觀察[J]. 哲學(xué)研究,2007(1):98-104.
[10] 張曉強(qiáng),楊君游,曾國屏. 大數(shù)據(jù)方法:科學(xué)方法的變革和哲學(xué)思考[J]. 哲學(xué)動(dòng)態(tài),2014(8):83-91.
[11] 李國杰,程學(xué)旗. 大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域[J]. 中國科學(xué)院院刊,2012(6):647-657.
責(zé)任編輯 閔海英
(北京理工大學(xué) 人文與社會(huì)科學(xué)學(xué)院,北京 100081)
大數(shù)據(jù)時(shí)代的到來使科學(xué)研究方法產(chǎn)生了變革。相關(guān)分析方法作為重要的科學(xué)研究方法得到學(xué)界的高度關(guān)注。通過將傳統(tǒng)的相關(guān)分析與大數(shù)據(jù)相關(guān)分析方法進(jìn)行比較后發(fā)現(xiàn),大數(shù)據(jù)相關(guān)分析在使用的資源、方法的發(fā)展、科學(xué)研究的目的與動(dòng)因、對(duì)科學(xué)研究的影響四個(gè)方面發(fā)生轉(zhuǎn)變。這些轉(zhuǎn)變?yōu)榭蒲袆?chuàng)新提供了新的契機(jī)。
大數(shù)據(jù); 相關(guān)分析方法; 變革
Transformations of the Correlation Analytic Method during the Age of Big Data
CHENWei
(School of Humanities and Social Science, Beijing Institute of Technology,Beijing 100081, China)
The age of big data brings a reform on the scientific research methods. As an important scientific research method, the correlation analytic method has been highly concerned by the academic circles. After compared correlation analytic methods of big data with traditional methods, the result could be found that the method of big data makes four major changes. They are been mentioned in the different resources, the development trend, the purpose and motivation of scientific research and the influence of R&D. These changes provide new opportunities for scientific research innovation.
Big Data; correlation analytic method; transformation
10.13750/j.cnki.issn.1671-7880.2017.01.014
2016-12-26
陳瑋(1990— ),男,安徽銅陵人,在讀碩士研究生,研究方向:科學(xué)思想史。
G 304
A
1671-7880(2017)01-0050-03