李世宇
摘要:信息與網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展給人們存儲數(shù)據(jù)帶來了極大便利,在這一背景下數(shù)據(jù)已逐步由量變轉(zhuǎn)為質(zhì)變,“大數(shù)據(jù)”概念應(yīng)運(yùn)而生,成為當(dāng)下各行各業(yè)學(xué)者研究的焦點(diǎn)。本文在簡述大數(shù)據(jù)涵義與方法的基礎(chǔ)上分析了大數(shù)據(jù)方法及其改革,立足于科學(xué)方法變革與哲學(xué)思考角度提出大數(shù)據(jù)方法論,并進(jìn)一步探究大數(shù)據(jù)的核心特征及其意義,以期為當(dāng)下的大數(shù)據(jù)方法研究提供一定的借鑒價(jià)值。
關(guān)鍵詞:科學(xué)方法變革;哲學(xué)思考;大數(shù)據(jù)方法
1998年,生物化學(xué)家托尼·卡斯在《大數(shù)據(jù)管理者》一文中首次提出“大數(shù)據(jù)”概念,并在2008年“大數(shù)據(jù)”??笱杆俦l(fā),成為社會各界積極研究的熱點(diǎn)課題。大數(shù)據(jù)的爆發(fā)帶來了第二次數(shù)據(jù)革命,在實(shí)現(xiàn)萬物皆數(shù)理念的同時開啟了數(shù)據(jù)發(fā)展的第三個階段,同時在科學(xué)研究當(dāng)中,數(shù)據(jù)作用、地位的改變也引發(fā)了諸多哲學(xué)問題,使得大數(shù)據(jù)研究逐漸被納入到科學(xué)、哲學(xué)領(lǐng)域當(dāng)中。
一、大數(shù)據(jù)的概述
(一)內(nèi)涵。首先,大數(shù)據(jù)是一門數(shù)據(jù)科學(xué),它借助數(shù)據(jù)挖掘等方式來對海量數(shù)據(jù)這一研究對象的內(nèi)在規(guī)律進(jìn)行挖掘,所研究的內(nèi)容涉及到不同科學(xué)領(lǐng)域當(dāng)中的所有共性數(shù)據(jù)問題,在找出數(shù)據(jù)規(guī)律的基礎(chǔ)上解答相關(guān)的科學(xué)問題;其次,大數(shù)據(jù)是一個技術(shù)平臺,與常規(guī)的數(shù)據(jù)不同,大數(shù)據(jù)的數(shù)據(jù)收集、提取、存儲、分析都離不開軟件與硬件的支持,這些技術(shù)共同構(gòu)成了大數(shù)據(jù)分析的技術(shù)平臺;再次,大數(shù)據(jù)是一種研究方法,它涉及到生物醫(yī)學(xué)、生物信息學(xué)、自然災(zāi)害預(yù)報(bào)等科學(xué),科學(xué)在大數(shù)據(jù)背景下正逐步走向數(shù)據(jù)密集型科研;最后,大數(shù)據(jù)是一項(xiàng)潛在的資源,根據(jù)相關(guān)報(bào)告,大數(shù)據(jù)在醫(yī)療領(lǐng)域每年所創(chuàng)造的價(jià)值將高達(dá)300億美元,且將會使零售業(yè)的利潤提高一半以上。
(二) 方法。大數(shù)據(jù)中的數(shù)據(jù)挖掘主要采取分類、關(guān)聯(lián)分析、聚類分析、異常檢測技術(shù)。其中,分類是根據(jù)數(shù)據(jù)學(xué)習(xí)得出將自變量對應(yīng)到因變量以實(shí)現(xiàn)自變量分類的分類模型;關(guān)聯(lián)分析是對海量數(shù)據(jù)當(dāng)中關(guān)聯(lián)規(guī)則等有意義數(shù)據(jù)關(guān)系的發(fā)現(xiàn);聚類分析是把海量數(shù)據(jù)劃分為同簇對象相似性高、異簇對象極不相似的多個有意義的簇;異常檢測是找出離群點(diǎn)的過程。
二、大數(shù)據(jù)方法及其改革
(一)與傳統(tǒng)模型方法的區(qū)別。部分學(xué)者在研究過程中將模型劃分為兩類,即物質(zhì)形式和思維形式的科學(xué)模型,前者根據(jù)模型來源的不同分為天然模型與人工模型;后者依據(jù)模型特點(diǎn)的差異分為理想模型、數(shù)學(xué)模型、理論模型以及半經(jīng)驗(yàn)半理論模型。通過對比分析得出,大數(shù)據(jù)模型不同于傳統(tǒng)數(shù)據(jù)模型,它不具有物質(zhì)形式,是沒有抽象過程的數(shù)據(jù)運(yùn)算,且其算法同數(shù)學(xué)模型的得出過程大不相同,因此大數(shù)據(jù)模型并不屬于以上的科學(xué)模型,而是一種新型的經(jīng)驗(yàn)?zāi)P汀?/p>
(二) 與統(tǒng)計(jì)建模的區(qū)別。數(shù)據(jù)挖掘在模型方法上雖然很接近統(tǒng)計(jì)學(xué),但其與統(tǒng)計(jì)建模仍存在本質(zhì)差異。表現(xiàn)在:1.研究地位。前者的數(shù)據(jù)模型是科學(xué)研究的主角并擔(dān)當(dāng)了科學(xué)理論角色,而后者一般是經(jīng)驗(yàn)、理論研究當(dāng)中的配角、檢驗(yàn)者;2.數(shù)據(jù)類型。前者的數(shù)據(jù)是類型復(fù)雜、質(zhì)量偏低的海量數(shù)據(jù),后者則是精心設(shè)計(jì)、高質(zhì)量的實(shí)驗(yàn)數(shù)據(jù);3.模型確立。前者借助海量數(shù)據(jù)確立模型且其目標(biāo)變量具有不明確性,后者依據(jù)研究問題確立模型且有明確的目標(biāo)變量;4.建模驅(qū)動。前者采用強(qiáng)調(diào)建模過程、模型可更新性的數(shù)據(jù)驅(qū)動,而后者則采用強(qiáng)調(diào)設(shè)計(jì)、驗(yàn)證合理性的驗(yàn)證驅(qū)動。
(三) 與計(jì)算機(jī)仿真的區(qū)別。計(jì)算機(jī)仿真包含了由模型建立、仿真模型建立和仿真實(shí)驗(yàn)所聯(lián)系的系統(tǒng)、系統(tǒng)模型以及計(jì)算機(jī)三要素。大數(shù)據(jù)方法與計(jì)算機(jī)仿真方法的區(qū)別主要表現(xiàn)在:1.研究對象。前者的研究對象為海量數(shù)據(jù),后者則面向依據(jù)系統(tǒng)建立的數(shù)學(xué)模型;2.推理邏輯。前者為數(shù)據(jù)歸納,后者為演繹計(jì)算;3.自動程度。前者為計(jì)算機(jī)自動進(jìn)行,后者的計(jì)算機(jī)僅僅在仿真實(shí)驗(yàn)環(huán)節(jié)采取自動進(jìn)行;4.說明力度。前者相比較后者具有更高的說明力;5.角色地位。前者在科學(xué)研究中占據(jù)了主體地位,而后者則擔(dān)當(dāng)實(shí)驗(yàn)角色;6.基礎(chǔ)設(shè)施。前者包括傳感器、網(wǎng)絡(luò)設(shè)施等,后者通常只涉及一臺或多臺計(jì)算機(jī)。
三、大數(shù)據(jù)的方法論
(一)邏輯維度??茖W(xué)論證從邏輯角度來看可分為歸納和要求前提決定性支持結(jié)論的演繹。在大數(shù)據(jù)分類當(dāng)中使用得最為廣泛的方法是由包括根節(jié)點(diǎn)、葉節(jié)點(diǎn)、內(nèi)部結(jié)點(diǎn)的結(jié)點(diǎn)與由向邊構(gòu)成的具有層次性的決策樹。其中根節(jié)點(diǎn)、內(nèi)部結(jié)點(diǎn)主要由數(shù)據(jù)集中屬性組成而葉節(jié)點(diǎn)則由類標(biāo)號所組成,由向邊是在歸納已有數(shù)據(jù)的基礎(chǔ)上所得出的,其歸納方法包括求同法和求異法。與其他算法的原理相同,決策樹也是根據(jù)數(shù)據(jù)集中提取分類模型來完成分類的。
(二) 主體維度。傳統(tǒng)科學(xué)定律的理解主要來自于規(guī)則性進(jìn)路的恒常聯(lián)系、心理習(xí)慣以及必然性進(jìn)路的必然性,根據(jù)大數(shù)據(jù)模型可預(yù)測的、依據(jù)相關(guān)算法與數(shù)據(jù)得來、不具有必然性的特征可以得出大數(shù)據(jù)不屬于演繹系統(tǒng),不符合系統(tǒng)進(jìn)路與必然性進(jìn)路,但其預(yù)測性使得其符合心理習(xí)慣進(jìn)路。因此,大數(shù)據(jù)模型與物理定律可應(yīng)用在不同的領(lǐng)域當(dāng)中。
(三) 內(nèi)涵維度。作為大數(shù)據(jù)哲學(xué)及其方法研究當(dāng)中的一個焦點(diǎn)問題,因果關(guān)系、相關(guān)關(guān)系的研究目前在業(yè)界還沒有統(tǒng)一的定論。大數(shù)據(jù)因果、相關(guān)的考量目前需要研究的主要包括大數(shù)據(jù)方法是不是僅能獲得相關(guān)關(guān)系、相關(guān)關(guān)系可否在科學(xué)角色中取代因果關(guān)系這兩個問題。
一方面,大數(shù)據(jù)算法雖然包含了消除歸納法,但無法體現(xiàn)因果性所嚴(yán)格強(qiáng)調(diào)的充分條件當(dāng)中的必要條件,不能完全確定其因果性。由此可見大數(shù)據(jù)方法僅能發(fā)現(xiàn)相關(guān)關(guān)系,只有在具備具體模型的情況下才能發(fā)現(xiàn)相關(guān)關(guān)系。另一方面,第二個問題對因果、相關(guān)關(guān)系間的對立隱含了假設(shè),實(shí)際上針對科學(xué)、定律、因果說明目前還存在爭議,根據(jù)大數(shù)據(jù)符合心理習(xí)慣進(jìn)路、不符合系統(tǒng)與必然性進(jìn)路可得出在僅認(rèn)為定律是心理習(xí)慣的情況下才可科學(xué)說明大數(shù)據(jù)的相關(guān)關(guān)系并代替因果性。
(四) 功能維度。大數(shù)據(jù)的功能主要包括對既有數(shù)據(jù)模型的描述和預(yù)測。從描述角度看,大數(shù)據(jù)方法因無法發(fā)現(xiàn)因果性而不能進(jìn)行因果說明,而在定律說明中大數(shù)據(jù)模型又僅僅符合心理習(xí)慣進(jìn)路,由此可見大數(shù)據(jù)模型說明力弱。從預(yù)測角度看,大數(shù)據(jù)模型經(jīng)過評估、隨數(shù)據(jù)更新而更新、針對具體問題且海量數(shù)據(jù)中蘊(yùn)含的經(jīng)驗(yàn)信息豐富,使得大數(shù)據(jù)預(yù)測雖無必然性但預(yù)測準(zhǔn)確。
四、大數(shù)據(jù)的核心特征和意義
科技的進(jìn)步改變了經(jīng)驗(yàn)世界,海量的數(shù)據(jù)使人們的視野更加開拓。大數(shù)據(jù)技術(shù)超越了人類智力,未來還將逐步突破人們的心理習(xí)慣。以說明力低、預(yù)測力高為核心特征的大數(shù)據(jù)預(yù)示了一種全新的科學(xué),相比較現(xiàn)有的能夠借助因果機(jī)制、科學(xué)定律、模型隱喻類比來說明的科學(xué),大數(shù)據(jù)模型利用復(fù)雜其計(jì)算量大的計(jì)算方法從數(shù)據(jù)形式下的經(jīng)驗(yàn)世界中直接獲得,在涵蓋了經(jīng)驗(yàn)世界的豐富信息的同時也表現(xiàn)了海量的經(jīng)驗(yàn)。作為一種全新的經(jīng)驗(yàn)表現(xiàn)形式與科學(xué)研究類型,大數(shù)據(jù)同時給科學(xué)研究創(chuàng)造了一種全新的方法。從經(jīng)驗(yàn)角度來看,大數(shù)據(jù)實(shí)現(xiàn)了無所不在;從方法角度來看,大數(shù)據(jù)的核心特征使得其突破了人們的智力與心理習(xí)慣;從科學(xué)的角度來看,大數(shù)據(jù)將會引領(lǐng)現(xiàn)代人們走向一個全新的世界。
五、 討論
隨著我國經(jīng)濟(jì)水平的快速提升和科技水平的不斷進(jìn)步,一些發(fā)達(dá)國家開始逐步制定、實(shí)施大數(shù)據(jù)戰(zhàn)略。大數(shù)據(jù)給科學(xué)研究帶來了新興的方法,通過對海量數(shù)據(jù)的潛在模式做出描述并在此基礎(chǔ)上做出預(yù)測,以實(shí)現(xiàn)對數(shù)據(jù)中富有價(jià)值的規(guī)律、模型的深入發(fā)掘。大數(shù)據(jù)既是經(jīng)驗(yàn)表征的新方法,也是探索經(jīng)驗(yàn)后的知識的新方式,大數(shù)據(jù)方法在科學(xué)、哲學(xué)等領(lǐng)域當(dāng)中具有很大的研究前景。(作者單位:江西財(cái)經(jīng)大學(xué)馬克思主義學(xué)院)
參考文獻(xiàn):
[1]喻國明. 大數(shù)據(jù)方法與新聞傳播創(chuàng)新:從理論定義到操作路線[J]. 江淮論壇,2014,04:5-7+2.
[2]劉繼偉. 基于大數(shù)據(jù)的多尺度狀態(tài)監(jiān)測方法及應(yīng)用[D].華北電力大學(xué),2013.
[3]肖奎. 維基百科大數(shù)據(jù)的知識挖掘與管理方法研究[D].武漢大學(xué),2013.