劉朝 馬超群
【關(guān)鍵詞】大數(shù)據(jù) 小數(shù)據(jù) 數(shù)據(jù)融合
大數(shù)據(jù)正在逐步改變?nèi)藗兊纳盍?xí)慣和思維方式,在推動(dòng)社會(huì)進(jìn)步和發(fā)展的過程中發(fā)揮日益重要的作用,無論學(xué)界和業(yè)界還是政府都越來越重視大數(shù)據(jù)的發(fā)展及其作用。而與大數(shù)據(jù)相對應(yīng)的小數(shù)據(jù),似乎在熱火朝天的大數(shù)據(jù)時(shí)代逐漸被遺忘。事實(shí)上,小數(shù)據(jù)具備的精確性和個(gè)性化優(yōu)勢在大數(shù)據(jù)時(shí)代也是一股不可忽視的力量。那么,我們應(yīng)該如何看待和處理大數(shù)據(jù)和小數(shù)據(jù)之間的關(guān)系呢?
由于目前各界對大數(shù)據(jù)內(nèi)涵界定的不一致,導(dǎo)致大數(shù)據(jù)的特征也未形成統(tǒng)一認(rèn)知。但是,學(xué)界普遍認(rèn)為大數(shù)據(jù)具有“4V”特征:第一,大數(shù)據(jù)在規(guī)模上呈現(xiàn)出數(shù)量多、體積大的海量特征。不同于以MB 為基本單位的傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)的容量及處理量通常以GB、TB 乃至PB 為基本單位。第二,大數(shù)據(jù)在類型上呈現(xiàn)出種類多、來源廣的多樣性特征。大數(shù)據(jù)無時(shí)無刻不在自動(dòng)產(chǎn)生數(shù)據(jù),其種類涵蓋文字、圖片和視頻等。數(shù)據(jù)來源可以是在線交易、移動(dòng)通信和網(wǎng)絡(luò)社交等途徑。第三,大數(shù)據(jù)在更新和處理數(shù)據(jù)的速度上均呈現(xiàn)出高速性特征。一方面,隨著網(wǎng)絡(luò)環(huán)境不斷完善,大數(shù)據(jù)采集和傳輸速率大大提升,從而加速數(shù)據(jù)更新;另一方面,大數(shù)據(jù)強(qiáng)調(diào)數(shù)據(jù)在線,能夠根據(jù)實(shí)際需要對數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。第四,大數(shù)據(jù)具備高價(jià)值性且價(jià)值密度低的特征。由于大數(shù)據(jù)是涵蓋全體對象的總體數(shù)據(jù),它可以從總體數(shù)據(jù)中挖掘出高價(jià)值的全量信息。與此同時(shí),也因?yàn)榇髷?shù)據(jù)體量龐大和數(shù)據(jù)類型繁雜,海量數(shù)據(jù)中蘊(yùn)含價(jià)值的信息容易淹沒在垃圾信息中,信息提取無異于“大海撈針”,呈現(xiàn)出價(jià)值密度低的特征。
與大數(shù)據(jù)在規(guī)模、類型和價(jià)值三個(gè)方面的特征進(jìn)行對比,我們可以發(fā)現(xiàn)小數(shù)據(jù)具有以下幾個(gè)方面的特征:第一,小數(shù)據(jù)在規(guī)模上表現(xiàn)為有限性,主要體現(xiàn)在對象和體量上。一方面,小數(shù)據(jù)的采集對象主要為個(gè)人,這在一定程度上限制了數(shù)據(jù)規(guī)模的擴(kuò)大;另一方面,數(shù)據(jù)體量的“大”“小”衡量是相對的,小數(shù)據(jù)并非簡單的體量小,而是與海量大數(shù)據(jù)相比,小數(shù)據(jù)的容量是有限的。第二,小數(shù)據(jù)在類型上也呈現(xiàn)出多樣性特征。從數(shù)據(jù)來源看,小數(shù)據(jù)可以產(chǎn)生于訪談和調(diào)查問卷等。從數(shù)據(jù)種類看,它包括各種結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)。第三,小數(shù)據(jù)具有一定的價(jià)值且價(jià)值密度高。由于小數(shù)據(jù)主要圍繞單一用戶的個(gè)性化信息,并且數(shù)據(jù)規(guī)模相對有限,小數(shù)據(jù)中的價(jià)值信息并不容易被淹沒,且較大數(shù)據(jù)而言,小數(shù)據(jù)的價(jià)值密度更高。
大數(shù)據(jù)與小數(shù)據(jù)的區(qū)別主要有以下四點(diǎn)。一是樣本的差異。首先,從樣本容量看,大數(shù)據(jù)涵蓋全體用戶,樣本容量為總體樣本量。小數(shù)據(jù)則具體到個(gè)體,樣本量單一。其次,從樣本來源看,大數(shù)據(jù)只能搜集客觀存在的行為數(shù)據(jù),小數(shù)據(jù)則可以根據(jù)特定問題搜集數(shù)據(jù)或定制數(shù)據(jù),具有較強(qiáng)的目的性和針對性。最后,從樣本數(shù)據(jù)類型看,大數(shù)據(jù)和小數(shù)據(jù)都包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。但是,大數(shù)據(jù)中半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的占比更大,而小數(shù)據(jù)則以調(diào)查得到的結(jié)構(gòu)化數(shù)據(jù)為主。
二是精確性的差異。大數(shù)據(jù)對數(shù)據(jù)收集和分析的精確性要求低于小數(shù)據(jù)。由于大數(shù)據(jù)樣本來源的廣泛性和數(shù)據(jù)的海量性,大數(shù)據(jù)在數(shù)據(jù)收集環(huán)節(jié)也具有粗糙性,價(jià)值密度比較低,而小數(shù)據(jù)則相反。其次,大數(shù)據(jù)通常在線處理的數(shù)據(jù)也是有限的,加上數(shù)據(jù)處理的實(shí)時(shí)性要求,其結(jié)果往往只是近似情況,而小數(shù)據(jù)專注于個(gè)性化探索,對精確性的要求較高。最后,大數(shù)據(jù)關(guān)注群體的共性規(guī)律,小數(shù)據(jù)關(guān)注揭示個(gè)性化規(guī)律,所以它們的分析層次分別是針對宏觀和微觀層面的,這也決定了大數(shù)據(jù)和小數(shù)據(jù)的精確性差異。
三是關(guān)注的因素關(guān)系差異。大數(shù)據(jù)更關(guān)注相關(guān)關(guān)系,而小數(shù)據(jù)則更關(guān)注因果關(guān)系。大數(shù)據(jù)是“讓數(shù)據(jù)說話”,它基于數(shù)據(jù)驅(qū)動(dòng)的思維,從海量數(shù)據(jù)中分析出“是什么”。而小數(shù)據(jù)更注重結(jié)果背后存在的內(nèi)在邏輯關(guān)系,它是基于理論驅(qū)動(dòng)的思維,不僅要了解“是什么”,還需要探究“為什么”,對現(xiàn)象背后的本質(zhì)把握更為深入和透徹。
四是價(jià)值發(fā)現(xiàn)的維度差異。從維度層面看,大數(shù)據(jù)的價(jià)值發(fā)現(xiàn)主要在于廣度,小數(shù)據(jù)則主要在于深度。這是因?yàn)榇髷?shù)據(jù)的海量性和多樣性特征,大數(shù)據(jù)的涵蓋面廣,涉及的因素多且復(fù)雜。因此,它更側(cè)重于在橫向領(lǐng)域的價(jià)值挖掘,價(jià)值發(fā)現(xiàn)的層次淺但范圍廣,有助于把握宏觀規(guī)律。而小數(shù)據(jù)是對個(gè)體數(shù)據(jù)全方位的收集和挖掘,其涉及面與大數(shù)據(jù)相比較窄,但挖掘更為徹底,有助于深刻認(rèn)識個(gè)體。
無論大數(shù)據(jù)還是小數(shù)據(jù),都有自身的優(yōu)勢方面,也有不足的地方。事實(shí)上,大數(shù)據(jù)和小數(shù)據(jù)的優(yōu)勢所在,是需要根據(jù)具體的業(yè)務(wù)場景來分析的,因?yàn)樗鼈冊诮鉀Q不同業(yè)務(wù)問題方面的優(yōu)劣各不相同,并且這些優(yōu)勢也都是相對的。
首先,大數(shù)據(jù)發(fā)展信心滿滿。隨著互聯(lián)網(wǎng)時(shí)代的發(fā)展,圍繞在人們周圍的信息呈爆炸式增長,這些多樣化、結(jié)構(gòu)復(fù)雜的信息不斷匯聚形成大數(shù)據(jù)。相比于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)在信息聚合、信息代表性以及信息檢索方面有著得天獨(dú)厚的優(yōu)勢。
第一,大數(shù)據(jù)具有較強(qiáng)的數(shù)據(jù)代表性。在數(shù)據(jù)代表性方面,大數(shù)據(jù)力求詳盡,試圖運(yùn)用數(shù)據(jù)展示研究對象的全部面貌,而不僅僅是通過數(shù)據(jù)抽樣來展示局部化的數(shù)據(jù),即“樣本= 總體”。在早期的社會(huì)科學(xué)研究當(dāng)中,由于技術(shù)限制,對于研究對象涉及的數(shù)據(jù)往往都是通過抽樣調(diào)查的方式來實(shí)現(xiàn)的,這樣的數(shù)據(jù)研究方式可能使妍究樣本和對象不具有代表性,從而無法縱觀研究對象的宏觀全貌。而大數(shù)據(jù)的出現(xiàn)恰好解決了數(shù)據(jù)不具有代表性的問題,因?yàn)榇髷?shù)據(jù)是對全樣本數(shù)據(jù)的搜集與整合,抽樣帶來的誤差被大數(shù)據(jù)極大地稀釋了。這一優(yōu)勢在做宏觀決策方面有著深刻的價(jià)值體現(xiàn),如果對群體中的樣本數(shù)據(jù)采用抽樣的方式,可能出現(xiàn)抽樣偏差的情況,最終得到的宏觀決策不可信賴。
第二,大數(shù)據(jù)有助于信息快速聚合。大數(shù)據(jù)依托其大體量、高速度、高效用以及多樣化的特征,在信息聚合方面具有顯著優(yōu)勢。大體量的特征使得大數(shù)據(jù)能夠產(chǎn)生巨大的數(shù)據(jù)流,將數(shù)據(jù)不斷聚合,使數(shù)據(jù)從稀缺到豐富、從靜態(tài)到動(dòng)態(tài)、從分散到聚合,這為復(fù)雜的研究分析與模型演繹建立了可靠的數(shù)據(jù)基礎(chǔ)。高速度的大數(shù)據(jù)能夠?qū)?shí)時(shí)數(shù)據(jù)進(jìn)行快速采集并加以分析應(yīng)用,將信息聚合的時(shí)間大大縮短,在電子商務(wù)的海量交易等場景下,可以發(fā)揮其無與倫比的高速度特點(diǎn)。高效用的大數(shù)據(jù)在進(jìn)行信息聚合后能夠在用戶畫像、精準(zhǔn)營銷以及預(yù)測走勢上提供更多價(jià)值,從而使得數(shù)據(jù)信息產(chǎn)生的效用最大化。而多樣化的大數(shù)據(jù)結(jié)構(gòu)豐富、來源眾多,有助于得到更加普適性的結(jié)論,這在社會(huì)和自然科學(xué)等領(lǐng)域有著顯著的體現(xiàn)。例如,加拿大麥吉爾大學(xué)的Ford 教授指出,大數(shù)據(jù)在氣候變化方面的應(yīng)用將大大改變?nèi)藗儗夂蜃兓芾淼睦斫狻?/p>
第三,大數(shù)據(jù)具有顯著的海量數(shù)據(jù)信息檢索能力。大數(shù)據(jù)在檢索方面的優(yōu)勢主要體現(xiàn)在業(yè)界的實(shí)際應(yīng)用方面。由于信息時(shí)代的計(jì)算機(jī)技術(shù)得到長足發(fā)展,各行業(yè)均可在短時(shí)間內(nèi)依托計(jì)算機(jī)技術(shù)實(shí)現(xiàn)海量數(shù)據(jù)的處理。例如,金融行業(yè)可以基于人們?nèi)粘M顿Y習(xí)慣、消費(fèi)習(xí)慣以及收入開支等數(shù)據(jù)信息檢索,建立健全社會(huì)信用體制以及識別欺詐行為;問詢系統(tǒng)是業(yè)界最常用的工具之一,它基于前期積累的問答信息以及學(xué)習(xí)生成的海量信息,通過信息檢索匹配出最準(zhǔn)確的問詢結(jié)果,以較低的成本極大地提高了用戶的問題咨詢效率。這些實(shí)踐和應(yīng)用得益于大數(shù)據(jù)的“4V”特征,在海量數(shù)據(jù)信息處理過程中具有極其顯著的優(yōu)勢。
其次,小數(shù)據(jù)應(yīng)用不甘示弱。技術(shù)水平的進(jìn)步不僅帶來了大數(shù)據(jù)也帶來了更多的小型數(shù)據(jù)集合,并且小數(shù)據(jù)能夠以更加迅速和更為低廉的成本獲得結(jié)論。它在靈活性、隱私保護(hù)和因果關(guān)系深度挖掘方面具有絕佳的優(yōu)勢。
第一,小數(shù)據(jù)在搜集數(shù)據(jù)時(shí)更為靈活。我們通常認(rèn)為人們搜集、處理海量數(shù)據(jù)的行為是一種帶有特定目的的理性行為,所以需要提前規(guī)劃好數(shù)據(jù)和應(yīng)用的框架,以便更好地處理海量數(shù)據(jù)信息。相比于大數(shù)據(jù)“船大難掉頭”,小數(shù)據(jù)在數(shù)據(jù)搜集時(shí)則顯得更為靈活。例如,聯(lián)合利華、雀巢以及歐萊雅等快消行業(yè)品牌都傾向于投入較多資金在問卷調(diào)查這種小數(shù)據(jù)搜集項(xiàng)目上,這是因?yàn)閱柧碓O(shè)計(jì)者可以根據(jù)自身需求對問卷進(jìn)行設(shè)計(jì),從而更加清楚和細(xì)致地了解消費(fèi)者對產(chǎn)品的態(tài)度與看法,而企業(yè)的大數(shù)據(jù)則只能根據(jù)已有大數(shù)據(jù)資產(chǎn)進(jìn)行挖掘分析。此外,雖然大數(shù)據(jù)具備基于海量數(shù)據(jù)對未來發(fā)展進(jìn)行預(yù)測的能力,但是只能對事物發(fā)展大體走向給予初步判斷,無法在一些特定環(huán)境下做出合理的預(yù)測。相比之下,小數(shù)據(jù)在預(yù)測分析特定情況或小概率事件時(shí),能夠根據(jù)實(shí)際情況靈活制定數(shù)據(jù)的搜集策略,從而得到更加出色的預(yù)測結(jié)果。因此,如果說大數(shù)據(jù)搜集是協(xié)調(diào)統(tǒng)一的“團(tuán)隊(duì)行動(dòng)”,那么小數(shù)據(jù)搜集則更像靈活多變的“單兵作戰(zhàn)”。
第二,小數(shù)據(jù)對隱私更加“友好”。表面上大數(shù)據(jù)很容易獲得,但事實(shí)并非如此,因?yàn)榫哂醒芯績r(jià)值的數(shù)據(jù)往往涉及商業(yè)機(jī)密、個(gè)人隱私或者經(jīng)濟(jì)利益等問題,這給大數(shù)據(jù)在隱私保護(hù)方面帶來了巨大挑戰(zhàn)。例如,在智能城市建設(shè)當(dāng)中,公民的一些活動(dòng)數(shù)據(jù)被相關(guān)機(jī)構(gòu)所獲取,這對大部分守法公民的個(gè)人數(shù)據(jù)隱私造成了威脅。此外,基于用戶位置信息和上網(wǎng)數(shù)據(jù)痕跡等大數(shù)據(jù),為用戶推送相關(guān)的廣告內(nèi)容也成為大數(shù)據(jù)在隱私保護(hù)方面的一個(gè)挑戰(zhàn),因?yàn)椴粌H用戶的個(gè)人信息隨時(shí)隨地被網(wǎng)絡(luò)監(jiān)聽,而且一些彈出廣告也對用戶體驗(yàn)造成了極大困擾。然而,小數(shù)據(jù)則在保護(hù)受訪者隱私方面交出了滿意的“答卷”。一方面,由于小數(shù)據(jù)的搜集通常是以問卷調(diào)查或隨機(jī)抽樣的形式展開的,所以小數(shù)據(jù)在搜集數(shù)據(jù)的過程中能夠做到尊重受訪者意愿并保持匿名受訪的方式;另一方面,小數(shù)據(jù)在搜集后通常多為一手?jǐn)?shù)據(jù),所有權(quán)和使用權(quán)都為小數(shù)據(jù)的搜集者所掌握,這對數(shù)據(jù)的隱私保護(hù)更為友好。
第三,小數(shù)據(jù)更注重對數(shù)據(jù)間因果關(guān)系的深度挖掘。由于小數(shù)據(jù)通常根據(jù)實(shí)際研究需要有針對性地進(jìn)行收集,所以獲得的數(shù)據(jù)更加個(gè)性化,可以從這些個(gè)性化的小數(shù)據(jù)中深度挖掘數(shù)據(jù)信息中的因果關(guān)系。而大數(shù)據(jù)具備的特性,使得它更擅長從數(shù)據(jù)中發(fā)現(xiàn)事物間的相關(guān)性,但在分析數(shù)據(jù)間的因果關(guān)系時(shí)總顯得力不從心。例如,在研究樓盤開業(yè)與人流量之間的關(guān)系時(shí),發(fā)現(xiàn)樓盤開業(yè)與前來現(xiàn)場的人數(shù)具有較高的相關(guān)系數(shù),通過大數(shù)據(jù)分析方法只能證明這兩者之間具有較強(qiáng)的相關(guān)性,而不能確定兩者之間是否存在明確的因果關(guān)系,原因在于無法確認(rèn)是樓盤開業(yè)吸引人們前來現(xiàn)場,還是開盤當(dāng)天站臺(tái)明星吸引了人們前來。要厘清這其中的因果關(guān)系,還需要通過小數(shù)據(jù)進(jìn)行更為精確、更加細(xì)致和富有內(nèi)涵的深度分析。因此,數(shù)據(jù)驅(qū)動(dòng)成就了大數(shù)據(jù)快速挖掘事物表面的相關(guān)性,但這些淺層次的相關(guān)性還不足以讓我們看清事物的深層次本質(zhì),而小數(shù)據(jù)在因果關(guān)系的深度挖掘方面則具有更加細(xì)膩的優(yōu)勢。
一是打破大數(shù)據(jù)和小數(shù)據(jù)壁壘。當(dāng)前,大數(shù)據(jù)的應(yīng)用發(fā)展日益成熟,各種結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)搜集已經(jīng)十分便捷。然而,相比于大數(shù)據(jù),小數(shù)據(jù)不僅分散,而且數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一,這導(dǎo)致了大數(shù)據(jù)和小數(shù)據(jù)在接口上陷入難以結(jié)合的窘境。如果能將大數(shù)據(jù)和小數(shù)據(jù)的數(shù)據(jù)壁壘打破,實(shí)現(xiàn)大小數(shù)據(jù)的整合,那么就能充分挖掘數(shù)據(jù)中的價(jià)值,實(shí)現(xiàn)數(shù)據(jù)價(jià)值增益。而構(gòu)建數(shù)據(jù)中臺(tái)可能是最有望解決這一問題的方式。數(shù)據(jù)中臺(tái)是連接數(shù)據(jù)和應(yīng)用的中間層,可以將數(shù)據(jù)湖中不同數(shù)據(jù)的口徑進(jìn)行標(biāo)準(zhǔn)統(tǒng)一。因此,可以借助數(shù)據(jù)中臺(tái)打破大數(shù)據(jù)和小數(shù)據(jù)間的數(shù)據(jù)壁壘,實(shí)現(xiàn)二者的有機(jī)結(jié)合。一個(gè)最直觀的例子,新型冠狀病毒疫情暴發(fā)后,為了追蹤病毒感染者可能的傳播范圍,早期相關(guān)部門通過新聞廣播感染者乘坐交通工具的座位信息,地毯式搜尋可能被傳染的人員。然而,這種方式不僅費(fèi)時(shí)費(fèi)力,而且隨著病毒感染人數(shù)不斷增加,后期已經(jīng)杯水車薪。隨著健康二維碼在杭州首先被推出后,其迅速被全國各地所采用。它整合了手機(jī)用戶的定位信息、付款交易信息和乘坐交通工具信息等多源大數(shù)據(jù),并且根據(jù)用戶填報(bào)的居住信息、體溫信息和近兩周內(nèi)出行信息等,搜集到了個(gè)體小數(shù)據(jù)。這些大數(shù)據(jù)和小數(shù)據(jù)匯聚形成數(shù)據(jù)湖后,經(jīng)過數(shù)據(jù)中臺(tái)處理分析,生成個(gè)性化的健康二維碼,從而為追蹤可能被病毒感染的人員提供了快速有效的方法。
二是通過大數(shù)據(jù)技術(shù)挖掘小數(shù)據(jù)集合。數(shù)據(jù)、算法和算力作為驅(qū)動(dòng)數(shù)據(jù)科學(xué)發(fā)展的三大基石,它告訴我們數(shù)據(jù)只是數(shù)據(jù)時(shí)代的一部分內(nèi)容,更重要的是如何挖掘出數(shù)據(jù)中蘊(yùn)藏的巨大價(jià)值,這也正是大數(shù)據(jù)能持續(xù)風(fēng)靡全球的原因。大數(shù)據(jù)的價(jià)值不僅在于它的數(shù)據(jù)量大,還因?yàn)橛袡C(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能算法等大數(shù)據(jù)技術(shù),可以充分挖掘其價(jià)值。如果我們將這種大數(shù)據(jù)的思維也類比應(yīng)用于小數(shù)據(jù)上,讓大數(shù)據(jù)技術(shù)賦能小數(shù)據(jù),同樣也可以挖掘出小數(shù)據(jù)中的大價(jià)值。例如,聚類分析是大數(shù)據(jù)技術(shù)中最常見的一種數(shù)據(jù)挖掘方式,它可以將群體中具有相似特征的個(gè)體進(jìn)行歸類。這種方法可以用于挖掘商場中消費(fèi)者的個(gè)性化小數(shù)據(jù),從而為消費(fèi)者提供個(gè)性化的精準(zhǔn)導(dǎo)購服務(wù)。因?yàn)閷?dǎo)購員可以通過交流,發(fā)現(xiàn)消費(fèi)者的年齡、性別和喜好等個(gè)性化特征,如果能搜集整理好這些個(gè)性化的小數(shù)據(jù),然后將這些小數(shù)據(jù)進(jìn)行聚類分析,可以把不同的消費(fèi)者歸類,從而針對同一類消費(fèi)者的喜好情況制定特定的導(dǎo)購服務(wù),不僅能給消費(fèi)者提供更加個(gè)性化的精準(zhǔn)服務(wù),商場也可以省去大量的無效工作。雖然如今大數(shù)據(jù)備受追捧,但是我們也不能忽視“以人為本”的社會(huì)發(fā)展本質(zhì),最終社會(huì)的發(fā)展方向也一定會(huì)走向越來越個(gè)性化和精準(zhǔn)化。因此,將個(gè)性化的小數(shù)據(jù)結(jié)合大數(shù)據(jù)技術(shù)進(jìn)行挖掘分析,可以更加充分地釋放小數(shù)據(jù)中的大價(jià)值。并且相比于大數(shù)據(jù)的挖掘結(jié)果,小數(shù)據(jù)的挖掘反倒可以得到更加個(gè)性化的數(shù)據(jù)信息,這充分發(fā)揮了大數(shù)據(jù)的技術(shù)優(yōu)勢和小數(shù)據(jù)的個(gè)性化優(yōu)勢。
三是用小數(shù)據(jù)中的信息補(bǔ)充大數(shù)據(jù)中的規(guī)律。由于大數(shù)據(jù)在數(shù)據(jù)量方面的優(yōu)勢,使得它能夠更加全面地從海量數(shù)據(jù)信息中發(fā)現(xiàn)總體規(guī)律。然而,也正因如此,大數(shù)據(jù)在發(fā)現(xiàn)數(shù)據(jù)信息背后的總體規(guī)律時(shí),也犧牲了數(shù)據(jù)信息背后的個(gè)性化規(guī)律,而這些個(gè)性化規(guī)律有時(shí)候往往具有更大的價(jià)值。因此,我們在挖掘大數(shù)據(jù)的總體規(guī)律時(shí),也應(yīng)該注意個(gè)性化規(guī)律,用小數(shù)據(jù)中的個(gè)性化信息補(bǔ)充大數(shù)據(jù)中的總體規(guī)律,從宏觀和微觀兩個(gè)層面充分剖析數(shù)據(jù)的內(nèi)在含義和價(jià)值。大數(shù)據(jù)在醫(yī)療方面的應(yīng)用是當(dāng)前大數(shù)據(jù)最成功的實(shí)踐應(yīng)用之一。一些疾病診斷可以通過大數(shù)據(jù)的方法,從搜集的海量病例數(shù)據(jù)庫中挖掘出類似的疾病規(guī)律供診斷參考,從而實(shí)現(xiàn)疾病診斷工作提速增效。但是大數(shù)據(jù)中發(fā)現(xiàn)的總體規(guī)律只是提供一種高效的參考而已,每位患者的具體情況存在差異,醫(yī)生還需要結(jié)合患者的個(gè)性化小數(shù)據(jù)信息來最終確診疾病。即便未來大數(shù)據(jù)醫(yī)療在技術(shù)層面取得更大突破,個(gè)性化小數(shù)據(jù)中的信息和大數(shù)據(jù)中的規(guī)律相結(jié)合依然會(huì)是最好的方式,特別是針對疑難雜癥。例如,同樣是肺炎,但是致病的機(jī)理卻有不同類型,如果我們沒有對小數(shù)據(jù)中的信息進(jìn)行分析,就無法獲知這其中的因果關(guān)系。特別是當(dāng)肺炎大數(shù)據(jù)中主體規(guī)律掩蓋了數(shù)據(jù)中小部分個(gè)性化規(guī)律時(shí),只看到數(shù)據(jù)的表明現(xiàn)象,而沒有厘清內(nèi)在的因果關(guān)系,可能會(huì)造成無法想象的后果。因此,我們不僅要知其然還要知其所以然,這需要從小數(shù)據(jù)信息中發(fā)現(xiàn)其中的因果關(guān)系,為大數(shù)據(jù)中的規(guī)律錦上添花。