陳 艷,李君亮
(1.廣西民族師范學(xué)院 數(shù)學(xué)與計算機科學(xué)學(xué)院;2.廣西民族師范學(xué)院 馬克思主義學(xué)院,廣西 崇左 532200)
大數(shù)據(jù)技術(shù)的“是之所是”——即大數(shù)據(jù)技術(shù)的本體是關(guān)系,[1]但是作為大數(shù)據(jù)技術(shù)“是之所是”的關(guān)系隱匿在海量數(shù)據(jù)之中,只有將海量數(shù)據(jù)作為大數(shù)據(jù)文本對其進行詮釋,大數(shù)據(jù)技術(shù)的本體——關(guān)系——才會綻露和顯現(xiàn)。
要對大數(shù)據(jù)技術(shù)進行詮釋學(xué)的分析,首先要厘清詮釋學(xué)這一基本概念。從詞源學(xué)上看,詮釋學(xué)(hermeneutik)一詞的動詞形式為hermeneuein,其古希臘文為,為陳述思想,含有宣告、口譯、闡明和解釋的意思。Hermeneuein一詞的詞根為Hermes(赫爾墨斯),而Hermes(赫爾墨斯)是負(fù)責(zé)向人間宣告、傳達、闡明、轉(zhuǎn)譯和解釋眾神的信息和意志的信使,因此,詮釋就是宣告、傳達、闡明、轉(zhuǎn)譯和解釋的意思。詮釋學(xué),按照伽達默爾的觀點,就是宣告、傳達、闡明、轉(zhuǎn)譯和解釋的技術(shù)。[2](P475)從語言學(xué)的視角看,詮釋學(xué)這一語詞源于柏拉圖,他在《伊庇諾米篇》中把詮釋學(xué)與占卜術(shù)歸屬為同一類,將其作為一種解釋眾神旨意的技術(shù)。亞里士多德在其Peri Hermeneias(詮釋篇)中沿用了詮釋學(xué)一詞,但理解和使用與柏拉圖顯然不同,他對詮釋學(xué)的理解和使用均是語言學(xué)意義上的。后希臘時期,詮釋學(xué)一詞“有學(xué)識的解釋”的含義,但這種“有學(xué)識的解釋”是與圣經(jīng)注釋聯(lián)系在一起的。[3]現(xiàn)代意義上的詮釋學(xué)概念是由笛卡爾首先提出來的。1654年,丹恩豪爾發(fā)表了題為《圣經(jīng)詮釋學(xué)或圣經(jīng)文獻學(xué)解釋方法》一書,此后,人們才區(qū)分了神學(xué)詮釋學(xué)和法學(xué)詮釋學(xué)。
我們所說的大數(shù)據(jù)技術(shù)的詮釋學(xué)分析中的詮釋學(xué)不是神學(xué)詮釋學(xué),也不是法學(xué)詮釋學(xué),而是哲學(xué)詮釋學(xué)。哲學(xué)詮釋學(xué)奠基于海德格爾構(gòu)建的存在本體論的詮釋學(xué),其核心要義是將理解奠基于人類存在的本體特征之上。伽達默爾對海德格爾奠基于存在本體論的哲學(xué)詮釋學(xué)進行了發(fā)揮、發(fā)展和完善,并由此建立起了一整套關(guān)于理解和解釋的理論體系。伽達默爾的哲學(xué)詮釋學(xué)的本質(zhì)是人們對文本的理解和解釋是在“偏見”客觀存在情況下的“視域融合”過程,他認(rèn)為理解不僅要在視域融合中發(fā)生和進行,由于任何思想觀念的表達都離不開語言,因此,理解還跟語言密切聯(lián)系在一起。
無論神學(xué)詮釋學(xué)、法學(xué)詮釋學(xué)抑或是哲學(xué)詮釋學(xué),都是要通過對于文本的理解和解釋,理解文字的意義,解釋文字的精神,獲得實際的應(yīng)用。理解文本、解釋精神、獲得意義、得到應(yīng)用,這是詮釋學(xué)的一些基本要素。對于大數(shù)據(jù)技術(shù)的詮釋學(xué)分析就是在詮釋學(xué)的這些基本要素中展開的。
現(xiàn)代哲學(xué)詮釋學(xué)的三個基本要素是文本、作者和閱讀者,浪漫主義詮釋學(xué)派的阿斯特將文字、意義和精神看作是詮釋的三個要素,他同時又認(rèn)為詮釋的這三個要素是統(tǒng)一于被詮釋被理解的文本之中。[4]由此可見,文本才是我們詮釋和理解的核心要素,是詮釋和理解面對的當(dāng)然對象。那么,在大數(shù)據(jù)技術(shù)中,數(shù)據(jù)是如何作為被詮釋被理解的文本而存在的呢?
數(shù)據(jù)是大數(shù)據(jù)技術(shù)“是之所是”的基本質(zhì)料,作為大數(shù)據(jù)技術(shù)“是之所是”基本質(zhì)料的數(shù)據(jù)在哲學(xué)詮釋學(xué)的視域下則是作為文本而存在的。
在傳統(tǒng)的數(shù)據(jù)分析中,數(shù)據(jù)作為樣本而存在。如在人口新常態(tài)背景下,人們要對農(nóng)村家政女工的生存和發(fā)展?fàn)顩r展開分析和研究,通常的做法是選擇幾個典型性區(qū)域作為代表,以此為樣本在此基礎(chǔ)上對調(diào)查數(shù)據(jù)開展樣本分析和研究。[5]在詮釋學(xué)語境中,作為典型性代表的數(shù)據(jù)樣本就是作為詮釋的文本而存在,對于作為樣本的數(shù)據(jù)的分析過程實際上就是對于數(shù)據(jù)文本的詮釋過程。
但是我們可以看到,在傳統(tǒng)的作為樣本的數(shù)據(jù)文本中,數(shù)據(jù)文本作為單一的要素而存在。如對于人口新常態(tài)背景下農(nóng)村家政女工的生存和發(fā)展?fàn)顩r數(shù)據(jù)樣本,其僅僅作為樣本唯一地解釋著和呈現(xiàn)出人口新常態(tài)背景下農(nóng)村家政女工的生存和發(fā)展?fàn)顩r,除此之外,由于要素的單一性不可能生成一種構(gòu)成的結(jié)構(gòu)性,數(shù)據(jù)樣本也就別無他用。另一方面,在這個傳統(tǒng)的數(shù)據(jù)分析案例中,數(shù)據(jù)樣本僅需能夠說明并且也只能夠用來分析和研究人口新常態(tài)背景下農(nóng)村家政女工的生存和發(fā)展?fàn)顩r,也就是說,作為樣本的數(shù)據(jù)文本的詮釋其意義是確定的,目標(biāo)是單一的。由此可見,在傳統(tǒng)的數(shù)據(jù)分析中,作為樣本的數(shù)據(jù)文本在要素、結(jié)構(gòu)和功能上都是單一的、確定的,從總體上來看只是一種一一對應(yīng)的相關(guān)關(guān)系。因此,在這種具有目標(biāo)確定性且要素、結(jié)構(gòu)和功能處于一種一一對應(yīng)的相關(guān)關(guān)系的數(shù)據(jù)文本中,數(shù)據(jù)與其說是作為文本被詮釋而獲得理解和意義,不如說,在其中,數(shù)據(jù)樣本是作為論據(jù)去對觀點進行論證、解釋和說明。這樣,本身作為需待詮釋的對象文本卻成為了解釋他者的手段或工具,數(shù)據(jù)的文本意義也就在解釋他者中喪失了其作為詮釋文本的本來含義。
只有進入大數(shù)據(jù)時代,大數(shù)據(jù)的文本含義才可能真實地顯露出來。在大數(shù)據(jù)技術(shù)的廣泛應(yīng)用中,海量數(shù)據(jù)——大數(shù)據(jù)——是作為真實本己的詮釋文本而存在。
舍恩伯格和庫克耶認(rèn)為,大數(shù)據(jù)時代,我們需要的不是隨機的樣本——我們需要的是所有的數(shù)據(jù)。[6](P27)“樣本=總體”,這就是大數(shù)據(jù)時代詮釋文本的存在樣態(tài)。有人或許要問,為什么作為總體的數(shù)據(jù)就是有待被詮釋的文本?在舍恩伯格和庫克耶的《大數(shù)據(jù)時代》中記載了日本先進工業(yè)技術(shù)研究所的坐姿研究與汽車防盜系統(tǒng)這樣一個案例,[6](P102~103)在這個案例中,把人坐著的時候的身形、姿勢和重量分布量化和數(shù)據(jù)化,形成的海量數(shù)據(jù)就是作為有待被詮釋的文本而存在。我們知道,人坐著的時候的身形、姿勢和重量分布量化和數(shù)據(jù)化后生成的海量數(shù)據(jù),從表面上看來,就是一堆似乎混雜的無意義的數(shù)據(jù),只有將其作為文本,對其可能存在的與諸事實的關(guān)系建立起某種聯(lián)系,我們才有可能理解它,并且使得它的意義得到呈現(xiàn)。事實上也正是如此,通過對這一海量數(shù)據(jù)文本的詮釋,我們可以解讀出一個人的坐姿和身份識別、安全駕駛、汽車防盜、盜車案偵破之間的關(guān)系,從而呈現(xiàn)出海量數(shù)據(jù)的文本意義。
那么,作為詮釋文本的數(shù)據(jù)又是以一種什么樣的方式存在的呢?
《大數(shù)據(jù)時代》的作者認(rèn)為,在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。[6](P67)這話無非就是說,進入大數(shù)據(jù)時代,人們關(guān)注的焦點不再是現(xiàn)象背后的因果性,我們注重的恰恰是諸事實間的相關(guān)關(guān)系。為什么我們不關(guān)注因果性轉(zhuǎn)而重視數(shù)據(jù)給定的諸事實間的相關(guān)關(guān)系?有學(xué)者認(rèn)為一個重要的原因就是海量數(shù)據(jù)的非結(jié)構(gòu)化特征導(dǎo)致我們很難(也沒有太大的必要)去探究數(shù)據(jù)給定的諸事實背后的因果關(guān)系,因此,我們只要弄清楚數(shù)據(jù)給定的諸事實間的相關(guān)關(guān)系,這就足夠了。
與經(jīng)典的具有物理實在的技術(shù)不同,在大數(shù)據(jù)技術(shù)中,大數(shù)據(jù)的結(jié)構(gòu)可以說正是以其非結(jié)構(gòu)性的特點表現(xiàn)出來。在經(jīng)典的具有物理實在的技術(shù)中,技術(shù)人工物作為一個具有整體性的系統(tǒng)通??偸前?、結(jié)構(gòu)和功能這三個組成部分,并且技術(shù)人工物的構(gòu)成要素只要按照一定的結(jié)構(gòu)構(gòu)成之后,其必然呈現(xiàn)出一定的功能,雖然要素、結(jié)構(gòu)、功能之間并非總是一一對應(yīng)的線性相關(guān)關(guān)系,但不可否認(rèn)的是,這種經(jīng)典的具有物理實在性特征的技術(shù)人工物通??偸墙Y(jié)構(gòu)性的技術(shù)實在。但是在大數(shù)據(jù)技術(shù)中,大數(shù)據(jù)作為詮釋文本的結(jié)構(gòu)卻呈現(xiàn)出非結(jié)構(gòu)性的特征。我們首先要承認(rèn)的是,從邏輯上看,大數(shù)據(jù)作為詮釋文本具有內(nèi)在的結(jié)構(gòu)——正是因其內(nèi)在的結(jié)構(gòu),使得我們對大數(shù)據(jù)的文本詮釋成為可能。比如在日本先進工業(yè)技術(shù)研究所的坐姿研究與汽車防盜系統(tǒng)這一案例中,人坐著的時候的身形、姿勢和重量分布量化和數(shù)據(jù)化之后形成的海量數(shù)據(jù),其內(nèi)蘊的結(jié)構(gòu)就是人坐著的時候的身形、姿勢和重量分布之間的關(guān)系:不同的身形、差異化的坐姿,其重量分布也就迥然不同。由此,才能得到量化和數(shù)據(jù)化后千差萬別的海量數(shù)據(jù)。但是,大數(shù)據(jù)作為詮釋文本的這樣一種結(jié)構(gòu)又具有非結(jié)構(gòu)性特征,筆者認(rèn)為,這種結(jié)構(gòu)化的詮釋文本數(shù)據(jù)的非結(jié)構(gòu)性特征就表現(xiàn)在:我們可以對其進行不同領(lǐng)域、不同用途的功能性、意義性詮釋——既可以將這些數(shù)據(jù)文本與人的身份識別相關(guān)聯(lián),又可以將這些海量數(shù)據(jù)與安全駕駛相關(guān)聯(lián),還可以將這些數(shù)據(jù)文本與汽車防盜相關(guān)聯(lián)。這樣,海量的總體數(shù)據(jù)作為詮釋文本其特定的數(shù)據(jù)結(jié)構(gòu)卻對應(yīng)著不同的意義或功能。換句話說,海量的數(shù)據(jù)詮釋文本與意義或功能之間并非是一一對應(yīng)的線性相關(guān)關(guān)系,這就是作為詮釋文本的大數(shù)據(jù)非結(jié)構(gòu)化的結(jié)構(gòu)性特征。
作為詮釋文本的大數(shù)據(jù)非結(jié)構(gòu)化的結(jié)構(gòu)性特征開顯了大數(shù)據(jù)文本的不確定性和開放性,這種不確定性和開放性使得我們對于數(shù)據(jù)文本的大數(shù)據(jù)技術(shù)詮釋成為可能。
大數(shù)據(jù)作為文本與一般的文字文本不同:文字文本的意義在字里行間之中,而大數(shù)據(jù)文本的意義隱藏在數(shù)據(jù)給定的諸事實及其關(guān)系之中;文字文本容量較小,大數(shù)據(jù)文本的容量巨大;文字文本有著很強的文本結(jié)構(gòu),大數(shù)據(jù)文本則具有非結(jié)構(gòu)化的結(jié)構(gòu)性特征。大數(shù)據(jù)文本與文字文本的這種差異性特征使得我們對其的詮釋也就必然會采取不同的工具、手段、方式和方法。通常,對于文字文本,我們可以展開個人的語詞詮釋,也可以運用計算機軟件進行文本詮釋分析。但是對于大數(shù)據(jù)文本,我們卻只能運用計算機軟件開展專門的詮釋分析,以彰顯大數(shù)據(jù)文本的意義,實現(xiàn)對于大數(shù)據(jù)文本的理解和應(yīng)用。我們將把傳統(tǒng)的統(tǒng)計數(shù)據(jù)分析與大數(shù)據(jù)詮釋進行一番比較,并在這種比較分析中,弄清楚大數(shù)據(jù)作為詮釋文本是如何被大數(shù)據(jù)技術(shù)詮釋其意義的。
首先,讓我們來考察一下傳統(tǒng)的統(tǒng)計數(shù)據(jù)分析是如何進行的。
傳統(tǒng)統(tǒng)計數(shù)據(jù)的獲得總是針對特定的目的或目標(biāo)而進行的。如前文所述,我們要對人口新常態(tài)背景下農(nóng)村家政女工的生存和發(fā)展?fàn)顩r進行分析和研究,為了獲得數(shù)據(jù)作為論據(jù)以支撐論文的論述和論證,只需要選取幾個具有典型性代表的區(qū)域開展問卷調(diào)查,就可以獲得樣本數(shù)據(jù)。如選取北京、廣州、武漢、西安等幾個城市的農(nóng)村家政女工為樣本,通過對這幾個地區(qū)的農(nóng)村家政女工的生存和發(fā)展?fàn)顩r的分析和研究,將分析結(jié)果和研究結(jié)論一般性地拓展和延伸,就可以推及我國在人口新常態(tài)背景下全國農(nóng)村家政女工生存和發(fā)展的普遍狀況。需要知道年齡與農(nóng)村家政女工的生存和發(fā)展?fàn)顩r之間存在什么樣的關(guān)系,需要知道婚育狀況與農(nóng)村家政女工的生存和發(fā)展?fàn)顩r之間存在什么樣的關(guān)系,需要知道受教育水平與農(nóng)村家政女工的生存和發(fā)展?fàn)顩r之間存在什么樣的關(guān)系,我們就對她們的相應(yīng)指標(biāo)進行調(diào)查,然后對統(tǒng)計數(shù)據(jù)進行相應(yīng)的分析。
對傳統(tǒng)統(tǒng)計數(shù)據(jù)的分析方法種類繁多但也相對簡單,如描述性統(tǒng)計、回歸分析、方差分析和假設(shè)檢驗等方法。其中,描述性統(tǒng)計是一類統(tǒng)計方法的匯總,揭示了數(shù)據(jù)分布特性?;貧w分析是應(yīng)用極其廣泛的數(shù)據(jù)分析方法之一,它基于觀測數(shù)據(jù)建立變量間適當(dāng)?shù)囊蕾囮P(guān)系,以分析數(shù)據(jù)內(nèi)在規(guī)律。方差分析也是傳統(tǒng)統(tǒng)計數(shù)據(jù)常用的重要分析工具,主要應(yīng)用于相互獨立的隨機樣本、各樣本來自正態(tài)分布總體和各總體方差相等情況。假設(shè)檢驗也是一種重要的統(tǒng)計數(shù)據(jù)分析方法。運用上述統(tǒng)計數(shù)據(jù)分析方法,對目標(biāo)函項進行分析、解釋和說明,因此,傳統(tǒng)統(tǒng)計數(shù)據(jù)分析不是彰顯意義,而是理解、解釋和說明意義。
對于大數(shù)據(jù)文本的詮釋則與傳統(tǒng)統(tǒng)計數(shù)據(jù)的分析根本不同。大數(shù)據(jù)文本是作為總體的海量數(shù)據(jù),其獲得一般是通過智能終端設(shè)備的數(shù)據(jù)采集來完成的。智能終端設(shè)備既不是在特定的時間范圍內(nèi)也不是在特定的空間場所對特定的人群進行數(shù)據(jù)采集,它是在全時空境遇中對所有正在智能終端設(shè)備上進行同一模式操作的客戶端上的數(shù)據(jù)進行采集,或者是在全時空境遇中對在智能終端設(shè)備進行操作的客戶端上的所有數(shù)據(jù)進行采集,或者是在全時空境遇下對所有的智能終端設(shè)備開展數(shù)據(jù)收集。通過這樣的方式從智能終端設(shè)備上獲得的數(shù)據(jù)容量巨大,用傳統(tǒng)的硬件工具無法存儲,用傳統(tǒng)的軟件工具也無法處理。從智能終端設(shè)備上獲得的海量數(shù)據(jù)容量巨大,又具有多樣性和多變化性的特點,因此數(shù)據(jù)總體呈現(xiàn)出混雜性的基本特征,并且就海量數(shù)據(jù)本身而言,由于其價值密度低,數(shù)據(jù)之間很難建立起結(jié)構(gòu)性聯(lián)結(jié),因此大數(shù)據(jù)才會被人稱之為非結(jié)構(gòu)化的數(shù)據(jù)。非結(jié)構(gòu)化的海量數(shù)據(jù)就其自身而言只是給定的諸事實及其關(guān)系,給定的諸事實及其關(guān)系要獲得理解和意義,只有作為文本得到詮釋才能實現(xiàn)。
對大數(shù)據(jù)文本進行詮釋,實際上就是開展數(shù)據(jù)挖掘以獲得大數(shù)據(jù)知識發(fā)現(xiàn),從而呈現(xiàn)大數(shù)據(jù)文本的意義、理解和精神。在數(shù)據(jù)挖掘分析領(lǐng)域中,最常用的數(shù)據(jù)分析方法有描述型分析、診斷型分析、預(yù)測型分析和指令型分析等四種,通過對大數(shù)據(jù)的描述性分析、診斷性分析、預(yù)測性分析和指令性分析,大數(shù)據(jù)文本詮釋完成一個完整的詮釋邏輯路徑,大數(shù)據(jù)文本得到理解,意義得到呈現(xiàn),大數(shù)據(jù)也得到現(xiàn)實有效的運用。
描述型分析是大數(shù)據(jù)詮釋中最常見的分析方法,它通常告訴我們的是數(shù)據(jù)給定的事實究竟發(fā)生了什么。比如在金融業(yè)務(wù)中,這種數(shù)據(jù)詮釋方法向數(shù)據(jù)分析師提供了重要指標(biāo)和業(yè)務(wù)的衡量方法。例如,每月的營收和損失賬單。數(shù)據(jù)分析師可以通過這些賬單,獲取大量的客戶數(shù)據(jù)。比如通過海量數(shù)據(jù)文本的挖掘詮釋以了解客戶的地理信息。
描述型數(shù)據(jù)分析告訴我們數(shù)據(jù)給定的事實發(fā)生了什么,接下來我們就要問:為什么會發(fā)生?這就是診斷型數(shù)據(jù)分析這樣一種大數(shù)據(jù)文本詮釋將要做的事情。為什么會發(fā)生——這是大數(shù)據(jù)文本的價值詮釋。通過評估描述型數(shù)據(jù),診斷分析工具能夠讓數(shù)據(jù)分析師深入地分析數(shù)據(jù),鉆取到數(shù)據(jù)的核心,呈現(xiàn)出大數(shù)據(jù)文本的數(shù)據(jù)價值。例如設(shè)計良好的BI dashboard就能夠在對數(shù)據(jù)進行描述性分析后對大數(shù)據(jù)文本進行有效整合,具有按照時間序列進行數(shù)據(jù)讀入、特征過濾和鉆取數(shù)據(jù)等功能,以便更好地分析數(shù)據(jù)。
當(dāng)大數(shù)據(jù)文本詮釋鉆取到數(shù)據(jù)的核心后可能會發(fā)生什么?預(yù)測型分析將通過對海量數(shù)據(jù)的復(fù)雜度分析顯現(xiàn)大數(shù)據(jù)文本詮釋的現(xiàn)實意義,這就是進行趨勢預(yù)測——預(yù)測型分析主要用于進行預(yù)測,以告訴我們可能發(fā)生什么。事件未來發(fā)生的可能性、預(yù)測一個可量化的值,或者是預(yù)估事情發(fā)生的時間點或空間場,這些都可以通過預(yù)測模型來完成。預(yù)測模型通常會使用各種可變數(shù)據(jù)來實現(xiàn)預(yù)測。數(shù)據(jù)成員的多樣化與預(yù)測結(jié)果密切相關(guān)。在充滿不確定性的環(huán)境下,預(yù)測能夠幫助做出更好的決定。預(yù)測模型也是很多領(lǐng)域正在使用的重要方法。預(yù)測型分析的典型案例就是Google流感趨勢(GFT)預(yù)測分析。
在完成了可能發(fā)生什么的大數(shù)據(jù)文本詮釋之后,在問題的邏輯序列中我們接下來就是要知道需要做什么了。大數(shù)據(jù)文本詮釋的指令型分析所要做的就是告訴我們在發(fā)生了什么之后需要做什么。指令模型基于對“發(fā)生了什么”、“為什么會發(fā)生”和“可能發(fā)生什么”的分析,來幫助用戶決定應(yīng)該采取什么措施。通常情況下,指令型分析不是單獨使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。例如,交通出行路線規(guī)劃分析考察了每條路線的距離、每條線路的行駛速度以及目前的交通管制等方面因素,來幫助選擇最好的回家路線。[7]
沿著“描述型分析-診斷型分析-預(yù)測型分析-指令型分析”這樣一條完整的大數(shù)據(jù)文本詮釋徑路,大數(shù)據(jù)文本就在詮釋中獲得理解和意義,并在工業(yè)、商業(yè)、教育、管理、政務(wù)等各個方面得到廣泛而又現(xiàn)實的運用。
大數(shù)據(jù)作為文本需要我們對其進行詮釋以達成理解和獲得意義,那么在大數(shù)據(jù)文本的詮釋中,我們詮釋的究竟是什么?數(shù)據(jù)本身是作為大數(shù)據(jù)技術(shù)的質(zhì)料而存在,對大數(shù)據(jù)技術(shù)的數(shù)據(jù)文本進行詮釋,不是為了獲得或理解數(shù)據(jù),而是為了理解數(shù)據(jù)給定的諸事實及其相互之間的相關(guān)關(guān)系,因此,大數(shù)據(jù)技術(shù)的數(shù)據(jù)文本詮釋真實詮釋的是數(shù)據(jù)給定的諸事實及其相互之間的相關(guān)關(guān)系。
從大數(shù)據(jù)技術(shù)的“是之所是”來看,關(guān)系作為大數(shù)據(jù)技術(shù)的本體,必然是在大數(shù)據(jù)技術(shù)的數(shù)據(jù)文本詮釋中被綻放出來。
大數(shù)據(jù)由于其總體性、多樣性、多變化性和價值密度低等特征,因此就其自身而言,從整體上看并不存在著一種穩(wěn)定的結(jié)構(gòu),就數(shù)據(jù)本身而言,其內(nèi)部是一種非結(jié)構(gòu)化的關(guān)系,即數(shù)據(jù)與數(shù)據(jù)之間并不存在著某種線性相關(guān)關(guān)系。如兩個不同的用戶在Google搜索引擎上的網(wǎng)頁瀏覽所留下的歷史足跡形成的兩組數(shù)據(jù),就這兩組不同的數(shù)據(jù)而言,它們并不存在某種特定的相關(guān)關(guān)系,兩組數(shù)據(jù)記錄的僅僅是兩個不同的用戶在不同的時空場內(nèi)搜索了相同或不同的內(nèi)容,瀏覽了相同的或不同的網(wǎng)頁。這就是數(shù)據(jù)本身呈現(xiàn)的內(nèi)容,即數(shù)據(jù)給定的事實。如果有海量用戶通過Google搜索引擎以某一關(guān)鍵詞進行搜索,并由此留下瀏覽足跡而形成海量數(shù)據(jù),那么這些海量數(shù)據(jù)就其自身而言也不過就是記錄了海量用戶在Google搜索引擎上的搜索記錄而已,即給出海量用戶在Google搜索引擎上以某一關(guān)鍵詞進行搜索這一事實。這些海量數(shù)據(jù)相互之間并沒有形成某種穩(wěn)定的內(nèi)在結(jié)構(gòu),并且由于數(shù)據(jù)容量的高速擴展,數(shù)據(jù)的多樣性與多變化性不斷地消融著海量的數(shù)據(jù),數(shù)據(jù)的價值密度在這種數(shù)據(jù)消融中不斷降低,從而使得海量數(shù)據(jù)僅僅與每一條數(shù)據(jù)自身給定的事實相聯(lián)系。
一旦海量數(shù)據(jù)進入到大數(shù)據(jù)技術(shù)的運用環(huán)節(jié),即大數(shù)據(jù)技術(shù)詮釋展開之后,非結(jié)構(gòu)化的海量數(shù)據(jù)就會朝著結(jié)構(gòu)化的方向匯聚,當(dāng)數(shù)據(jù)挖掘的知識發(fā)現(xiàn)得到實質(zhì)性的進展之后,海量數(shù)據(jù)給定的諸事實間的相互關(guān)系也就綻露出來了。因此,大數(shù)據(jù)技術(shù)詮釋就其實質(zhì)而言詮釋的就是海量數(shù)據(jù)給定的諸事實間的相關(guān)關(guān)系。那么,海量數(shù)據(jù)給定的諸事實之間的相關(guān)關(guān)系是如何被大數(shù)據(jù)技術(shù)詮釋呈現(xiàn)出來的?
我們以Google流感趨勢(GFT)預(yù)測為例來闡明海量數(shù)據(jù)給定的諸事實之間的相關(guān)關(guān)系究竟是如何在大數(shù)據(jù)技術(shù)的詮釋中一步一步被呈現(xiàn)和綻露出來的。在一定的時期和一定的區(qū)域范圍內(nèi),有大量的用戶以“哪些是治療咳嗽和發(fā)熱的藥物”為關(guān)鍵詞運用Google搜索引擎進行網(wǎng)頁搜索,留下的瀏覽足跡便形成了海量數(shù)據(jù)被智能終端設(shè)備收集和存儲。隨著在一定的時期和一定的區(qū)域范圍內(nèi)以“哪些是治療咳嗽和發(fā)熱的藥物”為關(guān)鍵詞在Google搜索引擎上展開網(wǎng)頁搜索形成的數(shù)據(jù)的海量遞增,我們就會對這些海量數(shù)據(jù)給定的事實形成這樣一個疑問:究竟發(fā)生了什么?于是,大數(shù)據(jù)技術(shù)詮釋的第一步——描述型分析就展開了。
在描述型分析中,大數(shù)據(jù)技術(shù)詮釋只是發(fā)現(xiàn)了這樣一類數(shù)據(jù)集(實際上是發(fā)現(xiàn)了數(shù)據(jù)報道的給定的這樣一組事實):即在某一時期和某一區(qū)域范圍內(nèi)有大量的用戶通過Google搜索引擎以“哪些是治療咳嗽和發(fā)熱的藥物”為關(guān)鍵詞搜索和瀏覽了網(wǎng)頁。數(shù)據(jù)集中的每一條數(shù)據(jù)本身并不重要,數(shù)據(jù)之間也不存在某種結(jié)構(gòu)性關(guān)系,描述型分析僅僅在大數(shù)據(jù)技術(shù)詮釋中發(fā)現(xiàn)了海量數(shù)據(jù)給定的一組搜索事實。只有在將這一數(shù)據(jù)集報道的事實指向大數(shù)據(jù)文本之外或之后時,與海量數(shù)據(jù)給定的諸事實相關(guān)但卻并不在數(shù)據(jù)文本自身之中的外在的其他事實之間的關(guān)系就被大數(shù)據(jù)技術(shù)詮釋顯明了出來,這一被大數(shù)據(jù)技術(shù)詮釋顯明的大數(shù)據(jù)文本之外的事實就是:用戶患上了流感,于是想要了解哪些是可以治療咳嗽和發(fā)熱的藥物,以便自己到藥房去購買能夠治療流感的藥物。于是,大數(shù)據(jù)技術(shù)詮釋便由描述型分析進入診斷型分析——“為什么會發(fā)生”就是對海量數(shù)據(jù)給定的諸事實做出的第一次蘊含著意義的目標(biāo)指向的理解和詮釋。在大數(shù)據(jù)技術(shù)這個第一次的意義性的詮釋中,關(guān)系被帶入在場,也就是說,大數(shù)據(jù)技術(shù)詮釋不可避免地要將海量數(shù)據(jù)給定的諸事實與這諸事實背后客觀存在著的相關(guān)關(guān)系顯像出來。海量數(shù)據(jù)給出的是一定時期和區(qū)域范圍內(nèi)大量用戶通過Google搜索引擎以“哪些是治療咳嗽和發(fā)熱的藥物”為關(guān)鍵詞搜索和瀏覽了網(wǎng)頁的事實,通過大數(shù)據(jù)技術(shù)詮釋,診斷型分析顯現(xiàn)出了用戶患上了流感這一數(shù)據(jù)文本之外的事實。于是,用戶通過Google搜索引擎以“哪些是治療咳嗽和發(fā)熱的藥物”為關(guān)鍵詞搜索和瀏覽了網(wǎng)頁與用戶患上了流感這兩類事實之間的相關(guān)關(guān)系就建立起來了。我們可以將大數(shù)據(jù)技術(shù)詮釋顯現(xiàn)的關(guān)系用一個簡單的公式表示如下:
G(x):表示“用戶通過Google搜索引擎搜索‘哪些是治療咳嗽和發(fā)熱的藥物’”
F(y):表示“用戶患了流感”
R(x,y):表示大數(shù)據(jù)技術(shù)詮釋顯現(xiàn)的意義性相關(guān)關(guān)系
那么:R(x,y)=G(x)∝F(y)
(1)
需要指出的是,大數(shù)據(jù)技術(shù)詮釋顯現(xiàn)的關(guān)系是一個概率判斷。如果以這個概率性相關(guān)關(guān)系為基礎(chǔ)進一步開展大數(shù)據(jù)技術(shù)詮釋,我們就將進入到概率性預(yù)測,即大數(shù)據(jù)技術(shù)詮釋的預(yù)測型分析。
診斷型分析已經(jīng)告訴了我們?yōu)槭裁磿l(fā)生,即R(x,y)已經(jīng)詮釋了在一定時期和一定區(qū)域大量用戶通過Google搜索引擎以“哪些是治療咳嗽和發(fā)熱的藥物”為關(guān)鍵詞搜索和瀏覽了網(wǎng)頁的海量事實,大數(shù)據(jù)技術(shù)詮釋接下來就要問:可能會發(fā)生什么?
有道是“一枝獨秀不是春,百花齊放春滿園”,個別用戶在Google搜索引擎上搜索“哪些是治療咳嗽和發(fā)熱的藥物”或許并不會有意義性的詮釋呈現(xiàn),但是當(dāng)某個時期在某一區(qū)域范圍內(nèi)有海量的用戶都在Google搜索引擎上以“哪些是治療咳嗽和發(fā)熱的藥物”為關(guān)鍵詞進行搜索時就不禁會讓人做出如下猜測:這一地區(qū)是不是流感爆發(fā)?大數(shù)據(jù)技術(shù)詮釋的預(yù)測型分析就是基于診斷型分析對描述型分析中海量數(shù)據(jù)給出的諸事實做出這樣一種可能的概率性關(guān)系預(yù)測。如果用P(z)表示基于診斷型分析對描述型分析中海量數(shù)據(jù)給出的諸事實的預(yù)測型分析,R(x,y,z)表示完成了描述型分析、診斷型分析和預(yù)測型分析的大數(shù)據(jù)技術(shù)詮釋顯現(xiàn)的關(guān)系,那么:
R(x,y,z)=R(x,y)∝P(z),或者R(x,y,z)=(G(x)∝F(y))∝P(z)
(2)
2式表明,通過大數(shù)據(jù)技術(shù)詮釋,用戶在Google搜索引擎上搜索“哪些是治療咳嗽和發(fā)熱的藥物”、用戶患上了流感、某一地區(qū)流感爆發(fā)這三者之間具有一種詮釋性的內(nèi)在相關(guān)關(guān)系。
通過描述型分析、診斷型分析、預(yù)測型分析,大數(shù)據(jù)技術(shù)詮釋終于達成了對于海量數(shù)據(jù)文本的理解,并明確了大數(shù)據(jù)文本的意義。對于海量數(shù)據(jù)文本的大數(shù)據(jù)技術(shù)詮釋就其目標(biāo)而言當(dāng)然是為了實現(xiàn)大數(shù)據(jù)的技術(shù)應(yīng)用,因此,大數(shù)據(jù)技術(shù)詮釋自然而然地來到了它的最后一步:指令型分析。
嚴(yán)格說來,指令型分析是基于數(shù)據(jù)文本詮釋的決策分析,如在進行了大數(shù)據(jù)技術(shù)詮釋之后獲知某個地區(qū)流感爆發(fā)的概率,相關(guān)職能部門采取增加醫(yī)療資源投入或?qū)嵤└綦x措施等舉措。指令型分析的未來決策性質(zhì)使得大數(shù)據(jù)技術(shù)詮釋獲得了一種未來指向性,從而也就滿足了詮釋的文本理解、意義精神和解釋應(yīng)用等基本要素。