大數(shù)據(jù)的本質(zhì)

2016-12-05 12:43:34吳軍

銷售與管理 2016年10期

吳軍

在無法確定因果關(guān)系時，數(shù)據(jù)為我們提供了解決問題的新方法，數(shù)據(jù)中所包含的信息可以幫助我們消除不確定性，而數(shù)據(jù)之間的相關(guān)性在某種程度上可以取代原來的因果關(guān)系，幫助我們得到我們想知道的答案，這便是大數(shù)據(jù)思維的核心。

在過去被認為非常難以解決的問題，會因為大數(shù)據(jù)和機器智能的使用而迎刃而解。同時，大數(shù)據(jù)和機器智能還會徹底改變未來時代的商業(yè)模式，很多傳統(tǒng)的行業(yè)都將采用智能技術(shù)實現(xiàn)升級換代，同時改變原有的商業(yè)模式。另一方面，智能化也會對整個社會帶來巨大的沖擊，尤其是在智能革命的初期。

有了信息論這樣一個工具和方法論，我們便很容易認清大數(shù)據(jù)的本質(zhì)了。首先我們必須承認世界的不確定性，這樣我們就不會采用確定性的思維方式去面對一個不確定性的世界。當我們了解到信息或者說數(shù)據(jù)能夠消除不確定性之后，便能理解為什么大數(shù)據(jù)的出現(xiàn)能夠解決那些智能的問題，因為很多智能問題從根本上來講無非是消除不確定性的問題。對于前面提到的大數(shù)據(jù)的三個特征，即數(shù)據(jù)量大、多維度和完備性，我們可以從信息論出發(fā)，對它們的重要性和必要性一一做出解釋。在這個基礎(chǔ)之上，我們就能夠講清楚大數(shù)據(jù)的本質(zhì)。

數(shù)據(jù)量的問題

在過去，由于數(shù)據(jù)量不夠，即使使用了數(shù)據(jù)，依然不足以消除不確定性，因此數(shù)據(jù)的作用其實很有限，很多人忽視它的重要性是必然的。在那種情況下，哪個領(lǐng)域先積攢下足夠多的數(shù)據(jù)，它的研究進展就顯得快一些。具體到機器智能方面，語音識別是最早獲得比較多數(shù)據(jù)的領(lǐng)域，因此數(shù)據(jù)驅(qū)動的方法從這個領(lǐng)域產(chǎn)生也就不足為奇了。

大數(shù)據(jù)多維度的重要性

可以從兩個角度來看待它。第一個視角是前面提及的“互信息”，為了獲得相關(guān)性通常需要多個維度的信息。比如我們要統(tǒng)計“央行調(diào)整利息”和“股市波動”的相關(guān)性，只有歷史上央行調(diào)整利息一個維度的信息顯然是不夠的，需要上述兩個維度的信息同時出現(xiàn)。第二個視角是所謂的“交叉驗證”，我們不妨看這樣一個例子：夏天的時候，如果我們感覺很悶熱，就知道可能要下雨了。也就是說，“空氣濕度較高”和“24小時內(nèi)要下雨”之間的互信息較大。但是，這件事并非很確定，因為有些時候濕度大卻沒有下雨。不過，如果結(jié)合氣壓信息、云圖信息等其他維度的信息，也能驗證“24小時內(nèi)要下雨”這件事，那么預(yù)測的準確性就要大很多。因此，大數(shù)據(jù)多維度的重要性，也是有信息論做理論基礎(chǔ)的。

最后，我們從信息論的角度來看看數(shù)據(jù)完備性的重要性。在說明這件事情之前，我們還需要介紹信息論里一個重要的概念——交叉熵，這個概念并非由香農(nóng)提出的，而是由庫爾貝克等人提出的，因此在英文里更多地被稱為庫爾貝克–萊伯勒距離（Kullback-Leibler Divergence），它可以反映兩個信息源之間的一致性，或者兩種概率模型之間的一致性。當兩個數(shù)據(jù)源完全一致時，它們的交叉熵等于零，當它們相差很大時，交叉熵也很大。所有采用數(shù)據(jù)驅(qū)動的方法，建立模型所使用的數(shù)據(jù)和使用模型的數(shù)據(jù)之間需要有一致性，也就是蓋洛普所講的代表性，否則這種方法就會失效，而交叉熵就是對這種代表性或者一致性的一種精確的量化度量。

回過頭來講大數(shù)據(jù)的完備性。在過去，使用任何基于概率統(tǒng)計的模型都會有很多小概率事件覆蓋不到，這在過去被認為是數(shù)據(jù)驅(qū)動方法的死穴。很多學(xué)科把這種現(xiàn)象稱為“黑天鵝效應(yīng)”。在大數(shù)據(jù)出來之前，這件事是無法避免的，就連提出數(shù)據(jù)驅(qū)動方法的鼻祖賈里尼克也認為，不論統(tǒng)計數(shù)據(jù)量多大，都會有漏網(wǎng)的情況。這些漏網(wǎng)的情況反映到交叉熵時，它的值會達到無窮大，也就是說數(shù)據(jù)驅(qū)動方法在這個時候就失效了。

怎樣防止出現(xiàn)漏網(wǎng)？

這就要求大數(shù)據(jù)的完備性了。在大數(shù)據(jù)時代，在某個領(lǐng)域里獲得數(shù)據(jù)的完備性還是可能的。比如在過去把全國所有人的面孔收集全是一件不可想象的事情，但是今天這件事情完全能做到。當數(shù)據(jù)的完備性具備了之后，就相當于訓(xùn)練模型的數(shù)據(jù)集合和使用這個模型的測試集合是同一個集合，或者是高度重復(fù)的，這樣，它們的交叉熵近乎零。在這種情況下，就不會出現(xiàn)覆蓋不了很多小概率事件的災(zāi)難。這樣數(shù)據(jù)驅(qū)動才具有普遍性，而不再是時靈時不靈的方法論。

由此可見，大數(shù)據(jù)的科學(xué)基礎(chǔ)是信息論，它的本質(zhì)就是利用信息消除不確定性。雖然人類使用信息由來已久，但是到了大數(shù)據(jù)時代，量變帶來質(zhì)變，以至于人們忽然發(fā)現(xiàn)，采用信息論的思維方式可以讓過去很多難題迎刃而解。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大數(shù)據(jù)的本質(zhì)