李廉
摘要:認(rèn)為大數(shù)據(jù)提供了一種全新的認(rèn)知世界的角度和方法。與熟知的數(shù)學(xué)和大部分物理學(xué)的基本認(rèn)知規(guī)律不同,大數(shù)據(jù)分析原則上是一種基于觀察和歸納的經(jīng)驗(yàn)主義認(rèn)知,這種方法曾一度被現(xiàn)代實(shí)證主義的研究模式邊緣化。隨著近年來大數(shù)據(jù)產(chǎn)生與分析的技術(shù)進(jìn)步,這一古老方法正在重新煥發(fā)活力,并賦予大數(shù)據(jù)新的內(nèi)容和形式。在這個(gè)意義上,給出了關(guān)于大數(shù)據(jù)4V的新解釋。同時(shí)通過一個(gè)NP問題的例子,探討了大數(shù)據(jù)對(duì)于復(fù)雜問題解決的新方法和新思路。
關(guān)鍵詞:大數(shù)據(jù);觀察歸納;概率近似正確;數(shù)據(jù)分布;數(shù)據(jù)清洗;數(shù)據(jù)價(jià)值;例證法
Abstract:Big data provides a brand-new angle and method of perceiving the world. Like mathematics and physics, big data analysis is, in principle, a methodology based on observation and empirical induction, which has been marginalized in recent times by positivism in research models. As techniques for big data creation and analysis have developed, this methodology has blossomed. We give a new explanation of the “four Vs” of big data: state the four Vs here. We also discuss an example of an NP problem to explore new methods for solving complex.
Key words:big data; observation and induction; probability approximately correct; data distribution; data cleaning; data value; exemplification method
1 大數(shù)據(jù)的應(yīng)用目的
毫無疑問,對(duì)于大數(shù)據(jù)的分析與處理,目的是要獲取知識(shí),或者說認(rèn)知結(jié)論。那么,通過大數(shù)據(jù)來獲取知識(shí),與大數(shù)據(jù)時(shí)代之前獲取知識(shí)有什么不同嗎?為此,我們需要回顧人類直接從自然界獲取知識(shí)的兩種手段:觀察和實(shí)驗(yàn)。
早期人們獲取知識(shí)的手段是觀察,通過對(duì)于自然現(xiàn)象的仔細(xì)觀察,得到關(guān)于自然規(guī)律的認(rèn)知。由于觀察本身沒有干預(yù)自然的運(yùn)行,因此可能會(huì)受到眾多因素的干擾而影響認(rèn)知的質(zhì)量,甚至得到不正確的知識(shí)。16世紀(jì)之后,由伽利略等逐步開創(chuàng)了現(xiàn)代實(shí)證主義研究的手段,這種研究需要預(yù)設(shè)因果關(guān)系,然后在實(shí)驗(yàn)室里進(jìn)行現(xiàn)象重建。由于在實(shí)驗(yàn)條件下,干擾因素被抑制到最小,因此可以準(zhǔn)確重現(xiàn)現(xiàn)象之間的因果。實(shí)驗(yàn)與觀察的區(qū)別是:實(shí)驗(yàn)需要預(yù)先假定一種或者多種因果現(xiàn)象,然后在實(shí)驗(yàn)室設(shè)計(jì)適當(dāng)?shù)膶?shí)驗(yàn)來重現(xiàn)這些現(xiàn)象,從而證實(shí)因果關(guān)系。實(shí)驗(yàn)并不特別依賴研究人員的直觀經(jīng)驗(yàn),而且具有很強(qiáng)的說服力。觀察是需要在眾多的現(xiàn)象之間,找出其中的因果關(guān)系。這里面并沒有什么統(tǒng)一的方法和標(biāo)準(zhǔn),因此通過觀察得到結(jié)論需要直觀和經(jīng)驗(yàn),同時(shí)說服力往往也不夠。在實(shí)證主義的研究體系建立之后,觀察研究就讓位于實(shí)驗(yàn),除了少數(shù)的學(xué)科(例如宇宙學(xué)),在絕大多數(shù)自然學(xué)科中,實(shí)驗(yàn)成為形成結(jié)論的標(biāo)準(zhǔn)手段,任何結(jié)論必須在實(shí)驗(yàn)室里面被驗(yàn)證,僅僅在自然界被觀察到是不夠的。究其原因,還是因?yàn)闅v史上由于觀察手段的不足,難以獲得大量數(shù)據(jù),而建立在小數(shù)據(jù)基礎(chǔ)上的觀察,往往是不準(zhǔn)確的,得到的結(jié)論也缺乏說服力。例如通過觀察,人們最容易得到的結(jié)論是地球中心論,這種學(xué)說統(tǒng)治了科學(xué)界1 500多年。只是到了開普勒、哥白尼時(shí)代,隨著觀察數(shù)據(jù)的增加,才能夠顛覆以前的結(jié)論,重新建立新的學(xué)說。這說明:觀察研究這種人類最基本的研究手段,其結(jié)論的可靠性依賴于是否有足夠的觀察數(shù)據(jù),當(dāng)數(shù)據(jù)多到一定程度時(shí),所獲取的結(jié)論才具有可靠性。因此一個(gè)重要的問題出現(xiàn)了:對(duì)于一個(gè)具體的觀察對(duì)象,數(shù)據(jù)量達(dá)到多大時(shí),我們才能采信所獲取的結(jié)論呢?
既然過去是受限于數(shù)據(jù)的不足,使得人們研究自然問題主要依賴于實(shí)證主義的實(shí)驗(yàn)方法。那么現(xiàn)在隨著信息技術(shù)的發(fā)展,獲取數(shù)據(jù)的能力有了極大提高,進(jìn)入了大數(shù)據(jù)時(shí)代。我們是否可以重新回到先輩那里,采用觀察的方法來研究問題,獲取知識(shí)?這個(gè)不是可能不可能的問題,而是已經(jīng)在我們身邊發(fā)生的事實(shí)。在人文科學(xué)、社會(huì)科學(xué)、自然科學(xué)等領(lǐng)域已經(jīng)開始采用大數(shù)據(jù)來進(jìn)行研究,產(chǎn)生新的知識(shí),這些新知識(shí)極大地豐富了我們對(duì)于自然和社會(huì)的認(rèn)知,有許多成果是依賴試驗(yàn)方法無法想象的,其中最典型的例子可能是圖像識(shí)別和語(yǔ)音分析,在基本無法通過實(shí)驗(yàn)來重構(gòu)現(xiàn)象的人文社科領(lǐng)域更是如此。通過觀察設(shè)備(傳感器)作用于各種自然現(xiàn)象、社會(huì)活動(dòng)和人類行為,產(chǎn)生了大量的數(shù)據(jù),分析和處理這些數(shù)據(jù)就是對(duì)這些觀察結(jié)果的歸納和提煉;因此通過大數(shù)據(jù)來認(rèn)知各種自然的、社會(huì)的和人文的規(guī)律,是傳統(tǒng)意義上對(duì)于觀察研究的新提升和新表現(xiàn)。人們研究科學(xué)的手段又重新回到了觀察這個(gè)最原始和最基本的手段,但是這一次的回歸是螺旋式上升,比起張衡和托勒密時(shí)代的觀察完全不在一個(gè)層面上。從古代依靠人的感官來觀察現(xiàn)象,到現(xiàn)在依靠傳感器來觀察現(xiàn)象,數(shù)據(jù)的密度、廣度、準(zhǔn)確性和一致性已經(jīng)不能同日而語(yǔ)了,因此觀察這種研究手段在信息時(shí)代換發(fā)了新的生命力,成為新時(shí)代的科學(xué)研究方法。
2 大數(shù)據(jù)的定量化
大數(shù)據(jù)是與觀察研究密不可分的,大數(shù)據(jù)分析和處理的目標(biāo)是獲取知識(shí),得到結(jié)論。那么怎樣從大數(shù)據(jù)得到的結(jié)論呢?在小數(shù)據(jù)時(shí)代,這需要經(jīng)驗(yàn)和直觀。在大數(shù)據(jù)時(shí)代,需要應(yīng)用計(jì)算機(jī)來進(jìn)行分析和處理。一般來說,大數(shù)據(jù)分析是一種歸納的方法,因此必然具備歸納方法的普遍特點(diǎn),即通過大數(shù)據(jù)獲取的結(jié)論具有某種不確定性,這就是數(shù)據(jù)分析理論中常說的概率近似正確(PAC)[1]。確切地說,一個(gè)結(jié)論概率近似正確,是指該結(jié)論能夠以1-δ的概率獲取,并且具有誤差ε(類似于機(jī)器學(xué)習(xí)里說的泛化誤差)。也就是說:我們通過大數(shù)據(jù)來獲取知識(shí),不能保證每次都能夠正確獲取,而且獲取的知識(shí)也不能保證絕對(duì)正確。δ和ε這兩個(gè)數(shù),反映了使用大數(shù)據(jù)獲取知識(shí)的能力和精度。這是所有歸納分析的共同特點(diǎn),也是觀察研究的固有性質(zhì)。這一點(diǎn)既可以說是優(yōu)點(diǎn),又可以說是缺陷。優(yōu)點(diǎn)是這樣可以保證我們至少獲得一個(gè)接近真理的結(jié)論;缺點(diǎn)是我們不能期待獲取絕對(duì)正確的結(jié)論。如文獻(xiàn)[2]中所說:“當(dāng)我們掌握了大量新型數(shù)據(jù)時(shí),精確性就不那么重要了,我們同樣可以掌握事情的發(fā)展趨勢(shì)。大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無法實(shí)現(xiàn)精確性。然而,除了一開始會(huì)與我們的直覺相矛盾之外,接受數(shù)據(jù)的不精確和不完美,我們反而能夠更好地進(jìn)行預(yù)測(cè),也能夠更好地理解這個(gè)世界?!?
但是問題到此遠(yuǎn)沒有結(jié)束,反而是剛剛開始。和古代的科學(xué)家不同,在大數(shù)據(jù)時(shí)代,我們需要回答這樣一個(gè)問題:給定任意的δ和ε,為了在大于1-δ的概率下得到一個(gè)誤差小于ε的結(jié)論,我們需要多少數(shù)據(jù)?如果能夠回答這個(gè)問題,哪怕是在某種程度上回答了這一問題,我們就超越了古代科學(xué)家憑經(jīng)驗(yàn)和直觀做出結(jié)論的限制,真正把獲取結(jié)論的過程建立在客觀和科學(xué)的基礎(chǔ)上,這樣得到的結(jié)論自然也就有了很強(qiáng)的說服力。
為了更加仔細(xì)考察從大數(shù)據(jù)獲取的知識(shí)的過程,從中得到方法論的一些結(jié)果,我們需要明確一些概念。
第1個(gè)概念是樣本和分布。從觀察現(xiàn)象得到的數(shù)據(jù)并從中來獲取知識(shí),首先需要解決的問題是得到的數(shù)據(jù)不可能是所有的數(shù)據(jù),我們能夠得到的數(shù)據(jù)永遠(yuǎn)是客觀上整體數(shù)據(jù)的一部分。顯而易見,只有明確知道樣例數(shù)據(jù)與整體數(shù)據(jù)之間滿足的分布假設(shè),從樣例來獲取知識(shí)才具有可靠性和準(zhǔn)確性。其中最受關(guān)注的就是樣例集合與整體數(shù)據(jù)之間具有何種分布狀態(tài),同分布自然是理想狀態(tài),但是也已經(jīng)發(fā)展了一些方法來討論非同分布的情況[3-4]。
第2個(gè)概念是數(shù)據(jù)的清洗。觀察是現(xiàn)象的記錄,并且從記錄的數(shù)據(jù)來獲取結(jié)論。數(shù)據(jù)都是具有屬性的,如果屬性與期望的結(jié)論之間沒有可關(guān)聯(lián)的關(guān)系,那么數(shù)據(jù)只是一堆隨機(jī)的噪聲而已。在小數(shù)據(jù)時(shí)代,我們主要靠直覺和經(jīng)驗(yàn)來篩選屬性和處理數(shù)據(jù),使得從處理后的數(shù)據(jù)能夠有效地得到結(jié)論。在現(xiàn)代大數(shù)據(jù)分析和處理過程中,發(fā)展了一些自動(dòng)或者半自動(dòng)的方法來進(jìn)行處理。
第3個(gè)概念是獲取結(jié)論的成本。從計(jì)算機(jī)科學(xué)的角度,是指獲取結(jié)論所花費(fèi)的時(shí)間復(fù)雜度和數(shù)據(jù)空間復(fù)雜度,主要是時(shí)間復(fù)雜度。
綜上所述,在大數(shù)據(jù)背景下獲取結(jié)論,與數(shù)學(xué)和大部分物理學(xué)的結(jié)論形式不同,采用了概率近似正確的概念,并由此建立結(jié)論的獲取方法和標(biāo)準(zhǔn)。實(shí)際上,由于觀察得到的數(shù)據(jù)總是局部的和不完整的,所以通過觀察得到的結(jié)論原則上都是PAC形式。
現(xiàn)在我們可以討論一個(gè)有意義的問題:預(yù)設(shè)一個(gè)目標(biāo)結(jié)論以后,需要多少數(shù)據(jù)量才能以PAC的方式得到該結(jié)論。這個(gè)問題無疑是大數(shù)據(jù)研究中最重要的內(nèi)容之一。在小數(shù)據(jù)時(shí)代,對(duì)于這個(gè)問題并沒有特別關(guān)注,因?yàn)橥ㄟ^數(shù)據(jù)來獲取結(jié)論是借助直觀和經(jīng)驗(yàn)的,數(shù)據(jù)量的多少對(duì)于能夠得到結(jié)論沒有直接的聯(lián)系,一個(gè)聰明人只要少數(shù)的幾個(gè)例子就可以“猜”到結(jié)論,而對(duì)于一般的人來說,再多的例子也無法從中得到結(jié)論。但是在大數(shù)據(jù)時(shí)代,由于是通過設(shè)計(jì)算法,借助計(jì)算機(jī)進(jìn)行數(shù)據(jù)分析,因此數(shù)據(jù)量的多少自然會(huì)對(duì)于結(jié)論的產(chǎn)生和結(jié)論的正確性具有直接的關(guān)系。由于大數(shù)據(jù)的研究才僅僅起步,對(duì)于這個(gè)問題目前上沒有一般的結(jié)果。但是在附加一些不太苛刻的條件之后,卻有一個(gè)出乎意料的結(jié)果,這就是Blumer等在1989年得到的一個(gè)定理。
定理1(Blumer定理)[5]:設(shè)D是實(shí)例的集合,S是樣例的集合,H是目標(biāo)函數(shù),A是算法,如果:
(1)S與D具有相同的分布;
(2)H是一個(gè)二分類函數(shù);
(3)H在算法A的假設(shè)空間中。
可以在期望1-δ內(nèi),得到函數(shù)G,并且G與H的誤差不超過ε,即以PAC的模式得到函數(shù)G。其中VC([?])是算法A的假設(shè)函數(shù)空間[?]的VC維數(shù)。
我們經(jīng)常說大數(shù)據(jù)有4個(gè)V,即體量(Volume)、高速(Velocity)、多態(tài)(Variety)和價(jià)值(Value)。這些V反映了大數(shù)據(jù)的特點(diǎn),但是究竟達(dá)到什么程度才叫做大數(shù)據(jù),需要有一個(gè)量化的討論,否則大數(shù)據(jù)就僅僅是一個(gè)籠統(tǒng)的概念。
結(jié)合前面的討論和定理,我們嘗試給出一種大數(shù)據(jù)的量化的解釋。首先要指出的是:數(shù)據(jù)量大不大是依據(jù)所要得到的結(jié)論性質(zhì)而言。對(duì)于一個(gè)工廠的產(chǎn)品檢驗(yàn)來說,可能幾百個(gè)抽樣(觀察)數(shù)據(jù)就足夠了,但是對(duì)于暗物質(zhì)的探測(cè),可能幾個(gè)P的數(shù)據(jù)量也未必夠用[7]。這說明談?wù)摂?shù)據(jù)量之大小,脫離了目標(biāo)是無意義的。
定理1指出:在給定目標(biāo)(包括預(yù)設(shè)的結(jié)論形式和精度,即δ和ε)的前提下,當(dāng)數(shù)據(jù)量達(dá)到一定程度后,就可以按照PAC模式得到結(jié)論。因此我們可以把Blumer定理中的N的倒數(shù)1/N定義為數(shù)據(jù)的價(jià)值密度,這就給出了4個(gè)V中Value的量化定義。在數(shù)據(jù)平等的前提下,每一個(gè)數(shù)據(jù)相對(duì)于期望結(jié)論與相應(yīng)算法,它的價(jià)值就是1/N。同樣的數(shù)據(jù)對(duì)于不同的期望結(jié)論和算法,其價(jià)值是不同的。同時(shí)根據(jù)該定理,可以定義N為解決問題所需要的最小數(shù)據(jù)體量,即Volume。當(dāng)數(shù)據(jù)量達(dá)到N時(shí),就可以稱為關(guān)于期望結(jié)論和相應(yīng)算法的大數(shù)據(jù)。由于這個(gè)數(shù)量的巨大,因此如何存儲(chǔ)和處理海量數(shù)據(jù)是重要的技術(shù)問題。對(duì)于另外兩個(gè)V:Velocity是指需要有快速存儲(chǔ)技術(shù)和計(jì)算技術(shù)來接納和處理高速涌入的數(shù)據(jù),但是也可以看作是最小數(shù)據(jù)體量與問題解決時(shí)間要求的比值,這個(gè)值決定了數(shù)據(jù)處理的最低速度;Variety是指數(shù)據(jù)的來源和類型很多,對(duì)于問題解決而言,這種多態(tài)性取決于數(shù)據(jù)清洗的質(zhì)量。
一般來說,數(shù)據(jù)的多態(tài)性越豐富,越是會(huì)有利于數(shù)據(jù)的整理和表現(xiàn),也越會(huì)容易得到結(jié)論,對(duì)機(jī)器學(xué)習(xí)的語(yǔ)言來說,越容易保證目標(biāo)函數(shù)在假設(shè)集合中。當(dāng)然,數(shù)據(jù)的多態(tài)性會(huì)增加數(shù)據(jù)獲取和整理的難度,因此需要在數(shù)據(jù)處理的成本和效率之間加以折中[8-10]。
3 1個(gè)NP復(fù)雜類的例子
上面已經(jīng)討論了如何通過大數(shù)據(jù)來獲取結(jié)論,以及獲取結(jié)論的精確性和可靠性問題。在這一節(jié),我們繼續(xù)通過1個(gè)例子來說明這個(gè)問題。
一個(gè)NP問題是指一臺(tái)非確定圖靈機(jī)在多項(xiàng)式時(shí)間可以解決的問題。NP問題能否具有確定的多項(xiàng)式算法是一個(gè)長(zhǎng)期以來未能解決的重要問題?,F(xiàn)在我們通過大數(shù)據(jù)的思維方式來探討此類問題,尋求新的解決問題思路。
定理2: 對(duì)于任意的NP語(yǔ)言類L,以及給定的n、δ和ε,則存在一個(gè)算法A,當(dāng)隨機(jī)抽取的樣例個(gè)數(shù)超過了N=[1ε4log22δ+f2(n)log213ε]
時(shí),可以期望1-δ獲取一個(gè)確定的函數(shù),該函數(shù)對(duì)每一個(gè)長(zhǎng)度等于n的x,計(jì)算x ? L?誤差不超過ε。并且N多項(xiàng)式(實(shí)際上是平方)依賴于n,1/δ和1/ε。
這個(gè)定理只是一個(gè)理論上的結(jié)果,因?yàn)榧词巩?dāng)n=100,δ=0.05,ε=0.01時(shí),需要的樣例個(gè)數(shù)也達(dá)到了8 000萬這樣的數(shù)量級(jí)。對(duì)于這么多的樣例,需要進(jìn)行標(biāo)注,即一個(gè)個(gè)注明它們是否屬于L,本身就是一項(xiàng)十分費(fèi)力的事情。但是該定理卻表現(xiàn)了通過大數(shù)據(jù)分析獲取結(jié)論一些規(guī)律。首先該結(jié)果表明了通過一些例子的分析,就可以得到一般性的結(jié)論(具有一定的誤差)。對(duì)于非確定語(yǔ)言L而言,不需要去構(gòu)造相應(yīng)的圖靈機(jī),只需要計(jì)算一定數(shù)量的樣例,同樣可以某種概率得到一個(gè)判斷函數(shù)H,在誤差ε的范圍內(nèi)判斷是否x ? L?大數(shù)據(jù)給我們帶來的一個(gè)重要方法論正是在這個(gè)意義上的,通過對(duì)大量的觀察數(shù)據(jù)的分析和處理,可以得到原來只有實(shí)驗(yàn)驗(yàn)證和邏輯推理才能得到的結(jié)論。這種模式在古代就存在,但是后來被更先進(jìn)的實(shí)證主義的研究方法所取代,而大數(shù)據(jù)的出現(xiàn)重新召回了它的靈魂。
通過例子來證明問題,這個(gè)方法在80年代就被洪加威等研究過[11],稱為例證法。在小數(shù)據(jù)時(shí)代,例證法需要經(jīng)過仔細(xì)挑選的特殊例子,在大數(shù)據(jù)時(shí)代,可以通過大量的數(shù)據(jù)來取代這個(gè)苛刻的條件,因此大數(shù)據(jù)的出現(xiàn)將例證法推到了幾乎可以在所有領(lǐng)域應(yīng)用的地步。這對(duì)于過去只靠實(shí)驗(yàn)和邏輯證明問題而言自然是開創(chuàng)了一個(gè)新時(shí)代。
4 結(jié)束語(yǔ)
大數(shù)據(jù)提供了認(rèn)識(shí)世界的新方法和新角度。有別于我們習(xí)慣的實(shí)驗(yàn)驗(yàn)證和邏輯推理方法,大數(shù)據(jù)定義了通過觀察和樣例獲取結(jié)論的模式,這種模式古已有之,而且是人類研究自然的最古老的方法。大數(shù)據(jù)的出現(xiàn)使得這一方法重新煥發(fā)活力,并且賦予了新的內(nèi)容和形式。由于大數(shù)據(jù)本質(zhì)上是通過觀察來獲取結(jié)論,因此和所有采用觀察方法研究問題(無論是否采用大數(shù)據(jù)分析)具有相通之處,所獲取的結(jié)論具有某種不確定。在當(dāng)前討論的大數(shù)據(jù)分析方法中,這種不確定性主要表現(xiàn)在兩個(gè)方面:一個(gè)是獲取結(jié)論的可能性,一個(gè)是結(jié)論本身的可靠性。同時(shí),獲取結(jié)論的不確定性可以在某些條件下任意逼近確定性。正如舍恩伯格所說:這種不確定性不是表示大數(shù)據(jù)分析不如物理學(xué)和數(shù)學(xué),而是說明大數(shù)據(jù)提供了一種新的認(rèn)知世界的模式。
大數(shù)據(jù)分析并不排斥傳統(tǒng)的物理學(xué)和數(shù)學(xué)的研究模式,相反,大數(shù)據(jù)分析建立的關(guān)聯(lián)關(guān)系可以為因果關(guān)系和邏輯關(guān)系的研究提供佐證和啟示。
參考文獻(xiàn)
[1] MITCHELL T. Machine Learning [M]. 曾華軍,譯. 北京: 機(jī)械工業(yè)出版社, 2008
[2] SCHONBERNER V. Big Data:A Revolution that Will Transform How We Live, Work and Think [M]. 周濤, 譯. 杭州: 浙江人民出版社,2013
[3] FAKOOR R , LADHAK F , NAZI A , et al. Using Deep Learning to Enhance Cancer Diagnosis and Classification[C]// Proceedings of the 30 th International Conference on Machine Learning. USA: ICML, 2013: 211-218
[4] WANG A, AN N, YANG J, et al. Alterovitz, Incremental Wrapper Based Gene Selection with Markov Blanket[C]//ASE BioMedCom Conference. USA. USA: ASE, 2014: 106-108
[5] BLUMER A, EHRENFEUCHT A, HAUSSLER D, et al. Learnability and the Vapnik-Cherbonenkis Dimension [J]. Journal of the ACM, 1989: 36(4): 929-965
[6] 羅軍舟. AMS大數(shù)據(jù)處理的挑戰(zhàn)[R]. 合肥: 中國(guó)計(jì)算機(jī)大會(huì), 2015
[7] 周志華, 李武軍, 張利軍. CCF2014-2015中國(guó)計(jì)算機(jī)科學(xué)技術(shù)發(fā)展報(bào)告[M].北京: 機(jī)械工業(yè)出版社, 2015
[8] TOPOL E. The Creative Destruction of Medicine [M]. 張南, 等譯. 北京: 電子工業(yè)出版社, 2014
[9] CHO K. A Brief Summary of the Panel Discussion at DL Workshop of ICML[EB/OL].[2015-07-13]. http://deeplearning.net/2015/07/13/a-brief-summary-of-the-panel-discussion-at-dl-workshop-icml-2015
[10] 洪加威. 能用例證法來證明幾何定理嗎?[J]. 中國(guó)科學(xué)A輯, 1986(3): 234-242
[11] LASZLO BARABASI A. Bursts: The Hidden Pattern Behind Everything We Do [M]. 馬慧, 譯. 北京: 人民出版社, 2012