深度學(xué)習(xí)是人工智能發(fā)展的主要驅(qū)動(dòng)力,沒有深度學(xué)習(xí)就沒有今天的人工智能。
今天的人工智能能夠取得如此輝煌的進(jìn)步,在很大程度上要?dú)w功于深度學(xué)習(xí)的提升。也可以說(shuō),沒有深度學(xué)習(xí)就沒有今天的人工智能。從發(fā)展的歷程來(lái)看,深度學(xué)習(xí)的進(jìn)步軌跡幾乎是信息領(lǐng)域進(jìn)步的縮影。但是,深度學(xué)習(xí)算法也帶來(lái)了一些考驗(yàn)人類社會(huì)的問(wèn)題,比如人工智能的可解釋性。未來(lái)幾年,深度學(xué)習(xí)領(lǐng)域的重要發(fā)展方向是可解釋性,這也是捆綁在人工智能領(lǐng)域的一道“枷鎖”,需要高級(jí)的深度學(xué)習(xí)來(lái)解答。
1981年10月17日,在瑞典斯德哥摩爾舉行的諾貝爾獎(jiǎng)授獎(jiǎng)大會(huì)上,美國(guó)加利福尼亞理工學(xué)院心理生物學(xué)教授斯佩里(Roger W. Sperry)和哈佛醫(yī)學(xué)院神經(jīng)生物學(xué)教授哈貝爾(David H. Hubel)、韋塞爾(Torsten N. Wiesel)分享了1981年諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)。斯佩里因證明大腦兩半球的高度專門化以及許多較高級(jí)的功能集中在右半球而獲獎(jiǎng),哈貝爾和韋塞爾因研究視覺系統(tǒng)的信息處理方面有所發(fā)現(xiàn)而獲獎(jiǎng)。
哈貝爾和韋塞爾的獲獎(jiǎng)要?dú)w功于“喵星人”。研究從1958年開始,他們?cè)谪埖暮竽X頭骨上開了一個(gè)小洞,向洞里插入電極,測(cè)量神經(jīng)元的活躍程度,從而發(fā)現(xiàn)了一種神經(jīng)元細(xì)胞——方向選擇性細(xì)胞,即后腦皮層的不同視覺神經(jīng)元與瞳孔所受刺激之間確實(shí)存在某種對(duì)應(yīng)關(guān)系。這一重要發(fā)現(xiàn)激活了一度沉寂的神經(jīng)網(wǎng)絡(luò)研究。但是,人們不得不面對(duì)這樣的現(xiàn)實(shí):神經(jīng)網(wǎng)絡(luò)相關(guān)運(yùn)算中耗費(fèi)的運(yùn)算量與神經(jīng)元數(shù)目的平方成正比。基于硬件基礎(chǔ),那時(shí)人們普遍認(rèn)為潛在的龐大計(jì)算量幾乎是無(wú)法實(shí)現(xiàn)的。
計(jì)算能力成了攔路虎,人們探尋真理的腳步卻一刻沒有停歇。同樣是1981年,IBM公司首次在PC機(jī)中應(yīng)用了8088芯片,開創(chuàng)了全新的微機(jī)時(shí)代。1985年,英特爾公司推出了32位微處理器,而且制造工藝有了很大的進(jìn)步。許多人對(duì)286、386、486機(jī)器還存有記憶,人類的計(jì)算能力伴隨著摩爾定律在大踏步前進(jìn)。關(guān)于神經(jīng)網(wǎng)絡(luò)的算法也有了新的突破。1986年,加拿大多倫多大學(xué)教授欣頓(Geoffery Hinton)和美國(guó)斯坦福大學(xué)教授羅姆哈特(David Rumelhart)等人提出了反向傳播(backpropagation,BP)算法,解決了兩層神經(jīng)網(wǎng)絡(luò)所需要的復(fù)雜計(jì)算量問(wèn)題,大大減少了原來(lái)預(yù)計(jì)的運(yùn)算量。20世紀(jì)80年代末到90年代初,共享存儲(chǔ)器方式的大規(guī)模并行計(jì)算機(jī)又獲得了新的發(fā)展。1993年,美國(guó)克雷(Cray)公司成功研制了第一臺(tái)具有標(biāo)志性的大規(guī)模并行計(jì)算機(jī)。我國(guó)的銀河系列并行計(jì)算機(jī)在國(guó)際上也獨(dú)樹一幟。進(jìn)入21世紀(jì),大規(guī)模并行計(jì)算機(jī)蓬勃發(fā)展,逐漸成為國(guó)際上高性能計(jì)算機(jī)的主流。
伴隨著計(jì)算處理能力的提升,深度學(xué)習(xí)有了較快的發(fā)展,從結(jié)構(gòu)上分為生成型深度結(jié)構(gòu)、判別型深度結(jié)構(gòu)、混合型深度結(jié)構(gòu)3類。1989年,加拿大多倫多大學(xué)教授樂(lè)昆(Yann LeCun)和他的同事提出了卷積神經(jīng)網(wǎng)絡(luò),這是一種包含卷積層的深度神經(jīng)網(wǎng)絡(luò)模型,較早嘗試深度學(xué)習(xí)對(duì)圖像的處理。2012年,欣頓構(gòu)建深度神經(jīng)網(wǎng)絡(luò),在圖像識(shí)別問(wèn)題上取得質(zhì)的提升和突破。百度公司將相關(guān)最新技術(shù)成功應(yīng)用到人臉識(shí)別和自然圖像識(shí)別問(wèn)題,并推出相應(yīng)的產(chǎn)品。同樣是從2012年起,人們逐漸熟悉谷歌大腦(Google Brain)團(tuán)隊(duì)。2015年至2017年初,谷歌公司的人工智能團(tuán)隊(duì)DeepMind所創(chuàng)造的阿爾法狗(AlphaGo)相繼戰(zhàn)勝了人類職業(yè)圍棋選手,這只“狗”引起世界的關(guān)注,人類圍棋大師們陷入沉思。
深度學(xué)習(xí)當(dāng)前的能力范圍
以使用決策樹、推導(dǎo)邏輯規(guī)劃、聚類、貝葉斯網(wǎng)絡(luò)等傳統(tǒng)算法對(duì)結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析為基礎(chǔ),對(duì)真實(shí)世界中的事件做出決策和預(yù)測(cè),通常被稱為機(jī)器學(xué)習(xí)。例如,無(wú)人駕駛汽車識(shí)別交通標(biāo)志,這種機(jī)器視覺就是典型的機(jī)器學(xué)習(xí)。但是,在特定的天氣條件下,算法不靈,機(jī)器學(xué)習(xí)就有了局限。
深度學(xué)習(xí)在機(jī)器學(xué)習(xí)的基礎(chǔ)上又前進(jìn)了一步。同樣是從數(shù)據(jù)中提取知識(shí)來(lái)解決和分析問(wèn)題,深度學(xué)習(xí)使用的是人工神經(jīng)網(wǎng)絡(luò)算法,允許發(fā)現(xiàn)中間表示來(lái)擴(kuò)展標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)。這些中間表示能夠解決更復(fù)雜的問(wèn)題,并且以更高的精度、更少的觀察和更簡(jiǎn)便的手動(dòng)調(diào)諧,潛在地解決其他問(wèn)題。最常見的深度學(xué)習(xí)類型是前饋深層神經(jīng)網(wǎng)絡(luò)(DNN),其使用大量的互連處理單元層從原始輸入數(shù)據(jù)中“發(fā)現(xiàn)”適當(dāng)?shù)闹虚g表示。DNN提供了一個(gè)強(qiáng)大的框架,可應(yīng)用于各種業(yè)務(wù)問(wèn)題。例如,DNN可以分析視網(wǎng)膜掃描以“辨識(shí)”哪些模式指示健康或患病視網(wǎng)膜(并指示特定疾?。??!氨孀R(shí)”過(guò)程依賴于強(qiáng)力的高性能計(jì)算。
根據(jù)高德納咨詢公司的相關(guān)資料可以看出,深度學(xué)習(xí)已經(jīng)在圖像識(shí)別、機(jī)器翻譯、語(yǔ)音識(shí)別、欺詐檢測(cè)、產(chǎn)品推薦等方面得到應(yīng)用。高德納咨詢公司估計(jì),從初創(chuàng)公司到技術(shù)巨頭,全球有2 000多家供應(yīng)商正在推出深度學(xué)習(xí)相關(guān)產(chǎn)品。但是,當(dāng)前的深度學(xué)習(xí)仍有一定的局限。
第一,深度學(xué)習(xí)技術(shù)是啟發(fā)式的。深度學(xué)習(xí)能否解決一個(gè)給定的問(wèn)題還暫無(wú)定論,因?yàn)槟壳斑€沒有數(shù)學(xué)理論可以表明一個(gè)“足夠好”的深度學(xué)習(xí)解決方案是存在的。該技術(shù)是啟發(fā)式的,工作即代表有效。
第二,深度學(xué)習(xí)技術(shù)是不可預(yù)期的。深度學(xué)習(xí)涉及隱藏層,在許多情況下,即使是權(quán)威科學(xué)家也不能解釋這些層面發(fā)生了什么,這樣的“黑盒子”甚至?xí)茐暮弦?guī)性,對(duì)傳統(tǒng)道德層面形成挑戰(zhàn)。
第三,深度學(xué)習(xí)系統(tǒng)化運(yùn)用不成熟。目前,沒有適合所有行業(yè)且通用的深度學(xué)習(xí),企業(yè)想要?jiǎng)?chuàng)建自己的解決方案就必須混合和匹配可用的工具,并能夠與更新迭代的軟件相互兼容。
第四,部分錯(cuò)誤的結(jié)果造成不良影響。深度學(xué)習(xí)目前不能以100%精度解決問(wèn)題。深度學(xué)習(xí)延續(xù)了較淺層機(jī)器學(xué)習(xí)的大多數(shù)風(fēng)險(xiǎn)和陷阱。
第五,學(xué)習(xí)速度不盡如人意。一個(gè)2歲的孩子可以在被告知幾次后識(shí)別大象,而深度學(xué)習(xí)系統(tǒng)可能需要成千上萬(wàn)的例子,并且“看”這些例子數(shù)十萬(wàn)次或數(shù)百萬(wàn)次才能成功。
近幾年來(lái),人工智能領(lǐng)域又迎來(lái)了一次飛躍,深度學(xué)習(xí)在圖像識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域都得到落地和應(yīng)用,涌現(xiàn)出了依圖、商湯、寒武紀(jì)等人工智能企業(yè)。但是,深度學(xué)習(xí)的瓶頸依舊困擾著產(chǎn)學(xué)研。首先是數(shù)據(jù)瓶頸,幾乎所有的深度神經(jīng)網(wǎng)絡(luò)都需要大量數(shù)據(jù)作為訓(xùn)練樣本,而在醫(yī)療、無(wú)人駕駛等領(lǐng)域,因無(wú)法獲取大量的標(biāo)注數(shù)據(jù),深度學(xué)習(xí)無(wú)法展開。雖然谷歌等互聯(lián)網(wǎng)巨頭開始研發(fā)人造數(shù)據(jù)技術(shù),但是真正的效果還有待評(píng)估。其次是認(rèn)知瓶頸,這是由深度學(xué)習(xí)的特性決定。深度學(xué)習(xí)對(duì)感知型任務(wù)支持較好,而對(duì)認(rèn)知型任務(wù)支持的層次較低,無(wú)法形成理解、直覺、頓悟和自我意識(shí)的能力。科學(xué)家推斷,可能是這一切源于人類知識(shí)認(rèn)識(shí)的局限,而深度學(xué)習(xí)在某些方面已經(jīng)超越了人類的認(rèn)知能力和認(rèn)知范圍。
深度學(xué)習(xí)是人工智能發(fā)展的主要驅(qū)動(dòng)力。目前,深度學(xué)習(xí)主要是在弱人工智能的發(fā)展中產(chǎn)生重要作用,尤其是特定的行業(yè)應(yīng)用,如圖像識(shí)別、自動(dòng)駕駛和機(jī)器翻譯等。但是,要支撐和實(shí)現(xiàn)與人腦類似的強(qiáng)人工智能,美國(guó)白宮科技政策辦公室認(rèn)為至少在幾十年內(nèi)無(wú)法實(shí)現(xiàn)。那么,對(duì)深度學(xué)習(xí)來(lái)說(shuō),未來(lái)有哪些發(fā)展的可能?科學(xué)家正在努力研究什么?答案可能有以下幾個(gè)方面。
突破知識(shí)表示和學(xué)習(xí)的認(rèn)知智能或許可以在一定程度上緩解一些瓶頸。首先,知識(shí)是人類通過(guò)大量生活中的數(shù)據(jù)總結(jié)出的一些規(guī)律,知識(shí)可以彌補(bǔ)數(shù)據(jù)的缺失和不足。其次,知識(shí)是經(jīng)過(guò)人腦深度加工所形成的,可以支持直覺、頓悟等深度認(rèn)知任務(wù)。此外,知識(shí)的離散屬性和良好的可讀性使其成為天然絕佳的解釋性工具。目前,突破常識(shí)知識(shí)表示和學(xué)習(xí)的認(rèn)知智能已經(jīng)深受各國(guó)政府和學(xué)術(shù)界重視。美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)創(chuàng)建了“機(jī)器常識(shí)”項(xiàng)目,將探索常識(shí)的各種收集方法,以及常識(shí)在認(rèn)知理解、自然語(yǔ)言處理、深度學(xué)習(xí)等領(lǐng)域的應(yīng)用。谷歌公司于2012年提出知識(shí)圖譜計(jì)劃,擬面向通用領(lǐng)域構(gòu)建一個(gè)龐大的網(wǎng)絡(luò)圖譜來(lái)描述世界上實(shí)體與實(shí)體之間的關(guān)系。臉書(Facebook)、微軟等公司也相繼推出自己的知識(shí)圖譜計(jì)劃,基于這些圖譜,分別研發(fā)基于深度認(rèn)知的搜索、自然語(yǔ)言問(wèn)答等應(yīng)用。
表征學(xué)習(xí)是人工智能實(shí)現(xiàn)飛速發(fā)展的重要因素。但是,目前的表征學(xué)習(xí)還集中在單模態(tài)數(shù)據(jù),構(gòu)建跨模態(tài)表征學(xué)習(xí)機(jī)制是實(shí)現(xiàn)新一代人工智能的重要環(huán)節(jié)。人類的認(rèn)知能力是建立在視覺、聽覺、語(yǔ)言等多種感知通道協(xié)同基礎(chǔ)上的,這種融合與協(xié)同能夠有效地避免單一通道的缺陷與錯(cuò)誤,從而實(shí)現(xiàn)對(duì)世界的深層次認(rèn)知。未來(lái)的方向是借鑒生物對(duì)客觀世界的多通道融合感知背后所蘊(yùn)藏的信號(hào)及信息表達(dá)和處理機(jī)制,對(duì)世界所蘊(yùn)含的復(fù)雜機(jī)構(gòu)進(jìn)行高效、一致表征,提出對(duì)跨越不同媒體類型數(shù)據(jù)進(jìn)行泛化分析的基礎(chǔ)理論、方法和技術(shù),模擬超越生物的感知能力。
通過(guò)對(duì)深度學(xué)習(xí)模型架構(gòu)進(jìn)行理解,以及對(duì)深度學(xué)習(xí)驅(qū)動(dòng)的非凸性問(wèn)題的局部最優(yōu)解進(jìn)行分析,尤其對(duì)非凸性問(wèn)題的目標(biāo)整體性質(zhì)進(jìn)行刻畫,實(shí)現(xiàn)對(duì)深度學(xué)習(xí)的解釋。隨后,人們將可解釋性建模問(wèn)題轉(zhuǎn)換為具有混合變量的約束多目標(biāo)優(yōu)化問(wèn)題,設(shè)計(jì)數(shù)據(jù)驅(qū)動(dòng)和知識(shí)引導(dǎo)的啟發(fā)式優(yōu)化求解算法,形成一整套可解釋性“白盒”模型構(gòu)建的理論和方法,設(shè)計(jì)可解釋性建模算法庫(kù)。
量子計(jì)算至少在未來(lái)10年內(nèi)不會(huì)影響深度學(xué)習(xí)。谷歌大腦團(tuán)隊(duì)的科學(xué)家迪安(Jeff Dean)認(rèn)為,人的大腦不是量子計(jì)算機(jī),量子計(jì)算幾乎不會(huì)對(duì)深度學(xué)習(xí)造成特別明顯的影響,特別是在中短期(比如未來(lái)10年)內(nèi)。但是,未來(lái)的未來(lái),量子計(jì)算是不是能從根本上改變深度學(xué)習(xí),這誰(shuí)也說(shuō)不準(zhǔn)。