文/靳芳
深度學(xué)習(xí)借助搭建多隱層神經(jīng)網(wǎng)絡(luò)模型,在海量訓(xùn)練數(shù)據(jù)集的基礎(chǔ)上學(xué)習(xí)到隱層特征,在各類型的學(xué)習(xí)任務(wù)上取得了最優(yōu)算法性能。這種在海量數(shù)據(jù)集上進(jìn)行有監(jiān)督學(xué)習(xí),并提取隱層特征的方法,能實(shí)現(xiàn)對特征高效的端到端學(xué)習(xí),尤其適用于大規(guī)模標(biāo)注數(shù)據(jù)集。深度學(xué)習(xí)自2006年由Geoffrey Hinton 重新提出以來,已經(jīng)逐步從實(shí)驗(yàn)里走出,在各方面取得了令人矚目的成就,其中包括利用計(jì)算機(jī)視覺技術(shù)在智慧安防、人臉識別領(lǐng)域的應(yīng)用,自然語言處理技術(shù)在機(jī)器翻譯、閱讀理解及客服機(jī)器人領(lǐng)域的應(yīng)用,語音處理技術(shù)在語音識別、語音合成等領(lǐng)域的應(yīng)用,可以預(yù)計(jì)隨著深度學(xué)習(xí)技術(shù)的不斷深入發(fā)展以及與各個(gè)行業(yè)應(yīng)用的深入結(jié)合,會有越來越多的智能應(yīng)用在各個(gè)行業(yè)落地,并取得顯著的商業(yè)成果。
2010年斯坦福大學(xué)的李飛飛教授發(fā)布了一個(gè)包含2 萬多個(gè)類別、超過1400 萬圖片的圖像標(biāo)注數(shù)據(jù)集ImageNet。ImageNet 數(shù)據(jù)集的發(fā)布標(biāo)志著圖像處理領(lǐng)域有了大規(guī)模的基礎(chǔ)數(shù)據(jù)集測量基準(zhǔn),此數(shù)據(jù)集逐漸成為業(yè)界圖形圖像相關(guān)算法性能的實(shí)際衡量標(biāo)準(zhǔn)。在ImageNet 之后,一些企業(yè)和大型研究機(jī)構(gòu)逐漸認(rèn)識到大規(guī)?;A(chǔ)數(shù)據(jù)集對提升人工智能在領(lǐng)域內(nèi)應(yīng)用效果的價(jià)值,并逐步開始建立屬于自己的數(shù)據(jù)集,商湯和曠視公司構(gòu)建的億級人臉識別數(shù)據(jù)集、科大訊飛構(gòu)建的大規(guī)模語音識別數(shù)據(jù)集、百度發(fā)布的多場景無人駕駛數(shù)據(jù)集都是很好的樣例。
深度學(xué)習(xí)在計(jì)算機(jī)視覺、自然語言處理、無人駕駛、語音識別等領(lǐng)域取得了長足的發(fā)展。然而,隨著深度學(xué)習(xí)模型越來越復(fù)雜,為實(shí)現(xiàn)各種網(wǎng)絡(luò)模型架構(gòu),開發(fā)人員需要耗費(fèi)大量時(shí)間重復(fù)實(shí)現(xiàn)各類底層算法與程序庫。為實(shí)現(xiàn)更高效的深度學(xué)習(xí)模型開發(fā),學(xué)術(shù)界和企業(yè)界推出了多種深度學(xué)習(xí)框架,包括TensorFlow、Caffe、Torch、MXNet 等。這些框架的功能通常包括:自動(dòng)符號運(yùn)算、GPU 加速、模塊化封裝等。
現(xiàn)有的深度學(xué)習(xí)模型能夠通過發(fā)掘各種隱層特征,發(fā)現(xiàn)事件之間的關(guān)聯(lián)性,建立映射關(guān)系,但是在現(xiàn)有的框架下,深度學(xué)習(xí)模型無法解釋因果關(guān)系。簡單來說,深度學(xué)習(xí)學(xué)到的是輸入與輸出特征間的復(fù)雜非線性關(guān)系,而非因果性的表示。深度學(xué)習(xí)是一種基于概率統(tǒng)計(jì)的算法,其學(xué)習(xí)到的是以概率表示的非線性連接關(guān)系,無法像人類一樣進(jìn)行舉一反三的應(yīng)用。
深度學(xué)習(xí)模型性能嚴(yán)重依賴于大規(guī)模的標(biāo)注數(shù)據(jù)集,然而數(shù)據(jù)的標(biāo)注過程需要耗費(fèi)大量的人力與物力,大規(guī)模高質(zhì)量領(lǐng)域標(biāo)注數(shù)據(jù)的建立需要進(jìn)行長期積累。首先,在一些關(guān)鍵領(lǐng)域的標(biāo)注數(shù)據(jù)還存在缺失現(xiàn)象,例如醫(yī)療行業(yè),由于標(biāo)注過程復(fù)雜且需要領(lǐng)域?qū)<业纳疃葏⑴c,使得大規(guī)模標(biāo)注數(shù)據(jù)一直是阻礙智能算法深入應(yīng)用的瓶頸。其次,現(xiàn)存的基礎(chǔ)數(shù)據(jù)集質(zhì)量參差不齊,高價(jià)值的領(lǐng)域數(shù)據(jù)基本上由少數(shù)幾家巨頭或政府所掌握?;A(chǔ)數(shù)據(jù)集的缺乏,使得深度學(xué)習(xí)模型在領(lǐng)域中的有效訓(xùn)練與落地應(yīng)用面臨嚴(yán)重挑戰(zhàn)。
現(xiàn)在已經(jīng)有較多的深度學(xué)習(xí)計(jì)算框架,但是實(shí)際使用深度學(xué)習(xí)的場景眾多,其相關(guān)應(yīng)用呈現(xiàn)出碎片化的特點(diǎn),不管從功能還是性能的角度來說,使用開源計(jì)算框架和實(shí)際需求會存在著較為明顯的距離。目前為止,由于行業(yè)競爭及需求碎片化的原因,目前尚未出現(xiàn)既貼合產(chǎn)業(yè)發(fā)展要求且兼具統(tǒng)治位置的開源計(jì)算機(jī)框架。此外,面向深度學(xué)習(xí)的專用智能芯片尚處于起步階段,且大多是處于專有領(lǐng)域的專有芯片,如面向智能駕駛領(lǐng)域的芯片、面向語音處理的芯片、面向人臉識別的芯片等,而能適用各種領(lǐng)域應(yīng)用場景的通用智能芯片還需要較長時(shí)間的探索。
由于深度學(xué)習(xí)模型存在的黑箱問題,使得深度學(xué)習(xí)智能系統(tǒng)在應(yīng)用過程中存在很多安全隱患,例如特斯拉公司推出的自動(dòng)駕駛功能在使用過程中出現(xiàn)了多起由于技術(shù)原因?qū)е露啻螄?yán)重事故、甚至出現(xiàn)人員死傷的情況。這些事故不僅造成了人們的生命和財(cái)產(chǎn)損失,也嚴(yán)重打擊了人們對人工智能實(shí)際應(yīng)用的信心。如何保證人類與智能系統(tǒng)之間的和諧共處、協(xié)同合作等問題,關(guān)系著未來人工智能技術(shù)在領(lǐng)域中的落地應(yīng)用。
從算法理論層面來說,將繼續(xù)按照深度學(xué)習(xí)模型完善和新算法提出的兩條主線發(fā)展。首先,深度學(xué)習(xí)在提升可靠性、可解釋性等方面的研究以及在零樣本學(xué)習(xí)(Zero-Shot learning)、無監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)等方面的研究會逐漸成為未來發(fā)展方向,這是發(fā)展深度學(xué)習(xí)算法所必須經(jīng)歷的,也是行業(yè)發(fā)展的必要條件。
參照數(shù)據(jù)集基礎(chǔ)來講,現(xiàn)在發(fā)展的趨勢是學(xué)術(shù)界與產(chǎn)業(yè)界共同合作構(gòu)建含有語音、圖像、視頻等通用數(shù)據(jù)集以及各行業(yè)的專業(yè)數(shù)據(jù)集,確保各種數(shù)據(jù)能迅速達(dá)到相關(guān)實(shí)施需求。這其中的需求來源包括多個(gè)方面:
(1)人們對人工智能的認(rèn)識不斷優(yōu)化升級,確保數(shù)據(jù)集的自建、清洗、規(guī)范、標(biāo)注等工作在企業(yè)內(nèi)部能有序完成;
(2)隨著深度學(xué)習(xí)的發(fā)展,產(chǎn)生了大量輔助人類工作的智能化數(shù)據(jù)標(biāo)注系統(tǒng),提升標(biāo)注的效率;
(3)政府集中引導(dǎo),行業(yè)龍頭協(xié)調(diào)配合,促使搭建更為專業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)集,為行業(yè)領(lǐng)域人工智能技術(shù)的快速落地應(yīng)用提供標(biāo)準(zhǔn)化訓(xùn)練數(shù)據(jù)集,并將逐步形成領(lǐng)域內(nèi)檢測算法性能的事實(shí)標(biāo)準(zhǔn)。
針對計(jì)算平臺和芯片來說,企業(yè)出于自身利益選擇自主研究計(jì)算框架與平臺,甚至定義領(lǐng)域?qū)S弥悄苄酒仁菍儆谳^為常見的現(xiàn)象,原因主要是:
(1)企業(yè)要對數(shù)據(jù)安全性業(yè)務(wù)進(jìn)行考慮,企業(yè)內(nèi)部不信任各種計(jì)算平臺;
(2)企業(yè)內(nèi)部數(shù)據(jù)信息和平臺都有其特殊性,為了更好的促進(jìn)企業(yè)內(nèi)部實(shí)際發(fā)展需求,可以對計(jì)算框架平臺芯片進(jìn)行獨(dú)立自主研究;
(3)在開源技術(shù)生態(tài)建設(shè)方面,人工智能計(jì)算框架及相關(guān)技術(shù)尚未出現(xiàn)一家獨(dú)大的局面,各頭部企業(yè)選擇自建深度學(xué)習(xí)計(jì)算平臺,并大力建設(shè)相應(yīng)的開源生態(tài)對構(gòu)建企業(yè)利益相關(guān)的商業(yè)閉環(huán)具有重要意義。
結(jié)合人機(jī)協(xié)同機(jī)制的“人在回路”設(shè)計(jì),在未來會是智能系統(tǒng)發(fā)展趨勢與必備能力。當(dāng)前計(jì)算機(jī)智能并不是以人為中心來進(jìn)行設(shè)計(jì)和構(gòu)建的,而長期處于以計(jì)算機(jī)為中心的系統(tǒng)發(fā)展模式中。在很多場景下,甚至出現(xiàn)了大量違背人類使用規(guī)律的情況。針對此類情況,需要構(gòu)建將人類的認(rèn)知模型向計(jì)算機(jī)智能技術(shù)進(jìn)行有效植入的方法,確保其在推理決策方面能夠符合人類世界認(rèn)知水平。隨著通用領(lǐng)域知識庫(WikiData、DBPedia、FreeBase 等)與領(lǐng)域相關(guān)的專用知識庫(如醫(yī)療領(lǐng)域知識庫、地理信息領(lǐng)域知識庫)的建立,將人類基礎(chǔ)認(rèn)知知識與人工智能技術(shù)相結(jié)合日趨成為學(xué)術(shù)、產(chǎn)業(yè)界相互配合追求的目標(biāo),且能在預(yù)期時(shí)間段內(nèi)取得良好的成果。
人工智能是基礎(chǔ)研發(fā)與實(shí)踐運(yùn)用相結(jié)合的計(jì)算機(jī)科學(xué),其研究熱點(diǎn)既包含機(jī)器學(xué)習(xí)基礎(chǔ)算法的改進(jìn)與優(yōu)化,也涵蓋自然語言處理、計(jì)算機(jī)視覺和機(jī)器人等技術(shù)的實(shí)踐應(yīng)用研究。應(yīng)用領(lǐng)域技術(shù)的發(fā)展,促進(jìn)了人工智能基礎(chǔ)算法的逐步發(fā)展,而基礎(chǔ)算法在優(yōu)化升級的同時(shí),給實(shí)際領(lǐng)域應(yīng)用方向也提供了新算法、新思路和新手段。人工智能領(lǐng)域的實(shí)際發(fā)展是通過領(lǐng)域應(yīng)用熱點(diǎn)和基礎(chǔ)共性技術(shù)的相互促進(jìn)集中體現(xiàn)與推動(dòng)的,這其中新興技術(shù)的發(fā)展也對整個(gè)學(xué)科的發(fā)展產(chǎn)生了深遠(yuǎn)的影響,尤其是近年來生成對抗網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等的快速發(fā)展,其在實(shí)踐領(lǐng)域的廣泛使用,促進(jìn)了人工智能技術(shù)向前快速變化發(fā)展。