過(guò)去十年,基于機(jī)器學(xué)習(xí)的人工智能(AI)在性能方面取得了突破性進(jìn)展,經(jīng)常接近人類(lèi)專(zhuān)家的能力,有時(shí)甚至超過(guò)了他們,例如人工智能在圖像識(shí)別、語(yǔ)言翻譯、圍棋中的表現(xiàn)。
這些應(yīng)用使用大型人工神經(jīng)網(wǎng)絡(luò),其中的節(jié)點(diǎn)由數(shù)百萬(wàn)個(gè)加權(quán)互聯(lián)相連。它們模擬了大腦的結(jié)構(gòu)和工作機(jī)制,但有一個(gè)關(guān)鍵領(lǐng)域做不到——人工神經(jīng)網(wǎng)絡(luò)無(wú)法像動(dòng)物那樣隨著時(shí)間的推移而學(xué)習(xí)。一旦開(kāi)發(fā)人員完成了人工神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)、編程和訓(xùn)練,如果不對(duì)其再進(jìn)行訓(xùn)練,它們就不能適應(yīng)新數(shù)據(jù)、完成新任務(wù)了,而再訓(xùn)練往往很費(fèi)時(shí)間。
人工智能系統(tǒng)的實(shí)時(shí)適應(yīng)性已成為研究領(lǐng)域的熱點(diǎn)問(wèn)題。例如,2018年美國(guó)優(yōu)步科技公司(Uber Technologies)的計(jì)算機(jī)科學(xué)家發(fā)表了一篇文章,介紹在神經(jīng)網(wǎng)絡(luò)中引入“可塑性”的方法。在圖像識(shí)別和迷宮探索等多個(gè)測(cè)試應(yīng)用中,研究人員展示了已訓(xùn)練的神經(jīng)網(wǎng)絡(luò)無(wú)需再進(jìn)行訓(xùn)練就能夠快速高效地適應(yīng)新情況。
“神經(jīng)網(wǎng)絡(luò)常用的訓(xùn)練方法是用范例慢慢地訓(xùn)練;范例的數(shù)量多達(dá)百萬(wàn)計(jì),甚至數(shù)以?xún)|計(jì)。”該文章的第一作者介紹說(shuō),“但我們?nèi)祟?lèi)可不是這么學(xué)的。我們學(xué)得很快,通常經(jīng)過(guò)一次新情況或刺激就學(xué)到了。我們大腦中的連接具有突觸可塑性,可以自行改變,讓我們迅速形成記憶。”
60多年來(lái),神經(jīng)網(wǎng)絡(luò)都是由互聯(lián)的節(jié)點(diǎn)構(gòu)成,連接的成對(duì)強(qiáng)度由權(quán)重決定,通常經(jīng)標(biāo)記的范例訓(xùn)練而固定下來(lái)。這種訓(xùn)練絕大多數(shù)時(shí)候通過(guò)反向傳播算法(backpropagation)完成:系統(tǒng)計(jì)算突觸輸出的錯(cuò)誤,將其通過(guò)網(wǎng)絡(luò)層反向傳播。目前大多數(shù)深度學(xué)習(xí)系統(tǒng)都采用了梯度下降的反向傳播算法這種優(yōu)化技術(shù),連優(yōu)步研究人員所用的測(cè)試系統(tǒng)也不例外。
以此為基礎(chǔ),優(yōu)步研究人員使用了赫布學(xué)習(xí)(Hebbian learning)的方法。該法于1949年由加拿大神經(jīng)心理學(xué)家唐納德·赫布(Donald Hebb)提出,他觀察到在突觸間反復(fù)放電的兩個(gè)神經(jīng)元能夠隨著時(shí)間的推移加強(qiáng)它們之間的連接。通常將其歸納為:“一起放電的神經(jīng)元,連接在一起(Neurons that fire together,wire together)。”
圖DARPA終生學(xué)習(xí)機(jī)器(Lifelong Learning Machines,L2M)項(xiàng)目旨在開(kāi)發(fā)出新的學(xué)習(xí)系統(tǒng),能隨著經(jīng)驗(yàn)增加而不斷提升,快速適應(yīng)新情況和動(dòng)態(tài)變化環(huán)境。
利用這種“赫布可塑性”,神經(jīng)網(wǎng)絡(luò)采用了一種“元學(xué)習(xí)”——本質(zhì)而言,它們學(xué)習(xí)如何基于三個(gè)概念上簡(jiǎn)單的參數(shù)進(jìn)行學(xué)習(xí)。神經(jīng)元對(duì)在系統(tǒng)的訓(xùn)練過(guò)程中確定了傳統(tǒng)的固定權(quán)重。它們還有個(gè)可塑權(quán)重,叫作“赫布邊跡(Hebbian trace)”,可塑權(quán)重根據(jù)遇到的實(shí)際數(shù)據(jù)在一生中不斷變化。這些赫布邊跡可用不同的方法計(jì)算,但在簡(jiǎn)單例子中,它是突觸前和突觸后活動(dòng)產(chǎn)物的運(yùn)行平均值。
赫布邊跡是由第三個(gè)固定參數(shù)——可塑性系數(shù)——對(duì)自身加權(quán)。因此,在任何時(shí)候,兩個(gè)神經(jīng)元之間連接的總有效權(quán)重等于固定權(quán)重與赫布邊跡乘以可塑性系數(shù)之和。根據(jù)這三個(gè)參數(shù)的值,每個(gè)連接的強(qiáng)度可以是完全固定、完全可變或介于兩者之間的。
“這是件很重要的工作?!泵绹?guó)卡內(nèi)基梅隆大學(xué)計(jì)算生物學(xué)家評(píng)價(jià)道,“他們采用了生物學(xué)中的知名原則,展示其對(duì)人工神經(jīng)網(wǎng)絡(luò)有積極的影響?!钡撬赋?,這個(gè)方法是否會(huì)代表人工智能大型主流應(yīng)用的重要進(jìn)展,現(xiàn)在下結(jié)論還為時(shí)過(guò)早。
對(duì)于目前的超大型人工智能系統(tǒng),該科學(xué)家說(shuō),“我們優(yōu)化、優(yōu)化、再優(yōu)化,只能做到這一步。如果有新數(shù)據(jù),可以重新訓(xùn)練它,但我們不是在試著讓它適應(yīng)新的東西?!迸e個(gè)例子,神經(jīng)網(wǎng)絡(luò)可能已經(jīng)過(guò)訓(xùn)練,能夠在對(duì)不同種類(lèi)汽車(chē)進(jìn)行分類(lèi)時(shí)給出高度精確的結(jié)果,但是如果遇到一種新的汽車(chē)(例如,特斯拉),系統(tǒng)就不行了?!拔覀兿M苎杆俚刈R(shí)別出這個(gè)新汽車(chē),不用再訓(xùn)練。再訓(xùn)練要耗時(shí)數(shù)日或者數(shù)周。而且,我們?cè)趺床胖莱霈F(xiàn)了新的東西呢?”
動(dòng)態(tài)學(xué)習(xí)的人工智能系統(tǒng)不是新事物了。在“神經(jīng)進(jìn)化”中,神經(jīng)網(wǎng)絡(luò)由采用了試錯(cuò)方法的算法進(jìn)行更新,以實(shí)現(xiàn)精確定義的目標(biāo),例如贏得一場(chǎng)象棋比賽。它們不需要標(biāo)記的訓(xùn)練范例,只需要成功的定義?!八鼈冎煌ㄟ^(guò)試錯(cuò)的方法進(jìn)行?!眱?yōu)步的研究人員說(shuō),“這種方法很強(qiáng)大,但很慢,本質(zhì)上是隨機(jī)的過(guò)程。如果我們看到一件新的事物,就得到一個(gè)錯(cuò)誤信號(hào)告訴我們要向什么方向改變權(quán)重,這樣會(huì)好得多。這就是反向傳播算法帶給我們的?!?/p>
軍事應(yīng)用
優(yōu)步研究人員的做法只是人工智能自學(xué)習(xí)的眾多新方法中的一種。美國(guó)國(guó)防部將突觸可塑性納入其提高防御系統(tǒng)準(zhǔn)確性、安全性和靈敏度的系列實(shí)驗(yàn)方法中。美國(guó)國(guó)防高級(jí)研究計(jì)劃局(U.S.Defense Advanced Research Projects Agency,DARPA)啟動(dòng)了終生學(xué)習(xí)機(jī)器項(xiàng)目,從兩處著力,一是開(kāi)發(fā)完整系統(tǒng)及其組件,二是探索生物有機(jī)體中的學(xué)習(xí)機(jī)制并將其移植到計(jì)算過(guò)程中。該項(xiàng)目的目標(biāo)是讓人工智能系統(tǒng)“在任務(wù)中學(xué)習(xí)和提升,將已有技能和知識(shí)應(yīng)用到新情況,包容固有系統(tǒng)限制,提高自動(dòng)任務(wù)的安全性?!盌ARPA 在其網(wǎng)站上表示,“我們不是在尋求逐步的改善,而是希望找到突破性的機(jī)器學(xué)習(xí)方法。”
優(yōu)步的赫布可塑性研究很有前景,向神經(jīng)網(wǎng)絡(luò)終生學(xué)習(xí)又邁進(jìn)了一步,DARPA 終生學(xué)習(xí)機(jī)器項(xiàng)目創(chuàng)始人及負(fù)責(zé)人表示,“沒(méi)有這種方法,我們?cè)谧詣?dòng)駕駛汽車(chē)中就不會(huì)安全?!钡皇窍蛑繕?biāo)邁進(jìn)了一步,還有很多必不可少的工作?!斑@絕不是圓滿的結(jié)局了?!彼f(shuō)。
根據(jù) DARPA 對(duì)終生學(xué)習(xí)的廣義定義,有五大“支柱”,突觸可塑性屬于第一支柱。五大支柱包括:記憶連續(xù)更新,不出現(xiàn)災(zāi)難性遺忘;重組記憶,根據(jù)未來(lái)的行為將已學(xué)習(xí)的信息重新安排和組合;情景感知(context awareness)以及基于系統(tǒng)行為調(diào)整的情景;通過(guò)內(nèi)部互動(dòng)、自我意識(shí)和自我模擬來(lái)采用新行為;安全和防衛(wèi),意識(shí)到某事危險(xiǎn)并相應(yīng)地改變行為,并通過(guò)多個(gè)強(qiáng)約束的組合來(lái)確保安全。
該負(fù)責(zé)人列舉智能假肢作為這些技術(shù)的應(yīng)用例子。她指出,對(duì)于假腿中的控制軟件,首先制造商可以通過(guò)常規(guī)反向傳播法訓(xùn)練軟件,然后訓(xùn)練該軟件滿足使用者的獨(dú)特習(xí)慣和特點(diǎn),最后讓其快速適應(yīng)從未遇到過(guò)的情況,例如結(jié)冰的人行道。
她表示,多年來(lái),終生學(xué)習(xí)一直是人工智能研究人員的目標(biāo),但直到最近才有了重大進(jìn)展。這得益于計(jì)算能力的進(jìn)步、新理論基礎(chǔ)和算法的出現(xiàn)、以及對(duì)生物學(xué)更好的理解。“不出幾年,如果不具備終生學(xué)習(xí)的能力,很多我們現(xiàn)在稱(chēng)為人工智能的東西不會(huì)再被看作人工智能了?!彼A(yù)測(cè)道。
優(yōu)步的研究團(tuán)隊(duì)目前正致力于讓其測(cè)試系統(tǒng)中的學(xué)習(xí)更動(dòng)態(tài)、更精細(xì)。實(shí)現(xiàn)這一目標(biāo)的一種方法是讓可塑性系數(shù)隨著系統(tǒng)的壽命周期而變化,目前可塑性系數(shù)作為一種設(shè)計(jì)選擇是固定的?!懊糠N連接的可塑性可由網(wǎng)絡(luò)本身在每個(gè)點(diǎn)自行決定?!毖芯咳藛T說(shuō)。這種“神經(jīng)調(diào)節(jié)”可能出現(xiàn)在動(dòng)物大腦中,他表示,這可能會(huì)是實(shí)現(xiàn)人工智能系統(tǒng)進(jìn)行最靈活決策的關(guān)鍵一步。