美DARPA等推動(dòng)終身學(xué)習(xí)型人工智能研究

2019-11-06 03:09唐川

數(shù)據(jù)與計(jì)算發(fā)展前沿 2019年3期

過(guò)去十年，基于機(jī)器學(xué)習(xí)的人工智能(AI)在性能方面取得了突破性進(jìn)展，經(jīng)常接近人類(lèi)專(zhuān)家的能力，有時(shí)甚至超過(guò)了他們，例如人工智能在圖像識(shí)別、語(yǔ)言翻譯、圍棋中的表現(xiàn)。

這些應(yīng)用使用大型人工神經(jīng)網(wǎng)絡(luò)，其中的節(jié)點(diǎn)由數(shù)百萬(wàn)個(gè)加權(quán)互聯(lián)相連。它們模擬了大腦的結(jié)構(gòu)和工作機(jī)制，但有一個(gè)關(guān)鍵領(lǐng)域做不到——人工神經(jīng)網(wǎng)絡(luò)無(wú)法像動(dòng)物那樣隨著時(shí)間的推移而學(xué)習(xí)。一旦開(kāi)發(fā)人員完成了人工神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)、編程和訓(xùn)練，如果不對(duì)其再進(jìn)行訓(xùn)練，它們就不能適應(yīng)新數(shù)據(jù)、完成新任務(wù)了，而再訓(xùn)練往往很費(fèi)時(shí)間。

人工智能系統(tǒng)的實(shí)時(shí)適應(yīng)性已成為研究領(lǐng)域的熱點(diǎn)問(wèn)題。例如，2018年美國(guó)優(yōu)步科技公司(Uber Technologies)的計(jì)算機(jī)科學(xué)家發(fā)表了一篇文章，介紹在神經(jīng)網(wǎng)絡(luò)中引入“可塑性”的方法。在圖像識(shí)別和迷宮探索等多個(gè)測(cè)試應(yīng)用中，研究人員展示了已訓(xùn)練的神經(jīng)網(wǎng)絡(luò)無(wú)需再進(jìn)行訓(xùn)練就能夠快速高效地適應(yīng)新情況。

“神經(jīng)網(wǎng)絡(luò)常用的訓(xùn)練方法是用范例慢慢地訓(xùn)練；范例的數(shù)量多達(dá)百萬(wàn)計(jì)，甚至數(shù)以?xún)|計(jì)。”該文章的第一作者介紹說(shuō)，“但我們?nèi)祟?lèi)可不是這么學(xué)的。我們學(xué)得很快，通常經(jīng)過(guò)一次新情況或刺激就學(xué)到了。我們大腦中的連接具有突觸可塑性，可以自行改變，讓我們迅速形成記憶。”

60多年來(lái)，神經(jīng)網(wǎng)絡(luò)都是由互聯(lián)的節(jié)點(diǎn)構(gòu)成，連接的成對(duì)強(qiáng)度由權(quán)重決定，通常經(jīng)標(biāo)記的范例訓(xùn)練而固定下來(lái)。這種訓(xùn)練絕大多數(shù)時(shí)候通過(guò)反向傳播算法(backpropagation)完成：系統(tǒng)計(jì)算突觸輸出的錯(cuò)誤，將其通過(guò)網(wǎng)絡(luò)層反向傳播。目前大多數(shù)深度學(xué)習(xí)系統(tǒng)都采用了梯度下降的反向傳播算法這種優(yōu)化技術(shù)，連優(yōu)步研究人員所用的測(cè)試系統(tǒng)也不例外。

以此為基礎(chǔ)，優(yōu)步研究人員使用了赫布學(xué)習(xí)(Hebbian learning)的方法。該法于1949年由加拿大神經(jīng)心理學(xué)家唐納德·赫布(Donald Hebb)提出，他觀察到在突觸間反復(fù)放電的兩個(gè)神經(jīng)元能夠隨著時(shí)間的推移加強(qiáng)它們之間的連接。通常將其歸納為：“一起放電的神經(jīng)元，連接在一起(Neurons that fire together,wire together)。”

圖DARPA終生學(xué)習(xí)機(jī)器(Lifelong Learning Machines，L2M)項(xiàng)目旨在開(kāi)發(fā)出新的學(xué)習(xí)系統(tǒng)，能隨著經(jīng)驗(yàn)增加而不斷提升，快速適應(yīng)新情況和動(dòng)態(tài)變化環(huán)境。

利用這種“赫布可塑性”，神經(jīng)網(wǎng)絡(luò)采用了一種“元學(xué)習(xí)”——本質(zhì)而言，它們學(xué)習(xí)如何基于三個(gè)概念上簡(jiǎn)單的參數(shù)進(jìn)行學(xué)習(xí)。神經(jīng)元對(duì)在系統(tǒng)的訓(xùn)練過(guò)程中確定了傳統(tǒng)的固定權(quán)重。它們還有個(gè)可塑權(quán)重，叫作“赫布邊跡(Hebbian trace)”，可塑權(quán)重根據(jù)遇到的實(shí)際數(shù)據(jù)在一生中不斷變化。這些赫布邊跡可用不同的方法計(jì)算，但在簡(jiǎn)單例子中，它是突觸前和突觸后活動(dòng)產(chǎn)物的運(yùn)行平均值。

赫布邊跡是由第三個(gè)固定參數(shù)——可塑性系數(shù)——對(duì)自身加權(quán)。因此，在任何時(shí)候，兩個(gè)神經(jīng)元之間連接的總有效權(quán)重等于固定權(quán)重與赫布邊跡乘以可塑性系數(shù)之和。根據(jù)這三個(gè)參數(shù)的值，每個(gè)連接的強(qiáng)度可以是完全固定、完全可變或介于兩者之間的。

“這是件很重要的工作?！泵绹?guó)卡內(nèi)基梅隆大學(xué)計(jì)算生物學(xué)家評(píng)價(jià)道，“他們采用了生物學(xué)中的知名原則，展示其對(duì)人工神經(jīng)網(wǎng)絡(luò)有積極的影響?！钡撬赋?，這個(gè)方法是否會(huì)代表人工智能大型主流應(yīng)用的重要進(jìn)展，現(xiàn)在下結(jié)論還為時(shí)過(guò)早。

對(duì)于目前的超大型人工智能系統(tǒng)，該科學(xué)家說(shuō)，“我們優(yōu)化、優(yōu)化、再優(yōu)化，只能做到這一步。如果有新數(shù)據(jù)，可以重新訓(xùn)練它，但我們不是在試著讓它適應(yīng)新的東西?！迸e個(gè)例子，神經(jīng)網(wǎng)絡(luò)可能已經(jīng)過(guò)訓(xùn)練，能夠在對(duì)不同種類(lèi)汽車(chē)進(jìn)行分類(lèi)時(shí)給出高度精確的結(jié)果，但是如果遇到一種新的汽車(chē)(例如，特斯拉)，系統(tǒng)就不行了?！拔覀兿Ｍ苎杆俚刈R(shí)別出這個(gè)新汽車(chē)，不用再訓(xùn)練。再訓(xùn)練要耗時(shí)數(shù)日或者數(shù)周。而且，我們?cè)趺床胖莱霈F(xiàn)了新的東西呢？”

動(dòng)態(tài)學(xué)習(xí)的人工智能系統(tǒng)不是新事物了。在“神經(jīng)進(jìn)化”中，神經(jīng)網(wǎng)絡(luò)由采用了試錯(cuò)方法的算法進(jìn)行更新，以實(shí)現(xiàn)精確定義的目標(biāo)，例如贏得一場(chǎng)象棋比賽。它們不需要標(biāo)記的訓(xùn)練范例，只需要成功的定義?！八鼈冎煌ㄟ^(guò)試錯(cuò)的方法進(jìn)行?！眱?yōu)步的研究人員說(shuō)，“這種方法很強(qiáng)大，但很慢，本質(zhì)上是隨機(jī)的過(guò)程。如果我們看到一件新的事物，就得到一個(gè)錯(cuò)誤信號(hào)告訴我們要向什么方向改變權(quán)重，這樣會(huì)好得多。這就是反向傳播算法帶給我們的?！?/p>

軍事應(yīng)用

優(yōu)步研究人員的做法只是人工智能自學(xué)習(xí)的眾多新方法中的一種。美國(guó)國(guó)防部將突觸可塑性納入其提高防御系統(tǒng)準(zhǔn)確性、安全性和靈敏度的系列實(shí)驗(yàn)方法中。美國(guó)國(guó)防高級(jí)研究計(jì)劃局(U.S.Defense Advanced Research Projects Agency，DARPA)啟動(dòng)了終生學(xué)習(xí)機(jī)器項(xiàng)目，從兩處著力，一是開(kāi)發(fā)完整系統(tǒng)及其組件，二是探索生物有機(jī)體中的學(xué)習(xí)機(jī)制并將其移植到計(jì)算過(guò)程中。該項(xiàng)目的目標(biāo)是讓人工智能系統(tǒng)“在任務(wù)中學(xué)習(xí)和提升，將已有技能和知識(shí)應(yīng)用到新情況，包容固有系統(tǒng)限制，提高自動(dòng)任務(wù)的安全性?！盌ARPA 在其網(wǎng)站上表示，“我們不是在尋求逐步的改善，而是希望找到突破性的機(jī)器學(xué)習(xí)方法。”

優(yōu)步的赫布可塑性研究很有前景，向神經(jīng)網(wǎng)絡(luò)終生學(xué)習(xí)又邁進(jìn)了一步，DARPA 終生學(xué)習(xí)機(jī)器項(xiàng)目創(chuàng)始人及負(fù)責(zé)人表示，“沒(méi)有這種方法，我們?cè)谧詣?dòng)駕駛汽車(chē)中就不會(huì)安全?！钡皇窍蛑繕?biāo)邁進(jìn)了一步，還有很多必不可少的工作?！斑@絕不是圓滿的結(jié)局了?！彼f(shuō)。

根據(jù) DARPA 對(duì)終生學(xué)習(xí)的廣義定義，有五大“支柱”，突觸可塑性屬于第一支柱。五大支柱包括：記憶連續(xù)更新，不出現(xiàn)災(zāi)難性遺忘；重組記憶，根據(jù)未來(lái)的行為將已學(xué)習(xí)的信息重新安排和組合；情景感知(context awareness)以及基于系統(tǒng)行為調(diào)整的情景；通過(guò)內(nèi)部互動(dòng)、自我意識(shí)和自我模擬來(lái)采用新行為；安全和防衛(wèi)，意識(shí)到某事危險(xiǎn)并相應(yīng)地改變行為，并通過(guò)多個(gè)強(qiáng)約束的組合來(lái)確保安全。

該負(fù)責(zé)人列舉智能假肢作為這些技術(shù)的應(yīng)用例子。她指出，對(duì)于假腿中的控制軟件，首先制造商可以通過(guò)常規(guī)反向傳播法訓(xùn)練軟件，然后訓(xùn)練該軟件滿足使用者的獨(dú)特習(xí)慣和特點(diǎn)，最后讓其快速適應(yīng)從未遇到過(guò)的情況，例如結(jié)冰的人行道。

她表示，多年來(lái)，終生學(xué)習(xí)一直是人工智能研究人員的目標(biāo)，但直到最近才有了重大進(jìn)展。這得益于計(jì)算能力的進(jìn)步、新理論基礎(chǔ)和算法的出現(xiàn)、以及對(duì)生物學(xué)更好的理解。“不出幾年，如果不具備終生學(xué)習(xí)的能力，很多我們現(xiàn)在稱(chēng)為人工智能的東西不會(huì)再被看作人工智能了?！彼A(yù)測(cè)道。

優(yōu)步的研究團(tuán)隊(duì)目前正致力于讓其測(cè)試系統(tǒng)中的學(xué)習(xí)更動(dòng)態(tài)、更精細(xì)。實(shí)現(xiàn)這一目標(biāo)的一種方法是讓可塑性系數(shù)隨著系統(tǒng)的壽命周期而變化，目前可塑性系數(shù)作為一種設(shè)計(jì)選擇是固定的?！懊糠N連接的可塑性可由網(wǎng)絡(luò)本身在每個(gè)點(diǎn)自行決定?！毖芯咳藛T說(shuō)。這種“神經(jīng)調(diào)節(jié)”可能出現(xiàn)在動(dòng)物大腦中，他表示，這可能會(huì)是實(shí)現(xiàn)人工智能系統(tǒng)進(jìn)行最靈活決策的關(guān)鍵一步。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

美DARPA等推動(dòng)終身學(xué)習(xí)型人工智能研究