Matt+Weinberger
人工智能在國際象棋、圍棋等項目上戰(zhàn)勝人類頂尖高手之后,艾倫·馬斯克旗下的OpenAI 人工智能又在全球當(dāng)紅的網(wǎng)游“Dota2”中擊敗了頂級高手Dendi。 8月12日,艾倫·馬斯克在其twitter賬號上發(fā)文,稱贊此次OpenAI獲得的勝利,并表示這是人工智能首次在對抗型電子競技中戰(zhàn)勝世界一流玩家。OpenAI 是一家非盈利AI 研究公司,由特斯拉CEO艾倫·馬斯克建立,該公司主要進(jìn)行安全人工智能的研究。此前,馬斯克的公司已經(jīng)成功訓(xùn)練AI,在VR設(shè)備上觀看后,立即執(zhí)行任務(wù),并且發(fā)展機器人創(chuàng)立自己的語言系統(tǒng)。
OpenAI在其博客中這樣解釋到:“這次Dota2的比賽結(jié)果顯露出 (self-play)自我學(xué)習(xí),能夠使人工智能從低于人類程度的學(xué)習(xí)系統(tǒng)中捕獲操作表現(xiàn),進(jìn)而一躍提高到擁有充分運算能力的超人?!毕啾戎?,(Deep-learning)深度學(xué)習(xí)系統(tǒng)只能達(dá)到與它們的訓(xùn)練數(shù)據(jù)庫同等的智能高度,可是在自我學(xué)習(xí)系統(tǒng)中,當(dāng)數(shù)據(jù)升級,現(xiàn)有數(shù)據(jù)將隨之自動提高。
OpenAI比賽過程
Dota2 的比賽開始于今年3月,最初的AI機器人只進(jìn)行了一些簡單的比賽。由于是一款免費多玩家電競游戲,Dota2最引以為傲的一點是不強制玩家的極限范圍。而在8月7日,機器人取得了驕人連勝戰(zhàn)績,第一場擊敗了名為Blitz的Dota2 玩家。同一天,機器人又打敗了另外兩名高段位的玩家。接下來一天,它又戰(zhàn)勝了另一位德高望重的玩家Arteezy。而所有被機器人打敗的四位玩家一致認(rèn)為,玩家Sumail 能夠打敗它。然而,Sumail并沒有如他的戰(zhàn)友們所愿,依然惜敗。最終,機器人挑戰(zhàn)了Dota2的前世界冠軍Dendi,并以2比0完勝Dendi?!罢埛胚^我吧!”賽間Dendi對機器人對手這樣說道。
Self-play 自我學(xué)習(xí)過程
OpenAI的研究人員表示,此次比賽中機器人運用自我學(xué)習(xí)從零開始,不是模仿學(xué)習(xí)或是樹狀搜索,在包含人類的混亂復(fù)雜的環(huán)境中建立明確的目標(biāo),AI系統(tǒng)建設(shè)跨出了歷史性的一步。競賽中,機器人預(yù)測出即將移動的玩家,并在新環(huán)境下做出臨場反應(yīng),并影響其他玩家。兩場比賽之間,OpenAI的工作人員將一些“訓(xùn)練”與自我學(xué)習(xí)相結(jié)合,幫助機器人不斷提高戰(zhàn)斗力。
OpenAI的目標(biāo)是建設(shè)安全的通用人工智能。對于AI來說,Dota是一個非常理想的試驗場,競爭激烈,游戲復(fù)雜。如果想在這門游戲中獲得成就,就必須推進(jìn)現(xiàn)有技術(shù),實現(xiàn)技術(shù)突破。我們現(xiàn)在開發(fā)了一個AI,能夠在Dota的1v1比賽中擊敗頂尖職業(yè)選手。
Dota的規(guī)則非常復(fù)雜,如果是用規(guī)則方法,那么構(gòu)建出的AI一定是個低能的玩家。所以,OpenAI完全采用的是自我游戲(self-play)的訓(xùn)練方法。剛開始訓(xùn)練時,AI對于自己所處的世界全無認(rèn)識,而只是和自己的復(fù)制品比賽,這也就意味著它和它的對手永遠(yuǎn)是旗鼓相當(dāng),在這個過程中自我能力不斷提升,直到達(dá)到世界頂尖選手的水平。
自我學(xué)習(xí)的發(fā)展
“自我對決”的理念是OpenAI研發(fā)的關(guān)鍵。這是一種AI系統(tǒng)學(xué)習(xí)解決極其復(fù)雜任務(wù)的有效方法:與太弱或太強的對手對戰(zhàn),它都無法從中學(xué)到東西,但自身反倒是有價值的對手。OpenAI的研究人員解釋到:“你可以看到AI從完全的隨機狀態(tài)一步步發(fā)展到如今的頂級水平?!?/p>
除了OpenAI,其他人工智能研究人員已經(jīng)在尋找方法來教導(dǎo)機器人做各種事情: 比如從閱讀到做夢。他們創(chuàng)建了可以自己學(xué)習(xí)的AI系統(tǒng),甚至可以互相教授的AI系統(tǒng)。教育正在從根本上被顛覆,以滿足這項新技術(shù)的需求,隨著機器人的智慧化,我們的生活將變得更加輕松,更安全,而且更有趣。
另外,Google旗下Deepmind團(tuán)隊最近在進(jìn)行研究,讓 AI 在復(fù)雜環(huán)境里“運動”。研究人員設(shè)計了類似火柴人的模型,在不給它們?nèi)魏尉幊痰那闆r下,要求其越過障礙物到達(dá)終點,所以這些火柴人基本上一直在試錯。試驗中AI會逐漸調(diào)整自己的關(guān)節(jié),用更好的方式來完成目標(biāo)。體育精神爆表的火柴人,擁有27個自由關(guān)節(jié)和21塊驅(qū)動器。而且為了指導(dǎo)這只AI,Deepmind設(shè)計了一套虛擬傳感器,教其如何在不熟悉的復(fù)雜環(huán)境下通過障礙,而火柴人在一次次跌倒之后的成功跑酷,展現(xiàn)了AI強大的自主學(xué)習(xí)能力,實現(xiàn)了機器學(xué)習(xí)和系統(tǒng)神經(jīng)的結(jié)合,這是火柴人的一小步,卻是AI在研究人體機能領(lǐng)域的一大步。
編譯自《Testlarati》《商業(yè)內(nèi)幕》雜志
(責(zé)任編輯姜懿翀)endprint