何友
2016 年,谷歌AlphaGo 4∶1擊敗圍棋世界冠軍李世石使得深度強化學習的概念走進大眾視野,由此人們逐漸開始憧憬在圍棋中戰(zhàn)勝人類的AI 強化學習算法能夠給人類生活帶來重要影響。但時過五年多,AI 強化學習似乎只在游戲內(nèi)大放異彩,而在游戲外卻應用寥寥。
人工智能自誕生就與游戲結(jié)下不解之緣。1950 年,圖靈提出著名的圖靈測試,該測試就可以看作為一個欺騙提問者的游戲。隨后,在計算智能的不斷突破下,五子棋、國際象棋等棋類游戲都逐漸被AI 征服。當AI 開始挑戰(zhàn)更高層次的圍棋游戲時,發(fā)現(xiàn)傳統(tǒng)搜索方法在時空復雜度上完全不可行,由此深度強化學習成為研究的主流。在挑戰(zhàn)成功圍棋、撲克這類回合制游戲后,谷歌、OpenAI、騰訊又逐漸把焦點轉(zhuǎn)移到星際爭霸、王者榮耀等即時策略游戲上。與圍棋相比,即時策略游戲需要AI 學習在不完全信息和即時動態(tài)環(huán)境下如何進行推理、決策、規(guī)劃、協(xié)作以及平衡短中長期收益,相關(guān)研究推動了多智能體強化學習理論和算法的發(fā)展。
電子游戲具有諸多特點使其在AI 強化學習研究過程備受青睞。首先,玩電子游戲必然要在與環(huán)境及他人的交互中進行決策和博弈,而決策和博弈也是人類日常生活的重要行為;其次,電子游戲具有真實模擬和無損探索的特點,可以比較容易地通過不斷試錯的方式獲得各類場景及情況的樣本和標注信息,從而對AI 算法進行大規(guī)模訓練和測試。因此,電子游戲是AI 強化學習天然的訓練場,在游戲中訓練AI 是公認模擬現(xiàn)實世界的最有效方法之一。AI 算法不斷在星際爭霸、王者榮耀、足球、捉迷藏等游戲中達到或超過人類玩家水平,并時常意外地開發(fā)出一些人類玩家都未曾想到的戰(zhàn)術(shù)和策略。電子游戲正以非常接近現(xiàn)實世界的方式加快著AI 算法研究,讓人們看到AI 走出游戲、落地現(xiàn)實的曙光。
然而在游戲中大放異彩的深度強化學習算法在游戲外仍應用寥寥,一方面是目前深度強化學習算法樣本利用率低和缺乏可信度,更重要的原因是游戲世界與現(xiàn)實世界仍存在巨大鴻溝。首先,游戲環(huán)境是封閉的而現(xiàn)實環(huán)境是開放的,開放環(huán)境中的多智能體對抗博弈面臨著環(huán)境更加復雜、決策空間更加巨大等問題,這導致在游戲內(nèi)開發(fā)的AI 模型在現(xiàn)實世界應用受限;其次,游戲環(huán)境對問題的假設通常較為理想,如多智能體間的通信通常假設是完美的,但現(xiàn)實世界中多智能體的通信卻經(jīng)常受限;最后,游戲環(huán)境對現(xiàn)實世界的模擬還遠遠不夠,在場景真實度和信息獲取維度上都有所欠缺。
不斷推動AI 算法從游戲邁向現(xiàn)實對于機器人群智能協(xié)作和博弈領(lǐng)域的發(fā)展意義重大。美國計算機社區(qū)聯(lián)盟發(fā)布的2020 版機器人路線圖重點強調(diào)了機器人在復雜、動態(tài)環(huán)境下主動感知、規(guī)劃及控制。我國在《新一代人工智能發(fā)展規(guī)劃》中也著重強調(diào)了無人自主系統(tǒng)的發(fā)展。為推動開放環(huán)境下機器人群智的發(fā)展,需要在學習理論上實現(xiàn)突破的同時在環(huán)境模擬上更加真實。相信隨著多智能體強化學習和遷移學習等理論發(fā)展,以及平行智能、數(shù)字孿生及元宇宙等技術(shù)興起,在游戲內(nèi)大放異彩的AI 算法也將走出圍城,在游戲外的現(xiàn)實世界產(chǎn)生重大影響。