王亞杰,王曉巖,邱虹坤,李 飛
(沈陽航空航天大學(xué) 工程訓(xùn)練中心,沈陽 遼寧 110136)
2016 年,當(dāng)谷歌公司的阿爾法圍棋軟件(AlphaGo)與世界圍棋冠軍李世石上演了“世紀(jì)人機(jī)大戰(zhàn)”之際,人工智能引發(fā)了世界范圍內(nèi)的研究與開發(fā)熱潮。AlphaGo 主要利用深度學(xué)習(xí)方法訓(xùn)練了兩個網(wǎng)絡(luò):策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)[1]。2018 年,AlphaGo Zero 又橫空出世,它主要使用強(qiáng)化學(xué)習(xí)算法,將價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)整合為一個架構(gòu)[2],訓(xùn)練3 天就以100比0 擊敗了上一版本的AlphaGo。2019 年初,AlphaStar在《星技爭霸2》中以10∶1 戰(zhàn)勝了職業(yè)選手,又取得空前勝利,它主要使用了一種新的多智能學(xué)習(xí)算法。這些算法促進(jìn)了人工智能技術(shù)的快速發(fā)展,在未來,它將得到更多應(yīng)用,成為無數(shù)人工智能產(chǎn)業(yè)和服務(wù)的基礎(chǔ)。
計算機(jī)博弈,也稱之為機(jī)器博弈,就是讓計算機(jī)學(xué)習(xí)人的思維模式,像人類一樣,能夠思維、判斷和推理,并做出理性決策,與人類選手或另一臺計算機(jī)進(jìn)行的對弈[3-4],如國際象棋、六子棋、德州撲克等。計算機(jī)博弈是人工智能領(lǐng)域的重要應(yīng)用,是研究人類思維和實現(xiàn)機(jī)器思維最好的實驗載體,是人工智能研究的“果蠅”[5-6]。當(dāng)人機(jī)大戰(zhàn)已沒有懸念,面對人工智能浪潮洶涌而至,基于機(jī)—機(jī)對戰(zhàn)的計算機(jī)博弈大賽就格外引人注目。
中國計算機(jī)博弈大賽由東北大學(xué)徐心和教授團(tuán)隊組織籌備,在組建中國人工智能學(xué)會機(jī)器博弈專委會(以下簡稱“專委會”)的基礎(chǔ)上,于2006 年在北京舉辦了首屆計算機(jī)博弈比賽。計算機(jī)博弈雖然在我國起步較晚,但發(fā)展非常迅速,表1 為歷屆博弈比賽的地點與項目名稱,圖1 為歷屆比賽的參賽學(xué)校數(shù)和參賽隊數(shù)。因競賽項目具有喜聞樂見、挑戰(zhàn)無窮、公平公正等特點,競賽影響力不斷增加,競賽規(guī)模不斷擴(kuò)大。
表1 歷屆計算機(jī)博弈競賽的基本數(shù)據(jù)
圖1 歷年計算機(jī)博弈競賽的參賽隊數(shù)與學(xué)校數(shù)統(tǒng)計
計算機(jī)博弈在我國經(jīng)歷了12 年的發(fā)展,從表1和圖1 中可以看出,競賽呈現(xiàn)出良好的發(fā)展態(tài)勢。
(1)競賽項目數(shù)不斷增加。從最初的1 個項目發(fā)展到19 個項目,目前大學(xué)生競賽項目包括五子棋、六子棋、點格棋、蘇拉卡爾塔棋、亞馬遜棋、幻影圍棋、不圍棋、愛恩斯坦棋、軍棋、??怂?0 種棋類;錦標(biāo)賽項目包括中國象棋、圍棋、十三路圍棋、九路圍棋、國際跳棋(100)、國際跳棋(64)、二打一撲克牌(斗地主)、橋牌、德州撲克9 種棋牌類,該比賽面向社會所有人員。
(2)參賽隊數(shù)不斷上升。從不足10 所高校到50多所高校參加,每年有240 多支代表隊參加全國決賽。如果統(tǒng)計各類選拔賽,每年全國參與學(xué)生數(shù)累計約5 000 多人,為我國人工智能人才培養(yǎng)提供了有力支撐。
(3)競賽形式多樣化。從完全信息博弈(如中國象棋、六子棋等)發(fā)展到不完全信息博弈(如斗地主、幻影圍棋等);從個體對抗(如圍棋、軍棋等)發(fā)展到團(tuán)隊協(xié)作(如橋牌、二打一撲克牌等)。這種多類型項目的設(shè)置有利于調(diào)動師生參與的積極性,更有利于學(xué)術(shù)的深入研究。
(4)競賽得到多個單位的主辦支持。最初的全國錦標(biāo)賽由中國人工智能學(xué)會主辦;2011 年,專委會增加了全國大學(xué)生計算機(jī)博弈競賽項目,得到了教育部高等學(xué)校計算機(jī)類專業(yè)教學(xué)指導(dǎo)委員會的主辦支持;2015 年,該比賽被納入第三屆全國智力運動會,又得到國家體育總局棋牌運動管理中心的主辦支持,這一過程也體現(xiàn)了計算機(jī)博弈越來越受到關(guān)注與重視。
(5)競賽與國際接軌。競賽中的大部分項目與ICGA 組織的國際計算機(jī)博弈奧林匹克比賽項目一致,如圍棋、國際跳棋、愛恩斯坦棋等,使參賽者既可以在國內(nèi)賽場上比拼,也可以走向世界,參加國際比賽。近幾年,沈陽航空航天大學(xué)、北京理工大學(xué)、北京科技大學(xué)的學(xué)生在國際大賽中均有精彩的表現(xiàn),為國家爭得了榮譽(yù)。
(6)競賽效果顯著。通過競賽較好地提高了學(xué)生的實踐能力、創(chuàng)新能力、決策能力、合作交流能力和受挫折能力;同時依托競賽項目,還支撐了許多學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項目申報、軟件專利申請、學(xué)術(shù)論文發(fā)表等,也較好地培養(yǎng)了學(xué)生的科研素養(yǎng)和鉆研精神。多年的競賽比拼,還產(chǎn)生了一些知名博弈軟件,如東北大學(xué)的中國象棋“齊天大圣”、北京郵電大學(xué)的圍棋“本手”、北京工業(yè)大學(xué)的圍棋“深石”、蔣志敏團(tuán)隊的“象棋名手”、重慶理工大學(xué)的“騎士”等,它們都在不同時期引領(lǐng)著我國機(jī)器博弈技術(shù)的發(fā)展。
(1)“山寨程序”依然存在。所謂“山寨程序”是指程序的主體部分抄襲他人的開源和非開源代碼,改頭換面后作為自己開發(fā)的程序前來參賽。目前個別代表隊沒有努力提高自身的技術(shù)水平,而是想走捷徑,使用山寨程序參賽,這種不勞而獲的行為導(dǎo)致了競賽的不公平性,嚴(yán)重挫傷自主研發(fā)的積極性,既不利于大學(xué)生良好學(xué)風(fēng)和科研作風(fēng)的培養(yǎng),也不利于計算機(jī)博弈事業(yè)的健康發(fā)展。
(2)競賽水平發(fā)展較慢。從參賽項目和參賽隊數(shù)量來看,我國已是計算機(jī)博弈的大國,但還不是強(qiáng)國。由于競賽入門知識偏難和普及性不夠等原因,目前參賽的學(xué)校數(shù)還不多,各高校和研究機(jī)構(gòu)投入的人、財、力資源還不充分,使得高水平的競賽成果產(chǎn)生緩慢,距世界先進(jìn)水平還有一定差距。
(3)競賽沒有積累棋牌譜數(shù)據(jù)。中國機(jī)器博弈競賽開展了12 年,卻沒有保留下來棋譜牌譜數(shù)據(jù),這是一件憾事。在機(jī)器博弈技術(shù)中,歷史積累的棋牌譜數(shù)據(jù)本質(zhì)上就是經(jīng)驗和知識,可以直接應(yīng)用,從而可以減少搜索時間、提高響應(yīng)速度。分析此事的根本原因在于沒有棋牌譜的相應(yīng)規(guī)范或標(biāo)準(zhǔn),導(dǎo)致沒有數(shù)據(jù)驅(qū)動智能,制約了機(jī)器博弈水平的快速提升。
為了促進(jìn)我國機(jī)器博弈競賽的規(guī)范開展,積累參賽數(shù)據(jù),擴(kuò)大影響力,提高競賽水平,2017 年11 月專委會研究并開展了“棋牌譜標(biāo)準(zhǔn)設(shè)計與打譜軟件開發(fā)”工作,成立了領(lǐng)導(dǎo)組、專家組和項目開發(fā)組,分別負(fù)責(zé)指導(dǎo)與推進(jìn)工作、審核與鑒定工作、設(shè)計與開發(fā)工作。在10 余所高校20 多人的共同努力下,經(jīng)過6 個月時間,完成了19 種棋牌譜的編制。中國人工智能學(xué)會成立了專家組,對此項成果開展了鑒定工作,專家們一致認(rèn)為:該課題成果填補(bǔ)了國內(nèi)國際該領(lǐng)域空白,是一項意義重大、影響深遠(yuǎn)的公益性事業(yè)。
在設(shè)計棋牌譜標(biāo)準(zhǔn)時,需要達(dá)到以下具體要求:
(1)與國際接軌,盡量參照國際國內(nèi)通用的棋牌譜規(guī)范,以方便推廣和使用;
(2)棋牌譜格式要注釋清楚、科學(xué)合理、簡單直觀,便于理解和應(yīng)用;
(3)風(fēng)格盡量統(tǒng)一,對于相同類別(落子、走子、吃子等)的棋種,在棋盤坐標(biāo)的定義、著法表述、過程記錄等方面盡量相近,便于掌握和使用;
(4)明確勝負(fù),記載比賽對手、時間和地點等信息;
(5)所有棋牌譜文件都為文本文件。
圖2 和圖3 分別是2018 年在合肥開展的國家級比賽中圍棋和亞馬遜棋的一個對局的棋譜,標(biāo)題欄處是規(guī)范的文件名稱。
圖2 圍棋的棋譜樣例
圖3 亞馬遜棋的棋譜樣例
在設(shè)計復(fù)盤與打譜軟件時,須達(dá)到以下具體要求:
(1)各類棋牌的打譜軟件能直接復(fù)盤或存取標(biāo)準(zhǔn)的棋牌譜文件;
(2)軟件界面美觀大方、坐標(biāo)清晰、有按鈕控制、使用簡便;
(3)復(fù)盤過程可單步復(fù)盤,也可自動連續(xù)復(fù)盤;
(4)打譜過程可以悔棋,也可以手動行棋;
(5)通過操作打譜軟件,可以手動制作,保存棋牌譜文件;
(6)打譜軟件可判定對弈各方的勝負(fù)關(guān)系或積分;
(7)打譜軟件要配備簡單明了的使用說明書;
(8)開發(fā)實施單位需向?qū)N瘯峁┸浖O(shè)計文檔,以便后續(xù)維護(hù)和升級。
圖4 和圖5 分別為圍棋和亞馬遜棋對應(yīng)圖2 和圖3 棋譜的復(fù)盤分析樣例圖。
圖4 圍棋的復(fù)盤分析軟件
(1)發(fā)布《機(jī)器博弈棋牌譜白皮書》。依托中國人工智能學(xué)會宣傳平臺,發(fā)布棋牌譜標(biāo)準(zhǔn)和復(fù)盤分析軟件,向機(jī)器博弈愛好者充分宣傳棋牌譜標(biāo)準(zhǔn)的意義和應(yīng)用方式。
圖5 亞馬遜棋的復(fù)盤分析軟件
(2)強(qiáng)制推廣棋牌譜。利用中國大學(xué)生計算機(jī)博弈大賽暨博弈錦標(biāo)賽的品牌效應(yīng),從2018 年開始,將參賽隊提交符合要求的棋牌譜數(shù)據(jù)作為比賽規(guī)則之一。
(3)免費共享棋牌譜庫。推行共建共享原則,全國比賽積累的標(biāo)準(zhǔn)棋牌譜庫免費向參賽隊共享,以利于參賽隊提高博弈競技水平,促進(jìn)我國博弈技術(shù)的快速發(fā)展。
(4)解決“山寨程序”問題。保存棋牌譜數(shù)據(jù)后,有利于驗證“山寨程序”問題,保護(hù)原創(chuàng)技術(shù)產(chǎn)權(quán),從而有利于競賽的良性發(fā)展。
2017 年8 月,國務(wù)院發(fā)布的《新一代人工智能發(fā)展規(guī)劃》中明確指出:“支持開展人工智能競賽,鼓勵進(jìn)行形式多樣的人工智能科普創(chuàng)作”。2018 年4 月,教育部又印發(fā)了《高等學(xué)校人工智能創(chuàng)新行動計劃》,并提出探索“人工智能+X”的人才培養(yǎng)模式,支持高校師生開展人工智能領(lǐng)域創(chuàng)新創(chuàng)業(yè)活動,將人工智能納入大學(xué)計算機(jī)基礎(chǔ)教學(xué)內(nèi)容。這些政策的推出,使得計算機(jī)博弈競賽具有時代意義。
騰訊發(fā)布的《2017 全球人工智能人才白皮書》中提到,中國人工智能人才嚴(yán)重短缺,人才缺口超500萬,供求比例僅為1∶10。鑒于此,計算機(jī)博弈競賽既能解決我國計算機(jī)博弈技術(shù)短板問題,又能彌補(bǔ)我國人工智能創(chuàng)新人才急缺問題。
有5項主要的驅(qū)動要素能夠促進(jìn)博弈競賽持續(xù)發(fā)展:
(1)應(yīng)用驅(qū)動。棋牌類博弈具有經(jīng)久不衰的特點,是深受大眾喜歡的文化生活的重要組成部分。它不同于一般的消遣游戲,還影響和陶冶著人們的道德觀念、行為準(zhǔn)則、審美趣味和思維方式等。特別是中國象棋和圍棋,它們也是國家在中小學(xué)中提倡開設(shè)的益智項目。
(2)項目驅(qū)動。一方面中國民間棋類項目繁多,除傳統(tǒng)項目外(如軍棋、飛行棋等),還有一些少數(shù)民族類項目(如藏棋等);另一方面國際上也經(jīng)常推出新的棋牌項目(如愛恩斯坦棋等),所以博弈項目種類和數(shù)量均能保證競賽的持續(xù)性發(fā)展。
(3)數(shù)據(jù)驅(qū)動。通過標(biāo)準(zhǔn)棋牌譜數(shù)據(jù)的積累,可以支持大數(shù)據(jù)智能,利于開展學(xué)術(shù)層面的深入研究,益于形成以數(shù)據(jù)推動博弈競賽發(fā)展、以博弈競賽推動智能人才培育的良性機(jī)制。
(4)創(chuàng)新驅(qū)動。在“互聯(lián)網(wǎng)+”和“人工智能+”時代,創(chuàng)新是發(fā)展的核心驅(qū)動力?;谄迮祁愴椖康牟┺母傎愡m于培養(yǎng)大學(xué)生的創(chuàng)新能力和創(chuàng)新精神。同時計算機(jī)博弈技術(shù)是人工智能技術(shù)的重要引領(lǐng)者,機(jī)器博弈的魅力也是創(chuàng)新的起源。
(5)教育驅(qū)動。計算機(jī)博弈競賽符合實踐類“金課”的要求[7]。具有①高階性:知識、能力、素質(zhì)有機(jī)融合在博弈項目中,適于培養(yǎng)學(xué)生解決復(fù)雜問題的綜合能力;②創(chuàng)新性:競賽內(nèi)容反映人工智能時代的前沿性問題,學(xué)習(xí)結(jié)果具有探究性;③挑戰(zhàn)度:競賽項目有一定難度,學(xué)生需要學(xué)習(xí)數(shù)學(xué)、計算機(jī)等很多專業(yè)知識才能完成,對參賽師生均提出了較高要求。
在2018 年的全國教育大會上,習(xí)近平總書記提出:“要培養(yǎng)德智體美勞全面發(fā)展的社會主義建設(shè)者和接班人”。計算機(jī)博弈競賽恰好符合新時代的人才培養(yǎng)要求。一些棋類項目是中華民族優(yōu)秀的傳統(tǒng)文化遺產(chǎn),包含了悠久的歷史和厚重的文化沉淀,下棋過程適合陶冶大學(xué)生的情操,培養(yǎng)家國情懷,弘揚核心價值觀,所以博弈是非常好的德育項目。一個博弈系統(tǒng)涉及過程建模、狀態(tài)表示、著法生成、棋局評估、博弈樹搜索、開局庫與殘局庫開發(fā)、系統(tǒng)測試與參數(shù)優(yōu)化等核心技術(shù),這些技術(shù)能夠與專業(yè)知識緊密結(jié)合[8-9],所以博弈是非常適合大學(xué)生的智育項目。
計算機(jī)博弈像其他體育賽事一樣,具有更高、更快、更強(qiáng)的體育精神,參賽隊員總是不懈地努力,追求更高的目標(biāo),所以博弈也是一項體育項目。棋者,奕也;下棋者,藝也。棋藝帶給人們無限的啟悟、內(nèi)涵和審美,同時項目研發(fā)需要團(tuán)隊協(xié)作精神,所以博弈也是一種創(chuàng)造美感的美育過程。準(zhǔn)備競賽是一件很辛苦的事情,需要投入大量的時間和精力,是一項強(qiáng)度很高的體力、耐力和智力的運動,所以博弈更是一種高級勞動。
當(dāng)前,很多高校紛紛開設(shè)人工智能課程,那么用什么案例使課程真正落地呢?由于計算機(jī)博弈可以間接地、無損地揭示智能的本質(zhì),而且喜聞樂見的棋牌類項目又能迎合大學(xué)生喜愛游戲的特點,同時棋牌譜大數(shù)據(jù)的積累,也為教師開展各類機(jī)器學(xué)習(xí)算法的實驗教學(xué)提供了數(shù)據(jù)支持,所以博弈項目非常適合作為人工智能課程的有效實驗載體,適于實施寓教于樂、寓學(xué)于研、以研促教、以賽促學(xué)的新型教育教學(xué)方式[10-12]。
本文客觀地分析了我國計算機(jī)博弈競賽的發(fā)展現(xiàn)狀和存在的不足。為了更好地促進(jìn)計算機(jī)博弈技術(shù)的快速發(fā)展,培養(yǎng)更多的人工智能拔尖創(chuàng)新人才,提出了建設(shè)棋牌譜標(biāo)準(zhǔn),開發(fā)復(fù)盤分析軟件,形成以數(shù)據(jù)驅(qū)動競賽持續(xù)性發(fā)展的新生態(tài)。為了編制更加科學(xué)、合理和規(guī)范的棋牌譜,制定了棋牌譜標(biāo)準(zhǔn)的設(shè)計要求、復(fù)盤與打譜軟件的設(shè)計要求和棋牌譜的推行措施。“人工智能+”時代的特點,進(jìn)一步促進(jìn)了博弈競賽的健康與持續(xù)性發(fā)展;同時,計算機(jī)博弈競賽也是契合時代需要的人工智能創(chuàng)新人才培養(yǎng)的實踐項目。