關(guān)于中國(guó)象棋人機(jī)對(duì)戰(zhàn)的自學(xué)方法分析

2015-05-09 09:37:00馬麟

青年文學(xué)家 2015年33期

摘 ?要：相較國(guó)際象棋人機(jī)對(duì)戰(zhàn)程序的開發(fā)，中國(guó)象棋人機(jī)對(duì)戰(zhàn)的設(shè)計(jì)更具有難度，然而我國(guó)相關(guān)學(xué)者人數(shù)并不多，具備研發(fā)人機(jī)對(duì)戰(zhàn)自學(xué)習(xí)能力的學(xué)者更為缺乏。本文探究了通過激勵(lì)學(xué)習(xí)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)、利用有效的算法學(xué)習(xí)兩種中國(guó)象棋人機(jī)對(duì)戰(zhàn)自學(xué)習(xí)辦法，以便為中國(guó)象棋人機(jī)對(duì)戰(zhàn)的開發(fā)提供參考。

關(guān)鍵詞：中國(guó)象棋;人機(jī)對(duì)戰(zhàn);自學(xué)習(xí)

作者簡(jiǎn)介：馬麟（1966-），女，河北清河人，本科學(xué)歷，陜西省體育運(yùn)動(dòng)學(xué)校中職講師，國(guó)家級(jí)象棋大師，國(guó)家級(jí)象棋裁判，多次進(jìn)入全國(guó)女子個(gè)人錦標(biāo)賽前六名，研究方向：中國(guó)象棋。

[中圖分類號(hào)]：G891 ?[文獻(xiàn)標(biāo)識(shí)碼]：A

[文章編號(hào)]：1002-2139（2015）-33--01

自從國(guó)際象棋研發(fā)人機(jī)對(duì)戰(zhàn)系統(tǒng)后，世界各國(guó)學(xué)者將研究目標(biāo)轉(zhuǎn)向規(guī)則、棋路更為復(fù)雜的中國(guó)象棋。中國(guó)象棋是一種將兩軍對(duì)戰(zhàn)轉(zhuǎn)化為利用棋子博弈的游戲，對(duì)戰(zhàn)雙方在下棋時(shí)，充分活躍自身的思維，將形象思維與邏輯思維的作用發(fā)揮到極致。

一、中國(guó)象棋人機(jī)對(duì)戰(zhàn)的自學(xué)習(xí)的具體方法

（一）通過激勵(lì)學(xué)習(xí)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)

象棋對(duì)戰(zhàn)機(jī)器的學(xué)習(xí)方法共有三種：激勵(lì)學(xué)習(xí)、監(jiān)督學(xué)習(xí)以及無監(jiān)督學(xué)習(xí)。其中監(jiān)督學(xué)習(xí)必須由導(dǎo)師輔助完成，導(dǎo)師在智能體運(yùn)行狀態(tài)時(shí)，告知智能體正確動(dòng)作，并要求智能體記憶。無監(jiān)督學(xué)習(xí)中只存在輸入集，之后通過輸入集之上的實(shí)例進(jìn)行分組學(xué)習(xí)。激勵(lì)學(xué)習(xí)是人類在智能體在接觸環(huán)境過程中，通過給予智能體即時(shí)簡(jiǎn)單的獎(jiǎng)勵(lì)信號(hào)，使智能體在不斷的嘗試中，逐漸趨向合理的行為。激勵(lì)學(xué)習(xí)有別于其他方法，區(qū)別在于人類并不告知智能體行為的對(duì)錯(cuò)，而是讓其主動(dòng)與外界接觸，不斷嘗試，借由收到的獎(jiǎng)懲信息，積累學(xué)習(xí)經(jīng)驗(yàn)，以便確認(rèn)哪種行為可以收到獎(jiǎng)勵(lì)信號(hào)，從而對(duì)這種行為進(jìn)行學(xué)習(xí)，無限逼近最優(yōu)行為。

現(xiàn)今，棋類博弈算法多采用TD學(xué)習(xí)算法以及Q-學(xué)習(xí)算法。TD學(xué)習(xí)算法結(jié)合了蒙塔卡洛思想與動(dòng)態(tài)規(guī)劃思想，一方面TD算法無需借助系統(tǒng)模型的幫助，即可從智能體所獲取的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)。另一方面，TD算法與動(dòng)態(tài)規(guī)劃的運(yùn)行過程相同，迭代通過預(yù)估所得的值函數(shù)。Q-學(xué)習(xí)算法與TD算法的主要區(qū)別在于，Q-在進(jìn)行學(xué)習(xí)迭代時(shí)，采取狀態(tài)-動(dòng)作對(duì)等獎(jiǎng)賞以及采用Q*（s，a）作為估計(jì)函數(shù)，而不同于TD函數(shù)所采用的狀態(tài)獎(jiǎng)賞和V（s），因此智能體在每次進(jìn)行學(xué)習(xí)迭代時(shí)都需對(duì)行為過程進(jìn)行全面考察，以保證其規(guī)范學(xué)習(xí)過程。

神經(jīng)網(wǎng)絡(luò)應(yīng)用廣泛，各種問題均可以借助神經(jīng)網(wǎng)絡(luò)幫助解決，其作用主要有三類：分類、模式識(shí)別、函數(shù)逼近。BP神經(jīng)網(wǎng)絡(luò)得到廣泛普及，成為目前非線性控制系統(tǒng)中使用的主流神經(jīng)網(wǎng)絡(luò)模型，因其能夠解決當(dāng)多層網(wǎng)絡(luò)存在隱層時(shí)，導(dǎo)致學(xué)習(xí)存在障礙的問題。BP算法屬監(jiān)督學(xué)習(xí)，對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練而言，只能通過批量提供輸入輸出對(duì)的方法進(jìn)行。然而許多實(shí)際應(yīng)用的智能體不能識(shí)別最優(yōu)策略，因此無法獲取輸入輸出對(duì)。因此可將BP神經(jīng)網(wǎng)絡(luò)與激勵(lì)網(wǎng)絡(luò)融合為一體，形成新模型：RBP模型，該模型能夠幫助BP網(wǎng)絡(luò)從實(shí)際系統(tǒng)中獲取學(xué)習(xí)經(jīng)驗(yàn)，并以此作為參考改變學(xué)習(xí)策略，其過程是向最優(yōu)策略無限逼近的過程，且在學(xué)習(xí)過程中無需由導(dǎo)師進(jìn)行監(jiān)督。該模型可以將所學(xué)知識(shí)用以訓(xùn)練精神系統(tǒng)，從而使網(wǎng)絡(luò)逐漸達(dá)到最優(yōu)狀態(tài)。現(xiàn)將神經(jīng)網(wǎng)絡(luò)運(yùn)用于棋類對(duì)戰(zhàn)機(jī)器中，使其作為棋類對(duì)戰(zhàn)的評(píng)估函數(shù)，機(jī)器通過不斷地對(duì)戰(zhàn)，利用激勵(lì)學(xué)習(xí)算法對(duì)網(wǎng)絡(luò)物產(chǎn)進(jìn)行預(yù)測(cè)，進(jìn)而訓(xùn)練神經(jīng)網(wǎng)絡(luò)，機(jī)器可通過誤差反向傳播的方法，對(duì)節(jié)點(diǎn)的權(quán)值進(jìn)行反復(fù)的修正，從而使棋類評(píng)估函數(shù)愈發(fā)精確。

（二）利用有效的學(xué)習(xí)算法學(xué)習(xí)更合理的參數(shù)

無論評(píng)估函數(shù)有多復(fù)雜，都可以將其列作多項(xiàng)式。中國(guó)象棋的評(píng)估函數(shù)中至少含有五個(gè)方面的要點(diǎn)，而每一要點(diǎn)中又包含許多參數(shù)值，線性的將其組合在一起從而得到最終評(píng)估值。然而這樣編出的程序，其棋力的高低，完全取決于編程者對(duì)象棋的理解，之后即使通過手調(diào)節(jié)，也很難提高機(jī)器的棋力。

若評(píng)估函數(shù)由經(jīng)驗(yàn)累積而得，其參數(shù)也必定是由經(jīng)驗(yàn)的積累而產(chǎn)生。因此利用某種學(xué)習(xí)算法以修改評(píng)估函數(shù)中的各個(gè)參數(shù)，則能達(dá)到更為理想的效果，機(jī)器的下棋水平逐漸提升。

相機(jī)對(duì)戰(zhàn)機(jī)器可利用瞬時(shí)差分TD算法以尋求最為合適的參數(shù)組合。TD屬激勵(lì)學(xué)習(xí)，設(shè)計(jì)者可將全部棋子子力值配置歸一，同時(shí)結(jié)合Alpha-Beta搜索方法，利用TD算法修該棋子的子力值，以達(dá)到有過中國(guó)象棋參數(shù)的目的。

棋子子力值更新的具體公式如下：

其中：

和分別代表棋子的權(quán)值和當(dāng)前局勢(shì)中該棋子對(duì)己方提供的優(yōu)勢(shì)。設(shè)我方棋子“車”，計(jì)算時(shí)除以2，若你場(chǎng)上“車”的數(shù)量為二，而對(duì)方為一，則計(jì)算返還值為。

先將前式的梯度與求和展開：

之后讓機(jī)器進(jìn)行大量的游戲?qū)?zhàn)，為機(jī)器提供經(jīng)驗(yàn)值，一定數(shù)量的練習(xí)之后，即可使機(jī)器與他人對(duì)戰(zhàn)。

二、結(jié)束語：

就目前來說，中國(guó)象棋人機(jī)對(duì)戰(zhàn)博弈技術(shù)的研究尚處于探索階段，擁有極大的發(fā)展空間。由研究象棋機(jī)器博弈的所得的技術(shù)成果，不只可以用做娛樂，也可用做保護(hù)社會(huì)安全，模擬城市可能出現(xiàn)的危險(xiǎn)，或進(jìn)行軍事對(duì)戰(zhàn)模擬綜合提升我國(guó)軍事力量，人機(jī)對(duì)戰(zhàn)技術(shù)的研究無論理論意義或是應(yīng)用前景都有其不可替代的價(jià)值。

參考文獻(xiàn)：

[1]陳業(yè)鵬. 基于Alpha-Beta搜索算法的中國(guó)象棋人機(jī)對(duì)戰(zhàn)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)光盤軟件與應(yīng)用，2012，04：197-199.

[2]周明明. 基于專家系統(tǒng)和蒙特卡羅方法的計(jì)算機(jī)圍棋博弈的研究[D].南京航空航天大學(xué)，2012.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

關(guān)于中國(guó)象棋人機(jī)對(duì)戰(zhàn)的自學(xué)方法分析