国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)于中國(guó)象棋人機(jī)對(duì)戰(zhàn)的自學(xué)方法分析

2015-05-09 09:37:00馬麟
青年文學(xué)家 2015年33期
關(guān)鍵詞:中國(guó)象棋

摘 ?要:相較國(guó)際象棋人機(jī)對(duì)戰(zhàn)程序的開發(fā),中國(guó)象棋人機(jī)對(duì)戰(zhàn)的設(shè)計(jì)更具有難度,然而我國(guó)相關(guān)學(xué)者人數(shù)并不多,具備研發(fā)人機(jī)對(duì)戰(zhàn)自學(xué)習(xí)能力的學(xué)者更為缺乏。本文探究了通過激勵(lì)學(xué)習(xí)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)、利用有效的算法學(xué)習(xí)兩種中國(guó)象棋人機(jī)對(duì)戰(zhàn)自學(xué)習(xí)辦法,以便為中國(guó)象棋人機(jī)對(duì)戰(zhàn)的開發(fā)提供參考。

關(guān)鍵詞:中國(guó)象棋;人機(jī)對(duì)戰(zhàn);自學(xué)習(xí)

作者簡(jiǎn)介:馬麟(1966-),女,河北清河人,本科學(xué)歷,陜西省體育運(yùn)動(dòng)學(xué)校中職講師,國(guó)家級(jí)象棋大師,國(guó)家級(jí)象棋裁判,多次進(jìn)入全國(guó)女子個(gè)人錦標(biāo)賽前六名,研究方向:中國(guó)象棋。

[中圖分類號(hào)]:G891 ?[文獻(xiàn)標(biāo)識(shí)碼]:A

[文章編號(hào)]:1002-2139(2015)-33--01

自從國(guó)際象棋研發(fā)人機(jī)對(duì)戰(zhàn)系統(tǒng)后,世界各國(guó)學(xué)者將研究目標(biāo)轉(zhuǎn)向規(guī)則、棋路更為復(fù)雜的中國(guó)象棋。中國(guó)象棋是一種將兩軍對(duì)戰(zhàn)轉(zhuǎn)化為利用棋子博弈的游戲,對(duì)戰(zhàn)雙方在下棋時(shí),充分活躍自身的思維,將形象思維與邏輯思維的作用發(fā)揮到極致。

一、中國(guó)象棋人機(jī)對(duì)戰(zhàn)的自學(xué)習(xí)的具體方法

(一)通過激勵(lì)學(xué)習(xí)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)

象棋對(duì)戰(zhàn)機(jī)器的學(xué)習(xí)方法共有三種:激勵(lì)學(xué)習(xí)、監(jiān)督學(xué)習(xí)以及無監(jiān)督學(xué)習(xí)。其中監(jiān)督學(xué)習(xí)必須由導(dǎo)師輔助完成,導(dǎo)師在智能體運(yùn)行狀態(tài)時(shí),告知智能體正確動(dòng)作,并要求智能體記憶。無監(jiān)督學(xué)習(xí)中只存在輸入集,之后通過輸入集之上的實(shí)例進(jìn)行分組學(xué)習(xí)。激勵(lì)學(xué)習(xí)是人類在智能體在接觸環(huán)境過程中,通過給予智能體即時(shí)簡(jiǎn)單的獎(jiǎng)勵(lì)信號(hào),使智能體在不斷的嘗試中,逐漸趨向合理的行為。激勵(lì)學(xué)習(xí)有別于其他方法,區(qū)別在于人類并不告知智能體行為的對(duì)錯(cuò),而是讓其主動(dòng)與外界接觸,不斷嘗試,借由收到的獎(jiǎng)懲信息,積累學(xué)習(xí)經(jīng)驗(yàn),以便確認(rèn)哪種行為可以收到獎(jiǎng)勵(lì)信號(hào),從而對(duì)這種行為進(jìn)行學(xué)習(xí),無限逼近最優(yōu)行為。

現(xiàn)今,棋類博弈算法多采用TD學(xué)習(xí)算法以及Q-學(xué)習(xí)算法。TD學(xué)習(xí)算法結(jié)合了蒙塔卡洛思想與動(dòng)態(tài)規(guī)劃思想,一方面TD算法無需借助系統(tǒng)模型的幫助,即可從智能體所獲取的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)。另一方面,TD算法與動(dòng)態(tài)規(guī)劃的運(yùn)行過程相同,迭代通過預(yù)估所得的值函數(shù)。Q-學(xué)習(xí)算法與TD算法的主要區(qū)別在于,Q-在進(jìn)行學(xué)習(xí)迭代時(shí),采取狀態(tài)-動(dòng)作對(duì)等獎(jiǎng)賞以及采用Q*(s,a)作為估計(jì)函數(shù),而不同于TD函數(shù)所采用的狀態(tài)獎(jiǎng)賞和V(s),因此智能體在每次進(jìn)行學(xué)習(xí)迭代時(shí)都需對(duì)行為過程進(jìn)行全面考察,以保證其規(guī)范學(xué)習(xí)過程。

神經(jīng)網(wǎng)絡(luò)應(yīng)用廣泛,各種問題均可以借助神經(jīng)網(wǎng)絡(luò)幫助解決,其作用主要有三類:分類、模式識(shí)別、函數(shù)逼近。BP神經(jīng)網(wǎng)絡(luò)得到廣泛普及,成為目前非線性控制系統(tǒng)中使用的主流神經(jīng)網(wǎng)絡(luò)模型,因其能夠解決當(dāng)多層網(wǎng)絡(luò)存在隱層時(shí),導(dǎo)致學(xué)習(xí)存在障礙的問題。BP算法屬監(jiān)督學(xué)習(xí),對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練而言,只能通過批量提供輸入輸出對(duì)的方法進(jìn)行。然而許多實(shí)際應(yīng)用的智能體不能識(shí)別最優(yōu)策略,因此無法獲取輸入輸出對(duì)。因此可將BP神經(jīng)網(wǎng)絡(luò)與激勵(lì)網(wǎng)絡(luò)融合為一體,形成新模型:RBP模型,該模型能夠幫助BP網(wǎng)絡(luò)從實(shí)際系統(tǒng)中獲取學(xué)習(xí)經(jīng)驗(yàn),并以此作為參考改變學(xué)習(xí)策略,其過程是向最優(yōu)策略無限逼近的過程,且在學(xué)習(xí)過程中無需由導(dǎo)師進(jìn)行監(jiān)督。該模型可以將所學(xué)知識(shí)用以訓(xùn)練精神系統(tǒng),從而使網(wǎng)絡(luò)逐漸達(dá)到最優(yōu)狀態(tài)。現(xiàn)將神經(jīng)網(wǎng)絡(luò)運(yùn)用于棋類對(duì)戰(zhàn)機(jī)器中,使其作為棋類對(duì)戰(zhàn)的評(píng)估函數(shù),機(jī)器通過不斷地對(duì)戰(zhàn),利用激勵(lì)學(xué)習(xí)算法對(duì)網(wǎng)絡(luò)物產(chǎn)進(jìn)行預(yù)測(cè),進(jìn)而訓(xùn)練神經(jīng)網(wǎng)絡(luò),機(jī)器可通過誤差反向傳播的方法,對(duì)節(jié)點(diǎn)的權(quán)值進(jìn)行反復(fù)的修正,從而使棋類評(píng)估函數(shù)愈發(fā)精確。

(二)利用有效的學(xué)習(xí)算法學(xué)習(xí)更合理的參數(shù)

無論評(píng)估函數(shù)有多復(fù)雜,都可以將其列作多項(xiàng)式。中國(guó)象棋的評(píng)估函數(shù)中至少含有五個(gè)方面的要點(diǎn),而每一要點(diǎn)中又包含許多參數(shù)值,線性的將其組合在一起從而得到最終評(píng)估值。然而這樣編出的程序,其棋力的高低,完全取決于編程者對(duì)象棋的理解,之后即使通過手調(diào)節(jié),也很難提高機(jī)器的棋力。

若評(píng)估函數(shù)由經(jīng)驗(yàn)累積而得,其參數(shù)也必定是由經(jīng)驗(yàn)的積累而產(chǎn)生。因此利用某種學(xué)習(xí)算法以修改評(píng)估函數(shù)中的各個(gè)參數(shù),則能達(dá)到更為理想的效果,機(jī)器的下棋水平逐漸提升。

相機(jī)對(duì)戰(zhàn)機(jī)器可利用瞬時(shí)差分TD算法以尋求最為合適的參數(shù)組合。TD屬激勵(lì)學(xué)習(xí),設(shè)計(jì)者可將全部棋子子力值配置歸一,同時(shí)結(jié)合Alpha-Beta搜索方法,利用TD算法修該棋子的子力值,以達(dá)到有過中國(guó)象棋參數(shù)的目的。

棋子子力值更新的具體公式如下:

其中:

和分別代表棋子的權(quán)值和當(dāng)前局勢(shì)中該棋子對(duì)己方提供的優(yōu)勢(shì)。設(shè)我方棋子“車”,計(jì)算時(shí)除以2,若你場(chǎng)上“車”的數(shù)量為二,而對(duì)方為一,則計(jì)算返還值為。

先將前式的梯度與求和展開:

之后讓機(jī)器進(jìn)行大量的游戲?qū)?zhàn),為機(jī)器提供經(jīng)驗(yàn)值,一定數(shù)量的練習(xí)之后,即可使機(jī)器與他人對(duì)戰(zhàn)。

二、結(jié)束語:

就目前來說,中國(guó)象棋人機(jī)對(duì)戰(zhàn)博弈技術(shù)的研究尚處于探索階段,擁有極大的發(fā)展空間。由研究象棋機(jī)器博弈的所得的技術(shù)成果,不只可以用做娛樂,也可用做保護(hù)社會(huì)安全,模擬城市可能出現(xiàn)的危險(xiǎn),或進(jìn)行軍事對(duì)戰(zhàn)模擬綜合提升我國(guó)軍事力量,人機(jī)對(duì)戰(zhàn)技術(shù)的研究無論理論意義或是應(yīng)用前景都有其不可替代的價(jià)值。

參考文獻(xiàn):

[1]陳業(yè)鵬. 基于Alpha-Beta搜索算法的中國(guó)象棋人機(jī)對(duì)戰(zhàn)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)光盤軟件與應(yīng)用,2012,04:197-199.

[2]周明明. 基于專家系統(tǒng)和蒙特卡羅方法的計(jì)算機(jī)圍棋博弈的研究[D].南京航空航天大學(xué),2012.

猜你喜歡
中國(guó)象棋
王跑跑
走特色發(fā)展之路 譜學(xué)校發(fā)展華章
——邯鄲市展覽路小學(xué)校園象棋活動(dòng)側(cè)記
馬踏連營(yíng)
馬踏連營(yíng)
讀寫算(上)(2016年12期)2016-12-13 10:50:39
中國(guó)象棋博弈程序中邊界判斷的優(yōu)化方法研究
大博士回答
為業(yè)余棋手診脈
棋藝(2014年7期)2014-09-09 09:42:59
中國(guó)象棋棋盤
讓山村學(xué)校彰顯棋類特色
教育(2014年10期)2014-04-17 05:47:20
中國(guó)象棋起源于何處
射洪县| 绥芬河市| 延川县| 枞阳县| 城口县| 滕州市| 北川| 十堰市| 乌鲁木齐县| 兴安县| 博客| 天津市| 焦作市| 涪陵区| 沙湾县| 台湾省| 罗城| 本溪| 吉木乃县| 安国市| 荣成市| 响水县| 阿克陶县| 大荔县| 石棉县| 新建县| 太保市| 周宁县| 个旧市| 灯塔市| 洪江市| 马公市| 新密市| 玉屏| 卢湾区| 盐亭县| 丰原市| 新晃| 水富县| 儋州市| 百色市|