国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

會(huì)玩德州撲克的AI,為什么比AlphaGo更厲害?

2017-08-11 00:07金姬
新民周刊 2017年30期
關(guān)鍵詞:桑德撲克德州

金姬

沒(méi)有追隨深度學(xué)習(xí)潮流的“冷撲大師”,或許在現(xiàn)實(shí)生活中擁有更廣闊的用武之地:金融交易、網(wǎng)絡(luò)安全、商業(yè)拍賣、政治談判……因?yàn)檫@些情景都是充滿了各種博弈的“非完美信息”游戲。

提到人機(jī)大戰(zhàn),普羅大眾比較熟悉的是戰(zhàn)勝人類圍棋的AI“阿爾法狗”(AlphaGo)。但在人工智能(AI)界,業(yè)內(nèi)人士更關(guān)注的是另一項(xiàng)人機(jī)大戰(zhàn)——德州撲克。因?yàn)樵谶@個(gè)領(lǐng)域,AI系統(tǒng)沒(méi)有海量的棋譜可以深度學(xué)習(xí),比賽雙方掌握的信息也不對(duì)等,這就需要AI系統(tǒng)利用博弈論等其他理論來(lái)進(jìn)行決策。

2017年1月,美國(guó)賓州匹茲堡的大河賭場(chǎng)(Rivers Casino)舉行了一場(chǎng)德州撲克的“人機(jī)大戰(zhàn)”——連續(xù)20個(gè)比賽日中,一個(gè)名為“冷撲大師”(Libratus)的AI在共計(jì)12萬(wàn)手的一對(duì)一無(wú)限注德?lián)浔荣愔袚魯×怂拿敿馊祟惛呤郑灿?jì)領(lǐng)先人類團(tuán)隊(duì)176萬(wàn)美元籌碼。令人咋舌的是,這是“冷撲大師”第一次和人類交手。

3個(gè)月后,“冷撲大師”又在中國(guó)海南戰(zhàn)勝了6位頂尖華人撲克選手。此次比賽發(fā)起人、人工智能工程院院長(zhǎng)李開(kāi)復(fù)賽后如此評(píng)價(jià)道:“如果AlphaGo是超級(jí)IQ天才,那么‘冷撲大師就是超級(jí)EQ天才?!?/p>

7月下旬,“冷撲大師”的開(kāi)發(fā)者、美國(guó)卡內(nèi)基梅隆大學(xué)(CMU)計(jì)算機(jī)教授托馬斯·桑德霍姆(Tuomas Sandholm)再次來(lái)到中國(guó),在“2017鈦媒體-杉數(shù)科技AI大師圓桌會(huì)”現(xiàn)場(chǎng)與他的學(xué)生、清華大學(xué)計(jì)算經(jīng)濟(jì)學(xué)研究室主任、博士生導(dǎo)師唐平中,上海財(cái)經(jīng)大學(xué)教授、國(guó)際奧數(shù)金牌、杉數(shù)科技科學(xué)家何斯邁,上海財(cái)經(jīng)大學(xué)交叉科學(xué)研究院院長(zhǎng)、杉數(shù)科技首席科學(xué)家葛冬冬討論了商業(yè)實(shí)際場(chǎng)景中真正需要的AI,給大家分享了“AI賭神”的獲勝秘訣。他表示:沒(méi)有追隨深度學(xué)習(xí)潮流的“冷撲大師”,或許在現(xiàn)實(shí)生活中擁有更廣闊的用武之地:金融交易、網(wǎng)絡(luò)安全、商業(yè)拍賣、政治談判……因?yàn)檫@些情景都是充滿了各種博弈的“非完美信息游戲”(imperfect-info games)。

為什么要讓AI玩德?lián)洌?/p>

“德?lián)銩I之父”桑德霍姆用帶有芬蘭口音的英語(yǔ)說(shuō),之前著名的人機(jī)大戰(zhàn),無(wú)論是IBM的國(guó)際象棋AI“深藍(lán)”、還是谷歌的圍棋AI“阿爾法狗”,比賽雙方獲得的信息都是一樣的,這就是“完美信息游戲”。但現(xiàn)實(shí)生活中這種信息完全對(duì)等的情況很少發(fā)生,而更多是“非完美信息游戲”,德州撲克就是這樣一例。也就是說(shuō),即便在一對(duì)一的情況下,比賽雙方獲得的信息是不一樣的、或者說(shuō)只是部分的——雙方都不知道五張公共牌會(huì)開(kāi)出怎樣的結(jié)果,也不知道對(duì)手猜測(cè)自己握有怎樣的手牌。這樣的游戲就不存在單一的最優(yōu)玩法。

對(duì)于AI團(tuán)隊(duì)而言,研究“非完美信息游戲”不但更富挑戰(zhàn)性,也更有實(shí)際運(yùn)用價(jià)值。而“冷撲大師”打開(kāi)了AI解決隨機(jī)事件和隱藏信息的大門。

根據(jù)《量子位》的報(bào)道,“德?lián)銩I”的最早研發(fā)可以追溯到2014年8月,當(dāng)時(shí)剛剛完成碩士學(xué)業(yè)的諾阿姆·布朗(Noam Brown)繼續(xù)留在CMU攻讀計(jì)算機(jī)科學(xué)的博士學(xué)位。當(dāng)年,他就和導(dǎo)師桑德霍姆教授一起開(kāi)發(fā)出德?lián)銩I:Tartanian7以及后續(xù)版本Baby Tartanian8,并且連續(xù)贏得電腦撲克大賽(電腦VS電腦)的冠軍。

師生倆乘勝追擊,開(kāi)始研究德?lián)淙藱C(jī)大戰(zhàn)。兩人創(chuàng)造了Claudico,當(dāng)時(shí)的桑德霍姆以為Claudico有五成勝算。誰(shuí)知,在2015年4月美國(guó)匹茲堡的大河賭場(chǎng),Claudico在兩周時(shí)間內(nèi)和四位人類頂級(jí)玩家交鋒8萬(wàn)手,累計(jì)輸?shù)?3.2萬(wàn)美元的籌碼。之所以選擇這個(gè)賭場(chǎng),因?yàn)榭▋?nèi)基梅隆大學(xué)也在匹茲堡。

2017年1月11日,全新的“冷撲大師”(Libratus)卷土重來(lái)。還是四位人類對(duì)手,不過(guò)時(shí)長(zhǎng)變?yōu)?0天,累積交鋒12萬(wàn)手。這次德?lián)銩I沒(méi)給人類玩家機(jī)會(huì),一路以碾壓的態(tài)勢(shì)完勝。

“冷撲大師”的獲勝秘籍是什么?

以往AI處理“不完美信息游戲”采用一種縮略的方法,例如將對(duì)手下注249美元近似為200美元進(jìn)行簡(jiǎn)化處理,采用這一模式的Claudico在人類面前不堪一擊。而“冷撲大師”就不同了,它會(huì)對(duì)每一手牌進(jìn)行單獨(dú)的處理,根據(jù)不同的牌面制訂出不同的戰(zhàn)略。對(duì)它而言,249美元就是249美元,它不會(huì)像以往的AI那樣嘗試聚類,而是馬上實(shí)時(shí)計(jì)算,得出勝算最大的策略。

這種算法最大的特點(diǎn),是開(kāi)發(fā)者可以獲得一定程度的“確定性”。而“確定性”正是時(shí)下大熱的深度學(xué)習(xí)最缺乏的。有評(píng)論指出,深度學(xué)習(xí)有兩大局限性:一方面,深度學(xué)習(xí)的本質(zhì)是機(jī)器通過(guò)分析海量數(shù)據(jù)習(xí)得一些模式,但并不是所有領(lǐng)域都能采集到海量數(shù)據(jù)。以自動(dòng)駕駛為例,顯然通過(guò)積累海量事故經(jīng)驗(yàn)來(lái)習(xí)得避免事故發(fā)生是不現(xiàn)實(shí)的。另一方面,深度學(xué)習(xí)是一個(gè)知其然而不知其所以然的“黑匣子”,這在許多重大安全事件上并不能令人放心。自動(dòng)駕駛的事故問(wèn)責(zé)問(wèn)題就是一例。

值得注意的是,“冷撲大師”在今年1月人機(jī)大戰(zhàn)之前沒(méi)有研究過(guò)人類如何打德州撲克,也沒(méi)有和人類職業(yè)玩家有過(guò)交手。在投入實(shí)戰(zhàn)之前,它和自己對(duì)戰(zhàn)了幾百萬(wàn)手牌,其中有不少是帶有特定目的的殘局,真正機(jī)器和機(jī)器之間的交手,大約是幾十萬(wàn)手。

更有意思的是,“詐?!保╞luff)這種看似與心理有關(guān)的人類技能,“冷撲大師”通過(guò)算法也“自學(xué)成才”。詐唬是德?lián)涞囊环N經(jīng)典策略——當(dāng)你手中的牌面不夠大,可以通過(guò)虛張聲勢(shì)加注嚇退對(duì)手,逼對(duì)手棄牌。而計(jì)算機(jī)會(huì)根據(jù)選手過(guò)去的表現(xiàn)來(lái)判斷對(duì)手牌面大的概率有多少,從而做出當(dāng)下的最佳策略。

在桑德霍姆看來(lái),“冷撲大師”的這套AI系統(tǒng)有十分廣闊應(yīng)用空間:從戰(zhàn)略定價(jià)到金融領(lǐng)域、從談判到網(wǎng)絡(luò)安全、從政治競(jìng)選到拍賣、從醫(yī)療資源規(guī)劃到軍事領(lǐng)域……現(xiàn)在唯一的問(wèn)題是,運(yùn)行“冷撲大師”,需要匹茲堡超算中心的Bridges超級(jí)計(jì)算機(jī)。不過(guò)桑德姆斯研究團(tuán)隊(duì)樂(lè)觀表示,算法還可以被優(yōu)化,再加上計(jì)算硬件的提升,可能5年之內(nèi)就能一部手機(jī)搞定一切了。

猜你喜歡
桑德撲克德州
小撲克打出大品牌
德州大陸架石油工程技術(shù)有限公司
德州魯源貨場(chǎng)信號(hào)聯(lián)鎖設(shè)備關(guān)鍵技術(shù)的應(yīng)用
德州地區(qū)懸鈴木方翅網(wǎng)蝽的綜合防治措施
最環(huán)保的撲克版空氣加濕器
河北桑德再生塑料園區(qū)綠色發(fā)展研討會(huì)舉辦
蝴蝶翅膀上的26個(gè)字母
巧擺撲克等
河源市| 永州市| 偏关县| 阿巴嘎旗| 新余市| 河北区| 山丹县| 长兴县| 雷波县| 锡林浩特市| 道真| 监利县| 历史| 长治县| 穆棱市| 武威市| 博客| 东城区| 阿勒泰市| 武安市| 英吉沙县| 双柏县| 清镇市| 黄石市| 大余县| 柳河县| 榆林市| 资溪县| 门源| 乐安县| 开远市| 望城县| 大荔县| 星子县| 皋兰县| 屯留县| 濮阳市| 安塞县| 彭州市| 临夏县| 雅安市|