国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

阿爾法元:每一次它都變得更聰明

2017-11-23 08:30:38
方圓 2017年21期
關(guān)鍵詞:李昕棋局阿爾法

阿爾法元通過與自身對(duì)弈實(shí)現(xiàn)了自身能力的提升,每一次它都變得更聰明,每一次棋局也更有挑戰(zhàn)性

在金庸的小說《射雕英雄傳》里,周伯通“左手畫圓,右手畫方”,左手攻擊右手,右手及時(shí)反搏,自娛自樂,終無敵于天下。這個(gè)橋段著實(shí)留在一代人的記憶中。

現(xiàn)實(shí)世界中,亦有這么一個(gè)“幼童”,他沒見過一個(gè)棋譜,也沒有得到一個(gè)人指點(diǎn),從零開始,自娛自樂,自己參悟,用了僅僅40天,便稱霸圍棋武林。

這個(gè)“幼童”,叫阿爾法元(AlphaGo Zero),就是今年5月在烏鎮(zhèn)圍棋峰會(huì)上打敗了人類第一高手柯潔的阿爾法狗強(qiáng)化版AlphaGo Master的同門“師弟”。不過,這個(gè)遍讀人類幾乎所有棋譜、以3∶0打敗人類第一高手的師兄,在“師弟”阿爾法元從零自學(xué)第21天后,便被其擊敗。

10月19日,一手創(chuàng)造了AlphaGo神話的谷歌DeepMind團(tuán)隊(duì)在Nature雜志上發(fā)表重磅論文Mastering the game of Go without human knowledge,介紹了團(tuán)隊(duì)最新研究成果——阿爾法元的出世,引起業(yè)內(nèi)轟動(dòng)。雖師出同門,但是師兄弟的看家本領(lǐng)卻有本質(zhì)的差別。

“過去所有版本的AlphaGo都從利用人類數(shù)據(jù)進(jìn)行培訓(xùn)開始,它們被告知人類高手在這個(gè)地方怎么下,在另一個(gè)地方又怎么下?!?DeepMind阿爾法狗項(xiàng)目負(fù)責(zé)人David Silver博士在一段采訪中介紹,“而阿爾法元不使用任何人類數(shù)據(jù),完全是自我學(xué)習(xí),從自我對(duì)弈中實(shí)踐?!?/p>

David Silver博士介紹,在他們所設(shè)計(jì)的算法中,阿爾法元的對(duì)手,或者叫陪練,總是被調(diào)成與其水平一致?!八运菑淖罨A(chǔ)的水平起步,從零開始,從隨機(jī)招式開始,但在學(xué)習(xí)過程中的每一步,它的對(duì)手都會(huì)正好被校準(zhǔn)為匹配器當(dāng)前水平,一開始,這些對(duì)手都非常弱,但是之后漸漸變得越來越強(qiáng)大?!?/p>

這種學(xué)習(xí)方式正是當(dāng)今人工智能最熱門的研究領(lǐng)域之一—強(qiáng)化學(xué)習(xí)(Reinforcement learning)。

昆山杜克大學(xué)和美國杜克大學(xué)電子與計(jì)算機(jī)工程學(xué)教授李昕博士介紹,DeepMind團(tuán)隊(duì)此次所利用的一種新的強(qiáng)化學(xué)習(xí)方式,是從一個(gè)對(duì)圍棋沒有任何知識(shí)的神經(jīng)網(wǎng)絡(luò)開始,然后與一種強(qiáng)大的搜索算法相結(jié)合,“簡(jiǎn)單地解釋就是,它開始不知道該怎么做,就去嘗試,嘗試之后,看到了結(jié)果,若是正面結(jié)果,就知道做對(duì)了,反之,就知道做錯(cuò)了,這就是它自我學(xué)習(xí)的方法?!?/p>

這一過程中,阿爾法元成為自己的“老師”,神經(jīng)網(wǎng)絡(luò)不斷被調(diào)整更新,以評(píng)估預(yù)測(cè)下一個(gè)落子位置以及輸贏,更新后的神經(jīng)網(wǎng)絡(luò)又與搜索算法重新組合,進(jìn)而創(chuàng)建一個(gè)新的、更強(qiáng)大的版本,然而再次重復(fù)這個(gè)過程,系統(tǒng)性能經(jīng)過每一次迭代得到提高,使得神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)越來越準(zhǔn)確,阿爾法元也越來越強(qiáng)大。

其中值得一提的是,以前版本的阿爾法狗通常使用預(yù)測(cè)下一步的“策略網(wǎng)絡(luò)(policy network)”和評(píng)估棋局輸贏的“價(jià)值網(wǎng)絡(luò)”(value network)兩個(gè)神經(jīng)網(wǎng)絡(luò)。而更為強(qiáng)大的阿爾法元只使用了一個(gè)神經(jīng)網(wǎng)絡(luò),也就是兩個(gè)網(wǎng)絡(luò)的整合版本。

從這個(gè)意義上而言,“AlphaGo Zero”譯成“阿爾法元”,而不是字面上的“阿爾法零”,“內(nèi)涵更加豐富,代表了人類認(rèn)知的起點(diǎn)——神經(jīng)元?!崩铌拷淌谡f。

上述研究更新了人們對(duì)于機(jī)器學(xué)習(xí)的認(rèn)知?!叭藗円话阏J(rèn)為,機(jī)器學(xué)習(xí)就是關(guān)于大數(shù)據(jù)和海量計(jì)算,但是通過阿爾法元,我們發(fā)現(xiàn),其實(shí)算法比所謂計(jì)算或數(shù)據(jù)可用性更重要?!盌avid Silver博士說。

李昕教授長(zhǎng)期專注于制造業(yè)大數(shù)據(jù)研究,他認(rèn)為,這個(gè)研究最有意義的一點(diǎn)在于,證明了人工智能在某些領(lǐng)域,也許可以擺脫對(duì)人類經(jīng)驗(yàn)和輔助的依賴?!叭斯ぶ悄艿囊淮箅y點(diǎn)就是,需要大量人力對(duì)數(shù)據(jù)樣本進(jìn)行標(biāo)注,而阿爾法元?jiǎng)t證明,人工智能可以通過 無監(jiān)督數(shù)據(jù)(unsupervised data) ,也就是人類未標(biāo)注的數(shù)據(jù),來解決問題。”

有人暢想,類似的深度強(qiáng)化學(xué)習(xí)算法,或許能更容易地被廣泛應(yīng)用到其他人類缺乏了解或是缺乏大量標(biāo)注數(shù)據(jù)的領(lǐng)域。不過,究竟有多大實(shí)際意義,能應(yīng)用到哪些現(xiàn)實(shí)領(lǐng)域,李昕教授表示“還前途未卜”,“下圍棋本身是一個(gè)比較局限的應(yīng)用,人類覺得下圍棋很復(fù)雜,但是對(duì)于機(jī)器來說并不難。而且,下圍棋只是一種娛樂方式,不算作人們?cè)谏钪杏龅降膶?shí)際問題?!?/p>

那么,谷歌的AI為什么會(huì)選擇圍棋?

據(jù)報(bào)道,歷史上,電腦最早掌握的第一款經(jīng)典游戲是井字游戲,這是1952年一位博士在讀生的研究項(xiàng)目;隨后是1994年電腦程序Chinook成功挑戰(zhàn)西洋跳棋游戲;3年后,IBM深藍(lán)超級(jí)計(jì)算機(jī)在國際象棋比賽中戰(zhàn)勝世界冠軍加里·卡斯帕羅夫。

除了棋盤游戲外,IBM的Watson系統(tǒng)在2011年成功挑戰(zhàn)老牌智力競(jìng)賽節(jié)目Jeopardy游戲一戰(zhàn)成名;2014年,Google自己編寫的算法,學(xué)會(huì)了僅需輸入初始像素信息就能玩幾十種Atari游戲。

但有一項(xiàng)游戲仍然是人類代表著頂尖水平,那就是圍棋。谷歌DeepMind創(chuàng)始人兼CEO Demis Hassabis博士曾在2016年AlphaGo對(duì)陣?yán)钍朗瘯r(shí)就做過說明,有著3000多年歷史的圍棋是人類有史以來發(fā)明出來的最復(fù)雜的游戲,對(duì)于人工智能來說,這是一次最尖端的大挑戰(zhàn),需要直覺和計(jì)算,要想熟練玩圍棋需要將模式識(shí)別和運(yùn)籌帷幄結(jié)合。

“圍棋的搜索空間是漫無邊際的——比圍棋棋盤要大1個(gè)古戈?duì)枺〝?shù)量級(jí)單位,10的100次方,甚至比宇宙中的原子數(shù)量還要多)?!币虼?,傳統(tǒng)的人工智能方法也就是“為所有可能的步數(shù)建立搜索樹”,在圍棋游戲中幾乎無法實(shí)現(xiàn)。

而打敗了人類的AlphaGo系統(tǒng)的關(guān)鍵則是,將圍棋巨大無比的搜索空間壓縮到可控的范圍之內(nèi)。David Silver博士此前曾介紹,策略網(wǎng)絡(luò)的作用是預(yù)測(cè)下一步,并用來將搜索范圍縮小至最有可能的那些步驟。另一個(gè)神經(jīng)網(wǎng)絡(luò)“價(jià)值網(wǎng)絡(luò)”(valuenetwork)則是用來減少搜索樹的深度,每走一步估算一次游戲的贏家,而不是搜索所有結(jié)束棋局的途徑。

李昕教授對(duì)阿爾法元帶來的突破表示欣喜,但同時(shí)他也提到,“阿爾法元證明的只是在下圍棋這個(gè)游戲中,無監(jiān)督學(xué)習(xí)(unsupervised learning)比有監(jiān)督學(xué)習(xí)(supervised learning) 更優(yōu) ,但并未證明這就是最優(yōu)方法,也許兩者結(jié)合的semi-supervised learning,也就是在不同時(shí)間和階段,結(jié)合有監(jiān)督或無監(jiān)督學(xué)習(xí)各自的優(yōu)點(diǎn),可以得到更優(yōu)的結(jié)果?!?/p>

李昕教授說,人工智能的技術(shù)還遠(yuǎn)沒有達(dá)到人們所想象的程度,“比如,互聯(lián)網(wǎng)登錄時(shí)用的reCAPTCHA驗(yàn)證碼(圖像或者文字),就無法通過機(jī)器學(xué)習(xí)算法自動(dòng)識(shí)別”,他說,在某些方面,機(jī)器人確實(shí)比人做得更好,但目前并不能完全替換人。“只有當(dāng)科研證明,一項(xiàng)人工智能技術(shù)能夠解決一些實(shí)際問題和人工痛點(diǎn)時(shí),才真正算作是一個(gè)重大突破?!?/p>

昆山杜克大學(xué)常務(wù)副校長(zhǎng)、中美科技政策和關(guān)系專家丹尼斯·西蒙(Denis Simon)博士在接受采訪時(shí)表示,阿爾法元在圍棋領(lǐng)域的成功說明它確實(shí)有極大的潛力。阿爾法元通過與自身對(duì)弈實(shí)現(xiàn)了自身能力的提升,每一次它都變得更聰明,每一次棋局也更有挑戰(zhàn)性。這種重復(fù)性的、充分參與的學(xué)習(xí)增強(qiáng)了阿爾法元處理更高層次的、戰(zhàn)略復(fù)雜問題的能力。但缺點(diǎn)是這是一個(gè)封閉的系統(tǒng)?!鞍柗ㄔ绾文軌虺^自身的局限獲得進(jìn)一步的成長(zhǎng)?換句話說,它能跳出框框思考嗎?”(文章來源: 澎湃新聞)endprint

猜你喜歡
李昕棋局阿爾法
極狐阿爾法S HI版
汽車觀察(2022年12期)2023-01-17 02:19:24
“螢火蟲-阿爾法”小型火箭首飛概述
國際太空(2021年10期)2021-12-02 01:32:42
Characteristics of a kHz helium atmospheric pressure plasma jet interacting with two kinds of targets
ARCFOX極狐阿爾法S
汽車觀察(2021年11期)2021-04-24 18:04:58
傳祺海外新棋局
汽車觀察(2018年10期)2018-11-06 07:05:16
安凱運(yùn)游棋局
汽車觀察(2018年9期)2018-10-23 05:46:46
西咸新棋局
華林 國際大棋局
阿爾法磁譜儀(AMS)
太空探索(2014年5期)2014-07-12 09:53:44
趕集
德保县| 阿拉善左旗| 盐津县| 麟游县| 广昌县| 若羌县| 临湘市| 巴林左旗| 贡嘎县| 阿合奇县| 罗山县| 合水县| 滨海县| 娄底市| 西安市| 澄江县| 苏尼特左旗| 宜君县| 香格里拉县| 健康| 襄汾县| 张家口市| 平陆县| 卢龙县| 宣武区| 柘城县| 徐汇区| 西吉县| 湘潭县| 关岭| 剑阁县| 泰宁县| 甘肃省| 大丰市| 江门市| 博野县| 社旗县| 贞丰县| 咸阳市| 西安市| 渭源县|