高煥堂
1 前言
在上一期里,我們說明了當(dāng)人類的慢想(創(chuàng)意)與AI的快思(直覺)互相平衡時,最能展現(xiàn)協(xié)同創(chuàng)造力。有了AI經(jīng)驗(yàn)直覺來協(xié)助去蕪存菁,人類更敢超越經(jīng)驗(yàn)去進(jìn)行大跨度的聯(lián)想和探索。
這樣的協(xié)同組織體系,非常適合與高度不確定的外在環(huán)境(Environment)互動,并從外在環(huán)境獲取最大的回報。這是自然界生物(有機(jī)體系)的天賦學(xué)習(xí)本質(zhì),非常接近于AI強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡稱RL)機(jī)制。例如,AlphaGo Zero增添了RL,就具有更強(qiáng)大的探索能力,能夠在不確定性極大的圍棋上打敗人類的頂尖高手,如圖1。
本文就藉由RL來說明上述的協(xié)同創(chuàng)新力,如何表現(xiàn)于不確性環(huán)境里的決策,也進(jìn)一步闡述其探索全局最優(yōu)解(Global optimum)的思維過程。
2 認(rèn)識強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(RL)是機(jī)器學(xué)習(xí)(ML)的一種模型,它是來自于近似動態(tài)規(guī)劃(approximate dynamic programming,ADP)的算法。它的主要特點(diǎn)是:能在探索(在未知的領(lǐng)域)和利用(現(xiàn)有知識)之間找到平衡。
探索(Exploration)就是:嘗試以前從未做過的事情,以求獲得更高的報酬。而利用(Exploitation)就是:做當(dāng)前所知能產(chǎn)生最大回報的事情。
例如,假設(shè)您的住家周邊有十個餐館,而您只去過八家餐館吃飯,而有兩家還沒去消費(fèi)過?;谶^去的經(jīng)驗(yàn),您了解這八家餐館中的哪一家的是最實(shí)惠又好吃的。如果有一天,您的好朋友來訪,您想請他去最棒的餐館吃飯。那么,您會如何選擇出最棒的餐館呢?
此時,方案一是:利用。就是利用您既有的知識經(jīng)驗(yàn),從您經(jīng)歷過的八家餐館中挑選出一家最棒的餐館。另外,方案二是:探索。就是您選擇沒去過的兩家(即第九家或第十家),一起去品嘗新的滋味。
如果您采取方案一:帶他去八家中最棒的餐館吃飯。那么如果第九家或第十家比這八家都更棒,就失去最好的了。反之,如果采取方案二:帶他去第九家或第十家餐館。那么如果這兩家并不如前八家好吃,就得不償失了。
這是有趣的不確定性情境,就是通稱的<探索-利用>困境(Exploration-Exploitation dilemma),我們該如何與他共舞,來做最具智慧的抉擇呢?此時,強(qiáng)化學(xué)習(xí)將讓“探索”和“利用”兩者取得最佳的平衡。
3 “局部最優(yōu)”與“全局最優(yōu)”
“利用”就是:做當(dāng)前所知能產(chǎn)生最大報酬的事情。例如,剛才提到的,從您經(jīng)歷過的八家餐館中挑選出一家最棒的餐館。這樣的缺點(diǎn)是,常常受限于(現(xiàn)有知識),只能獲得區(qū)域性最優(yōu)(Local optima)方案。傳統(tǒng)上,人類的學(xué)習(xí)偏重于“利用”所學(xué)的知識,去發(fā)揮所長,追求很有把握、很可能(Probable)的方案,并從中挑選一個最高報酬的解,如圖2。
“探索”就是:嘗試、探索以前從未做過的事情,以求獲得可能的更高報酬。例如,剛才提到的,選擇沒去過的兩家(即第九家或第十家)餐館,可能比前八家更美味、好吃。然而,生物有機(jī)體系還有一種本能,去探索一些不太確定(Improbable)的方案,然后挑選具有更高報酬的解,如圖3。
AI強(qiáng)化學(xué)習(xí)很接近這種生物學(xué)習(xí)的本質(zhì),在探索未知領(lǐng)域和利用現(xiàn)有知識,兩者之間找到了最佳平衡,來獲得全局最優(yōu)(Global optima)方案,如圖4。
目前,人類已經(jīng)把這種“探索-利用”最佳平衡的技巧(算法)教給了AI機(jī)器,讓AlphaGo Zero超越了人類的圍棋頂尖高手。如果人類也能從AI強(qiáng)化學(xué)習(xí)得到啟示,強(qiáng)化探索能力,則人人能探索更多可能(Possibility),得到更多機(jī)會(Opportunity)。
4 面對不確定性(Uncertainty)
不確定性的環(huán)境中,蘊(yùn)含者各種可能性(Possibility),也將給探索者帶來許多機(jī)會(Opportunity)。就如同西方的諺語:“When you focus on problems, you get problems. When you focus on possibilities, you have more opportunities.”(當(dāng)你專注于問題時,會引來更多問題。當(dāng)你專注于可能性時,你會有更多的機(jī)會。)
于是,我們就來關(guān)注可能性和機(jī)會。其中,“可能性”包括了:1) 很可能(Probable) ;2) 不太確定(Improbable)。其中,“不太確定”又包括:2a) 可能(Possible);2b)很不可能(Impossible)。如圖5所示。
對于所面對的不確定性環(huán)境中,所帶來的可能性和機(jī)會,進(jìn)行分門別類之后,就來采取“剪枝”策略、進(jìn)行“去蕪存菁”的動作,也就是:把不可能的部分刪除掉,如圖6。
這里的“去蕪存菁”動作,可以大幅將低風(fēng)險。因?yàn)槎帽茱L(fēng)險,才敢大膽探索。AlphaGo也擅用“去蕪存菁”策略,來縮小探索“空間”,提高探索效果。例如,AlphaGo的目標(biāo)就是將獲勝機(jī)率最大化放在第一位,它的奏效策略是搜索途徑來實(shí)現(xiàn)最低風(fēng)險下的獲勝機(jī)會。AlphaGo常常會傾向?yàn)榱巳俣艞壐嘹A子數(shù),其目的是為了降低不能取勝的風(fēng)險,以便提高勝率。即使是很小的差距仍會納入謹(jǐn)慎考慮。例如,當(dāng)AlphaGo面對“贏3子,90%勝率”和“贏1/4子,95%勝率”兩種情況時,它會傾向選擇后者,力求降低風(fēng)險。
去蕪存菁之后,留下的部分,俗稱為:甜心區(qū)(Sweet spot),如圖7。
孫子兵法上也強(qiáng)調(diào):不打沒把握的仗。股市名家巴菲特也強(qiáng)調(diào):不賠錢原則。都是說明面對不確定時,重視降低風(fēng)險,來提高勝率。
5 與不確定性共舞(Living with uncertainty)
茲拿一個童話寓言故事,來綜合前面所述的內(nèi)涵。有一只小獅子肚子餓了,走到附近的草原上,依據(jù)成功經(jīng)驗(yàn)和熟練的技技巧(戰(zhàn)術(shù))奮力去追小兔,填飽肚子。一日復(fù)一日,它發(fā)現(xiàn)捕獲的兔子日漸減少(可能兔子變敏感了),有些困惑(心生不確定性),回到家就問媽媽。獅子?jì)寢尵徒踢@小獅子,媽媽說:“你肚子餓了,就眼睛閉著,睡大覺,不要亂跑。”
小獅子滿腦困惑,不確定感急速上升,非常不安。但母命難違,只好勉強(qiáng)為之,果然耳朵變靈敏了,清晰聽見兔子聲音愈來愈近,然后猛然奔出一抓,輕易捕獲,飽食一餐,繼續(xù)睡大覺。君不見,身為野獸之王的雄獅母獅,常??此葡胨X的表情。
然而,小獅子關(guān)注于肚子餓(focus on problems),卻引來更多問題(more problems),如追累了,走不動,引來生命危險等。而獅子?jì)寢寗t教小獅子不要圍繞問題,勇于拋掉無用的戰(zhàn)術(shù),力求與不確定性共舞。因而發(fā)現(xiàn)更多機(jī)會(more opportunities),如兔子自動送上門來。