學(xué)貫中西(10)：從RL領(lǐng)會如何與不確定性共舞

2022-05-30 10:48高煥堂

電子產(chǎn)品世界 2022年8期

高煥堂

1 前言

在上一期里，我們說明了當(dāng)人類的慢想（創(chuàng)意）與AI的快思（直覺）互相平衡時，最能展現(xiàn)協(xié)同創(chuàng)造力。有了AI經(jīng)驗(yàn)直覺來協(xié)助去蕪存菁，人類更敢超越經(jīng)驗(yàn)去進(jìn)行大跨度的聯(lián)想和探索。

這樣的協(xié)同組織體系，非常適合與高度不確定的外在環(huán)境（Environment）互動，并從外在環(huán)境獲取最大的回報。這是自然界生物（有機(jī)體系）的天賦學(xué)習(xí)本質(zhì)，非常接近于AI強(qiáng)化學(xué)習(xí)（Reinforcement Learning，簡稱RL）機(jī)制。例如，AlphaGo Zero增添了RL，就具有更強(qiáng)大的探索能力，能夠在不確定性極大的圍棋上打敗人類的頂尖高手，如圖1。

本文就藉由RL來說明上述的協(xié)同創(chuàng)新力，如何表現(xiàn)于不確性環(huán)境里的決策，也進(jìn)一步闡述其探索全局最優(yōu)解（Global optimum）的思維過程。

2 認(rèn)識強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)（RL）是機(jī)器學(xué)習(xí)（ML）的一種模型，它是來自于近似動態(tài)規(guī)劃（approximate dynamic programming，ADP）的算法。它的主要特點(diǎn)是：能在探索（在未知的領(lǐng)域）和利用（現(xiàn)有知識）之間找到平衡。

探索（Exploration）就是：嘗試以前從未做過的事情，以求獲得更高的報酬。而利用（Exploitation）就是：做當(dāng)前所知能產(chǎn)生最大回報的事情。

例如，假設(shè)您的住家周邊有十個餐館，而您只去過八家餐館吃飯，而有兩家還沒去消費(fèi)過?；谶^去的經(jīng)驗(yàn)，您了解這八家餐館中的哪一家的是最實(shí)惠又好吃的。如果有一天，您的好朋友來訪，您想請他去最棒的餐館吃飯。那么，您會如何選擇出最棒的餐館呢？

此時，方案一是：利用。就是利用您既有的知識經(jīng)驗(yàn)，從您經(jīng)歷過的八家餐館中挑選出一家最棒的餐館。另外，方案二是：探索。就是您選擇沒去過的兩家（即第九家或第十家），一起去品嘗新的滋味。

如果您采取方案一：帶他去八家中最棒的餐館吃飯。那么如果第九家或第十家比這八家都更棒，就失去最好的了。反之，如果采取方案二：帶他去第九家或第十家餐館。那么如果這兩家并不如前八家好吃，就得不償失了。

這是有趣的不確定性情境，就是通稱的<探索-利用>困境（Exploration-Exploitation dilemma），我們該如何與他共舞，來做最具智慧的抉擇呢？此時，強(qiáng)化學(xué)習(xí)將讓“探索”和“利用”兩者取得最佳的平衡。

3 “局部最優(yōu)”與“全局最優(yōu)”

“利用”就是：做當(dāng)前所知能產(chǎn)生最大報酬的事情。例如，剛才提到的，從您經(jīng)歷過的八家餐館中挑選出一家最棒的餐館。這樣的缺點(diǎn)是，常常受限于（現(xiàn)有知識），只能獲得區(qū)域性最優(yōu)（Local optima）方案。傳統(tǒng)上，人類的學(xué)習(xí)偏重于“利用”所學(xué)的知識，去發(fā)揮所長，追求很有把握、很可能（Probable）的方案，并從中挑選一個最高報酬的解，如圖2。

“探索”就是：嘗試、探索以前從未做過的事情，以求獲得可能的更高報酬。例如，剛才提到的，選擇沒去過的兩家（即第九家或第十家）餐館，可能比前八家更美味、好吃。然而，生物有機(jī)體系還有一種本能，去探索一些不太確定（Improbable）的方案，然后挑選具有更高報酬的解，如圖3。

AI強(qiáng)化學(xué)習(xí)很接近這種生物學(xué)習(xí)的本質(zhì)，在探索未知領(lǐng)域和利用現(xiàn)有知識，兩者之間找到了最佳平衡，來獲得全局最優(yōu)（Global optima）方案，如圖4。

目前，人類已經(jīng)把這種“探索-利用”最佳平衡的技巧（算法）教給了AI機(jī)器，讓AlphaGo Zero超越了人類的圍棋頂尖高手。如果人類也能從AI強(qiáng)化學(xué)習(xí)得到啟示，強(qiáng)化探索能力，則人人能探索更多可能（Possibility），得到更多機(jī)會（Opportunity）。

4 面對不確定性（Uncertainty）

不確定性的環(huán)境中，蘊(yùn)含者各種可能性（Possibility），也將給探索者帶來許多機(jī)會（Opportunity）。就如同西方的諺語：“When you focus on problems， you get problems. When you focus on possibilities， you have more opportunities.”（當(dāng)你專注于問題時，會引來更多問題。當(dāng)你專注于可能性時，你會有更多的機(jī)會。）

于是，我們就來關(guān)注可能性和機(jī)會。其中，“可能性”包括了：1）很可能（Probable）；2）不太確定（Improbable）。其中，“不太確定”又包括：2a）可能（Possible）；2b）很不可能（Impossible）。如圖5所示。

對于所面對的不確定性環(huán)境中，所帶來的可能性和機(jī)會，進(jìn)行分門別類之后，就來采取“剪枝”策略、進(jìn)行“去蕪存菁”的動作，也就是：把不可能的部分刪除掉，如圖6。

這里的“去蕪存菁”動作，可以大幅將低風(fēng)險。因?yàn)槎帽茱L(fēng)險，才敢大膽探索。AlphaGo也擅用“去蕪存菁”策略，來縮小探索“空間”，提高探索效果。例如，AlphaGo的目標(biāo)就是將獲勝機(jī)率最大化放在第一位，它的奏效策略是搜索途徑來實(shí)現(xiàn)最低風(fēng)險下的獲勝機(jī)會。AlphaGo常常會傾向?yàn)榱巳俣艞壐嘹A子數(shù)，其目的是為了降低不能取勝的風(fēng)險，以便提高勝率。即使是很小的差距仍會納入謹(jǐn)慎考慮。例如，當(dāng)AlphaGo面對“贏3子，90%勝率”和“贏1/4子，95%勝率”兩種情況時，它會傾向選擇后者，力求降低風(fēng)險。

去蕪存菁之后，留下的部分，俗稱為：甜心區(qū)（Sweet spot），如圖7。

孫子兵法上也強(qiáng)調(diào)：不打沒把握的仗。股市名家巴菲特也強(qiáng)調(diào)：不賠錢原則。都是說明面對不確定時，重視降低風(fēng)險，來提高勝率。

5 與不確定性共舞（Living with uncertainty）

茲拿一個童話寓言故事，來綜合前面所述的內(nèi)涵。有一只小獅子肚子餓了，走到附近的草原上，依據(jù)成功經(jīng)驗(yàn)和熟練的技技巧（戰(zhàn)術(shù)）奮力去追小兔，填飽肚子。一日復(fù)一日，它發(fā)現(xiàn)捕獲的兔子日漸減少（可能兔子變敏感了），有些困惑（心生不確定性），回到家就問媽媽。獅子?jì)寢尵徒踢@小獅子，媽媽說：“你肚子餓了，就眼睛閉著，睡大覺，不要亂跑。”

小獅子滿腦困惑，不確定感急速上升，非常不安。但母命難違，只好勉強(qiáng)為之，果然耳朵變靈敏了，清晰聽見兔子聲音愈來愈近，然后猛然奔出一抓，輕易捕獲，飽食一餐，繼續(xù)睡大覺。君不見，身為野獸之王的雄獅母獅，常?？此葡胨X的表情。

然而，小獅子關(guān)注于肚子餓（focus on problems），卻引來更多問題（more problems），如追累了，走不動，引來生命危險等。而獅子?jì)寢寗t教小獅子不要圍繞問題，勇于拋掉無用的戰(zhàn)術(shù)，力求與不確定性共舞。因而發(fā)現(xiàn)更多機(jī)會（more opportunities），如兔子自動送上門來。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

學(xué)貫中西(10)：從RL領(lǐng)會如何與不確定性共舞