国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

什么是深度強化學(xué)習(xí):人工智能和深度學(xué)習(xí)的下一步

2018-03-30 11:28JamesKobielus楊勇
計算機世界 2018年10期
關(guān)鍵詞:開發(fā)人員代理架構(gòu)

James Kobielus 楊勇

強化學(xué)習(xí)非常適合于監(jiān)督學(xué)習(xí)或者無監(jiān)督學(xué)習(xí)技術(shù)不能勝任的自主決策環(huán)境。

在人工智能領(lǐng)域,強化學(xué)習(xí)一直處于小眾地位。但是,強化學(xué)習(xí)過去幾年中已經(jīng)開始在很多人工智能項目中發(fā)揮出了很大的作用。其最佳應(yīng)用點是在環(huán)境情境化決策場景中計算出代理應(yīng)采取的最優(yōu)措施。

強化學(xué)習(xí)使用試錯方法來最大限度地實現(xiàn)算法獎勵函數(shù),因此,非常適合IT運營管理、能源、醫(yī)療、商業(yè)、金融、交通運輸和金融等領(lǐng)域的很多自適應(yīng)控制和多代理自動化應(yīng)用。它被用來在機器人、游戲和仿真等傳統(tǒng)關(guān)注的領(lǐng)域中訓(xùn)練人工智能,也用于邊緣分析、自然語言處理、機器翻譯、計算機視覺和數(shù)字助理等新一代人工智能解決方案。

強化學(xué)習(xí)也是物聯(lián)網(wǎng)自主邊緣應(yīng)用開發(fā)的基礎(chǔ)。對于工業(yè)、交通運輸、醫(yī)療和消費類應(yīng)用,大部分邊緣應(yīng)用開發(fā)都涉及到在動態(tài)環(huán)境下,開發(fā)出能夠在不同程度自治情形下運行的人工智能機器人。

強化學(xué)習(xí)是怎樣工作的

在這樣的應(yīng)用領(lǐng)域,由于缺少預(yù)先存在的“完全真實”的訓(xùn)練數(shù)據(jù)集,邊緣設(shè)備的人工智能大腦必須依靠強化學(xué)習(xí),目的是最大限度地實現(xiàn)累積獎勵函數(shù),例如,根據(jù)規(guī)范中包含的一組標(biāo)準(zhǔn)來裝配制造組件。這與其他類型的人工智能學(xué)習(xí)方式形成了對比,其他類型的人工智能通過(例如有監(jiān)督學(xué)習(xí))最小化基于完全真實數(shù)據(jù)的算法損失函數(shù),或者(例如無監(jiān)督學(xué)習(xí))最小化數(shù)據(jù)點之間的距離函數(shù)來進行學(xué)習(xí)。

然而,這些人工智能學(xué)習(xí)方法并不一定是相互孤立的。最有趣的人工智能發(fā)展趨勢之一是強化學(xué)習(xí)與有監(jiān)督和無監(jiān)督學(xué)習(xí)在更高級應(yīng)用中的融合。人工智能開發(fā)人員在應(yīng)用中混合了這些方法,因為沒有一種單一的學(xué)習(xí)方法能滿足需求。

例如,如果沒有帶標(biāo)簽的訓(xùn)練數(shù)據(jù),監(jiān)督學(xué)習(xí)本身是無用的,自動駕駛等應(yīng)用中經(jīng)常沒有帶標(biāo)簽的數(shù)據(jù),每一次環(huán)境的瞬間變化基本上都是沒有標(biāo)簽的,也是唯一的。同樣的,無監(jiān)督學(xué)習(xí)——使用了聚類分析來檢測傳感器饋入數(shù)據(jù)和其他復(fù)雜的無標(biāo)簽數(shù)據(jù)中的模式,并不適合用于確定智能端點在實際決策場景中應(yīng)采取的最佳措施。

什么是深度強化學(xué)習(xí)

還有深度強化學(xué)習(xí),在這種前沿的技術(shù)中,自治代理使用強化學(xué)習(xí)的試錯算法和累積獎勵函數(shù)來加速神經(jīng)網(wǎng)絡(luò)設(shè)計。這些設(shè)計對依賴于有監(jiān)督和/或無監(jiān)督學(xué)習(xí)的人工智能應(yīng)用有著強大的推動作用。

深度強化學(xué)習(xí)是人工智能開發(fā)和訓(xùn)練流水線自動化的核心研究領(lǐng)域。深度學(xué)習(xí)、機器學(xué)習(xí)和其他人工智能模型的設(shè)計人員在確定各種架構(gòu)、節(jié)點類型、連接、超參數(shù)設(shè)置,以及其他選項時,使用深度強化學(xué)習(xí)驅(qū)動的代理能夠幫助他們迅速弄清楚這些設(shè)置的優(yōu)缺點。

例如,研究人員使用深度強化學(xué)習(xí),快速確定哪一種深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu)最適合解決特征工程、計算機視覺和圖像分類等應(yīng)用中的各種難題。人工智能工具使用通過深度強化學(xué)習(xí)得出的結(jié)果,自動生成最優(yōu)CNN,針對具體任務(wù),可以使用TensorFlow、MXNet和PyTorch等深度學(xué)習(xí)開發(fā)工具。

在這方面,令人鼓舞的是出現(xiàn)了強化學(xué)習(xí)開發(fā)和培訓(xùn)的開放框架。當(dāng)你研究深度強化學(xué)習(xí)時,表中列出的強化學(xué)習(xí)框架可以供你參考,這些框架與TensorFlow以及其他深度學(xué)習(xí)和機器學(xué)習(xí)建模工具有接口,利用并擴展了這些得到廣泛應(yīng)用的工具。

人工智能開發(fā)人員需要的強化學(xué)習(xí)技能

展望未來,人工智能開發(fā)人員自己也應(yīng)該沉浸在這些以及其他框架中實現(xiàn)的各種強化學(xué)習(xí)算法中。還需要加深對多代理強化學(xué)習(xí)架構(gòu)的理解,其中很多架構(gòu)充分利用了已經(jīng)建立起來的博弈論研究成果。還應(yīng)該熟悉深度強化學(xué)習(xí),將其作為一種工具來識別計算機視覺應(yīng)用中與“模糊”這種攻擊方法相關(guān)的安全漏洞。

猜你喜歡
開發(fā)人員代理架構(gòu)
基于FPGA的RNN硬件加速架構(gòu)
功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實踐
Semtech發(fā)布LoRa Basics 以加速物聯(lián)網(wǎng)應(yīng)用
代理圣誕老人
代理手金寶 生意特別好
LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實現(xiàn)
復(fù)仇代理烏龜君
一種基于FPGA+ARM架構(gòu)的μPMU實現(xiàn)
后悔了?教你隱藏開發(fā)人員選項
一個村有二十六位代理家長
安乡县| 南和县| 云霄县| 宁津县| 介休市| 瓮安县| 太湖县| 沧源| 无锡市| 武穴市| 织金县| 股票| 天门市| 洛川县| 长子县| 闽侯县| 平阴县| 潢川县| 厦门市| 建宁县| 北票市| 临漳县| 阜新| 策勒县| 保山市| 罗源县| 娱乐| 新乡市| 石景山区| 万宁市| 红桥区| 重庆市| 全南县| 沙坪坝区| 宜阳县| 黔江区| 松潘县| 山西省| 三都| 赤水市| 武穴市|