□文/Al Gharakhanian □編譯/張含陽
無監(jiān)督學習、GAN和強化學習將構(gòu)建機器學習的未來
□文/Al Gharakhanian □編譯/張含陽
隨著人工智能的不斷發(fā)展,許多新的機器學習技術(shù)、架構(gòu)和算法被提出,但這里有三個宏觀趨勢,將成為機器學習中游戲規(guī)則的改變者。
機器學習(ML),特別是深度學習(DL)已經(jīng)成為許多科技出版物所涵蓋的最熱門話題之一。當然,這里面有一些炒作的成分,但是我們有足夠好的理由相信,機器學習這一領域是值得關(guān)注和覆蓋的。
機器學習的范圍和影響一遍又一遍地在各種學科,數(shù)百種應用中被證明其重要性。廣告、無人駕駛、聊天機器人、網(wǎng)絡安全、無人機、電子商務、金融技術(shù)、工業(yè)機械、醫(yī)療保健、營銷策劃、機器人,以及搜索引擎等應用,這些只是機器學習的部分應用而已。
機器學習的優(yōu)勢不再受限于只有少數(shù)幾個能夠買得起花哨裝備的精英人士。不可否認的是,智能產(chǎn)品推薦以及高性價比的聊天機器人已經(jīng)在普通百姓中得到了普及。這還不要說很多尚未開發(fā)的領域等著我們?nèi)グl(fā)掘。
開發(fā)并部署機器學習的成本正快速下降。即使是最熱衷于這種技術(shù)的懷疑論者,比如馬斯克和霍金,也可以很容易地發(fā)現(xiàn)它的用途非常多,并從機器學習身上找到商業(yè)價值。
根據(jù)幾位機器學習、深度學習領域的知名專家,深度神經(jīng)網(wǎng)絡“表現(xiàn)得極其好”,即便他們可能也搞不清到底為什么。
深度學習正在迅速演變,而且是在許多維度上的。很多新技術(shù)、新架構(gòu),以及新算法被提出,當然,每個新的想法都有其獨特的價值。然而,在未來幾年,三個主要的宏觀趨勢將改變真正的游戲規(guī)則。
機器學習和深度學習中,最重要的宏觀趨勢是算法正在逐步從監(jiān)督學習模式轉(zhuǎn)變?yōu)闊o監(jiān)督學習模式。
絕大多數(shù)傳統(tǒng)機器學習的實現(xiàn)靠的是受監(jiān)督的學習方式。換句話說,它們只有在使用大量標記的訓練數(shù)據(jù)訓練時才有用。雖然,受監(jiān)督的學習方式效果不錯,但是,收集和標記大型數(shù)據(jù)集的過程非常耗時、昂貴,而且還容易出錯。當數(shù)據(jù)集的規(guī)模增加時,這些挑戰(zhàn)變得更加顯著。而另一方面,無監(jiān)督的學習方式具有巨大的優(yōu)勢,因為他們不需要大量的訓練數(shù)據(jù)集。這就解釋了為什么最近大量有關(guān)機器學習的論文均與無監(jiān)督學習有關(guān)。
學習GAN的基本原理的前提是,你需要理解生成式和辨別式模型之間的差異。辨別式模型是使用標記的歷史數(shù)據(jù)進行訓練,并使用其累積的知識來推斷,預測或分類的模型。
以識別各種汽車的品牌和型號的圖像識別模型為例。這樣的模型通常由一組預先識別的汽車圖像訓練,同時學習將各種特征(例如尺寸、高度、比率等)與特定品牌和模型相關(guān)聯(lián)。一旦被訓練,該模型會分析新的未標記的圖像,并將其與特定的汽車品牌相關(guān)聯(lián)。
生成式模型的工作原理則不同,它的模式是,在訓練期間,獲得積累的數(shù)據(jù),來合成或產(chǎn)生新的結(jié)果。還是以汽車為例,生成模型的任務是創(chuàng)建一個全新的汽車概念之后,通過未標記的數(shù)據(jù)集(未識別的各種汽車的圖像)進行訓練。生成模型使用訓練圖像來了解汽車類別(例如跑車、SUV和轎車)的獨特特征,并使用數(shù)據(jù)給出該通用類別特征的新汽車概念。更準確地說,一個訓練有素的生成式模型不會用類似跑車的前端生成一個卡車的概念。
那么,什么是生成式對抗網(wǎng)絡(GAN)?未來它們會如何?其實,GANs已經(jīng)不是一個新的模型類別了,他們只是用來訓練一個生成模型的一種非常聰明和有效的方法。這種強度減少了對大型訓練數(shù)據(jù)集的需求。
GAN通常使用相互充當對手的兩個神經(jīng)網(wǎng)絡來構(gòu)造。一個生成非常類似于有效樣本的假樣本,而另一個網(wǎng)絡(鑒別器)則接收與來自發(fā)生器的偶然錯誤樣本混合的訓練樣本流,并將其區(qū)分開。這兩個網(wǎng)絡都是基于他們的對手的性能進行訓練的,在相互戲謔的過程中變得越來越好。這個迭代過程的最終結(jié)果是,整體而言,模型被更好地訓練,而且,更重要的是,通過最少的外部干預實現(xiàn)了對模型的改進。
手機掃碼閱讀
強化學習原則上是通過實驗和探索的方式學習。這與監(jiān)督學習的范例大相徑庭,因為后者依賴于已知的良好的訓練數(shù)據(jù),而強化學習開始時幾乎不知道“世界是如何工作”。強化學習基于三個基本要素——“狀態(tài)”、“行動”和“獎勵”。
舉例來說,假設有一家毛衣電商,他們想使用強化學習算法,來說服游客購買他們的產(chǎn)品。我們來看看“狀態(tài)”、“行動”和“獎勵”是如何工作的。一個獨特的“狀態(tài)”,可以是一個潛在的加拿大訪客,花了兩分鐘挑選一件毛衣的各種顏色,并已閱讀該產(chǎn)品的兩個評論;“行動”則是指,商家說服潛在顧客進行購買會采取的步驟(例如提供即時折扣,或顯示穿著類似毛衣的名人的照片)。在某個“狀態(tài)”中應用“行動”會導致新“狀態(tài)”的轉(zhuǎn)換。在每次轉(zhuǎn)換之后,基于進行銷售的概率的增加(或減少)來“獎勵”(或懲罰)強化學習算法。這里的關(guān)鍵是,強化學習算法最初對此毫不知情,但隨著時間的推移,他們會學習選擇在特定的“狀態(tài)”(人口、環(huán)境和偏好)下完成最佳的策略(動作序列)。
為什么說強化學習非常重要?主要有兩個原因。首先,它們在諸如機器人、廣告和游戲的各種應用中產(chǎn)生了顯著的結(jié)果。更重要的是,強化學習可以很好地模仿人類從嬰兒到成年的大腦的學習過程。
這種飛躍使機器智能更接近人類智能,使機器能夠應用更多技能,比如感覺和直覺的學習。