Mary Branscombe
機(jī)器學(xué)習(xí)正在被證明非常有用,認(rèn)為它們能夠解決所有的問(wèn)題以及能夠應(yīng)用到所有環(huán)境中的想法十分具有吸引力。然而,與其他任何工具一樣,機(jī)器學(xué)習(xí)只在特定的領(lǐng)域有用,特別是對(duì)于那些一直困擾我們但我們又清楚無(wú)法通過(guò)雇用充足人員加以解決的問(wèn)題,或是有著明確目標(biāo)但又無(wú)明確方法得以解決的問(wèn)題。
每一家企業(yè)可能都會(huì)以不同的方式利用機(jī)器學(xué)習(xí)的優(yōu)點(diǎn)。在管理咨詢公司Accenture近期的調(diào)查中,42%的企業(yè)主管表示,他們認(rèn)為到2021年,所有的創(chuàng)新活動(dòng)背后都有人工智能的支持。但是如果能夠清醒地認(rèn)識(shí)到炒作的存在,避免由誤解機(jī)器學(xué)習(xí)的能力而造就的神話,這將會(huì)讓我們受益匪淺。
機(jī)器學(xué)習(xí)就是人工智能
機(jī)器學(xué)習(xí)和人工智能常常被作為同義詞使用,然而盡管機(jī)器學(xué)習(xí)已經(jīng)成功地由實(shí)驗(yàn)室走入現(xiàn)實(shí)世界,但人工智能的覆蓋領(lǐng)域更為廣闊,如計(jì)算機(jī)視覺(jué)、機(jī)器人技術(shù)、自然語(yǔ)言處理,以及不涉及機(jī)器學(xué)習(xí)的約束補(bǔ)償?shù)冉鉀Q方案。我們可以把它想象成能讓機(jī)器看起來(lái)更聰明的東西。有些人所擔(dān)心的那種將會(huì)與人類競(jìng)爭(zhēng)甚至是攻擊人類的“人工智能”,上述這些沒(méi)有一個(gè)是。
我們應(yīng)當(dāng)對(duì)各種流行詞匯保持清醒和精準(zhǔn)認(rèn)識(shí)。機(jī)器學(xué)習(xí)是指學(xué)習(xí)模式和利用大數(shù)據(jù)集預(yù)測(cè)結(jié)果。結(jié)論可能貌似“智能”,但是實(shí)際上它們只是以前所未有的速度和規(guī)模展開(kāi)運(yùn)算的應(yīng)用統(tǒng)計(jì)學(xué)。
所有數(shù)據(jù)都是有用的
我們需要為機(jī)器學(xué)習(xí)提供數(shù)據(jù),但是并非所有的數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)都有用。為了訓(xùn)練這些系統(tǒng),我們需要具有代表性的數(shù)據(jù),這些數(shù)據(jù)要涵蓋機(jī)器學(xué)習(xí)系統(tǒng)將要處理的模式和結(jié)果。數(shù)據(jù)中不能有無(wú)關(guān)的模式(如所有男生都站著而所有女生都坐著的照片,或是所有的汽車都在車庫(kù)中而所有的自行車都在泥濘野外的照片)。因?yàn)槲覀儎?chuàng)建的機(jī)器學(xué)習(xí)模型將反映那些過(guò)于具體的模式,并在我們使用的數(shù)據(jù)中查找這些模式。所有用于培訓(xùn)的數(shù)據(jù)應(yīng)當(dāng)被清楚地標(biāo)記,同時(shí)標(biāo)示出它們的特征,這些特征還要與將要詢問(wèn)機(jī)器學(xué)習(xí)系統(tǒng)的問(wèn)題相匹配。這些需要做大量的工作。
不要想當(dāng)然地認(rèn)為我們擁有的數(shù)據(jù)都是干凈、清晰、具有代表性或易于標(biāo)記的數(shù)據(jù)。
我們總是需要大量的數(shù)據(jù)
得益于更好的工具、能夠并行處理海量數(shù)據(jù)的GPU等計(jì)算硬件、大量被標(biāo)記的數(shù)據(jù)集(如ImageNet和斯坦福大學(xué)問(wèn)答數(shù)據(jù)集),機(jī)器學(xué)習(xí)在圖像識(shí)別、機(jī)器閱讀理解、語(yǔ)言翻譯等領(lǐng)域取得了重大進(jìn)展。借助被稱為“遷移學(xué)習(xí)”的技術(shù),我們?cè)谔囟I(lǐng)域內(nèi)并不需要龐大的數(shù)理集才能得出優(yōu)秀的結(jié)果。相反,我們可以教機(jī)器學(xué)習(xí)系統(tǒng)如何學(xué)習(xí)使用一個(gè)龐大的數(shù)據(jù)集,然后讓它們使用這種能力去學(xué)習(xí)我們自己的一個(gè)要小很多的訓(xùn)練數(shù)據(jù)集。這就是Salesforce和微軟Azure自定義視覺(jué)API的工作原理:只需要30~50張能夠展示我們想要的分類內(nèi)容的圖片就能得出優(yōu)秀結(jié)果。
遷移學(xué)習(xí)可通過(guò)相對(duì)較少的數(shù)據(jù)就為我們的問(wèn)題定制一個(gè)預(yù)先訓(xùn)練好的系統(tǒng)。
任何人都可以創(chuàng)建一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)
目前已經(jīng)出現(xiàn)了許多針對(duì)機(jī)器學(xué)習(xí)的開(kāi)源工具和架構(gòu),以及大量教授我們?nèi)绾问褂盟鼈兊呐嘤?xùn)課程。但是機(jī)器學(xué)習(xí)仍然是一個(gè)極為專業(yè)的技術(shù),我們需要知道如何準(zhǔn)備數(shù)據(jù)并將它們拆分用于訓(xùn)練和測(cè)試,需要知道如何選擇最佳的算法和使用何種啟發(fā)式算法,以及如何將它們變成一個(gè)可靠的生產(chǎn)系統(tǒng)。此外,我們還需要監(jiān)測(cè)系統(tǒng),確保隨著時(shí)間的推移結(jié)果保持相關(guān)性。無(wú)論是市場(chǎng)發(fā)生了變化,還是機(jī)器學(xué)習(xí)系統(tǒng)已經(jīng)足以滿足應(yīng)對(duì)不同類型的客戶,我們都需要不斷檢查,讓模型始終與我們的問(wèn)題相匹配。
讓機(jī)器學(xué)習(xí)保持適用需要豐富的經(jīng)驗(yàn)。如果是剛開(kāi)始起步,在聘用數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)專家創(chuàng)建定制系統(tǒng)的同時(shí),我們還需要關(guān)注能夠從內(nèi)部代碼調(diào)用的預(yù)訓(xùn)練模型的API。
數(shù)據(jù)中的所有模式都有用
哮喘病人、胸痛病人或心臟病病人以及任何年齡在100歲的老人在得了肺炎后的存活率要比我們想象的高。事實(shí)上,用于實(shí)現(xiàn)住院自動(dòng)化的簡(jiǎn)單的機(jī)器學(xué)習(xí)系統(tǒng)可能會(huì)讓他們回家,不讓他們接受住院治療(基于規(guī)則的系統(tǒng)使用與神經(jīng)網(wǎng)絡(luò)完全相同的數(shù)據(jù)進(jìn)行訓(xùn)練)。病人有如此高的存活率的原因在于,因?yàn)榉窝讓?duì)這幾類病人非常兇險(xiǎn),因此他們總是能夠立即被安排住院治療。
系統(tǒng)會(huì)查看數(shù)據(jù)中的有效模式,而有些(盡管可以幫助保險(xiǎn)公司預(yù)測(cè)治療成本但是)對(duì)于選擇誰(shuí)該住院來(lái)說(shuō)并不是一個(gè)有用的模式。更為危險(xiǎn)的是,我們不知道那些無(wú)用的反模式在我們的數(shù)據(jù)集中,除非我們已經(jīng)知道它們。
在其他的一些情況下,系統(tǒng)會(huì)學(xué)習(xí)一些沒(méi)有用的有效模式(例如,一種有爭(zhēng)議的面部識(shí)別系統(tǒng),可以從自拍中準(zhǔn)確預(yù)測(cè)性取向),因?yàn)樗鼈儧](méi)有清晰明確的解釋(在這種情況下,照片顯示的是社交線索,如姿勢(shì),而非其他一些天生的特征)。
“黑匣子”模型是有效的,但我們不清楚它們學(xué)到了什么模式。更為透明和易懂的算法,如廣義加性模型會(huì)讓模型學(xué)習(xí)到什么變得更為清楚,因此我們可以決定這些模式是否對(duì)部署有用。
強(qiáng)化學(xué)習(xí)已經(jīng)為投入使用做好了準(zhǔn)備
事實(shí)上,目前在用的所有機(jī)器學(xué)習(xí)系統(tǒng)使用的都是監(jiān)督式學(xué)習(xí)。在大多數(shù)情況下,它們訓(xùn)練的都是已經(jīng)被明確標(biāo)記過(guò)的數(shù)據(jù)集,人類參與了這些數(shù)據(jù)集的準(zhǔn)備。組織管理這些數(shù)據(jù)集費(fèi)時(shí)費(fèi)力,因此人們對(duì)非監(jiān)督式學(xué)習(xí),特別是對(duì)于強(qiáng)化學(xué)習(xí)(RL)更感興趣。在強(qiáng)化學(xué)習(xí)中,代理會(huì)不斷摸索嘗試,與它們的環(huán)境進(jìn)行交互,接收由正確行為帶來(lái)的獎(jiǎng)勵(lì)。DeepMind的AlphaGo系統(tǒng)在使用監(jiān)督式學(xué)習(xí)的同時(shí)使用了強(qiáng)化學(xué)習(xí)才最終擊敗了與之對(duì)弈的圍棋高手??▋?nèi)基梅隆大學(xué)的Libratus也是在使用了強(qiáng)化學(xué)習(xí)加上其他兩種人工智能技術(shù)才最終在一對(duì)一不限注德州撲克中擊敗了世界頂級(jí)選手。研究人員目前正在對(duì)強(qiáng)化學(xué)習(xí)展開(kāi)廣泛的測(cè)試,領(lǐng)域涵蓋了從機(jī)器人技術(shù)到安全軟件測(cè)試等各個(gè)方面。
強(qiáng)化學(xué)習(xí)目前在研究領(lǐng)域之外并不常見(jiàn)。谷歌通過(guò)讓DeepMind學(xué)習(xí)如何更為高效地降溫為數(shù)據(jù)中心節(jié)約了電力。微軟通過(guò)一個(gè)名為上下文老虎機(jī)(Contextual Bandits)的強(qiáng)化學(xué)習(xí)算法為MSN.com網(wǎng)站訪問(wèn)者呈現(xiàn)個(gè)性化的新聞?lì)^條。問(wèn)題在于現(xiàn)實(shí)世界的環(huán)境很少有比較輕松的發(fā)現(xiàn)性獎(jiǎng)勵(lì)并且能夠立即進(jìn)行反饋,特別是代理在事情發(fā)生之前采取多種行動(dòng)則屬于誘騙獎(jiǎng)勵(lì)。
機(jī)器學(xué)習(xí)沒(méi)有偏見(jiàn)
由于機(jī)器學(xué)習(xí)是從數(shù)據(jù)中學(xué)習(xí),因此它們會(huì)復(fù)制數(shù)據(jù)集中的所有偏見(jiàn)。搜索首席執(zhí)行官的圖片可能會(huì)顯示的都是男性白種人首席執(zhí)行官的照片。之所以會(huì)這樣,是因?yàn)榕c非男性白種人相比,擔(dān)任首席執(zhí)行官的男性白種人要多。這表明機(jī)器學(xué)習(xí)也會(huì)放大這種偏見(jiàn)。
被經(jīng)常用于訓(xùn)練圖像識(shí)別系統(tǒng)的COCO數(shù)據(jù)集中有男性和女性照片,但是更多的女性照片的背景中有廚房設(shè)備,而男性照片的背景中更多的是計(jì)算機(jī)鍵盤(pán)和鼠標(biāo)或者是網(wǎng)球拍和滑雪板。如果依靠COCO訓(xùn)練系統(tǒng),它們會(huì)更為強(qiáng)烈地將男性與計(jì)算機(jī)硬件聯(lián)系在一起。
一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)還能夠?qū)⑵?jiàn)施加給另一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)。利用流行的架構(gòu)訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng),以一個(gè)單詞作為向量展示其中的關(guān)系,那么它們學(xué)到的可能是“男性相對(duì)于女性就像計(jì)算機(jī)程序員相對(duì)于主婦”或“醫(yī)生相對(duì)于護(hù)士就像老板相對(duì)于接待員” 這樣的刻板印象。如果我們使用帶有這種偏見(jiàn)的系統(tǒng)進(jìn)行語(yǔ)言翻譯,如將芬蘭語(yǔ)或土耳其語(yǔ)等性別中立的語(yǔ)言翻譯為區(qū)別性別的語(yǔ)言如英語(yǔ),那么就會(huì)出現(xiàn)將“ta是醫(yī)生”翻譯成“他是醫(yī)生”,將“ta是護(hù)士”翻譯成“她是護(hù)士”。
在購(gòu)物網(wǎng)站進(jìn)行相似物品推薦非常有用,但是當(dāng)涉及敏感領(lǐng)域并能夠產(chǎn)生一個(gè)反饋回路時(shí),那么問(wèn)題就來(lái)了。如果你在Facebook中加入了一個(gè)反對(duì)接種疫苗的群,F(xiàn)acebook的推薦引擎將會(huì)推薦關(guān)注各種陰謀論的群或是相信地球是扁平的群。
認(rèn)識(shí)到機(jī)器學(xué)習(xí)中的偏見(jiàn)問(wèn)題十分重要。如果我們不能在訓(xùn)練數(shù)據(jù)集中移除這些偏見(jiàn),那么我們可以使用能夠調(diào)整詞對(duì)中性別聯(lián)系的技術(shù)減少偏見(jiàn)或是向推薦中增加一些無(wú)關(guān)的項(xiàng)目以避免“過(guò)濾氣泡”。
機(jī)器學(xué)習(xí)僅被用于做好事
機(jī)器學(xué)習(xí)提升了反病毒工具的能力,它們會(huì)關(guān)注全新的攻擊行為,一旦出現(xiàn)就能發(fā)現(xiàn)它們。同樣的,黑客也在使用機(jī)器學(xué)習(xí)研究反病毒工具的防御能力,通過(guò)分析大量的公共數(shù)據(jù)或是以前成功的釣魚(yú)攻擊從而發(fā)起大規(guī)模針對(duì)性更強(qiáng)的釣魚(yú)攻擊。
機(jī)器學(xué)習(xí)將取代人類
人工智能將會(huì)與我們搶飯碗,改變我們正在做的工作以及我們的工作方式已經(jīng)成為了一種普遍的擔(dān)心。機(jī)器學(xué)習(xí)則能夠提高效率與合規(guī)性,同時(shí)降低成本。從長(zhǎng)遠(yuǎn)看,機(jī)器學(xué)習(xí)將在淘汰目前一些崗位的同時(shí)創(chuàng)造一些新的工作崗位。由于復(fù)雜性或規(guī)模性的緣故,許多現(xiàn)在已由機(jī)器學(xué)習(xí)幫助實(shí)現(xiàn)自動(dòng)化的工作在以前要想實(shí)現(xiàn)自動(dòng)化是不可想象的。例如,我們無(wú)法雇用充足的人員去看每一張貼在社交媒體上的照片,查看照片中是否有自己公司的品牌的特征。
機(jī)器學(xué)習(xí)已經(jīng)開(kāi)始在創(chuàng)造新的工作機(jī)遇,如通過(guò)預(yù)測(cè)性維護(hù)提升客戶體驗(yàn),為業(yè)務(wù)決策提升建議和支持。與之前的自動(dòng)化一樣,機(jī)器學(xué)習(xí)能夠解放員工讓他們能夠發(fā)揮自己的專業(yè)知識(shí)和創(chuàng)造力。
Mary Branscombe為自由撰稿人,從事科技類新聞已經(jīng)有20多年,撰寫(xiě)過(guò)從編程語(yǔ)言、Windows和Office的早期版本、web到消費(fèi)者小工具和家庭娛樂(lè)等各類文章。
原文網(wǎng)址
https://www.cio.com/article/3263776/artificial-intelligence/machine-learning-myths.html