王曉潔+郭宇靖
將騎自行車的經(jīng)驗應(yīng)用到騎摩托車上,就是遷移學(xué)習(xí)
谷歌人工智能AlphaGo戰(zhàn)勝韓國棋手李世石的“人機圍棋大戰(zhàn)”,一度將人工智能概念推向風(fēng)口浪尖。業(yè)內(nèi)人士認(rèn)為,在以“深度學(xué)習(xí)”技術(shù)為主流的全球人工智能科技競賽中,中國專家所引領(lǐng)研究的“遷移學(xué)習(xí)”技術(shù)具備很強競爭力,代表了人工智能的發(fā)展趨勢。
深度學(xué)習(xí)+小樣本
“人機圍棋大戰(zhàn)”的背后,是人工智能領(lǐng)域機器學(xué)習(xí)技術(shù)的突破,即機器在模擬人腦運算方面取得的重大進展。實際上,人工智能技術(shù)已走過60年歷程,直到近年機器學(xué)習(xí)技術(shù)中的“深度學(xué)習(xí)”技術(shù)取得突破,才迎來春天。
“深度學(xué)習(xí)”意為使機器模仿人腦神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)、判斷和決策能力。比如,AlphaGo機器人以半年時間集中模仿學(xué)習(xí)了3000萬步人類圍棋大師的走法,并從自我對弈中積累勝負(fù)經(jīng)驗。
然而,“深度學(xué)習(xí)”局限性明顯。原百度研究院副院長、地平線機器人CEO余凱坦言,肥沃的數(shù)據(jù)“土壤”才能“訓(xùn)練”出“深度學(xué)習(xí)”模型,但目前數(shù)據(jù)源、數(shù)據(jù)算法、數(shù)據(jù)應(yīng)用的市場高度分離,未形成完善的“大數(shù)據(jù)+人工智能”產(chǎn)業(yè)鏈,導(dǎo)致人工智能技術(shù)的發(fā)展仍然面臨數(shù)據(jù)源不足和技術(shù)壟斷兩大挑戰(zhàn)。
“數(shù)據(jù)高度集中在谷歌、臉書、亞馬遜、BAT等互聯(lián)網(wǎng)巨頭手中,長此以往,將導(dǎo)致人工智能技術(shù)壟斷,反而不利于技術(shù)創(chuàng)新和國家安全。”香港科技大學(xué)計算機科學(xué)及工程學(xué)系主任楊強說。
楊強強調(diào)“深度學(xué)習(xí)+小樣本”理念,即將大數(shù)據(jù)訓(xùn)練好的模型遷移到類似場景加以改進應(yīng)用,打破了“逢模型必大數(shù)據(jù)”的局限。
“比如,將騎自行車的經(jīng)驗應(yīng)用到騎摩托車上,就是‘遷移學(xué)習(xí)。”楊強說。
2005年,微軟舉辦的世界數(shù)據(jù)挖掘大賽中有關(guān)于搜索技術(shù)的競賽題目,楊強團隊利用“遷移學(xué)習(xí)”,將機器在其他領(lǐng)域的經(jīng)驗遷移過來。
在IT行業(yè),“遷移學(xué)習(xí)”已有局部應(yīng)用。
人工智能公司“第四范式”創(chuàng)始人戴文淵在百度負(fù)責(zé)名為“鳳巢”的廣告營銷系統(tǒng)期間,利用“遷移學(xué)習(xí)”將百度搜索算法應(yīng)用到問答社區(qū)“百度知道”,使后者點擊率提升4成;騰訊將大規(guī)模在線電商推薦任務(wù)遷移到新領(lǐng)域,大大減少了數(shù)據(jù)需求量;微軟也利用“遷移學(xué)習(xí)”分析了電商產(chǎn)品的輿情取向;香港科技大學(xué)利用“遷移學(xué)習(xí)”技術(shù),將大數(shù)據(jù)訓(xùn)練出的對話模型遷移到具體行業(yè)的小數(shù)據(jù)領(lǐng)域,實現(xiàn)精準(zhǔn)的“人機對話”,在服務(wù)業(yè)具有極強的應(yīng)用價值。同時,楊強還在華為創(chuàng)立人工智能領(lǐng)域?qū)嶒炇遥谩斑w移學(xué)習(xí)”技術(shù)研發(fā)了10多個智能移動終端的專利,并已注冊。
“遷移學(xué)習(xí)”的應(yīng)用障礙
多位受訪專家認(rèn)為,機器學(xué)習(xí)是當(dāng)前人工智能技術(shù)的核心,“遷移學(xué)習(xí)”是機器學(xué)習(xí)技術(shù)發(fā)展的新階段。楊強帶領(lǐng)團隊將研究不斷深入,使中國占據(jù)了這一領(lǐng)域全球研究的制高點。
專家們認(rèn)為,中國迫切需要發(fā)展“遷移學(xué)習(xí)”技術(shù),并實現(xiàn)推廣與應(yīng)用。
但是,眼下“遷移學(xué)習(xí)”應(yīng)用仍然有限。而造成這種情況的因素,是多方面的。
其實,在谷歌的人機圍棋大戰(zhàn)之前,人工智能少人問津。AlphaGo的勝利,源于谷歌團隊此前收購了人工智能公司Deep Mind,獲得了“深度學(xué)習(xí)”技術(shù),Deep Mind人才主要來自多倫多大學(xué),其研究長期默默無聞。這反映了人工智能長期“冷門”的現(xiàn)狀,企業(yè)對前沿技術(shù)的敏感性不強。
由于人工智能產(chǎn)業(yè)處于發(fā)展初期,企業(yè)對“遷移學(xué)習(xí)”技術(shù)的需求也有限。目前,中國人工智能領(lǐng)域還沒有一家以此為主業(yè)的上市公司,也沒有出現(xiàn)一家龍頭企業(yè)。百度雖然以人工智能為發(fā)展方向,但人工智能并非主要收入來源。
再者,產(chǎn)、學(xué)、研結(jié)合不夠緊密。企業(yè)缺少渠道了解“象牙塔”技術(shù),因此,難以應(yīng)用先進研究成果。
如何保護隱私
專家認(rèn)為,“遷移學(xué)習(xí)”技術(shù)的研究應(yīng)用對中國具有戰(zhàn)略意義,也是中國在人工智能科技方向獲得全球領(lǐng)先地位的重要契機。
對于中國來說,“遷移學(xué)習(xí)”是國家實現(xiàn)科學(xué)技術(shù)彎道超車的契機。放眼人工智能產(chǎn)業(yè),在人才、工業(yè)基礎(chǔ)、研究環(huán)境、產(chǎn)業(yè)環(huán)境方面,中國和歐美的差距仍然較大,“遷移學(xué)習(xí)”是中國追趕發(fā)達(dá)國家的重要契機。
對于中小企業(yè)來說,“遷移學(xué)習(xí)”也意義重大。這項技術(shù)將賦能中小企業(yè),打破人工智能技術(shù)壟斷。中小企業(yè)在大數(shù)據(jù)條件不足的情況下,也能使用市場上購買的通用運算模型、結(jié)合自身小數(shù)據(jù)應(yīng)用人工智能技術(shù)。這將使市場傾向于交易人工智能模型而非買賣敏感數(shù)據(jù),也可避免大數(shù)據(jù)壟斷者成為人工智能寡頭,促進社會公平發(fā)展。
此外,可通過“遷移學(xué)習(xí)+云計算”解決隱私保護問題。在云計算領(lǐng)域,云服務(wù)上通常需要用戶上傳私密數(shù)據(jù),利用“遷移學(xué)習(xí)”后,云端通用的機器學(xué)習(xí)模型可加載到個人客戶端,再借助“遷移學(xué)習(xí)”技術(shù)實現(xiàn)個性化模型應(yīng)用,避免敏感數(shù)據(jù)泄漏。