王雅靜
“大到天體運(yùn)行,小到微觀世界。所有的規(guī)律都逃不出幾個公式,若干個參數(shù),一直以來自然科學(xué)所追求的正是這種簡單之美??墒?,目前主流的人工智能技術(shù)(深度學(xué)習(xí))則有些背道而馳,它從來沒有試圖尋找如此簡單而美的規(guī)律?!?/p>
眼前正在說話的是人工智能領(lǐng)域的國際知名學(xué)者劉鐵巖博士,他戴著黑框眼鏡,身著一絲不茍的藍(lán)色襯衫,我們坐在位于中關(guān)村的微軟大廈14層的會議室,他正在描述對科學(xué)之美的體悟,他的說話方式是緩緩道來并且條理明晰,為了讓在場的人加深印象,他還會加上適當(dāng)?shù)氖謩菀宰鬏o助。
前段時間,劉鐵巖所帶領(lǐng)的微軟亞洲研究院機(jī)器學(xué)習(xí)團(tuán)隊與自然語言計算組的同事、以及微軟雷德蒙研究院的同事一起參與了在通用新聞報道數(shù)據(jù)newstest2017的中一英測試集上進(jìn)行的機(jī)器翻譯的研究。為了保證結(jié)果的可信度,該團(tuán)隊聘請了外部雙語評估員,他們對比了微軟團(tuán)隊的翻譯結(jié)果與兩組獨(dú)立翻譯的人類譯文,評定結(jié)果為:微軟機(jī)器翻譯取得了至少和專業(yè)翻譯人員相媲美的效果。
還記得震驚世界的AlphaGo大戰(zhàn)李世石,一場人工智能與圍棋世界冠軍的超級對弈,被全人類通過網(wǎng)絡(luò)直播共同圍觀。從此,人與機(jī)器的較量拉開了觀戰(zhàn)的序幕,也吸引了各大科技研究組織、知名企業(yè)乃至國家的廣泛關(guān)注。劉鐵巖作為微軟亞洲研究院副院長,同時也是一名人工智能領(lǐng)域的資深研究員。在他看來,現(xiàn)階段的人工智能領(lǐng)域更像是一個黑匣子,所有人都在慢慢尋找它的邊界試圖觸碰它的內(nèi)核,這個領(lǐng)域的研究一直在路上。
與劉鐵巖的采訪時間是經(jīng)過幾次交涉才明確下來的,對于一直潛心于技術(shù)研究的他,加之相關(guān)管理工作傍身,日常的忙碌是可想而知的。果不其然,在與劉鐵巖進(jìn)一步的交談中得知,他的日常行程幾乎是無縫銜接。早上七點(diǎn)多到公司,劉鐵巖有兩個小時的“充電”時間,這是雷打不動的。在這段完全屬于自己的時間中,閱讀文獻(xiàn)是劉鐵巖的充電方式,而后隨著同事陸續(xù)到崗,劉鐵巖也開始了自己的日常工作。
團(tuán)隊成員、合作伙伴、實習(xí)生、訪客,不同的面孔,不同的會議,這些看似日常的安排都會成為劉鐵巖技術(shù)創(chuàng)新的靈感源泉。他說自己是一位“靈感驅(qū)動”的研究員,“很多研究都不是苦思冥想得來的,相反是來自靈光一現(xiàn)的豁然開朗?!逼渲芯桶▋身棿俪闪饲拔奶岬降闹杏⒎g領(lǐng)域重大突破的獨(dú)創(chuàng)關(guān)鍵技術(shù)——對偶學(xué)習(xí)和推敲網(wǎng)絡(luò)。
起初,劉鐵巖的團(tuán)隊發(fā)現(xiàn)很多的人工智能任務(wù)都是對稱出現(xiàn)的,比如中譯英與英譯中,語音識別與語音合成等,這成為了“對偶學(xué)習(xí)”的靈感之源。而推敲網(wǎng)絡(luò)的“推敲”二字則來源于人類閱讀、寫作時的一種行為方式,任務(wù)完成之后,并不當(dāng)即終止,而是會反復(fù)推敲,逐步完善。根據(jù)這樣的靈感啟發(fā),團(tuán)隊成員開始設(shè)計相應(yīng)的機(jī)器翻譯模型并不斷運(yùn)行試錯,直至最終取得了突破性的結(jié)果,站在媒體的聚光燈之下。
這兩項技術(shù)的突破性意義不言而喻,語言溝通的障礙一直存在于人類社會中,如果可以打破語言障礙,無疑將有助于全人類的交流。但劉鐵巖也表示,應(yīng)該客觀地看待這項成果,它是嚴(yán)謹(jǐn)?shù)摹皩W(xué)術(shù)論文”,表明在特定數(shù)據(jù)集上,在一定的標(biāo)準(zhǔn)之下,機(jī)器翻譯取得了突破性進(jìn)展,并不能說“機(jī)器翻譯已經(jīng)全面超越人類”。
談及目前人工智能,或者機(jī)器學(xué)習(xí)領(lǐng)域,劉鐵巖表示還有很多挑戰(zhàn)需要解決。
比如,幾乎每一類機(jī)器學(xué)習(xí)進(jìn)程都離不開“數(shù)據(jù)”的支撐?!叭绻麤]有燃料,機(jī)器學(xué)習(xí)這艘航空母艦也飛不起來。所以,我們經(jīng)常將‘機(jī)器學(xué)習(xí)叫做‘?dāng)?shù)據(jù)驅(qū)動的人工智能,因為數(shù)據(jù)確實是極其核心的存在?!币舱且驗槟壳暗臋C(jī)器學(xué)習(xí)過分依賴數(shù)據(jù),所以,如何減少對數(shù)據(jù)的依賴也成為亟待攻破的難題。
劉鐵巖團(tuán)隊發(fā)明的對偶學(xué)習(xí)正是一種可以解決此問題的新型學(xué)習(xí)范式。它利用人工智能的對稱性,可以為模型訓(xùn)練提供有效的反饋信號,在缺乏有標(biāo)簽訓(xùn)練數(shù)據(jù)的時候,也可以實現(xiàn)高效的學(xué)習(xí)。對偶學(xué)習(xí)不僅可以助力中英互譯這類數(shù)據(jù)充足的學(xué)習(xí)任務(wù)取得提高,對于小語種互譯這類缺乏訓(xùn)練數(shù)據(jù)的學(xué)習(xí)任務(wù)也是大有用武之地。
劉鐵巖形象地將目前主流的深度學(xué)習(xí)技術(shù)比喻為一個“黑盒子”,大多數(shù)人并不關(guān)心它的構(gòu)造及原理,只是關(guān)心它的功能以及如何使用。這個黑盒子到底如何運(yùn)作,尚未盡在人們的掌控之中。由于缺乏可解釋性,在很多關(guān)鍵性領(lǐng)域,例如醫(yī)療和軍事,深度學(xué)習(xí)技術(shù)的應(yīng)用還需要非常謹(jǐn)慎。劉鐵巖的團(tuán)隊近期在符號學(xué)習(xí)、知識圖譜自動推理等方面進(jìn)行的有益嘗試,其目的正是要解決這方面的問題。
每天晚上的九點(diǎn)鐘,劉鐵巖會準(zhǔn)時出現(xiàn)在孩子的床邊,這是父子二人的睡前故事時間,此時應(yīng)該是劉鐵巖最放松的時候。劉鐵巖講的故事并不是故事繪本或童話,而是一些涉及到相對論、量子力學(xué)、天體物理、化學(xué)、生物等一系列諱莫如深的知識,劉鐵巖將它們用通俗易懂的方式講給孩子聽,這就成為了他口中的“科學(xué)故事”。據(jù)他所說,孩子總是聽得津津有味。在我詫異于此的時候,劉鐵巖說到:“研究員的后人可能都這樣?!?/p>
劉鐵巖在黑龍江長大,高中之前的日子都是在那片黑土地上度過的。他有著東北人天生的豪爽,也不否認(rèn)自己從小就是學(xué)霸,是那種“一直都是第一”的類型。采訪當(dāng)天正值高考第一天,回想起當(dāng)年自己填報志愿的場景,劉鐵巖深嘆這是一次“陰差陽錯”的經(jīng)歷。
在劉鐵巖高考的時候,計算機(jī)教育尚未普及,高中開設(shè)的計算機(jī)課程更像是興趣班,而且主要是教大家使用數(shù)據(jù)庫。在填報志愿的時候,他特意去咨詢了學(xué)校的計算機(jī)老師,向他請教計算機(jī)專業(yè)的發(fā)展前景??墒?,老師對計算機(jī)專業(yè)的了解也十分有限,認(rèn)為計算機(jī)就是一門“操作性”技能,學(xué)術(shù)價值不高,建議考慮其他學(xué)科。于是劉鐵巖報考了清華大學(xué)的電子工程系,并且以全省英語考生最高分的成績考入了清華大學(xué)這個錄取分?jǐn)?shù)線最高的專業(yè)。談及在清華大學(xué)本、碩、博連讀的學(xué)習(xí)生活,劉鐵巖的回答很熱血,“在清華大學(xué)的學(xué)習(xí),讓我打下了堅實的數(shù)學(xué)基礎(chǔ)、練就了很強(qiáng)的實操能力,以至于我什么方向都敢嘗試,即使轉(zhuǎn)型也不怕?!蔽蚁耄@也是“三清”(清華畢業(yè)的學(xué)士、碩士、博士)畢業(yè)的劉鐵巖在微軟亞洲研究院三次轉(zhuǎn)型的動力所在吧。
說起來也許是冥冥中早已注定。雖然當(dāng)年填報志愿的時候,劉鐵巖沒有選擇計算機(jī)專業(yè),但是博士畢業(yè)之后,進(jìn)入了微軟亞洲研究院,卻開始了長達(dá)15年的計算機(jī)科
劉鐵巖博士,人工智能領(lǐng)域的國際知名學(xué)者。現(xiàn)任微軟亞洲研究院副院長,國際電子電氣工程師學(xué)會(IEEE)會士,國際計算機(jī)學(xué)會(ACM)杰出會員。美國卡內(nèi)基梅隆大學(xué)(CMU)客座教授,英國諾丁漢大學(xué)榮譽(yù)教授,中國科技大學(xué)、中山大學(xué)、南開大學(xué)博士生導(dǎo)師。
劉博士的研究興趣包括:機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)挖掘等。他的先鋒性工作促進(jìn)了機(jī)器學(xué)習(xí)與信息檢索之間的融合,被國際學(xué)術(shù)界公認(rèn)為“排序?qū)W習(xí)”領(lǐng)域的代表人物,在網(wǎng)絡(luò)搜索和計算廣告學(xué)等方向取得了卓越的學(xué)術(shù)成果。近年來,劉博士在博弈機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、分布式機(jī)器學(xué)習(xí)等方面也頗有建樹。發(fā)表了二百余篇學(xué)術(shù)論文,被他引近兩萬次,并多次獲得最佳論文、最高引用論文獎。學(xué)領(lǐng)域的研究之路。研究院自由的氛圍為他提供了一個理想的學(xué)術(shù)環(huán)境。在微軟亞洲研究院,他從博士期間所從事的信號處理方向的研究轉(zhuǎn)入了信息檢索領(lǐng)域,開始了對互聯(lián)網(wǎng)搜索的探索。后來,他被搜索背后的經(jīng)濟(jì)規(guī)律所吸引,又開始研究計算廣告學(xué)和算法博弈論。而第三次轉(zhuǎn)型則進(jìn)入了人工智能和機(jī)器學(xué)習(xí)的核心領(lǐng)域。談起最近這次轉(zhuǎn)型的動因,劉鐵巖的表述透露著一位研究員的偉大愿景,“因為人工智能這個領(lǐng)域能夠?qū)Ω鱾€行業(yè)產(chǎn)生更加本質(zhì)且廣泛的影響?!?h3>“人工智能行業(yè)是一個飛速發(fā)展的行業(yè),也是逆水行舟,不進(jìn)則退的行業(yè)”
在很多人眼中,科學(xué)研究的周期一般都十分漫長。在研究伊始,從獲得研究靈感到將其付諸實踐,創(chuàng)造出原型系統(tǒng)需要多久時間呢?劉鐵巖回答:“其實并不需要很長的時間?!?/p>
那么,大量的時間消耗在哪個步驟中呢?
“其實,從第一個原型系統(tǒng)產(chǎn)生到最終形成完善的體系,并且對其他領(lǐng)域產(chǎn)生輻射作用,這是一個相當(dāng)漫長的過程。這需要研究人員清楚地了解研究雛形和實用技術(shù)之間的差別,通過不懈的努力,把研究成果扶上馬、送一程,最終轉(zhuǎn)化到產(chǎn)品之中。”劉鐵巖帶領(lǐng)的機(jī)器學(xué)習(xí)組的研究員們都是多面手,既能夠發(fā)明讓人眼前一亮的新技術(shù),又懂得如何和產(chǎn)品部門、合作伙伴共同協(xié)作,讓這些技術(shù)落地生根,產(chǎn)生更大的影響力。
如今,在微軟必應(yīng)搜索引擎、廣告系統(tǒng)、Windows操作系統(tǒng)、Azure云計算平臺、Xbox游戲機(jī)、微軟小冰聊天機(jī)器人等諸多產(chǎn)品中都有著來自劉鐵巖團(tuán)隊發(fā)明的人工智能技術(shù)。
微軟亞洲研究院是一個工業(yè)研究院,擁有很多微軟產(chǎn)品線的資源,這不僅為研究人員的技術(shù)提供了用武之地,也為研究思路的產(chǎn)生提供了豐富的“刺激信號”。
中-英新聞翻譯能力的過程。劉鐵巖所帶領(lǐng)的微軟亞洲研究院機(jī)器學(xué)習(xí)團(tuán)隊與自然語言計算組的同事、以及微軟雷德蒙研究院的同事一起參與了在通用新聞報道數(shù)據(jù)newstest2017的中-英測試集上進(jìn)行的機(jī)器翻譯的研究。對比了微軟團(tuán)隊的翻譯結(jié)果與兩組獨(dú)立翻譯的人類譯文,評定結(jié)果為:微軟機(jī)器翻譯取得了至少和專業(yè)翻譯人員相媲美的效果
對偶學(xué)習(xí):解決對標(biāo)注數(shù)據(jù)的依賴。利用人工智能任務(wù)之間存在的天然對稱性(中-英翻譯vs英-中翻譯,語音識別vs語音合成,圖像處理vs圖像生成),建立機(jī)器學(xué)習(xí)的天然閉環(huán),從而達(dá)到弱監(jiān)督甚至無監(jiān)督的學(xué)習(xí)效果
我們身處的人工智能的第三次浪潮和深度學(xué)習(xí)的進(jìn)展密不可分。但深度學(xué)習(xí)本身并不是一個全新的概念,它的成功主要?dú)w功于三大因素——大數(shù)據(jù)、大模型、大計算
癌癥一直是人類最需要迫切解決的醫(yī)學(xué)難題之一,近兩年微軟亞洲研究院的研究員通過利用人工智能領(lǐng)域中的計算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)來輔助醫(yī)生對病理切片中的癌細(xì)胞進(jìn)行識別和判斷
2017年,微軟亞洲研究院成立了“創(chuàng)新匯”,旨在用微軟的人工智能技術(shù)去幫助中國的傳統(tǒng)產(chǎn)業(yè)做數(shù)字化、智能化轉(zhuǎn)型。這也為劉鐵巖團(tuán)隊的人工智能技術(shù)開啟了新的出口。
當(dāng)人工智能技術(shù)遇到量化投資、資產(chǎn)配置、風(fēng)險控制、需求預(yù)測、路徑規(guī)劃、物流調(diào)度、基因工程、精準(zhǔn)醫(yī)療等,會碰撞出怎樣新的火花呢?
近期,劉鐵巖正在負(fù)責(zé)這些領(lǐng)域?qū)ν夂献鞯南嚓P(guān)項目。劉鐵巖分析說,人工智能賦能傳統(tǒng)行業(yè)大有可為,它可以幫助金融行業(yè)更加充分地利用海量數(shù)據(jù)、處理市場的動態(tài)變化、分析和預(yù)測投資人的行為、對投資組合進(jìn)行優(yōu)化;可以幫助物流和運(yùn)輸行業(yè)利用供應(yīng)鏈信息和海量數(shù)據(jù)對需求和供給進(jìn)行更加準(zhǔn)確的預(yù)測、利用強(qiáng)化學(xué)習(xí)使路徑規(guī)劃更加靈活地適應(yīng)環(huán)境的動態(tài)變化和更好地處理非線性的業(yè)務(wù)邏輯;可以幫助醫(yī)療健康行業(yè)進(jìn)行更加快捷和準(zhǔn)確的基因測序、發(fā)掘出基因和免疫信息與疾病之間的對應(yīng)關(guān)系、做更加精準(zhǔn)的診斷和藥物研發(fā),等等。與來自傳統(tǒng)行業(yè)的合作伙伴一起進(jìn)行聯(lián)合研究,為研究員們打開了通向更多領(lǐng)域的方便之門。“我們的研究員接受到了更加廣泛和多樣的刺激信號,開始了解這些產(chǎn)業(yè),了解用戶需求,這遠(yuǎn)比閉門造車要高效很多。人工智能是一個飛速發(fā)展的行業(yè),也是逆水行舟,不進(jìn)則退的行業(yè)?,F(xiàn)在,人工智能的應(yīng)用范圍非常廣,為了發(fā)明更好的人工智能技術(shù),我們需要跟合作伙伴共同去探索可以與人工智能應(yīng)用相連接的領(lǐng)域。在實際問題的驅(qū)動下,形成抽象的學(xué)術(shù)問題,發(fā)明相應(yīng)的技術(shù),再反哺應(yīng)用落地,這是一個良性的研究循環(huán)?!眲㈣F巖如是說。
Q:《北京青年》周刊
A:劉鐵巖
Q你曾經(jīng)說人工智能的深度學(xué)習(xí)過度復(fù)雜又過度簡單,如何理解這兩個反義詞?
A我們說深度學(xué)習(xí)過度復(fù)雜是因為它沒有去試圖探究世界的簡單之美。我們這個世界存在著本質(zhì)的規(guī)律,看起來很復(fù)雜的世界,背后往往是被幾個二階的偏微分方程所支配。然而現(xiàn)在主流的人工智能技術(shù)并沒有去深挖這些簡單而深刻的規(guī)律,而是用非常復(fù)雜的模型去擬合數(shù)據(jù)的復(fù)雜表象,以繁治繁。我們說深度學(xué)習(xí)過度簡單是因為它試圖用一種單一函數(shù)擬合的學(xué)習(xí)模式來處理各種復(fù)雜的問題。它忽略了人類智能本身的復(fù)雜性和多樣性,比如人類的語言系統(tǒng)、知識傳承、社會分工、群體智慧等,都遠(yuǎn)遠(yuǎn)超出了一個簡單的函數(shù)擬合的范疇。
Q你在與各個領(lǐng)域的合作伙伴商談時,他們對于人工智能的態(tài)度如何?
A他們對于人工智能的態(tài)度都是十分正面的。合作至今,人工智能不僅提升了我們的研究,也讓合作伙伴看到了人工智能技術(shù)的巨大潛力。我們在智能投資、智能物流領(lǐng)域取得的突破性進(jìn)展為合作伙伴帶來了巨大的經(jīng)濟(jì)利益,也為他們的未來發(fā)展提供了強(qiáng)有力的保障。同時經(jīng)過合作,他們也了解到人工智能的能力范圍,人工智能不是去搶他們員工的飯碗的,而是幫助他們的員工更加高效地工作。這對于破除“人工智能威脅論”起到了非常積極的作用。
Q在你看來,人工智能扮演了一個怎樣的角色?
A人工智能是一種工具,不是生命體,它本身不會思考,沒有自主意識,說得直白點(diǎn)其實就是一群聰明人所編寫的復(fù)雜程序。人工智能在計算力、記憶、模式識別等方面與普通人相比有明顯的優(yōu)勢,但是在創(chuàng)造性、推理決策等方面則還遠(yuǎn)遠(yuǎn)沒有達(dá)到人類的水平。因此,我們所提倡的是人機(jī)協(xié)作、人機(jī)共進(jìn)化,讓人工智能和人類取長補(bǔ)短,共同進(jìn)步。
Q聽說你帶領(lǐng)的實習(xí)生團(tuán)隊有一個很特殊的文化?
A是的,我們的團(tuán)隊有一種“吵架文化”,就是在頭腦風(fēng)暴過程中不相信權(quán)威、不有所保留,簡單直接地表達(dá)自己的觀點(diǎn),我一直堅信真理不辨不明。在這個團(tuán)隊中會有人員選擇的標(biāo)配嗎?
劉鐵巖所在的微軟亞洲研究院人工智能研究團(tuán)隊與東方海外航運(yùn)攜手合作,運(yùn)用深度學(xué)習(xí)(Deep Learning)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning)技術(shù),優(yōu)化現(xiàn)有的航運(yùn)操作。東方海外航運(yùn)每月需處理和分析超過3000萬條船舶數(shù)據(jù),應(yīng)用人工智能技術(shù)及機(jī)器學(xué)習(xí)服務(wù),有助于進(jìn)行船期表和泊位活動的預(yù)測分析。據(jù)悉,此次合作預(yù)計每年為東方海外航運(yùn)節(jié)省1,000萬美元的運(yùn)營成本
A在實踐中,我發(fā)現(xiàn)了做研究的一個黃金組合。我們的實習(xí)生很多元,有來自各個高校、不同專業(yè)的學(xué)生。而不同專業(yè)的學(xué)生各有特色。比如,物理或做電子專業(yè)的學(xué)生直覺非常好,他們有很強(qiáng)的對實際問題進(jìn)行數(shù)學(xué)建模的能力;數(shù)學(xué)專業(yè)的人非常嚴(yán)謹(jǐn),可以對數(shù)學(xué)模型進(jìn)行分析和理論論證;計算機(jī)專業(yè)的學(xué)生實現(xiàn)能力很強(qiáng),可以對模型進(jìn)行大規(guī)模的實現(xiàn)和驗證。當(dāng)一個電子或物理專業(yè)的學(xué)生、一個數(shù)學(xué)專業(yè)的學(xué)生,再加上一個計算機(jī)專業(yè)的學(xué)生,所組成的項目組,通常會發(fā)生強(qiáng)烈的化學(xué)反應(yīng),做出單方面任何一種人都做不到的了不起的事情。
Q目前你也在高校帶學(xué)生嗎?
A是的,但我覺得自己并不是嚴(yán)格意義上的老師。我和學(xué)生們的關(guān)系更像是合作者。我是那種壓抑不住內(nèi)心想要去表達(dá)自己看法的人,所以給同學(xué)們直接的刺激信號可能更多一些。如今的互聯(lián)網(wǎng)把世界變平了,國內(nèi)國外的學(xué)術(shù)環(huán)境沒有太大差別,比我們讀書的那個年代好太多了。在這么好的學(xué)術(shù)環(huán)境下,學(xué)生們?nèi)绻軌蚋诱湎?、更加努力,那么他們的成長速度一定會比我快5年,甚至是10年,一定會取得比我大得多的學(xué)術(shù)成果。作為他們的導(dǎo)師和合作者,我拭目以待!