王靜娟
網(wǎng)絡(luò)數(shù)據(jù)挖掘、自然語(yǔ)言處理、人工智能,簡(jiǎn)單來(lái)說(shuō),這3個(gè)詞匯串聯(lián)起南開(kāi)大學(xué)人工智能學(xué)院教授劉杰的絕大部分研究。那么,這三者是什么?又究竟有怎樣的關(guān)系?在劉杰的娓娓道來(lái)中,答案逐漸明了。
特殊的數(shù)據(jù)
網(wǎng)絡(luò)數(shù)據(jù)挖掘,簡(jiǎn)單來(lái)說(shuō)是從海量的數(shù)據(jù)中抽取出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過(guò)程。如果說(shuō)互聯(lián)網(wǎng)數(shù)據(jù)猶如星辰密布,那么拋開(kāi)那些雜亂的群星,還有一些被稱(chēng)為“星座”的特殊輪廓。在數(shù)據(jù)的世界,“星座”是具有復(fù)雜結(jié)構(gòu)性的數(shù)據(jù),譬如序列型、網(wǎng)絡(luò)型數(shù)據(jù)。
劉杰說(shuō),傳統(tǒng)的機(jī)器學(xué)習(xí)大多是以單個(gè)數(shù)據(jù)為單元進(jìn)行數(shù)據(jù)集上的模型學(xué)習(xí),考慮的信息相對(duì)孤立。“自然語(yǔ)言等序列型數(shù)據(jù)則不同,它看重序列歷史信息,關(guān)注承上啟下,將樣本在序列上下文中進(jìn)行判斷;社交網(wǎng)絡(luò)等網(wǎng)絡(luò)型數(shù)據(jù),需要搜集個(gè)體社交、交互情況,依據(jù)成型的網(wǎng)狀環(huán)境綜合判斷得到結(jié)論?!眱烧呤羌瓤紤]樣本自身特點(diǎn),又注重結(jié)構(gòu)情境影響的典型代表。而這也給研究增加了不少挑戰(zhàn)。不僅如此,諾大的數(shù)據(jù)汪洋中,精準(zhǔn)搜集、定點(diǎn)捕撈相當(dāng)于大海撈針。此外,劉杰還指出,文本作為互聯(lián)網(wǎng)上的主要信息載體有著一個(gè)明顯的特征,那就是寫(xiě)法隨意,不受語(yǔ)言表達(dá)方式的限制,與正規(guī)的文章之間橫亙著一條顯著的界限。這也直接造成了語(yǔ)言語(yǔ)義的識(shí)別困難。
那么險(xiǎn)阻重重,迎難而上的價(jià)值究竟是什么?“綜合網(wǎng)絡(luò)結(jié)構(gòu)和文本信息,能夠更好地理解語(yǔ)義,準(zhǔn)確完成知識(shí)發(fā)現(xiàn)、人機(jī)對(duì)話(huà)、智能問(wèn)答、輿情分析等諸多人工智能任務(wù)”,劉杰提出了最直接的研究?jī)r(jià)值。
他坦言,自己近幾年將主要精力放在網(wǎng)絡(luò)數(shù)據(jù)中的自然語(yǔ)言處理方面,尤為關(guān)注的是網(wǎng)絡(luò)數(shù)據(jù)挖掘與自然語(yǔ)言處理相結(jié)合。這樣做,歸根還得說(shuō)到網(wǎng)絡(luò)信息的主要媒介——文字?!罢Z(yǔ)句由單字構(gòu)成,對(duì)它進(jìn)行判斷建模才能進(jìn)一步識(shí)別句子中的特定內(nèi)容?!崩纾渲邪年P(guān)鍵人名、地名等。在自然語(yǔ)言處理的角度下進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)挖掘,相關(guān)機(jī)構(gòu)能夠迅速了解互聯(lián)網(wǎng)的熱門(mén)話(huà)題,甚至搞清楚大眾對(duì)某一事件的普遍看法?!斑@可以幫助企業(yè)了解自身產(chǎn)品的特點(diǎn),摸清楚輿情?!?/p>
作為具備悠久歷史的研究方向,自然語(yǔ)言處理研究還不斷開(kāi)發(fā)“新技能”。隨著人工智能的誕生進(jìn)化,算法、算力、大數(shù)據(jù)研究日趨成熟,自然語(yǔ)言處理方向也迎來(lái)了新浪潮,對(duì)話(huà)機(jī)器人便是典型的范例。在劉杰的介紹中,其廣泛應(yīng)用于電商客服、個(gè)人助理等服務(wù)領(lǐng)域,有效節(jié)省了人力和經(jīng)濟(jì)支出。“對(duì)話(huà)等同于讓機(jī)器人運(yùn)用自然語(yǔ)言算法去閱讀理解和交互,除了準(zhǔn)確理解語(yǔ)義,還得生成自然語(yǔ)言答案?!彼枰诶斫馊祟?lèi)語(yǔ)言的基礎(chǔ)上給出合理答復(fù)。
不管是理解還是反饋,劉杰說(shuō)皆不是易事。區(qū)別于許多動(dòng)物普遍具有的視覺(jué)、嗅覺(jué)等基本感知能力,語(yǔ)言是人類(lèi)特殊的關(guān)鍵認(rèn)知能力?!盎靖兄芰Λ@取自然界中的信息。而語(yǔ)言經(jīng)過(guò)創(chuàng)造和傳承,則包含更深刻的邏輯性、常識(shí)性、文化性,是更高層次和難度的智能體現(xiàn)?!边@種獨(dú)特的智慧形式,也促使自然語(yǔ)言處理成為人工智能發(fā)展的重要一環(huán)。
觸類(lèi)旁通促發(fā)展
從業(yè)多年,對(duì)劉杰來(lái)說(shuō),在環(huán)環(huán)相扣的人生各階段,兩次訪學(xué)經(jīng)歷令他印象深刻。他在一群優(yōu)秀的科研學(xué)者身上學(xué)到了科研方法、治學(xué)態(tài)度,還擴(kuò)寬了研究思路。在校內(nèi),他勤懇地開(kāi)展科研工作;走出校門(mén),在工業(yè)界研究機(jī)構(gòu),劉杰還接觸到不同的科研風(fēng)格。他說(shuō),高校與企業(yè)的環(huán)境相輔相成,自己正是在兩者的熏陶下夯實(shí)基礎(chǔ)。
憑借在國(guó)內(nèi)外的經(jīng)驗(yàn)積累,劉杰于南開(kāi)大學(xué)任教后打響了獨(dú)立科研征途的第一槍。他主持了自己首個(gè)國(guó)家自然科學(xué)基金項(xiàng)目“基于深度學(xué)習(xí)的結(jié)構(gòu)化預(yù)測(cè)模型研究”。當(dāng)時(shí),深度學(xué)習(xí)的研究熱潮剛剛興起,劉杰作為第一批“吃螃蟹”的人,以深度學(xué)習(xí)為手段去研究序列型數(shù)據(jù)建模。該項(xiàng)目也為他后續(xù)工作拉開(kāi)序幕,密切聯(lián)系了視頻內(nèi)容的動(dòng)作識(shí)別、自然語(yǔ)言的關(guān)鍵信息識(shí)別等任務(wù)。
“近期,我們又開(kāi)展了一個(gè)新的自然科學(xué)基金項(xiàng)目,叫作‘基于跨模態(tài)的網(wǎng)絡(luò)表征學(xué)習(xí)。”劉杰說(shuō),跨模態(tài)是項(xiàng)目關(guān)鍵詞,即網(wǎng)絡(luò)數(shù)據(jù)從單模態(tài)轉(zhuǎn)變?yōu)槎嗄B(tài)。而所謂模態(tài),如圖像、文本、聲音等具備結(jié)構(gòu)或?qū)傩缘男畔ⅲ恳环N代表一種模態(tài)。“在互聯(lián)網(wǎng),描述同一事件的模態(tài)可能是文字、聲音,甚至還包括圖像。不同模態(tài)信息之間并不是獨(dú)立的,而是存在語(yǔ)義上的互補(bǔ)。為了有效提升表達(dá)的質(zhì)量,我們希望采用合理的手段來(lái)融合多模態(tài)信息,將它們綜合體現(xiàn)在一個(gè)模型里?!辈贿^(guò),這是一個(gè)難題,讓劉杰的研究工作面臨挑戰(zhàn)。
“研究長(zhǎng)時(shí)間沒(méi)有突破口,直到有一天,從另外的一件事情反而得到了啟發(fā)?!彼忉屨f(shuō),如果將網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)換為不同模態(tài)下的網(wǎng)絡(luò),將模態(tài)轉(zhuǎn)化視作語(yǔ)言的翻譯,就能夠利用機(jī)器翻譯的思路,從而設(shè)計(jì)一種自我翻譯的網(wǎng)絡(luò)表示學(xué)習(xí)模型來(lái)解決問(wèn)題。紙上得來(lái)終覺(jué)淺,經(jīng)實(shí)踐證明,劉杰采取的思路和辦法十分有效,相關(guān)成果匯總成的論文被頂級(jí)會(huì)議和期刊發(fā)表?!斑@件事情也讓我看待問(wèn)題、事情,嘗試多轉(zhuǎn)換角度。你怎樣去審視問(wèn)題,實(shí)際就決定了有哪些可選的思路或者方案。只有換了視角,才能跳出原有的局限。”
做專(zhuān)注的行動(dòng)派
即便肯定了“靈感”的重要作用,但劉杰同時(shí)也強(qiáng)調(diào),這一切是建立在良好的學(xué)科基礎(chǔ)、豐富的知識(shí)積累之上。不論是在KDD、AAAI、IJCAI、IEEE TKDE等國(guó)際頂級(jí)會(huì)議和期刊發(fā)表論文,還是獲得天津市科技進(jìn)步獎(jiǎng)二等獎(jiǎng)、2017CCF大數(shù)據(jù)與計(jì)算智能大賽特等獎(jiǎng)及一等獎(jiǎng)等榮譽(yù),都和劉杰自身的長(zhǎng)期積淀有緊密聯(lián)系。“一個(gè)想法的閃現(xiàn),其實(shí)是知識(shí)體系和思考方式等共同作用的結(jié)果。前期在理論、算法上持續(xù)地研究是必備的基礎(chǔ)。”
在談及工作壓力的來(lái)源時(shí),劉杰認(rèn)為,學(xué)者除了關(guān)注前沿研究進(jìn)展,還理應(yīng)重視理論與產(chǎn)業(yè)融合。“如何將企業(yè)實(shí)際問(wèn)題轉(zhuǎn)化成一個(gè)可以用模型、算法來(lái)解決的理論問(wèn)題,這其中不止涉及一個(gè)問(wèn)題,而是很多問(wèn)題?!币皇且鞔_企業(yè)應(yīng)用問(wèn)題,深入到各個(gè)部門(mén)了解情況,“這不光是走流程,還得站在理論研究的背景和基礎(chǔ)條件上聽(tīng)意見(jiàn),發(fā)掘工作特點(diǎn),找到問(wèn)題癥結(jié)”;二是問(wèn)題的轉(zhuǎn)化與建模,將發(fā)現(xiàn)的應(yīng)用問(wèn)題轉(zhuǎn)化為計(jì)算機(jī)算法所對(duì)應(yīng)的問(wèn)題,進(jìn)一步實(shí)現(xiàn)算法、程序的搭建。
摸底、布局把好關(guān),劉杰將工作做好、做細(xì)、做實(shí)的另一法門(mén),便是專(zhuān)注。他結(jié)合自身的求學(xué)、從業(yè)經(jīng)歷特別指出,學(xué)術(shù)和應(yīng)用上保持寬廣視野的同時(shí),要注意避免過(guò)于發(fā)散的思維?!皩?duì)待每一件事情,必須能夠靜下心來(lái)思考并進(jìn)一步挖掘更深層次的內(nèi)容。也要往前看,想一想現(xiàn)在做的事情對(duì)未來(lái)會(huì)產(chǎn)生怎樣的影響。”劉杰表示,迄今仍會(huì)兼顧理論、應(yīng)用兩個(gè)層面,但不會(huì)過(guò)分寬泛地涉獵?!拔彝ǔT谝粋€(gè)點(diǎn)或者若干個(gè)關(guān)鍵點(diǎn)上研究理論和前沿應(yīng)用?;A(chǔ)理論幫助我快速理解前沿的應(yīng)用,更好地解決問(wèn)題。反過(guò)來(lái),應(yīng)用也是一種導(dǎo)向,讓我知道社會(huì)的需求在哪,我該朝著怎樣的理論方向去研究?!鼻把貞?yīng)用是基礎(chǔ)研究的出發(fā)點(diǎn),理論基礎(chǔ)是實(shí)際應(yīng)用的落腳點(diǎn)。對(duì)劉杰來(lái)講,理論和應(yīng)用兩條腿走路,可以走得更遠(yuǎn)、更穩(wěn)。
團(tuán)隊(duì)發(fā)展方面,劉杰對(duì)不同階段、不同訴求的學(xué)生采取針對(duì)性指導(dǎo)?!爱厴I(yè)要去企業(yè)工作的,就著重培養(yǎng)他們的動(dòng)手能力;有進(jìn)一步學(xué)術(shù)上深造打算的,就會(huì)根據(jù)發(fā)展路線提供學(xué)術(shù)能力鍛煉的機(jī)會(huì)。我們團(tuán)隊(duì)有很多優(yōu)秀的學(xué)生,既能兼顧學(xué)習(xí),在科研上也做了大量的工作,包括參與論文的發(fā)表、獲得科研競(jìng)賽獎(jiǎng)勵(lì)等。這些都很好地鍛煉了他們的能力。”對(duì)于人才的培養(yǎng),劉杰提倡依據(jù)學(xué)業(yè)階段“因時(shí)制宜”,還明確了工作認(rèn)真、保持好奇的重要性。
面向未來(lái),劉杰表示,通過(guò)數(shù)據(jù)分析、挖掘和模型預(yù)測(cè)來(lái)替代人類(lèi)開(kāi)展智能化工作是大勢(shì)所趨,“不過(guò)因?yàn)樗惴?、模型等局限性,人?lèi)距離完全的智能化階段還有距離”。他的工作契合時(shí)代發(fā)展,特別是當(dāng)大數(shù)據(jù)挖掘和人工智能逐漸滲透多行業(yè),變革成為正在進(jìn)行時(shí)。