文 楊龍霄 楊潤鑫 湯 偉 李峻翔
前不久,在素有知識圖譜“世界杯”之稱的大規(guī)模圖數(shù)據(jù)挑戰(zhàn)賽(Open Graph Benchmark,OGB)中,來自中國的度小滿AI-Lab團(tuán)隊?wèi){借自創(chuàng)的TranS模型榮登OGB-wikikg2榜首。OGB是國際公認(rèn)的知識圖譜基準(zhǔn)數(shù)據(jù)集和“競技場”,比賽會聚了全球AI頂級人才。此次,度小滿奪冠的OGB-wikikg2是OGB三大類任務(wù)之一。
近年來,隨著數(shù)字化時代到來,基于人工智能的一系列技術(shù)蓬勃發(fā)展,知識圖譜技術(shù)便是其中不可或缺的一環(huán)。全球各大科技巨頭逐步加強(qiáng)知識圖譜布局,期待著知識圖譜在更多領(lǐng)域發(fā)揮重要作用。
一提到福爾摩斯,就會不可避免地聯(lián)想到他那神乎其神的推理能力。這種能力,不是與生俱來的,而是來自對細(xì)節(jié)的重視和縝密的分析。電影《大偵探福爾摩斯》中有一個讓人印象深刻的場景——福爾摩斯將各種相關(guān)事件和受害者的關(guān)系用紅線相互連接起來形成了一個布滿整個房間的網(wǎng)狀結(jié)構(gòu),在網(wǎng)的中心,與所有人物和事件都有直接或間接聯(lián)系的就是案件的核心犯罪嫌疑人。其實(shí),這就是一種簡單的知識圖譜——通過把不同資訊串聯(lián)起來,形成關(guān)系網(wǎng),從而在關(guān)系網(wǎng)中找到所需要的信息。
知識圖譜技術(shù),指的是建立和應(yīng)用知識圖譜,對海量數(shù)據(jù)信息進(jìn)行檢索、抽取與處理,并且利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)來管理和分析,從而形成圖模型來描述知識和建模世界萬物之間的聯(lián)系。
知識圖譜的概念最早在2012年由谷歌提出,其發(fā)展史卻可以追溯到1960年的語義網(wǎng)絡(luò)。
語義網(wǎng)絡(luò)是一種較為直觀的知識表達(dá)方式,采用相互連接的節(jié)點(diǎn)和邊來表示知識。其中,節(jié)點(diǎn)表示對象或者概念,而邊表示對象或概念之間的關(guān)系。
用語義網(wǎng)絡(luò)表達(dá)事件時,常需要設(shè)立一個事件節(jié)點(diǎn)。比如,想表達(dá)“上級向下級傳達(dá)文件”,這句話的語義網(wǎng)絡(luò)圖中,最中心的節(jié)點(diǎn)是“傳達(dá)”,并隱含著“接收”和“物品”兩條沒有直接顯現(xiàn)的邊。以“傳達(dá)”這個動作為邊,與之相關(guān)的節(jié)點(diǎn)就是“上級”;以“接收”的動作為邊,與之相關(guān)的節(jié)點(diǎn)就是“下級”;而“文件”這個節(jié)點(diǎn)通過“物品”這個邊,與核心節(jié)點(diǎn)“傳達(dá)”相連。通過語義網(wǎng)絡(luò),可以更加直觀地了解到事物之間的邏輯關(guān)系。
20世紀(jì)80年代,哲學(xué)概念“本體”被引入人工智能領(lǐng)域用以刻畫知識,為知識圖譜搭建了基本的框架。萬維網(wǎng)的出現(xiàn),初步實(shí)現(xiàn)了文本間的鏈接,形成了知識圖譜的雛形。
萬維網(wǎng)服務(wù)器可以通過將信息內(nèi)容與文本聯(lián)系,以超鏈接的方式實(shí)現(xiàn)從一個站點(diǎn)到另一個站點(diǎn)的跳躍,這樣徹底打破了之前查詢工具只能一步步地按特定路徑來查找信息的限制。比如,當(dāng)在搜索引擎中輸入“大數(shù)據(jù)”時,能夠檢索到一連串與之相關(guān)聯(lián)的網(wǎng)頁,這時只需輕擊鏈接就可以進(jìn)入網(wǎng)頁瀏覽。在瀏覽過程中,如遇晦澀生僻的專業(yè)名詞,還可以繼續(xù)點(diǎn)擊超鏈接進(jìn)一步學(xué)習(xí)。
隨著萬維網(wǎng)技術(shù)不斷發(fā)展,它的技術(shù)棧(所使用的不同種類的技術(shù)的統(tǒng)稱)越來越龐大、復(fù)雜。2006年,萬維網(wǎng)的發(fā)明者、英國計算機(jī)科學(xué)家蒂姆·伯納斯·李提出“關(guān)聯(lián)數(shù)據(jù)”的概念。他希望所有機(jī)構(gòu)以標(biāo)準(zhǔn)化形式將原始數(shù)據(jù)公開,從而建立一個互聯(lián)互通的知識網(wǎng)絡(luò),而這已經(jīng)很接近現(xiàn)在的知識圖譜技術(shù)了。
2012年,谷歌發(fā)布了知識圖譜,用于改善搜索的質(zhì)量。知識圖譜除了顯示其他網(wǎng)站的鏈接列表,還提供詳細(xì)的關(guān)于主題的信息及其所屬結(jié)構(gòu)。不同于傳統(tǒng)網(wǎng)頁搜索的是,使用知識圖譜的語義搜索不是展示網(wǎng)頁,而是展示結(jié)構(gòu)化知識。比如輸入“戴高樂號”,傳統(tǒng)網(wǎng)頁搜索會給出“戴高樂號”航空母艦的艦長、舷寬、排水量和下水日期等屬性信息,如果點(diǎn)擊“戴高樂號”的技術(shù)特點(diǎn)版塊,則可以直接進(jìn)入其知識卡片,了解到艦體防護(hù)、動力系統(tǒng)、船電系統(tǒng)、艦載武裝等信息,實(shí)現(xiàn)即問即答。
互聯(lián)網(wǎng)技術(shù)發(fā)展進(jìn)入快車道后,數(shù)據(jù)的爆炸式增長早已使知識圖譜潛移默化地融入人們的日常生活。無論是一次平常的“百度”,還是與手機(jī)AI助理的知識問答,或是個性化教學(xué)服務(wù),都是基于知識圖譜技術(shù)的發(fā)展實(shí)現(xiàn)的。
基于知識圖譜等前沿交叉技術(shù)開發(fā)的人工智能正在風(fēng)靡全球。
前幾年曾經(jīng)引起熱議的AI繪畫,如今又一次風(fēng)靡網(wǎng)絡(luò)。AI繪畫剛剛流行時,鬧過不少笑話,比如3只眼睛的小狗、4個頭的鴨子……當(dāng)時,大多數(shù)成品往往不被主流審美接受。短短幾年時間,AI創(chuàng)作技術(shù)飛速發(fā)展。只要輸入幾個關(guān)鍵詞,再選擇喜歡的畫風(fēng),AI便能在短時間內(nèi)生成幾幅令人驚嘆的作品,其質(zhì)量堪比專業(yè)畫師。從搞笑到震撼,其背后是運(yùn)用了知識圖譜技術(shù),AI不斷學(xué)習(xí)的結(jié)果。
知識圖譜讓智能系統(tǒng)具備了認(rèn)知能力。這類人工智能相較只擁有海量、繁雜數(shù)據(jù)的機(jī)器而言,顯得“聰明”和“可靠”許多。它能利用知識圖譜管理歸納數(shù)據(jù),將數(shù)據(jù)以多種類型和關(guān)系連接在一起,在檢索信息時,可以更加全面、更加開闊、更加系統(tǒng)地將要找的信息整理并輸出。
反過來,因為更強(qiáng)大的智能系統(tǒng),可以更好地從客觀世界中去挖掘、獲取和沉淀知識,這些知識和智能系統(tǒng)形成正循環(huán)。兩者共同進(jìn)步,這也正是知識圖譜的優(yōu)勢所在,不斷為數(shù)據(jù)提供“住處”的同時也提升自己的容量,進(jìn)一步自我完善。
隨著技術(shù)的成熟及應(yīng)用的推廣,知識圖譜逐漸向生物、金融、能源等知識密集型領(lǐng)域滲透。比如,中國林業(yè)科學(xué)院林業(yè)科技信息研究所林草大數(shù)據(jù)與知識服務(wù)團(tuán)隊日前研發(fā)成功的“林草領(lǐng)域知識圖譜應(yīng)用系統(tǒng)”就實(shí)現(xiàn)了林草領(lǐng)域知識資源的協(xié)同建設(shè)與共享。
如果進(jìn)一步放開眼界,知識圖譜技術(shù)的應(yīng)用更加宏闊。2022年4月19日,中央全面深化改革委員會第二十五次會議審議通過了《關(guān)于加強(qiáng)數(shù)字政府建設(shè)的指導(dǎo)意見》。數(shù)字是手段,治理是目的。利用知識圖譜技術(shù)可以更好地促進(jìn)政府決策科學(xué)化、社會治理精準(zhǔn)化、公共服務(wù)高效化。
可以說,人類未來的生活,已經(jīng)與知識圖譜技術(shù)密不可分了。
正如網(wǎng)絡(luò)誕生之初是為了服務(wù)于軍事活動,很多新技術(shù)的發(fā)展,不但會在日常生活中大量應(yīng)用,同時也會觸及軍事領(lǐng)域,成為軍事發(fā)展的熱點(diǎn),甚至?xí)ξ磥響?zhàn)爭的模樣產(chǎn)生影響。
世界上一些軍事大國已敏銳地洞悉到利用知識圖譜分析數(shù)據(jù)的重要性。早在2013年,美國國防部高級研究計劃局(DARPA)就牽頭開發(fā)了Insight項目,這一項目能夠?qū)⒒ゲ幌喔傻男畔⒃凑铣梢粡埥y(tǒng)一的戰(zhàn)場圖片,通過對來自不同信息源的數(shù)據(jù)進(jìn)行整合歸納,形成鮮明的體系結(jié)構(gòu),以提高情報傳感器的工作效率。
目前,軍事領(lǐng)域知識圖譜的研究正火熱開展。
軍事領(lǐng)域知識圖譜是鏈接指揮系統(tǒng)、作戰(zhàn)部隊和武器平臺等各項作戰(zhàn)要素的重要橋梁。
在信息化智能化戰(zhàn)爭中,指揮效率對作戰(zhàn)進(jìn)程和結(jié)局有著決定性影響,而戰(zhàn)場數(shù)據(jù)是指揮員作出決策的最重要依據(jù)。來自海軍、陸軍、空軍等各軍兵種的海量信息數(shù)據(jù),無論是作戰(zhàn)還是非作戰(zhàn)數(shù)據(jù),人員還是裝備數(shù)據(jù),演習(xí)還是訓(xùn)練數(shù)據(jù),都在呈指數(shù)級趨勢增長,這使得作戰(zhàn)問題更加復(fù)雜。據(jù)美軍報道,僅1架“捕食者”無人機(jī)1天搜集的視頻數(shù)據(jù)就需要19名情報分析人員來處理。前美國國防部情報局局長空軍中將杰克·沙納罕稱:“談到情報、監(jiān)視和偵察,我們有比國防部歷史上任何時候更多的平臺和傳感器。這些平臺和傳感器產(chǎn)生了海量的情報數(shù)據(jù),但我們卻無法充分利用?!?/p>
構(gòu)建軍事知識圖譜,將使這一問題迎刃而解。
針對正面戰(zhàn)場多、參戰(zhàn)軍兵種多、武器裝備多、突發(fā)情況多的實(shí)際,可以運(yùn)用知識圖譜技術(shù)對大數(shù)據(jù)進(jìn)行采集、歸納與分析。這份戰(zhàn)爭的知識圖譜,將為指揮官提供武器分配、兵力調(diào)動等決策輔助,幫助他們及時了解、掌控各個點(diǎn)位和戰(zhàn)場態(tài)勢。知識圖譜技術(shù)的運(yùn)用將使整個作戰(zhàn)指揮控制體系更加高效,推動戰(zhàn)爭由信息化向智能化發(fā)展。
此外,在情報偵察方面,利用知識圖譜能夠?qū)⒐铝⒌臄?shù)據(jù)源進(jìn)行知識融合,實(shí)現(xiàn)碎片信息的深度挖掘,從中獲取高質(zhì)量的情報。
知識圖譜也可以運(yùn)用到部隊日常訓(xùn)練之中。比如說,可以針對某一領(lǐng)域或某個專業(yè),利用知識圖譜構(gòu)建一個軍事知識問答系統(tǒng)。當(dāng)訓(xùn)練時遇到問題,就可以向系統(tǒng)提出疑問,基于知識圖譜的智能問答系統(tǒng)可以判斷問題出現(xiàn)的原因并提供相應(yīng)的解決辦法,甚至還能向用戶智能推薦進(jìn)行訓(xùn)練時需要的注意事項及相關(guān)方法技巧等。