張玉柳,趙 波(云南師范大學(xué) 信息學(xué)院)
2019年,國際人工智能與教育大會(huì)指出:“面對(duì)人工智能對(duì)教育帶來的機(jī)遇,我國要深入開展智能教育應(yīng)用戰(zhàn)略研究,探索智能教育的發(fā)展戰(zhàn)略、標(biāo)準(zhǔn)規(guī)范以及推進(jìn)路徑”[1]。祝智庭等認(rèn)為,智能教育是智慧教育的實(shí)踐路徑[2]。特別是在智慧教育的實(shí)現(xiàn)過程中,知識(shí)的語義搜索、個(gè)性化學(xué)習(xí)推薦系統(tǒng)、學(xué)習(xí)者畫像構(gòu)建等都依賴大規(guī)模知識(shí)圖譜的發(fā)展。而知識(shí)圖譜作為人工智能領(lǐng)域重要的發(fā)展方向,又是未來“人工智能+教育”發(fā)展的重要依托。在如今知識(shí)大爆炸的時(shí)代,知識(shí)的重要性日益顯著,人們?cè)絹碓街匾曋R(shí)之間的關(guān)聯(lián),知識(shí)圖譜具有非常高效的語義處理功能,能夠直觀、清晰地展示出知識(shí)之間的復(fù)雜聯(lián)系,實(shí)現(xiàn)對(duì)知識(shí)結(jié)構(gòu)關(guān)系的清晰圖示[3]。伴隨著人工智能、大數(shù)據(jù)及深度學(xué)習(xí)的發(fā)展,知識(shí)圖譜取得了新的研究進(jìn)展,從最開始的Google智能搜索引擎,到現(xiàn)在的大數(shù)據(jù)分析、聊天機(jī)器人、個(gè)性化教育、推薦系統(tǒng),都與知識(shí)圖譜有著千絲萬縷的關(guān)系。
知識(shí)圖譜作為人工智能時(shí)代國內(nèi)外快速發(fā)展的跨學(xué)科研究領(lǐng)域,正確分析與梳理其研究熱點(diǎn)和前沿趨勢對(duì)未來推進(jìn)多領(lǐng)域研究與創(chuàng)新具有重大意義。
(1)數(shù)據(jù)來源。以“知識(shí)圖譜”為主題在CNKI進(jìn)行檢索,共獲得文獻(xiàn)2,332篇,時(shí)間跨度為2005—2019年。剔除與知識(shí)圖譜主題無關(guān)的文獻(xiàn)后,獲得317篇關(guān)于國內(nèi)知識(shí)圖譜研究的文獻(xiàn)。在Web of Science數(shù)據(jù)庫中,選擇TS=(“Knowledge Graph”or“Knowledge Visualization”),時(shí)間跨度為1996—2019年,對(duì)文獻(xiàn)進(jìn)行篩選后,獲得1,210篇關(guān)于國外知識(shí)圖譜研究的文獻(xiàn)。
(2)研究方法。本研究利用科學(xué)引文數(shù)據(jù)可視化分析軟件CiteSpace和書目共現(xiàn)分析系統(tǒng)BICOMB,通過引文分析與關(guān)鍵詞共現(xiàn)可視化分析探究國內(nèi)外知識(shí)圖譜的研究熱點(diǎn)與未來的研究趨勢。
研究主體的研究規(guī)模以及分布狀況常被用來反映一個(gè)研究領(lǐng)域是否受學(xué)術(shù)群體的關(guān)注和認(rèn)同。文獻(xiàn)數(shù)量的時(shí)序變化是某領(lǐng)域發(fā)展趨勢的重要衡量指標(biāo),在BICOMB軟件的提取界面以“年代”為關(guān)鍵字段分別統(tǒng)計(jì)國內(nèi)外知識(shí)圖譜研究文獻(xiàn)的數(shù)量(見圖1)。國內(nèi)外文獻(xiàn)量曲線擬合指數(shù)函數(shù)分別為y=0.027e0.2481x、y=2.043e0.1321x,且曲線擬合程度都比較高,均超過了0.8,在一定程度上說明未來國內(nèi)外知識(shí)圖譜的相關(guān)研究文獻(xiàn)將會(huì)與日俱增。
圖1 國內(nèi)外知識(shí)圖譜研究文獻(xiàn)的數(shù)量分布
由圖1可知,國內(nèi)知識(shí)圖譜研究晚于國外,但就研究的趨緩階段、高潮階段來說國內(nèi)外基本一致。筆者通過對(duì)已有研究文獻(xiàn)的梳理發(fā)現(xiàn),國內(nèi)關(guān)于利用知識(shí)圖譜對(duì)多領(lǐng)域進(jìn)行文獻(xiàn)可視化分析的文獻(xiàn)數(shù)量所占比例較大,導(dǎo)致部分研究者在知識(shí)圖譜自身發(fā)展態(tài)勢的研究中的數(shù)據(jù)源選擇存在些許偏差,分析出的主題熱點(diǎn)大多聚集在科學(xué)知識(shí)圖譜應(yīng)用方面??茖W(xué)知識(shí)圖譜是一種展示科學(xué)知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的圖形可視化技術(shù),它涵蓋知識(shí)可視化和文獻(xiàn)計(jì)量分析等方法。如,張妮[4]、夏立新[5]等都是從理論研究、文獻(xiàn)計(jì)量方法、文獻(xiàn)可視化工具與應(yīng)用領(lǐng)域方面揭示知識(shí)圖譜研究的發(fā)展軌跡與熱點(diǎn)演變,關(guān)鍵構(gòu)建技術(shù)領(lǐng)域卻無一涉及。而國外主要側(cè)重于知識(shí)圖譜構(gòu)建技術(shù)的研究,目前,國外對(duì)知識(shí)圖譜研究比國內(nèi)的相關(guān)研究更為深入。
(1)萌芽階段(2005—2010年)。2005年,陳悅等發(fā)表了國內(nèi)第一篇與知識(shí)圖譜相關(guān)的文獻(xiàn)——《悄然興起的科學(xué)知識(shí)圖譜》。截至2019年10月29日,該文獻(xiàn)被引用量達(dá)到696次,是我國知識(shí)圖譜領(lǐng)域的開篇之作。據(jù)研究可知,此階段側(cè)重于知識(shí)圖譜的理論研究。
(2)穩(wěn)定深化階段(2010—2015年)。該階段的論文數(shù)量持續(xù)增長,知識(shí)圖譜開始被多學(xué)科領(lǐng)域的專家學(xué)者關(guān)注。2012年,國內(nèi)上線了首個(gè)關(guān)于搜索引擎的中文知識(shí)圖譜“知立方”[6]。2013年,第一屆中文知識(shí)圖譜研討會(huì)在杭州召開,探討了中文知識(shí)圖譜的構(gòu)建技術(shù)與策略等核心問題[7]。這一時(shí)期,知識(shí)圖譜研究偏向于應(yīng)用層面,呈現(xiàn)出穩(wěn)定深化態(tài)勢。
(3)繁榮發(fā)展階段(2015—至今)。該階段知識(shí)圖譜的應(yīng)用領(lǐng)域越發(fā)廣泛,發(fā)文量大幅激增,將知識(shí)圖譜研究推向高潮,同時(shí)伴隨著人工智能、大數(shù)據(jù)的發(fā)展,知識(shí)圖譜取得了更高層次的研究進(jìn)展。2019年10月20日,北京理工大學(xué)和復(fù)旦大學(xué)聯(lián)合發(fā)起2019年“知識(shí)圖譜前沿技術(shù)論壇”,旨在加強(qiáng)知識(shí)圖譜技術(shù)在智能領(lǐng)域的普及和應(yīng)用[8]。目前,我國知識(shí)圖譜正處于一個(gè)飛躍式發(fā)展階段。
(1)萌芽階段(1955-1977年)。1955年,加菲爾德開創(chuàng)了利用引文索引進(jìn)行檢索文獻(xiàn)的思路[9];1965年,普賴斯創(chuàng)新性地提出了“論文之間錯(cuò)綜復(fù)雜的引證關(guān)系會(huì)形成各種大大小小的網(wǎng)絡(luò)……各種引證關(guān)系形成的網(wǎng)絡(luò)可以聚類……”,為科學(xué)計(jì)量學(xué)界打開了一扇新的大門[10];1968年,Quillian提出了語義網(wǎng)絡(luò),它能夠?qū)⒅R(shí)通過概念聯(lián)系起來進(jìn)行知識(shí)表示[11]。目前,語義網(wǎng)絡(luò)在人工智能領(lǐng)域被普遍的應(yīng)用。
(2)穩(wěn)定深化階段(1977-2012年)。1977年,費(fèi)根鮑姆提出了知識(shí)工程的概念,認(rèn)為知識(shí)工程是應(yīng)用人工智能的原理和方法,為那些需要專家知識(shí)才能解決的應(yīng)用難題提供求解的手段[12]。1970-1990年是知識(shí)工程的白熱化發(fā)展階段,研究者認(rèn)為專家系統(tǒng)是一種利用知識(shí)表示和推理技術(shù)去處理那些只有領(lǐng)域?qū)<也拍芙鉀Q問題的計(jì)算機(jī)程序[13]。同期,本體的概念被引入,成為當(dāng)時(shí)表示客觀世界知識(shí)的應(yīng)用方式。1998年,蒂姆·伯納斯·李建設(shè)性地提出Semantic Web的概念,萬維網(wǎng)聯(lián)盟(W3C)在此基礎(chǔ)上進(jìn)一步提出萬維網(wǎng)上的知識(shí)描述規(guī)范,使得知識(shí)從密閉邁向開放[14]。2001年,維基百科正式發(fā)起多語言百科全書協(xié)作計(jì)劃[15],經(jīng)用戶自由訪問進(jìn)行編輯,是群體智能知識(shí)的典型代表。
(3)繁榮階段(2012年—至今)。2012年,Google提出“知識(shí)圖譜”[16],體現(xiàn)了大規(guī)模知識(shí)圖譜在智能搜索引擎中的強(qiáng)化應(yīng)用。大規(guī)模網(wǎng)絡(luò)知識(shí)獲取的典型代表DBpedia[17]、Freebase[18]就是在維基百科結(jié)構(gòu)化知識(shí)庫的基礎(chǔ)上構(gòu)建起來的。隨著人工智能的深入發(fā)展,人工智能逐漸進(jìn)入到認(rèn)知智能的階段,促進(jìn)了知識(shí)圖譜領(lǐng)域相關(guān)構(gòu)建技術(shù)的發(fā)展。
研究采用CiteSpace生成國內(nèi)關(guān)鍵詞共現(xiàn)圖譜,選擇Pathfinder網(wǎng)絡(luò)算法用于簡化網(wǎng)絡(luò),突出重要的結(jié)構(gòu)特征。網(wǎng)絡(luò)的結(jié)構(gòu)主要由參數(shù)r決定,三角不等式關(guān)系為:
在公式(1)中,i和j節(jié)點(diǎn)之間的鏈路權(quán)重以wij表示,nk和nk+1節(jié)點(diǎn)之間的鏈路權(quán)重以wnknk+1表示,r表示閔可夫斯基(Minkowski)距離。除“知識(shí)圖譜”外,位于前10的高頻關(guān)鍵詞包括:鏈接預(yù)測(81)、表示學(xué)習(xí)(56)、深度學(xué)習(xí)(40)、本體(39)、人工智能(38)、實(shí)體識(shí)別(33)、三元組分類(32)、知識(shí)圖譜補(bǔ)全(32)、實(shí)體分類(31)、transE(30)。
國外研究文獻(xiàn)的關(guān)鍵詞共現(xiàn)圖譜除“Knowledge Graph”外,位于前10的高頻關(guān)鍵詞包括:Ontology(52)、Knowledge Visualization(52)、Visualization(40)、Semantic Web(33)、Knowledge Graph Embedding(28)、Knowledge Representation(21)、Neural Network(16)、Link Prediction(16)、Dbpedia(15)、Recommender System(14)。
從詞頻波動(dòng)可以看出,國內(nèi)外知識(shí)圖譜關(guān)鍵詞頻次過渡均平緩下滑,說明研究者的關(guān)注熱點(diǎn)比較集聚,側(cè)重于研究知識(shí)抽取、知識(shí)表示、知識(shí)推理和知識(shí)圖譜補(bǔ)全等知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)。
關(guān)鍵詞聚類能清晰揭示出某研究領(lǐng)域的主題熱點(diǎn),本研究聚類提取采用似然比算法。
圖2 國內(nèi)研究文獻(xiàn)的關(guān)鍵詞聚類圖
國外研究文獻(xiàn)的關(guān)鍵詞聚類圖譜如圖3所示,Q值=0.55,S值=0.7309,說明聚類結(jié)果合理且令人信服。聚類分別為知識(shí)可視化(聚類#0 Knowledge Visualization)、知識(shí)表示(聚類#1 Knowledge Representation)、深度學(xué)習(xí)(聚類#2 Deep Learning)、神經(jīng)網(wǎng)絡(luò)(聚類#3 Neural Networks)。其中知識(shí)可視化聚類出現(xiàn)的頻次最高,說明國外知識(shí)圖譜的研究重心側(cè)重于此。
圖3 國外研究文獻(xiàn)的關(guān)鍵詞聚類圖
對(duì)國內(nèi)外研究文獻(xiàn)的高頻關(guān)鍵詞進(jìn)行聚類分析,可將研究熱點(diǎn)子群分布進(jìn)行歸納,聚類結(jié)果見表1、表2。由表1可知,國內(nèi)主要從知識(shí)表示、可視化分析、知識(shí)抽取、本體建模、應(yīng)用、知識(shí)推理等方面對(duì)知識(shí)圖譜進(jìn)行研究;國外主要從知識(shí)可視化、知識(shí)表示、深度學(xué)習(xí)等方面對(duì)知識(shí)圖譜進(jìn)行研究。
表1 國內(nèi)研究文獻(xiàn)的高頻關(guān)鍵詞聚類子群(部分)
表2 國外研究文獻(xiàn)的高頻關(guān)鍵詞聚類子群(部分)
根據(jù)國內(nèi)外知識(shí)圖譜研究文獻(xiàn)的高頻關(guān)鍵詞的聚類分析可知,該研究領(lǐng)域熱點(diǎn)主要集中在知識(shí)圖譜的關(guān)鍵構(gòu)建與實(shí)際應(yīng)用方面,具體可以歸納為以下幾個(gè)方面。
(1)本體建模。本體建模是一種描述特定領(lǐng)域知識(shí)圖譜中知識(shí)的概念模板與骨架[19]。本體包含實(shí)體層和概念層,知識(shí)圖譜在此基礎(chǔ)上增加實(shí)體的信息,以充盈圖譜。當(dāng)前主流的本體構(gòu)建模式大多是在領(lǐng)域現(xiàn)有本體庫的基礎(chǔ)上采用自動(dòng)化構(gòu)建方法拓展生成。目前,大量的領(lǐng)域本體為第二代互聯(lián)網(wǎng)發(fā)展提供了強(qiáng)有力的支持,中國科學(xué)院計(jì)算所若干實(shí)驗(yàn)室以及美國斯坦福大學(xué)知識(shí)系統(tǒng)實(shí)驗(yàn)室都在對(duì)本體建模等進(jìn)行相關(guān)研究。此外,本體也常被用來為知識(shí)圖譜定義“Schema”(一個(gè)領(lǐng)域的概念類型以及這些類型的屬性)。
(2)知識(shí)表示。知識(shí)表示是研究客觀世界各類知識(shí)如何表示成計(jì)算機(jī)或者方便機(jī)器識(shí)別和理解的形式,大多以RDF三元組來描述實(shí)體之間的關(guān)系,對(duì)知識(shí)數(shù)據(jù)進(jìn)行設(shè)計(jì)和定義,并用以支持知識(shí)的存儲(chǔ)與更新,確保上層構(gòu)建的使用和計(jì)算。近年來,隨著深度學(xué)習(xí)的發(fā)展,面向知識(shí)庫中的實(shí)體、概念和關(guān)系進(jìn)行表示的知識(shí)表示學(xué)習(xí)成為了主流。Tang等提出了一種具有實(shí)體描述、層次類型和文本關(guān)系信息的多源知識(shí)表示學(xué)習(xí)(MKRL)模型,實(shí)驗(yàn)結(jié)果表明多源信息對(duì)知識(shí)補(bǔ)全任務(wù)的有效性[20]。此外,融合跨媒體元素的知識(shí)表示、融合時(shí)空維度的知識(shí)表示也是未來研究的方向。
(3)知識(shí)抽取。知識(shí)抽取是以實(shí)體抽取、事件抽取、關(guān)系抽取等形成的研究熱點(diǎn),它是從非結(jié)構(gòu)化、半結(jié)構(gòu)化與結(jié)構(gòu)化的數(shù)據(jù)中以自動(dòng)或者半自動(dòng)的方式抽取實(shí)體、關(guān)系以及屬性等信息的技術(shù)。①實(shí)體抽取方法大致分為基于規(guī)則與詞典的方法、基于遷移學(xué)習(xí)的方法以及基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法三類?;谝?guī)則的方法依賴專家編寫規(guī)則,浪費(fèi)許多人力且規(guī)則的擴(kuò)展性差。彭敏龍等提出僅利用未標(biāo)記的數(shù)據(jù)和命名實(shí)體字典執(zhí)行命名實(shí)體識(shí)別的方法,大大降低了對(duì)詞典質(zhì)量的要求。基于遷移學(xué)習(xí)的實(shí)體抽取主要是面向開放域的抽取,包括跨域、跨應(yīng)用、跨語言三種模式?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法是采用數(shù)據(jù)進(jìn)行訓(xùn)練、測試后再進(jìn)行實(shí)體識(shí)別[21]。②事件抽取是從數(shù)據(jù)中抽取事件信息,進(jìn)行事件觸發(fā)詞的檢測與分類、事件元素的識(shí)別,包含時(shí)間、地點(diǎn)、參與對(duì)象等元素,并以結(jié)構(gòu)化和語義化的形式展現(xiàn)。常用方法有基于規(guī)則的方法、基于知識(shí)庫的方法、基于機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法以及基于強(qiáng)化學(xué)習(xí)的方法。基于規(guī)則的方法需要資深專家定義好語義框架用來表示事件的抽取方式;基于知識(shí)庫的方法如劉樹林等提出利用FrameNet自動(dòng)檢測事件的方法,提高事件抽取的性能[22];基于機(jī)器學(xué)習(xí)的方法主要利用自然語言處理工具,根據(jù)分類任務(wù)進(jìn)行事件抽??;基于深度學(xué)習(xí)的方法有Joint Model[23]方式等;基于強(qiáng)化學(xué)習(xí)的方法是將強(qiáng)化學(xué)習(xí)的思想用于事件抽取,有學(xué)者研究了生成對(duì)抗式模仿學(xué)習(xí)的事件提取,提出了一種基于模仿學(xué)習(xí)框架進(jìn)行的逆強(qiáng)化學(xué)習(xí)[24]。③關(guān)系抽取是從多領(lǐng)域原始數(shù)據(jù)中提取實(shí)體與實(shí)體之間的語義關(guān)系,將實(shí)體關(guān)聯(lián)起來,逐步形成知識(shí)網(wǎng)狀結(jié)構(gòu)。關(guān)系抽取過程中經(jīng)常會(huì)運(yùn)用大量監(jiān)督學(xué)習(xí)方法。鄭孫聰?shù)忍岢隽艘环N可以將聯(lián)合提取任務(wù)轉(zhuǎn)換為標(biāo)注問題,研究了不同的端到端模型以直接提取實(shí)體及其關(guān)系,而無需分別識(shí)別實(shí)體和關(guān)系[25]。隨著研究的深入,國內(nèi)外對(duì)于關(guān)系抽取還有許多極具建設(shè)性的挑戰(zhàn),如資源缺乏、面向開放域、跨語言等方面的知識(shí)抽取等。
(4)知識(shí)推理。知識(shí)推理是指在現(xiàn)有知識(shí)的完善程度上,進(jìn)一步通過各種方法挖掘隱含的知識(shí),能夠從現(xiàn)有知識(shí)庫中發(fā)現(xiàn)或新增知識(shí),建立實(shí)體之間新的關(guān)聯(lián),以此拓展知識(shí)圖譜的知識(shí)覆蓋面。知識(shí)推理可以對(duì)實(shí)體間的關(guān)系、屬性以及本體的概念層次框架等進(jìn)行更深層次的推理。但是研究者們很難列舉出全部的推理規(guī)則,知識(shí)的推理規(guī)則大致可以分為以下三類。①基于邏輯的推理包括一階謂詞邏輯、描述邏輯以及規(guī)則等。Lu等提出了ORBO算法,降低了算法的時(shí)間復(fù)雜度,提高了推理效率[26]。②基于統(tǒng)計(jì)的推理大多集中在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)習(xí)方面,如馬爾可夫邏輯網(wǎng)、貝葉斯推斷等。王坤等從理論上推導(dǎo)了隱馬爾科夫異分布模型的貝葉斯估計(jì)方法,以實(shí)證分析比較了模型的貝葉斯估計(jì)值和真實(shí)值的差異,驗(yàn)證了其可靠性[27]。③在基于圖的推理中,路徑排序算法、不完備知識(shí)庫的關(guān)聯(lián)規(guī)則挖掘較為典型。隨著圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,張仲偉等分析了基于神經(jīng)網(wǎng)絡(luò)的知識(shí)推理方法[28],這種方法的推理能力和泛化能力更強(qiáng),對(duì)知識(shí)庫中實(shí)體關(guān)聯(lián)和文本信息的利用率更高,推理效果更好。
(5)科學(xué)知識(shí)圖譜。2005年,陳悅等首次將“科學(xué)知識(shí)圖譜”概念引入國內(nèi)[29],隨后便得到了研究者的廣泛關(guān)注。我國多個(gè)領(lǐng)域均有涉及利用科學(xué)知識(shí)圖譜對(duì)文獻(xiàn)進(jìn)行分析,以探究領(lǐng)域的發(fā)展趨勢,相關(guān)文獻(xiàn)也呈激增之勢??茖W(xué)知識(shí)圖譜是在科學(xué)計(jì)量學(xué)的基礎(chǔ)上發(fā)展衍生的,它涵蓋了計(jì)算機(jī)科學(xué)、信息計(jì)量學(xué)和圖形學(xué)等多種學(xué)科理論。目前,我國對(duì)于科學(xué)知識(shí)圖譜的研究大多在理論、分析方法、分析工具及其應(yīng)用等方面。
(6)知識(shí)圖譜的應(yīng)用。知識(shí)圖譜的應(yīng)用領(lǐng)域隨著不同時(shí)期研究主題的變化而變化,整體趨勢呈現(xiàn)多元化、社會(huì)化的特點(diǎn)。如在教育領(lǐng)域,崔京菁等構(gòu)建了基于知識(shí)圖譜的翻轉(zhuǎn)課堂教學(xué)模式,推動(dòng)了教學(xué)研究的發(fā)展[30];余勝泉等研發(fā)了基于育人知識(shí)圖譜的“AI好老師”個(gè)性化育人助理系統(tǒng)[31]。目前,知識(shí)圖譜在智能問答、可視化決策、推薦系統(tǒng)、語義搜索等應(yīng)用中發(fā)揮著越來越重要的價(jià)值。
近幾年,中國計(jì)算機(jī)大會(huì)舉行了以“認(rèn)知圖譜與推理”為主題的論壇,深入探討了如何構(gòu)建高質(zhì)量的大規(guī)模認(rèn)知圖譜(Cognitive Graph),并列舉智能推理、認(rèn)知智能等與知識(shí)圖譜結(jié)合應(yīng)用的實(shí)例。如,阿里為改變電商業(yè)務(wù)中推薦不精確、重復(fù)推薦、缺乏新意等問題,提出構(gòu)建大規(guī)模電商認(rèn)知圖譜,將用戶需求映射為圖譜中的節(jié)點(diǎn),將這些點(diǎn)和電商領(lǐng)域內(nèi)外的相關(guān)知識(shí)關(guān)聯(lián)起來,使得商品更好地滿足用戶的需求[32]?!罢J(rèn)知”技術(shù)是整個(gè)人工智能研發(fā)中繞不開的關(guān)鍵技術(shù),認(rèn)知智能的應(yīng)用抓手是智能解釋,認(rèn)知圖譜可以促進(jìn)這種“解釋”。如,基于用戶認(rèn)知的智能推薦系統(tǒng)充分抓住用戶心理,能夠?yàn)橛脩暨M(jìn)行最滿意的推薦。把知識(shí)圖譜與認(rèn)知智能相結(jié)合,形成認(rèn)知圖譜,這樣的圖譜先有“認(rèn)知”,再有“推理”,能夠提升用戶對(duì)智能推薦的滿意程度。
在教育領(lǐng)域,建構(gòu)主義學(xué)習(xí)理論認(rèn)為,學(xué)習(xí)是學(xué)習(xí)者根據(jù)自己的經(jīng)驗(yàn),對(duì)外部信息進(jìn)行主動(dòng)選擇、加工和處理的過程[33]。自2011年提出學(xué)習(xí)分析技術(shù)之后,研究者開始依托具有強(qiáng)大語義處理能力的知識(shí)圖譜開展學(xué)習(xí)分析的教育研究。目前,素質(zhì)教育最大的局限性就是學(xué)生認(rèn)知超載,學(xué)生常常因教學(xué)活動(dòng)、探究過程的復(fù)雜性而感到不堪重負(fù)。認(rèn)知負(fù)荷理論認(rèn)為,只有將認(rèn)知負(fù)荷控制在工作記憶所能承載的范圍之內(nèi),有效學(xué)習(xí)才能得以順利實(shí)現(xiàn)[34]。如何降低認(rèn)知負(fù)荷、設(shè)置學(xué)生學(xué)習(xí)的復(fù)雜梯度和學(xué)習(xí)路徑是一個(gè)關(guān)鍵問題?;谥R(shí)圖譜的個(gè)性化學(xué)習(xí)推薦能夠準(zhǔn)確把握學(xué)習(xí)者對(duì)知識(shí)的認(rèn)知基礎(chǔ),構(gòu)建學(xué)習(xí)者的認(rèn)知圖譜,自動(dòng)監(jiān)測學(xué)習(xí)遷移,通過序列感知的智能推薦為學(xué)生提供最適合自己的學(xué)習(xí)路徑,形成個(gè)性化學(xué)習(xí)環(huán)境,有效降低學(xué)習(xí)負(fù)荷。如,唐燁偉等構(gòu)建了一種基于學(xué)習(xí)者畫像的精準(zhǔn)個(gè)性化學(xué)習(xí)路徑規(guī)劃框架,以滿足學(xué)生個(gè)性化學(xué)習(xí)需求[35]。知識(shí)圖譜以高效的方式向認(rèn)知圖譜進(jìn)階,能夠促進(jìn)認(rèn)知智能時(shí)代教育領(lǐng)域更進(jìn)一步的發(fā)展。
知識(shí)圖譜當(dāng)前正在從通用知識(shí)圖譜向行業(yè)知識(shí)圖譜的應(yīng)用拓展。業(yè)界亟需一種能夠支持知識(shí)圖譜構(gòu)建的平臺(tái),以構(gòu)建領(lǐng)域知識(shí)圖譜。實(shí)踐發(fā)現(xiàn),構(gòu)建特定領(lǐng)域知識(shí)圖譜時(shí),需要與領(lǐng)域?qū)<夷ズ隙ㄖ祁I(lǐng)域知識(shí)圖譜的Schema。Chen等提出了一種自動(dòng)化構(gòu)建方法,能夠全面考慮知識(shí)復(fù)雜梯度以及前驅(qū)后繼關(guān)系[36]。但不論是人工構(gòu)建方法還是自動(dòng)化構(gòu)建方法,在構(gòu)建過程中都存在依賴專家經(jīng)驗(yàn)、費(fèi)時(shí)費(fèi)力等問題。此外,在知識(shí)圖譜的構(gòu)建過程中主要針對(duì)可編碼、可量化的顯性知識(shí),在很多情況下沒有考慮隱性知識(shí),進(jìn)而因數(shù)據(jù)模式的變化帶來較高的維護(hù)成本,研究者無法構(gòu)建出“十全十美”的知識(shí)圖譜來滿足變化的需求,這就要求知識(shí)圖譜能夠較易更新與擴(kuò)展。
2019年3月20日,中國電子技術(shù)標(biāo)準(zhǔn)化研究院向IEEE標(biāo)準(zhǔn)協(xié)會(huì)提報(bào)的標(biāo)準(zhǔn)提案《知識(shí)圖譜架構(gòu)》正式獲批立項(xiàng)[37]。隨著信息服務(wù)向知識(shí)服務(wù)的轉(zhuǎn)變,相關(guān)機(jī)構(gòu)和專家應(yīng)根據(jù)知識(shí)圖譜構(gòu)建的相關(guān)方法學(xué)構(gòu)建一個(gè)完善、高效的知識(shí)圖譜平臺(tái),提升構(gòu)建的效率,且能夠以低人工投入構(gòu)建出高質(zhì)量的知識(shí)圖譜應(yīng)用。
現(xiàn)階段,知識(shí)圖譜有待向標(biāo)準(zhǔn)化趨勢發(fā)展,乃至提升整個(gè)行業(yè)的知識(shí)管理和應(yīng)用水平,但是知識(shí)圖譜的測試認(rèn)證相關(guān)研究還面臨著測試與評(píng)估的環(huán)節(jié)眾多、方法缺失、標(biāo)準(zhǔn)空白等問題。通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜的實(shí)際應(yīng)用效果或者構(gòu)建圖譜的模式是否有效,必須經(jīng)得起科學(xué)的評(píng)判標(biāo)準(zhǔn)檢驗(yàn)。
國內(nèi)外多數(shù)機(jī)構(gòu)均在嘗試研究對(duì)知識(shí)圖譜的測試評(píng)估。如,2019年全國知識(shí)圖譜與語義計(jì)算大會(huì)發(fā)布關(guān)于知識(shí)圖譜的主題測評(píng)任務(wù)[38],對(duì)知識(shí)圖譜領(lǐng)域的學(xué)術(shù)成果與產(chǎn)業(yè)需求進(jìn)行探討,促進(jìn)其技術(shù)發(fā)展。美國倫斯勒理工學(xué)院Tetherless World Constellation研究所則專注研制知識(shí)圖譜測評(píng)系統(tǒng)[39],對(duì)多源異構(gòu)知識(shí)圖譜中存在的顯性錯(cuò)誤或者隱性缺陷進(jìn)行檢測和評(píng)估。未來,應(yīng)建立健全知識(shí)圖譜標(biāo)準(zhǔn)符合性測試評(píng)估體系和知識(shí)質(zhì)量評(píng)估技術(shù)指標(biāo),以提高知識(shí)圖譜的標(biāo)準(zhǔn)化應(yīng)用,讓知識(shí)圖譜成為教育領(lǐng)域提高教學(xué)質(zhì)量的工具,這已經(jīng)成為認(rèn)知智能時(shí)代教育信息化發(fā)展的重要措施。
知識(shí)圖譜是人工智能領(lǐng)域頗受關(guān)注的發(fā)展方向,但其核心技術(shù)方面還存在許多瓶頸。如,如何精確獲取知識(shí)之間的關(guān)聯(lián)進(jìn)行關(guān)系抽取,如何解決多源異構(gòu)的歧義、噪聲,如何開展面向開放域、跨語言等方向的知識(shí)抽取等,這些都是知識(shí)圖譜拓展領(lǐng)域應(yīng)用范圍面臨的難題。此外,基于深度學(xué)習(xí)的序列標(biāo)注算法進(jìn)行高質(zhì)量的實(shí)體識(shí)別、基于開放式數(shù)據(jù)庫的遠(yuǎn)程監(jiān)督學(xué)習(xí)以及小樣本的抽取和構(gòu)建問題等,也都尚未與知識(shí)圖譜構(gòu)建及應(yīng)用領(lǐng)域?qū)崿F(xiàn)深度融合,技術(shù)上都有待突破。
知識(shí)圖譜作為一種圖數(shù)據(jù)結(jié)構(gòu),亟需通過與自然語言處理、認(rèn)知科學(xué)、超級(jí)計(jì)算、深度學(xué)習(xí)、認(rèn)知計(jì)算等技術(shù)深度融合,突破知識(shí)圖譜領(lǐng)域核心構(gòu)建的技術(shù)瓶頸,健全知識(shí)圖譜領(lǐng)域核心技術(shù)體系。另外,研究者應(yīng)重點(diǎn)關(guān)注認(rèn)知科學(xué)領(lǐng)域復(fù)雜知識(shí)類型的探索,以及研究融合跨媒體元素、時(shí)空維度的知識(shí)表示[39]等都是未來知識(shí)圖譜研究需要努力研究的著力點(diǎn)。