白偉華, 朱嘉賢, 蔡文偉
(肇慶學院 計算機科學與軟件學院, 廣東 肇慶 526061)
大數(shù)據(jù)支持下的智慧教育和個性化精準服務相結(jié)合,形成了個性化精準教育的新模式,面對多用戶、多角色和復雜知識域的相互關聯(lián)環(huán)境,將用戶與領域的知識和相應的應用技術(shù)相融合的服務模式——知識協(xié)同,實現(xiàn)對知識的管理和個體學習指引,既滿足了個性化學習需求又要符合培養(yǎng)工科團隊協(xié)作的需要。 利用知識圖譜技術(shù)對多領域知識實現(xiàn)關聯(lián)融合是一種新的有效的解決方案。 應用知識圖譜和大數(shù)據(jù)資源管理技術(shù)相結(jié)合的知識服務體系,能實現(xiàn)多領域知識的協(xié)同及資源管理的優(yōu)化配置,符合培養(yǎng)復合型技術(shù)團隊的需求。 “知識”、“資源”、“用戶”和“服務”是大數(shù)據(jù)時代背景下智慧教育的4 個核心組成要素:知識是資源的索引,資源是知識的承載體,以服務滿足用戶的需求,服務實現(xiàn)的方式就是為用戶提供個性化、精準化和有效的數(shù)據(jù)資源(知識)。
在知識協(xié)同的應用中,主要有:
(1)基于知識超網(wǎng)絡模型。 是一種由幾個不同類型的知識網(wǎng)絡所組成的超網(wǎng)絡;
(2)知識協(xié)調(diào)機制。 基于成員之間互依的知識進行協(xié)調(diào)的機制;這些機制和模型著重強調(diào)了用戶知識學習、學習小組中各成員之間知識分享和協(xié)助性地解決問題,主要通過超網(wǎng)絡這一模型構(gòu)建基于以某領域知識或任務為目標的用戶關系網(wǎng)絡、載體知識文本網(wǎng)絡或知識進化網(wǎng)絡。
學習路徑的智能推薦是知識協(xié)同的重要研究內(nèi)容,研究人員提出通過學習者的多維度且動態(tài)的個體多參數(shù)模型來反映學習者多方面狀態(tài)的“學習者建?!狈椒?,以實現(xiàn)精準個性化學習的學習路徑推薦。 在構(gòu)建基于多維個性化參數(shù)的學習者模型中,為實現(xiàn)學習路徑推薦,學者提出了5 個核心個性化參數(shù):“學習目標”即需掌握的一個或多個的知識理論,或?qū)I(yè)知識體系;“技能學習”即知識應用于實踐的需求;“知識背景”即個體知識體系特征,或當前已經(jīng)具備的知識理論;“時間限制”和“學習風格”。 研究人員根據(jù)個性化參數(shù)所描述的方面,將19 項個性化參數(shù)歸并為以下三個維度:
(1)描述個體需求方面的學習動機和實現(xiàn)目標對應的參數(shù)項——“為何學”;
(2)描述知識體系結(jié)構(gòu)及要求方面的知識點及其體系構(gòu)成和實踐技能對應的參數(shù)項——“學什么”;
(3)描述學習者個體特征方面的已掌握的知識體系結(jié)構(gòu)、學習偏好、學習能力及風格等對應的參數(shù)項——“如何學”。
結(jié)合學習路徑推薦的需求,可以將“學習目標”、“技能學習”、“知識背景”、“時間限制”和“學習風格”對應的個性化參數(shù)項按上述3 個維度構(gòu)建為樹結(jié)構(gòu):學習者模型(為何學(學習目標,學習動機)、學什么(技能學習)、如何學(知識背景,時間限制,學習風格))。
在網(wǎng)絡通信技術(shù)的支持下,面對海量增長的學習資源,有效地標識對應數(shù)據(jù)資源的特征是其能被智慧推薦、個性化精準推薦和智慧教育所用的重要手段。 學習資源是一種數(shù)據(jù)資源,是一種涵蓋知識內(nèi)容(學習者需要掌握的知識)邏輯結(jié)構(gòu),承載著知識點內(nèi)容信息的實體。 為解決高效地利用并共享海量的學習資源這一問題,一方面要有有效的資源標注模型,另一方面是要有安全快捷的資源共享模型。 結(jié)合信息體及其邏輯結(jié)構(gòu)特征,在標注技術(shù)上,目前采用的主要方法有:本體(Ontology)、語義Web、XML、元數(shù)據(jù)(Metadata)、概念圖(Concept map)、知識圖譜(Knowledge Graph)等。 學習資源是廣泛存儲在不同的服務節(jié)點上,該模式本就是一個去中心化的存儲,應用區(qū)塊鏈去中心化的模式,研究人員提出了基于區(qū)塊鏈技術(shù)的在線學習資源管理模式。
當前所提出的學習資源管理、共享和應用模型,以及相關應用的研究中,可以發(fā)現(xiàn)這些方法存在以下問題:
(1)無法將海量的數(shù)據(jù)資源、個性化精準化的知識學習任務、知識學習路徑規(guī)劃和用戶角色四者的關聯(lián)與學習過程中復雜的知識路徑進行映射和合理性規(guī)劃判定;
(2)針對智慧學習,這些方式無法滿足用戶個性化、特征化和精準化的需求,無法對學習過程和進度進行量化,以及學習效果的評估和預判;
(3)目的性不明確,無法針對個體和群體分配合理的學習任務和路徑規(guī)劃,無法評估相關數(shù)據(jù)資源的有效性和必要性。
本文提出了一種針對知識邏輯結(jié)構(gòu)、資源內(nèi)容結(jié)構(gòu)和用戶知識背景結(jié)構(gòu)的知識關聯(lián)樹映射模型;提出了一種基于知識關聯(lián)樹的學習資源搜索、推薦和應用的模式;為支持針對個性化特征的學習路徑推薦,提出了一種基于知識背景和知識結(jié)構(gòu)相似度計算的推薦方法。
在網(wǎng)絡上,知識通過資源呈現(xiàn)出來,用戶通過資源的學習獲取知識,知識是抽象體,而數(shù)據(jù)資源是知識的承載體。 在組織和應用上,要呈現(xiàn)出以下的相互關系或關聯(lián):
(1)同系列的知識之間的層次關系。 例如:通過廣義表描述“數(shù)據(jù)結(jié)構(gòu)”這門課程涵蓋的知識點之間的層次關系,數(shù)據(jù)結(jié)構(gòu)(線性表(棧(表達式求值,迷宮求解,數(shù)制轉(zhuǎn)換……),隊列(樹遍歷,圖遍歷……),串(……),數(shù)組(……),……),樹(二叉樹(遍歷,哈夫曼編碼,……),B 樹/B +樹(……),……),圖(……),……)。
(2)用戶(學生)具備或?qū)W習的專業(yè)領域的核心知識的層次關系。 例如:用戶A(計算機(數(shù)據(jù)處理(數(shù)據(jù)結(jié)構(gòu)(搜索(算法(……),排序(……),……),……),數(shù)據(jù)庫(……),……),……),電子信息(……),……)。
(3)知識之間的聚合關聯(lián)。 不同系列知識或不同課程之間,其知識點有部分是存在聚合關聯(lián)的,例如:“數(shù)據(jù)庫”和“數(shù)據(jù)結(jié)構(gòu)”這兩門課程中針對“排序”、“搜索”、“B 樹/B+樹”等,又如“操作系統(tǒng)”和“數(shù)據(jù)結(jié)構(gòu)”中的“?!薄ⅰ瓣犃小钡?,這些知識點都存在聚合關聯(lián),而這些關聯(lián)是同層次上的,但又屬于不同知識系列,即無向無序的。
(4)用戶(學生)之間基于領域知識的耦合關聯(lián)。 在知識協(xié)同應用中,用戶需要共同完成一個任務,每位團隊成員有各自的職責,完成相應的子任務,成員在該任務中所需具備的核心領域知識是互補的、個體的,但整體上基于任務又是完整的,所以用戶之間基于核心領域知識映射在不同的結(jié)點上,是一種耦合關聯(lián)。
在應用過程中,存在用戶與知識結(jié)點之間、資源與知識結(jié)點之間以及用戶與資源之間3 類有向的量化關聯(lián),其量化關聯(lián)可被描述為兩者之間的權(quán)重(系數(shù))。
(1)用戶與知識結(jié)點之間的權(quán)重描述了用戶在其核心知識領域或?qū)W生對各知識掌握的需求程度;
(2)資源與知識結(jié)點之間的權(quán)重描述了數(shù)據(jù)資源涵蓋或?qū)ο鄳R點的支撐程度,也可以表示資源對學習相應知識點的有效程度;
(3)用戶與資源之間的權(quán)重描述了用戶(學生)對該資源在相應知識點的有效性評價,也可以表示對該資源的偏好程度。
為描述各結(jié)點之間的層次關系、耦合關聯(lián)、聚合關聯(lián)以及不同類別結(jié)點之間的量化關聯(lián),整個模型知識結(jié)構(gòu)樹和關聯(lián)由兩個基本元素組成。
課程知識結(jié)構(gòu)樹是一棵深度為4 的多分支樹,由分支結(jié)點(第1 ~3 層結(jié)點)和葉子結(jié)點(第4 層結(jié)點)組成。 其中,樹根結(jié)點(即第1 層)到第3 層上的分支結(jié)點統(tǒng)一被映射為:課程——基礎內(nèi)容分支——知識點分布,葉子結(jié)點(第4 層結(jié)點)為資源結(jié)點。T -課程知識結(jié)構(gòu)樹:
其中:分支結(jié)點t為一個四元組:t =(t,,,);t為唯一標識樹結(jié)點的編號;為學科領域集;為知識點關鍵詞集;為知識點定義或文本描述。
葉子結(jié)點(資源) t為一個五元組:
其中,S為資源標號唯一標識的編碼;S為知識點關鍵詞集;S為資源描述;S為資源類別描述;S為資源存儲鏈接地址。
樹內(nèi)結(jié)點關聯(lián)R描述了T內(nèi)兩個結(jié)點之間的關聯(lián)屬性,用一個四元組表示:
其中,r為主結(jié)點(雙親結(jié)點)的編號;r為從結(jié)點(孩子結(jié)點)的編號;為兩者關聯(lián)程度權(quán)重;為關聯(lián)的類別(分支結(jié)點關聯(lián)或分支結(jié)點與葉子結(jié)點關聯(lián)兩種情況)。
用戶知識結(jié)構(gòu)樹
其中:u為用戶信息;
u成員;u年齡;u學歷;u所在單位及部門等;<u,T >為描述用戶的專業(yè)領域,其掌握的核心知識及其對應的樹;R是用戶與技能關聯(lián),描述用戶在每個核心知識上的能力以及對應的權(quán)重系數(shù)。
用戶資源關聯(lián)R=(u,S,,),表示了用戶與資源之間的關聯(lián)信息。
其中,u為用戶的id 編碼;S為資源結(jié)點編碼;是用戶對資源的評價、評分等;則是由用戶對資源的評價、評分等核算的偏好程度權(quán)重。
知識學習協(xié)同樹(T,M,R) 。
其中,T為領域核心知識樹,描述各專業(yè)領域的主要核心知識結(jié)構(gòu);M是有限集合,M ={T |T,T,…,T}是被拆分后子對應領域涵蓋的核心知識樹集;為拆分后的課程數(shù);R為領域內(nèi)核心課程關聯(lián),描述對應領域內(nèi)核心知識的組成及對應的權(quán)重系數(shù)(即對應知識點的重要程度描述)。
知識點聚合關聯(lián)R=(K,t,C,),表示了課程間相近、類似或相同的知識點,能有效地描述課程群重復的知識點,能協(xié)同各課程學習中對知識點的學習時間的分配或掌握程度。
其中,K為聚合關聯(lián);t為可聚合知識點集合;C是描述該聚合關聯(lián)的文本或知識點公認定義(有效定義);為該知識點對聚合的關聯(lián)程度或貢獻度權(quán)重系數(shù)。
“用戶—課程知識結(jié)構(gòu)樹—資源—關聯(lián)”例子,如圖1 所示,描述了用戶(U20210123,梁家棟,……),專業(yè)領域(計算機,自動化),課程(數(shù)據(jù)結(jié)構(gòu)T,數(shù)據(jù)庫T,操作系統(tǒng)T,信號處理T),課程中知識點聚合關聯(lián)R(隊列,B 樹/B+樹)以及相互關聯(lián)。
圖1 “用戶—課程知識結(jié)構(gòu)樹—資源—關聯(lián)”實例Fig.1 An example of user- knowledge structure tree-resourcesrelation
領域核心知識樹是整個知識協(xié)同模型的核心元素,是各類聚類計算的基本單元。 結(jié)合學科領域知識的標注,構(gòu)建領域核心知識樹的主要步驟如下:
(1)以《中華人民共和國國家標準學科分類與代碼》(GB/T 13745—2009)以及知網(wǎng)上的關鍵詞條作為結(jié)點核心關鍵字,新建領域核心知識樹中第1~2 層結(jié)點,同時以GB/T 13745—2009 對結(jié)點進行編碼,并完成“樹內(nèi)結(jié)點關聯(lián)”實現(xiàn)“雙親結(jié)點與孩子結(jié)點”之間的一對多映射關聯(lián)。
(2)通過網(wǎng)絡爬蟲,完成兩類基礎數(shù)據(jù)的爬取。
①以(1)中第1~2 層結(jié)點中的關鍵字為“核”,獲取當前知名高校的專業(yè)培養(yǎng)方案提綱及課程參考,構(gòu)建專業(yè)領域內(nèi)的核心課程;
②根據(jù)課程安排,以課程名為“核”,爬取相關課程的參考教程及其目錄,并以目錄為結(jié)點,構(gòu)建課程核心知識點結(jié)點。
“計算機科學與技術(shù)”專業(yè)領域核心知識樹實例,如圖2 所示,參照《中華人民共和國國家標準學科分類與代碼》(GB/T 13745-2009)對樹根節(jié)點和分支節(jié)點進行編碼,一方面對領域進行標準化分類,另一方面也方便并提高搜索樹中節(jié)點或路徑的效率。
圖2 “計算機科學與技術(shù)”專業(yè)領域核心知識樹Tp(部分)Fig.2 The part of the Tp of computer science and technology
T-課程知識結(jié)構(gòu)樹是整個模型的核心結(jié)構(gòu)樹,是模型的交互層,實現(xiàn)上下層各實體之間的媒介,其上層實體是用戶、領域核心知識樹以及知識學習協(xié)同樹,下層實體主要有資源以及知識點聚合關聯(lián)R,對應的一個實例如圖1 所示。 構(gòu)建T時,選取目前在相應課程上最為經(jīng)典的教程為模板,構(gòu)建基于該教程為基礎的課程知識結(jié)構(gòu)樹,其主要過程為:
(1)獲取教程的目錄結(jié)構(gòu),將目錄按其大綱級別映射到結(jié)構(gòu)樹的第2~3 層的結(jié)點上,同時將其上下層關聯(lián)插入到樹內(nèi)結(jié)點關聯(lián)R中;
(2)標注第2 ~3 層分支結(jié)點中的數(shù)據(jù)域:“”和“”,同時為每個第3 層結(jié)點至少生成一個孩子結(jié)點t,并初始化該孩子結(jié)點。
圖3 為可視化生成的“數(shù)據(jù)結(jié)構(gòu)”知識結(jié)構(gòu)雷達樹圖和一般樹。
圖3 “數(shù)據(jù)結(jié)構(gòu)”知識結(jié)構(gòu)雷達樹圖和一般樹圖Fig.3 The knowledge structure tree of the course of data structure
根據(jù)開源分詞器—Jieba 實現(xiàn)以《中華人民共和國國家標準學科分類與代碼》(GB/T13745-2009)和具有公認性的詞條:“知網(wǎng)詞條”為核心,定義核心關鍵詞的自定義詞典,并以“單詞_詞性_詞頻”的格式加載到知識點聚合關聯(lián)運算中。
本文提出了基于標注關鍵詞相似度的知識點聚合關聯(lián)R。 首先,計算出知識結(jié)構(gòu)樹中結(jié)點在核心關鍵詞的相似度;其次,以相似度值進行聚類;最后,以閥值進行過濾完成知識點聚合關聯(lián)。
3.3.1 計算核心詞的相似度
利用早期的研究成果對知識結(jié)構(gòu)樹中第三層結(jié)點中的數(shù)據(jù)域:“”中“研究領域核心詞”計算兩關鍵詞,的相似度。 關鍵詞相似度函數(shù)公式(,) 定義為公式(1):
其中,() 為兩關鍵詞,共同祖先節(jié)點所在的位置;() 和() 表示兩關鍵詞,在樹中的位置;() 和() 表示與兩關鍵詞,共同祖先節(jié)點的位置差; max _()max (() ,() ),即() 和() 中的最大值。
3.3.2 以相似度值進行聚類
在詞相似度基礎上實現(xiàn)知識點聚合關聯(lián)度計算。將聚合關聯(lián)的知識點結(jié)構(gòu)及關鍵描述匹配的相似度轉(zhuǎn)化為對兩棵子樹的相似度計算,進而再轉(zhuǎn)化為結(jié)構(gòu)樹中各結(jié)點的數(shù)據(jù)域“”的相似度計算。 沿用前期研究結(jié)果,其知識點聚合關聯(lián)度計算為公式(2):
設t和t是分別待驗證聚合關聯(lián)的兩知識點結(jié)點( T第3 層上的分支結(jié)點),k和k為結(jié)點數(shù)據(jù)域“”中關鍵詞的數(shù)量,__表示t和t子樹包含的分支數(shù)。
其中,w和w為結(jié)點數(shù)據(jù)域“”描述詞集合中第,個關鍵詞,計算子式maxsim(w,w) 表示相似度取在描述關鍵詞集內(nèi)詞相似度(,) 的最大值。
3.3.3 知識點聚合關聯(lián)
根據(jù)經(jīng)驗設定閥值, 通常以課程與專業(yè)需求聯(lián)系緊密度作為權(quán)重值參考,檢索不同課程T第3 層上的分支結(jié)點的關鍵字,并按公式(2)計算不同課程間相應分支結(jié)點的相似度,當(t,t) ≥時,則產(chǎn)生對應結(jié)點的知識點聚合關聯(lián),并生成R記錄。
依照上述過程對不同科目中相關相似或重復的知識點進行聚類分析,并形成知識點聚合關聯(lián)R。計算機專業(yè)課程群知識點聚合關聯(lián)R(部分)實例如圖4 所示。
圖4 計算機專業(yè)課程群知識點聚合關聯(lián)(部分)例子Fig.4 The aggregation and association of knowledge points Rkc in the computer professional curriculum group
通過分析各知識點的核心關鍵詞以及主要內(nèi)容文本描述,實現(xiàn)對課程群知識點聚合關聯(lián)的數(shù)據(jù)挖掘。 如圖4 所示,通過對《高級語言程序設計(C 語言)》、《數(shù)據(jù)結(jié)構(gòu)》、《操作系統(tǒng)》、《數(shù)據(jù)庫系統(tǒng)原理》和《離散數(shù)學》的知識點分析,挖掘出4 個知識點聚合關聯(lián)分別為: R—向量及應用、 R—指針及應用、R—棧與隊列及應用和R—關系代數(shù)理論,并以可視化方式呈現(xiàn)所聚合關聯(lián)的知識點集合。
依據(jù)發(fā)現(xiàn)知識點聚合關聯(lián)過程,在學習路徑映射上,首先按照學習目標或職位需求,基于知識關聯(lián)樹邏輯結(jié)構(gòu),構(gòu)建對應的專業(yè)知識/技能圖譜,通過圖譜上的核心關鍵詞,利用公式(1)和公式(2)進行知識點聚合關聯(lián)運算,完成庫內(nèi)知識關聯(lián)樹的檢索,并生成基于該圖譜的學習路徑映射集。
如圖5 所示,以“大數(shù)據(jù)專業(yè)工程師”專業(yè)知識/技能圖譜為索引,通過知識點聚合關聯(lián)運算,可以找到對應的學習路徑映射集:“專業(yè)理論基礎知識”(知識點1(鏈表,棧,隊列,棧與隊列,線性表,單鏈表,循環(huán)鏈表),知識點2(快速排序,堆排序,插入排序,內(nèi)部排序,快速排序算法,插入排序法)……),“技能應用”(技能1(高級程序設計(Java),Java/Scala,Spark,Hadoop)……)。
圖5 學習路徑映射應用——大數(shù)據(jù)專業(yè)工程師(部分)實例Fig.5 A part of the learning path mapping for big data professional engineers
通過得到的學習路徑映射集合,構(gòu)建以知識點和技能為結(jié)點的有向無環(huán)圖,完成基于知識關聯(lián)樹的學習路徑規(guī)劃,并推薦給學習者。
個性化精準教育是大數(shù)據(jù)技術(shù)支持下一種基于多領域知識與技術(shù)融合的知識協(xié)同培養(yǎng)模式。 本文將知識圖譜和大數(shù)據(jù)資源管理技術(shù)相結(jié)合,構(gòu)建一種基于知識關聯(lián)樹的知識服務體系,提出融合“知識”、“資源”、“用戶”和“服務”4 個核心要素,構(gòu)建知識結(jié)構(gòu)與資源關聯(lián)。 結(jié)合用戶學習需求,將需求映射到領域核心知識結(jié)構(gòu)樹,為用戶推薦精準的學習路徑(相關聯(lián)的核心知識集)和數(shù)據(jù)資源。
為完善基于知識關聯(lián)樹的知識服務體系,要實現(xiàn)“知識點聚合關聯(lián)的數(shù)據(jù)挖掘”的智能化及自動化,完成基于任務式的知識協(xié)同學習智能推薦和自動量化—“知識點之間的關聯(lián)度”、“資源對知識點的支持度”以及“用戶對知識點和資源的偏好”等是當前的研究熱點也是下一步主要的研究工作。