基于知識關聯(lián)樹的知識協(xié)同模型研究及應用

2022-05-11 07:32白偉華朱嘉賢蔡文偉

智能計算機與應用 2022年2期

白偉華，朱嘉賢，蔡文偉

（肇慶學院計算機科學與軟件學院，廣東肇慶 526061）

0 引言

大數(shù)據(jù)支持下的智慧教育和個性化精準服務相結(jié)合，形成了個性化精準教育的新模式，面對多用戶、多角色和復雜知識域的相互關聯(lián)環(huán)境，將用戶與領域的知識和相應的應用技術(shù)相融合的服務模式——知識協(xié)同，實現(xiàn)對知識的管理和個體學習指引，既滿足了個性化學習需求又要符合培養(yǎng)工科團隊協(xié)作的需要。利用知識圖譜技術(shù)對多領域知識實現(xiàn)關聯(lián)融合是一種新的有效的解決方案。應用知識圖譜和大數(shù)據(jù)資源管理技術(shù)相結(jié)合的知識服務體系，能實現(xiàn)多領域知識的協(xié)同及資源管理的優(yōu)化配置，符合培養(yǎng)復合型技術(shù)團隊的需求。 “知識”、“資源”、“用戶”和“服務”是大數(shù)據(jù)時代背景下智慧教育的4 個核心組成要素：知識是資源的索引，資源是知識的承載體，以服務滿足用戶的需求，服務實現(xiàn)的方式就是為用戶提供個性化、精準化和有效的數(shù)據(jù)資源（知識）。

1 相關研究

在知識協(xié)同的應用中，主要有：

（1）基于知識超網(wǎng)絡模型。是一種由幾個不同類型的知識網(wǎng)絡所組成的超網(wǎng)絡；

（2）知識協(xié)調(diào)機制。基于成員之間互依的知識進行協(xié)調(diào)的機制；這些機制和模型著重強調(diào)了用戶知識學習、學習小組中各成員之間知識分享和協(xié)助性地解決問題，主要通過超網(wǎng)絡這一模型構(gòu)建基于以某領域知識或任務為目標的用戶關系網(wǎng)絡、載體知識文本網(wǎng)絡或知識進化網(wǎng)絡。

學習路徑的智能推薦是知識協(xié)同的重要研究內(nèi)容，研究人員提出通過學習者的多維度且動態(tài)的個體多參數(shù)模型來反映學習者多方面狀態(tài)的“學習者建?！狈椒?，以實現(xiàn)精準個性化學習的學習路徑推薦。在構(gòu)建基于多維個性化參數(shù)的學習者模型中，為實現(xiàn)學習路徑推薦，學者提出了5 個核心個性化參數(shù)：“學習目標”即需掌握的一個或多個的知識理論，或?qū)I(yè)知識體系；“技能學習”即知識應用于實踐的需求；“知識背景”即個體知識體系特征，或當前已經(jīng)具備的知識理論；“時間限制”和“學習風格”。研究人員根據(jù)個性化參數(shù)所描述的方面，將19 項個性化參數(shù)歸并為以下三個維度：

（1）描述個體需求方面的學習動機和實現(xiàn)目標對應的參數(shù)項——“為何學”；

（2）描述知識體系結(jié)構(gòu)及要求方面的知識點及其體系構(gòu)成和實踐技能對應的參數(shù)項——“學什么”；

（3）描述學習者個體特征方面的已掌握的知識體系結(jié)構(gòu)、學習偏好、學習能力及風格等對應的參數(shù)項——“如何學”。

結(jié)合學習路徑推薦的需求，可以將“學習目標”、“技能學習”、“知識背景”、“時間限制”和“學習風格”對應的個性化參數(shù)項按上述3 個維度構(gòu)建為樹結(jié)構(gòu)：學習者模型（為何學（學習目標，學習動機）、學什么（技能學習）、如何學（知識背景，時間限制，學習風格））。

在網(wǎng)絡通信技術(shù)的支持下，面對海量增長的學習資源，有效地標識對應數(shù)據(jù)資源的特征是其能被智慧推薦、個性化精準推薦和智慧教育所用的重要手段。學習資源是一種數(shù)據(jù)資源，是一種涵蓋知識內(nèi)容（學習者需要掌握的知識）邏輯結(jié)構(gòu)，承載著知識點內(nèi)容信息的實體。為解決高效地利用并共享海量的學習資源這一問題，一方面要有有效的資源標注模型，另一方面是要有安全快捷的資源共享模型。結(jié)合信息體及其邏輯結(jié)構(gòu)特征，在標注技術(shù)上，目前采用的主要方法有：本體（Ontology）、語義Web、XML、元數(shù)據(jù)（Metadata）、概念圖（Concept map）、知識圖譜（Knowledge Graph）等。學習資源是廣泛存儲在不同的服務節(jié)點上，該模式本就是一個去中心化的存儲，應用區(qū)塊鏈去中心化的模式，研究人員提出了基于區(qū)塊鏈技術(shù)的在線學習資源管理模式。

當前所提出的學習資源管理、共享和應用模型，以及相關應用的研究中，可以發(fā)現(xiàn)這些方法存在以下問題：

（1）無法將海量的數(shù)據(jù)資源、個性化精準化的知識學習任務、知識學習路徑規(guī)劃和用戶角色四者的關聯(lián)與學習過程中復雜的知識路徑進行映射和合理性規(guī)劃判定；

（2）針對智慧學習，這些方式無法滿足用戶個性化、特征化和精準化的需求，無法對學習過程和進度進行量化，以及學習效果的評估和預判；

（3）目的性不明確，無法針對個體和群體分配合理的學習任務和路徑規(guī)劃，無法評估相關數(shù)據(jù)資源的有效性和必要性。

本文提出了一種針對知識邏輯結(jié)構(gòu)、資源內(nèi)容結(jié)構(gòu)和用戶知識背景結(jié)構(gòu)的知識關聯(lián)樹映射模型；提出了一種基于知識關聯(lián)樹的學習資源搜索、推薦和應用的模式；為支持針對個性化特征的學習路徑推薦，提出了一種基于知識背景和知識結(jié)構(gòu)相似度計算的推薦方法。

2 知識關聯(lián)樹模型設計

2.1 概念結(jié)構(gòu)建模

在網(wǎng)絡上，知識通過資源呈現(xiàn)出來，用戶通過資源的學習獲取知識，知識是抽象體，而數(shù)據(jù)資源是知識的承載體。在組織和應用上，要呈現(xiàn)出以下的相互關系或關聯(lián)：

（1）同系列的知識之間的層次關系。例如：通過廣義表描述“數(shù)據(jù)結(jié)構(gòu)”這門課程涵蓋的知識點之間的層次關系，數(shù)據(jù)結(jié)構(gòu)（線性表（棧（表達式求值，迷宮求解，數(shù)制轉(zhuǎn)換……），隊列（樹遍歷，圖遍歷……），串（……），數(shù)組（……），……），樹（二叉樹（遍歷，哈夫曼編碼，……），B 樹／B ＋樹（……），……），圖（……），……）。

（2）用戶（學生）具備或?qū)W習的專業(yè)領域的核心知識的層次關系。例如：用戶A（計算機（數(shù)據(jù)處理（數(shù)據(jù)結(jié)構(gòu)（搜索（算法（……），排序（……），……），……），數(shù)據(jù)庫（……），……），……），電子信息（……），……）。

（3）知識之間的聚合關聯(lián)。不同系列知識或不同課程之間，其知識點有部分是存在聚合關聯(lián)的，例如：“數(shù)據(jù)庫”和“數(shù)據(jù)結(jié)構(gòu)”這兩門課程中針對“排序”、“搜索”、“B 樹／B＋樹”等，又如“操作系統(tǒng)”和“數(shù)據(jù)結(jié)構(gòu)”中的“?！薄ⅰ瓣犃小钡?，這些知識點都存在聚合關聯(lián)，而這些關聯(lián)是同層次上的，但又屬于不同知識系列，即無向無序的。

（4）用戶（學生）之間基于領域知識的耦合關聯(lián)。在知識協(xié)同應用中，用戶需要共同完成一個任務，每位團隊成員有各自的職責，完成相應的子任務，成員在該任務中所需具備的核心領域知識是互補的、個體的，但整體上基于任務又是完整的，所以用戶之間基于核心領域知識映射在不同的結(jié)點上，是一種耦合關聯(lián)。

在應用過程中，存在用戶與知識結(jié)點之間、資源與知識結(jié)點之間以及用戶與資源之間3 類有向的量化關聯(lián)，其量化關聯(lián)可被描述為兩者之間的權(quán)重（系數(shù)）。

（1）用戶與知識結(jié)點之間的權(quán)重描述了用戶在其核心知識領域或?qū)W生對各知識掌握的需求程度；

（2）資源與知識結(jié)點之間的權(quán)重描述了數(shù)據(jù)資源涵蓋或?qū)ο鄳R點的支撐程度，也可以表示資源對學習相應知識點的有效程度；

（3）用戶與資源之間的權(quán)重描述了用戶（學生）對該資源在相應知識點的有效性評價，也可以表示對該資源的偏好程度。

2.2 邏輯結(jié)構(gòu)及形式化定義

為描述各結(jié)點之間的層次關系、耦合關聯(lián)、聚合關聯(lián)以及不同類別結(jié)點之間的量化關聯(lián)，整個模型知識結(jié)構(gòu)樹和關聯(lián)由兩個基本元素組成。

課程知識結(jié)構(gòu)樹是一棵深度為4 的多分支樹，由分支結(jié)點（第1 ～3 層結(jié)點）和葉子結(jié)點（第4 層結(jié)點）組成。其中，樹根結(jié)點（即第1 層）到第3 層上的分支結(jié)點統(tǒng)一被映射為：課程——基礎內(nèi)容分支——知識點分布，葉子結(jié)點（第4 層結(jié)點）為資源結(jié)點。T －課程知識結(jié)構(gòu)樹：

其中：分支結(jié)點t為一個四元組：t ＝（t，，，）；t為唯一標識樹結(jié)點的編號；為學科領域集；為知識點關鍵詞集；為知識點定義或文本描述。

葉子結(jié)點（資源） t為一個五元組：

其中，S為資源標號唯一標識的編碼；S為知識點關鍵詞集；S為資源描述；S為資源類別描述；S為資源存儲鏈接地址。

樹內(nèi)結(jié)點關聯(lián)R描述了T內(nèi)兩個結(jié)點之間的關聯(lián)屬性，用一個四元組表示：

其中，r為主結(jié)點（雙親結(jié)點）的編號；r為從結(jié)點（孩子結(jié)點）的編號；為兩者關聯(lián)程度權(quán)重；為關聯(lián)的類別（分支結(jié)點關聯(lián)或分支結(jié)點與葉子結(jié)點關聯(lián)兩種情況）。

用戶知識結(jié)構(gòu)樹

其中：u為用戶信息；

u成員；u年齡；u學歷；u所在單位及部門等；＜u，T ＞為描述用戶的專業(yè)領域，其掌握的核心知識及其對應的樹；R是用戶與技能關聯(lián)，描述用戶在每個核心知識上的能力以及對應的權(quán)重系數(shù)。

用戶資源關聯(lián)R＝（u，S，，），表示了用戶與資源之間的關聯(lián)信息。

其中，u為用戶的id 編碼；S為資源結(jié)點編碼；是用戶對資源的評價、評分等；則是由用戶對資源的評價、評分等核算的偏好程度權(quán)重。

知識學習協(xié)同樹(T，M，R) 。

其中，T為領域核心知識樹，描述各專業(yè)領域的主要核心知識結(jié)構(gòu)；M是有限集合，M ＝｛T ｜T，T，…，T｝是被拆分后子對應領域涵蓋的核心知識樹集；為拆分后的課程數(shù)；R為領域內(nèi)核心課程關聯(lián)，描述對應領域內(nèi)核心知識的組成及對應的權(quán)重系數(shù)（即對應知識點的重要程度描述）。

知識點聚合關聯(lián)R＝（K，t，C，），表示了課程間相近、類似或相同的知識點，能有效地描述課程群重復的知識點，能協(xié)同各課程學習中對知識點的學習時間的分配或掌握程度。

其中，K為聚合關聯(lián)；t為可聚合知識點集合；C是描述該聚合關聯(lián)的文本或知識點公認定義（有效定義）；為該知識點對聚合的關聯(lián)程度或貢獻度權(quán)重系數(shù)。

“用戶—課程知識結(jié)構(gòu)樹—資源—關聯(lián)”例子，如圖1 所示，描述了用戶（U20210123，梁家棟，……），專業(yè)領域（計算機，自動化），課程（數(shù)據(jù)結(jié)構(gòu)T，數(shù)據(jù)庫T，操作系統(tǒng)T，信號處理T），課程中知識點聚合關聯(lián)R（隊列，B 樹／B＋樹）以及相互關聯(lián)。

圖1 “用戶—課程知識結(jié)構(gòu)樹—資源—關聯(lián)”實例Fig.1 An example of user－ knowledge structure tree－resourcesrelation

3 知識關聯(lián)樹的運算及應用

3.1 構(gòu)建Tp－領域核心知識樹

領域核心知識樹是整個知識協(xié)同模型的核心元素，是各類聚類計算的基本單元。結(jié)合學科領域知識的標注，構(gòu)建領域核心知識樹的主要步驟如下：

（1）以《中華人民共和國國家標準學科分類與代碼》（GB／T 13745—2009）以及知網(wǎng)上的關鍵詞條作為結(jié)點核心關鍵字，新建領域核心知識樹中第1～2 層結(jié)點，同時以GB／T 13745—2009 對結(jié)點進行編碼，并完成“樹內(nèi)結(jié)點關聯(lián)”實現(xiàn)“雙親結(jié)點與孩子結(jié)點”之間的一對多映射關聯(lián)。

（2）通過網(wǎng)絡爬蟲，完成兩類基礎數(shù)據(jù)的爬取。

①以（1）中第1～2 層結(jié)點中的關鍵字為“核”，獲取當前知名高校的專業(yè)培養(yǎng)方案提綱及課程參考，構(gòu)建專業(yè)領域內(nèi)的核心課程；

②根據(jù)課程安排，以課程名為“核”，爬取相關課程的參考教程及其目錄，并以目錄為結(jié)點，構(gòu)建課程核心知識點結(jié)點。

“計算機科學與技術(shù)”專業(yè)領域核心知識樹實例，如圖2 所示，參照《中華人民共和國國家標準學科分類與代碼》（GB／T 13745－2009）對樹根節(jié)點和分支節(jié)點進行編碼，一方面對領域進行標準化分類，另一方面也方便并提高搜索樹中節(jié)點或路徑的效率。

圖2 “計算機科學與技術(shù)”專業(yè)領域核心知識樹Tp（部分）Fig.2 The part of the Tp of computer science and technology

3.2 構(gòu)建Tc－課程知識結(jié)構(gòu)樹

T－課程知識結(jié)構(gòu)樹是整個模型的核心結(jié)構(gòu)樹，是模型的交互層，實現(xiàn)上下層各實體之間的媒介，其上層實體是用戶、領域核心知識樹以及知識學習協(xié)同樹，下層實體主要有資源以及知識點聚合關聯(lián)R，對應的一個實例如圖1 所示。構(gòu)建T時，選取目前在相應課程上最為經(jīng)典的教程為模板，構(gòu)建基于該教程為基礎的課程知識結(jié)構(gòu)樹，其主要過程為：

（1）獲取教程的目錄結(jié)構(gòu)，將目錄按其大綱級別映射到結(jié)構(gòu)樹的第2～3 層的結(jié)點上，同時將其上下層關聯(lián)插入到樹內(nèi)結(jié)點關聯(lián)R中；

（2）標注第2 ～3 層分支結(jié)點中的數(shù)據(jù)域：“”和“”，同時為每個第3 層結(jié)點至少生成一個孩子結(jié)點t，并初始化該孩子結(jié)點。

圖3 為可視化生成的“數(shù)據(jù)結(jié)構(gòu)”知識結(jié)構(gòu)雷達樹圖和一般樹。

圖3 “數(shù)據(jù)結(jié)構(gòu)”知識結(jié)構(gòu)雷達樹圖和一般樹圖Fig.3 The knowledge structure tree of the course of data structure

3.3 發(fā)現(xiàn)知識點聚合關聯(lián)Rkc

根據(jù)開源分詞器—Jieba 實現(xiàn)以《中華人民共和國國家標準學科分類與代碼》（GB／T13745－2009）和具有公認性的詞條：“知網(wǎng)詞條”為核心，定義核心關鍵詞的自定義詞典，并以“單詞＿詞性＿詞頻”的格式加載到知識點聚合關聯(lián)運算中。

本文提出了基于標注關鍵詞相似度的知識點聚合關聯(lián)R。首先，計算出知識結(jié)構(gòu)樹中結(jié)點在核心關鍵詞的相似度；其次，以相似度值進行聚類；最后，以閥值進行過濾完成知識點聚合關聯(lián)。

3.3.1 計算核心詞的相似度

利用早期的研究成果對知識結(jié)構(gòu)樹中第三層結(jié)點中的數(shù)據(jù)域：“”中“研究領域核心詞”計算兩關鍵詞，的相似度。關鍵詞相似度函數(shù)公式(，) 定義為公式（1）：

其中，() 為兩關鍵詞，共同祖先節(jié)點所在的位置；() 和() 表示兩關鍵詞，在樹中的位置；() 和() 表示與兩關鍵詞，共同祖先節(jié)點的位置差； max ＿（）max （() ，() ），即() 和() 中的最大值。

3.3.2 以相似度值進行聚類

在詞相似度基礎上實現(xiàn)知識點聚合關聯(lián)度計算。將聚合關聯(lián)的知識點結(jié)構(gòu)及關鍵描述匹配的相似度轉(zhuǎn)化為對兩棵子樹的相似度計算，進而再轉(zhuǎn)化為結(jié)構(gòu)樹中各結(jié)點的數(shù)據(jù)域“”的相似度計算。沿用前期研究結(jié)果，其知識點聚合關聯(lián)度計算為公式（2）：

設t和t是分別待驗證聚合關聯(lián)的兩知識點結(jié)點（ T第3 層上的分支結(jié)點），k和k為結(jié)點數(shù)據(jù)域“”中關鍵詞的數(shù)量，＿＿表示t和t子樹包含的分支數(shù)。

其中，w和w為結(jié)點數(shù)據(jù)域“”描述詞集合中第，個關鍵詞，計算子式maxsim（w，w）表示相似度取在描述關鍵詞集內(nèi)詞相似度(，) 的最大值。

3.3.3 知識點聚合關聯(lián)

根據(jù)經(jīng)驗設定閥值，通常以課程與專業(yè)需求聯(lián)系緊密度作為權(quán)重值參考，檢索不同課程T第3 層上的分支結(jié)點的關鍵字，并按公式（2）計算不同課程間相應分支結(jié)點的相似度，當(t，t) ≥時，則產(chǎn)生對應結(jié)點的知識點聚合關聯(lián)，并生成R記錄。

依照上述過程對不同科目中相關相似或重復的知識點進行聚類分析，并形成知識點聚合關聯(lián)R。計算機專業(yè)課程群知識點聚合關聯(lián)R（部分）實例如圖4 所示。

圖4 計算機專業(yè)課程群知識點聚合關聯(lián)（部分）例子Fig.4 The aggregation and association of knowledge points Rkc in the computer professional curriculum group

通過分析各知識點的核心關鍵詞以及主要內(nèi)容文本描述，實現(xiàn)對課程群知識點聚合關聯(lián)的數(shù)據(jù)挖掘。如圖4 所示，通過對《高級語言程序設計（C 語言）》、《數(shù)據(jù)結(jié)構(gòu)》、《操作系統(tǒng)》、《數(shù)據(jù)庫系統(tǒng)原理》和《離散數(shù)學》的知識點分析，挖掘出4 個知識點聚合關聯(lián)分別為： R—向量及應用、 R—指針及應用、R—棧與隊列及應用和R—關系代數(shù)理論，并以可視化方式呈現(xiàn)所聚合關聯(lián)的知識點集合。

3.4 學習路徑映射應用

依據(jù)發(fā)現(xiàn)知識點聚合關聯(lián)過程，在學習路徑映射上，首先按照學習目標或職位需求，基于知識關聯(lián)樹邏輯結(jié)構(gòu)，構(gòu)建對應的專業(yè)知識／技能圖譜，通過圖譜上的核心關鍵詞，利用公式（1）和公式（2）進行知識點聚合關聯(lián)運算，完成庫內(nèi)知識關聯(lián)樹的檢索，并生成基于該圖譜的學習路徑映射集。

如圖5 所示，以“大數(shù)據(jù)專業(yè)工程師”專業(yè)知識／技能圖譜為索引，通過知識點聚合關聯(lián)運算，可以找到對應的學習路徑映射集：“專業(yè)理論基礎知識”（知識點1（鏈表，棧，隊列，棧與隊列，線性表，單鏈表，循環(huán)鏈表），知識點2（快速排序，堆排序，插入排序，內(nèi)部排序，快速排序算法，插入排序法）……），“技能應用”（技能1（高級程序設計（Java），Java／Scala，Spark，Hadoop）……）。

圖5 學習路徑映射應用——大數(shù)據(jù)專業(yè)工程師（部分）實例Fig.5 A part of the learning path mapping for big data professional engineers

通過得到的學習路徑映射集合，構(gòu)建以知識點和技能為結(jié)點的有向無環(huán)圖，完成基于知識關聯(lián)樹的學習路徑規(guī)劃，并推薦給學習者。

4 結(jié)束語

個性化精準教育是大數(shù)據(jù)技術(shù)支持下一種基于多領域知識與技術(shù)融合的知識協(xié)同培養(yǎng)模式。本文將知識圖譜和大數(shù)據(jù)資源管理技術(shù)相結(jié)合，構(gòu)建一種基于知識關聯(lián)樹的知識服務體系，提出融合“知識”、“資源”、“用戶”和“服務”4 個核心要素，構(gòu)建知識結(jié)構(gòu)與資源關聯(lián)。結(jié)合用戶學習需求，將需求映射到領域核心知識結(jié)構(gòu)樹，為用戶推薦精準的學習路徑（相關聯(lián)的核心知識集）和數(shù)據(jù)資源。

為完善基于知識關聯(lián)樹的知識服務體系，要實現(xiàn)“知識點聚合關聯(lián)的數(shù)據(jù)挖掘”的智能化及自動化，完成基于任務式的知識協(xié)同學習智能推薦和自動量化—“知識點之間的關聯(lián)度”、“資源對知識點的支持度”以及“用戶對知識點和資源的偏好”等是當前的研究熱點也是下一步主要的研究工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡