国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶畫像的學(xué)習(xí)資源推送服務(wù)模型

2023-03-05 09:37:02
關(guān)鍵詞:特征向量關(guān)聯(lián)聚類

劉 波

(南京工業(yè)職業(yè)技術(shù)大學(xué)計(jì)算機(jī)與軟件學(xué)院,南京 210023)

在互聯(lián)網(wǎng)快速發(fā)展的背景下,網(wǎng)絡(luò)學(xué)習(xí)成為人們獲取知識(shí)和技能的重要方式。然而,由于網(wǎng)絡(luò)學(xué)習(xí)資源的豐富性和復(fù)雜性,用戶面臨的主要問題是如何快速地找到適合的學(xué)習(xí)資源。通過分析用戶的興趣和行為向用戶推薦相關(guān)的學(xué)習(xí)資源,可以提高用戶的學(xué)習(xí)效率,但傳統(tǒng)的推薦系統(tǒng)存在推薦結(jié)果精度不高、推薦信息過載等問題,影響推薦系統(tǒng)的實(shí)際應(yīng)用效果?;谟脩舢嬒竦耐扑]方法能提高推薦系統(tǒng)的精度和效率。[1]用戶畫像是指根據(jù)用戶的行為、偏好、興趣等信息對(duì)用戶進(jìn)行特征提取和描述,進(jìn)而建立用戶模型。基于用戶畫像的推薦系統(tǒng)能夠更好地理解用戶需求和行為,并能夠更準(zhǔn)確地向用戶推薦相關(guān)的學(xué)習(xí)資源。本文提出了一種基于用戶畫像的學(xué)習(xí)資源推送服務(wù)模型,旨在提高學(xué)習(xí)資源的推薦精度和效率。

1 面向?qū)W習(xí)過程的推薦策略

在學(xué)習(xí)前的冷啟動(dòng)[2]階段,推薦系統(tǒng)中沒有用戶行為習(xí)慣的歷史數(shù)據(jù),必須通過收集用戶的個(gè)人信息和偏好等數(shù)據(jù)(如年齡、性別、學(xué)科、興趣愛好等)來建立用戶畫像,并根據(jù)用戶畫像為之推薦適合的學(xué)習(xí)資源。其中,適合度可以通過計(jì)算學(xué)習(xí)資源與用戶畫像之間的相似度來確定,常用的相似度計(jì)算方法包括余弦相似度[3]、皮爾遜相關(guān)系數(shù)[4]等。學(xué)習(xí)過程中用戶產(chǎn)生行為習(xí)慣后,推薦系統(tǒng)可以根據(jù)用戶的行為數(shù)據(jù)(如點(diǎn)擊、收藏、評(píng)分等)來分析用戶的興趣和偏好,并為用戶推薦更符合其興趣和偏好的學(xué)習(xí)資源。此時(shí),推薦系統(tǒng)可以采用協(xié)同過濾、基于內(nèi)容的推薦等算法來進(jìn)行推薦。因此,要提高推薦效果和用戶滿意度,學(xué)習(xí)資源推送服務(wù)需要根據(jù)用戶學(xué)習(xí)前和學(xué)習(xí)中的不同需求采用不同的推薦策略?;诖?,本文采用了兩階段推薦服務(wù)策略。

1.1 基于關(guān)聯(lián)規(guī)則的推薦策略

第一階段主要采用基于關(guān)聯(lián)規(guī)則的推薦策略。推薦服務(wù)需要根據(jù)用戶的注冊信息、學(xué)科領(lǐng)域、興趣愛好等信息,根據(jù)預(yù)置推薦規(guī)則為用戶提供一系列適合他們的學(xué)習(xí)資源,幫助用戶制定學(xué)習(xí)計(jì)劃和提前準(zhǔn)備學(xué)習(xí)所需的知識(shí)和技能,提高學(xué)習(xí)的效率和質(zhì)量。而關(guān)聯(lián)規(guī)則是一種在大規(guī)模數(shù)據(jù)集中發(fā)現(xiàn)項(xiàng)之間關(guān)系的方法。首先,通過關(guān)聯(lián)規(guī)則算法找到一些項(xiàng)之間頻繁出現(xiàn)的關(guān)系,[5]并將這些關(guān)系轉(zhuǎn)化為推薦規(guī)則,然后生成用戶特征向量和學(xué)習(xí)資源向量,隨后進(jìn)行相關(guān)度計(jì)算,最后根據(jù)計(jì)算結(jié)果生成推薦結(jié)果。

這一階段,由于系統(tǒng)中缺乏用戶學(xué)習(xí)行為的既有記錄,主要依據(jù)學(xué)習(xí)檔案中的用戶信息和資源數(shù)據(jù)庫中的資源特征信息來進(jìn)行推薦,故需要構(gòu)建匹配映射服務(wù)模型,采用基于關(guān)聯(lián)規(guī)則的推薦服務(wù)策略為用戶推薦定制的學(xué)習(xí)資源。具體步驟為:

1) 規(guī)則集構(gòu)建。規(guī)則集構(gòu)建需要根據(jù)學(xué)科知識(shí)點(diǎn)邏輯和層次結(jié)構(gòu)分析不同用戶特征,制定一系列相關(guān)的規(guī)則集。本文規(guī)則集構(gòu)建方法如下:設(shè)有學(xué)習(xí)資源數(shù)據(jù)庫D,用戶學(xué)習(xí)檔案P,閾值min_sup,規(guī)則集合R。①為每個(gè)學(xué)習(xí)資源d(d∈D)抽取特征向量fd,其中包括學(xué)科領(lǐng)域、難度、知識(shí)點(diǎn)等信息。②根據(jù)用戶學(xué)習(xí)檔案P生成特征向量fp,其中包括用戶的學(xué)科偏好、難度偏好、學(xué)習(xí)時(shí)間等信息。③初始化規(guī)則集合R為空。④對(duì)于每個(gè)學(xué)科領(lǐng)域c,執(zhí)行以下步驟:先從學(xué)習(xí)資源數(shù)據(jù)庫D中找到所有學(xué)科領(lǐng)域?yàn)閏的學(xué)習(xí)資源Dc。計(jì)算每個(gè)學(xué)科領(lǐng)域c中的學(xué)習(xí)資源d(d∈Dc)與用戶學(xué)習(xí)檔案P的相關(guān)度sup(d,P),見式(1)。

式(1)中n是特征向量的長度,wi是特征向量中第i個(gè)特征的權(quán)重,fd,i和fp,i分別是學(xué)習(xí)資源d和用戶學(xué)習(xí)檔案P中的第i個(gè)特征向量。本文采用余弦相似度計(jì)算用戶特征向量和學(xué)習(xí)資源向量之間的相關(guān)度。余弦相似度是一種常見的用以比較兩個(gè)向量相似程度的計(jì)算方法,計(jì)算式見式(2)。

式(2)中A和B是n維空間的兩個(gè)向量,A= (x1,x2,…,xn),B= (y1,y2,…,yn),θ表示向量A和B在向量空間中的夾角。通過計(jì)算θ的余弦值可得到向量A和B的相似度值,用于度量它們之間的相似程度。當(dāng)cosθ值接近1 時(shí),表示兩個(gè)向量非常相似;當(dāng)cosθ值接近0 時(shí),表示兩個(gè)向量相似度較低;當(dāng)cosθ值接近-1 時(shí),表示兩個(gè)向量完全相反。然后,對(duì)每對(duì)學(xué)習(xí)資源d1,d2∈Dc進(jìn)行判定,如果sup(d1,P)>min_sup、sup(d2,P)>min_sup,且d1和d2之間存在某種關(guān)聯(lián)規(guī)則,則將該關(guān)聯(lián)規(guī)則加入規(guī)則集合R中。⑤對(duì)規(guī)則集合R進(jìn)行整理和優(yōu)化,最后得到更新后的規(guī)則集合R'。

2) 生成用戶信息的特征向量。依據(jù)學(xué)習(xí)檔案中的用戶信息(如注冊信息、學(xué)科領(lǐng)域、興趣愛好等)生成用戶的特征向量。[6]采用向量空間模型生成特征向量,即將每個(gè)用戶特征映射為一個(gè)特征維度,將用戶特征用向量形式表示。本文生成用戶特征向量的方法如下:①定義特征空間。根據(jù)用戶信息確定特征空間,即將每個(gè)用戶特征映射為一個(gè)特征維度。假設(shè)特征空間的維度為n。②構(gòu)建“用戶—特征”矩陣。將學(xué)習(xí)檔案中的用戶信息表示為一個(gè)“用戶—特征”矩陣M,其中每一行代表一個(gè)用戶,每一列代表一個(gè)特征維度。假設(shè)用戶數(shù)量為m,特征的數(shù)量為n,則M的大小為m×n。③計(jì)算特征權(quán)重。計(jì)算每個(gè)特征維度i在所有用戶中出現(xiàn)的頻率df(i),即文檔頻率(document frequency),并計(jì)算該特征維度的idf(i),即逆文檔頻率(inverse document frequency),idf (i) = ln。特征維度i的權(quán)重w(i)用TF-IDF(term frequency-inverse document frequency,詞頻—逆文檔頻率,簡稱TF-IDF)算法計(jì)算,即w(i)= tf(i,j)×idf(i),其中tf(i,j)表示用戶j中維度i的出現(xiàn)頻率。④生成特征向量。先將“用戶—特征”矩陣M轉(zhuǎn)置為“特征—用戶”矩陣M'。其中,每一行代表一個(gè)特征維度,每一列代表一個(gè)用戶。再對(duì)每個(gè)用戶根據(jù)特征維度上的權(quán)重w(i)組成一個(gè)向量,表示該用戶在所有特征維度上的權(quán)重向量,該向量即為用戶的特征向量。 具體地,若特征維度的數(shù)量為n,用戶特征向量的長度為m,則用戶u的特征向量為vu= [w1,w2,...,wm],其中wi表示用戶n在特征維度i上的權(quán)重。

3) 生成學(xué)習(xí)資源的特征向量。從學(xué)習(xí)資源庫中抽取內(nèi)容屬性進(jìn)行加權(quán),并用向量表征。學(xué)習(xí)資源的內(nèi)容屬性可以包括標(biāo)題、作者、描述、標(biāo)簽等。加權(quán)采用TF-IDF[7]等方法,將重要性較高的內(nèi)容屬性賦予更高的權(quán)重,生成學(xué)習(xí)資源特征向量。對(duì)于學(xué)習(xí)資源數(shù)據(jù)庫D,假設(shè)抽取的內(nèi)容屬性集合T,則本文生成學(xué)習(xí)資源特征向量的方法如下:①針對(duì)每個(gè)學(xué)習(xí)資源d∈D,構(gòu)建對(duì)應(yīng)的特征向量vd。②對(duì)于每個(gè)抽取的內(nèi)容屬性t∈T,計(jì)算這一屬性在d中出現(xiàn)的頻率f(d,t)以及在D中出現(xiàn)的文檔頻率df(t)。③使用TF-IDF 加權(quán)方法對(duì)f(d,t)進(jìn)行加權(quán),得到屬性權(quán)重w(d,t),見式(3)。

式(3)中tf(d,t)為學(xué)習(xí)資源d中屬性t出現(xiàn)的頻率,idf(t)為屬性t的逆文檔頻率,,其中N為學(xué)習(xí)資源庫D中的總文檔數(shù)。④將所有屬性的加權(quán)結(jié)果w(d,t)組成一個(gè)向量vd,即vd=[w(d,t1),w(d,t2),…,w(d,tn)],其中n為屬性集合T的大小。⑤將vd歸一化,即除以向量長度‖vd‖,得到歸一化后的學(xué)習(xí)資源特征向量vd_norm,即。⑥將歸一化后的學(xué)習(xí)資源特征向量vd_norm加入特征向量集合V中,輸出特征向量集合V,其中每個(gè)學(xué)習(xí)資源d對(duì)應(yīng)一個(gè)特征向量vd_norm。

4) 相關(guān)度計(jì)算及推薦結(jié)果生成。根據(jù)設(shè)定好的規(guī)則,計(jì)算用戶特征向量和學(xué)習(xí)資源向量的相關(guān)度。在推薦系統(tǒng)中,當(dāng)計(jì)算出用戶特征資源與學(xué)習(xí)資源之間的余弦相似度后,可以將相似度最大的學(xué)習(xí)資源推薦給用戶,作為該用戶可能感興趣的學(xué)習(xí)資源。最后,將計(jì)算出來的相關(guān)度進(jìn)行排序,選取前幾個(gè)相關(guān)度高的學(xué)習(xí)資源,生成推薦列表向用戶展示。

1.2 基于多維度關(guān)聯(lián)的推薦策略

在第二階段,采用基于多維度關(guān)聯(lián)的推薦策略對(duì)推薦結(jié)果進(jìn)行更新和優(yōu)化。多維度關(guān)聯(lián)推薦策略是指將多個(gè)維度的信息進(jìn)行整合,從而提高系統(tǒng)的推薦精度和效率。多維度關(guān)聯(lián)推薦策略包括基于用戶興趣偏好、時(shí)間因素、社交網(wǎng)絡(luò)等維度的推薦?;谟脩襞d趣偏好的推薦是指根據(jù)用戶的歷史行為和偏好,向用戶推薦類似的學(xué)習(xí)資源。[8]多維度關(guān)聯(lián)推薦策略的目標(biāo)是整合多個(gè)維度的信息,從而提高推薦系統(tǒng)的準(zhǔn)確性和效率。這種策略需要根據(jù)不同的場景和應(yīng)用,選擇合適的維度和算法進(jìn)行推薦。具體來說,需要進(jìn)行學(xué)習(xí)行為記錄和用戶檔案更新,以及用戶和資源的聚類和分類,最后根據(jù)聚類和分類結(jié)果進(jìn)行推薦結(jié)果生成和優(yōu)化。這一階段,推薦系統(tǒng)會(huì)根據(jù)用戶的學(xué)習(xí)活動(dòng)和評(píng)價(jià)反饋更新用戶檔案和學(xué)習(xí)行為記錄,以便更好地了解用戶的個(gè)性化需求[9]和學(xué)習(xí)興趣。推薦系統(tǒng)將用戶行為和反饋信息存儲(chǔ)到學(xué)習(xí)行為記錄數(shù)據(jù)庫中,并將這些信息用于調(diào)整用戶模型和資源模型,以便更好地為用戶提供個(gè)性化的推薦服務(wù)。

1) 學(xué)習(xí)行為記錄和用戶檔案的更新。將新的學(xué)習(xí)行為和反饋信息添加到學(xué)習(xí)行為記錄數(shù)據(jù)庫中,并使用這些信息來更新用戶檔案和學(xué)習(xí)行為記錄。例如,記錄用戶觀看的視頻或完成的任務(wù),根據(jù)這些行為分析用戶喜好和偏好,以更好地理解他們的學(xué)習(xí)需求和興趣。在本文中,用戶數(shù)據(jù)的更新過程為:①通過推薦系統(tǒng)的前端頁面,實(shí)時(shí)監(jiān)測用戶在學(xué)習(xí)平臺(tái)上的行為,例如觀看視頻、完成練習(xí)等情況。②將用戶的行為記錄下來,包括觀看的視頻名稱、視頻的播放時(shí)間、完成的練習(xí)名稱、練習(xí)的得分等。③通過對(duì)用戶行為的記錄進(jìn)行分析,獲取用戶的興趣和偏好,例如用戶偏愛哪些類型的視頻,在哪些練習(xí)上表現(xiàn)更好等。④將用戶的個(gè)人信息和學(xué)習(xí)行為記錄整合到用戶檔案中,包括用戶的基本信息(年齡、性別、學(xué)習(xí)能力等)和學(xué)習(xí)行為記錄(觀看歷史、評(píng)價(jià)記錄等),并更新這些信息。⑤將用戶的行為記錄和檔案信息存儲(chǔ)到學(xué)習(xí)行為記錄數(shù)據(jù)庫中,以便后續(xù)分析和推薦服務(wù)使用。⑥基于用戶的學(xué)習(xí)行為記錄和個(gè)人信息,更新用戶模型,以便更好地理解用戶的個(gè)性化需求和學(xué)習(xí)興趣。使用機(jī)器學(xué)習(xí)算法分析用戶的行為記錄,預(yù)測用戶在未來可能感興趣的學(xué)習(xí)資源,并對(duì)用戶的興趣和偏好進(jìn)行分類和聚類。

2) 用戶聚類和資源分類。聚類算法是將具有相似特征的用戶或資源歸為同一組的過程,對(duì)于用戶的聚類,可以使用基于行為的聚類方法,將具有相似學(xué)習(xí)行為的用戶歸為同一組。本文主要采用K-means聚類算法,它是一種無監(jiān)督學(xué)習(xí)算法,用于將一組數(shù)據(jù)分成K個(gè)類別,基本思想是通過最小化每個(gè)數(shù)據(jù)點(diǎn)與其所屬聚類中心的距離來劃分?jǐn)?shù)據(jù)。K-means 聚類算法的公式為:,其中J為聚類效果的評(píng)估指標(biāo),K為聚類的個(gè)數(shù),Si為第i個(gè)聚類,x為數(shù)據(jù)點(diǎn),ci為第i個(gè)聚類的中心點(diǎn)。使用K-means 聚類算法對(duì)用戶的瀏覽歷史、學(xué)習(xí)記錄和評(píng)價(jià)記錄進(jìn)行聚類,從而將具有相似學(xué)習(xí)行為的用戶歸為同一組,這樣可以更好地理解用戶的興趣和需求,使推薦系統(tǒng)能提供更精確的推薦服務(wù)。

分類算法是將用戶或資源分為不同的類別,本文主要使用樸素貝葉斯算法對(duì)學(xué)習(xí)資源的文本內(nèi)容進(jìn)行分類,以便對(duì)相似的資源進(jìn)行推薦。具體的分類步驟如下:①收集學(xué)習(xí)資源的文本內(nèi)容數(shù)據(jù),并劃分為訓(xùn)練集和測試集。②對(duì)訓(xùn)練集中的文本內(nèi)容使用中文分詞工具Jieba[10](結(jié)巴分詞)進(jìn)行分詞處理,去除停用詞和標(biāo)點(diǎn)符號(hào),得到詞語列表。③根據(jù)訓(xùn)練集中的分類標(biāo)簽,計(jì)算每個(gè)類別下各個(gè)詞語的出現(xiàn)頻率,得到每個(gè)類別的詞語頻率列表。④根據(jù)訓(xùn)練集中的分類標(biāo)簽,計(jì)算每個(gè)類別的文檔數(shù)量、總文檔數(shù)量以及每個(gè)詞語在所有文檔中出現(xiàn)的總次數(shù)和總詞語數(shù)。⑤根據(jù)貝葉斯公式,計(jì)算每個(gè)詞語在每個(gè)類別下的條件概率,并計(jì)算每個(gè)文檔屬于每個(gè)類別的概率。⑥對(duì)測試集中的每個(gè)文檔進(jìn)行分詞處理,根據(jù)概率值將文檔分至最有可能的類別里。⑦根據(jù)分類結(jié)果推薦與測試集中文檔相似的資源給用戶。

3) 推薦結(jié)果生成和優(yōu)化。根據(jù)用戶聚類和資源分類的結(jié)果,可以針對(duì)不同的用戶和資源群體生成不同的推薦結(jié)果。對(duì)于具有相似學(xué)習(xí)行為的用戶群體,可以推薦具有相似內(nèi)容的學(xué)習(xí)資源。對(duì)于具有相似內(nèi)容的資源群體,可以推薦給具有相似興趣愛好的用戶。推薦系統(tǒng)將根據(jù)用戶的反饋信息持續(xù)優(yōu)化推薦結(jié)果,當(dāng)用戶對(duì)推薦結(jié)果進(jìn)行評(píng)價(jià)時(shí),根據(jù)評(píng)價(jià)信息對(duì)推薦結(jié)果進(jìn)行調(diào)整和優(yōu)化,以進(jìn)一步提高推薦服務(wù)的準(zhǔn)確性和個(gè)性化程度。同時(shí),推薦系統(tǒng)將對(duì)用戶的反饋信息進(jìn)行分析,進(jìn)一步了解用戶的需求和興趣,以提供更加有針對(duì)性的推薦服務(wù)。

2 試驗(yàn)與分析

2.1 數(shù)據(jù)集

本文使用了Coursera[11]在線學(xué)習(xí)平臺(tái)的公開數(shù)據(jù)集,其中包含用戶的個(gè)人信息、學(xué)習(xí)行為記錄和學(xué)習(xí)資源的屬性信息,并從中選取了10 萬條學(xué)生行為數(shù)據(jù)和1 000 個(gè)課程資源作為訓(xùn)練數(shù)據(jù)。

2.2 試驗(yàn)結(jié)果

對(duì)基于關(guān)聯(lián)規(guī)則和基于多維度關(guān)聯(lián)的推薦服務(wù)策略的效果進(jìn)行對(duì)比試驗(yàn),結(jié)果見表1,其中用戶行為數(shù)據(jù)是指用戶的學(xué)習(xí)行為(包括資源點(diǎn)擊率、觀看時(shí)長、學(xué)習(xí)資源類別偏好),用戶反饋數(shù)據(jù)是指用戶對(duì)推薦結(jié)果的評(píng)價(jià)和滿意度。由表1 可知,實(shí)驗(yàn)組B(基于多維度關(guān)聯(lián)的推薦策略)相較于實(shí)驗(yàn)組A(基于關(guān)聯(lián)規(guī)則的推薦策略),在點(diǎn)擊率、觀看時(shí)長和滿意度等指標(biāo)上表現(xiàn)更好,故基于多維度關(guān)聯(lián)推薦策略的推薦服務(wù)能夠根據(jù)用戶的學(xué)習(xí)行為和反饋信息更準(zhǔn)確地提供個(gè)性化的推薦結(jié)果。

表1 基于關(guān)聯(lián)規(guī)則的和基于多維度關(guān)聯(lián)的推薦策略對(duì)比試驗(yàn)

3 結(jié)語

本文所提出的模型可以應(yīng)用于各種在線學(xué)習(xí)平臺(tái)、教育培訓(xùn)機(jī)構(gòu)、企業(yè)內(nèi)部培訓(xùn)等場景,幫助用戶快速找到符合自己個(gè)性化需求的學(xué)習(xí)資源,提高學(xué)習(xí)效率和學(xué)習(xí)興趣,后期可以通過不斷改進(jìn)和優(yōu)化提高推薦的準(zhǔn)確性和效率。

猜你喜歡
特征向量關(guān)聯(lián)聚類
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
一類特殊矩陣特征向量的求法
奇趣搭配
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
智趣
讀者(2017年5期)2017-02-15 18:04:18
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
镇坪县| 沂南县| 彭水| 原平市| 宝清县| 黄大仙区| 沙坪坝区| 鹤壁市| 苗栗县| 东安县| 兰州市| 连江县| 惠州市| 昭通市| 皋兰县| 宕昌县| 页游| 加查县| 同仁县| 定结县| 鲁甸县| 衡南县| 龙海市| 兴和县| 东宁县| 宣化县| 介休市| 云林县| 天门市| 兴和县| 城口县| 丹东市| 石渠县| 东乡县| 佛学| 平潭县| 明星| 桐柏县| 施秉县| 湘潭市| 永丰县|