国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題概率分布模型的個性化信息推薦系統(tǒng)研究

2024-09-25 00:00:00豆志磊金潔潔
河南科技 2024年15期

摘 要:【目的】傳統(tǒng)基于相似度計算的個性化信息推薦系統(tǒng)因算力要求過高、推薦時滯過長等問題,致使其無法在中小型新聞圖情領(lǐng)域得到廣泛的普及。為了幫助中小型新聞圖情機構(gòu)以較低的成本開展個性化信息的精準推薦服務(wù),構(gòu)建了一套基于主題概率分布模型的個性化信息推薦系統(tǒng)?!痉椒ā客ㄟ^數(shù)據(jù)采集技術(shù)實現(xiàn)原始數(shù)據(jù)語料的采集;通過LDA模型訓(xùn)練實現(xiàn)原始文本信息的分類;通過將用戶信息代入LDA模型訓(xùn)練獲取用戶主題畫像;將用戶主題畫像與文本信息分類相結(jié)合實現(xiàn)個性化信息推薦?!窘Y(jié)果】經(jīng)試驗驗證,該系統(tǒng)推薦時效強,可達毫秒級。通過與用戶閱讀記錄進行比較,該系統(tǒng)的推薦結(jié)果均符合用戶興趣主題,具有較高的推薦精準度?!窘Y(jié)論】該基于主題概率分布模型的個性化信息推薦系統(tǒng),能夠幫助中小型新聞圖情機構(gòu)以較低的成本開展個性化信息精準推薦服務(wù),具有一定的應(yīng)用價值。

關(guān)鍵詞:LDA主題模型;主題概率分布模型;個性化信息推薦;系統(tǒng)設(shè)計與實現(xiàn)

中圖分類號:TP391.3 文獻標志碼:A 文章編號:1003-5168(2024)15-0012-05

DOI:10.19968/j.cnki.hnkj.1003-5168.2024.15.003

Research on Personalized Information Recommendation System Based on Subject Probability Distribution Model

DOU Zhilei1 JIN Jiejie2

(1. Luohe Vocational Technology College, Luohe 462000, China;

2.Luohe Medical College, Luohe 462000, China)

Abstract: [Purposes] The traditional personalized information recommendation system based on similarity calculation can not be widely used in the field of small and medium-sized news picture because of the high requirement of computing power and time delay of recommendation. This paper constructs a personalized information recommendation system based on subject probability distribution model to help small and medium-sized news organizations to carry out personalized information accurate recommendation service with lower cost. [Methods] The data collection technology was used to collect the original data corpus; LDA model training was used to classify the original text information; the user's subject portrait was obtained by substituting user's information into LDA model training results; the personalized information recommendation is realized by combining user subject portrait with text information classification. [Findings] the experimental results showed that the system had a strong recommendation time, which could reach the millisecond level. Compared with the reading records of users, the recommendation results were in accordance with user's interest topics, and had a high recommendation accuracy. [Conclusions] The personalized information recommendation system based on topic probability distribution model can help small and medium-sized news picture and information organizations to develop personalized information accurate recommendation service with lower cost, which has certain application value.

Keywords: LDA subject model; subject probability distribution model; personalized information recommendation; system design and implementation

0 引言

隨著數(shù)字化和網(wǎng)絡(luò)化的普及,信息產(chǎn)生的速度遠超人們處理信息的能力。人們不僅要面對來自傳統(tǒng)媒體的新聞、廣告,還要應(yīng)對社交媒體、博客、論壇等平臺上不斷更新的內(nèi)容。信息過載不僅會導(dǎo)致人們難以找到真正有價值的信息,而且會引起人們陷入信息恐慌、信息焦慮。隨著生活水平的提高,人們對于個性化和定制化服務(wù)的需求也越來越高。用戶希望無論是在生活方面,還是娛樂方面等,都能獲得符合自己興趣、偏好和需求的內(nèi)容。在數(shù)智時代,伴隨著大數(shù)據(jù)、云計算、人工智能等技術(shù)快速發(fā)展,個性化信息推薦系統(tǒng)應(yīng)運而生,并在社會的各個領(lǐng)域,特別是電商、新聞、咨詢領(lǐng)域得到了廣泛的應(yīng)用。通過構(gòu)建個性化推薦系統(tǒng),可以很好地解決信息過載問題,幫助用戶從海量的數(shù)據(jù)中快速找到所感興趣的內(nèi)容,提升用戶體驗,進而緩解信息過載與用戶個性化信息需求之間的矛盾。

1 傳統(tǒng)個性化推薦算法

1.1 協(xié)同過濾算法的基本原理

協(xié)同過濾算法是一種在個性化推薦系統(tǒng)中最為廣泛應(yīng)用的算法,其核心思想在于“物以類聚、人以群分”,即利用群體的智慧(興趣相投或擁有共同經(jīng)驗的群體喜好)來為用戶推薦感興趣的內(nèi)容[1]。其通過分析用戶的行為數(shù)據(jù),如購買記錄、瀏覽歷史、評分等,找出與當(dāng)前用戶興趣相似的其他用戶,或者找出與當(dāng)前用戶喜歡的物品所相似的其他物品,然后基于這些相似性進行個性化信息或物品推薦。

協(xié)同過濾算法的原理主要基于兩點:一是相似性計算,二是推薦生成。首先,算法需要收集用戶的行為數(shù)據(jù),并通過計算用戶之間的相似性(基于用戶的協(xié)同過濾)或物品之間的相似性(基于物品的協(xié)同過濾)來找出相似度較高的用戶或物品。相似性計算通常使用余弦相似度、皮爾遜相關(guān)系數(shù)等方法[2]。其次,基于計算出的相似性,算法會為用戶生成推薦列表。在基于用戶的協(xié)同過濾中,算法會找到與目標用戶最相似的k個用戶,并推薦這k個用戶喜歡的、但目標用戶尚未接觸過的物品。而在基于物品的協(xié)同過濾中,算法會找到與目標用戶喜歡的物品最相似的物品進行推薦。

1.2 協(xié)同過濾算法的特點與不足

協(xié)同過濾算法的特點主要體現(xiàn)在個性化推薦、易于實現(xiàn)和可擴展性上[3]。首先,協(xié)同過濾算法能夠根據(jù)用戶的歷史行為數(shù)據(jù)進行個性化推薦,滿足不同用戶的個性化需求;其次,協(xié)同過濾算法的原理相對簡單,易于實現(xiàn)和部署,適用于各種規(guī)模的推薦系統(tǒng);最后,協(xié)同過濾算法具有很好的可擴展性,可以應(yīng)用于各種領(lǐng)域和場景,如電商、視頻、音樂等。通過不斷收集用戶的行為數(shù)據(jù),協(xié)同過濾算法能夠不斷優(yōu)化推薦結(jié)果,提高用戶的滿意度。

盡管協(xié)同過濾算法具有很多優(yōu)點,但也存在一些不足之處。一是數(shù)據(jù)稀疏性問題[4]。由于用戶的行為數(shù)據(jù)通常是相對稀疏的,即大部分用戶只對少數(shù)物品產(chǎn)生了行為,這可能導(dǎo)致算法難以找到足夠的相似用戶或物品,從而影響推薦的準確性。二是冷啟動問題。協(xié)同過濾算法一定程度上依賴于用戶的歷史行為數(shù)據(jù),當(dāng)推薦系統(tǒng)剛剛啟動或者新加入了用戶或物品時,由于缺乏足夠的歷史數(shù)據(jù),協(xié)同過濾算法很難進行準確的推薦[5]。三是響應(yīng)時滯問題。隨著用戶和物品的增加,協(xié)同過濾算法的計算復(fù)雜度會呈指數(shù)級增長。由于協(xié)同過濾算法需要不斷計算用戶之間或項目之間的相似度,因此會造成其在大規(guī)模數(shù)據(jù)集上的性能下降,致使系統(tǒng)出現(xiàn)延遲甚至崩潰,無法滿足用戶實時性響應(yīng)的要求。

1.3 傳統(tǒng)個性化推薦算法普及的主要障礙

響應(yīng)時滯問題是影響協(xié)同過濾算法無法得到廣泛普及的主要障礙。對于大型企業(yè)而言,可以采用一些分布式計算技術(shù),如MapReduce、Spark等來提高算法的可伸縮性和處理大規(guī)模數(shù)據(jù)集的能力,保障基于協(xié)同過濾算法的個性化推薦系統(tǒng)能夠順利運行。但通過提高算力來解決個性化推薦系統(tǒng)需要持續(xù)投入大量的人力、技術(shù)、設(shè)備和金錢。從經(jīng)濟方面來看,上述投入遠遠超過了中小型新聞圖情信息服務(wù)機構(gòu)的可承受范圍,致使個性化推薦系統(tǒng)在中小型新聞圖情信息服務(wù)機構(gòu)中并未得到普及?;诖耍狙芯苛肀脔鑿?,采用LDA模型構(gòu)建了一套基于主題概率模型的個性化信息推薦系統(tǒng),以期能夠幫助中小型新聞圖情機構(gòu)以較低成本開展個性化信息精準推薦服務(wù)。

2 主題概率分布模型——LDA主題模型

2.1 LDA主題模型簡介

隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)是當(dāng)前最為常用的主題概率分析模型,由David M.Blei、Andrew Y.Ng、Michael I.Jordan于2003年提出[6]。其結(jié)構(gòu)包含三層貝葉斯結(jié)構(gòu)(文檔層、主題層和單詞層),并通過貝葉斯概率公式來推斷每個文檔中包含哪些主題,以及每個主題中包含哪些單詞,從而實現(xiàn)對文本復(fù)雜主題結(jié)構(gòu)的有效表示。LDA主題模型具有以下特點:一是自動發(fā)現(xiàn)隱藏主題[7]。LDA能夠自動從大量文本數(shù)據(jù)中識別并提取出隱藏的主題結(jié)構(gòu),而無須人工定義或標注。這使得它能夠處理大規(guī)模數(shù)據(jù)集,并發(fā)現(xiàn)數(shù)據(jù)中可能存在的未知或難以直接觀察到的主題。二是可解釋性強。LDA生成的主題分布模型具有良好的可解釋性,每個主題由一組相關(guān)的單詞或短語組成,這些單詞或短語能夠清晰地反映主題的內(nèi)容。這使得人們可以直觀地理解數(shù)據(jù)的主題結(jié)構(gòu),從而更好地進行文本分析和解讀。三是降維與簡化。LDA基于詞袋模型,能夠忽略詞序和語法,專注于文本的主題內(nèi)容,將高維的文本數(shù)據(jù)轉(zhuǎn)換為低維的主題分布表示,從而實現(xiàn)數(shù)據(jù)的降維和簡化。這有助于降低計算的復(fù)雜性,提高處理效率,并且便于后續(xù)的數(shù)據(jù)分析和可視化。四是適應(yīng)性強[8]。LDA對于不同的文本數(shù)據(jù)具有較好的適應(yīng)性,既可以處理各種類型的文本數(shù)據(jù),如新聞、社交媒體帖子、學(xué)術(shù)論文等, 處理數(shù)量從幾篇文檔到數(shù)百萬篇文檔均可。又可以與其他自然語言處理技術(shù)相結(jié)合,如詞嵌入、命名實體識別等,以進一步提高文本分析的準確性和效率。五是支持個性化推薦。LDA通過聯(lián)合構(gòu)建用戶畫像和文檔主題分布模型,實現(xiàn)信息的精準個性化推薦。

2.2 LDA主題模型的應(yīng)用

LDA模型的輸出結(jié)果主要包括文檔—主題分布(Doc—topic)、詞匯—主題分布(Word—topic)和主題—詞匯分布(Topic—word)。這三個分布相互關(guān)聯(lián),共同構(gòu)成了LDA模型的核心。文檔—主題分布描述了每個文檔在各個主題上的概率分布,告訴我們每個文檔是由哪些主題混合而成的。詞匯—主題分布則描述了每個單詞在各個主題上的概率分布,揭示了單詞與主題之間的關(guān)聯(lián)關(guān)系。而主題—詞匯分布則描述了每個主題在詞匯表上的概率分布,告訴我們每個主題是由哪些單詞組成的。通過分析這些輸出結(jié)果能夠幫助我們理解和分析文本數(shù)據(jù)中的主題和詞匯之間、文檔和主題之間的關(guān)系,進而實現(xiàn)各種應(yīng)用功能。

正是基于上述特點以及其在處理文本數(shù)據(jù)時展現(xiàn)出強大的能力,LDA主題模型已廣泛應(yīng)用于信息檢索、文本分類、文本聚類等領(lǐng)域。在信息檢索中,LDA模型可以提高搜索系統(tǒng)的相關(guān)性,通過理解文檔和查詢背后的主題,提高搜索結(jié)果的質(zhì)量;在文本分類中,LDA模型可以通過分析文檔的主題分布,將文檔劃分到不同的類別中;在文本聚類中,LDA模型則可以將相似的文檔分到一起,形成簇,從而揭示文檔集合中的主題結(jié)構(gòu);在個性化推薦中,LDA可以將用戶近期閱讀的信息合并成一篇長文檔,并使用該文檔的主題分布作為用戶畫像,結(jié)合文本分類結(jié)果,實現(xiàn)信息的個性化推薦[9]。

2.3 LDA主題模型的實現(xiàn)過程

LDA主題模型的實現(xiàn)步驟如下:①數(shù)據(jù)預(yù)處理。對文本數(shù)據(jù)進行分詞、去停用詞、去除標點符號等預(yù)處理操作,以便后續(xù)的分析;②構(gòu)建語料庫。將預(yù)處理后的文本數(shù)據(jù)構(gòu)建成LDA模型所需的語料庫形式,包括文檔集合和詞匯表等;③確定主題數(shù)。根據(jù)實際需求和研究目的確定LDA模型中的主題數(shù);④訓(xùn)練LDA模型。使用訓(xùn)練數(shù)據(jù)對LDA模型進行訓(xùn)練,得到文檔的主題分布和每個主題下的詞匯分布;⑤應(yīng)用LDA模型。將訓(xùn)練好的LDA模型應(yīng)用于實際的文本分析任務(wù)中,如文本分類、話題發(fā)現(xiàn)等。LDA常用的訓(xùn)練工具包括gensim和tomotopy等,均可實現(xiàn)對LDA主題模型的高效訓(xùn)練和業(yè)務(wù)處理。

3 基于LDA主題模型的個性化推薦系統(tǒng)的設(shè)計

3.1 系統(tǒng)的總體設(shè)計

利用LDA主題模型構(gòu)建個性化推薦系統(tǒng)的主要思路如下:首先,通過訓(xùn)練LDA主題模型將文本信息實現(xiàn)分類;其次,將用戶的各類屬性信息和近期閱讀的信息合并成一篇長文檔,并使用該文檔的主題分布作為用戶畫像,獲取用戶信息偏好(代入訓(xùn)練結(jié)果獲取用戶的文檔主題分布);最后,結(jié)合用戶興趣偏好與文本分類結(jié)果,按照預(yù)定規(guī)則實現(xiàn)信息的個性化推薦。系統(tǒng)的總體設(shè)計流程如圖1所示。

3.2 系統(tǒng)實現(xiàn)的關(guān)鍵環(huán)節(jié)

文本信息分類、用戶興趣建模和內(nèi)容推薦是實現(xiàn)基于LDA主題模型在個性化推薦系統(tǒng)的關(guān)鍵環(huán)節(jié)。

3.2.1 文本信息分類。文本信息分類是基于主題概率分布模型個性化信息推薦系統(tǒng)實現(xiàn)的基礎(chǔ)。信息作為推薦的最終對象,其分類的準確與否直接影響個性化推薦結(jié)果的質(zhì)量。通過對LDA主題模型訓(xùn)練結(jié)果中的文檔—主題分布進行分析,可以得到原始語料庫中每一條語料的最大概率主題分布(即該條原始語料屬于哪個主題的概率最大),進而明確該原始語料屬于某一主題分類。主題明確后,在原始信息數(shù)據(jù)庫中針對該語料信息進行唯一主題分類標注,以供個性化推薦階段與用戶興趣主題分布進行匹配和檢索[10]。

3.2.2 用戶興趣建模。個性化推薦系統(tǒng)需要理解用戶的興趣以便提供相關(guān)的推薦。LDA可以用來分析用戶的歷史行為數(shù)據(jù)(如瀏覽歷史、購買歷史、評分等),從而挖掘用戶的潛在興趣主題。具體來說就是將用戶的交互項目(如商品、文章、電影等)視為文檔,項目中的特征(如商品描述、文章內(nèi)容、電影情節(jié)等)視為單詞,使用LDA模型對這些文檔進行主題建模,得到每個用戶的興趣分布。

3.2.3 內(nèi)容推薦。在得到用戶的興趣分布后,系統(tǒng)根據(jù)用戶興趣主題分布從已分類的文本信息數(shù)據(jù)庫中按照一定規(guī)則檢索、查詢相關(guān)的主題內(nèi)容來為用戶進行個性化信息推薦。例如,如果一個用戶的興趣主題表明該用戶對科技新聞感興趣,那么系統(tǒng)會推薦與科技相關(guān)的新聞文章。此外,針對一些實時性較強的新項目,如國際要聞、新商品上架等,LDA可以分析待推薦新項目的內(nèi)容,將其也表示為主題分布,通過比較用戶興趣分布和新項目內(nèi)容分布,從而確定該新項目是否應(yīng)該推薦給用戶,以解決實時性較強的新項目的個性化精準推薦問題。

3.3 系統(tǒng)的試驗與結(jié)果驗證

本研究采用爬蟲技術(shù),從新浪、搜狐等網(wǎng)站采集新聞標題共20多萬條作為原始語料,通過分詞、刪除停用詞、構(gòu)建詞袋模型、利用困惑度確定主題數(shù)、進行模型訓(xùn)練等步驟,實現(xiàn)了基于LDA主題模型的文本信息主題分類。同時隨機選擇了10條信息作為假設(shè)用戶的閱讀記錄,并將這些記錄作為文檔,代入已經(jīng)訓(xùn)練好的主題模型中,獲取用戶專屬的文檔—主題分布,完成用戶興趣偏好主題分析。根據(jù)用戶興趣偏好主題,按照一定推薦規(guī)則(如以主題歸屬概率大小作為推薦順序等),從已分類的文本信息中推薦50條信息作為推薦結(jié)果。經(jīng)與用戶閱讀記錄比較,這些推薦結(jié)果均符合用戶興趣主題。經(jīng)驗證,本研究設(shè)計的基于LDA主題模型的個性化信息推薦系統(tǒng)具有較強的可行性和實用價值。

為了提高推薦工作的實時性,特別是在數(shù)據(jù)規(guī)模較大的情況下,可以通過預(yù)生成模式,對模型進行預(yù)訓(xùn)練。在進行個性化推薦時,僅需計算用戶興趣偏好分類,進行相似信息內(nèi)容概率匹配,即可完成個性化信息推薦。推薦響應(yīng)時間可以達到毫秒級,具有較高的時效性。同時,為提高系統(tǒng)推薦結(jié)果的精準度,可以采用迭代訓(xùn)練的方式,在上級文本分類結(jié)果的基礎(chǔ)上,對分類子集進行再訓(xùn)練和細分,循環(huán)往復(fù),直至實現(xiàn)推薦信息的精準度達到系統(tǒng)的使用要求[11]。上述擴展方法在試驗階段也得到了驗證,進一步豐富和擴展了該個性化信息推薦系統(tǒng)的適用場景。

4 結(jié)論

本研究設(shè)計和實現(xiàn)的基于主題概率分布模型的個性化推薦系統(tǒng),無論是在模型訓(xùn)練階段,還是在個性化推薦階段,均使用LDA主題概率模型作為基礎(chǔ)算法,方法相對統(tǒng)一,避免了多種算法的混合開發(fā),降低了系統(tǒng)開發(fā)難度,更有利于系統(tǒng)的設(shè)計與實現(xiàn)。同時,基于主題概率分布模型的個性化推薦系統(tǒng)避免了大量用戶之間的相似度計算比較造成的大量計算資源消耗,降低了個性化推薦系統(tǒng)使用的門檻,讓中小型新聞圖情機構(gòu)也能以較低的成本實現(xiàn)個性化信息推薦,有利于提升服務(wù)質(zhì)量和服務(wù)層次,達到了預(yù)期目的。

參考文獻:

[1]王紅霞,溫紹潔.基于聚類和奇異值分解的協(xié)同過濾推薦算法[J].計算機應(yīng)用研究,2020,37(S2):369-371.

[2]包巖,張紅巖.基于長短期偏好特征的圖書個性化推薦系統(tǒng)設(shè)計[J].蘭臺內(nèi)外,2024(19):70-72.

[3]翟梅.個性化新聞推薦系統(tǒng)研究綜述及探討[J].計算機與現(xiàn)代化,2024(4):12-20.

[4]林寧,張亮.基于聯(lián)邦學(xué)習(xí)的個性化推薦系統(tǒng)研究[J].科技創(chuàng)新與生產(chǎn)力,2024,45(4):27-30.

[5]何婕君,李陽.基于時空視角的輿情反轉(zhuǎn)事件情感演化特征研究[J].信息資源管理學(xué)報,2022,12(2):88-100.

[6]杜利明,郭文艷,崔蕾,等.基于LDA的電商平臺用戶評論挖掘與情感分析研究:以京東商城App為例[J].江蘇科技信息,2024,41(12):125-129.

[7]王浩,方俊濤.基于LDA模型對國家海洋博物館游客在線評論的主題分析[J].科技和產(chǎn)業(yè),2024,24(12):224-230.

[8]申菲.改進LDA模型在影視作品推薦中的應(yīng)用研究[J].微型電腦應(yīng)用,2024,40(6):61-64.

[9]李鑫,韓一冰,李祥飛.基于LDA主題模型的我國醫(yī)療健康政策特征分析[J].中國公共衛(wèi)生管理,2024,40(3):311-315,310.

[10]呼和木其,王文婷.LDA模型下的高校圖書館微信公眾平臺閱讀推廣主題熱點及策略研究[J].情報探索,2024(6):102-109.

[11]王勇,安仲禹,梁凱.我國網(wǎng)絡(luò)謠言研究的嬗變與趨勢:基于文獻統(tǒng)計及LDA模型的主題挖掘分析[J/OL].昆明理工大學(xué)學(xué)報(社會科學(xué)版):1-10[2024-07-08].https://doi.org/10.16112/j.cnki.53-1160/c.2024.04.261.

怀安县| 蒙自县| 阳春市| 镇安县| 宾川县| 南汇区| 库尔勒市| 屏东县| 孟州市| 镇安县| 三门县| 凌云县| 隆化县| 静乐县| 安义县| 吴川市| 筠连县| 凌云县| 元谋县| 山丹县| 新疆| 杭锦旗| 南靖县| 龙海市| 寿光市| 汝州市| 辽阳市| 额尔古纳市| 赞皇县| 宾阳县| 兴城市| 汕头市| 阿图什市| 邵东县| 勃利县| 昭觉县| 娱乐| 黑龙江省| 兴山县| 武穴市| 资溪县|