国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向在線健康社區(qū)的融合時(shí)間特征個(gè)性化推薦算法研究

2023-08-31 02:26:34曹錦丹鐘玉駿鄒男男等
現(xiàn)代情報(bào) 2023年9期
關(guān)鍵詞:個(gè)性化推薦

曹錦丹 鐘玉駿 鄒男男等

關(guān)鍵詞: 在線健康社區(qū); 個(gè)性化推薦; 動(dòng)態(tài)社交網(wǎng)絡(luò); 個(gè)人動(dòng)態(tài)偏好

DOI:10.3969 / j.issn.1008-0821.2023.09.003

〔中圖分類號(hào)〕R-058 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 09-0026-10

健全和完善“互聯(lián)網(wǎng)+醫(yī)療健康” 服務(wù)體系及支撐體系是當(dāng)前推進(jìn)實(shí)施“健康中國(guó)” 戰(zhàn)略的一項(xiàng)重要工作[1] 。隨著這項(xiàng)工作的推進(jìn), 在線健康社區(qū)(Online Health Communities, OHCs)已成為人們獲取健康信息的重要渠道。OHCs 是具有相同健康或疾病治療興趣的人在以互聯(lián)網(wǎng)為媒介形成的健康社區(qū)集合, 是人們獲取健康信息、得到情感支持、分享個(gè)人經(jīng)驗(yàn)和健康信息以及提供情感支持等各種與健康相關(guān)的活動(dòng)的平臺(tái)。然而, 目前OHCs 平臺(tái)的用戶在健康信息搜尋和交互方面尚需進(jìn)一步優(yōu)化。隨著OHCs 用戶數(shù)量和信息資源的不斷增長(zhǎng), 導(dǎo)致大數(shù)據(jù)呈現(xiàn)低價(jià)值密度特征, 即信息過載問題。因此, 用戶對(duì)個(gè)性化推薦的需求越來(lái)越高, 以減少信息超載帶來(lái)的認(rèn)知負(fù)荷。但是, 用戶的健康信息需求因其自身因素不同而具有個(gè)性化特點(diǎn), 且用戶健康狀況會(huì)隨著時(shí)間推移而發(fā)生改變, 目前在線健康社區(qū)個(gè)性化推薦算法鮮有對(duì)用戶興趣的時(shí)間動(dòng)態(tài)遷移特征進(jìn)行賦權(quán)。如何有效構(gòu)建更為豐富的OHCs用戶推薦算法, 提供更為針對(duì)性的服務(wù), 以實(shí)現(xiàn)精準(zhǔn)推薦, 已成為目前領(lǐng)域?qū)W者普遍關(guān)注的問題。

1國(guó)內(nèi)外相關(guān)研究

個(gè)性化推薦是在數(shù)據(jù)挖掘基礎(chǔ)上實(shí)現(xiàn)的智能信息服務(wù), 能夠有效滿足人們對(duì)各類信息的個(gè)性化需求[2] 。早期的推薦算法研究主要集中于傳統(tǒng)推薦算法, 包括基于內(nèi)容的推薦算法、基于協(xié)同過濾的推薦算法和基于混合的推薦算法。近期基于深度學(xué)習(xí)的推薦模型成為一大熱點(diǎn)[3] , 但其與傳統(tǒng)推薦算法相比, 需要大量的數(shù)據(jù)作為支撐, 無(wú)法解決數(shù)據(jù)稀疏性問題。而研究表明, 將社交信息等輔助信息加入傳統(tǒng)推薦算法可緩解冷啟動(dòng)和項(xiàng)目稀疏性[4] , 且考慮用戶興趣的動(dòng)態(tài)遷移性可提升個(gè)性化推薦算法效率[5] 。故為彌補(bǔ)傳統(tǒng)推薦算法的不足, 研究者們嘗試采用多維度信息融合并加入推薦算法, 最典型的是社交關(guān)系信息、時(shí)間上下文信息。如琚春華等[6]通過構(gòu)建仿真的微信平臺(tái)獲取數(shù)據(jù), 將用戶社交關(guān)系與信任關(guān)系和偏好融合到推薦方法中, 提高了其有效性和準(zhǔn)確度; 董立巖等[7] 意識(shí)到研究時(shí)間對(duì)用戶興趣影響的重要性, 通過在傳統(tǒng)的協(xié)同過濾算法中融入時(shí)間特征, 發(fā)現(xiàn)基于時(shí)間衰減的協(xié)同過濾算法在準(zhǔn)確性上得到了顯著的提高。上述研究集中于電子商務(wù)、新聞、社交網(wǎng)絡(luò)、音樂、廣告等領(lǐng)域,但在醫(yī)療健康信息服務(wù)領(lǐng)域的應(yīng)用程度還不足。OHCs 的推薦有其顯著的特殊性, 只包括提供內(nèi)容服務(wù)、無(wú)評(píng)分信息、冷啟動(dòng)和矩陣稀疏問題更嚴(yán)重等特性, 而且現(xiàn)實(shí)中用戶興趣會(huì)隨著健康狀況在不同時(shí)期階段的變化而發(fā)生改變。所以目前的已有個(gè)性化推薦算法在OHCs 中的應(yīng)用還有待深入探索。

在線健康社區(qū)個(gè)性化推薦方法的研究尚不多見?,F(xiàn)有研究主要是通過分析用戶社交關(guān)系和用戶生成內(nèi)容文本語(yǔ)義構(gòu)建網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)話題內(nèi)容的推薦, 且基于用戶興趣是一成不變的觀點(diǎn), 將用戶以往產(chǎn)生的數(shù)據(jù)不分時(shí)間先后統(tǒng)一用來(lái)代表用戶現(xiàn)在的興趣。如Yang H 等[8] 通過隱含的社會(huì)關(guān)系, 采用自適應(yīng)矩陣分解的方法為用戶進(jìn)行推薦; Yang CC 等[9] 通過構(gòu)建用戶和UGC 之間關(guān)系的異構(gòu)醫(yī)療信息網(wǎng)絡(luò), 向OHCs 中的用戶推薦話題貼; Yang H等[10] 通過構(gòu)建用戶影響關(guān)系(User Influence Rela?tionships, UIRs)網(wǎng)絡(luò)計(jì)算用戶相似度, 提高為用戶進(jìn)行內(nèi)容推薦的準(zhǔn)確度; 李賀等[11] 通過將提取的用戶評(píng)論關(guān)鍵詞之間形成語(yǔ)義關(guān)系網(wǎng)絡(luò), 以便構(gòu)建模糊認(rèn)知圖, 實(shí)現(xiàn)相關(guān)疾病知識(shí)的推薦; 王欣研[12] 通過挖掘熱點(diǎn)問題以及問題主題相關(guān)關(guān)系,構(gòu)建語(yǔ)義關(guān)聯(lián)主題圖譜并搭建了個(gè)性化推薦模型。

綜上所述, 個(gè)性化推薦算法已有較多研究將社交關(guān)系和時(shí)間上下文作為額外信息融入個(gè)性化推薦算法, 但是并不完全適用于OHCs 的用戶推薦。而現(xiàn)有的面向在線健康社區(qū)的個(gè)性化推薦, 均未考慮時(shí)間特征對(duì)用戶興趣的影響, 導(dǎo)致用戶興趣的動(dòng)態(tài)遷移性無(wú)法體現(xiàn)。因此, 本研究基于其他領(lǐng)域的個(gè)性化推薦算法研究, 構(gòu)建融合時(shí)間特征的在線健康社區(qū)個(gè)性化推薦算法, 深入探討用戶興趣的動(dòng)態(tài)遷移性對(duì)提升推薦算法的準(zhǔn)確度和有效性, 以獲得更加精準(zhǔn)的推薦結(jié)果。

2基于社交關(guān)系和個(gè)人偏好的動(dòng)態(tài)個(gè)性化推薦算法框架

OHCs 與其他類型的在線社區(qū)存在的最大區(qū)別是OHCs 用戶在交互過程中, 因每個(gè)用戶的健康狀況會(huì)隨著時(shí)間的推移而產(chǎn)生變化, 其健康信息需求和信息交互行為具有更顯著的動(dòng)態(tài)遷移性。另外,OHCs 用戶興趣分為用戶間互動(dòng)形成的社交關(guān)系和用戶日常發(fā)布信息即用戶個(gè)人偏好兩部分[13] ?;谝陨蟽牲c(diǎn), 本文所構(gòu)建的融合時(shí)間特征的個(gè)性化推薦算法分為3 部分: ①社交關(guān)系與時(shí)間特征融合的動(dòng)態(tài)社交關(guān)系矩陣構(gòu)建; ②用戶個(gè)人偏好與時(shí)間融合的用戶話題帖匹配矩陣構(gòu)建; ③基于動(dòng)態(tài)社交關(guān)系和個(gè)人動(dòng)態(tài)偏好的個(gè)性化推薦算法構(gòu)建。

2.1融合時(shí)間特征的社交關(guān)系矩陣構(gòu)建

OHCs 與一般在線社區(qū)相比屬于弱社交關(guān)系媒體, 其社區(qū)成員間基于興趣構(gòu)建社交關(guān)系。此外,用戶間的社會(huì)影響關(guān)系反映用戶間通過交換健康信息產(chǎn)生社會(huì)影響, 從而構(gòu)成社交關(guān)系的互動(dòng)過程。且OHCs 用戶間社會(huì)關(guān)系越強(qiáng)則代表兩者間的社會(huì)影響力越大, 并且兩用戶間相似度越大, 兩用戶間的相互影響程度也越大[14] 。且社會(huì)關(guān)聯(lián)理論表明,一方面具有相似特征的兩個(gè)個(gè)體間更容易建立社會(huì)關(guān)系; 另一方面具有社會(huì)關(guān)系的個(gè)體更容易表現(xiàn)出相似特征[15] 。所以, 從融合時(shí)間特征的用戶社會(huì)關(guān)系強(qiáng)度和融合時(shí)間特征的用戶間相似度出發(fā), 構(gòu)建OHCs 融合時(shí)間特征的社交關(guān)系網(wǎng)絡(luò)即用戶影響力網(wǎng)絡(luò), 以體現(xiàn)用戶間基于興趣的動(dòng)態(tài)社交關(guān)系。公式如下:

然而, 一方面, 用戶社會(huì)關(guān)系強(qiáng)度依賴于連接兩用戶的連通路徑的權(quán)值和數(shù)量; 另一方面, 用戶行為模式相似度依賴于用戶行為軌跡。要構(gòu)建OHCs 融合時(shí)間特征的用戶影響力網(wǎng)絡(luò), 因其不同于存在評(píng)分、評(píng)級(jí)和關(guān)注等顯式行為的其他類型在線社區(qū), 需先依據(jù)OHCs 的隱式互動(dòng)行為特點(diǎn), 構(gòu)建基于用戶間共同興趣產(chǎn)生參與話題帖的互動(dòng)行為來(lái)表示社會(huì)關(guān)系的隱式行為網(wǎng)絡(luò)。因此, 本部分包括: ①融合時(shí)間特征的隱式用戶行為網(wǎng)絡(luò)構(gòu)建; ②融合時(shí)間特征的用戶間相似度矩陣構(gòu)建; ③融入時(shí)間特征的用戶間社會(huì)影響力計(jì)算。

2.1.1融合時(shí)間特征的隱式用戶行為網(wǎng)絡(luò)構(gòu)建

OHCs 是用戶發(fā)布和回復(fù)話題帖進(jìn)行交流的平臺(tái), 其互動(dòng)行為是基于興趣產(chǎn)生的隱式行為, 而不像其他社區(qū)存在顯式行為。因此, 本研究構(gòu)建的行為網(wǎng)絡(luò)基于OHCs 中的隱式互動(dòng)行為構(gòu)建。其隱式交互行為定義為用戶參與同一話題帖, 認(rèn)為參與同一話題帖的用戶具有相似的興趣, 且相似程度與共同參與話題帖的數(shù)量成正比, 且回復(fù)量比訪問量更能體現(xiàn)話題帖的受關(guān)注程度[16] 。但當(dāng)一個(gè)話題帖成為熱門話題帖導(dǎo)致大多數(shù)用戶普遍參與其中時(shí),反而該話題帖不能很好地代表用戶的興趣, 因而此帖對(duì)用戶共同興趣的貢獻(xiàn)度應(yīng)相對(duì)降低。此外,OHCs 中用戶的健康狀況會(huì)隨時(shí)間改變而變化, 導(dǎo)致用戶興趣也隨之發(fā)生變化, 致使用戶間基于興趣的影響力隨時(shí)間推移而衰減, 表現(xiàn)為對(duì)時(shí)刻tk 的用戶uk 來(lái)說(shuō), 同一級(jí)聯(lián)中時(shí)刻tk 附近的用戶對(duì)uk的影響力應(yīng)遠(yuǎn)大于較早時(shí)刻的用戶, 有研究[17-18]證明了這一點(diǎn)[19] 。且Muniz C P M T 等[20] 受弱聯(lián)系社會(huì)理論的啟發(fā), 認(rèn)為最近的互動(dòng)比以前的互動(dòng)具有更大的影響力。

因此, 上述內(nèi)容表現(xiàn)在隱式用戶行為網(wǎng)絡(luò)中,概括為以下3點(diǎn):

1) 用戶間共同參與的話題帖數(shù)量越多, 即交互次數(shù)越多(當(dāng)兩個(gè)用戶在多次參與一個(gè)話題帖時(shí), 只能算為1 次), 表明兩者間健康信息興趣越相似, 用戶之間的權(quán)重越大。

2) 參與一個(gè)話題帖的人數(shù)越多, 表明該話題帖受歡迎程度越大, 此帖對(duì)邊權(quán)重的貢獻(xiàn)越小, 即每個(gè)話題帖的參與人數(shù)定義為Nu, 用其倒數(shù)代表該話題帖對(duì)本用戶邊權(quán)重的貢獻(xiàn)值。

3) 兩用戶間的交互時(shí)間距離現(xiàn)在越近, 表明兩者間的健康狀況相似可能性越大, 用戶間產(chǎn)生的社會(huì)影響力越大, 相應(yīng)的邊權(quán)重值也越大, 其互動(dòng)時(shí)間定義為兩者中后參與該話題帖的時(shí)間。

基于上述觀點(diǎn)首先構(gòu)建動(dòng)態(tài)隱式行為網(wǎng)絡(luò), 以便獲取用戶間的連接強(qiáng)度, 公式如下:

然而, 在線健康社區(qū)中每個(gè)用戶的活躍程度不同, 越活躍的用戶, 參與的話題帖數(shù)量越多, 這就導(dǎo)致用戶差異問題的出現(xiàn)。為了解決上述問題, 本研究把用戶參與的話題帖數(shù)量用來(lái)代表用戶的活躍程度, 參與話題帖數(shù)量多的用戶, 興趣分布更為廣泛, 導(dǎo)致單一話題帖在該用戶參與的所有話題帖中所占的比重較小。因此, 為了區(qū)分每個(gè)用戶的活躍程度差異, 需要從每個(gè)用戶的角度出發(fā), 構(gòu)建有方向的用戶行為網(wǎng)絡(luò)。步驟包括:

首先, 將每個(gè)用戶參與的話題帖數(shù)量作為節(jié)點(diǎn)權(quán)重。

其次, 將用戶的活躍程度加入邊權(quán)重, 即在原有邊權(quán)重的基礎(chǔ)上除以起點(diǎn)用戶的節(jié)點(diǎn)權(quán)重。

最后, 將邊權(quán)重進(jìn)行最大值歸一化。

2.1.2融合時(shí)間特征的用戶間相似度矩陣構(gòu)建

因OHCs 是用戶根據(jù)自己的興趣參與話題帖討論產(chǎn)生互動(dòng)行為的平臺(tái), 所以其用戶傾向于與具有相似特征或相似健康狀況的用戶產(chǎn)生交流, 其相似度越大, 健康狀況越相似, 彼此間的社會(huì)影響力越大。而OHCs 的用戶間相似度通常采用用戶信息的相似度來(lái)衡量。且OHCs 中的用戶信息分為靜態(tài)信息和動(dòng)態(tài)信息, 其中靜態(tài)信息主要是指用戶屬性信息, 動(dòng)態(tài)信息包括用戶生成內(nèi)容和用戶行為軌跡[22] 。故本研究融合時(shí)間特征的用戶相似度, 從用戶的屬性、用戶生成內(nèi)容和用戶行為模式相似度展開, 其中融合時(shí)間特征體現(xiàn)在動(dòng)態(tài)信息上。用戶相似度的計(jì)算公式如下:

①按權(quán)重排序選?。?個(gè)關(guān)鍵詞, 將其權(quán)值作為中心向量, 目標(biāo)用戶的每一條內(nèi)容變?yōu)椋?維向量,稱作擴(kuò)展向量, 若兩者出自同一文檔文本, 則表示為(0,0,0,…,wsx), 若存在m 個(gè), 則擴(kuò)展向量對(duì)應(yīng)維度的值為wsx/ m。

②設(shè)置閾值。將上面的兩個(gè)向量利用余弦相似度公式計(jì)算兩者間的相似度, 如果相似度大于設(shè)定的閾值則加入用戶關(guān)鍵詞序列, 否則舍棄。

③若新加入的關(guān)鍵詞在Ku 中已經(jīng)存在, 則進(jìn)行關(guān)鍵詞權(quán)值的疊加, 否則, 直接加入新關(guān)鍵詞及其對(duì)應(yīng)的權(quán)值, 即原來(lái)權(quán)值與時(shí)間衰減因子相乘后的值。使用歸一化余弦相似度衡量用戶生成內(nèi)容關(guān)鍵詞序列相似度KSij。

3) 用戶屬性相似度

社會(huì)網(wǎng)絡(luò)理論中的個(gè)體屬性在社會(huì)關(guān)系的形成中起著非常重要的作用[27] , 并且疾病與個(gè)體屬性相關(guān), 所以OHCs 中的個(gè)體屬性也是計(jì)算用戶健康狀況相似度的重要組成部分。而本文在用戶屬性相似度的計(jì)算方法上依舊沿用Yang H 等[10] 的研究,面對(duì)用戶屬性值的不同類型: 文本型數(shù)據(jù)若相同,賦值為1, 否則為0; 數(shù)值型數(shù)據(jù)采用最大最小值標(biāo)準(zhǔn)化公式進(jìn)行求值。最后利用用戶所有屬性相似度的平均值代表用戶屬性相似度。

4) 利用XGBoost 確定權(quán)重系數(shù)

使用XGBoost 模型得到用戶相似度中3 個(gè)特征的重要性。XGBoost 模型中特征重要性是通過對(duì)數(shù)據(jù)集包含的每個(gè)特征進(jìn)行計(jì)算并排序得出, 通常而言, 一個(gè)特征越多的被用來(lái)在模型中構(gòu)建決策樹,它的重要性得分越高。

2.1.3融入時(shí)間特征的用戶間社會(huì)影響力計(jì)算

在OHCs中, 用戶根據(jù)其發(fā)帖和回帖產(chǎn)生的隱式交互活動(dòng)進(jìn)行連接, 產(chǎn)生社會(huì)影響, 且交互越頻繁越容易產(chǎn)生較大的社會(huì)影響。而用戶間的社會(huì)關(guān)系強(qiáng)度反映了兩者間的社會(huì)影響力, 且依賴于連接他們的連通路徑的權(quán)值和數(shù)量, 且隨著用戶之間距離的增加而降低[28] 。所以為了獲得兩用戶間最強(qiáng)的社會(huì)關(guān)系, 需要求兩點(diǎn)間的最短路徑。

Dijkstra最短路徑算法是有向加權(quán)圖中最基本和應(yīng)用最廣泛的最短路徑算法。在有向圖中Dijk?stra 最短路徑算法可以表示為: 在構(gòu)建好的有向帶權(quán)圖G 中, 給定源點(diǎn)A, 求其到圖G 中其他頂點(diǎn)的最短路徑, 具體貪心算法的策略是遍歷距起始點(diǎn)最近且未訪問過的頂點(diǎn)的鄰接節(jié)點(diǎn), 直到遍歷到結(jié)束點(diǎn)。所以, 本文選用Dijkstra 最短路徑算法并基于上文構(gòu)建的融合時(shí)間特征的有向隱式用戶行為網(wǎng)絡(luò)找出兩用戶間的最短路徑, 若存在多條最短路徑,取其中路徑權(quán)值和最大的路徑作為最短路徑。

兩用戶間社會(huì)影響力取決于用戶間路徑的邊權(quán)重和經(jīng)過的邊數(shù)量, 故根據(jù)求得兩用戶間的最短路徑, 其包含的所有節(jié)點(diǎn), 依次將兩節(jié)點(diǎn)的權(quán)值相乘,權(quán)值乘積越大, 代表用戶間基于興趣的社會(huì)影響力越強(qiáng)。

2.2融入時(shí)間特征的用戶話題帖匹配矩陣構(gòu)建

OHCs 中最主要、最有價(jià)值的內(nèi)容是反映用戶健康狀況和健康信息需求的話題帖。且OHCs 內(nèi)的用戶興趣不僅受社交關(guān)系的影響, 還受其自身內(nèi)容偏好的影響[10] 。故在獲得用戶間基于興趣的社交關(guān)系而產(chǎn)生的社會(huì)影響后, 還需根據(jù)用戶的自身偏好來(lái)判斷推薦給用戶的話題帖是否滿足用戶的健康信息需求, 具體可分為用戶自身內(nèi)容偏好的特征提取、話題帖內(nèi)容特征提取以及兩者之間的匹配程度3 部分。

1) 用戶自身內(nèi)容偏好。其提取方法同上文中對(duì)用戶內(nèi)容相似度中內(nèi)容特征的提取方法, 即采用LDA 主題模型和融合時(shí)間的關(guān)鍵詞提取技術(shù)分別提取反映用戶健康信息需求的主題偏好和關(guān)鍵詞偏好。在數(shù)據(jù)利用方面, 利用OHCs 中用戶產(chǎn)生最多也是最重要組成部分的文本數(shù)據(jù)來(lái)分析用戶自身偏好: 一方面, 各大社交網(wǎng)站一般通過用戶生成的文本信息來(lái)挖掘用戶的自身偏好[29] ; 另一方面, OHCs成為公眾獲取健康信息的重要渠道, 其用戶基于發(fā)帖和回帖產(chǎn)生了大量用戶交互數(shù)據(jù), 其中價(jià)值最大的是用戶溝通交流時(shí)所產(chǎn)生的文本數(shù)據(jù)。

2) 話題帖文本內(nèi)容的特征提取。其具體步驟為: 先利用LDA 主題模型提取此話題帖在健康信息各個(gè)主題下的分布概率, 即該話題帖的主題特征向量; 再利用關(guān)鍵詞提取技術(shù)得到該話題帖中與疾病有關(guān)且反映用戶健康需求的關(guān)鍵詞向量, 但此處的關(guān)鍵詞提取技術(shù)不同于前文中的關(guān)鍵詞提取技術(shù), 這里未融合時(shí)間, 原因?yàn)榇颂帉?duì)話題帖的關(guān)鍵詞提取只是對(duì)話題帖本身內(nèi)容特征的表示, 并非從用戶層面表示其健康信息興趣演變。

為了檢驗(yàn)用戶內(nèi)容偏好與話題帖的符合程度,需要將上述得到的表示融合時(shí)間的用戶內(nèi)容偏好向量和話題帖向量, 利用余弦相似度計(jì)算兩者間相似度大小, 值越大表明兩者越相似, 用戶參與該話題帖的可能性越大, 也就是該話題帖越能滿足用戶的健康需求。根據(jù)匹配度得分形成用戶話題帖匹配矩陣, 公式為:

最后, 將R′與F 對(duì)應(yīng)位置相乘, 得到最后的用戶話題帖興趣評(píng)分矩陣。針對(duì)目標(biāo)用戶, 對(duì)其按分值大小排序, 形成TOP-N 推薦列表。

3實(shí)證研究

3.1數(shù)據(jù)來(lái)源

本研究以糖尿病為例?!盯蛐吞悄虿》乐沃改稀分赋觯?通過生活方式的干預(yù), 可以減少糖尿病各種并發(fā)癥, 有效提高糖尿病患者的生存質(zhì)量[31] 。其生活方式的干預(yù)需要根據(jù)病情和生活習(xí)慣等綜合因素制定個(gè)性化方案; 甜蜜家園是一個(gè)創(chuàng)辦于2005年的國(guó)內(nèi)最知名、規(guī)模較大、管理制度比較完善、用戶的活躍程度較高的糖尿病社區(qū)[32] 。綜上, 本文選擇甜蜜家園中的“Ⅱ型糖尿病” 社區(qū)版塊, 并使用“后裔采集器” 采集2019 年5 月30 日—2022年7 月25 日的發(fā)帖數(shù)據(jù): ①參與話題帖用戶的個(gè)人屬性包括性別、回帖數(shù)、主題數(shù)、糖尿病類型、治療方案、生日、簽到等級(jí)、用戶組、注冊(cè)時(shí)間和在線時(shí)間; ②用戶發(fā)布的文本內(nèi)容及其發(fā)布時(shí)間;③用戶ID。

本研究共采集了3 699條主題帖, 包含2 424個(gè)用戶, 48 725條話題帖信息。根據(jù)本研究中構(gòu)建算法的需要將其分為兩個(gè)大小不同的數(shù)據(jù)集, 其中小數(shù)據(jù)集包含13 955條數(shù)據(jù), 應(yīng)用于XGBoost 特征重要性算法確定用戶間相似度3 個(gè)組成指標(biāo)的權(quán)重系數(shù)以及內(nèi)容相似度中兩個(gè)模型向量的權(quán)重系數(shù); 大數(shù)據(jù)集包含34 770條數(shù)據(jù), 用來(lái)評(píng)價(jià)確定權(quán)重系數(shù)的個(gè)性化推薦算法和基準(zhǔn)模型中的推薦算法。

3.2數(shù)據(jù)預(yù)處理

為保證數(shù)據(jù)的有效可用, 刪除發(fā)表的表情符號(hào)或“謝謝分享” “頂” “贊” 等評(píng)論、空評(píng)論, 以及參與話題帖小于3 和用戶信息缺失嚴(yán)重的數(shù)據(jù)。數(shù)據(jù)集中序數(shù)值屬性的空值利用其均值填充。

目前研究用戶在線生成內(nèi)容得到認(rèn)可最多且被廣泛使用的停用詞表有中文停用詞表、百度停用詞表、哈工大停用詞表以及四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù), 本研究為了構(gòu)建相對(duì)完整的停用詞表,在這4 個(gè)停用詞表的基礎(chǔ)上, 先將其整合, 再去除重復(fù)內(nèi)容。使用Jieba分詞對(duì)評(píng)論文本進(jìn)行分詞。

本研究認(rèn)為隨機(jī)劃分訓(xùn)練集和測(cè)試集會(huì)導(dǎo)致數(shù)據(jù)泄露的前瞻偏差問題, 致使存在把用戶最近的評(píng)論用于訓(xùn)練, 而把早期的評(píng)論用于測(cè)試的可能性,喪失公平性, 且隨機(jī)劃分?jǐn)?shù)據(jù)集訓(xùn)練出來(lái)的模型的性能也無(wú)法推廣到現(xiàn)實(shí)世界的性能。因此, 本文利用時(shí)間戳列, 分別對(duì)每個(gè)用戶按照時(shí)間順序進(jìn)行排序, 再按照8 ∶2 的比例劃分訓(xùn)練集和測(cè)試集, 數(shù)據(jù)集中時(shí)間距離現(xiàn)在最近的20% 歸為測(cè)試集, 遠(yuǎn)離現(xiàn)在時(shí)間的80%為訓(xùn)練集。

3.3評(píng)價(jià)指標(biāo)

在模型的評(píng)價(jià)指標(biāo)上, 本研究選用個(gè)性化推薦算法領(lǐng)域中最常用的評(píng)價(jià)指標(biāo), 包括精確率(Preci?sion, P)、召回率(Recall, R)和F1 評(píng)分(F1-Score,F1)。F1-Score 評(píng)估算法的整體性能, 具體含義Precision 和Recall 的調(diào)和平均值。具體計(jì)算方法見式(12) ~(14):

其中, Hits 是目標(biāo)用戶參與推薦的帖子數(shù), r是推薦的話題帖數(shù)量, Miss 表示目標(biāo)用戶參與但未正確推薦的話題帖數(shù)量。

3.4實(shí)驗(yàn)結(jié)果

1) 在利用LDA 主題模型對(duì)文本內(nèi)容進(jìn)行主題分析時(shí), 通過計(jì)算不同主題數(shù)K 所對(duì)應(yīng)的主題一致性Coherence, 確定LDA 主題模型最優(yōu)的主題數(shù)。主題一致性Coherence 越高表示可解釋性和語(yǔ)義連貫性越好, 則對(duì)應(yīng)的K 值可以作為LDA 模型最優(yōu)主題數(shù), 兩個(gè)數(shù)據(jù)集分別對(duì)應(yīng)K = 3 和K = 2,結(jié)果如圖1 和圖2 所示。

3) 利用XGBoost 確定用戶相似度3 個(gè)特征權(quán)重系數(shù), 用戶內(nèi)容相似度權(quán)重為0.31, 用戶行為相似度權(quán)重為0.34, 用戶屬性相似度權(quán)重為0.35。結(jié)果如圖4 所示。

4) 為了驗(yàn)證本文構(gòu)建的融合動(dòng)態(tài)社交關(guān)系和個(gè)人動(dòng)態(tài)偏好的個(gè)性化推薦算法(TOHCRec), 選取時(shí)間上下相關(guān)的項(xiàng)目協(xié)同過濾推薦算法(TItem?CF)、時(shí)間上下相關(guān)的用戶協(xié)同過濾推薦算法(TUserCF)、時(shí)間上下相關(guān)的內(nèi)容推薦算法(TCB)、基于用戶社交關(guān)系和個(gè)人偏好興趣建模的推薦算法(OHCRec)。

推薦列表長(zhǎng)度r從50~500, 步長(zhǎng)為50。Preci?sion 隨推薦列表的增長(zhǎng)而降低, 本文提出的TO?HCRec 方法在Precision 上明顯優(yōu)于所有基準(zhǔn)方法;Recall 隨著推薦列表長(zhǎng)度r 的增加而上升, 本文提出的TOHCRec 方法在召回率上明顯優(yōu)于所有基準(zhǔn)方法。TOHCRec 和OHCRec 的F1-Score 隨著推薦列表長(zhǎng)度r 的增加先下降后趨于穩(wěn)定, 其他基準(zhǔn)模型趨于穩(wěn)定。

總體來(lái)看, 本文構(gòu)建的TOHCRec 優(yōu)于OHCRec,原因?yàn)椋裕希龋茫遥澹?在計(jì)算用戶間社會(huì)關(guān)系和個(gè)人偏好時(shí)基于用戶興趣的動(dòng)態(tài)遷移性, 考慮了時(shí)間特征, 能更加及時(shí)地感知到用戶興趣的變化。TO?HCRec 優(yōu)于TCBRec 是因?yàn)椋裕茫拢遥澹?中只考慮了用戶的個(gè)人偏好, 在很大程度上無(wú)法準(zhǔn)確地捕捉到用戶的興趣。TUserCF 和TItemCF 是根據(jù)用戶的歷史記錄對(duì)用戶興趣建模, 分別根據(jù)用戶和話題帖的相似性生成推薦結(jié)果。其中TItemCF 更加個(gè)性化, 是將用戶參與過的話題帖進(jìn)行相似度計(jì)算, 根據(jù)話題帖相似度為用戶推薦可能感興趣的內(nèi)容; TUserCF與TItemCF 相比更加偏向社會(huì)化, 其考慮了兩用戶間的相互影響, 具體為先找到與目標(biāo)用戶興趣相似的用戶群, 并按照相似度大小對(duì)相似用戶排序, 再將相似用戶感興趣的話題帖推薦給目標(biāo)用戶。但由于OHCs 中用戶的社交關(guān)系屬于基于興趣的弱關(guān)系,導(dǎo)致TItemCF 的效果優(yōu)于TUserCF; 而TOHCRec 優(yōu)于TItemCF、TUserCF, 則是融合社交關(guān)系和個(gè)人偏好的個(gè)性化推薦算法能更準(zhǔn)確地描繪用戶的興趣。以上所有實(shí)驗(yàn)結(jié)果表明, 融合動(dòng)態(tài)社交關(guān)系和個(gè)人動(dòng)態(tài)偏好的個(gè)性化推薦算法, 可顯著提高推薦算法的性能。

4結(jié)語(yǔ)

本研究構(gòu)建的融合時(shí)間特征的在線健康社區(qū)個(gè)性化推薦算法在一定程度上解決了用戶興趣存在動(dòng)態(tài)遷移性的問題, 并提高了在線健康社區(qū)個(gè)性化推薦算法的準(zhǔn)確度, 為用戶興趣存在動(dòng)態(tài)遷移性和緩解冷啟動(dòng)、矩陣稀疏問題提供了解決思路, 進(jìn)一步完善了在線健康社區(qū)的個(gè)性化推薦算法研究, 為后續(xù)在線健康社區(qū)的個(gè)性化推薦研究提供了參考。但本研究還存在一定的局限性: 由于論壇和倫理道德的限制, 導(dǎo)致本研究中用戶的個(gè)體屬性不夠充足,數(shù)據(jù)來(lái)源有限, 后續(xù)可獲取多個(gè)數(shù)據(jù)平臺(tái)的數(shù)據(jù),進(jìn)行跨平臺(tái)數(shù)據(jù)的研究。

猜你喜歡
個(gè)性化推薦
基于用戶相似度加權(quán)的Slope One算法
軟件(2016年4期)2017-01-20 09:44:28
基于遠(yuǎn)程教育的個(gè)性化知識(shí)服務(wù)研究
東方教育(2016年8期)2017-01-17 19:47:27
基于鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
基于協(xié)同過濾算法的個(gè)性化圖書推薦系統(tǒng)研究
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
圖書管理系統(tǒng)中個(gè)性推薦方法研究
國(guó)內(nèi)外錯(cuò)題管理研究綜述
無(wú)線定位個(gè)性化導(dǎo)覽關(guān)鍵技術(shù)在博物館中的運(yùn)用
一種基于協(xié)同過濾技術(shù)的個(gè)性化移動(dòng)學(xué)習(xí)資源推薦策略
商(2016年16期)2016-06-12 09:07:08
锡林浩特市| 灵武市| 建湖县| 栾川县| 兰溪市| 新宾| 静宁县| 梅州市| 乌拉特中旗| 宽城| 缙云县| 伊川县| 晴隆县| 嘉义县| 宜兰县| 通州区| 镶黄旗| 万宁市| 临清市| 钦州市| 叙永县| 巴彦淖尔市| 镶黄旗| 扎鲁特旗| 石楼县| 巧家县| 兴安县| 邹平县| 逊克县| 阜新| 铜山县| 和硕县| 龙门县| 井陉县| 徐闻县| 平塘县| 永济市| 友谊县| 保德县| 宝坻区| 家居|