王振海 李曉昀
(南華大學計算機科學與技術學院軟件工程系 湖南 衡陽 421001)
知乎連接著各行業(yè)精英,用戶分享彼此的專業(yè)知識、經(jīng)驗和見解,持續(xù)產(chǎn)生著高質(zhì)量、可沉淀的信息。然而有價值的信息和用戶之間并未緊密關聯(lián),系統(tǒng)化、組織化的高質(zhì)量信息仍存在于不同個體大腦之中,尚未得到有效的挖掘、利用和分享。而優(yōu)秀的推薦系統(tǒng)能夠有效根據(jù)用戶的信息需求、興趣等進行個性化信息推薦,達到有效挖掘、高效利用和分享資源的目的。
本文從用戶、問答、推薦算法三方面提出一種基于混合算法的推薦模型,以契合用戶需求,達到用戶與有價值信息緊密關聯(lián)的目的。
為滿足用戶高效尋找問題答案的需求,近年來出現(xiàn)了如百度知道、新浪愛問、騰訊搜搜等問答型網(wǎng)站。張蕊[1]將知乎定義為“問答型社交網(wǎng)站”,其信息具有多維度、客觀性、易分享的特點。陸地[2]和劉婉婷等[3]研究了知乎用戶類型和信息傳播模式,指出知乎用戶出現(xiàn)井噴式增長,面臨“噪音”信息增多和“水化”的危險。王國霞等[4]指出用戶對信息的需求是多元化和個性化的,個性化推薦系統(tǒng)能夠根據(jù)用戶需求和興趣推薦信息。文獻[5-7]研究了用戶興趣建模和個性化推薦系統(tǒng)的設計。陳景年[8]研究了選擇性貝葉斯分類算法在信息分類和信息推薦中的應用。單京晶[9]和榮輝桂等[10]研究了基于內(nèi)容推薦和基于用戶相似度的協(xié)同過濾推薦算法在個性化推薦系統(tǒng)中的應用。
文獻[4]研究了現(xiàn)有推薦算法原理及其優(yōu)缺點,探討不同推薦算法策略的適用平臺。針對微博而言其信息具有時效性,因此高明等[11]綜合微博的主題分布、微博內(nèi)容特征以及微博受歡迎程度為用戶提供實時推薦。針對豆瓣而言其信息具有情感性,因此姜霖等[12]針對豆瓣用戶的文章情感為用戶推薦相似的電影或文章。而知乎作為問答型社交網(wǎng)站,不同于微博和豆瓣平臺以社交和興趣來進行推薦,其根本目的是解決用戶問答需求。知乎推薦信息以問答為主要影響因素,結合用戶興趣和社交來滿足用戶的個性化需求,因此采用混合推薦算法模型為用戶推薦個性化信息。
2.1 推薦模型架構
面向知乎的個性化推薦模型包括三個核心模塊,即用戶模型、問答模型、推薦算法模型,如圖1所示。根據(jù)知乎用戶信息提出Person Rank(PrsRank)迭代算法,結合其興趣標簽構建用戶模型。根據(jù)問答信息提出Problem Rank(PrbRank)算法,將問答信息標簽化處理后構建問答模型。然后采用基于標簽推薦、相似用戶等推薦方法來構建排名算法,結合多維滑動窗口分階段結合的方法來構建推薦算法模型,最終得到推薦信息列表。
圖1 個性化推薦模型
2.2 數(shù)據(jù)的獲取和分析
分析知乎主頁和用戶特點,獲取用戶ID、關注人數(shù)、被關注人數(shù)、問題回答數(shù)、獲得同意數(shù)、獲得感謝數(shù)、關注標簽等信息來構建用戶模型。獲取問題提問時間、問題被贊量、問題回答量、問題標題、問題標簽等信息來構建問答模型。處理噪音數(shù)據(jù),最終獲取2.6萬個知乎用戶、461萬條關注鏈接、72萬個問題數(shù)據(jù)。
知乎作為網(wǎng)絡問答平臺,用戶活躍度可在問答方面得到體現(xiàn)。實驗數(shù)據(jù)集分析表明,多數(shù)用戶不參與問答互動,即知乎整體用戶活躍度較低且表現(xiàn)為長尾效應,如表1所示。
表1 知乎用戶問答反映
知乎平臺具有社交性質(zhì),用戶與用戶間的關注關系構成圖結構中的點和邊。由表1可知,多達83.76%的用戶未回答過問題,知乎問題的解決由16.24%的用戶承擔,其中更是少部分答案被接受,因此研究圖結構中活躍用戶群體能夠提升知乎整體用戶活躍度。
面向活躍用戶,取贊同數(shù)大于1萬(Net10k,1 885人)和贊同數(shù)大于5萬(Net50k,395人)的用戶來量化知乎活躍群體特征。圖密度表示圖結構的緊密程度,能夠反映用戶間的關聯(lián)程度,計算得到Net10k與Net50k圖密度分別為0.064與0.195,表明獲得贊同數(shù)越多的用戶其關注關系也越為緊密。
知乎用戶間相互關注關系可表示為強連通圖,強連通分量能夠有效表明群體間關注關系。結果表明來自不同領域間的活躍用戶聚集在相同群體,形成緊密社交圈。因此擴大知乎活躍用戶的社交圈,增強活躍用戶影響力,將有效提升知乎整體用戶活躍度。通過計算強連通圖的平均路徑長度、半徑、直徑,將活躍用戶推薦給非活躍用戶能夠有效提升用戶整體活躍度,如表2所示。
表2 強連通圖指標數(shù)據(jù)
2.3 用戶模型的構建
2.3.1 PrsRank函數(shù)
為計算知乎用戶排名(PrsRank),經(jīng)主成分分析后引入用戶關注人數(shù)m1、被關注人數(shù)m2、回答數(shù)m3、收到贊同數(shù)m4、收到感謝數(shù)m5作為PrsRank函數(shù)影響因子,其中wi表示各個影響因子的權重。
(1)
2.3.2 迭代PrsRank函數(shù)
結合知乎用戶間強連通關系引入PageRank排名算法,即用戶自身的排名由關注者的排名重新決定。知乎用戶關注關系相對復雜,強連通圖中含有一些孤立點(出鏈為0的點),即用戶u0不關注其他用戶,為此增加阻尼系數(shù)q,q一般取值為0.85。
(2)
用戶初始排名由式(1)得到,經(jīng)過式(2)的迭代后得到最終用戶排名。其中PageRank(uj)為用戶uj更新后的排名值,L(uj)為用戶uj的被關注人數(shù)。
2.3.3 用戶數(shù)據(jù)集
根據(jù)用戶在所關注的問題標簽下回答數(shù)量、回答被贊量、用戶排名引入用戶在關注標簽下排名。最終得出用戶數(shù)據(jù)集(見表3)包含用戶個人基本信息、知乎用戶PrsRank排名、個人關注標簽下排名。
表3 用戶數(shù)據(jù)集
2.4 問答模型的構建
2.4.1 PrbRank函數(shù)
為計算知乎各標簽下問題排名,經(jīng)主成分分析后引入問題回答數(shù)量n1,問題被贊量n2,回答用戶排名n3,回答時間n4作為PrbRank函數(shù)影響因子,其中wi表示各個影響因子的權重。
(3)
2.4.2 問答數(shù)據(jù)集
問答數(shù)據(jù)集(見表4)包含問題標題、問題所屬標簽、問題回答用戶ID、用戶回答時間、問題排名等信息。
表4 問答數(shù)據(jù)集
2.5 混合推薦算法模型的構建
采用基于標簽推薦、基于相似用戶等推薦方法構建排名算法。利用多維滑動窗口動態(tài)更新,維持推薦信息的時效性,最終得到推薦信息列表。
2.5.1 基于標簽的推薦算法
基于標簽的推薦算法首先提取用戶所關注的標簽信息,將關注標簽傳至標簽集。從已關注標簽中選擇Top k的問答話題,同時根據(jù)貝葉斯分類器選擇在已關注標簽集中可能關注其他標簽的Top k問答話題。
以學科類為例,建立用戶在關注某一標簽下可能會關注其他標簽的概率表。分析整體用戶的偏好特征后,利用貝葉斯分類器計算用戶可能關注的標簽。即整體學科標簽集L{L1,L2,…,Ln},用戶已關注學科標簽集L0{Lp,…,Lq}的情況下,其可能會關注其他學科標簽Li的概率。利用式(4)選擇排名為Top k的推薦信息,輸出至待推薦數(shù)據(jù)集中,其中l(wèi)為集合L-L0大小。
(4)
2.5.2 基于相似用戶的推薦算法
基于相似用戶的推薦算法是尋找與用戶u0相似的用戶ui,推薦ui關注而用戶u0未關注的標簽?;谙嗨朴脩舻耐扑]算法核心是尋找相似用戶,通過構建user-label權重矩陣尋找相似用戶并產(chǎn)生推薦信息。如表5表示用戶i的第j個標簽權重值,每個用戶對推薦對象的權重可看做是一個m維向量,用戶間相似度就可以用m維向量間的相似度來衡量。
表5 用戶-標簽權重
余弦函數(shù)相似性未考慮用戶權重尺度問題,如對用戶u0來說權重值在w0以上會關注標簽labelk,而對用戶u1來說權重值在w1以上才會關注標簽labelk,為保證推薦準確性,因此采用修正余弦函數(shù)相似性計算用戶相似度。
(5)
設集合U{u1,u2,…,un}表示與目標用戶u0相似的所有用戶,那么對用戶u0的推薦信息可以通過集合U中用戶ui關注的其他標簽得到,Ru0,k表示對用戶u0推薦標簽labelk。通過式(6)計算排名為Top k的推薦信息,輸出至待推薦數(shù)據(jù)集中。
(6)
2.5.3 其他信息推薦
用戶會瀏覽最新動態(tài)的熱點話題,關注已關注標簽內(nèi)最新話題,根據(jù)許少華等[14]提出維持新近最熱門k條信息的方法得到問題標簽數(shù)據(jù)集中排名為Top k的最新動態(tài)信息。據(jù)2.1節(jié)數(shù)據(jù)分析得到知乎用戶間存在長尾效應,為此通過平衡信息關注度,挖掘部分冷門回答信息來提高整體用戶活躍度。
2.6 最終推薦處理
因信息被贊量、被轉(zhuǎn)發(fā)量、時間等因素影響,用戶及問題排名不斷變化。各推薦信息具有本質(zhì)差異性,如基于標簽推薦、基于相似用戶推薦。因此對推薦信息采用多維度滑動窗口來維持區(qū)間內(nèi)最優(yōu)值。判斷用戶對不同推薦方法的滿意度sati來動態(tài)調(diào)整不同類別推薦信息reci,以此來進一步修正推薦列表。
recommendation=∑sati×reci
(7)
3.1 實驗數(shù)據(jù)集
利用基于所抓取2.6萬條知乎用戶數(shù)據(jù)、461萬條關注鏈接、72萬問題數(shù)據(jù)作為訓練數(shù)據(jù)集,問題數(shù)據(jù)信息均來自于用戶主頁下已回答、點贊、關注、收藏的問題。利用Python Sklearn中K折交叉驗證對訓練集和驗證集進行劃分,分為75%訓練數(shù)據(jù)集Sd和25%驗證數(shù)據(jù)集Sp。定義測試數(shù)據(jù)集合St{歷史,英語,數(shù)學,物理,經(jīng)濟學,化學,生物學,電工,電氣工程,馬克思經(jīng)濟學},在知乎平臺上抓取數(shù)據(jù)集合St中各學科的100個用戶和100個問題作為測試數(shù)據(jù)集,另選擇100位志愿者參與調(diào)查問卷。訓練數(shù)據(jù)集訓練混合推薦模型,驗證數(shù)據(jù)集驗證模型的準確性,測試數(shù)據(jù)集測試推薦模型的性能。
3.2 推薦模型評價標準
評價推薦模型質(zhì)量標準可從預測準確度、覆蓋率、多樣性、新穎性等方面考慮[13]。本文目的為提高用戶與信息間的關聯(lián)度,為此實驗以預測準確度作為推薦模型評價標準。通過采用推薦模型衡量中常用的Area Under ROC Curve(AUC)用來評價推薦模型的質(zhì)量。表6為ROS分類標準。
表6 ROS分類標準
Receiver Operating Characteristic Curve(ROC)是預測模型的特征曲線,ROC曲線的橫縱坐標利用偽陽性率FPR=TP/(TP+FN))和真陽性率TPR=FP/(FP+TN)表示。A點越接近左上角則代表預測準確性越高;B點表示隨機預測;C點越接近右下角表示預測準確性越低。曲線以下面積表示整體預測的正確率,即AUC值。
圖2 模型優(yōu)劣判斷標準
本文選用知乎現(xiàn)有推薦算法和全局最優(yōu)算法做為對比算法。知乎現(xiàn)有推薦算法根據(jù)用戶關注的問題、回答過的問題、關注的用戶、關注的話題構建推薦模型。全局最優(yōu)算法將知乎文章按照全局被瀏覽次數(shù)進行排序,此算法基于用戶傾向于關注最熱門話題的原理。
3.3 實驗設計
(8)
(9)
(10)
利用訓練好后的模型為用戶推薦個性化信息,分別計算混合推薦算法(HRA)、現(xiàn)有推薦算法(NRA)、全局推薦算法(GRA)的AUC值來評價模型的準確性。將測試數(shù)據(jù)集整理成調(diào)查問卷,匹配和用戶相似的志愿者,讓志愿者自主選擇10條信息。將志愿者選擇的信息當作真實集,HRA、NRA、GRA算法推薦結果當作測試集,計算相應AUC值來驗證推薦模型準確性。
3.4 結果分析
利用Sklearn 選擇出6 500個用戶作為驗證集,經(jīng)訓練模型輸出推薦信息后,分別計算1 000、2 000、3 000、4 000、5 000、6 000、6 500個用戶的平均AUC值,即推薦模型對不同數(shù)量用戶時推薦的效率。如圖3所示為HRA、NRA、GRA的推薦效率。當用戶數(shù)量多于3 000時,HRA算法比NRA算法高9個百分點,比GRA算法最多高12個百分點。當用戶數(shù)量達到3 200左右時AUC值穩(wěn)定在0.78左右,實驗結果表明基于混合算法的個性化推薦模型具有明顯優(yōu)勢。
圖3 不同推薦算法AUC值對比
為測試模型的準確率,以志愿者所選擇信息為真實值,算法模型推薦為預測值,HRA、NRA、GRA算法的AUC預測值如圖4所示。通過數(shù)據(jù)驗證得到,在用戶量多于60的情況下HRA算法比NRA算法高7個百分點,比GRA算法平均高8個百分點。表明面向知乎的個性化推薦模型能夠有效推薦用戶感興趣的信息,模型所推薦的信息在一定程度上能夠滿足用戶需求,個性化推薦效果得以提高,能夠使有價值的信息和用戶之間緊密關聯(lián)。
圖4 推薦算法模型驗證
在信息冗余的時代 ,用戶應和有價值的信息更緊密地關聯(lián),為此改進知乎傳統(tǒng)的信息推薦算法,構建基于混合算法的個性化推薦模型,對知乎傳統(tǒng)的推薦方式改革創(chuàng)新。在構建面向知乎的個性化推薦模型時,注重用戶個性、用戶與知識間喜好關系,強調(diào)發(fā)揮用戶的主體作用。把基于標簽推薦、基于相似用戶推薦等推薦算法引入至推薦模型中,達到增強用戶之間聯(lián)系、提高信息利用率、用戶與有價值信息緊密結合的目的。提出的面向知乎的個性化推薦模型對隨機選取的學科標簽和用戶進行測試,結果表明該模型能夠有效根據(jù)用戶興趣偏好推薦個性化信息,推薦質(zhì)量得到明顯提高,信息利用率得到改善。
參 考 文 獻
[1] 張蕊.“異軍”知乎的突起——淺析知乎的發(fā)展現(xiàn)狀[J].視聽,2015(6):147-148.
[2] 陸地.“知乎”的知識生態(tài)圈分析與探究[D].北京印刷學院,2017.
[3] 劉婉婷,章楊.“知乎”的傳播模式和未來發(fā)展[J].新聞世界,2015(8):150-151.
[4] 王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應用,2012,48(7):66-76.
[5] 花青松.個性化推薦系統(tǒng)用戶興趣建模研究與實現(xiàn)[D].北京郵電大學,2013.
[6] 單明.基于個性化推薦的電子商務推薦系統(tǒng)的設計與實現(xiàn)[D].吉林大學,2014.
[7] 李曉昀,余穎.基于隱性反饋的自適應推薦系統(tǒng)研究[J].計算機工程,2010,36(16):270-272,275.
[8] 陳景年.選擇性貝葉斯分類算法研究[D].北京交通大學,2008.
[9] 單京晶.基于內(nèi)容的個性化推薦系統(tǒng)研究[D].東北師范大學,2015.
[10] 榮輝桂,火生旭,胡春華,等.基于用戶相似度的協(xié)同過濾推薦算法[J].通信學報,2014(2):16-24.
[11] 高明,金澈清,錢衛(wèi)寧,等.面向微博系統(tǒng)的實時個性化推薦[J].計算機學報,2014(4):963-975.
[12] 姜霖,張麒麟.基于評論情感分析的個性化推薦策略研究——以豆瓣影評為例[J].情報理論與實踐,2017,40(8):99-104.
[13] 陳佳慧.基于綜合評價的個性化推薦算法研究[D].東北大學,2013.
[14] 許少華,宋美玲,許辰,等.一種基于混合誤差梯度下降算法的過程神經(jīng)網(wǎng)絡訓練[J].東北石油大學學報,2014,38(4):92-96.
[15] Cui C,Hu M,Weir J D,et al.A recommendation system for meta-modeling[J].Expert Systems with Applications,2016,46(C):33-44.