王戰(zhàn)平 夏榕
關(guān)鍵詞:語義關(guān)系;主題一交互關(guān)系;微博推薦;多樣性:個(gè)性化
web2.0技術(shù)的日趨成熟與快速發(fā)展,推動(dòng)著全球互聯(lián)網(wǎng)進(jìn)入網(wǎng)絡(luò)交互時(shí)代。微博作為web2.0時(shí)代的典型代表,它的發(fā)展和應(yīng)用給互聯(lián)網(wǎng)信息傳播和社會(huì)生產(chǎn)生活方式帶來巨大的影響,逐漸成為社會(huì)信息共享和情感表達(dá)的交流互動(dòng)平臺(tái)。用戶可以通過微博平臺(tái)獲取海量實(shí)時(shí)信息,滿足信息需求,同時(shí)可以拓展社交網(wǎng)絡(luò),擴(kuò)大人際交往范圍,建立新的社會(huì)關(guān)系。根據(jù)2019年3月15日微博數(shù)據(jù)中心發(fā)布的《2018微博用戶發(fā)展報(bào)告》顯示,截至2018年12月,微博月活躍用戶已達(dá)4.62億,日活躍用戶增至2億。隨著微博用戶和微博信息爆炸性增長(zhǎng),少量有用關(guān)鍵信息淹沒在海量信息海洋中,信息過載和知識(shí)缺乏現(xiàn)象越加突出,用戶在海量微博信息中找到自己感興趣的內(nèi)容變得越發(fā)困難。如何在海量微博信息中為用戶推薦高質(zhì)量的信息內(nèi)容,降低用戶獲取有用信息的時(shí)間成本,有效解決“信息迷航”問題,滿足用戶信息需求,提高信息消費(fèi)和利用效率,成為當(dāng)前微博平臺(tái)運(yùn)營(yíng)管理面臨的首要問題。
1相關(guān)研究工作概述
推薦系統(tǒng)作為緩解“信息迷航”的有效手段,目前已被廣泛應(yīng)用于各商業(yè)網(wǎng)絡(luò)及互聯(lián)網(wǎng)相關(guān)領(lǐng)域。當(dāng)前針對(duì)微博的個(gè)性化推薦方法主要是利用博文內(nèi)容、或用戶標(biāo)簽、社交關(guān)系等進(jìn)行用戶興趣偏好挖掘,獲取用戶興趣偏好,進(jìn)而推薦與用戶興趣偏好最為相關(guān)的微博資源集合。姚彬修等提出綜合利用微博內(nèi)容、交互關(guān)系和社交信息等多源信息進(jìn)行用戶興趣偏好建模和相似度計(jì)算,在此基礎(chǔ)上進(jìn)行微博用戶個(gè)性化推薦:Jain A等通過挖掘用戶在Twitter上的社交行為特征進(jìn)行用戶興趣偏好分析和相似度聚類,在此基礎(chǔ)上進(jìn)行個(gè)性化應(yīng)用推薦:王剛等通過將基于時(shí)間信息的用戶興趣序列引入推薦方法之中進(jìn)行用戶興趣偏好的動(dòng)態(tài)獲取,結(jié)合用戶行為分析,提出了融合用戶行為分析和興趣序列相似性的個(gè)性化推薦方法:汪強(qiáng)兵等通過收集用戶手勢(shì)行為數(shù)據(jù)及手勢(shì)對(duì)應(yīng)的內(nèi)容進(jìn)行用戶興趣挖掘,形成用戶興趣畫像,在此基礎(chǔ)上實(shí)現(xiàn)基于用戶興趣畫像的個(gè)性化推薦。高明等提出的微博系統(tǒng)上用戶感興趣微博的實(shí)時(shí)推薦方法,利用LDA主題模型進(jìn)行微博主題和用戶興趣取向的推斷分析,實(shí)現(xiàn)了實(shí)時(shí)個(gè)性化服務(wù)。蔡淑琴等針對(duì)微博用戶創(chuàng)造內(nèi)容和社會(huì)網(wǎng)絡(luò)兩要素,從關(guān)鍵詞層面人手,利用VSM模型進(jìn)行用戶偏好表達(dá),設(shè)計(jì)社會(huì)網(wǎng)絡(luò)修訂系數(shù)進(jìn)行用戶相似矩陣修訂,實(shí)現(xiàn)了基于社會(huì)網(wǎng)絡(luò)關(guān)系驅(qū)動(dòng)的協(xié)同過濾推薦模型。綜合現(xiàn)有研究可知,目前的推薦方法大多以提高推薦準(zhǔn)確性為目標(biāo),雖然具有較高的推薦準(zhǔn)確性.但推薦結(jié)果通常比較相似,不具備多樣性.推薦準(zhǔn)確性的提高也并不意味著用戶滿意度的提升,實(shí)際上用戶更需要推薦與其興趣偏好相關(guān)但彼此之間又有一定差異性的推薦結(jié)果,即滿足多樣性和個(gè)性化要求。
實(shí)際上,針對(duì)推薦結(jié)果的多樣性與個(gè)性化問題.國(guó)內(nèi)外學(xué)者已開始考慮通過犧牲較小程度的推薦準(zhǔn)確性為代價(jià)進(jìn)行推薦結(jié)果多樣性的提升,例如,JingD等提出的兼顧多樣性與個(gè)性化的搜索引擎查詢推薦方法,通過在查詢條件中嵌入多樣性要求進(jìn)行推薦結(jié)果的多樣性與準(zhǔn)確性調(diào)節(jié):Adomavicius G等提出的基于重排序的多樣性推薦方法,利用項(xiàng)目預(yù)測(cè)平均值與項(xiàng)目流行度對(duì)推薦列表進(jìn)行重排序,實(shí)現(xiàn)推薦結(jié)果的多樣性;張國(guó)富等提出的融合信任機(jī)制的推薦多樣性算法.通過在候選集中選擇多樣性較好的信任鄰居作為推薦代表,實(shí)現(xiàn)推薦結(jié)果的多樣性與準(zhǔn)確性的調(diào)節(jié):杜巍等提出的基于新鮮度度量的多樣性推薦模型,通過在候選推薦項(xiàng)目集合中增加新鮮度參數(shù)進(jìn)行長(zhǎng)尾項(xiàng)目所占比例的調(diào)節(jié),實(shí)現(xiàn)推薦結(jié)果的多樣性。
本文在上述研究的基礎(chǔ)上,針對(duì)當(dāng)前微博推薦結(jié)果缺乏多樣性與個(gè)性化的問題.提出了綜合考慮博文間語義關(guān)系和瀏覽博文的用戶間交互關(guān)系的多樣性與個(gè)性化推薦方法。首先,根據(jù)博文之間的語義關(guān)系和瀏覽博文的用戶之間的交互關(guān)系,構(gòu)建博文主題一交互關(guān)系相關(guān)度矩陣,實(shí)現(xiàn)博文語義與用戶間交互關(guān)系的融合.使得用戶興趣偏好得到準(zhǔn)確表達(dá);其次,在博文主題一交互關(guān)系相關(guān)度矩陣的基礎(chǔ)上,利用k-means聚類方法進(jìn)行博文多樣性劃分.使得不同主題的博文之間具有較遠(yuǎn)的主題一交互關(guān)系距離;最后,利用矩陣分解類算法中的概率因子模型對(duì)每個(gè)聚類簇中的博文進(jìn)行用戶滿意度評(píng)分,選出每個(gè)聚類簇中用戶滿意度最高的博文并降序排序,從而形成多樣性與個(gè)性化推薦列表。其中.博文語義是指博文內(nèi)容之間的語義相似度,主要是針對(duì)目前博文相似度計(jì)算僅僅考慮了關(guān)鍵詞之間的語法關(guān)系,忽視了關(guān)鍵詞之間的語義關(guān)系而提出的,目的是提取更能反映用戶興趣偏好的特征概念。交互關(guān)系是指用戶瀏覽博文時(shí)的多種且重復(fù)的交互行為所形成的關(guān)系,例如評(píng)論、轉(zhuǎn)發(fā)、點(diǎn)贊和@某條微博等。
2融合語義和交互關(guān)系的多樣性與個(gè)性化推薦
融合語義和交互關(guān)系的多樣性與個(gè)性化微博推薦方法(Diversified and Personalized Microblog Rec.ommendation Method Combining Semantic and Interac。tion Relationship.DPMRM-CSIR)總體架構(gòu)如圖1所示,主要分為3個(gè)模塊:融合語義和交互關(guān)系的用戶興趣表達(dá)模塊、基于k-means的博文多樣性劃分模塊、基于概率因子模型的博文多樣性選取與個(gè)性化排序模塊。
1)融合語義和交互關(guān)系的用戶興趣表達(dá)模塊。實(shí)現(xiàn)多樣性與個(gè)性化的微博推薦,準(zhǔn)確把握和理解用戶興趣偏好是關(guān)鍵。已有的微博用戶興趣挖掘方法主要是基于用戶背景信息或微博內(nèi)容,由于很多情況下用戶背景信息不完善且難以全面反映用戶興趣,致使基于用戶背景信息的用戶興趣偏好挖掘的效果很不理想;而微博內(nèi)容形式多樣,隨立性和碎片化嚴(yán)重,使得僅依靠微博內(nèi)容進(jìn)行用戶興趣偏好挖掘的實(shí)際效果也不理想,主要不足在于深層次的用戶興趣偏好難以被表達(dá),同時(shí)忽略了交互關(guān)系對(duì)用戶興趣偏好的影響?;谏鲜霾蛔?,本文提出了融合博文語義和瀏覽博文的用戶間交互關(guān)系的用戶興趣表達(dá)方法,通過計(jì)算博文之間的語義相似度和瀏覽博文的用戶之間的交互關(guān)系強(qiáng)度,綜合加權(quán)得到博文主題一交互關(guān)系距離,形成博文主題一交互關(guān)系相關(guān)度矩陣進(jìn)行用戶興趣偏好的表達(dá)。該過程主要分為3步:
Step1:計(jì)算博文之間的語義相似度。首先,采用NLPIR分詞軟件對(duì)微博內(nèi)容進(jìn)行分詞和詞性標(biāo)注,提取關(guān)鍵詞;再利用哈爾濱工業(yè)大學(xué)實(shí)驗(yàn)室提出的停用詞表和新浪微博提供的1 208個(gè)停用詞對(duì)微博內(nèi)容中的“&”“@”“*”“#”等特殊符號(hào)和“啊”“哦”“哎”等語氣詞進(jìn)行去除,并過濾掉“可以”“有”“等于”等意義表達(dá)不明確、不能表達(dá)用戶興趣的詞。其次,利用Mihalcea R等2004年提出TextRank排序算法進(jìn)行微博內(nèi)容的特征概念提取。由于利用TextRank排序算法進(jìn)行特征概念抽取時(shí),僅僅考慮了關(guān)鍵詞之間的語法關(guān)系,忽視了關(guān)鍵詞之間的語義關(guān)系,為提取更能反映用戶興趣偏好的特征概念,再利用Word2vec詞向量工具中的Skip-gram模型進(jìn)行特征關(guān)鍵詞之間的語義關(guān)系計(jì)算.即將每個(gè)用戶的博文作為Skip-gram模型的訓(xùn)練集,形成訓(xùn)練結(jié)果,通過計(jì)算訓(xùn)練結(jié)果與利用TextRank排序算法得到的特征概念之間的相似度,取相似度最高的前Ⅳ個(gè)特征概念作為博文的主題特征概念。最后,利用余弦相似度計(jì)算公式計(jì)算博文之間的語義相似度,假設(shè)用戶u的博文算方法可表示為:
Step2:計(jì)算瀏覽博文的用戶間交互關(guān)系距離。不同用戶在相同時(shí)間段瀏覽過的博文集合越相同,瀏覽博文時(shí)的交互行為越頻繁,表明這些用戶的興趣偏好越相似,他們之間的社交關(guān)系強(qiáng)度也就越緊密。因此,可以通過計(jì)算瀏覽博文的用戶間交互關(guān)系強(qiáng)度進(jìn)行用戶間交互關(guān)系距離的評(píng)估。用戶瀏覽博文時(shí)可以有多種且重復(fù)的交互行為,例如評(píng)論、轉(zhuǎn)發(fā)、點(diǎn)贊和@某條微博(at)等,這些行為動(dòng)作在一定程度上表明用戶對(duì)該博文的興趣偏好程度,因此可以根據(jù)用戶瀏覽博文時(shí)的行為動(dòng)作計(jì)算用戶對(duì)該博文的興趣度,再依據(jù)不同用戶對(duì)博文的興趣度計(jì)算用戶之間的交互關(guān)系強(qiáng)度,從而得到瀏覽博文的用戶間交互關(guān)系距離,計(jì)算方法為:
2)基于k-means的博文多樣性劃分模塊。根據(jù)融合語義和交互關(guān)系的用戶興趣表達(dá)模塊得到的博文主題一交互關(guān)系矩陣.可形成博文主題一交互關(guān)系網(wǎng)絡(luò)圖,其中圖中頂點(diǎn)表示博文,邊表示主題一交互關(guān)系,邊的權(quán)重表示主題一交互關(guān)系相關(guān)度?;趉-means的博文多樣性劃分模塊的主要功能是利用k-means算法對(duì)博文主題一交互關(guān)系網(wǎng)絡(luò)圖進(jìn)行聚類,使得主題一交互關(guān)系相關(guān)度較高的博文聚成一類且不同聚類之間具有較低的相關(guān)度。本文采用k-means聚類算法,即圖中每個(gè)頂點(diǎn)只能歸于一個(gè)類簇中。由于k-means聚類算法需要預(yù)先設(shè)置簇?cái)?shù)K值,但由于個(gè)人微博內(nèi)容分散程度不同,K值難以預(yù)先準(zhǔn)確確定,因此本文采取自動(dòng)確定K值方法進(jìn)行聚類,即隨機(jī)選擇一個(gè)頂點(diǎn)作為第1個(gè)初始類簇中心點(diǎn),然后選擇距離該點(diǎn)最遠(yuǎn)的一個(gè)頂點(diǎn)作為第2個(gè)初始類簇中心點(diǎn),然后再選擇距離前兩個(gè)頂點(diǎn)的最近距離最大的點(diǎn)作為第3個(gè)初始類簇的中心點(diǎn),以此類推,直至選出K個(gè)初始類簇中心點(diǎn)。該過程主要分為4步:
3)基于概率因子模型的博文多樣性選取與個(gè)性化排序模塊。根據(jù)基于k-means的博文多樣性劃分模塊得到的聚類結(jié)果.博文被劃分為多個(gè)具有差異性的博文集合?;诟怕室蜃幽P偷牟┪亩鄻有赃x取與個(gè)性化排序模塊的主要功能是利用概率因子模型預(yù)測(cè)微博用戶瀏覽博文的次數(shù),以此評(píng)估該用戶對(duì)各博文的興趣偏好程度,形成用戶滿意度矩陣.再?gòu)牟┪木垲惔刂蟹謩e選取一個(gè)當(dāng)前用戶滿意度最高的博文,形成博文推薦列表并按用戶滿意度降序排列,實(shí)現(xiàn)兼顧多樣性與個(gè)性化的博文推薦。該過程主要分為兩步:
Step1:預(yù)測(cè)微博用戶瀏覽博文的次數(shù)。預(yù)測(cè)微博用戶的興趣偏好的基本思想是:如果用戶對(duì)某個(gè)博文的瀏覽次數(shù)越多,表明該用戶對(duì)該博文的興趣偏好程度越高,則將該博文推薦給用戶的價(jià)值也越高。由于用戶瀏覽博文的行為動(dòng)作在很大程度上符合隨機(jī)且獨(dú)立出現(xiàn)的特點(diǎn),因此.本文采取矩陣分解類算法中的概率因子模型進(jìn)行用戶瀏覽博文的次數(shù)預(yù)測(cè)。假設(shè)F(mXn)表示用戶瀏覽博文的
再采用隨機(jī)梯度下降法進(jìn)行迭代,最終得到擬合矩陣y用來預(yù)測(cè)用戶瀏覽博文的次數(shù)。
Step2:根據(jù)上述擬合矩陣y預(yù)測(cè)給定用戶瀏覽博文的次數(shù),獲取其興趣偏好,進(jìn)而從各博文聚類簇中分別選取一個(gè)用戶瀏覽次數(shù)最多的博文.并根據(jù)瀏覽次數(shù)進(jìn)行降序排序.形成多樣性與個(gè)性化推薦列表。
3實(shí)驗(yàn)結(jié)果與分析
3.1實(shí)驗(yàn)數(shù)據(jù)
本文采用的數(shù)據(jù)集為新浪微博數(shù)據(jù)集。從新浪用戶u推薦結(jié)果中所覆蓋的主題數(shù)。
3.3實(shí)驗(yàn)結(jié)果與分析
將微博數(shù)據(jù)集按照9:1劃分為訓(xùn)練集和測(cè)試微博的最近更新列表中下載15 432位用戶2017年6月1日-8月30日發(fā)布的微博,存儲(chǔ)到數(shù)據(jù)庫(kù)中作為數(shù)據(jù)集。采集到的數(shù)據(jù)包括用戶ID、用戶名、性別、賬號(hào)等級(jí)、地點(diǎn)信息、標(biāo)簽、博文內(nèi)容、關(guān)注用戶數(shù)、轉(zhuǎn)發(fā)數(shù)、點(diǎn)贊數(shù)、評(píng)論數(shù)、@用戶名等信息。
實(shí)驗(yàn)數(shù)據(jù)預(yù)處理主要分為3步:首先,過濾微博文本中的地址鏈接、其他無意義字符等噪聲信息后,利用NLPIR分詞軟件進(jìn)行分詞和詞性標(biāo)注,根據(jù)哈爾濱工業(yè)大學(xué)實(shí)驗(yàn)室提出的停用詞表和新浪微博提供的1208個(gè)停用詞進(jìn)行停用詞去除;其次,隨機(jī)選擇10000名用戶,從中選擇微博超過50篇和微博詞匯超過5個(gè)的用戶.最終得到8743名用戶,微博內(nèi)容549834條,實(shí)驗(yàn)數(shù)據(jù)描述如表1所示。
3.2實(shí)驗(yàn)環(huán)境與評(píng)測(cè)指標(biāo)
實(shí)驗(yàn)環(huán)境為Windows 10操作系統(tǒng),Intel Core(TM)2 Duo CPU 2.66GHz,4GB內(nèi)存。測(cè)評(píng)指標(biāo)選擇信息檢索和推薦領(lǐng)域常用的準(zhǔn)確率(P)、召回率(R)、F1值進(jìn)行評(píng)測(cè),同時(shí),增加平均主題覆蓋數(shù)進(jìn)行推薦結(jié)果的多樣性測(cè)評(píng)。由于用戶更關(guān)注博文推薦的前K個(gè)結(jié)果,因此,本文采用前K條結(jié)果的準(zhǔn)確率(P@K)、前K條結(jié)果的召回率、前K條結(jié)果的F1值(F1@K)、前K條結(jié)果的平均主題覆數(shù)(AvgD@K)進(jìn)行博文推薦結(jié)果的評(píng)價(jià).相關(guān)計(jì)算方法為:
根據(jù)表2~表5可知,無論是最好情況(K=10)還是最壞情況(K=20),本文提出的DPMRM-CSIR方法的P@K、R@K、F1@K性能明顯優(yōu)于MUIM-PC方法和MR-TCUSR方法,略好于MISUR方法;AvgD@K明顯優(yōu)于MUIM-PC方法、MR-TCUSR方法和MISUR方法。這是因?yàn)楸疚奶岢龅腄PMRM-CSIR方法不僅融合博文語義內(nèi)容和瀏覽博文的用戶間交互關(guān)系進(jìn)行用戶興趣偏好表達(dá),使得深層次的用戶興趣偏好得到表達(dá),同時(shí)還利用k-means聚類方法進(jìn)行博文多樣性劃分,利用矩陣分解類算法進(jìn)行博文選取與個(gè)性化排序,因此能夠更加體現(xiàn)用戶興趣偏好.得到用戶較滿意的推薦結(jié)果:MUIM-PC方法結(jié)合用戶背景和內(nèi)容進(jìn)行用戶興趣偏好挖掘,對(duì)用戶間的社交關(guān)系利用不夠.故而得到的推薦結(jié)果較差:MR-TCUSR方法利用標(biāo)簽關(guān)聯(lián)關(guān)系和社交關(guān)系進(jìn)行用戶興趣偏好建模,針對(duì)用戶標(biāo)簽缺乏問題,采用微博內(nèi)容進(jìn)行填充,能夠較好地表達(dá)用戶興趣偏好.故而得到的推薦結(jié)果優(yōu)于MUIM-PC方法:MISUR方法綜合利用微博內(nèi)容、交互關(guān)系和社交信息進(jìn)行用戶興趣偏好挖掘,并引入時(shí)間權(quán)重和豐富度權(quán)重進(jìn)行多源信息的權(quán)重調(diào)節(jié),故而得到的推薦結(jié)果在P@K、R@K、F1@K性能上和本文提出的DPMRM—CSIR方法相當(dāng),明顯優(yōu)于MUIM-PC方法和MR-TCUSR方法。由于該方法未考慮推薦結(jié)果的多樣性問題,因此在AvgD@K性能上明顯低于本文提出的DPMRM-CSIR方法。
為進(jìn)一步驗(yàn)證博文語義和交互關(guān)系對(duì)實(shí)驗(yàn)結(jié)果的貢獻(xiàn),分別進(jìn)行僅利用博文語義進(jìn)行推薦和僅基于交互關(guān)系進(jìn)行推薦,實(shí)驗(yàn)結(jié)果如表6~表8所示。
根據(jù)表6~表8可知.無論是最好情況(K=10)還是最壞情況(K=20),僅利用博文語義的推薦方法的P@K、R@K、F1@K性能明確優(yōu)于僅利用交互關(guān)系的推薦方法,說明博文語義在反映深層次的用戶興趣偏好方面優(yōu)于交互關(guān)系,交互關(guān)系對(duì)用戶興趣偏好的影響弱于博文語義,綜合博文語義和交互關(guān)系的推薦方法更能精準(zhǔn)表達(dá)用戶興趣偏好。
由于k-means聚類方法本身存在聚類結(jié)果不確定的特征,為進(jìn)一步增強(qiáng)論文說服力,本文選擇LDA主題模型進(jìn)行聚類方法對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表9~表11所示。
根據(jù)表9~表11可知,無論是最好情況(K=10)還是最壞情況(K=20),利用k means方法的P@K、R@K、F1@K性能略優(yōu)于基于LDA主題模型的聚類方法。這是因?yàn)楸疚牡闹饕咙c(diǎn)是融合語義和交互關(guān)系的用戶興趣表達(dá),既考慮博文之間的語義關(guān)系.又考慮交互關(guān)系對(duì)用戶興趣偏好的影響.因此,采用k-means聚類或采用LDA主題模型方法進(jìn)行聚類的效果差別不大。
4總結(jié)與展望
隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展和微博用戶群體規(guī)模的不斷增大,微博推薦受到越來越多的關(guān)注和青睞。面對(duì)海量復(fù)雜的微博信息,針對(duì)當(dāng)前推薦結(jié)果缺乏多樣性與個(gè)性化的問題.提出了綜合考慮博文間語義關(guān)系和瀏覽博文的用戶間交互關(guān)系的多樣性與個(gè)性化推薦方法。首先,根據(jù)博文之間的語義關(guān)系和瀏覽博文的用戶之間的交互關(guān)系,構(gòu)建博文主題一交互關(guān)系相關(guān)度矩陣,實(shí)現(xiàn)博文語義與用戶間交互關(guān)系的融合.使得用戶興趣偏好得到準(zhǔn)確表達(dá);其次,在博文主題一交互關(guān)系相關(guān)度矩陣的基礎(chǔ)上,利用k-means聚類方法進(jìn)行博文多樣性劃分.使得不同主題的博文之間具有較遠(yuǎn)的主題一交互關(guān)系距離;最后,利用矩陣分解類算法中的概率因子模型對(duì)每個(gè)聚類簇中的博文進(jìn)行用戶滿意度評(píng)分.選出每個(gè)聚類簇中用戶滿意度最高的博文并降序排序,從而形成多樣性與個(gè)性化推薦列表。實(shí)驗(yàn)結(jié)果表明.本文方法不僅使得博文推薦列表具有多樣性,同時(shí)也具有更高的推薦準(zhǔn)確性,實(shí)現(xiàn)了博文多樣性與個(gè)性化推薦的有機(jī)融合。后續(xù)將重點(diǎn)研究用戶間社交關(guān)系對(duì)微博推薦的影響,探索融合用戶社交關(guān)系的微博推薦方法,實(shí)現(xiàn)更加精準(zhǔn)的推薦。