陳 卓,袁璽明,杜軍威
(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東 青島 266061)
隨著網(wǎng)絡(luò)的高速發(fā)展,書(shū)本知識(shí)難以滿足人們?nèi)找嬖鲩L(zhǎng)的知識(shí)需求,問(wèn)答社區(qū)成為了人們分享經(jīng)驗(yàn)與獲取知識(shí)的新平臺(tái)。海川化工論壇成立于2004年8月,是國(guó)內(nèi)最大的專業(yè)化工問(wèn)答社區(qū)和化工類交流的專業(yè)平臺(tái),和其他平臺(tái)相比,海川化工論壇中的問(wèn)題主要為化工類的專業(yè)知識(shí),且時(shí)效性更強(qiáng)。海川化工論壇官方顯示,論壇日均訪客可達(dá)10萬(wàn)以上,其中95%以上的訪客均為從業(yè)人員,成員來(lái)自國(guó)內(nèi)各大設(shè)計(jì)院、生產(chǎn)制造企業(yè)、銷(xiāo)售單位及各大高校。在海川化工論壇近10年的數(shù)據(jù)中,有超過(guò)400萬(wàn)用戶和超過(guò)100萬(wàn)個(gè)問(wèn)題。本文將海川化工論壇中的答案獲得的財(cái)富值作為可靠答案質(zhì)量的指標(biāo),其中32%的問(wèn)題沒(méi)有獲得可靠的答案。在注冊(cè)的用戶中,94%的用戶只是瀏覽問(wèn)題,沒(méi)有提出問(wèn)題和回答問(wèn)題。據(jù)統(tǒng)計(jì)顯示,論壇中平均每個(gè)問(wèn)題在提出后,過(guò)14.2 h才會(huì)獲得可靠答案,14.3 h后才會(huì)獲得最佳答案。
盡管學(xué)術(shù)界和業(yè)界的各種推薦方法都取得了成功,例如協(xié)同過(guò)濾[1]、因子分解機(jī)(FM)[2]、基于內(nèi)容的推薦方法[3]和基于深度學(xué)習(xí)的推薦方法[4],深度學(xué)習(xí)和FM組成的DeepFM(Combines the Power of Factorization Machines for Recommendation and Deep Learning for Feature Learning)[5]算法可以有效利用用戶的特征,但對(duì)于稠密矩陣的預(yù)測(cè)效果遠(yuǎn)低于矩陣分解(Matrix Factorization)的預(yù)測(cè)結(jié)果,而矩陣分解[6]雖然對(duì)稠密特征預(yù)測(cè)結(jié)果較為準(zhǔn)確但無(wú)法解決冷啟動(dòng)的問(wèn)題,且由于海川化工論壇的用戶和問(wèn)題規(guī)模達(dá)到了數(shù)百萬(wàn),這些推薦方法面臨的問(wèn)題在海川化工變得更加嚴(yán)重。目前推薦系統(tǒng)在應(yīng)用到海川化工論壇時(shí),主要面臨2大技術(shù)挑戰(zhàn):
2)冷啟動(dòng)。在海川化工論壇,每天都有超過(guò)60個(gè)新問(wèn)題被提出,急待解決。同時(shí)超過(guò)400萬(wàn)用戶中,僅有不到30萬(wàn)的用戶參與回答問(wèn)題,絕大多數(shù)用戶沒(méi)有用戶行為。預(yù)測(cè)這些問(wèn)題的回答者或預(yù)測(cè)用戶對(duì)這些問(wèn)題的偏好是具有挑戰(zhàn)性的,這就是所謂的“冷啟動(dòng)”問(wèn)題。
針對(duì)海川化工論壇遇到的這些挑戰(zhàn),本文設(shè)計(jì)一種融合DeepFM與矩陣分解的混合推薦方法。第1階段,通過(guò)對(duì)提問(wèn)者特征、問(wèn)題特征和回答者特征的分析,使用DeepFM算法預(yù)測(cè)出參與過(guò)問(wèn)題討論未獲得財(cái)富值的答案質(zhì)量,同時(shí)預(yù)測(cè)出活躍用戶回答新問(wèn)題時(shí)能夠獲得的財(cái)富值,使用戶-問(wèn)題矩陣得到有效填充,增強(qiáng)矩陣分解學(xué)習(xí)器的預(yù)測(cè)結(jié)果,同時(shí)預(yù)測(cè)活躍用戶對(duì)新問(wèn)題的回答情況,解決冷啟動(dòng)問(wèn)題。第2階段,基于原始訓(xùn)練數(shù)據(jù)以及第1階段的預(yù)測(cè)數(shù)據(jù)對(duì)用戶-問(wèn)題矩陣使用基于矩陣分解的協(xié)同過(guò)濾算法進(jìn)行預(yù)測(cè)。
Liu等人[7]綜合考慮多種社會(huì)化信息,如用戶的專業(yè)水平、最佳回答者判定情況、好友相似度等,為新問(wèn)題提供多樣化的回答者推薦;Bhanu等人[8]參考回答者之前參與回答問(wèn)題的難度等級(jí),結(jié)合用戶交互參數(shù)等來(lái)辨別問(wèn)答社區(qū)中潛在的相關(guān)領(lǐng)域?qū)<?;而Van Dijk等人[9]結(jié)合問(wèn)答文本特征、用戶行為特征、問(wèn)答時(shí)間感知等特征,采用半監(jiān)督機(jī)器學(xué)習(xí)方法來(lái)識(shí)別潛在的領(lǐng)域?qū)<?。劉迎春等人[10]通過(guò)挖掘?qū)W習(xí)者信息,得到專業(yè)可信回答者、高信譽(yù)回答者和徽章回答者3種潛在回答者,對(duì)三者進(jìn)行推薦性能對(duì)比,發(fā)現(xiàn)可信回答者推薦具有更高的準(zhǔn)確率和召回率。Greer等人[11]在問(wèn)答社區(qū)中成功為少數(shù)學(xué)習(xí)者及時(shí)推薦問(wèn)題解答的回答者特征,這些人員通常在多個(gè)不同領(lǐng)域有著豐富的知識(shí)及興趣;Xia等人[12]從靜態(tài)特征挖掘角度,分析了開(kāi)發(fā)者和主題之間關(guān)聯(lián),以實(shí)現(xiàn)為特定主題推薦開(kāi)發(fā)者。Tian等人[13]分析Stack Overflow上開(kāi)發(fā)者的歷史數(shù)據(jù),通過(guò)LDA主題模型分析,發(fā)現(xiàn)了開(kāi)發(fā)者潛在興趣,并基于這些興趣和協(xié)作投票機(jī)制來(lái)推薦問(wèn)題回答專家;張祖平等人[4]在研究用戶行為序列中相鄰行為之間相似性和關(guān)聯(lián)性的基礎(chǔ)上,挖掘詞語(yǔ)之間內(nèi)部結(jié)構(gòu)關(guān)系的TextRank,融合Word2vec提出新的用戶行為推薦方法。
Ishola等人[14]基于個(gè)性化標(biāo)簽預(yù)測(cè)高質(zhì)量的問(wèn)題解決者;Elalfy等人[15]使用問(wèn)題的內(nèi)容和內(nèi)容特征訓(xùn)練機(jī)器學(xué)習(xí)模型直接得到推薦的問(wèn)題答案。何明等人[16]基于用戶標(biāo)簽行為和用戶與項(xiàng)目的相似性線性組合來(lái)預(yù)測(cè)用戶對(duì)項(xiàng)目的偏好值,并根據(jù)預(yù)測(cè)偏好值排序,生成最終的推薦列表。翟?shī)檴櫟热薣17]深入分析了知識(shí)圖譜在健康醫(yī)療社區(qū)信息推薦中的優(yōu)勢(shì),提出融合知識(shí)圖譜和病情畫(huà)像的在線醫(yī)療社區(qū)信息推薦,提出了一種基于隱性行為的問(wèn)題解決者推薦算法。羅達(dá)雄等人[18]通過(guò)計(jì)算開(kāi)發(fā)者的基于標(biāo)簽的隱性行為變量、解決問(wèn)題的傾向性變量,并結(jié)合能力變量使用貝葉斯多變量回歸得到開(kāi)發(fā)者得分,排序后推薦問(wèn)題解決者。Mao等人[19]采用基于內(nèi)容的推薦技術(shù)來(lái)自動(dòng)匹配任務(wù)和開(kāi)發(fā)人員;Khot等人[20]利用最近提出的QA支持圖優(yōu)化框架,為開(kāi)放IE開(kāi)發(fā)了一個(gè)新的推理模型,特別是一個(gè)可以有效地處理多個(gè)短事實(shí)、噪聲和元組的關(guān)系結(jié)構(gòu)的推理模型。Hao等人[21]提出了一種端到端的神經(jīng)網(wǎng)絡(luò)模型,通過(guò)交叉注意機(jī)制,將問(wèn)題及其對(duì)應(yīng)的分?jǐn)?shù)動(dòng)態(tài)地反映到考生的不同回答方面。葉俊民等人[22]結(jié)合問(wèn)答數(shù)據(jù)與學(xué)生行為數(shù)據(jù),提出了一種論壇問(wèn)題回答者的推薦方法。徐愛(ài)武[23]提出了一種綜合考慮用戶興趣、用戶專長(zhǎng)以及用戶活躍度等多個(gè)因素的問(wèn)題回答者推薦算法。
在海川化工論壇中,假設(shè)有M個(gè)用戶U={u1,u2,…,uM}和N個(gè)問(wèn)題Q={q1,q2,…,qN},用戶參與回答獲得的財(cái)富值構(gòu)成了一個(gè)M行N列的評(píng)分矩陣RM×N(如表1所示)。同時(shí),每個(gè)用戶有C個(gè)特征Uf={uf1,uf2,…,ufC},每個(gè)問(wèn)題有D個(gè)特征Qf={iq1,iq2,…,iqD}。表1中,第i行第j列表示用戶ui參與問(wèn)題qj的評(píng)分。由于海川化工論壇中,一些用戶因?yàn)閰⑴c問(wèn)題較晚或者答案熱度較低,并沒(méi)有獲得財(cái)富值,在用戶-問(wèn)題矩陣中表示為0。
表1 用戶-問(wèn)題矩陣
DeepFM在2017年由Guo等人提出,包含2部分:因子分解機(jī)(Factorization Machine, FM)部分與深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)部分,分別負(fù)責(zé)低階特征的提取和高階特征的提取。2部分共享同樣的嵌入層(Embedding Layer)輸入。DeepFM的輸出結(jié)果如公式(1)所示。
(1)
2.2.1 FM部分
FM部分是一個(gè)因子分解機(jī),由Rendle在2010年提出。在之前的方法中,只有當(dāng)2個(gè)特征出現(xiàn)在同一個(gè)數(shù)據(jù)中時(shí),才能訓(xùn)練這2個(gè)特征之間的交互參數(shù)。在FM中,它是通過(guò)潛在向量?jī)?nèi)積的方式來(lái)計(jì)算的。該方法通過(guò)兩兩特征組合,引入交叉項(xiàng)特征的方式,發(fā)現(xiàn)各個(gè)特征之間的關(guān)聯(lián)信息,提高模型得分,如公式(2)所示。
(2)
其中,w0為初始權(quán)重值即偏置項(xiàng),wi為每個(gè)特征xi對(duì)應(yīng)的權(quán)重值,vi為第i維特征的隱向量。
2.2.2 深度神經(jīng)網(wǎng)絡(luò)部分
深度神經(jīng)網(wǎng)絡(luò)是一種用于學(xué)習(xí)高階特征交互的前向神經(jīng)網(wǎng)絡(luò)。如圖1所示,數(shù)據(jù)向量輸入到神經(jīng)網(wǎng)絡(luò)中,經(jīng)過(guò)嵌入層,將高維、稀疏的輸入向量壓縮為一個(gè)低維、稠密的向量,然后再進(jìn)一步輸入到第1個(gè)隱藏層。嵌入層的輸出表示為:
圖1 深度神經(jīng)網(wǎng)絡(luò)
a(0)=[e1,e2,…,em]
(3)
其中,ei是第i個(gè)field的嵌入,m是field的數(shù)量。然后將a(0)輸入深度神經(jīng)網(wǎng)絡(luò),正向過(guò)程為:
A(l+1)=W(l)a(l)+b(l)
(4)
其中,l為隱藏層的層數(shù),a(l)、W(l)、b(l)分別是第l層的輸出、權(quán)重和偏置項(xiàng)。最后輸入到輸出層,對(duì)目標(biāo)項(xiàng)進(jìn)行打分預(yù)測(cè):yDNN=WH+1aH+bH+1,其中H是隱藏層的層數(shù)。
協(xié)同過(guò)濾矩陣分解的目的就是把用戶和問(wèn)題的評(píng)分矩陣RM×N分解為M×K的用戶矩陣和K×N的問(wèn)題矩陣,超參數(shù)K為潛在因子空間,這樣用戶-問(wèn)題矩陣就可以表示為用戶矩陣與項(xiàng)目矩陣的乘積,公式為:
RM×N=PM×KQK×N
(5)
用戶ui對(duì)問(wèn)題qj的評(píng)分預(yù)測(cè)值rij的計(jì)算公式為:
rij=piqj
(6)
矩陣分解模型中用戶ui對(duì)問(wèn)題qj的預(yù)測(cè)評(píng)分就是用戶ui的因子向量與問(wèn)題qj的因子向量的點(diǎn)積。當(dāng)矩陣稀疏時(shí),矩陣分解模型訓(xùn)練時(shí)容易出現(xiàn)過(guò)擬合,因此采用L2正則化避免模型的過(guò)擬合問(wèn)題,該模型的損失函數(shù)定義如下:
(7)
其中,λ為正則化系數(shù),rij表示訓(xùn)練集存在的評(píng)分項(xiàng),d表示DeepFM第1步預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間的均方誤差,c表示該項(xiàng)目是否為DeepFM預(yù)測(cè)結(jié)果,取值為0或1。求解該損失函數(shù),通常使用隨機(jī)梯度下降(Stochatic Gradient Descent)或交替最小二乘法(Alternating Least Squares, ALS),本文使用交替最小二乘法。ALS使用上述的損失函數(shù),交替降低損失函數(shù)值,該方法在每輪迭代中,只迭代其中一個(gè)參數(shù),下次迭代另一參數(shù),交替進(jìn)行。首先固定Q對(duì)P做偏微分,使其為0:
(8)
然后固定P對(duì)Q做偏微分,使其為0:
(9)
循環(huán)上述過(guò)程,不斷交替進(jìn)行,直到損失函數(shù)收斂為止。
在矩陣分解算法中,雖然能基于問(wèn)題過(guò)去的回答者獲得的財(cái)富值為問(wèn)題推薦更加合適的回答者,但對(duì)于新提出的問(wèn)題,仍舊無(wú)法找出合適的回答者。而在DeepFM中,雖然能夠結(jié)合用戶特征與問(wèn)題特征為問(wèn)題推薦合適的回答者,但對(duì)于活躍的用戶和較為復(fù)雜的問(wèn)題,預(yù)測(cè)效果不如矩陣分解算法準(zhǔn)確,因此本文提出融合DeepFM與矩陣分解的混合推薦方法,具體流程如圖2所示。
圖2 整體流程圖
1)將用戶特征和問(wèn)題特征以及用戶回答問(wèn)題所獲得的財(cái)富值,輸入DeepFM模塊進(jìn)行訓(xùn)練。
2)使用訓(xùn)練好的DeepFM模塊,為新問(wèn)題預(yù)測(cè)部分用戶獲得財(cái)富值的情況。
3)將DeepFM預(yù)測(cè)的結(jié)果與訓(xùn)練集進(jìn)行結(jié)合,組成新的矩陣。相比訓(xùn)練集,新矩陣更加稠密且在矩陣中沒(méi)有無(wú)交互行為的新用戶和新問(wèn)題。
4)將組成的新矩陣輸入矩陣分解模塊,由矩陣分解算法填滿矩陣。
5)對(duì)問(wèn)題列下的用戶可能獲得的財(cái)富值預(yù)測(cè)后進(jìn)行排序,將問(wèn)題推薦給可能獲得財(cái)富值多的用戶。
在本章中,將進(jìn)行大量的實(shí)驗(yàn)來(lái)驗(yàn)證本文提出的方法的有效性。首先對(duì)稀疏度不同的訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試,以驗(yàn)證本文方法在不同稀疏度下的有效性,然后橫向?qū)Ρ葻衢T(mén)的推薦系統(tǒng)算法,以驗(yàn)證本文提出的融合DeepFM與矩陣分解的混合推薦方法比其它模型效果更好。
本文實(shí)驗(yàn)選取海川化工論壇2017年11月7日至2018年11月7日由6490人回答12359個(gè)問(wèn)題的46025條問(wèn)答數(shù)據(jù)作為訓(xùn)練集,2018年11月8日至12月7日由693人回答773個(gè)問(wèn)題的3495條問(wèn)答數(shù)據(jù)作為測(cè)試集。每條回答獲得的財(cái)富值按照公式(10)處理。
(10)
其中,x為實(shí)際財(cái)富值,μ為同一問(wèn)題下,每條回答獲得的平均財(cái)富值,xmax為每條回答獲得的最大財(cái)富值,xmin為每條回答獲得的最小財(cái)富值。
在特征選擇方面,本文選取提問(wèn)者和回答者的性別、學(xué)歷、郵箱認(rèn)證狀態(tài)等68個(gè)特征,對(duì)于連續(xù)特征,訓(xùn)練時(shí)使用皮爾遜相關(guān)系數(shù)大于0.1的特征,分別為發(fā)布主題數(shù)、在線時(shí)間、積分、威望以及魅力值。對(duì)于非連續(xù)值,以one-hot編碼的形式輸入到網(wǎng)絡(luò)中。其次將問(wèn)題內(nèi)容使用文檔主題生成模型(Latent Dirichlet Allocation)劃分為10個(gè)類別。用戶回答該問(wèn)題獲得的財(cái)富值越高,則表明該問(wèn)題越適合相關(guān)用戶回答。準(zhǔn)確地預(yù)測(cè)用戶獲得的財(cái)富值,可以為未得到答案的問(wèn)題推薦合適的用戶。
本文將訓(xùn)練集用于回答者的數(shù)據(jù)挖掘和處理,得出回答者在不同問(wèn)題知識(shí)領(lǐng)域的專業(yè)可信度;測(cè)試集則用于回答者推薦,并通過(guò)與其他回答者推薦方法進(jìn)行對(duì)比,評(píng)估回答者推薦的性能。實(shí)驗(yàn)數(shù)據(jù)集的基本情況如表2所示。
表2 數(shù)據(jù)說(shuō)明
為了能夠評(píng)估模型的準(zhǔn)確性和健壯性,本文采用隨機(jī)抽樣的方法,從原始數(shù)據(jù)集中抽取20%的數(shù)據(jù)作為測(cè)試集,測(cè)試模型效果。在每次評(píng)估模型效果時(shí),采用均方根誤差(Root Mean Square Error, RMSE)和平均絕對(duì)誤差(Mean Absolute Error, MAE)這2個(gè)指標(biāo)來(lái)對(duì)模型預(yù)測(cè)回答所獲得的財(cái)富值進(jìn)行評(píng)估。RMSE和MAE計(jì)算方式如下:
(11)
(12)
其中,X為測(cè)試集中用戶回答問(wèn)題的條數(shù),yij為用戶ui回答問(wèn)題qj的預(yù)測(cè)分?jǐn)?shù)。
對(duì)于海川化工論壇問(wèn)答數(shù)據(jù)的實(shí)驗(yàn)結(jié)果如表3與圖3(a)所示。
(a) 為新問(wèn)題推薦回答者
表3 對(duì)于新問(wèn)題的實(shí)驗(yàn)結(jié)果
為了驗(yàn)證本文算法對(duì)于冷啟動(dòng)的有效性,將最近活躍的1000個(gè)用戶分別從訓(xùn)練集中刪除,實(shí)驗(yàn)結(jié)果如表4與圖3(b)所示。
(b) 為新用戶推薦有能力回答的問(wèn)題
表4 對(duì)于新用戶的實(shí)驗(yàn)結(jié)果
為了驗(yàn)證本文算法的泛化能力,將該算法應(yīng)用在公共數(shù)據(jù)集Movielens上,預(yù)測(cè)用戶對(duì)電影的評(píng)分,結(jié)果如表5與圖4所示。
圖4 在Movielens數(shù)據(jù)集上各方法之間實(shí)驗(yàn)結(jié)果對(duì)比
表5 對(duì)于Movielens的實(shí)驗(yàn)結(jié)果
對(duì)比實(shí)驗(yàn)結(jié)果如表3與圖3(a)所示??梢钥吹皆诤4ɑふ搲瘮?shù)據(jù)集上,融合DeepFM與矩陣分解的混合推薦方法比其它算法效果突出,這表明了所提方法的有效性。對(duì)于用戶冷啟動(dòng)問(wèn)題,實(shí)驗(yàn)結(jié)果如表4以及圖3(b)所示??梢钥吹皆诿鎸?duì)用戶冷啟動(dòng)問(wèn)題時(shí),該算法表現(xiàn)依舊出色。雖然在對(duì)問(wèn)題推薦回答者和對(duì)論壇用戶推薦合適問(wèn)題時(shí),均方根誤差只比傳統(tǒng)方法降低了0.0649與0.382,但對(duì)于一個(gè)擁有數(shù)百萬(wàn)用戶的海川化工論壇,可以幫助成千上萬(wàn)的問(wèn)題找到能夠準(zhǔn)確回答的用戶。同時(shí)本文將該算法在公用數(shù)據(jù)集Movielens上進(jìn)行了對(duì)比測(cè)試,驗(yàn)證了該算法的泛化能力。
海川化工論壇的數(shù)據(jù)集的稀疏性給推薦系統(tǒng)帶來(lái)了巨大壓力,本文提出了融合DeepFM與矩陣分解的混合推薦方法來(lái)解決這些挑戰(zhàn),該算法充分利用了用戶回答問(wèn)題的歷史行為和用戶及問(wèn)題的特征。為了解決稀疏性和冷啟動(dòng)問(wèn)題,本文提出先使用DeepFM算法將一些參與回答因?yàn)閱?wèn)題熱度較低或回答時(shí)間較晚未獲得財(cái)富值的回答進(jìn)行財(cái)富值填充,同時(shí)對(duì)于新問(wèn)題使用DeepFM預(yù)測(cè)活躍度較高的用戶的回答問(wèn)題質(zhì)量,使之后要進(jìn)行矩陣分解的矩陣更加稠密,準(zhǔn)確性也更高。通過(guò)對(duì)實(shí)際問(wèn)題的預(yù)測(cè),驗(yàn)證了該方法的有效性和可行性。今后的工作中,將朝著2個(gè)方向努力。首先,在用戶特征選擇時(shí)加入時(shí)效性機(jī)制,可以為問(wèn)題更加靈活準(zhǔn)確地推薦回答者。第2個(gè)方向是在本文的方法中更好地利用文本信息,以利用用戶大量的歷史回答信息。