在線問(wèn)答社區(qū)
——海川化工論壇的回答者推薦算法

2021-10-19 01:45袁璽明杜軍威

計(jì)算機(jī)與現(xiàn)代化 2021年10期

陳卓，袁璽明，杜軍威

(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院，山東青島 266061)

0 引言

隨著網(wǎng)絡(luò)的高速發(fā)展，書(shū)本知識(shí)難以滿足人們?nèi)找嬖鲩L(zhǎng)的知識(shí)需求，問(wèn)答社區(qū)成為了人們分享經(jīng)驗(yàn)與獲取知識(shí)的新平臺(tái)。海川化工論壇成立于2004年8月，是國(guó)內(nèi)最大的專業(yè)化工問(wèn)答社區(qū)和化工類交流的專業(yè)平臺(tái)，和其他平臺(tái)相比，海川化工論壇中的問(wèn)題主要為化工類的專業(yè)知識(shí)，且時(shí)效性更強(qiáng)。海川化工論壇官方顯示，論壇日均訪客可達(dá)10萬(wàn)以上，其中95%以上的訪客均為從業(yè)人員,成員來(lái)自國(guó)內(nèi)各大設(shè)計(jì)院、生產(chǎn)制造企業(yè)、銷(xiāo)售單位及各大高校。在海川化工論壇近10年的數(shù)據(jù)中，有超過(guò)400萬(wàn)用戶和超過(guò)100萬(wàn)個(gè)問(wèn)題。本文將海川化工論壇中的答案獲得的財(cái)富值作為可靠答案質(zhì)量的指標(biāo)，其中32%的問(wèn)題沒(méi)有獲得可靠的答案。在注冊(cè)的用戶中，94%的用戶只是瀏覽問(wèn)題，沒(méi)有提出問(wèn)題和回答問(wèn)題。據(jù)統(tǒng)計(jì)顯示，論壇中平均每個(gè)問(wèn)題在提出后,過(guò)14.2 h才會(huì)獲得可靠答案，14.3 h后才會(huì)獲得最佳答案。

盡管學(xué)術(shù)界和業(yè)界的各種推薦方法都取得了成功，例如協(xié)同過(guò)濾[1]、因子分解機(jī)(FM)[2]、基于內(nèi)容的推薦方法[3]和基于深度學(xué)習(xí)的推薦方法[4]，深度學(xué)習(xí)和FM組成的DeepFM(Combines the Power of Factorization Machines for Recommendation and Deep Learning for Feature Learning)[5]算法可以有效利用用戶的特征，但對(duì)于稠密矩陣的預(yù)測(cè)效果遠(yuǎn)低于矩陣分解(Matrix Factorization)的預(yù)測(cè)結(jié)果，而矩陣分解[6]雖然對(duì)稠密特征預(yù)測(cè)結(jié)果較為準(zhǔn)確但無(wú)法解決冷啟動(dòng)的問(wèn)題，且由于海川化工論壇的用戶和問(wèn)題規(guī)模達(dá)到了數(shù)百萬(wàn)，這些推薦方法面臨的問(wèn)題在海川化工變得更加嚴(yán)重。目前推薦系統(tǒng)在應(yīng)用到海川化工論壇時(shí)，主要面臨2大技術(shù)挑戰(zhàn)：

2)冷啟動(dòng)。在海川化工論壇，每天都有超過(guò)60個(gè)新問(wèn)題被提出，急待解決。同時(shí)超過(guò)400萬(wàn)用戶中，僅有不到30萬(wàn)的用戶參與回答問(wèn)題，絕大多數(shù)用戶沒(méi)有用戶行為。預(yù)測(cè)這些問(wèn)題的回答者或預(yù)測(cè)用戶對(duì)這些問(wèn)題的偏好是具有挑戰(zhàn)性的，這就是所謂的“冷啟動(dòng)”問(wèn)題。

針對(duì)海川化工論壇遇到的這些挑戰(zhàn)，本文設(shè)計(jì)一種融合DeepFM與矩陣分解的混合推薦方法。第1階段，通過(guò)對(duì)提問(wèn)者特征、問(wèn)題特征和回答者特征的分析，使用DeepFM算法預(yù)測(cè)出參與過(guò)問(wèn)題討論未獲得財(cái)富值的答案質(zhì)量，同時(shí)預(yù)測(cè)出活躍用戶回答新問(wèn)題時(shí)能夠獲得的財(cái)富值，使用戶-問(wèn)題矩陣得到有效填充，增強(qiáng)矩陣分解學(xué)習(xí)器的預(yù)測(cè)結(jié)果，同時(shí)預(yù)測(cè)活躍用戶對(duì)新問(wèn)題的回答情況，解決冷啟動(dòng)問(wèn)題。第2階段，基于原始訓(xùn)練數(shù)據(jù)以及第1階段的預(yù)測(cè)數(shù)據(jù)對(duì)用戶-問(wèn)題矩陣使用基于矩陣分解的協(xié)同過(guò)濾算法進(jìn)行預(yù)測(cè)。

1 相關(guān)工作

Liu等人[7]綜合考慮多種社會(huì)化信息，如用戶的專業(yè)水平、最佳回答者判定情況、好友相似度等，為新問(wèn)題提供多樣化的回答者推薦；Bhanu等人[8]參考回答者之前參與回答問(wèn)題的難度等級(jí)，結(jié)合用戶交互參數(shù)等來(lái)辨別問(wèn)答社區(qū)中潛在的相關(guān)領(lǐng)域?qū)＜?；而Van Dijk等人[9]結(jié)合問(wèn)答文本特征、用戶行為特征、問(wèn)答時(shí)間感知等特征，采用半監(jiān)督機(jī)器學(xué)習(xí)方法來(lái)識(shí)別潛在的領(lǐng)域?qū)＜?。劉迎春等人[10]通過(guò)挖掘?qū)W習(xí)者信息，得到專業(yè)可信回答者、高信譽(yù)回答者和徽章回答者3種潛在回答者，對(duì)三者進(jìn)行推薦性能對(duì)比，發(fā)現(xiàn)可信回答者推薦具有更高的準(zhǔn)確率和召回率。Greer等人[11]在問(wèn)答社區(qū)中成功為少數(shù)學(xué)習(xí)者及時(shí)推薦問(wèn)題解答的回答者特征，這些人員通常在多個(gè)不同領(lǐng)域有著豐富的知識(shí)及興趣；Xia等人[12]從靜態(tài)特征挖掘角度，分析了開(kāi)發(fā)者和主題之間關(guān)聯(lián)，以實(shí)現(xiàn)為特定主題推薦開(kāi)發(fā)者。Tian等人[13]分析Stack Overflow上開(kāi)發(fā)者的歷史數(shù)據(jù)，通過(guò)LDA主題模型分析，發(fā)現(xiàn)了開(kāi)發(fā)者潛在興趣，并基于這些興趣和協(xié)作投票機(jī)制來(lái)推薦問(wèn)題回答專家；張祖平等人[4]在研究用戶行為序列中相鄰行為之間相似性和關(guān)聯(lián)性的基礎(chǔ)上，挖掘詞語(yǔ)之間內(nèi)部結(jié)構(gòu)關(guān)系的TextRank，融合Word2vec提出新的用戶行為推薦方法。

Ishola等人[14]基于個(gè)性化標(biāo)簽預(yù)測(cè)高質(zhì)量的問(wèn)題解決者；Elalfy等人[15]使用問(wèn)題的內(nèi)容和內(nèi)容特征訓(xùn)練機(jī)器學(xué)習(xí)模型直接得到推薦的問(wèn)題答案。何明等人[16]基于用戶標(biāo)簽行為和用戶與項(xiàng)目的相似性線性組合來(lái)預(yù)測(cè)用戶對(duì)項(xiàng)目的偏好值，并根據(jù)預(yù)測(cè)偏好值排序，生成最終的推薦列表。翟?shī)檴櫟热薣17]深入分析了知識(shí)圖譜在健康醫(yī)療社區(qū)信息推薦中的優(yōu)勢(shì)，提出融合知識(shí)圖譜和病情畫(huà)像的在線醫(yī)療社區(qū)信息推薦，提出了一種基于隱性行為的問(wèn)題解決者推薦算法。羅達(dá)雄等人[18]通過(guò)計(jì)算開(kāi)發(fā)者的基于標(biāo)簽的隱性行為變量、解決問(wèn)題的傾向性變量，并結(jié)合能力變量使用貝葉斯多變量回歸得到開(kāi)發(fā)者得分，排序后推薦問(wèn)題解決者。Mao等人[19]采用基于內(nèi)容的推薦技術(shù)來(lái)自動(dòng)匹配任務(wù)和開(kāi)發(fā)人員；Khot等人[20]利用最近提出的QA支持圖優(yōu)化框架，為開(kāi)放IE開(kāi)發(fā)了一個(gè)新的推理模型，特別是一個(gè)可以有效地處理多個(gè)短事實(shí)、噪聲和元組的關(guān)系結(jié)構(gòu)的推理模型。Hao等人[21]提出了一種端到端的神經(jīng)網(wǎng)絡(luò)模型，通過(guò)交叉注意機(jī)制，將問(wèn)題及其對(duì)應(yīng)的分?jǐn)?shù)動(dòng)態(tài)地反映到考生的不同回答方面。葉俊民等人[22]結(jié)合問(wèn)答數(shù)據(jù)與學(xué)生行為數(shù)據(jù)，提出了一種論壇問(wèn)題回答者的推薦方法。徐愛(ài)武[23]提出了一種綜合考慮用戶興趣、用戶專長(zhǎng)以及用戶活躍度等多個(gè)因素的問(wèn)題回答者推薦算法。

2 融合DeepFM與矩陣分解的混合推薦方法

2.1 問(wèn)題描述

在海川化工論壇中，假設(shè)有M個(gè)用戶U={u1,u2,…,uM}和N個(gè)問(wèn)題Q={q1,q2,…,qN}，用戶參與回答獲得的財(cái)富值構(gòu)成了一個(gè)M行N列的評(píng)分矩陣RM×N(如表1所示)。同時(shí)，每個(gè)用戶有C個(gè)特征Uf={uf1,uf2,…,ufC}，每個(gè)問(wèn)題有D個(gè)特征Qf={iq1,iq2,…,iqD}。表1中，第i行第j列表示用戶ui參與問(wèn)題qj的評(píng)分。由于海川化工論壇中，一些用戶因?yàn)閰⑴c問(wèn)題較晚或者答案熱度較低，并沒(méi)有獲得財(cái)富值，在用戶-問(wèn)題矩陣中表示為0。

表1 用戶-問(wèn)題矩陣

2.2 DeepFM模型

DeepFM在2017年由Guo等人提出，包含2部分：因子分解機(jī)(Factorization Machine, FM)部分與深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)部分，分別負(fù)責(zé)低階特征的提取和高階特征的提取。2部分共享同樣的嵌入層(Embedding Layer)輸入。DeepFM的輸出結(jié)果如公式(1)所示。

(1)

2.2.1 FM部分

FM部分是一個(gè)因子分解機(jī)，由Rendle在2010年提出。在之前的方法中，只有當(dāng)2個(gè)特征出現(xiàn)在同一個(gè)數(shù)據(jù)中時(shí)，才能訓(xùn)練這2個(gè)特征之間的交互參數(shù)。在FM中，它是通過(guò)潛在向量?jī)?nèi)積的方式來(lái)計(jì)算的。該方法通過(guò)兩兩特征組合，引入交叉項(xiàng)特征的方式，發(fā)現(xiàn)各個(gè)特征之間的關(guān)聯(lián)信息，提高模型得分，如公式(2)所示。

(2)

其中，w0為初始權(quán)重值即偏置項(xiàng)，wi為每個(gè)特征xi對(duì)應(yīng)的權(quán)重值，vi為第i維特征的隱向量。

2.2.2 深度神經(jīng)網(wǎng)絡(luò)部分

深度神經(jīng)網(wǎng)絡(luò)是一種用于學(xué)習(xí)高階特征交互的前向神經(jīng)網(wǎng)絡(luò)。如圖1所示，數(shù)據(jù)向量輸入到神經(jīng)網(wǎng)絡(luò)中，經(jīng)過(guò)嵌入層，將高維、稀疏的輸入向量壓縮為一個(gè)低維、稠密的向量，然后再進(jìn)一步輸入到第1個(gè)隱藏層。嵌入層的輸出表示為：

圖1 深度神經(jīng)網(wǎng)絡(luò)

a(0)=[e1,e2,…,em]

(3)

其中，ei是第i個(gè)field的嵌入，m是field的數(shù)量。然后將a(0)輸入深度神經(jīng)網(wǎng)絡(luò)，正向過(guò)程為：

A(l+1)=W(l)a(l)+b(l)

(4)

其中，l為隱藏層的層數(shù)，a(l)、W(l)、b(l)分別是第l層的輸出、權(quán)重和偏置項(xiàng)。最后輸入到輸出層，對(duì)目標(biāo)項(xiàng)進(jìn)行打分預(yù)測(cè)：yDNN=WH+1aH+bH+1，其中H是隱藏層的層數(shù)。

2.3 矩陣分解模型

協(xié)同過(guò)濾矩陣分解的目的就是把用戶和問(wèn)題的評(píng)分矩陣RM×N分解為M×K的用戶矩陣和K×N的問(wèn)題矩陣，超參數(shù)K為潛在因子空間，這樣用戶-問(wèn)題矩陣就可以表示為用戶矩陣與項(xiàng)目矩陣的乘積，公式為：

RM×N=PM×KQK×N

(5)

用戶ui對(duì)問(wèn)題qj的評(píng)分預(yù)測(cè)值rij的計(jì)算公式為：

rij=piqj

(6)

矩陣分解模型中用戶ui對(duì)問(wèn)題qj的預(yù)測(cè)評(píng)分就是用戶ui的因子向量與問(wèn)題qj的因子向量的點(diǎn)積。當(dāng)矩陣稀疏時(shí)，矩陣分解模型訓(xùn)練時(shí)容易出現(xiàn)過(guò)擬合，因此采用L2正則化避免模型的過(guò)擬合問(wèn)題，該模型的損失函數(shù)定義如下：

(7)

其中，λ為正則化系數(shù)，rij表示訓(xùn)練集存在的評(píng)分項(xiàng)，d表示DeepFM第1步預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間的均方誤差，c表示該項(xiàng)目是否為DeepFM預(yù)測(cè)結(jié)果，取值為0或1。求解該損失函數(shù)，通常使用隨機(jī)梯度下降(Stochatic Gradient Descent)或交替最小二乘法(Alternating Least Squares, ALS)，本文使用交替最小二乘法。ALS使用上述的損失函數(shù)，交替降低損失函數(shù)值，該方法在每輪迭代中，只迭代其中一個(gè)參數(shù)，下次迭代另一參數(shù)，交替進(jìn)行。首先固定Q對(duì)P做偏微分，使其為0：

(8)

然后固定P對(duì)Q做偏微分，使其為0：

(9)

循環(huán)上述過(guò)程，不斷交替進(jìn)行，直到損失函數(shù)收斂為止。

2.4 融合DeepFM與矩陣分解的混合推薦方法

在矩陣分解算法中，雖然能基于問(wèn)題過(guò)去的回答者獲得的財(cái)富值為問(wèn)題推薦更加合適的回答者，但對(duì)于新提出的問(wèn)題，仍舊無(wú)法找出合適的回答者。而在DeepFM中，雖然能夠結(jié)合用戶特征與問(wèn)題特征為問(wèn)題推薦合適的回答者，但對(duì)于活躍的用戶和較為復(fù)雜的問(wèn)題，預(yù)測(cè)效果不如矩陣分解算法準(zhǔn)確，因此本文提出融合DeepFM與矩陣分解的混合推薦方法，具體流程如圖2所示。

圖2 整體流程圖

1)將用戶特征和問(wèn)題特征以及用戶回答問(wèn)題所獲得的財(cái)富值，輸入DeepFM模塊進(jìn)行訓(xùn)練。

2)使用訓(xùn)練好的DeepFM模塊，為新問(wèn)題預(yù)測(cè)部分用戶獲得財(cái)富值的情況。

3)將DeepFM預(yù)測(cè)的結(jié)果與訓(xùn)練集進(jìn)行結(jié)合，組成新的矩陣。相比訓(xùn)練集，新矩陣更加稠密且在矩陣中沒(méi)有無(wú)交互行為的新用戶和新問(wèn)題。

4)將組成的新矩陣輸入矩陣分解模塊，由矩陣分解算法填滿矩陣。

5)對(duì)問(wèn)題列下的用戶可能獲得的財(cái)富值預(yù)測(cè)后進(jìn)行排序，將問(wèn)題推薦給可能獲得財(cái)富值多的用戶。

3 實(shí) 驗(yàn)

在本章中，將進(jìn)行大量的實(shí)驗(yàn)來(lái)驗(yàn)證本文提出的方法的有效性。首先對(duì)稀疏度不同的訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試，以驗(yàn)證本文方法在不同稀疏度下的有效性，然后橫向?qū)Ρ葻衢T(mén)的推薦系統(tǒng)算法，以驗(yàn)證本文提出的融合DeepFM與矩陣分解的混合推薦方法比其它模型效果更好。

3.1 數(shù)據(jù)集

本文實(shí)驗(yàn)選取海川化工論壇2017年11月7日至2018年11月7日由6490人回答12359個(gè)問(wèn)題的46025條問(wèn)答數(shù)據(jù)作為訓(xùn)練集，2018年11月8日至12月7日由693人回答773個(gè)問(wèn)題的3495條問(wèn)答數(shù)據(jù)作為測(cè)試集。每條回答獲得的財(cái)富值按照公式(10)處理。

(10)

其中，x為實(shí)際財(cái)富值，μ為同一問(wèn)題下，每條回答獲得的平均財(cái)富值，xmax為每條回答獲得的最大財(cái)富值，xmin為每條回答獲得的最小財(cái)富值。

在特征選擇方面，本文選取提問(wèn)者和回答者的性別、學(xué)歷、郵箱認(rèn)證狀態(tài)等68個(gè)特征，對(duì)于連續(xù)特征，訓(xùn)練時(shí)使用皮爾遜相關(guān)系數(shù)大于0.1的特征，分別為發(fā)布主題數(shù)、在線時(shí)間、積分、威望以及魅力值。對(duì)于非連續(xù)值，以one-hot編碼的形式輸入到網(wǎng)絡(luò)中。其次將問(wèn)題內(nèi)容使用文檔主題生成模型(Latent Dirichlet Allocation)劃分為10個(gè)類別。用戶回答該問(wèn)題獲得的財(cái)富值越高，則表明該問(wèn)題越適合相關(guān)用戶回答。準(zhǔn)確地預(yù)測(cè)用戶獲得的財(cái)富值，可以為未得到答案的問(wèn)題推薦合適的用戶。

本文將訓(xùn)練集用于回答者的數(shù)據(jù)挖掘和處理，得出回答者在不同問(wèn)題知識(shí)領(lǐng)域的專業(yè)可信度；測(cè)試集則用于回答者推薦，并通過(guò)與其他回答者推薦方法進(jìn)行對(duì)比，評(píng)估回答者推薦的性能。實(shí)驗(yàn)數(shù)據(jù)集的基本情況如表2所示。

表2 數(shù)據(jù)說(shuō)明

3.2 評(píng)估方法

為了能夠評(píng)估模型的準(zhǔn)確性和健壯性，本文采用隨機(jī)抽樣的方法，從原始數(shù)據(jù)集中抽取20%的數(shù)據(jù)作為測(cè)試集，測(cè)試模型效果。在每次評(píng)估模型效果時(shí)，采用均方根誤差(Root Mean Square Error, RMSE)和平均絕對(duì)誤差(Mean Absolute Error, MAE)這2個(gè)指標(biāo)來(lái)對(duì)模型預(yù)測(cè)回答所獲得的財(cái)富值進(jìn)行評(píng)估。RMSE和MAE計(jì)算方式如下：

(11)

(12)

其中，X為測(cè)試集中用戶回答問(wèn)題的條數(shù)，yij為用戶ui回答問(wèn)題qj的預(yù)測(cè)分?jǐn)?shù)。

3.3 實(shí)驗(yàn)評(píng)估

對(duì)于海川化工論壇問(wèn)答數(shù)據(jù)的實(shí)驗(yàn)結(jié)果如表3與圖3(a)所示。

(a) 為新問(wèn)題推薦回答者

表3 對(duì)于新問(wèn)題的實(shí)驗(yàn)結(jié)果

為了驗(yàn)證本文算法對(duì)于冷啟動(dòng)的有效性，將最近活躍的1000個(gè)用戶分別從訓(xùn)練集中刪除，實(shí)驗(yàn)結(jié)果如表4與圖3(b)所示。

(b) 為新用戶推薦有能力回答的問(wèn)題

表4 對(duì)于新用戶的實(shí)驗(yàn)結(jié)果

為了驗(yàn)證本文算法的泛化能力，將該算法應(yīng)用在公共數(shù)據(jù)集Movielens上，預(yù)測(cè)用戶對(duì)電影的評(píng)分，結(jié)果如表5與圖4所示。

圖4 在Movielens數(shù)據(jù)集上各方法之間實(shí)驗(yàn)結(jié)果對(duì)比

表5 對(duì)于Movielens的實(shí)驗(yàn)結(jié)果

對(duì)比實(shí)驗(yàn)結(jié)果如表3與圖3(a)所示?？梢钥吹皆诤４ɑふ搲瘮?shù)據(jù)集上，融合DeepFM與矩陣分解的混合推薦方法比其它算法效果突出，這表明了所提方法的有效性。對(duì)于用戶冷啟動(dòng)問(wèn)題，實(shí)驗(yàn)結(jié)果如表4以及圖3(b)所示?？梢钥吹皆诿鎸?duì)用戶冷啟動(dòng)問(wèn)題時(shí)，該算法表現(xiàn)依舊出色。雖然在對(duì)問(wèn)題推薦回答者和對(duì)論壇用戶推薦合適問(wèn)題時(shí)，均方根誤差只比傳統(tǒng)方法降低了0.0649與0.382，但對(duì)于一個(gè)擁有數(shù)百萬(wàn)用戶的海川化工論壇，可以幫助成千上萬(wàn)的問(wèn)題找到能夠準(zhǔn)確回答的用戶。同時(shí)本文將該算法在公用數(shù)據(jù)集Movielens上進(jìn)行了對(duì)比測(cè)試，驗(yàn)證了該算法的泛化能力。

4 結(jié)束語(yǔ)

海川化工論壇的數(shù)據(jù)集的稀疏性給推薦系統(tǒng)帶來(lái)了巨大壓力，本文提出了融合DeepFM與矩陣分解的混合推薦方法來(lái)解決這些挑戰(zhàn)，該算法充分利用了用戶回答問(wèn)題的歷史行為和用戶及問(wèn)題的特征。為了解決稀疏性和冷啟動(dòng)問(wèn)題，本文提出先使用DeepFM算法將一些參與回答因?yàn)閱?wèn)題熱度較低或回答時(shí)間較晚未獲得財(cái)富值的回答進(jìn)行財(cái)富值填充，同時(shí)對(duì)于新問(wèn)題使用DeepFM預(yù)測(cè)活躍度較高的用戶的回答問(wèn)題質(zhì)量，使之后要進(jìn)行矩陣分解的矩陣更加稠密，準(zhǔn)確性也更高。通過(guò)對(duì)實(shí)際問(wèn)題的預(yù)測(cè)，驗(yàn)證了該方法的有效性和可行性。今后的工作中，將朝著2個(gè)方向努力。首先，在用戶特征選擇時(shí)加入時(shí)效性機(jī)制，可以為問(wèn)題更加靈活準(zhǔn)確地推薦回答者。第2個(gè)方向是在本文的方法中更好地利用文本信息，以利用用戶大量的歷史回答信息。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

在線問(wèn)答社區(qū)——海川化工論壇的回答者推薦算法

0 引 言