劉 雪 晴
(復旦大學軟件學院 上海 201203)
由于信息技術(shù)的迅猛發(fā)展與普及,科研人員開展學術(shù)活動的形式不再局限于會議、討論等線下互動。很多科研工作者開始在各類不同的科研社交平臺上尋找感興趣的小同行及其群體,查看彼此的簡歷,與各地的科研人員互相分享研究成果、交換意見和建議,構(gòu)成了一個覆蓋全世界的科研社交網(wǎng)絡。和其他社交網(wǎng)絡一樣,它也面臨著信息過載的問題。推薦系統(tǒng)是用來解決信息過載問題的重要方法之一,可以主動滿足用戶的個性化信息需求[1]。因此,基于科研社交網(wǎng)絡的推薦研究非常重要。
基于科研社交網(wǎng)絡的推薦系統(tǒng)主要從以下三個方向展開:推薦科研成果、推薦科研人員、推薦科研社群。對于科研工作者來說,一個合適的同行研究者,帶來的不僅僅是有效的學術(shù)交流,更是顯著的知識發(fā)現(xiàn),對科研工作者生產(chǎn)力和創(chuàng)新力的提高提供一定的幫助。智能的科研小同行推薦系統(tǒng)可以有效地幫助科研人員更快地找到更合適的科研合作者,從而提高他們的學術(shù)競爭力?,F(xiàn)有的基于科研社交網(wǎng)絡的科研人員推薦主要包括專家推薦[2]、合著者推薦。汪俊等[3]通過對科研社交網(wǎng)絡中科研人員的知識與社會關(guān)系信息進行挖掘,構(gòu)建了鏈接預測模型實現(xiàn)專家推薦服務。文獻[4]基于結(jié)構(gòu)分析研究人員基于研究機構(gòu)的關(guān)系及其與外部研究人員間的關(guān)系,構(gòu)建了多元的科研社交模型,應用到巴西在線科研社區(qū)中獲得了很好的推薦效果。文獻[5]基于合作者網(wǎng)絡,構(gòu)建了一個隨機游走模型,為科研人員推薦潛在的科研合作者和科研合作群體??梢钥闯觯壳暗目蒲泻献髡哐芯侩m然混合使用了基于內(nèi)容推薦[6-7]、基于社交網(wǎng)絡推薦[8-9]、基于協(xié)同過濾推薦[10-12]的方法對科研社交網(wǎng)絡進行挖掘,但是仍然缺乏一個考慮雙向意愿的推薦機制。實際上,科研人員無論從基于內(nèi)容還是基于行為的角度,都隱含著自己的偏好。是否選擇和另一個科研人員一起合作研究,需要同時滿足雙方的偏好,才能建立小同行鏈接,才算一個成功的推薦。為了彌補傳統(tǒng)推薦算法的這種不足,基于互惠性的雙向推薦[13-16]引起了國內(nèi)外學者的廣泛關(guān)注。
小同行推薦這個應用場景本質(zhì)上是用戶到用戶的推薦,參與的雙方既是服務用戶,又是待推薦用戶,他們不僅在研究興趣偏好和行為偏好上相似,而且雙方的偏好都需要得到滿足,達到互惠的推薦效果,這也是雙向推薦技術(shù)的基本前提。然而在科研社交網(wǎng)絡中現(xiàn)有的推薦研究基本上只考慮一方的需求,很少有研究討論互惠性的概念。因此本文在挖掘科研人員基于相似性的特征之后,利用科研人員的行為網(wǎng)絡交互數(shù)據(jù),挖掘基于協(xié)同過濾的互惠性。首先提出一種基于協(xié)同過濾的雙向互惠小同行推薦模型CFRPR;隨后融合科研人員的多維度特征相似度,通過對比基于協(xié)同過濾的雙向推薦以及融合基于內(nèi)容的互惠相似性,實驗驗證了本文算法的有效性。同時也證明了基于互惠性的雙向推薦可以適當?shù)亟鉀Q推薦系統(tǒng)中存在的冷啟動問題。
與傳統(tǒng)的推薦方法相比,參與雙向推薦的雙方都是具有自主選擇能力的對象,因此匹配時需要滿足雙方的偏好。社交網(wǎng)絡中的用戶推薦與雙向互惠性聯(lián)系最為緊密,因為雙向偏好的匹配直接決定了推薦的質(zhì)量。文獻[17]在基于社交網(wǎng)絡的業(yè)務合作伙伴識別中應用了雙向推薦,通過使用所屬公司的簡介和用戶之間的事務關(guān)系生成候選人。文獻[18]提出了一個三因素圖模型,將其應用到社交網(wǎng)絡中的雙向鏈接預測。文獻[19-20]將雙向互惠性應用到在線交友推薦中。其中文獻[20]通過同時考慮基于用戶偏好相似度的局部度量和基于雙向匹配的全局度量,提出了一個廣義的雙向互惠性推薦框架。通過在線約會網(wǎng)站和在線招聘網(wǎng)站上的實驗,證明了其有效性。
文獻[21]通過考慮雙向鏈接,給出了一種基于混合協(xié)同過濾(HCF)的解決方案,在推薦初始聯(lián)系和雙向聯(lián)系時均表現(xiàn)出了很高的性能。文獻[22]采用基于內(nèi)容的推薦算法學習雙方用戶的偏好相似度,同時利用用戶之間的交互數(shù)據(jù)挖掘目標用戶的隱式偏好,基于雙向偏好匹配定義了一個新的評估度量(成功率)來評價算法的性能。該算法基于融合策略進行推薦,解決了推薦系統(tǒng)中最常見的冷啟動問題。但該算法具有一定的局限性,僅適用于信息對稱的推薦領(lǐng)域,具有一定的局限性。雙向推薦還被應用到招聘中職位和求職者之間的匹配中[23],通過引入本體的概念,構(gòu)建了雙向推薦系統(tǒng)。
總的來講,基于內(nèi)容與基于協(xié)同過濾相結(jié)合的雙向混合推薦策略是目前最先進的互惠性研究。然而科研社交網(wǎng)絡中現(xiàn)有的推薦研究基本上只考慮一方的需求,很少有研究討論互惠性的概念。文獻[24]在基于科研社交網(wǎng)絡的導師推薦研究中考慮了用戶之間性格偏好的匹配,但僅僅作為相似性度量的特征之一,并不能很好地度量用戶在不同指標的雙向偏好匹配程度,也沒有強調(diào)互惠性的重要性。而小同行推薦本質(zhì)上是一個雙向互惠的任務,科研人員的雙向意向?qū)⒅苯記Q定最終的推薦結(jié)果。因此如何將雙向互惠性推薦應用到科研社交網(wǎng)絡的推薦系統(tǒng)中將是本文重點研究的問題。
在小同行推薦這個情境下,科研人員想要尋找的是在某個特定學科/專業(yè)能有效地滿足其專業(yè)知識需求,并且能通過個人社交網(wǎng)絡方便地與其建立連接的目標用戶。因此,在科研人員之間相似度的計算中,除了利用基本的學術(shù)信息,也需要近一步抽取社交網(wǎng)絡相關(guān)特征。
本文在文獻[24]已有的研究成果基礎(chǔ)上提出基于多維度融合特征相似性的小同行推薦模型MSBPR(Multidimensional Similarity-based Peer Researcher Recommendation Model)。具體相似度計算方法如下:
1) 研究方向相似度(Expertise Similarity) 首先利用科研人員的科研成果相關(guān)信息、所參與基金項目的數(shù)量及相應等級信息,根據(jù)JCR的期刊分區(qū)情況和AHP的項目分類情況賦予相應的權(quán)重,結(jié)合G指數(shù)挖掘得到科研人員的學術(shù)質(zhì)量度。在此基礎(chǔ)上構(gòu)建學術(shù)質(zhì)量度加權(quán)的LDA模型,基于該主題分布首先得到科研人員的研究方向相似性:
(1)
式中:θv是候選科研人員v的研究方向主題分布,θu,v是科研人員u和v的聯(lián)合平均分布,表示二者研究方向的聯(lián)合分布。通過計算各自與聯(lián)合分布的距離來度量科研人員之間的研究方向匹配程度。
2) 基于個體層次的連接度(Individual Connectivity) 基于科研社交網(wǎng)絡上的合著者網(wǎng)絡,混合使用基于鄰居和基于路徑的相似度度量方法挖掘科研人員基于個體層次的連接度:
IdCon(u,v)=δNPro(u,v)+(1-δ)PPro(u,v)
(2)
式中:δ是根據(jù)科研人員在網(wǎng)絡中的連接度引入的平滑參數(shù)。NPro(u,v)是科研人員u與v基于Adamic-Adar方法的鄰居距離(Neighbor Proximity)。PPro(u,v)是兩個科研人員基于最短路徑的相似度(Path Proximity)。
3) 基于機構(gòu)層次的連接度(Institutional Connectivity) 在選擇小同行建立合作關(guān)系時,所屬機構(gòu)之間的合作連接也會影響結(jié)果[25]。本文基于機構(gòu)間的合作網(wǎng)絡挖掘兩個科研人員u與v基于機構(gòu)的連接度:
(3)
式中:ΓIu表示用戶u所屬機構(gòu)Iu的所有科研產(chǎn)出集合。分數(shù)的分子表示兩個機構(gòu)的共同科研產(chǎn)出數(shù)量,分母則表示兩個科研人員所隸屬機構(gòu)的科研產(chǎn)出總和。
4) 基于多維度特征的相似度(Combining Similarity) 利用一種基于分值的無監(jiān)督學習方法——Comb-MNZ算法,來融合上述度量得到科研人員基于多維度特征的相似度度量:
(4)
(5)
式中:NR表示所有特征的數(shù)量,τ(v,NR)表示候選研究人員v在集合R中的出現(xiàn)頻率。Scorenorm(v,Rn)為候選研究人員v在特征n上正則化分數(shù)。特征總數(shù)量為f,基于貪心策略為每個特征分配權(quán)重wn。
至此,將每位候選科研人員與目標科研人員的相似度用融合后的分值(式(4))來度量,可以根據(jù)該得分來預測每個候選科研人員被推薦為小同行的概率。根據(jù)高低排序可以過濾候選推薦列表。
除了用戶相關(guān)的內(nèi)容信息,科研社區(qū)中還收集了大量與科研人員相關(guān)的行為數(shù)據(jù)。例如,當一個用戶選擇與其他科研人員建立好友關(guān)系、合作關(guān)系時,或是回復別人的消息時,系統(tǒng)都會產(chǎn)生記錄,而這些記錄中也蘊含著科研人員的偏好。
本文將科研人員在科研社區(qū)中的交互表示為一個雙向網(wǎng)絡,其中一個節(jié)點代表一個科研人員,雙向網(wǎng)絡的邊通常連接著兩個研究興趣相近的用戶。在許多科研社區(qū)中,如果科研人員x對另一個科研人員y感興趣的話,他通常會發(fā)送一條簡單的預設(shè)信息,例如“對您的研究方向很感興趣,是否有機會一起合作?”或者一個好友申請,本文將其定義為初始聯(lián)系IC(Initial Contact)。如果y也對x感興趣,他/她可以發(fā)送一個回復(Reply)給x,這就構(gòu)成了兩個科研人員之間的雙向聯(lián)系RC(Reciprocal Contact)。本文將由這種雙向聯(lián)系組成的網(wǎng)絡定義為小同行網(wǎng)絡。圖1描述了基于科研社區(qū)的一個交互網(wǎng)絡案例。
圖1 基于科研社區(qū)的一個交互網(wǎng)絡案例
其中所有科研人員構(gòu)成了用戶集合U,本文將需要推薦服務的科研人員定義為服務用戶S,其中S?U。N=|S|是服務用戶的數(shù)量。M=|U|是科研人員的總數(shù)量(N≤M)。本文將服務用戶從所有用戶(科研人員)群里分離出來,是因為基于協(xié)同過濾的模型在擁有更多歷史行為的用戶群體上會表現(xiàn)得更好。
無論是初始聯(lián)系還是雙向聯(lián)系,都包含著用戶的行為偏好信息。從聯(lián)系的定義可以得到,由服務用戶發(fā)起的初始聯(lián)系包含了服務用戶對候選用戶的“品位”,而候選用戶選擇發(fā)送回復,則說明該服務用戶與候選用戶的偏好相匹配,本文將其定義為服務用戶的“吸引力”。通過考慮服務用戶和候選用戶之間偏好及吸引力的匹配,定義基于協(xié)同過濾的互惠性特征。在用戶嘗試與其感興趣的科研人員建立小同行鏈接的應用背景下,嘗試通過提高服務用戶得到候選科研人員回應的概率,以提升推薦的性能。
本文使用經(jīng)典協(xié)同過濾小同行推薦模型CFBPR(CF-Based Peer Recommendation Model)作為第一個基準模型,并基于該模型對科研人員的偏好建模,分以下三步進行:
(1) 將科研人員的交互行為表示為一個M×N的鏈接矩陣C。在二分矩陣C中,如果科研人員i向科研人員j發(fā)起了初始聯(lián)系,則無論科研人員是否回復了科研人員i,都有Ci,j=1,否則Ci,j=0。因此,該矩陣的行表示一個服務用戶的所有初始聯(lián)系行為并且反映了他/她的偏好。圖2展示了一個初始聯(lián)系矩陣案例。
圖2 聯(lián)系矩陣:CFBPR模型
(2) 計算服務用戶u和w之間基于協(xié)同過濾的相似度CFSim(u,w)。在本文中,使用矩陣C中科研人員u和w行向量的余弦相似度來度量。相似度越高,表示兩個科研人員在選擇小同行時有著越相似的品位,即他們請求聯(lián)系了相似的科研人員。
(3) 候選科研人員推薦排序。對于一個服務用戶u,模型會對每一個與u還未有過互動行為的候選科研人員v(v∈U并且v≠u)進行迭代,計算u與v之間(將v推薦給u)的推薦成功分數(shù):
(6)
基于該分數(shù)對候選列表進行排序,分數(shù)越高,科研人員v越可能被推薦給u。該模型的基本思想是越多與服務用戶u偏好相似的學者向科研人員v發(fā)送初始聯(lián)系,科研人員v越可能會是u的潛在小同行。
為了與最終的模型做對比,提出一個只考慮雙向聯(lián)系的模型ROPR(Reciprocity-only Peer Recommendation Model)作為另一個基準模型。即在該模型的二分聯(lián)系矩陣中,只有當科研人員i與j之間有著雙向聯(lián)系時才會有Ci,j=1(不管由誰發(fā)起初始聯(lián)系),否則Ci,j=0。即使科研人員i單方面聯(lián)系/關(guān)注了j,只要j不回復,那么Ci,j仍為0。聯(lián)系矩陣具體見圖3。因此,該矩陣的行既表示了一個用戶的品位,也表示了他/她的吸引力。
圖3 聯(lián)系矩陣:ROPR模型
相似度的計算方法及小同行的推薦方法均與基準CF模型保持一致。該模型的主要思想為:只有當候選科研人員v對服務用戶u感興趣并且吸引了與u有相似偏好及吸引力的科研人員,科研人員v才會被推薦給u。
ROPR模型雖然能夠描述用戶間基于協(xié)同過濾的顯示偏好(品位和吸引力),它仍有兩個限制:
1) 忽略了初始聯(lián)系請求未被回應的情況下隱含的科研人員偏好信息。例如圖3中S1的行向量為空,因此無法不能追蹤他的品位。
2) 未利用不回復初始聯(lián)系行為所隱含的負反饋偏好信息。例如,當R2選擇不回應S2的初始聯(lián)系,這表示S2的吸引力與R2的品位不匹配。對于與S2有相似吸引力的用戶,R2可能不是一個好的候選推薦。
這兩個限制會影響用戶的互惠性特征計算。例如,圖3中S2和S4都聯(lián)系了用戶R4,但都沒有得到回復,這種隱式品位相似性和吸引力相似性并沒有在該模型中體現(xiàn)出來,因而無法得到準確的科研人員互惠性特征。
通過同時考慮初始聯(lián)系和雙向聯(lián)系,本文提出了一個基于協(xié)同過濾的雙向推薦模型CFRPR(CF-based Reciprocal Peer Recommendation Model),挖掘科研人員的顯式偏好和隱式偏好,對科研人員基于協(xié)同過濾的互惠性特征建模。這樣一來,聯(lián)系矩陣C則變成了一個三維矩陣。為了簡化,本文仍然用一個二維矩陣來表示它:
ci,j=
(7)
當科研人員i發(fā)送了一個信息(初始聯(lián)系或者回復聯(lián)系)給科研人員j(意味著j的吸引力與i的品位相匹配),那么此時Ci,j,1=1,否則Ci,j,1=0,表示i對j不感興趣。同樣地,如果科研人員j對科研人員i感興趣,Ci,j,2=1,反之Ci,j,2=0。圖4是混合模型的一個聯(lián)系矩陣案例。
圖4 聯(lián)系矩陣:CFRPR模型
該矩陣可以分為兩個二分矩陣,分別表示服務用戶和候選科研人員的品位。由于候選科研人員的偏好會反映服務用戶的吸引力,反之亦然。
為了簡化說明,仍舊基于二維聯(lián)系矩陣來綜合考慮三種科研人員之間的相似性度量:
1) 品位相似性——兩個科研人員對相似的科研人員感興趣。
2) 吸引力相似性——兩個科研人員吸引了相似的科研人員。
3) 負反饋偏好相似性——兩個科研人員拒絕了相似的用戶/被相似的科研人員拒絕。
因此將兩個科研人員u和w之間基于協(xié)同過濾的相似度表示為:
其中函數(shù)f需要滿足以下條件:
1)f(
x1=x2 andy1=y2 andx1+x2+y1+y2>0;
2)f(
x1≠x2 andy1≠y2;
3)f(
x1=x2=y1=y2=0。
它表示在計算科研人員間相似度時,品位和吸引力均相似(即雙向匹配)的科研人員會得到最高的分數(shù),而品位和吸引力均不同的科研人員則會獲得最低的相似性度量??紤]以上條件,對函數(shù)f定義如下:
f(
(8)
式中:⊕表示異或操作,會產(chǎn)生三個不同的值:當品位和吸引力均匹配時取2;單向匹配時取1;無匹配時取0。式子的分母dgr(u)+dgr(w)用來做歸一化處理,防止相似性向受歡迎的研究者傾斜,從而影響互惠性的計算。其中dgr(i)是科研人員i在無向網(wǎng)絡和無權(quán)重網(wǎng)絡中的中心度。
最后,得到用戶u與v基于協(xié)同過濾的互惠性:
(9)
式中:weight(ck,v)是綜合考慮品位、吸引力不同匹配情況的權(quán)重,定義如下:
(10)
從式(10)可以看出,本文對品位和吸引力雙向匹配的情況賦予完全權(quán)重,并為單向匹配分配一個懲罰因子s。
互惠性特征度量CFRec(u,v)就是將v推薦給u的成功分數(shù):
RScore(u,v)=CFRec(u,v)
(11)
根據(jù)該分數(shù)的高低為服務用戶u生成最終的科研人員推薦排序列表。
根據(jù)小同行的定義,推薦結(jié)果追求的是科研人員雙方偏好及吸引力同樣程度的匹配。因此在本文的研究中不區(qū)分偏好和吸引力的重要性,將其都歸為單向匹配。拓展到其他應用場景中,可以通過為f(cp,k,cq,k)定義不同的計算方法來進行區(qū)分。例如在專家推薦中,服務用戶想要尋找的是一個與自己的偏好(尤其是某特定領(lǐng)域上的偏好)高度匹配的科研人員,因此可以在雙向推薦中賦予偏好匹配更高的權(quán)重。即在偏好和吸引力單向匹配的情況下,可以令f(cp,k,cq,k)的取值滿足:
f(<1,0>,<1,0>)>f(<0,1>,<0,1>)
(12)
同時,在計算最終的互惠性時,可以對偏好單向匹配和吸引力單向匹配分配不同的懲罰因子:
(13)
總的來說,本模型以經(jīng)典CF模型為原始模型,主要從兩個方向進行基于雙向互惠性的拓展:
1) 針對被推薦的科研人員,在計算科研人員間相似度的時候考慮了“品位”和“吸引力”的雙向相似:偏好及吸引力均相似的科研人員之間的相似度要高于單向偏好/吸引力相似的科研人員。
2) 在進行推薦時,考慮“品位”和“吸引力”的雙向匹配:與服務用戶的“品味”和“吸引力”度量均匹配的科研人員最可能被推薦。相比只考慮單方面偏好的匹配成功率更高。
在本方法中,默認品味和吸引力在雙向匹配中有著相同的重要性。
在第3節(jié)中基于協(xié)同過濾進行了雙向推薦的拓展,通過考慮服務用戶和候選用戶之間的雙向偏好(即3.1節(jié)中定義的“品味”和“吸引力”),得到了科研人員基于協(xié)同過濾的互惠性特征CFRec(u,v)。現(xiàn)有文獻對互惠性的研究證明了基于內(nèi)容和基于協(xié)同過濾的混合雙向推薦是最有效的方法。因此結(jié)合第2節(jié)中科研人員基于研究方向和科研社交網(wǎng)絡的融合相似性CSim(u,v),提出一種新穎的基于混合互惠性的雙向推薦算法CRBPR(Combing Reciprocity-based Peer Recommendation Model),詳細描述見算法1。
算法1基于混合互惠性的雙向推薦算法CRBPR
Input: Service Userr,
N number of recommendation candidatesc
Output: List of RecommendationsRFinal
Method:
1findr’s research interests preferencePr
2foreachcandidatecdo
3/*modeling combing similarity forrandcfromr*/
4S(r,c)←CSim(r,c)
5ifS(r,c)>0thenfindc’s interests preferencePc
6/*modeling combing similarity forrandcfromc*/
7S(c,r)←CSim(c,r)
8/*calculate the content-based reciprocity forrandc
*/
9ConBRec(r,c)←f1(S(r,c),S(c,r))
10/*sort the candidates generate the candidate list of
recommendationRC*/
11for?i≤N
12IfConBRec(r,ci)>ConBRec(r,ci+1)then
13sortR{c1,c2,…,cn}
14returnRC
15/*filter the candidate list*/
16foreachcandidatec∈RCdo
17/*calculate the combining reciprocity forrandc*/
18ComRec(r,c)←f2(ConBRec(r,c),CFRec(r,c))
19/*sort the candidates and generate the list of
recommendation */
20for?i≤M=|RC|
21IfComRec(r,ci)>ComRec(r,ci+1)then
22sortRC{c1,c2,…,cm}
23returnRFinal
由于多維度融合相似性CSim(u,v)是根據(jù)對科研人員概要進行挖掘,其中包括個人簡介、論文信息、科研社交網(wǎng)絡等內(nèi)容。因此本文將基于這種相似性計算得到的互惠特征稱為科研人員基于內(nèi)容的互惠性,即算法1中第9行的f1函數(shù)具體計算式如下:
ConBRec(u,v)=f1(u,v)=
(14)
式中:CSim(u,v)為候選科研人員v基于內(nèi)容滿足服務用戶u的程度;CSim(v,u)為服務用戶u基于內(nèi)容滿足候選科研人員v的程度。
本文使用調(diào)和平均數(shù)將雙方的相似度值聯(lián)系起來,通過其特有的調(diào)和作用,避免了在各自相似度值的差異度較大時對互惠性值所造成的影響。同時還可以反映用戶之間基于內(nèi)容互相選擇的程度。這說明科研人員在研究方向以及社交網(wǎng)絡連接等多維度的雙向匹配程度,可以生成基于內(nèi)容互惠的候選列表。為了提高匹配的成功率,將第3節(jié)基于協(xié)同過濾的互惠性考慮進來,通過定義科研人員的聯(lián)合互惠性,近一步過濾候選科研人員,生成最終的小同行推薦列表,詳細描述見算法1。
ComRec(r,c)=α×ConBRec(u,v)+β×CFRec(u,v)
(15)
式中:參數(shù)α和β是調(diào)節(jié)基于內(nèi)容互惠性和基于協(xié)同過濾互惠性重要性的權(quán)重因子。當在選擇小同行時,對研究內(nèi)容相關(guān)的互惠雙向匹配更看重時,可以根據(jù)訓練集的訓練結(jié)果相應地調(diào)大α的值;反之,如果科研人員更在乎歷史交互記錄中的隱式匹配成功率,就需要將β調(diào)大。根據(jù)后述在測試數(shù)據(jù)集上的實驗發(fā)現(xiàn),一般β的值都要略小于α的值,這與科研社交網(wǎng)絡中科研人員對小同行的匹配需求相符。并且,當取α=0.6,β=0.4時推薦效果最佳。
基于混合互惠性的雙向推薦,是建立在雙方研究興趣范圍一致且有鏈接建立意向的基礎(chǔ)上做出最后的推薦。通過雙向滿足和互惠互利的方式,做到了最真實、最有效的小同行推薦。
AMiner是清華大學計算機科學與技術(shù)系知識工程研究室研發(fā)的科研社會網(wǎng)絡搜索與挖掘系統(tǒng),同時也是學術(shù)大數(shù)據(jù)深度挖掘和知識服務平臺。Aimer使用機器學習方法,基于每個科研人員進行多個(科研)社交網(wǎng)絡賬戶自動關(guān)聯(lián),從各個不同的主頁以及賬戶自動抽取科研人員的相關(guān)信息。本文使用AMiner的公開數(shù)據(jù)集對模型進行描述與驗證。由于現(xiàn)有科研社交網(wǎng)站的行為數(shù)據(jù)難獲取,本文考慮從LinkedIn和Slashdot的平臺數(shù)據(jù)集中獲取。LinkedIn網(wǎng)站的用戶之間有關(guān)注/不關(guān)注的鏈接關(guān)系,關(guān)注行為可以看作是一個初始聯(lián)系,互相關(guān)注則看作是一個雙向聯(lián)系。Slashdot是一個科研朋友共享技術(shù)相關(guān)咨詢的平臺,允許用戶互相標記為“朋友(喜歡)”或者“黑名單(不喜歡)”,因此也可以提取聯(lián)系信息。結(jié)合已有的科研社交網(wǎng)絡鏈接,對科研人員的行為偏好進行挖掘。
通過對數(shù)據(jù)集做檔案匹配,提取了包含在176天內(nèi)4 000名科研人員的小同行鏈接行為記錄。其中有174 931個初始聯(lián)系,其中25.8%最終變成了雙向聯(lián)系。
實驗時,將前88天的科研人員交互行為用于訓練,剩下的數(shù)據(jù)則作為測試數(shù)據(jù)集。本文選取了在訓練集和測試集中均發(fā)送了超過5次初始聯(lián)系的科研人員作為服務用戶,大約總共有2 786個服務用戶。訓練集包含了41 558對小同行聯(lián)系,測試集包含了42 766對小同行聯(lián)系。
推薦系統(tǒng)中對推薦質(zhì)量的評估標準有很多,其中最常用的統(tǒng)計精度度量方法是準確率(Precision)、召回率(Recall)和調(diào)和平均數(shù)(F1值),它們的計算公式如下:
準確率P:成功的推薦在所有推薦中所占的比例,體現(xiàn)的是推薦成功的比率。
(16)
召回率R:成功的推薦在所有已知成功的推薦中所占的比例,體現(xiàn)的是待推薦科研人員被推薦的比率。
(17)
式中:R為科研人員u的推薦列表;U為向科研人員u發(fā)起過小同行鏈接建立聯(lián)系的科研人員集合。
綜合以上兩項指標,可用F1值來反映整體的推薦質(zhì)量:
(18)
根據(jù)互惠性的定義,小同行推薦的結(jié)果是判斷一個科研人員是否為另一個科研人員的小同行,因此可以直接通過是否建立小同行鏈接來判斷推薦的效果。另外,使用平均絕對偏差(MAE)來評估算法的精確性。
平均絕對偏差(MAE):成功的推薦結(jié)果與預測的推薦之間的平均絕對偏差。
(19)
式中:predictu為預測的推薦列表;predictu,v為對科研人員v預測的匹配結(jié)果;realu,v為對科研人員實際的匹配結(jié)果;Nu為進行預測的推薦個數(shù)。
平均絕對偏差越小,則推薦算法的效果越好。
5.3.1 基于MAE指標評價本文算法
首先基于第2節(jié)MSBPR模型的推薦結(jié)果,分別應用CFBPR模型、ROPR模型、CFRPR模型進一步對候選列表進行篩選排序,生成新的推薦列表。圖5是四種算法在不同的小同行推薦數(shù)目下,MAE值的變化情況。
圖5 基于相似性和基于互惠性算法的MAE比較
通過對比可以看出,本文所提出的小同行推薦中隱含的互惠性是有一定意義的,即使是基于傳統(tǒng)協(xié)同過濾算法的互惠性擴展,也能夠進一步降低預測結(jié)果與實際推薦結(jié)果之間的偏差。
5.3.2 基于Precision和Recall指標評價本文算法
為了近一步體現(xiàn)雙向推薦的互惠性,本節(jié)給出了兩套精度評估推薦性能的標準用于對比:
1) 基于初始聯(lián)系IC(Initial Contacts)的標準:
IC Precision@K衡量推薦的K個候選人員中服務用戶選擇聯(lián)系的科研人員數(shù)量在top K候選排名中的比例;IC Recall@K評估所有科研人員中服務用戶選擇聯(lián)系的科研人員數(shù)量在top K候選排名中的比例。第二套標準強調(diào)雙向互惠——一個初始聯(lián)系是否得到回應。
2) 基于雙向聯(lián)系RC(reciprocal-contact)的標準:
RC Precision@K評估推薦的K個候選科研人員中最后有多少與服務用戶建立了雙向聯(lián)系;RC Recall@K衡量與服務用戶建立雙向聯(lián)系中的科研人員,有多少在topK推薦排名中。
針對混合模型,本文根據(jù)不同的懲罰因子s進行了測試??傮w而言,隨著s的增加,混合模型能夠推薦更多潛在的雙向聯(lián)系,可以收獲更好的基于RC的性能以及稍微低一點的基于IC的度量值。盡管所有s值下的混合模型測試都能得到較好的性能,但本文選擇基于s=0.6與其他模型進行比較。因為這種情況下基于IC和基于RC的度量值對應的性能比較均衡。
圖6顯示了五種推薦方法的性能對比。總體上基于混合互惠性的雙向推薦模型CRBPR表現(xiàn)得最好,并且基于RC基準的混合模型CRBPR是五種方法中表現(xiàn)最好的。首先分析CFBPR、ROPR、CFRPR這三種基于協(xié)同過濾的模型分別在基于IC和RC基準上的性能差異,可以通過它們利用科研人員“品位”和“吸引力”特征的不同方式來解釋。CFBPR模型使用了科研人員的所有行為偏好信息卻忽略了吸引力信息,因此它在基于IC的基準會表現(xiàn)得稍微好些,這是因為該基準下算法的性能只依賴于單向偏好的精準捕獲。但是在基于RC的基準下,CFBPR的性能卻遠落后于ROPR和CFRPR模型。這是因為ROPR模型考慮了吸引力(通過初始聯(lián)系的回復情況來表示)特征,但它忽略了科研人員行為數(shù)據(jù)中隱含的負反饋偏好。因此,ROPR模型在推薦符合科研人員“品位”的小同行時表現(xiàn)得較差,但提高了推薦用戶被科研人員所吸引的可能。而混合模型CFBPR利用了這三種信息——用戶的品位、吸引力和負反饋偏好,因此它在三者中總體上有更好的性能。然后,觀察基于協(xié)同過濾互惠性的雙向推薦模型CFBPR與基于混合互惠性的雙向推薦模型CRBPR在小同行推薦結(jié)果基于RC的精度對比。可以發(fā)現(xiàn),在推薦數(shù)目較小的時候,二者的差距不是很明顯,但隨著推薦數(shù)目的增加,基于RC的召回率呈上升的趨勢。這是因為在大規(guī)模數(shù)據(jù)集中,召回率和準確率是兩個互相制約的指標,召回率體現(xiàn)的是查全率,因此隨著K的增大,召回率會相應地提高,而準確率則會逐漸下降。此時混合互惠性的優(yōu)勢也逐漸凸顯,基于協(xié)同過濾的互惠性效果次之,但都要明顯優(yōu)于其余三種算法。
5.3.3 基于F值指標評價本文算法
圖7是對本文提出的算法進行基于F值的對比??梢钥吹交谟脩魠f(xié)同過濾推薦和基于內(nèi)容相似性的推薦都只是將科研人員推薦給目標人員,而基于互惠性的考慮需要進行兩次這樣的單向匹配,從而進一步縮小了推薦范圍,因此能夠更加準確地定位候選推薦小同行。
圖7 基于相似性和基于互惠性算法的F值比較
從圖7中可以看出,考慮互惠性的算法CFRPR和CRBPR的F值都要略高于其他的推薦算法,進一步證明了互惠性在小同行推薦中的優(yōu)化意義,使整體推薦效果有了明顯的提高。
5.3.4 評價不同α值對推薦結(jié)果的影響
針對算法CRBPR,為了檢測不同權(quán)重值條件下混合互惠性算法的性能情況,進而反映基于協(xié)同過濾的隱式互惠和基于內(nèi)容的顯式互惠對用戶選擇的影響程度,通過對α和β設(shè)置不同的值,來對比推薦成功率的高低。成功率的定義是:科研人員選擇與候選人員建立小同行鏈接,則算成功。由于β=1-α,因此本節(jié)通過設(shè)置不同的α值來觀察變化,如圖8所示??梢钥闯觯敠练謩e取0和1時,推薦的成功率都相對較低。這表明單純地考慮顯式互惠性或者隱式互惠性都無法全面地度量用戶之間的互惠偏好,從而影響推薦的成功率。當α取0.6左右時,推薦的成功率最高,這與真實應用場景中,科研人員在選擇小同行時更看重研究內(nèi)容的雙向匹配度相符合。
圖8 權(quán)重α與推薦成功率之間的關(guān)系
5.3.5 針對冷啟動問題評估本文算法
由于雙向推薦是基于兩個科研人員的偏好出發(fā)進行建模,針對沒有任何行為記錄和科研成果等內(nèi)容時,雙向推薦可以通過對候選人偏好賦予完全權(quán)重來實現(xiàn)推薦,很好地解決了冷啟動問題。圖9是將兩個基于互惠性的雙向推薦算法CFRPR和CFBPPR,與不考慮互惠性的算法MSBPR和CFBPR針對新老科研人員的推薦成功率進行比較。其中MSBPR和CFBPR在遇到新注冊科研人員的冷啟動問題,采用近鄰科研人員的偏好相似來處理。
圖9 新老用戶推薦成功率對比
可以看出來,相對于已經(jīng)在科研社區(qū)活躍一段時間的科研人員來說,為新科研人員推薦小同行的成功率普遍要低一些。這是因為新的科研人員缺少必要的信息支持,難以識別他/她無論是基于研究方向還是歷史行為的偏好。但與傳統(tǒng)的基于的推薦方法相比,針對同一組新注冊的科研人員,雙向推薦的成功率有了一定程度的提高。例如圖中的TOP10推薦,雙向推薦小同行的成功率大約可以達到30%左右,這是由于通過考慮候選科研人員的偏好,相比傳統(tǒng)地通過近鄰用戶的偏好來近似處理的方法,能夠盡可能地過濾出互惠的推薦,提高推薦的成功率。
5.3.6 其他實驗探索
通過基于不同實驗視角的對比,也發(fā)現(xiàn)了一些其他有趣的事實。在實驗中將使用小同行推薦服務的科研人員分為兩組:
1) 成功推薦組SR:推薦算法至少向其推薦了一位成功建立小同行雙向鏈接的科研人員;
2) 未成功推薦組UR:所有其他使用小同行推薦服務的科研人員。
根據(jù)t檢驗結(jié)果,SR組中的所有科研人員都比UR組中的科研人員發(fā)送了更多的好友請求(平均每個用戶發(fā)送的信息數(shù)為47.7 vs 28.9)。這也是協(xié)同過濾推薦的特點——科研人員更活躍地與他人聯(lián)系,推薦系統(tǒng)就能夠獲取更多關(guān)于其品味和吸引力的信息,推薦因此會更有效。
此外,所有模型在基于IC的基準下對于較年輕的科研人員表現(xiàn)得更好,而較年長的科研人員則在基于RC的基準下有更好的性能表現(xiàn)。這是因為年長科研人員普遍來說相比年輕科研人員更少主動發(fā)起鏈接請求,因此能夠獲取到關(guān)于其行為偏好的信息更少,從而導致較差的基于IC基準的表現(xiàn)。然而,可能因為年長科研人員的科研成果較多,當其要與科研人員建立小同行聯(lián)系時,得到回復的概率更大(41.7% vs 年輕科研人員的21.4%)。因此通過這些雙向聯(lián)系仍然能夠捕獲他/她們的吸引力,從而獲得與年輕科研人員相近的基于RC基準的表現(xiàn)。
小同行推薦的應用場景本質(zhì)上是用戶到用戶的推薦,參與的雙方既是使用推薦服務的用戶,又是待推薦用戶。他們不僅在研究興趣偏好和行為偏好上相似,而且雙方的偏好都需要得到滿足,達到互惠的推薦效果。針對這種特征,本文提出了一種基于互惠性的雙向推薦方法。分別從基于協(xié)同過濾的角度以及融合基于內(nèi)容的互惠相似性進行候選列表的過濾篩選。與傳統(tǒng)的推薦方法相比,可以很好地解決推薦系統(tǒng)中新用戶存在的冷啟動問題,同時能提高小同行匹配的成功率,從而優(yōu)化推薦的效果。
由于雙向推薦是一個新興的研究熱點,所以本文的研究還有待于進一步地深入完善。通過加入一些敏感性分析(例如改變用戶池、改變測試/訓練的時間段等)來進一步提高混合模型的效果和魯棒性。另外,由于本文主要針對科研社交網(wǎng)絡中的小同行推薦研究,如何將該推薦方法完善優(yōu)化,以應用到其他領(lǐng)域基于互惠性的推薦問題中,例如高校申請網(wǎng)絡(高校學生和高校作為節(jié)點)、求職網(wǎng)絡(求職者和招聘單位作為節(jié)點)等,將是下一步的研究重點。