国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖卷積神經(jīng)網(wǎng)絡(luò)的在線社區(qū)行為預(yù)測(cè)

2021-05-06 09:38郝宇辰
關(guān)鍵詞:卷積協(xié)作節(jié)點(diǎn)

劉 臣,李 秋,郝宇辰

(上海理工大學(xué),上海 200093)

0 引 言

隨著信息技術(shù)的發(fā)展,特別是互聯(lián)網(wǎng)的發(fā)展,知識(shí)以“爆炸式”地增長(zhǎng),越來越多的人參與到知識(shí)的生產(chǎn)和傳播過程中。其中,社會(huì)化問答是近年來興起的一種在線知識(shí)社區(qū)。它是一種為用戶提供信息的網(wǎng)絡(luò)社區(qū),所提供的信息是用戶生成內(nèi)容和用戶評(píng)價(jià)內(nèi)容[1]。因此,社區(qū)上的用戶既可以是知識(shí)的接收者也可以是知識(shí)的傳播者或生產(chǎn)者,如:用戶A在社區(qū)提出問題,并通過他人回答而獲取知識(shí)充當(dāng)知識(shí)接收者;再者用戶A也可回答他人問題充當(dāng)知識(shí)生產(chǎn)者或傳播者。這類社區(qū)是圍繞信息需求所建立的社區(qū),并引入人與人之間在互聯(lián)網(wǎng)上的社交性,從而達(dá)到直接幫助提問者獲取信息的目的。

目前社會(huì)化問答社區(qū)的研究主要分為以下幾個(gè)方面,首先,是基于傳統(tǒng)知識(shí)管理的研究。從知識(shí)管理的角度,傳統(tǒng)的知識(shí)管理更多的是應(yīng)用在企業(yè)組織管理中。但是隨著互聯(lián)網(wǎng)和社交媒體逐漸成熟,在線知識(shí)社區(qū)也成了知識(shí)管理系統(tǒng)的一個(gè)著名示例[2]。其中M. M .Wasko等人[3]通過對(duì)知識(shí)貢獻(xiàn)模型進(jìn)行實(shí)證研究,發(fā)現(xiàn)知識(shí)可以提高工作者的職業(yè)聲譽(yù),當(dāng)從組織結(jié)構(gòu)上嵌入到社交網(wǎng)絡(luò)中時(shí),通過分享工作者的經(jīng)驗(yàn),可以貢獻(xiàn)他們的知識(shí)。Pi等人[4]將知識(shí)共享視為社區(qū)中的個(gè)人行為決策,來探索哪種分享行為可以幫助個(gè)人參與者在在線社區(qū)中獲得更好的地位,進(jìn)而提高社會(huì)地位、聲譽(yù)以及提升工作者對(duì)其他社交網(wǎng)絡(luò)興趣。J. S. Kowk等人[5]提出了一個(gè)基于分散式P2P技術(shù)的虛擬知識(shí)共享社區(qū)的構(gòu)想。在社區(qū)中,每個(gè)成員都扮演著平等的知識(shí)生產(chǎn)、接受和協(xié)調(diào)的角色。通過相關(guān)研究,表明社區(qū)用戶扮演的知識(shí)生產(chǎn)角色對(duì)知識(shí)共享起到了積極作用。對(duì)于這一方面的研究,在線知識(shí)社區(qū)的研究還只是基于傳統(tǒng)的企業(yè)管理中,沒有涉及到用戶社交網(wǎng)絡(luò)這個(gè)層次。針對(duì)這個(gè)局限,有學(xué)者從用戶信息行為角度研究了在線知識(shí)社區(qū)中用戶的一些知識(shí)互動(dòng)行為。

其次,基于用戶信息行為角度的研究。具體來說,包括知識(shí)獲取、知識(shí)貢獻(xiàn)、知識(shí)共享等行為來研究在線知識(shí)社區(qū)中用戶的知識(shí)互動(dòng)行為[6-8]。Suh和Wagner[9]發(fā)現(xiàn)員工通過游戲化地使用企業(yè)協(xié)作系統(tǒng),對(duì)于員工的知識(shí)貢獻(xiàn)是有利的。Ardichvili等人[10]研究表明,信任可以消除知識(shí)貢獻(xiàn)的障礙。Fadel和Durcikova[11]認(rèn)為驗(yàn)證的過程中公平感會(huì)對(duì)用戶的貢獻(xiàn)知識(shí)質(zhì)量和貢獻(xiàn)行為產(chǎn)生正向影響?;谟脩粜畔⑿袨榈难芯?,雖然涉及了用戶,但沒有涉及用戶與用戶之間的社交行為。

最后,部分學(xué)者結(jié)合傳統(tǒng)社會(huì)理論和計(jì)算機(jī)信息技術(shù)來研究用戶行為影響因素。基于傳統(tǒng)社會(huì)理論,張寶生等人[12]運(yùn)用經(jīng)典扎根理論方法,研究用戶知識(shí)貢獻(xiàn)行為意向的影響因素。徐揚(yáng)等人[13]從社會(huì)化影響理論的視角研究聲譽(yù)系統(tǒng)與知識(shí)分享的關(guān)系,并探究社會(huì)化影響的兩種機(jī)制,來研究用戶的知識(shí)分享行為的影響因素。Jin等人[14]以知識(shí)共享理論和知識(shí)自我效能感知理論為基礎(chǔ),利用問卷調(diào)查的方式探索用戶在Yahoo!Answers上持續(xù)貢獻(xiàn)知識(shí)的原因。樊彩鋒等[15]從社會(huì)資本理論和主觀規(guī)范視角探索用戶愿意回答其他用戶提出問題的動(dòng)因,結(jié)果顯示影響用戶貢獻(xiàn)答案的關(guān)鍵原因是為了互惠?;谟?jì)算機(jī)信息技術(shù),F(xiàn)urtado等人[16]對(duì)用戶在社會(huì)化問答網(wǎng)站上的行為數(shù)據(jù)(如回答問題的個(gè)數(shù)、提問的個(gè)數(shù)、評(píng)論的個(gè)數(shù)等)進(jìn)行聚類分析,進(jìn)而找出在不同主題領(lǐng)域下的專家和具有高動(dòng)機(jī)性的積極貢獻(xiàn)者,這有助于分配新問題給潛在的回答者。Yang M等人[17]基于自然語言的方法處理問題和潛在答案的關(guān)系,將問題和潛在的答案在嵌入空間中表示。根據(jù)給定問題的語義相似性對(duì)可能的答案進(jìn)行排序,實(shí)現(xiàn)了自然語言問題的語義轉(zhuǎn)化。Chen L等人[18]通過基于文本和元數(shù)據(jù)特征的方法建立了一個(gè)預(yù)測(cè)模型來識(shí)別用戶對(duì)于新問題的回答意圖。Liu Y等人[19]通過預(yù)測(cè)一個(gè)提問的作者是否會(huì)對(duì)社區(qū)參與者回答作者問題感到滿意的角度,提出了一個(gè)預(yù)測(cè)模型,這個(gè)模型加入了社區(qū)內(nèi)容,社區(qū)結(jié)構(gòu)和社區(qū)中心性特性。Xiang S 等人[20]提出了一種基于多維標(biāo)度的數(shù)據(jù)重組方法來預(yù)測(cè)提問者的意圖,并根據(jù)提問意圖提供相應(yīng)的答案,以幫助用戶找到有用的信息??偟膩碚f,基于計(jì)算機(jī)信息技術(shù)方面的研究是涉及到了回答者和提問者,但是還是存在一定的問題,沒有涉及提問者和回答者在社交網(wǎng)絡(luò)中存在的潛在結(jié)構(gòu)關(guān)系。

基于以上研究,在線知識(shí)社區(qū)方面的研究已經(jīng)取得了一定的成果,但是同時(shí)也存在一些問題值得繼續(xù)探索。目前,在線知識(shí)社區(qū)領(lǐng)域側(cè)重知識(shí)管理和信息行為的研究很少涉及用戶,即使涉及也過于籠統(tǒng)地將社區(qū)的用戶看作一個(gè)整體而不區(qū)分用戶的屬性。而涉及用戶的研究主要從社區(qū)平臺(tái)的知識(shí)貢獻(xiàn)角度出發(fā),更多是強(qiáng)調(diào)了社區(qū)用戶對(duì)于社區(qū)知識(shí)的貢獻(xiàn)。因此針對(duì)以上問題,該文從在線社區(qū)平臺(tái)的社交屬性和問答屬性兩方面進(jìn)行更加全面的分析,提出了有效的用戶協(xié)作行為預(yù)測(cè)模型。并且,跳脫出傳統(tǒng)方法局限,采用基于圖卷積神經(jīng)網(wǎng)絡(luò)的方法。這種方法不僅能夠利用用戶自身屬性信息,還能夠更加深層地挖掘用戶在網(wǎng)絡(luò)中的潛在的結(jié)構(gòu)信息。從而可以更全面地捕獲用戶在社區(qū)中的信息,使得預(yù)測(cè)更加接近事實(shí)。

并且針對(duì)在線知識(shí)社區(qū)用戶協(xié)作行為研究數(shù)據(jù)集的缺失問題,新建了一個(gè)專門針對(duì)此項(xiàng)問題研究的數(shù)據(jù)集。其中“知乎”是目前中國影響力較大的知識(shí)社區(qū),因此該文以“知乎”為例。從用戶的角度出發(fā),結(jié)合知識(shí)社區(qū)社交屬性和問答屬性兩方面的特征,探究知識(shí)社區(qū)中用戶協(xié)作行為。

貢獻(xiàn)在于:

(1)實(shí)現(xiàn)在線知識(shí)社區(qū)用戶協(xié)作行為的預(yù)測(cè)與鏈路預(yù)測(cè)相關(guān)聯(lián),提出基于圖卷積的用戶協(xié)作行為預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)模型。

(2)采集了基于知乎的新的數(shù)據(jù)集,可用于在線知識(shí)社區(qū)用戶協(xié)作行為預(yù)測(cè)的研究。

(3)提出的方案在數(shù)據(jù)上超過以前方法。

1 問題描述

預(yù)測(cè)在線知識(shí)社區(qū)中用戶的協(xié)作行為可以用于領(lǐng)域?qū)<彝扑]。對(duì)于用戶角度而言,用戶在社區(qū)提出問題,該模型會(huì)預(yù)測(cè)出最有可能來回答這個(gè)問題的其他用戶,進(jìn)而來解決提問用戶的問題。對(duì)于管理平臺(tái)而言,領(lǐng)域?qū)<矣欣诖龠M(jìn)社區(qū)的知識(shí)再創(chuàng)造,保持社區(qū)的持續(xù)發(fā)展。因此預(yù)測(cè)用戶的協(xié)作行為不僅有益于個(gè)人也有益于社區(qū)長(zhǎng)遠(yuǎn)利益的發(fā)展。

1.1 在線知識(shí)社區(qū)用戶協(xié)作行為的概念

在線知識(shí)社區(qū)融合了社交平臺(tái)和問答平臺(tái)二者的屬性,因此具有社交特性和問答特性。以“知乎”網(wǎng)站為例,“知乎”是目前中國影響力較大的知識(shí)社區(qū),該社區(qū)的問答主要是以“話題”的形式劃分。在線知識(shí)社區(qū)用戶協(xié)作行為在問答社區(qū)中發(fā)生的,是用戶在知識(shí)社區(qū)中協(xié)作解決問題的一個(gè)過程,是用戶協(xié)作行為(兩個(gè)或者兩個(gè)以上的人協(xié)調(diào)合作,一起解決問題的過程)的一種特殊情形。在這種行為中,一個(gè)用戶在多個(gè)話題下提問和回答是很普遍的現(xiàn)象。其中假設(shè)社區(qū)中一個(gè)用戶u1提出問題,其他用戶U={u1,u2,…,un}作答,用戶從提問到產(chǎn)生答案的過程見圖1。

圖1 用戶提問和產(chǎn)生答案

用戶u1提出問題到邀請(qǐng)其他用戶作答,最后產(chǎn)生答案。其他用戶之間協(xié)調(diào)合作解決了用戶u1提出的問題,因此產(chǎn)生了協(xié)作行為。其他用戶作答的過程本質(zhì)上是回答者用戶之間的交互過程,他們回答同一個(gè)問題就會(huì)在社區(qū)中產(chǎn)生交際,以此種方式交互的回答者用戶就構(gòu)成了龐大的社交關(guān)系網(wǎng)絡(luò)。

1.2 在線知識(shí)社區(qū)用戶協(xié)作網(wǎng)絡(luò)

在線知識(shí)社區(qū)具有社交屬性,社區(qū)中用戶之間并不是孤立存在的,而是存在一定的關(guān)系,多個(gè)用戶之間的關(guān)系必然會(huì)構(gòu)成網(wǎng)絡(luò)。傳統(tǒng)的網(wǎng)絡(luò)構(gòu)建方法主要是基于用戶之間的關(guān)注與被關(guān)注關(guān)系,用戶只要是根據(jù)關(guān)注列表來構(gòu)建網(wǎng)絡(luò),因此只能聚焦某一個(gè)話題,緊密鏈接一小部分用戶,這樣的樣本來反映社區(qū)的情況不具有代表性。該文是根據(jù)抓取“知乎”一個(gè)大的話題及其子話題下的主頁,通過話題下用戶之間的提問和回答構(gòu)建網(wǎng)絡(luò)。相比根據(jù)用戶關(guān)注關(guān)系抓取的的內(nèi)容更豐富,也更具代表性。

此外,該文選取用戶作為網(wǎng)絡(luò)中的節(jié)點(diǎn),根據(jù)用戶的答題行為構(gòu)建協(xié)作網(wǎng)絡(luò)。社區(qū)中用戶通過回答同一個(gè)提問的方式在知識(shí)社區(qū)中就構(gòu)成了一個(gè)相互協(xié)作的社交網(wǎng)絡(luò)。因此構(gòu)建網(wǎng)絡(luò)的具體方式如圖2所示。

圖2 用戶協(xié)作網(wǎng)絡(luò)

假設(shè)用戶U1和用戶U2為社區(qū)中的兩個(gè)用戶,如果他們都回答了問題q1,說明他們對(duì)同樣的話題感興趣或者具有這個(gè)話題的相關(guān)領(lǐng)域的知識(shí)背景,就產(chǎn)生了協(xié)作回答問題的行為。其他用戶同理如此,協(xié)作回答了q1,q2,…,q8,因此他們之間相互鏈接,形成了更大更密集的協(xié)作網(wǎng)絡(luò)。

1.3 在線知識(shí)社區(qū)用戶協(xié)作行為預(yù)測(cè)

在線知識(shí)社區(qū)用戶協(xié)作行為預(yù)測(cè),就是根據(jù)用戶的答題行為構(gòu)建的協(xié)作網(wǎng)絡(luò)來預(yù)測(cè)節(jié)點(diǎn)之間是否存在邊。如圖3所示,表示通過構(gòu)建的社交網(wǎng)絡(luò)結(jié)構(gòu)信息,預(yù)測(cè)未來一段時(shí)間內(nèi)社交用戶u和用戶v之間可能會(huì)產(chǎn)生新的鏈接關(guān)系。而有無這種鏈接關(guān)系代表當(dāng)一個(gè)新的問題出現(xiàn),用戶u和用戶v未來是否會(huì)產(chǎn)生協(xié)作。用公式化表達(dá),給定一個(gè)用戶協(xié)作網(wǎng)絡(luò)A=(V,E)表示無權(quán)無向網(wǎng)絡(luò),其中V={v1,v2,…,vn}表示網(wǎng)絡(luò)中所有節(jié)點(diǎn)的集合,對(duì)應(yīng)為用戶的集合,給定目標(biāo)鏈接節(jié)點(diǎn)對(duì)(vx,vy),vx和vy之間的鏈接可能性定義為p,其值越高,鏈接可能性越大。該模型通過構(gòu)建端到端模型,將網(wǎng)絡(luò)A輸入到模型中,模型學(xué)習(xí)一個(gè)函數(shù)f(·),最后得到鏈接預(yù)測(cè)的值。公式表達(dá)為:

A→f(·)→p

(1)

圖3 用戶協(xié)作行為預(yù)測(cè)

2 用戶協(xié)作行為預(yù)測(cè)模型

協(xié)作行為預(yù)測(cè)是基于深度圖卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的。給定一個(gè)網(wǎng)絡(luò)A,目標(biāo)是自動(dòng)學(xué)習(xí)一種能夠很好地解釋鏈接信息。具體來說,通過GCN來預(yù)測(cè)某兩個(gè)節(jié)點(diǎn)x,y之間是否存在鏈接時(shí),需要將x節(jié)點(diǎn)和y節(jié)點(diǎn)的鄰接節(jié)點(diǎn)并集以及節(jié)點(diǎn)之間的邊形成的封閉子圖作為模型的輸入。因此將龐大的網(wǎng)絡(luò)隨機(jī)采樣一些節(jié)點(diǎn)對(duì),并抽取它們的封閉子圖,其中60%樣本作為訓(xùn)練集,20%作為驗(yàn)證集,其余為測(cè)試集。為了使得模型的效果更加精確,對(duì)每個(gè)封閉子圖構(gòu)建信息矩陣Χ,其中Χ的每一行代表著對(duì)應(yīng)節(jié)點(diǎn)的特征。

2.1 構(gòu)建節(jié)點(diǎn)信息矩陣Χ

Χ主要由標(biāo)簽信息以及其他特征組成,值得注意的是這里的標(biāo)簽并不是最后用來計(jì)算損失函數(shù)的分類標(biāo)簽,而是代表著某個(gè)節(jié)點(diǎn)與兩個(gè)目標(biāo)節(jié)點(diǎn)x,y的相對(duì)位置特征。依照Zhang等人[21]提出的方法,添加標(biāo)簽的過程是利用函數(shù)fl:V→,為封閉子圖中的節(jié)點(diǎn)i分配一個(gè)整數(shù)標(biāo)簽fl(i)。目的是利用不同的標(biāo)記來區(qū)別封閉子圖中的節(jié)點(diǎn)的不同地位:

(1)中心節(jié)點(diǎn)x與y為目標(biāo)節(jié)點(diǎn);

(2)與中心節(jié)點(diǎn)相對(duì)應(yīng)位置的節(jié)點(diǎn)對(duì)鏈接是否存在具有不同的結(jié)構(gòu)重要性。

恰當(dāng)?shù)墓?jié)點(diǎn)標(biāo)簽應(yīng)當(dāng)標(biāo)出這種重要性的區(qū)別。如果不將這種區(qū)別標(biāo)記出來,GCN就不能分辨出需要預(yù)測(cè)的鏈接,并且會(huì)造成結(jié)構(gòu)信息丟失。

標(biāo)簽方法源自如下準(zhǔn)則:

(1)兩個(gè)目標(biāo)節(jié)點(diǎn)x和y具有特殊標(biāo)簽“1”;

(2)如果d(i,x)=d(j,x)且d(i,y)=d(j,y),則節(jié)點(diǎn)i和j具有相同的標(biāo)簽。

第2條準(zhǔn)則的想法是,直覺上節(jié)點(diǎn)i在封閉子圖中的拓?fù)湮恢每梢杂善渑c兩個(gè)目標(biāo)節(jié)點(diǎn)的距離確定,即(d(i,x),d(j,y))。因此,令處于相同拓?fù)浣Y(jié)構(gòu)的節(jié)點(diǎn)具有相同的標(biāo)簽,節(jié)點(diǎn)的標(biāo)簽是信息矩陣的一部分,反映了節(jié)點(diǎn)在封閉子圖中的相對(duì)位置和結(jié)構(gòu)重要性。

基于上述兩個(gè)準(zhǔn)則,根據(jù)DRNL(double-radius node labeling)節(jié)點(diǎn)標(biāo)簽方法,fl(i)與(d(i,x),d(j,y))的關(guān)系滿足:

如果d(i,x)+d(i,y)≠d(j,x)+d(j,y),則d(i,x)+d(i,y)

如果d(i,x)+d(i,y)=d(j,x)+d(j,y),則d(i,x)d(i,y)

DNRL(double-radius node labeling)節(jié)點(diǎn)標(biāo)簽方法的優(yōu)勢(shì)在于擁有完美的hash函數(shù)。

fl(i)=1+min(dx,dy)+

(2)

節(jié)點(diǎn)標(biāo)簽后,利用one-hot編碼來構(gòu)建Χ。

2.2 圖卷積層

在線知識(shí)社區(qū)具有社交網(wǎng)絡(luò)的結(jié)構(gòu)特性,因此學(xué)習(xí)網(wǎng)絡(luò)的潛在特征對(duì)于用戶協(xié)作行為的預(yù)測(cè)十分重要。Muhan Zhang等人[22]提出了端到端的學(xué)習(xí),如給定一個(gè)用戶行為圖為A和它的節(jié)點(diǎn)信息矩陣Χ,將圖卷積定義為:

(3)

為了提取多尺度的子結(jié)構(gòu)特征,將多個(gè)圖卷積層(3)疊加如下:

(4)

其中,Z0=X,Zt∈n×ct是第t個(gè)圖卷積層的輸出,ct是第t層的輸出通道數(shù)。經(jīng)過多個(gè)圖卷積層后,添加一個(gè)層來連接輸出Zt,t=1,2,…,h形成一連串輸出,寫成Z1:h=[Z1,Z2,…,Zh],這里h是圖卷積層數(shù)。在連接輸出Z1:h中,每一行都可以看作是一個(gè)節(jié)點(diǎn)的“特征描述符”,編碼用戶的多尺度局部子結(jié)構(gòu)信息。

2.3 The SortPooling 層

可以根據(jù)用戶在圖中的結(jié)構(gòu)角色來排序,The SortPooling層作為圖卷積層與傳統(tǒng)層之間的橋梁,它可以通過記住輸入的排序順序?qū)⑻荻葌鬟f回之前的層,使得之前層參數(shù)的訓(xùn)練成為可能。

2.4 模型整體架構(gòu)

模型整體的架構(gòu)如圖4所示,將構(gòu)建的用戶協(xié)作網(wǎng)絡(luò)抽取一個(gè)以鏈接周圍(如A,B和C,D)的封閉子圖為輸入,輸出一個(gè)鏈接存在的可能性函數(shù)。為了學(xué)習(xí)該函數(shù),在抽取的封閉子圖上訓(xùn)練一個(gè)圖神經(jīng)網(wǎng)絡(luò)。訓(xùn)練好的函數(shù)最后得到預(yù)測(cè)結(jié)果p。

圖4 用戶協(xié)作行為預(yù)測(cè)模型

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)介紹與預(yù)處理

該文采用python爬取知乎社區(qū)一個(gè)話題下的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),該數(shù)據(jù)是在2019年5月爬取的“機(jī)器學(xué)習(xí)”整個(gè)話題的數(shù)據(jù),數(shù)據(jù)包括討論區(qū)和精華區(qū),總共爬取34 514條數(shù)據(jù)。將原始數(shù)據(jù)整理到數(shù)據(jù)庫中,數(shù)據(jù)內(nèi)容包括回答者的id、提問者的id、回答者文本、提問者文本、點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)等等。

首先篩選出作者提問者的id和回答者的id,由于構(gòu)建網(wǎng)絡(luò)是以用戶作為節(jié)點(diǎn),問題作為邊,如果兩個(gè)用戶id不同,但是回答同樣一個(gè)問題,則二者構(gòu)成一條邊,以這種方式構(gòu)建成社交網(wǎng)絡(luò),從中選取最大聯(lián)通子圖(節(jié)點(diǎn)3 264個(gè))作為用戶協(xié)作網(wǎng)絡(luò)輸入到模型中,如圖5所示。

圖5 最大聯(lián)通子圖

3.2 評(píng)價(jià)指標(biāo)

3.2.1 準(zhǔn)確率

準(zhǔn)確率是分類正確的樣本占總樣本個(gè)數(shù)的比例,即:

(5)

其中,ncorrect為被正確分類的樣本個(gè)數(shù),ntotal為總樣本個(gè)數(shù)。

3.2.2 AUC指標(biāo)

采用ROC曲線下的面積AUC值指標(biāo)作為評(píng)價(jià)該模型的優(yōu)劣的衡量標(biāo)準(zhǔn)??梢岳斫鉃橥ㄟ^抽樣計(jì)算時(shí),AUC分別從測(cè)試集隨機(jī)選擇有鏈接的得分和隨機(jī)抽取無鏈接的得分,測(cè)試集中樣本預(yù)測(cè)存在鏈接和不存在鏈接的預(yù)測(cè)分值的概率,AUC計(jì)算方式如下:

(6)

其中,n表示總的采樣次數(shù),n1表示n次采樣中測(cè)試集中存在鏈接比不存在鏈接分值大的次數(shù),n2表示n次采樣中兩者分值相等的次數(shù)。AUC值越高,算法效果越好。

3.3 實(shí)驗(yàn)介紹

為了評(píng)價(jià)提出的模型在在線知識(shí)社區(qū)協(xié)作行為預(yù)測(cè)的有效性,選擇了經(jīng)典的預(yù)測(cè)方法作為對(duì)比,選擇Accuracy、AUC作為衡量指標(biāo)。其中選擇的經(jīng)典預(yù)測(cè)方法包括共同鄰居數(shù)(common neighbors,CN)、余弦相似度(Salton)、Sorensen系數(shù)、HPI系數(shù)、HDI系數(shù)、鄰居貢獻(xiàn)(adamic-adar,AA)、局部路程(local path,LP)等作為對(duì)比。文中用戶協(xié)作網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量是3 264個(gè),邊的數(shù)量是9 601個(gè)。模型的主要參數(shù)設(shè)置見表1。其中模型訓(xùn)練設(shè)置是batchsize為32,優(yōu)化器使用Adam優(yōu)化器,學(xué)習(xí)率為0.01,訓(xùn)練15個(gè)epoch,損失函數(shù)是用分類損失函數(shù)交叉熵,公式如下:

L=-[Ylogp+(1-Y)log(1-p)]

(7)

表1 主要參數(shù)設(shè)置

3.4 實(shí)驗(yàn)結(jié)果

將文中模型和其他經(jīng)典預(yù)測(cè)方法在爬取的“知乎”數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。為了方便說明,將文中提出的模型命名為DGCNN模型。為了更直觀地觀察DGCNN模型的效果,分別計(jì)算Accuracy、AUC值。與其他模型比較后的實(shí)驗(yàn)結(jié)果見表2。

表2 不同模型的Accuracy 、AUC值比較

3.5 結(jié)果分析

如表2所示,DGCNN模型較其他的經(jīng)典模型CN和LP等具有更好的效果。與其他經(jīng)典的預(yù)測(cè)方法相比較,DGCNN使用了圖卷積神經(jīng)網(wǎng)絡(luò)來訓(xùn)練模型,能夠更加全面地利用用戶協(xié)作網(wǎng)絡(luò)中的結(jié)構(gòu)信息,從而使得模型訓(xùn)練的信息更加豐富,進(jìn)而預(yù)測(cè)結(jié)果更加準(zhǔn)確。存在一點(diǎn)不足,就是模型的運(yùn)行效率比其他的預(yù)測(cè)模型要低一點(diǎn)。但是DGCCN模型在“知乎”數(shù)據(jù)上得到了最好的效果,說明在線知識(shí)社區(qū)用戶之間的協(xié)作行為預(yù)測(cè)是有實(shí)際意義的。

4 結(jié)束語

針對(duì)在線知識(shí)社區(qū)用戶協(xié)作行為預(yù)測(cè)問題,解釋了在線知識(shí)社區(qū)用戶協(xié)作行為的概念并探討了用戶協(xié)作網(wǎng)絡(luò)如何構(gòu)建。由于在線知識(shí)社區(qū)存在社交屬性和問答屬性,用戶可以在社區(qū)中提出問題和回答其他用戶的問題以及參與社區(qū)中其他用戶的話題討論,形成了廣泛的人際社交關(guān)系。與通過用戶關(guān)注關(guān)系構(gòu)造的常見用戶社交網(wǎng)絡(luò)不同,該文是通過用戶回答同一問題而形成的協(xié)作網(wǎng)絡(luò)。以此方式構(gòu)建的網(wǎng)絡(luò),更有利于領(lǐng)域?qū)<业耐扑]。

以預(yù)測(cè)在線知識(shí)社區(qū)用戶協(xié)作行為為目標(biāo),構(gòu)建用戶為節(jié)點(diǎn),用戶回答為邊的知識(shí)社區(qū)用戶社交網(wǎng)絡(luò),將在線知識(shí)社區(qū)用戶協(xié)作行為的預(yù)測(cè)轉(zhuǎn)化為社區(qū)用戶之間在用戶協(xié)作網(wǎng)絡(luò)中鏈接的預(yù)測(cè),進(jìn)而提出了基于圖卷積神經(jīng)網(wǎng)絡(luò)的模型。該模型學(xué)習(xí)出一個(gè)以鏈接周圍得封閉子圖為輸入,以鏈接存在的可能性為輸出的函數(shù)。為了學(xué)習(xí)該函數(shù),在抽取的封閉子圖上訓(xùn)練一個(gè)圖卷積神經(jīng)網(wǎng)絡(luò)。與其他鏈接預(yù)測(cè)方法進(jìn)行實(shí)驗(yàn)比較發(fā)現(xiàn),提出的方法預(yù)測(cè)結(jié)果更好。

由于本研究的局限之處,筆者認(rèn)為可以從以下兩個(gè)方面展開進(jìn)一步的研究:一方面,除了學(xué)習(xí)社交網(wǎng)絡(luò)的結(jié)構(gòu)特征,可以稍微改動(dòng)模型并且加入用戶文本內(nèi)容做進(jìn)一步研究;另一方面,除了研究用戶內(nèi)容方面之外,還可以從用戶與用戶協(xié)作次數(shù)來考慮網(wǎng)絡(luò)中邊的權(quán)重問題。

猜你喜歡
卷積協(xié)作節(jié)點(diǎn)
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
基于RSSI測(cè)距的最大似然估計(jì)的節(jié)點(diǎn)定位算法
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
分區(qū)域的樹型多鏈的無線傳感器網(wǎng)絡(luò)路由算法
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種基于能量和區(qū)域密度的LEACH算法的改進(jìn)
魯渝扶貧協(xié)作進(jìn)行曲
扶貧協(xié)作中的山東力量
監(jiān)督橋 溝通橋 協(xié)作橋
奉化市| 承德市| 缙云县| 乐业县| 吴江市| 澳门| 台北市| 诸城市| 东乡| 广昌县| 赤壁市| 威信县| 定襄县| 万安县| 太和县| 宜丰县| 阳谷县| 定南县| 鞍山市| 开鲁县| 阿克| 名山县| 翁源县| 东至县| 唐海县| 鹤山市| 乌拉特中旗| 许昌县| 通道| 肥西县| 永宁县| 监利县| 若尔盖县| 海兴县| 长葛市| 于田县| 福建省| 汉寿县| 开远市| 台山市| 色达县|