張 斌 李亞婷
(1.武漢大學(xué)中國(guó)傳統(tǒng)文化研究中心; 2.武漢大學(xué)信息資源研究中心,武漢,430072)
對(duì)于研究者來(lái)講,組建一個(gè)科研團(tuán)隊(duì),要面對(duì)的首要問(wèn)題是如何找到合適的科研合作對(duì)象。在科研起步階段,大多數(shù)研究者是通過(guò)與導(dǎo)師或所在師門的同學(xué)來(lái)完成首次合作;在參加工作階段,就會(huì)和自己所在的科研團(tuán)隊(duì)進(jìn)行合作。有時(shí),研究者會(huì)碰到這樣的情況,因?yàn)槟承┭芯抗ぷ鞯男枰?,主?dòng)想要在本學(xué)科領(lǐng)域里進(jìn)行跨團(tuán)隊(duì)合作,甚至是跨學(xué)科合作,而這目前主要是靠研究者自身的社會(huì)關(guān)系和經(jīng)驗(yàn)判斷來(lái)解決。如果研究者能了解到相關(guān)內(nèi)容的研究和合作現(xiàn)狀,那么他會(huì)很容易知道自己的合作對(duì)象應(yīng)該是誰(shuí)。即使在實(shí)際合作中,研究者之間沒(méi)有聯(lián)系或者是聯(lián)系較弱,但這些信息對(duì)于他們來(lái)講也是非常重要的,至少可以提個(gè)醒,是否忽略了一些很重要的或者是具有潛在意義的合作關(guān)系,而鏈路預(yù)測(cè)在這方面可以發(fā)揮重要作用[1]。
相較于學(xué)科整體合作面貌,對(duì)學(xué)科核心作者之間的鏈路挖掘會(huì)更有針對(duì)性,對(duì)于理解未來(lái)科研合作走向也是至關(guān)重要的。但是,當(dāng)抽取核心作者并構(gòu)建網(wǎng)絡(luò)時(shí),該網(wǎng)絡(luò)相較于原網(wǎng)絡(luò)可能會(huì)出現(xiàn)結(jié)構(gòu)上的變化,而網(wǎng)絡(luò)結(jié)構(gòu)的改變勢(shì)必會(huì)影響到最終的預(yù)測(cè)結(jié)果和預(yù)測(cè)效果。基于此,本文針對(duì)圖書館情報(bào)文獻(xiàn)學(xué)合作網(wǎng)絡(luò),抽取整體作者合作網(wǎng)絡(luò)和核心作者合作網(wǎng)絡(luò),分析兩者應(yīng)用場(chǎng)景的差異,初步探討由實(shí)驗(yàn)網(wǎng)絡(luò)結(jié)構(gòu)的改變而帶來(lái)預(yù)測(cè)結(jié)果的排序魯棒性(robustness)問(wèn)題。
如何刻畫復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)之間的相似性是數(shù)學(xué)和物理學(xué)里的一個(gè)重要理論問(wèn)題,并不容易解決?;诮Y(jié)構(gòu)相似性的鏈路預(yù)測(cè)指標(biāo)和算法只涉及到網(wǎng)絡(luò)的結(jié)構(gòu)信息。不同的相似性指標(biāo)會(huì)側(cè)重從網(wǎng)絡(luò)結(jié)構(gòu)的某一個(gè)方面來(lái)刻畫,如果目標(biāo)網(wǎng)絡(luò)在此方面的結(jié)構(gòu)特征顯著,那么就可以得到較好的預(yù)測(cè)效果,反之,則較差。數(shù)據(jù)規(guī)模[2]、聚集系數(shù)[3-4]、同配系數(shù)[5]、網(wǎng)絡(luò)效率[5]等結(jié)構(gòu)參數(shù)會(huì)對(duì)不同預(yù)測(cè)指標(biāo)的預(yù)測(cè)結(jié)果產(chǎn)生重要影響。從統(tǒng)計(jì)分析視角來(lái)看,基于鄰居節(jié)點(diǎn)的預(yù)測(cè)指標(biāo)和基于拓?fù)浣Y(jié)構(gòu)的預(yù)測(cè)指標(biāo)在各自內(nèi)部之間具有相當(dāng)程度的一致性,而擇優(yōu)連接(PA)指標(biāo)則和其他指標(biāo)之間差異性非常大[6]。從應(yīng)用效果來(lái)看,AA指標(biāo)和Katz指標(biāo)都是很有效的預(yù)測(cè)指標(biāo),能準(zhǔn)確快速地識(shí)別未知鏈路,預(yù)測(cè)結(jié)果可以用于識(shí)別共同興趣偏好和發(fā)現(xiàn)歷史合作經(jīng)歷[7]。同時(shí),對(duì)目標(biāo)網(wǎng)絡(luò)的不同抽取策略和方案會(huì)造成網(wǎng)絡(luò)結(jié)構(gòu)的擾動(dòng)(perturbation),這種擾動(dòng)會(huì)影響到鏈路預(yù)測(cè)的排序結(jié)果。
在網(wǎng)絡(luò)科學(xué)研究中,如果在移走少量節(jié)點(diǎn)后,網(wǎng)絡(luò)中的絕大部分節(jié)點(diǎn)仍然是連通的,那么稱該網(wǎng)絡(luò)的連通性對(duì)節(jié)點(diǎn)故障具有魯棒性。Albert等[8]比較了隨機(jī)網(wǎng)絡(luò)(ER網(wǎng)絡(luò))和無(wú)標(biāo)度網(wǎng)絡(luò)(BA網(wǎng)絡(luò))的連通性對(duì)節(jié)點(diǎn)去除的魯棒性,發(fā)現(xiàn)在ER網(wǎng)絡(luò)中,隨機(jī)去除網(wǎng)絡(luò)中大量節(jié)點(diǎn),則會(huì)使得網(wǎng)絡(luò)破碎成很多孤立的子網(wǎng)絡(luò);而在同樣規(guī)模的BA網(wǎng)絡(luò)中,隨機(jī)去除同樣多的節(jié)點(diǎn),網(wǎng)絡(luò)卻能保持基本的連通性,但若蓄意去除少量大度節(jié)點(diǎn)就可以破壞網(wǎng)絡(luò)的連通性。Iyer等[9]考察了在無(wú)標(biāo)度網(wǎng)絡(luò)、指數(shù)網(wǎng)絡(luò)以及部分真實(shí)網(wǎng)絡(luò)中,按照度中心性、中介中心性、接近中心性、特征向量中心性等四種節(jié)點(diǎn)排序算法以及隨機(jī)移除節(jié)點(diǎn)方法,進(jìn)行節(jié)點(diǎn)移除后對(duì)網(wǎng)絡(luò)巨片的影響,結(jié)果顯示,在高能物理合作網(wǎng)絡(luò)和網(wǎng)絡(luò)科學(xué)合作網(wǎng)絡(luò)中,度中心性和中介中心性在識(shí)別重要節(jié)點(diǎn)上都比較有效。
移除節(jié)點(diǎn)會(huì)帶來(lái)網(wǎng)絡(luò)結(jié)構(gòu)的改變。反過(guò)來(lái)看,真實(shí)復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)一般都會(huì)隨著時(shí)間而發(fā)生變化,通常表現(xiàn)在兩個(gè)方面:一是節(jié)點(diǎn)數(shù)量的增減,二是連邊數(shù)量的增減。真實(shí)復(fù)雜網(wǎng)絡(luò)的演化過(guò)程往往還是加速增長(zhǎng)的,連邊的數(shù)量比節(jié)點(diǎn)的數(shù)量增長(zhǎng)得更快[10-11]。而在實(shí)際數(shù)據(jù)采集和分析中,由于數(shù)據(jù)源、數(shù)據(jù)處理等方面的問(wèn)題,研究者很難甚至無(wú)法獲取到完整的網(wǎng)絡(luò)數(shù)據(jù)。因此,一方面是真實(shí)網(wǎng)絡(luò)在不斷演化,另一方面是獲取到的網(wǎng)絡(luò)數(shù)據(jù)并不完整,這就造成了所構(gòu)建網(wǎng)絡(luò)的結(jié)構(gòu)本身會(huì)發(fā)生擾動(dòng)。相應(yīng)地,在進(jìn)行鏈路預(yù)測(cè)時(shí),自然希望關(guān)于節(jié)點(diǎn)對(duì)之間相似性的某種排序能夠?qū)W(wǎng)絡(luò)結(jié)構(gòu)的擾動(dòng)具有一定的魯棒性。
研究選擇中文社會(huì)科學(xué)引文索引(CSSCI)數(shù)據(jù)庫(kù)收錄圖書館情報(bào)文獻(xiàn)學(xué)的來(lái)源期刊,獲取在2008—2013年期間該學(xué)科一直被連續(xù)收錄的14本期刊上發(fā)表文章的題錄數(shù)據(jù)[12],構(gòu)建整體作者合作網(wǎng)絡(luò)G0,作為初始研究對(duì)象。為了構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)擾動(dòng)的實(shí)驗(yàn)環(huán)境,需要采用節(jié)點(diǎn)移除策略,并完整的保留余下部分,相關(guān)實(shí)驗(yàn)網(wǎng)絡(luò)見表1。具體的處理過(guò)程如下:
(1)將網(wǎng)絡(luò)G0按照節(jié)點(diǎn)度值從小到大進(jìn)行抽取,即移除節(jié)點(diǎn)度小于或等于該度值的節(jié)點(diǎn),形成實(shí)驗(yàn)網(wǎng)絡(luò)。比如:按“節(jié)點(diǎn)度>1”策略,表示抽取整體作者合作網(wǎng)絡(luò)中節(jié)點(diǎn)度大于1的節(jié)點(diǎn),即移除節(jié)點(diǎn)度小于或等于1的節(jié)點(diǎn),之后余留下的網(wǎng)絡(luò),以此類推。
(2)研究假定年均發(fā)文在一篇以上的作者為核心作者。針對(duì)網(wǎng)絡(luò)G0,考慮時(shí)間跨度六年,設(shè)定節(jié)點(diǎn)度大于或等于6的節(jié)點(diǎn)為核心作者節(jié)點(diǎn),即“節(jié)點(diǎn)度>5”策略,由此抽取出核心作者合作網(wǎng)絡(luò)G0′。
表1 按不同節(jié)點(diǎn)度標(biāo)準(zhǔn)抽取的實(shí)驗(yàn)網(wǎng)絡(luò)
由于本次實(shí)驗(yàn)所構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)會(huì)發(fā)生擾動(dòng),處于相同角色的節(jié)點(diǎn),即使沒(méi)有相同的鄰居節(jié)點(diǎn),也有可能因?yàn)榻巧南嗨贫a(chǎn)生連接。預(yù)測(cè)合作關(guān)系時(shí),既要考慮結(jié)構(gòu)等價(jià)的相關(guān)指標(biāo),同時(shí)也要考慮一般等價(jià)的相關(guān)指標(biāo)。因此,這里使用的是較為常見的六種鏈路預(yù)測(cè)指標(biāo),包括基于節(jié)點(diǎn)的相似性指標(biāo)(CN指標(biāo)、AA指標(biāo)和PA指標(biāo))和基于路徑的相似性指標(biāo)(Katz指標(biāo)、RootedPageRank指標(biāo)和SimRank指標(biāo))[6]。
CN指標(biāo)[13]:sxy=Γx∩Γy。一個(gè)給定的網(wǎng)絡(luò),節(jié)點(diǎn)vx的鄰居集合為Γx,節(jié)點(diǎn)vy的鄰居集合為Γy,則它們之間的相似性定義為共同的鄰居數(shù)。
Adamic-Adar(AA)指標(biāo)[14]:
擇優(yōu)連接(PA)指標(biāo)[15]:sxy=kxky。其思想是如果參照無(wú)標(biāo)度網(wǎng)絡(luò)產(chǎn)生的原理,認(rèn)為新加入的節(jié)點(diǎn)更傾向于與大度節(jié)點(diǎn)相連接,那么可認(rèn)為兩節(jié)點(diǎn)間產(chǎn)生連邊的可能性與兩節(jié)點(diǎn)的度均有關(guān),也就是說(shuō),可認(rèn)為相似性正比于兩端點(diǎn)度的乘積(Product)。因此,PA指標(biāo)又稱為度積(DegreeProduct)指標(biāo)。
RootedPageRank(RPR)指標(biāo)[15]:受網(wǎng)頁(yè)排序算法PageRank的啟發(fā),RootedPageRank指標(biāo)假設(shè)隨機(jī)游走粒子在每走一步的時(shí)候,都以一定概率返回初始位置,該指標(biāo)又稱為帶重啟的隨機(jī)游走(RandomWalkwithRestart,RWR)。
SimRank指標(biāo)[17]:
在實(shí)際預(yù)測(cè)時(shí),AA指標(biāo)和Katz指標(biāo)是很有效的預(yù)測(cè)指標(biāo),能準(zhǔn)確快速地識(shí)別未知鏈路[7,15]。因此,這里將鏈路預(yù)測(cè)指標(biāo)AA和Katz應(yīng)用在整體作者合作網(wǎng)絡(luò)G0的連通巨片和核心作者合作網(wǎng)絡(luò)G0′,分別得到相似性計(jì)算結(jié)果的排序前10的合作組合,見表2和表3。
表2 AA指標(biāo)預(yù)測(cè)結(jié)果排名前10對(duì)比
表3 Katz指標(biāo)預(yù)測(cè)結(jié)果排名前10對(duì)比
易于理解,核心作者在科研產(chǎn)出上的能力會(huì)很強(qiáng),如果依此假定核心作者的科研活躍度也很高,會(huì)積極主動(dòng)地進(jìn)行科學(xué)交流并建立合作關(guān)系,則所挖掘出來(lái)的核心作者組合在未來(lái)便具有更高的可能性進(jìn)行科研合作,這些合作組合是應(yīng)該被挖掘出來(lái)并進(jìn)行推薦的。利用可視化工具Gephi(版本0.82)可以呈現(xiàn)出這些挖掘出來(lái)的作者組合所在的局域網(wǎng)絡(luò),從而進(jìn)行應(yīng)用場(chǎng)景討論。在具體方法上,選擇相應(yīng)的作者節(jié)點(diǎn)及其鄰居網(wǎng)絡(luò),將這些子網(wǎng)絡(luò)過(guò)濾出來(lái)。圖示中節(jié)點(diǎn)的不同著色,表明其所歸屬的社區(qū),節(jié)點(diǎn)的大小代表著度值的大小。
圖1所示為AA指標(biāo)下G0′網(wǎng)絡(luò)中核心作者“初景利”所在的局域網(wǎng)絡(luò),設(shè)鄰居網(wǎng)絡(luò)的深度為2,過(guò)濾出來(lái)的子網(wǎng)絡(luò)包含117個(gè)節(jié)點(diǎn)300條連邊。此時(shí),對(duì)于給定的作者節(jié)點(diǎn)“初景利”,利用AA指標(biāo)得到的短的排序的候選鄰居列表,就可以作為合作推薦建議給出了。
當(dāng)然,在這個(gè)推薦過(guò)程中,如果能將相關(guān)作者的研究興趣進(jìn)行關(guān)聯(lián)分析并突出出來(lái),則會(huì)更有說(shuō)服力。事實(shí)上,由于合作網(wǎng)絡(luò)的結(jié)構(gòu)形成本就會(huì)受到很多外界主客觀因素的影響,如地理距離、經(jīng)濟(jì)環(huán)境、社會(huì)信任等[18],換句話說(shuō),基于結(jié)構(gòu)相似性的預(yù)測(cè)結(jié)果也會(huì)涵蓋研究興趣這一維度,因此,依據(jù)預(yù)測(cè)結(jié)果排序構(gòu)建推薦列表也是合適的。
圖2所示為AA指標(biāo)下作者組合“初景利”和“劉細(xì)文”所在的局域網(wǎng)絡(luò)。其中,a圖為網(wǎng)絡(luò)G0的連通巨片中的局域網(wǎng)絡(luò),鄰居網(wǎng)絡(luò)的深度為1,包含60個(gè)節(jié)點(diǎn)163條連邊;而b圖為G0′網(wǎng)絡(luò)中的局域網(wǎng)絡(luò),鄰居網(wǎng)絡(luò)的深度為1,過(guò)濾出來(lái)的子網(wǎng)絡(luò)包含31個(gè)節(jié)點(diǎn)82條連邊。對(duì)比分析,b圖所示網(wǎng)絡(luò)在規(guī)模上比a圖所示網(wǎng)絡(luò)減少了一半,但所呈現(xiàn)出的鄰居節(jié)點(diǎn)則更加清晰明確,更易挖掘出潛在合作對(duì)象。
作者節(jié)點(diǎn)“初景利”和“劉細(xì)文”歸屬于同一個(gè)社區(qū),兩者之間并未建立過(guò)合作關(guān)系。在CSSCI數(shù)據(jù)庫(kù)中查找這兩人在1998—2007年所發(fā)表的論文信息,顯示兩人在這個(gè)時(shí)間段內(nèi)也沒(méi)有共同發(fā)表過(guò)論文。在2008—2013年間,初景利發(fā)表論文28篇,劉細(xì)文發(fā)表論文25篇,與這兩人都有過(guò)合作的作者(共同合作者)共有9人。這些合作論文的主題都與開放存取相關(guān),也就是說(shuō),初景利和劉細(xì)文的共同興趣偏好是有關(guān)開放存取的話題。基于一個(gè)熟人網(wǎng)絡(luò)的假設(shè),同時(shí)這兩人又具有共同的興趣偏好,他們具有很高的潛在合作的可能性,這不僅是對(duì)過(guò)去,而且對(duì)未來(lái)也是有效的。事實(shí)上,初景利和劉細(xì)文目前同在中國(guó)科學(xué)院國(guó)家科學(xué)圖書館工作,兩人相互之間是同事關(guān)系,即為熟人關(guān)系。進(jìn)一步地,如果要解讀合作關(guān)系是否成立,則需要更多的節(jié)點(diǎn)屬性信息。
圖1 核心作者“初景利”所在局域網(wǎng)絡(luò)的可視化
圖2 “初景利”和“劉細(xì)文”所在局域網(wǎng)絡(luò)的可視化對(duì)比
對(duì)比表2和表3中相應(yīng)指標(biāo)排序前10作者組合的排序位置,可以發(fā)現(xiàn),AA指標(biāo)下的作者組合不僅在結(jié)果上產(chǎn)生了變化,而且相同結(jié)果的排序位置也有了變化;但Katz指標(biāo)下的作者組合卻保持了一致,且得分?jǐn)?shù)值及其排序位置也都基本一致,因此,本次研究不再對(duì)Katz指標(biāo)下的預(yù)測(cè)結(jié)果進(jìn)行可視化分析。由于整體作者合作網(wǎng)絡(luò)G0的連通巨片和核心作者合作網(wǎng)絡(luò)G0′的結(jié)構(gòu)有所不同,于是,這種網(wǎng)絡(luò)結(jié)構(gòu)的改變會(huì)給排序結(jié)果造成多大影響,就是需要關(guān)注的問(wèn)題了。
在上述實(shí)驗(yàn)中,當(dāng)抽取核心作者并構(gòu)建網(wǎng)絡(luò)時(shí),實(shí)驗(yàn)網(wǎng)絡(luò)會(huì)出現(xiàn)結(jié)構(gòu)上的變化,這種結(jié)構(gòu)上的改變也確實(shí)影響到了最終預(yù)測(cè)結(jié)果。不妨計(jì)算AA指標(biāo)和Katz指標(biāo)在整體作者合作網(wǎng)絡(luò)G0中的預(yù)測(cè)結(jié)果,將其與核心作者合作網(wǎng)絡(luò)G0′進(jìn)行比較,計(jì)算預(yù)測(cè)結(jié)果在相同規(guī)模下的重疊情況,結(jié)果見表4。此時(shí),從重疊比例上看,Katz指標(biāo)相比AA指標(biāo),對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的改變更具有抗干擾性。
表4 整體作者合作網(wǎng)絡(luò)與核心作者合作網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的重疊情況
表1所示是2008—2013年間圖書館情報(bào)文獻(xiàn)學(xué)合作網(wǎng)絡(luò)按照不同抽取策略所形成網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征。隨著抽取節(jié)點(diǎn)度值的增大,網(wǎng)絡(luò)結(jié)構(gòu)會(huì)發(fā)生劇烈變化,同時(shí)網(wǎng)絡(luò)的同配系數(shù)也隨之增大,這意味著大度節(jié)點(diǎn)之間產(chǎn)生聯(lián)系的概率會(huì)升高。這種抽取網(wǎng)絡(luò)的行為可以看作成一種節(jié)點(diǎn)移除策略,即按照節(jié)點(diǎn)度值從小到大批量移除指定度值的節(jié)點(diǎn)。需要說(shuō)明的是,研究所使用的實(shí)驗(yàn)網(wǎng)絡(luò)是無(wú)標(biāo)度網(wǎng)絡(luò)。
相比于隨機(jī)網(wǎng)絡(luò)而言,無(wú)標(biāo)度網(wǎng)絡(luò)對(duì)于隨機(jī)節(jié)點(diǎn)故障具有極高的魯棒性。按照表1的節(jié)點(diǎn)移除策略,每次選取的節(jié)點(diǎn)都是度值很小的節(jié)點(diǎn),批量移除這些節(jié)點(diǎn)對(duì)整個(gè)網(wǎng)絡(luò)的連通性不會(huì)產(chǎn)生大的影響,見圖3,其中f為去除的節(jié)點(diǎn)數(shù)占原始網(wǎng)絡(luò)總節(jié)點(diǎn)數(shù)的比例。
圖3 批量移除節(jié)點(diǎn)后合作網(wǎng)絡(luò)的魯棒性
雖然批量移除度值很小的節(jié)點(diǎn)仍可以保證網(wǎng)絡(luò)的基本連通性,但卻很容易造成共同鄰居節(jié)點(diǎn)的缺失,這對(duì)基于共同鄰居的相似性指標(biāo)(如:CN、AA)非常不利。將表4的計(jì)算過(guò)程重新應(yīng)用到“節(jié)點(diǎn)度>3”和“節(jié)點(diǎn)度>5”的網(wǎng)絡(luò)上,以“節(jié)點(diǎn)度>5”的網(wǎng)絡(luò)為基準(zhǔn),計(jì)算基于節(jié)點(diǎn)的指標(biāo)(CN、AA、PA)和基于路徑的指標(biāo)(Katz、RootedPageRank、SimRank)的預(yù)測(cè)結(jié)果的重疊情況,見圖4。
圖4 不同預(yù)測(cè)指標(biāo)排序結(jié)果的重疊比例發(fā)展趨勢(shì)
隨著比較規(guī)模的擴(kuò)大,CN、AA、Katz指標(biāo)的重疊比例呈現(xiàn)出下降趨勢(shì),而PA、RootedPageRank、SimRank指標(biāo)的重疊比例則呈現(xiàn)出上升趨勢(shì)。一般來(lái)講,預(yù)測(cè)結(jié)果規(guī)模通常并不會(huì)很大,不妨取值為1000個(gè)。當(dāng)預(yù)測(cè)結(jié)果規(guī)模在1000個(gè)以內(nèi)時(shí),Katz指標(biāo)的重疊比例是這六個(gè)指標(biāo)中最高的,RootedPageRank指標(biāo)的重疊比例是最低的;當(dāng)預(yù)測(cè)結(jié)果規(guī)模超過(guò)1000個(gè)時(shí),Katz指標(biāo)的重疊比例下降到約60%并保持穩(wěn)定,RootedPageRank指標(biāo)的重疊比例也還是最低的。從這六個(gè)指標(biāo)的重疊比例數(shù)值和發(fā)展趨勢(shì)看,網(wǎng)絡(luò)結(jié)構(gòu)的擾動(dòng)對(duì)于Katz指標(biāo)的預(yù)測(cè)結(jié)果影響最小,對(duì)RootedPageRank指標(biāo)的預(yù)測(cè)結(jié)果影響最大。值得注意的是,當(dāng)預(yù)測(cè)結(jié)果規(guī)模超過(guò)300個(gè)時(shí),PA指標(biāo)的重疊比例上升到約70%并保持穩(wěn)定;當(dāng)預(yù)測(cè)結(jié)果規(guī)模超過(guò)1000個(gè)時(shí),PA指標(biāo)的重疊比例超過(guò)Katz指標(biāo)。這表明,網(wǎng)絡(luò)結(jié)構(gòu)的擾動(dòng)對(duì)于PA指標(biāo)的預(yù)測(cè)結(jié)果影響也較小。
本研究所構(gòu)建的核心作者合作網(wǎng)絡(luò),其基本假設(shè)是將年均發(fā)文在一篇以上的作者視為核心作者。這里將整體作者合作網(wǎng)絡(luò)G0進(jìn)行時(shí)間快照劃分,得到兩個(gè)快照網(wǎng)絡(luò),分別是2008—2011年間快照下作者合作網(wǎng)絡(luò)G1和2012—2013年間快照下作者合作網(wǎng)絡(luò)G2;之后,按節(jié)點(diǎn)度值抽取核心作者,將核心作者合作網(wǎng)絡(luò)過(guò)濾出來(lái),分別設(shè)為G1′和G2′[6]。表5設(shè)置了四種作者數(shù)據(jù)集抽取方案,始終保持G1′的節(jié)點(diǎn)度比G2′的節(jié)點(diǎn)度的值多2。
表5 作者數(shù)據(jù)集方案
不同的作者數(shù)據(jù)集抽取方案會(huì)造成網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生不同程度的擾動(dòng)。針對(duì)不同方案下的G1′和G2′進(jìn)行鏈路預(yù)測(cè),觀察預(yù)測(cè)效果的變化幅度。預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)采用F-score,其最大值記為fmax[6],方案1至方案4的評(píng)價(jià)結(jié)果對(duì)比如圖5所示。顯然,六種鏈路預(yù)測(cè)指標(biāo)在方案1和方案2下,預(yù)測(cè)效果變化不大;而從方案3開始,預(yù)測(cè)效果出現(xiàn)了較大變化,特別是方案4,預(yù)測(cè)效果變化幅度最大。
從預(yù)測(cè)效果的穩(wěn)定程度來(lái)看,AA、Katz和SimRank顯得較為穩(wěn)定,它們受到網(wǎng)絡(luò)結(jié)構(gòu)擾動(dòng)的影響相對(duì)較小。但需要指出的是,方案4對(duì)網(wǎng)絡(luò)結(jié)構(gòu)造成的破壞最大,而結(jié)果是預(yù)測(cè)效果取得了大幅提升。因此,實(shí)驗(yàn)網(wǎng)絡(luò)結(jié)構(gòu)的改變應(yīng)當(dāng)有一定限制,否則預(yù)測(cè)效果會(huì)出現(xiàn)大幅改變,即預(yù)測(cè)結(jié)果的排序魯棒性也就無(wú)從談起了。
圖5 不同作者數(shù)據(jù)集方案下fmax的比較
學(xué)科合作網(wǎng)絡(luò)屬于高凝聚性的稀疏網(wǎng)絡(luò)。在實(shí)際操作中,會(huì)根據(jù)不同研究目的采取不同抽取網(wǎng)絡(luò)的方案。由此帶來(lái)實(shí)驗(yàn)網(wǎng)絡(luò)結(jié)構(gòu)的改變,是否影響到鏈路預(yù)測(cè)指標(biāo)的預(yù)測(cè)結(jié)果和預(yù)測(cè)效果,影響程度又是怎樣的,這是本文所關(guān)注的。研究通過(guò)比較在網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生擾動(dòng)時(shí),不同預(yù)測(cè)指標(biāo)的預(yù)測(cè)結(jié)果和排序情況,以及在相同規(guī)模下的重疊情況可以粗略判斷出排序魯棒性的好壞。研究發(fā)現(xiàn),網(wǎng)絡(luò)結(jié)構(gòu)的擾動(dòng)對(duì)于Katz指標(biāo)的預(yù)測(cè)結(jié)果影響最小,對(duì)RootedPageRank指標(biāo)的預(yù)測(cè)結(jié)果影響最大。研究網(wǎng)絡(luò)結(jié)構(gòu)的改變對(duì)鏈路預(yù)測(cè)效果產(chǎn)生的影響,發(fā)現(xiàn)AA、Katz和SimRank在預(yù)測(cè)效果方面顯得較為穩(wěn)定,它們受到網(wǎng)絡(luò)結(jié)構(gòu)擾動(dòng)的影響相對(duì)較小。
嚴(yán)格來(lái)講,本研究使用的計(jì)算重疊比例方法,對(duì)于分析排序結(jié)果對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的擾動(dòng)具有魯棒性還是顯得比較粗糙,但卻具有統(tǒng)計(jì)學(xué)意義。通過(guò)計(jì)算重疊比例,可以快速定位出在實(shí)驗(yàn)網(wǎng)絡(luò)中那些特別穩(wěn)定的且相似性得分?jǐn)?shù)值又很高的節(jié)點(diǎn)對(duì),并用作推薦目的。更精確的魯棒性評(píng)價(jià)通常需要考慮排序結(jié)果的位置是否出現(xiàn)了變化[19]。而在實(shí)際應(yīng)用場(chǎng)景中,會(huì)首先關(guān)注量(重疊數(shù)量和比例)的變化,再關(guān)注質(zhì)(排序位置)的變化。
此外,在本研究中,對(duì)核心作者的發(fā)文數(shù)量的設(shè)定是否會(huì)影響到預(yù)測(cè)效果,換句話說(shuō),就是對(duì)核心作者形成的合作網(wǎng)絡(luò)的預(yù)測(cè)是否會(huì)比一般情況下的合作網(wǎng)絡(luò)顯得更容易的問(wèn)題??梢詮耐湫越嵌壬蟻?lái)思考。隨著抽取節(jié)點(diǎn)度值的增大,網(wǎng)絡(luò)的同配性系數(shù)也隨之增大,這意味著大度節(jié)點(diǎn)之間產(chǎn)生聯(lián)系的概率會(huì)升高。也就是說(shuō),若將度值大的節(jié)點(diǎn)視為核心作者,則核心作者之間會(huì)有更大的概率建立合作關(guān)系。當(dāng)然,這一觀點(diǎn)是否具有普遍性,還需要在更多的真實(shí)網(wǎng)絡(luò)中加以檢驗(yàn)。