方思越 王學(xué)昭
1. 中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心 北京 100190;
2. 中國(guó)科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院 北京 100190
科研合作對(duì)科學(xué)發(fā)展和技術(shù)創(chuàng)新具有重要意義。在科學(xué)研究不斷深入和發(fā)展的過程中,研究的問題趨于復(fù)雜化,往往需要依靠合作解決。多項(xiàng)研究證實(shí)了科研合作有助于科研產(chǎn)出和科研質(zhì)量的提高,促進(jìn)科研主體的創(chuàng)新。20世紀(jì)70年代,Beaver等[1]在研究中指出學(xué)者的科研合作程度越高,科研產(chǎn)出和科研質(zhì)量就越高。邱均平等[2]的研究也發(fā)現(xiàn)作者的合作程度與科研產(chǎn)出的學(xué)術(shù)影響力正相關(guān)關(guān)系顯著。除了學(xué)者之間的科研合作,產(chǎn)學(xué)研之間的科研合作也有積極正面的影響,如學(xué)者發(fā)表的科技文獻(xiàn)數(shù)量有所增加[3-4],而企業(yè)的持續(xù)性創(chuàng)新也得到了促進(jìn)[5]。
對(duì)科研合作的研究也是科學(xué)學(xué)和科學(xué)計(jì)量學(xué)的重要分支。早在20世紀(jì)60年代初,科學(xué)計(jì)量學(xué)奠基人Price就開始對(duì)科研合作進(jìn)行計(jì)量研究[6]。而隨著網(wǎng)絡(luò)分析理論、方法和技術(shù)的日益發(fā)展,從科研網(wǎng)絡(luò)出發(fā)的合作研究也日益增長(zhǎng)。社會(huì)網(wǎng)絡(luò)方法的引入也為合作關(guān)系的考察提供了新的視角[7]。美國(guó)情報(bào)學(xué)者Robert M.Clark[8]認(rèn)為,最高級(jí)形式的情報(bào)分析是對(duì)可能發(fā)生的情況進(jìn)行預(yù)測(cè)的結(jié)構(gòu)性思考,真正的情報(bào)分析總是預(yù)測(cè)性的。因此,在科研合作關(guān)系的研究中,對(duì)潛在合作關(guān)系進(jìn)行預(yù)測(cè)顯得尤為重要。如何準(zhǔn)確地預(yù)測(cè)識(shí)別潛在的合作伙伴,也是近年來圖書情報(bào)學(xué)研究的重要內(nèi)容[9]。有很多研究領(lǐng)域相同、研究?jī)?nèi)容相似的作者由于時(shí)間、地理位置等原因無(wú)法合作,但是他們之間存在著潛在合作的可能[10]。當(dāng)前國(guó)內(nèi)外基于科研網(wǎng)絡(luò)的潛在合作關(guān)系預(yù)測(cè)研究已有部分成果,但尚缺乏系統(tǒng)總結(jié)。基于此,本文通過文獻(xiàn)調(diào)研法,重點(diǎn)從方法理論層面解釋基于科研網(wǎng)絡(luò)的潛在合作關(guān)系預(yù)測(cè)研究進(jìn)展和研究趨勢(shì)。
梳理基于科研網(wǎng)絡(luò)的潛在合作關(guān)系預(yù)測(cè)研究,首先需要界定研究主題。本研究中的科研網(wǎng)絡(luò)指基于科研合作構(gòu)造的網(wǎng)絡(luò),而科研合作可以被看作兩個(gè)或兩個(gè)以上科研人員或組織共同致力于同一研究任務(wù),通過相互配合、協(xié)同工作而實(shí)現(xiàn)科研產(chǎn)出最大化目標(biāo)的一種科學(xué)活動(dòng),其本質(zhì)是合作者之間的資源共享[11],合作發(fā)表科研成果、形成研究的知識(shí)產(chǎn)權(quán)是科研合作的最主要表現(xiàn)形式[12]??蒲蓄I(lǐng)域的潛在合作關(guān)系指科研主體有可能產(chǎn)生合作但尚未產(chǎn)生合作的隱藏關(guān)系。綜上,本研究需要梳理的文獻(xiàn)包含兩個(gè)要素:(1)構(gòu)建了科研網(wǎng)絡(luò);(2)設(shè)計(jì)了預(yù)測(cè)潛在合作關(guān)系的方法。
基于對(duì)研究主題的界定,本研究期望解決的問題有:(1)基于科研網(wǎng)絡(luò)的潛在合作關(guān)系預(yù)測(cè)研究的發(fā)文量和逐年變化趨勢(shì)如何?主要分布在什么期刊上?(2)構(gòu)建的科研網(wǎng)絡(luò)類型有哪些?潛在合作關(guān)系預(yù)測(cè)的方法有哪些?(3)當(dāng)前研究方法的局限性是什么?未來潛在合作關(guān)系預(yù)測(cè)方法的發(fā)展方向可能是什么?
本研究數(shù)據(jù)來源于中國(guó)知網(wǎng)(CNKI)數(shù)據(jù)庫(kù)和科睿唯安Web of Science數(shù)據(jù)庫(kù)。根據(jù)研究問題,組合“合作”和“預(yù)測(cè)”相關(guān)的關(guān)鍵詞構(gòu)建檢索式,檢索邏輯是“并含”。在CNKI中限定來源類別為北大核心和CSSCI,檢索式為“TI=’合作’*(’探測(cè)’+’預(yù)測(cè)’+’潛在’+’機(jī)會(huì)’+’發(fā)現(xiàn)’+’推薦’)”,檢索得到246條結(jié)果;在Web of Science中限定來源類別為SSCI和SCIE,檢索式為“TS=(scien*) AND TI=((“cooperat*” OR “collaborat*” OR “co*author*”O(jiān)R “partner*”) AND (“recommed*” OR“predict*” OR “forecast*”))”,按照文章類型為article或review article進(jìn)行精煉,得到84條結(jié)果(檢索時(shí)間:2021年8月8日)。
對(duì)檢索到的文獻(xiàn)進(jìn)行篩選,剔除與研究主題不相關(guān)的文獻(xiàn)。剔除重復(fù)文獻(xiàn),閱讀文章標(biāo)題和摘要,去掉和潛在合作關(guān)系發(fā)現(xiàn)無(wú)關(guān)的文獻(xiàn),最終得到中文文獻(xiàn)37篇,英文文獻(xiàn)13篇,這50篇文獻(xiàn)組成本文的目標(biāo)文獻(xiàn)集。
針對(duì)本研究的研究問題,首先對(duì)目標(biāo)文獻(xiàn)做計(jì)量分析,對(duì)其發(fā)文趨勢(shì)和期刊分布進(jìn)行描述。然后閱讀目標(biāo)文獻(xiàn),對(duì)從預(yù)測(cè)方法層面對(duì)科研領(lǐng)域潛在合作關(guān)系預(yù)測(cè)方法進(jìn)行梳理和分析,最后對(duì)未來的研究方向提出改進(jìn)建議。
中文文獻(xiàn)中,第一篇科研領(lǐng)域潛在合作關(guān)系預(yù)測(cè)研究相關(guān)文獻(xiàn)出現(xiàn)于2013年,自2014年起,國(guó)內(nèi)關(guān)于潛在合作關(guān)系預(yù)測(cè)的研究有明顯的增長(zhǎng),峰值出現(xiàn)在2019年;外文的第一篇相關(guān)文獻(xiàn)出現(xiàn)在2014年,相關(guān)研究數(shù)量相對(duì)穩(wěn)定如圖1所示。截止論文成稿日,2021年的文獻(xiàn)尚未完全收錄。發(fā)文趨勢(shì)說明目前對(duì)潛在合作關(guān)系的研究還有增長(zhǎng)的空間。
圖1 目標(biāo)文獻(xiàn)集年份分布圖
對(duì)文獻(xiàn)分布的期刊做梳理,可得到已發(fā)表文獻(xiàn)的期刊分布如圖2所示。相關(guān)文獻(xiàn)收錄量排名前三的期刊為《情報(bào)學(xué)報(bào)》《情報(bào)理論與實(shí)踐》、Scientometrics和《情報(bào)科學(xué)》。從文獻(xiàn)的期刊分布看,潛在合作關(guān)系預(yù)測(cè)的研究多發(fā)表在圖書情報(bào)領(lǐng)域的期刊中,涉及數(shù)據(jù)科學(xué)研究、科學(xué)學(xué)研究、計(jì)算機(jī)科學(xué)研究和系統(tǒng)工程研究。
圖2 目標(biāo)文獻(xiàn)集期刊分布圖
現(xiàn)有研究中,科研領(lǐng)域的潛在合作可發(fā)生在不同的科研主體之間,如學(xué)者-學(xué)者、高校-高校、高校-企業(yè)等。對(duì)潛在合作關(guān)系的預(yù)測(cè),主要依據(jù)科研主體的研究領(lǐng)域、研究興趣、科研主體間的社會(huì)關(guān)系等預(yù)測(cè)潛在合作機(jī)會(huì)。對(duì)基于科研網(wǎng)絡(luò)的潛在合作預(yù)測(cè)研究進(jìn)行梳理,發(fā)現(xiàn)多數(shù)研究都包含網(wǎng)絡(luò)構(gòu)建、特征提取與表示、合作預(yù)測(cè)和預(yù)測(cè)結(jié)果評(píng)價(jià)模塊,將其視為潛在合作關(guān)系預(yù)測(cè)的一般流程,如圖3所示。
圖3 科研領(lǐng)域潛在合作預(yù)測(cè)的一般流程
2.2.1 網(wǎng)絡(luò)構(gòu)建
根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)、邊的類型的不同,構(gòu)建的網(wǎng)絡(luò)可以分為同質(zhì)網(wǎng)絡(luò)、異質(zhì)網(wǎng)絡(luò)和二分網(wǎng)絡(luò)如表1所示,同質(zhì)網(wǎng)絡(luò)對(duì)數(shù)據(jù)的處理較為簡(jiǎn)單,與同質(zhì)網(wǎng)絡(luò)相比,異質(zhì)網(wǎng)絡(luò)和二分網(wǎng)絡(luò)包含相對(duì)更豐富的信息。用不同的形狀代表不同的節(jié)點(diǎn)類型,可畫出這三種網(wǎng)絡(luò)的示意圖如圖4所示。
表1 網(wǎng)絡(luò)構(gòu)建類型
圖4 網(wǎng)絡(luò)類型示意圖
同質(zhì)網(wǎng)絡(luò)的節(jié)點(diǎn)為同一類型,邊也為同一類型,如合作網(wǎng)絡(luò)[13]、引用網(wǎng)絡(luò)[14]、共現(xiàn)網(wǎng)絡(luò)[15,16]。合作網(wǎng)絡(luò)一般由共著關(guān)系構(gòu)建,在作者合作網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)表示一位學(xué)者,節(jié)點(diǎn)間的邊表示兩人共同發(fā)表了一篇文章;在專利權(quán)人合作網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)表示一個(gè)專利權(quán)人,節(jié)點(diǎn)間的邊表示兩個(gè)專利權(quán)人共同申請(qǐng)了一項(xiàng)專利。以作者為節(jié)點(diǎn)的引用網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)表示一位學(xué)者,其與合作網(wǎng)絡(luò)的區(qū)別在于邊的含義,如共引網(wǎng)絡(luò)中的邊代表共引關(guān)系,即兩位作者共同引用一篇文獻(xiàn)。共現(xiàn)網(wǎng)絡(luò)根據(jù)科研主體的研究?jī)?nèi)容構(gòu)建,在作者-關(guān)鍵詞耦合網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)表示一位學(xué)者,節(jié)點(diǎn)間的邊表示兩人發(fā)表的文獻(xiàn)中有相同的關(guān)鍵詞;在專利權(quán)人-分類號(hào)耦合網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)表示一位專利權(quán)人,節(jié)點(diǎn)間的邊表示兩個(gè)專利權(quán)人申請(qǐng)的專利中有相同的分類號(hào)。
異質(zhì)網(wǎng)絡(luò)是不同種類型節(jié)點(diǎn)和邊形成的網(wǎng)絡(luò)。異質(zhì)網(wǎng)絡(luò)如作者-關(guān)鍵詞二模網(wǎng)絡(luò)[17,18]的節(jié)點(diǎn)為作者和關(guān)鍵詞,邊為作者間合作關(guān)系、關(guān)鍵詞與作者的對(duì)應(yīng)關(guān)系,直觀展現(xiàn)作者與各研究對(duì)象、主題或方法間的對(duì)應(yīng)關(guān)系;再如李睿等根據(jù)新加坡在中國(guó)申請(qǐng)并已授權(quán)的有效發(fā)明專利構(gòu)建國(guó)家-技術(shù)二模網(wǎng)絡(luò)[19],網(wǎng)絡(luò)節(jié)點(diǎn)為中國(guó)和新加坡兩國(guó)的專利分類號(hào),邊為兩國(guó)專利分類號(hào)間的引用關(guān)系。
二分網(wǎng)絡(luò)的所有節(jié)點(diǎn)可以分為兩個(gè)部分,僅不同類型的節(jié)點(diǎn)存在連邊,如韓菁等利用專利數(shù)據(jù)構(gòu)建多層網(wǎng)絡(luò),其中包含知識(shí)-合作二分網(wǎng)絡(luò),該網(wǎng)絡(luò)的節(jié)點(diǎn)為發(fā)明人和知識(shí),邊為發(fā)明人和知識(shí)之間的聯(lián)系[20]。
2.2.2 特征提取與表示
潛在合作關(guān)系預(yù)測(cè)中的特征可以分為網(wǎng)絡(luò)中的節(jié)點(diǎn)內(nèi)容特征和網(wǎng)絡(luò)結(jié)構(gòu)特征。
(1)節(jié)點(diǎn)內(nèi)容特征
節(jié)點(diǎn)內(nèi)容特征的提取和表示主要從科研主體發(fā)表的科技文獻(xiàn)入手,如提取作者發(fā)表文獻(xiàn)中的關(guān)鍵詞。關(guān)鍵詞作為論文研究?jī)?nèi)容最直接的表達(dá)形式,高度概括了文獻(xiàn)的基本內(nèi)容,如陳衛(wèi)靜等使用改進(jìn)的TF-IDF算法計(jì)算關(guān)鍵詞的權(quán)重,構(gòu)建作者-關(guān)鍵詞權(quán)重矩陣[9]。盡管基于關(guān)鍵詞的方法簡(jiǎn)單易用,但其語(yǔ)義信息較弱,因此部分學(xué)者引入基于語(yǔ)義分析的文本挖掘技術(shù)對(duì)節(jié)點(diǎn)屬性特征進(jìn)行表示。溫亮等[21]使用SAO(Subject-Action-Object)語(yǔ)義分析的方法,提取專利信息的語(yǔ)義結(jié)構(gòu)。劉萍等[15]使用LDA(Latent Dirichlet Allocation)模型構(gòu)建作者的興趣模塊,王菲菲等[13]也使用LDA模型獲取機(jī)構(gòu)-主題分布情況。相似地,蒲姍姍[22]引入作者關(guān)系的主題模型AT(Author-Topic Model)提取專家的知識(shí)結(jié)構(gòu)與研究興趣,AT和LDA類似,都是包含詞-主題-作者的三層貝葉斯概率模型。部分學(xué)者提取不止一項(xiàng)屬性特征,如熊回香等[23]利用“百度學(xué)術(shù)”平臺(tái)搜集學(xué)者信息、學(xué)術(shù)合作信息、科研成果信息和研究?jī)?nèi)容關(guān)鍵詞等構(gòu)建學(xué)者檔案。林原等[24]在抽取了學(xué)者的簡(jiǎn)稱、全稱、關(guān)鍵詞、地址等信息的基礎(chǔ)上,利用Word2Vec表示學(xué)習(xí)模型進(jìn)行學(xué)習(xí),得到異質(zhì)信息表示向量。
(2)網(wǎng)絡(luò)結(jié)構(gòu)特征
網(wǎng)絡(luò)結(jié)構(gòu)的特征和表示主要從網(wǎng)絡(luò)結(jié)構(gòu)入手,挖掘網(wǎng)絡(luò)相關(guān)的特征,如節(jié)點(diǎn)位置、網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)模體等?;诠?jié)點(diǎn)位置和網(wǎng)絡(luò)結(jié)構(gòu),部分學(xué)者使用網(wǎng)絡(luò)表示學(xué)習(xí)的方法將網(wǎng)絡(luò)中的節(jié)點(diǎn)轉(zhuǎn)化為向量表示。如張金柱等[25]使用LINE(Large-scale information network embedding)網(wǎng)絡(luò)學(xué)習(xí)表示方法,融合節(jié)點(diǎn)間的共同鄰居信息作為網(wǎng)絡(luò)結(jié)構(gòu)信息,形成相應(yīng)的向量表示。林原等[26]以作者、機(jī)構(gòu)、關(guān)鍵詞為節(jié)點(diǎn),共現(xiàn)關(guān)系為邊構(gòu)建異質(zhì)信息網(wǎng)絡(luò),使用node2vec網(wǎng)絡(luò)表示學(xué)習(xí)方法學(xué)習(xí)節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置聯(lián)系,實(shí)現(xiàn)對(duì)各個(gè)節(jié)點(diǎn)的向量化表示。Zhao等[27]采用SkipGram模型對(duì)學(xué)者的動(dòng)態(tài)結(jié)構(gòu)特征進(jìn)行編碼,構(gòu)建基于學(xué)者向量的學(xué)術(shù)合作關(guān)系預(yù)測(cè)模型。劉云楓等[28]引入元路徑的概念,在異質(zhì)網(wǎng)絡(luò)的基礎(chǔ)上計(jì)算基于元路徑與元結(jié)構(gòu)的作者間關(guān)系序列,并作為word2vec模型網(wǎng)絡(luò)表示學(xué)習(xí)的語(yǔ)料。網(wǎng)絡(luò)模體是網(wǎng)絡(luò)的微觀結(jié)構(gòu),即真實(shí)網(wǎng)絡(luò)中頻繁出現(xiàn)的由少數(shù)個(gè)體組成的小規(guī)模同構(gòu)子圖,網(wǎng)絡(luò)中的模體可以反應(yīng)科研主體的合作模式[29]。曹紅艷等[30]提取了科學(xué)家合作網(wǎng)中的8個(gè)模體特征,在模體特征基礎(chǔ)上進(jìn)行潛在合作預(yù)測(cè)。
2.2.3 合作預(yù)測(cè)
合作預(yù)測(cè)主要采用基于相似性的方法和基于機(jī)器學(xué)習(xí)的方法。
(1)基于相似性的方法
基于相似性的方法通過節(jié)點(diǎn)的屬性特征和(或)網(wǎng)絡(luò)的結(jié)構(gòu)特征比較節(jié)點(diǎn)間的相似度,相似性越大,兩個(gè)節(jié)點(diǎn)越有可能產(chǎn)生連邊,即合作關(guān)系。多數(shù)學(xué)者利用指標(biāo)計(jì)算相似性,再根據(jù)指標(biāo)運(yùn)算結(jié)果判斷潛在合作情況。計(jì)算相似性的指標(biāo)又可根據(jù)特征的不同分為基于內(nèi)容特征的文本相似性指標(biāo)和基于網(wǎng)絡(luò)結(jié)構(gòu)的節(jié)點(diǎn)拓?fù)湎嗨贫戎笜?biāo)。文本相似性指標(biāo)部分由作者定義,部分使用已有指標(biāo),如關(guān)鍵詞耦合強(qiáng)度指標(biāo)[9],潛在合作空間指數(shù)[31],JS距離[15],KL距離[13]和余弦相似度指標(biāo)[21,32,33]如表2所示。
表2 基于內(nèi)容特征的文本相似性指標(biāo)
基于網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)湎嗨贫戎笜?biāo)多采用鏈路預(yù)測(cè)中的相似性指標(biāo),如Yan等從作者、機(jī)構(gòu)和國(guó)家三個(gè)層面構(gòu)造合作網(wǎng)絡(luò),使用CN、Jaccard、AA等8個(gè)鏈路預(yù)測(cè)指標(biāo)對(duì)這三個(gè)網(wǎng)絡(luò)進(jìn)行研究[34];王菲菲等[13]通過論文和專利兩個(gè)層面的機(jī)構(gòu)合作網(wǎng)絡(luò)探測(cè)產(chǎn)學(xué)研的潛在合作機(jī)會(huì),在合作網(wǎng)絡(luò)中使用CN、Salton、Jaccard等8個(gè)鏈路預(yù)測(cè)指標(biāo)得到新的潛在合作機(jī)構(gòu)邊,按照融合值進(jìn)行降序排序,選擇前5連邊作為潛在合作預(yù)測(cè)結(jié)果。鏈路預(yù)測(cè)中的相似性指標(biāo)又可分為基于局部信息的相似性指標(biāo)、基于路徑的相似性指標(biāo)和基于隨機(jī)游走的相似性指標(biāo),目標(biāo)文獻(xiàn)集中主要被應(yīng)用到的指標(biāo)如表3所示。
表3 基于網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)湎嗨贫戎笜?biāo)
部分學(xué)者將這兩類指標(biāo)結(jié)合起來進(jìn)行潛在合作預(yù)測(cè)。劉竟和孫薇[33]考慮網(wǎng)絡(luò)中的路徑相似性和研究者科研興趣相似性,路徑相似性用Katz指標(biāo)計(jì)算,科研興趣由作者發(fā)表文獻(xiàn)的題目、關(guān)鍵詞和摘要中提取的術(shù)語(yǔ)的頻次-逆文檔頻次分?jǐn)?shù)值表示,相似度使用余弦距離計(jì)算,二者融合,預(yù)測(cè)潛在科研合作關(guān)系。相似地,林原等[35]建立卓越大學(xué)聯(lián)盟機(jī)構(gòu)合作網(wǎng)絡(luò)和主題網(wǎng)絡(luò),借助Katz指標(biāo)和余弦距離衡量卓越大學(xué)聯(lián)盟與國(guó)內(nèi)外高校間合作機(jī)會(huì)。韓菁等[20]以專利合作關(guān)系為研究對(duì)象,從CN、PA、Jaccard等6個(gè)鏈路預(yù)測(cè)指標(biāo)中選擇最優(yōu)指標(biāo)和5個(gè)基于知識(shí)屬性的相似性指標(biāo)分別結(jié)合起來構(gòu)建多層鏈路預(yù)測(cè)算法,在新能源汽車領(lǐng)域進(jìn)行實(shí)驗(yàn)分析,發(fā)現(xiàn)混合指標(biāo)有較好的預(yù)測(cè)效果。
(2)基于機(jī)器學(xué)習(xí)的方法
基于機(jī)器學(xué)習(xí)的方法將合作預(yù)測(cè)看作二分類問題,兩個(gè)節(jié)點(diǎn)有連邊為正類,無(wú)連邊為負(fù)類,通過無(wú)監(jiān)督或有監(jiān)督的機(jī)器學(xué)習(xí)方法預(yù)測(cè)新科研主體節(jié)點(diǎn)對(duì)的連邊屬于正類或負(fù)類的概率[36]。余傳明等[37]從DeepWalk、node2vec、LINE和SDNE四種網(wǎng)絡(luò)表示學(xué)習(xí)方法中選擇效果相對(duì)較好的方法作為代表構(gòu)建了一個(gè)集成模型,利用邏輯回歸計(jì)算節(jié)點(diǎn)對(duì)之間產(chǎn)生鏈接的概率值。Nikos等[38]構(gòu)建了一個(gè)包含結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的科學(xué)知識(shí)圖,對(duì)其文本和結(jié)構(gòu)信息進(jìn)行特征提取,最后使用邏輯回歸進(jìn)行二分類。
部分學(xué)者將鏈路預(yù)測(cè)和機(jī)器學(xué)習(xí)結(jié)合起來,構(gòu)建準(zhǔn)確性更高的預(yù)測(cè)方法。Guns等[39]搜集非洲、中東和東南亞在結(jié)核病研究上的研究合作,構(gòu)建加權(quán)城市合作網(wǎng)絡(luò),使用CN、Jaccard、AA、加權(quán)的SimRank等7個(gè)鏈路預(yù)測(cè)指標(biāo)進(jìn)行潛在合作的預(yù)測(cè),然后聚合不同預(yù)測(cè)指標(biāo)的預(yù)測(cè)效果,構(gòu)建隨機(jī)森林分類器預(yù)測(cè)下一個(gè)時(shí)期發(fā)生鏈接的相對(duì)強(qiáng)度。呂偉民等[40]的研究基礎(chǔ)上改進(jìn)得到極端隨機(jī)樹算法,構(gòu)建加權(quán)作者合作網(wǎng),以不同鏈路預(yù)測(cè)指標(biāo)作為特征輸入,使用改進(jìn)算法進(jìn)行分類,利用遍歷算法求取分類結(jié)果的最優(yōu)權(quán)重組合。
2.2.4 預(yù)測(cè)結(jié)果評(píng)價(jià)
基于網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo)、混合指標(biāo)或機(jī)器學(xué)習(xí)方法預(yù)測(cè)的潛在合作關(guān)系往往存在對(duì)算法準(zhǔn)確度的評(píng)價(jià),常用的評(píng)價(jià)指標(biāo)有AUC、Precision和Ranking Score。AUC側(cè)重于從整體上衡量算法的精確度,Precision考慮排在前L位的邊預(yù)測(cè)得是否準(zhǔn)確,Ranking Score更多考慮所預(yù)測(cè)的邊的排序[41]。
表4 評(píng)價(jià)指標(biāo)
基于科研網(wǎng)絡(luò)的潛在合作關(guān)系預(yù)測(cè)的相關(guān)研究自2013年興起,穩(wěn)步發(fā)展至今,是圖書情報(bào)領(lǐng)域的重要研究?jī)?nèi)容之一。對(duì)相關(guān)文獻(xiàn)進(jìn)行梳理,得到潛在合作關(guān)系預(yù)測(cè)的一般流程:網(wǎng)絡(luò)構(gòu)建、特征提取與表示、合作預(yù)測(cè)、預(yù)測(cè)結(jié)果評(píng)價(jià)。不同類型的同質(zhì)網(wǎng)絡(luò)、異質(zhì)網(wǎng)絡(luò)和二分網(wǎng)絡(luò)是潛在合作預(yù)測(cè)的基礎(chǔ),學(xué)者們?cè)诰W(wǎng)絡(luò)中提取節(jié)點(diǎn)內(nèi)容特征或網(wǎng)絡(luò)結(jié)構(gòu)特征,在特征提取和表示上趨向于更全面、準(zhǔn)確地描述科研主體的特征,將特征向量化。合作預(yù)測(cè)的方法可分為基于相似性的方法和基于機(jī)器學(xué)習(xí)的方法,前者通過比較內(nèi)容或結(jié)構(gòu)相似性的大小預(yù)測(cè)連邊的可能性,引入多類指標(biāo);后者將是否產(chǎn)生連邊看作二分類問題,引入機(jī)器學(xué)習(xí)中的分類算法。為了衡量預(yù)測(cè)結(jié)果的準(zhǔn)確性,使用評(píng)價(jià)指標(biāo)進(jìn)行判斷,不同的研究根據(jù)研究問題選擇適用于當(dāng)前研究的評(píng)價(jià)指標(biāo)。
就目標(biāo)文獻(xiàn)來看,當(dāng)前關(guān)于潛在合作關(guān)系預(yù)測(cè)的研究存在一定的局限性。從研究領(lǐng)域來看,多數(shù)潛在合作預(yù)測(cè)研究實(shí)施在學(xué)術(shù)合作網(wǎng)絡(luò)中,對(duì)產(chǎn)學(xué)研合作的研究比較有限;從數(shù)據(jù)層面上看,主流使用期刊論文和專利數(shù)據(jù),對(duì)科研社交網(wǎng)站信息[23]做了有限的嘗試;從網(wǎng)絡(luò)構(gòu)建上看,多數(shù)研究在較小規(guī)模的數(shù)據(jù)集上運(yùn)行,如出現(xiàn)頻次大于一定閾值的科研主體形成的網(wǎng)絡(luò),這使得合作預(yù)測(cè)一般出現(xiàn)在高產(chǎn)的科研主體之間,但產(chǎn)出較低的科研主體也應(yīng)得到重視;從研究結(jié)果來看,與實(shí)際的聯(lián)系并不緊密,對(duì)實(shí)際合作的引導(dǎo)有待提升。
隨著信息化,智能化的迅速發(fā)展,科研領(lǐng)域潛在合作關(guān)系預(yù)測(cè)可能有以下發(fā)展方向:
(1)產(chǎn)學(xué)研潛在合作關(guān)系預(yù)測(cè)。與學(xué)術(shù)潛在合作關(guān)系不同,產(chǎn)學(xué)研各主體間的相似性不一定預(yù)示著合作,因此在預(yù)測(cè)方面需要考慮更多因素,如企業(yè)規(guī)模,產(chǎn)學(xué)研主體性質(zhì)等。
(2)基于多數(shù)據(jù)源的潛在合作關(guān)系預(yù)測(cè)。從科研主體研究主題、研究興趣、社會(huì)關(guān)系、所處地域等多個(gè)視角搜集數(shù)據(jù),利用數(shù)據(jù)。
(3)大規(guī)??蒲泻献骶W(wǎng)絡(luò)的合作關(guān)系預(yù)測(cè)。構(gòu)建大數(shù)據(jù)集,進(jìn)行全部科研主體的科研合作預(yù)測(cè),其中科研主體可能來自不同的研究領(lǐng)域。
(4)多特征融合的表示方法改進(jìn)。將多種特征融入到表示學(xué)習(xí)方法中,構(gòu)建更全面高效的計(jì)算模型。
(5)機(jī)器學(xué)習(xí)方法的改進(jìn)。構(gòu)建適用于潛在合作預(yù)測(cè)的機(jī)器學(xué)習(xí)模型。