国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于科研網(wǎng)絡(luò)的潛在合作關(guān)系預(yù)測(cè)研究綜述

2022-03-30 03:11方思越王學(xué)昭
情報(bào)工程 2022年1期
關(guān)鍵詞:相似性節(jié)點(diǎn)文獻(xiàn)

方思越 王學(xué)昭

1. 中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心 北京 100190;

2. 中國(guó)科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院 北京 100190

引言

科研合作對(duì)科學(xué)發(fā)展和技術(shù)創(chuàng)新具有重要意義。在科學(xué)研究不斷深入和發(fā)展的過程中,研究的問題趨于復(fù)雜化,往往需要依靠合作解決。多項(xiàng)研究證實(shí)了科研合作有助于科研產(chǎn)出和科研質(zhì)量的提高,促進(jìn)科研主體的創(chuàng)新。20世紀(jì)70年代,Beaver等[1]在研究中指出學(xué)者的科研合作程度越高,科研產(chǎn)出和科研質(zhì)量就越高。邱均平等[2]的研究也發(fā)現(xiàn)作者的合作程度與科研產(chǎn)出的學(xué)術(shù)影響力正相關(guān)關(guān)系顯著。除了學(xué)者之間的科研合作,產(chǎn)學(xué)研之間的科研合作也有積極正面的影響,如學(xué)者發(fā)表的科技文獻(xiàn)數(shù)量有所增加[3-4],而企業(yè)的持續(xù)性創(chuàng)新也得到了促進(jìn)[5]。

對(duì)科研合作的研究也是科學(xué)學(xué)和科學(xué)計(jì)量學(xué)的重要分支。早在20世紀(jì)60年代初,科學(xué)計(jì)量學(xué)奠基人Price就開始對(duì)科研合作進(jìn)行計(jì)量研究[6]。而隨著網(wǎng)絡(luò)分析理論、方法和技術(shù)的日益發(fā)展,從科研網(wǎng)絡(luò)出發(fā)的合作研究也日益增長(zhǎng)。社會(huì)網(wǎng)絡(luò)方法的引入也為合作關(guān)系的考察提供了新的視角[7]。美國(guó)情報(bào)學(xué)者Robert M.Clark[8]認(rèn)為,最高級(jí)形式的情報(bào)分析是對(duì)可能發(fā)生的情況進(jìn)行預(yù)測(cè)的結(jié)構(gòu)性思考,真正的情報(bào)分析總是預(yù)測(cè)性的。因此,在科研合作關(guān)系的研究中,對(duì)潛在合作關(guān)系進(jìn)行預(yù)測(cè)顯得尤為重要。如何準(zhǔn)確地預(yù)測(cè)識(shí)別潛在的合作伙伴,也是近年來圖書情報(bào)學(xué)研究的重要內(nèi)容[9]。有很多研究領(lǐng)域相同、研究?jī)?nèi)容相似的作者由于時(shí)間、地理位置等原因無(wú)法合作,但是他們之間存在著潛在合作的可能[10]。當(dāng)前國(guó)內(nèi)外基于科研網(wǎng)絡(luò)的潛在合作關(guān)系預(yù)測(cè)研究已有部分成果,但尚缺乏系統(tǒng)總結(jié)。基于此,本文通過文獻(xiàn)調(diào)研法,重點(diǎn)從方法理論層面解釋基于科研網(wǎng)絡(luò)的潛在合作關(guān)系預(yù)測(cè)研究進(jìn)展和研究趨勢(shì)。

1 研究設(shè)計(jì)

1.1 問題設(shè)計(jì)

梳理基于科研網(wǎng)絡(luò)的潛在合作關(guān)系預(yù)測(cè)研究,首先需要界定研究主題。本研究中的科研網(wǎng)絡(luò)指基于科研合作構(gòu)造的網(wǎng)絡(luò),而科研合作可以被看作兩個(gè)或兩個(gè)以上科研人員或組織共同致力于同一研究任務(wù),通過相互配合、協(xié)同工作而實(shí)現(xiàn)科研產(chǎn)出最大化目標(biāo)的一種科學(xué)活動(dòng),其本質(zhì)是合作者之間的資源共享[11],合作發(fā)表科研成果、形成研究的知識(shí)產(chǎn)權(quán)是科研合作的最主要表現(xiàn)形式[12]??蒲蓄I(lǐng)域的潛在合作關(guān)系指科研主體有可能產(chǎn)生合作但尚未產(chǎn)生合作的隱藏關(guān)系。綜上,本研究需要梳理的文獻(xiàn)包含兩個(gè)要素:(1)構(gòu)建了科研網(wǎng)絡(luò);(2)設(shè)計(jì)了預(yù)測(cè)潛在合作關(guān)系的方法。

基于對(duì)研究主題的界定,本研究期望解決的問題有:(1)基于科研網(wǎng)絡(luò)的潛在合作關(guān)系預(yù)測(cè)研究的發(fā)文量和逐年變化趨勢(shì)如何?主要分布在什么期刊上?(2)構(gòu)建的科研網(wǎng)絡(luò)類型有哪些?潛在合作關(guān)系預(yù)測(cè)的方法有哪些?(3)當(dāng)前研究方法的局限性是什么?未來潛在合作關(guān)系預(yù)測(cè)方法的發(fā)展方向可能是什么?

1.2 數(shù)據(jù)來源與處理

本研究數(shù)據(jù)來源于中國(guó)知網(wǎng)(CNKI)數(shù)據(jù)庫(kù)和科睿唯安Web of Science數(shù)據(jù)庫(kù)。根據(jù)研究問題,組合“合作”和“預(yù)測(cè)”相關(guān)的關(guān)鍵詞構(gòu)建檢索式,檢索邏輯是“并含”。在CNKI中限定來源類別為北大核心和CSSCI,檢索式為“TI=’合作’*(’探測(cè)’+’預(yù)測(cè)’+’潛在’+’機(jī)會(huì)’+’發(fā)現(xiàn)’+’推薦’)”,檢索得到246條結(jié)果;在Web of Science中限定來源類別為SSCI和SCIE,檢索式為“TS=(scien*) AND TI=((“cooperat*” OR “collaborat*” OR “co*author*”O(jiān)R “partner*”) AND (“recommed*” OR“predict*” OR “forecast*”))”,按照文章類型為article或review article進(jìn)行精煉,得到84條結(jié)果(檢索時(shí)間:2021年8月8日)。

對(duì)檢索到的文獻(xiàn)進(jìn)行篩選,剔除與研究主題不相關(guān)的文獻(xiàn)。剔除重復(fù)文獻(xiàn),閱讀文章標(biāo)題和摘要,去掉和潛在合作關(guān)系發(fā)現(xiàn)無(wú)關(guān)的文獻(xiàn),最終得到中文文獻(xiàn)37篇,英文文獻(xiàn)13篇,這50篇文獻(xiàn)組成本文的目標(biāo)文獻(xiàn)集。

1.3 研究方法

針對(duì)本研究的研究問題,首先對(duì)目標(biāo)文獻(xiàn)做計(jì)量分析,對(duì)其發(fā)文趨勢(shì)和期刊分布進(jìn)行描述。然后閱讀目標(biāo)文獻(xiàn),對(duì)從預(yù)測(cè)方法層面對(duì)科研領(lǐng)域潛在合作關(guān)系預(yù)測(cè)方法進(jìn)行梳理和分析,最后對(duì)未來的研究方向提出改進(jìn)建議。

2 研究結(jié)論

2.1 發(fā)文趨勢(shì)與文獻(xiàn)分布

中文文獻(xiàn)中,第一篇科研領(lǐng)域潛在合作關(guān)系預(yù)測(cè)研究相關(guān)文獻(xiàn)出現(xiàn)于2013年,自2014年起,國(guó)內(nèi)關(guān)于潛在合作關(guān)系預(yù)測(cè)的研究有明顯的增長(zhǎng),峰值出現(xiàn)在2019年;外文的第一篇相關(guān)文獻(xiàn)出現(xiàn)在2014年,相關(guān)研究數(shù)量相對(duì)穩(wěn)定如圖1所示。截止論文成稿日,2021年的文獻(xiàn)尚未完全收錄。發(fā)文趨勢(shì)說明目前對(duì)潛在合作關(guān)系的研究還有增長(zhǎng)的空間。

圖1 目標(biāo)文獻(xiàn)集年份分布圖

對(duì)文獻(xiàn)分布的期刊做梳理,可得到已發(fā)表文獻(xiàn)的期刊分布如圖2所示。相關(guān)文獻(xiàn)收錄量排名前三的期刊為《情報(bào)學(xué)報(bào)》《情報(bào)理論與實(shí)踐》、Scientometrics和《情報(bào)科學(xué)》。從文獻(xiàn)的期刊分布看,潛在合作關(guān)系預(yù)測(cè)的研究多發(fā)表在圖書情報(bào)領(lǐng)域的期刊中,涉及數(shù)據(jù)科學(xué)研究、科學(xué)學(xué)研究、計(jì)算機(jī)科學(xué)研究和系統(tǒng)工程研究。

圖2 目標(biāo)文獻(xiàn)集期刊分布圖

2.2 潛在合作關(guān)系預(yù)測(cè)的一般流程

現(xiàn)有研究中,科研領(lǐng)域的潛在合作可發(fā)生在不同的科研主體之間,如學(xué)者-學(xué)者、高校-高校、高校-企業(yè)等。對(duì)潛在合作關(guān)系的預(yù)測(cè),主要依據(jù)科研主體的研究領(lǐng)域、研究興趣、科研主體間的社會(huì)關(guān)系等預(yù)測(cè)潛在合作機(jī)會(huì)。對(duì)基于科研網(wǎng)絡(luò)的潛在合作預(yù)測(cè)研究進(jìn)行梳理,發(fā)現(xiàn)多數(shù)研究都包含網(wǎng)絡(luò)構(gòu)建、特征提取與表示、合作預(yù)測(cè)和預(yù)測(cè)結(jié)果評(píng)價(jià)模塊,將其視為潛在合作關(guān)系預(yù)測(cè)的一般流程,如圖3所示。

圖3 科研領(lǐng)域潛在合作預(yù)測(cè)的一般流程

2.2.1 網(wǎng)絡(luò)構(gòu)建

根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)、邊的類型的不同,構(gòu)建的網(wǎng)絡(luò)可以分為同質(zhì)網(wǎng)絡(luò)、異質(zhì)網(wǎng)絡(luò)和二分網(wǎng)絡(luò)如表1所示,同質(zhì)網(wǎng)絡(luò)對(duì)數(shù)據(jù)的處理較為簡(jiǎn)單,與同質(zhì)網(wǎng)絡(luò)相比,異質(zhì)網(wǎng)絡(luò)和二分網(wǎng)絡(luò)包含相對(duì)更豐富的信息。用不同的形狀代表不同的節(jié)點(diǎn)類型,可畫出這三種網(wǎng)絡(luò)的示意圖如圖4所示。

表1 網(wǎng)絡(luò)構(gòu)建類型

圖4 網(wǎng)絡(luò)類型示意圖

同質(zhì)網(wǎng)絡(luò)的節(jié)點(diǎn)為同一類型,邊也為同一類型,如合作網(wǎng)絡(luò)[13]、引用網(wǎng)絡(luò)[14]、共現(xiàn)網(wǎng)絡(luò)[15,16]。合作網(wǎng)絡(luò)一般由共著關(guān)系構(gòu)建,在作者合作網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)表示一位學(xué)者,節(jié)點(diǎn)間的邊表示兩人共同發(fā)表了一篇文章;在專利權(quán)人合作網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)表示一個(gè)專利權(quán)人,節(jié)點(diǎn)間的邊表示兩個(gè)專利權(quán)人共同申請(qǐng)了一項(xiàng)專利。以作者為節(jié)點(diǎn)的引用網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)表示一位學(xué)者,其與合作網(wǎng)絡(luò)的區(qū)別在于邊的含義,如共引網(wǎng)絡(luò)中的邊代表共引關(guān)系,即兩位作者共同引用一篇文獻(xiàn)。共現(xiàn)網(wǎng)絡(luò)根據(jù)科研主體的研究?jī)?nèi)容構(gòu)建,在作者-關(guān)鍵詞耦合網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)表示一位學(xué)者,節(jié)點(diǎn)間的邊表示兩人發(fā)表的文獻(xiàn)中有相同的關(guān)鍵詞;在專利權(quán)人-分類號(hào)耦合網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)表示一位專利權(quán)人,節(jié)點(diǎn)間的邊表示兩個(gè)專利權(quán)人申請(qǐng)的專利中有相同的分類號(hào)。

異質(zhì)網(wǎng)絡(luò)是不同種類型節(jié)點(diǎn)和邊形成的網(wǎng)絡(luò)。異質(zhì)網(wǎng)絡(luò)如作者-關(guān)鍵詞二模網(wǎng)絡(luò)[17,18]的節(jié)點(diǎn)為作者和關(guān)鍵詞,邊為作者間合作關(guān)系、關(guān)鍵詞與作者的對(duì)應(yīng)關(guān)系,直觀展現(xiàn)作者與各研究對(duì)象、主題或方法間的對(duì)應(yīng)關(guān)系;再如李睿等根據(jù)新加坡在中國(guó)申請(qǐng)并已授權(quán)的有效發(fā)明專利構(gòu)建國(guó)家-技術(shù)二模網(wǎng)絡(luò)[19],網(wǎng)絡(luò)節(jié)點(diǎn)為中國(guó)和新加坡兩國(guó)的專利分類號(hào),邊為兩國(guó)專利分類號(hào)間的引用關(guān)系。

二分網(wǎng)絡(luò)的所有節(jié)點(diǎn)可以分為兩個(gè)部分,僅不同類型的節(jié)點(diǎn)存在連邊,如韓菁等利用專利數(shù)據(jù)構(gòu)建多層網(wǎng)絡(luò),其中包含知識(shí)-合作二分網(wǎng)絡(luò),該網(wǎng)絡(luò)的節(jié)點(diǎn)為發(fā)明人和知識(shí),邊為發(fā)明人和知識(shí)之間的聯(lián)系[20]。

2.2.2 特征提取與表示

潛在合作關(guān)系預(yù)測(cè)中的特征可以分為網(wǎng)絡(luò)中的節(jié)點(diǎn)內(nèi)容特征和網(wǎng)絡(luò)結(jié)構(gòu)特征。

(1)節(jié)點(diǎn)內(nèi)容特征

節(jié)點(diǎn)內(nèi)容特征的提取和表示主要從科研主體發(fā)表的科技文獻(xiàn)入手,如提取作者發(fā)表文獻(xiàn)中的關(guān)鍵詞。關(guān)鍵詞作為論文研究?jī)?nèi)容最直接的表達(dá)形式,高度概括了文獻(xiàn)的基本內(nèi)容,如陳衛(wèi)靜等使用改進(jìn)的TF-IDF算法計(jì)算關(guān)鍵詞的權(quán)重,構(gòu)建作者-關(guān)鍵詞權(quán)重矩陣[9]。盡管基于關(guān)鍵詞的方法簡(jiǎn)單易用,但其語(yǔ)義信息較弱,因此部分學(xué)者引入基于語(yǔ)義分析的文本挖掘技術(shù)對(duì)節(jié)點(diǎn)屬性特征進(jìn)行表示。溫亮等[21]使用SAO(Subject-Action-Object)語(yǔ)義分析的方法,提取專利信息的語(yǔ)義結(jié)構(gòu)。劉萍等[15]使用LDA(Latent Dirichlet Allocation)模型構(gòu)建作者的興趣模塊,王菲菲等[13]也使用LDA模型獲取機(jī)構(gòu)-主題分布情況。相似地,蒲姍姍[22]引入作者關(guān)系的主題模型AT(Author-Topic Model)提取專家的知識(shí)結(jié)構(gòu)與研究興趣,AT和LDA類似,都是包含詞-主題-作者的三層貝葉斯概率模型。部分學(xué)者提取不止一項(xiàng)屬性特征,如熊回香等[23]利用“百度學(xué)術(shù)”平臺(tái)搜集學(xué)者信息、學(xué)術(shù)合作信息、科研成果信息和研究?jī)?nèi)容關(guān)鍵詞等構(gòu)建學(xué)者檔案。林原等[24]在抽取了學(xué)者的簡(jiǎn)稱、全稱、關(guān)鍵詞、地址等信息的基礎(chǔ)上,利用Word2Vec表示學(xué)習(xí)模型進(jìn)行學(xué)習(xí),得到異質(zhì)信息表示向量。

(2)網(wǎng)絡(luò)結(jié)構(gòu)特征

網(wǎng)絡(luò)結(jié)構(gòu)的特征和表示主要從網(wǎng)絡(luò)結(jié)構(gòu)入手,挖掘網(wǎng)絡(luò)相關(guān)的特征,如節(jié)點(diǎn)位置、網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)模體等?;诠?jié)點(diǎn)位置和網(wǎng)絡(luò)結(jié)構(gòu),部分學(xué)者使用網(wǎng)絡(luò)表示學(xué)習(xí)的方法將網(wǎng)絡(luò)中的節(jié)點(diǎn)轉(zhuǎn)化為向量表示。如張金柱等[25]使用LINE(Large-scale information network embedding)網(wǎng)絡(luò)學(xué)習(xí)表示方法,融合節(jié)點(diǎn)間的共同鄰居信息作為網(wǎng)絡(luò)結(jié)構(gòu)信息,形成相應(yīng)的向量表示。林原等[26]以作者、機(jī)構(gòu)、關(guān)鍵詞為節(jié)點(diǎn),共現(xiàn)關(guān)系為邊構(gòu)建異質(zhì)信息網(wǎng)絡(luò),使用node2vec網(wǎng)絡(luò)表示學(xué)習(xí)方法學(xué)習(xí)節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置聯(lián)系,實(shí)現(xiàn)對(duì)各個(gè)節(jié)點(diǎn)的向量化表示。Zhao等[27]采用SkipGram模型對(duì)學(xué)者的動(dòng)態(tài)結(jié)構(gòu)特征進(jìn)行編碼,構(gòu)建基于學(xué)者向量的學(xué)術(shù)合作關(guān)系預(yù)測(cè)模型。劉云楓等[28]引入元路徑的概念,在異質(zhì)網(wǎng)絡(luò)的基礎(chǔ)上計(jì)算基于元路徑與元結(jié)構(gòu)的作者間關(guān)系序列,并作為word2vec模型網(wǎng)絡(luò)表示學(xué)習(xí)的語(yǔ)料。網(wǎng)絡(luò)模體是網(wǎng)絡(luò)的微觀結(jié)構(gòu),即真實(shí)網(wǎng)絡(luò)中頻繁出現(xiàn)的由少數(shù)個(gè)體組成的小規(guī)模同構(gòu)子圖,網(wǎng)絡(luò)中的模體可以反應(yīng)科研主體的合作模式[29]。曹紅艷等[30]提取了科學(xué)家合作網(wǎng)中的8個(gè)模體特征,在模體特征基礎(chǔ)上進(jìn)行潛在合作預(yù)測(cè)。

2.2.3 合作預(yù)測(cè)

合作預(yù)測(cè)主要采用基于相似性的方法和基于機(jī)器學(xué)習(xí)的方法。

(1)基于相似性的方法

基于相似性的方法通過節(jié)點(diǎn)的屬性特征和(或)網(wǎng)絡(luò)的結(jié)構(gòu)特征比較節(jié)點(diǎn)間的相似度,相似性越大,兩個(gè)節(jié)點(diǎn)越有可能產(chǎn)生連邊,即合作關(guān)系。多數(shù)學(xué)者利用指標(biāo)計(jì)算相似性,再根據(jù)指標(biāo)運(yùn)算結(jié)果判斷潛在合作情況。計(jì)算相似性的指標(biāo)又可根據(jù)特征的不同分為基于內(nèi)容特征的文本相似性指標(biāo)和基于網(wǎng)絡(luò)結(jié)構(gòu)的節(jié)點(diǎn)拓?fù)湎嗨贫戎笜?biāo)。文本相似性指標(biāo)部分由作者定義,部分使用已有指標(biāo),如關(guān)鍵詞耦合強(qiáng)度指標(biāo)[9],潛在合作空間指數(shù)[31],JS距離[15],KL距離[13]和余弦相似度指標(biāo)[21,32,33]如表2所示。

表2 基于內(nèi)容特征的文本相似性指標(biāo)

基于網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)湎嗨贫戎笜?biāo)多采用鏈路預(yù)測(cè)中的相似性指標(biāo),如Yan等從作者、機(jī)構(gòu)和國(guó)家三個(gè)層面構(gòu)造合作網(wǎng)絡(luò),使用CN、Jaccard、AA等8個(gè)鏈路預(yù)測(cè)指標(biāo)對(duì)這三個(gè)網(wǎng)絡(luò)進(jìn)行研究[34];王菲菲等[13]通過論文和專利兩個(gè)層面的機(jī)構(gòu)合作網(wǎng)絡(luò)探測(cè)產(chǎn)學(xué)研的潛在合作機(jī)會(huì),在合作網(wǎng)絡(luò)中使用CN、Salton、Jaccard等8個(gè)鏈路預(yù)測(cè)指標(biāo)得到新的潛在合作機(jī)構(gòu)邊,按照融合值進(jìn)行降序排序,選擇前5連邊作為潛在合作預(yù)測(cè)結(jié)果。鏈路預(yù)測(cè)中的相似性指標(biāo)又可分為基于局部信息的相似性指標(biāo)、基于路徑的相似性指標(biāo)和基于隨機(jī)游走的相似性指標(biāo),目標(biāo)文獻(xiàn)集中主要被應(yīng)用到的指標(biāo)如表3所示。

表3 基于網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)湎嗨贫戎笜?biāo)

部分學(xué)者將這兩類指標(biāo)結(jié)合起來進(jìn)行潛在合作預(yù)測(cè)。劉竟和孫薇[33]考慮網(wǎng)絡(luò)中的路徑相似性和研究者科研興趣相似性,路徑相似性用Katz指標(biāo)計(jì)算,科研興趣由作者發(fā)表文獻(xiàn)的題目、關(guān)鍵詞和摘要中提取的術(shù)語(yǔ)的頻次-逆文檔頻次分?jǐn)?shù)值表示,相似度使用余弦距離計(jì)算,二者融合,預(yù)測(cè)潛在科研合作關(guān)系。相似地,林原等[35]建立卓越大學(xué)聯(lián)盟機(jī)構(gòu)合作網(wǎng)絡(luò)和主題網(wǎng)絡(luò),借助Katz指標(biāo)和余弦距離衡量卓越大學(xué)聯(lián)盟與國(guó)內(nèi)外高校間合作機(jī)會(huì)。韓菁等[20]以專利合作關(guān)系為研究對(duì)象,從CN、PA、Jaccard等6個(gè)鏈路預(yù)測(cè)指標(biāo)中選擇最優(yōu)指標(biāo)和5個(gè)基于知識(shí)屬性的相似性指標(biāo)分別結(jié)合起來構(gòu)建多層鏈路預(yù)測(cè)算法,在新能源汽車領(lǐng)域進(jìn)行實(shí)驗(yàn)分析,發(fā)現(xiàn)混合指標(biāo)有較好的預(yù)測(cè)效果。

(2)基于機(jī)器學(xué)習(xí)的方法

基于機(jī)器學(xué)習(xí)的方法將合作預(yù)測(cè)看作二分類問題,兩個(gè)節(jié)點(diǎn)有連邊為正類,無(wú)連邊為負(fù)類,通過無(wú)監(jiān)督或有監(jiān)督的機(jī)器學(xué)習(xí)方法預(yù)測(cè)新科研主體節(jié)點(diǎn)對(duì)的連邊屬于正類或負(fù)類的概率[36]。余傳明等[37]從DeepWalk、node2vec、LINE和SDNE四種網(wǎng)絡(luò)表示學(xué)習(xí)方法中選擇效果相對(duì)較好的方法作為代表構(gòu)建了一個(gè)集成模型,利用邏輯回歸計(jì)算節(jié)點(diǎn)對(duì)之間產(chǎn)生鏈接的概率值。Nikos等[38]構(gòu)建了一個(gè)包含結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的科學(xué)知識(shí)圖,對(duì)其文本和結(jié)構(gòu)信息進(jìn)行特征提取,最后使用邏輯回歸進(jìn)行二分類。

部分學(xué)者將鏈路預(yù)測(cè)和機(jī)器學(xué)習(xí)結(jié)合起來,構(gòu)建準(zhǔn)確性更高的預(yù)測(cè)方法。Guns等[39]搜集非洲、中東和東南亞在結(jié)核病研究上的研究合作,構(gòu)建加權(quán)城市合作網(wǎng)絡(luò),使用CN、Jaccard、AA、加權(quán)的SimRank等7個(gè)鏈路預(yù)測(cè)指標(biāo)進(jìn)行潛在合作的預(yù)測(cè),然后聚合不同預(yù)測(cè)指標(biāo)的預(yù)測(cè)效果,構(gòu)建隨機(jī)森林分類器預(yù)測(cè)下一個(gè)時(shí)期發(fā)生鏈接的相對(duì)強(qiáng)度。呂偉民等[40]的研究基礎(chǔ)上改進(jìn)得到極端隨機(jī)樹算法,構(gòu)建加權(quán)作者合作網(wǎng),以不同鏈路預(yù)測(cè)指標(biāo)作為特征輸入,使用改進(jìn)算法進(jìn)行分類,利用遍歷算法求取分類結(jié)果的最優(yōu)權(quán)重組合。

2.2.4 預(yù)測(cè)結(jié)果評(píng)價(jià)

基于網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo)、混合指標(biāo)或機(jī)器學(xué)習(xí)方法預(yù)測(cè)的潛在合作關(guān)系往往存在對(duì)算法準(zhǔn)確度的評(píng)價(jià),常用的評(píng)價(jià)指標(biāo)有AUC、Precision和Ranking Score。AUC側(cè)重于從整體上衡量算法的精確度,Precision考慮排在前L位的邊預(yù)測(cè)得是否準(zhǔn)確,Ranking Score更多考慮所預(yù)測(cè)的邊的排序[41]。

表4 評(píng)價(jià)指標(biāo)

3 總結(jié)和展望

基于科研網(wǎng)絡(luò)的潛在合作關(guān)系預(yù)測(cè)的相關(guān)研究自2013年興起,穩(wěn)步發(fā)展至今,是圖書情報(bào)領(lǐng)域的重要研究?jī)?nèi)容之一。對(duì)相關(guān)文獻(xiàn)進(jìn)行梳理,得到潛在合作關(guān)系預(yù)測(cè)的一般流程:網(wǎng)絡(luò)構(gòu)建、特征提取與表示、合作預(yù)測(cè)、預(yù)測(cè)結(jié)果評(píng)價(jià)。不同類型的同質(zhì)網(wǎng)絡(luò)、異質(zhì)網(wǎng)絡(luò)和二分網(wǎng)絡(luò)是潛在合作預(yù)測(cè)的基礎(chǔ),學(xué)者們?cè)诰W(wǎng)絡(luò)中提取節(jié)點(diǎn)內(nèi)容特征或網(wǎng)絡(luò)結(jié)構(gòu)特征,在特征提取和表示上趨向于更全面、準(zhǔn)確地描述科研主體的特征,將特征向量化。合作預(yù)測(cè)的方法可分為基于相似性的方法和基于機(jī)器學(xué)習(xí)的方法,前者通過比較內(nèi)容或結(jié)構(gòu)相似性的大小預(yù)測(cè)連邊的可能性,引入多類指標(biāo);后者將是否產(chǎn)生連邊看作二分類問題,引入機(jī)器學(xué)習(xí)中的分類算法。為了衡量預(yù)測(cè)結(jié)果的準(zhǔn)確性,使用評(píng)價(jià)指標(biāo)進(jìn)行判斷,不同的研究根據(jù)研究問題選擇適用于當(dāng)前研究的評(píng)價(jià)指標(biāo)。

就目標(biāo)文獻(xiàn)來看,當(dāng)前關(guān)于潛在合作關(guān)系預(yù)測(cè)的研究存在一定的局限性。從研究領(lǐng)域來看,多數(shù)潛在合作預(yù)測(cè)研究實(shí)施在學(xué)術(shù)合作網(wǎng)絡(luò)中,對(duì)產(chǎn)學(xué)研合作的研究比較有限;從數(shù)據(jù)層面上看,主流使用期刊論文和專利數(shù)據(jù),對(duì)科研社交網(wǎng)站信息[23]做了有限的嘗試;從網(wǎng)絡(luò)構(gòu)建上看,多數(shù)研究在較小規(guī)模的數(shù)據(jù)集上運(yùn)行,如出現(xiàn)頻次大于一定閾值的科研主體形成的網(wǎng)絡(luò),這使得合作預(yù)測(cè)一般出現(xiàn)在高產(chǎn)的科研主體之間,但產(chǎn)出較低的科研主體也應(yīng)得到重視;從研究結(jié)果來看,與實(shí)際的聯(lián)系并不緊密,對(duì)實(shí)際合作的引導(dǎo)有待提升。

隨著信息化,智能化的迅速發(fā)展,科研領(lǐng)域潛在合作關(guān)系預(yù)測(cè)可能有以下發(fā)展方向:

(1)產(chǎn)學(xué)研潛在合作關(guān)系預(yù)測(cè)。與學(xué)術(shù)潛在合作關(guān)系不同,產(chǎn)學(xué)研各主體間的相似性不一定預(yù)示著合作,因此在預(yù)測(cè)方面需要考慮更多因素,如企業(yè)規(guī)模,產(chǎn)學(xué)研主體性質(zhì)等。

(2)基于多數(shù)據(jù)源的潛在合作關(guān)系預(yù)測(cè)。從科研主體研究主題、研究興趣、社會(huì)關(guān)系、所處地域等多個(gè)視角搜集數(shù)據(jù),利用數(shù)據(jù)。

(3)大規(guī)??蒲泻献骶W(wǎng)絡(luò)的合作關(guān)系預(yù)測(cè)。構(gòu)建大數(shù)據(jù)集,進(jìn)行全部科研主體的科研合作預(yù)測(cè),其中科研主體可能來自不同的研究領(lǐng)域。

(4)多特征融合的表示方法改進(jìn)。將多種特征融入到表示學(xué)習(xí)方法中,構(gòu)建更全面高效的計(jì)算模型。

(5)機(jī)器學(xué)習(xí)方法的改進(jìn)。構(gòu)建適用于潛在合作預(yù)測(cè)的機(jī)器學(xué)習(xí)模型。

猜你喜歡
相似性節(jié)點(diǎn)文獻(xiàn)
Hostile takeovers in China and Japan
淺析當(dāng)代中西方繪畫的相似性
概念格的一種并行構(gòu)造算法
結(jié)合概率路由的機(jī)會(huì)網(wǎng)絡(luò)自私節(jié)點(diǎn)檢測(cè)算法
采用貪婪啟發(fā)式的異構(gòu)WSNs 部分覆蓋算法*
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
Crosstalk between gut microbiota and antidiabetic drug action
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
12個(gè)毫無(wú)違和感的奇妙動(dòng)物組合
基于隱喻相似性研究[血]的慣用句
甘谷县| 景洪市| 华池县| 岳普湖县| 咸阳市| 库尔勒市| 南宁市| 英吉沙县| 澄城县| 汶上县| 漠河县| 青州市| 淳安县| 金沙县| 阜阳市| 青川县| 秦皇岛市| 天长市| 汕尾市| 富顺县| 筠连县| 万州区| 贺州市| 宁化县| 平乡县| 都兰县| 皋兰县| 樟树市| 保定市| 兴仁县| 嘉定区| 游戏| 马尔康县| 涪陵区| 沽源县| 新乡县| 格尔木市| 岱山县| 南安市| 章丘市| 丰城市|