趙 偉, 夏 昊 翔
(大連理工大學 經(jīng)濟管理學院,遼寧 大連 116024)
近幾十年來,無論是科學研究還是技術(shù)開發(fā),團隊和創(chuàng)新群體的作用日益顯著??茖W正在從“小科學”走向“大科學”。由“孤獨的天才”引領(lǐng)重大的科學突破的時代已經(jīng)過去,當代的熱點科學問題,例如轉(zhuǎn)化醫(yī)學、環(huán)境可持續(xù)發(fā)展、網(wǎng)絡(luò)學習、災(zāi)難應(yīng)變等,都呈現(xiàn)研究的復(fù)雜性,需要成員間通力合作來解決[1-2]??茖W研究日益規(guī)模化,科研活動已經(jīng)從分散的、個人的行為逐漸演變成一種跨學科、聚焦型、多人參與的集體協(xié)作行為[3]。從結(jié)果上看,科研團隊正在替代單個科學家,產(chǎn)生有更高影響力的科學研究成果[4]。團隊和創(chuàng)新群體在技術(shù)攻關(guān)中的作用則更為顯著,從大規(guī)模復(fù)雜軟件開發(fā)到航空航天領(lǐng)域的技術(shù)攻關(guān),無不依賴團隊和創(chuàng)新群體的集體智慧。正因如此,科技創(chuàng)新團隊及創(chuàng)新群體的研究正引起科學學和科技管理學界的廣泛關(guān)注。在我國推動創(chuàng)新驅(qū)動發(fā)展的征程中,高水平創(chuàng)新團隊和群體的培育和涌現(xiàn)對于提升我國科學技術(shù)發(fā)展水平有著至關(guān)重要的作用。我國依托國家自然科學基金創(chuàng)新研究群體項目等大力培養(yǎng)高水平科技團隊和創(chuàng)新群體。但如何更有效地推動高水平的團隊和群體的涌現(xiàn)和發(fā)展,這依舊是一個值得深入探討的研究課題。其中,對科技創(chuàng)新團隊和群體的組織、運作與演化規(guī)律的探究具有基礎(chǔ)性的意義。
從上面的簡述可以看到,人們對科研團隊組織、運作和演化的模式與規(guī)律已取得了一定的研究成果,但總體上當前對這一問題的認識還有待進一步深化。特別是,通過實際科研領(lǐng)域數(shù)據(jù)分析來探索科研團隊演化模式和機理的研究還較少。近年來大規(guī)模學術(shù)知識圖譜(Academic Knowledge Graph)的興起為進一步深入探索科研活動和科學知識發(fā)展提供了極大助力。這類大規(guī)模知識圖譜亦有望對數(shù)據(jù)驅(qū)動的科研團隊研究產(chǎn)生推動作用,特別是,借助大規(guī)模學術(shù)知識圖譜可以對科研團隊和創(chuàng)新群體的演化模式和機制形成帶來深入的認識。
在數(shù)據(jù)分析方法上,復(fù)雜網(wǎng)絡(luò)分析方法為探索大規(guī)??蒲形墨I數(shù)據(jù)集中科研團隊的結(jié)構(gòu)和演化提供了有力工具。從科技文獻出發(fā),可以依據(jù)作者之間的論文合著關(guān)系構(gòu)造作者合著網(wǎng)絡(luò),在作者合著網(wǎng)絡(luò)的基礎(chǔ)上通過作者之間的緊密合作關(guān)系來識別科研團隊,從而分析團隊的結(jié)構(gòu)特點和演化規(guī)律。因此,本文基于大規(guī)模的學術(shù)知識圖譜數(shù)據(jù),嘗試從復(fù)雜網(wǎng)絡(luò)的社區(qū)識別和社區(qū)演化分析入手,來探索科研團隊演化的模式。本文采用改進了網(wǎng)絡(luò)關(guān)系衰退算法的派系過濾法(CPM)進行團隊演化識別,對學術(shù)知識圖譜中機器學習領(lǐng)域的科研網(wǎng)絡(luò)團隊進行分析,從團隊成員構(gòu)成對團隊演化影響的角度,分析了影響團隊發(fā)展的因素,并嘗試從團隊成員組成的角度對團隊消亡進行預(yù)測。
本研究數(shù)據(jù)集選取自上海交通大學Acemap團隊發(fā)布的學術(shù)知識圖譜AceKG(https://www.acemap.info/),AceKG描述了大約1.143億個學術(shù)實體,包括61 704 089篇論文、52 498 428位作者、50 233個研究領(lǐng)域、19 843個學術(shù)機構(gòu)、22 744份期刊、1278個會議和3個特別附屬機構(gòu)??偟膩碚f,AceKG包含了31.3億個關(guān)系信息[22]。根據(jù)研究需要,本文過濾出機器學習這個經(jīng)歷過關(guān)注度爆發(fā)性增長的子領(lǐng)域。 本文選取1971 ~2015年時間跨度44年的所有論文、合著作者、寫作年份數(shù)據(jù),其中包含104 391篇論文,165 186位作者。這一知識圖譜的實體的屬性具有很大的差異性。例如,當今機器學習領(lǐng)域的論文數(shù)量顯著地多于這一領(lǐng)域早期(1970~1980年)的論文數(shù)量。然而,從這一涵蓋面較大的數(shù)據(jù)集出發(fā)可以較為全面地刻畫機器學習領(lǐng)域國際上主要科研團隊在過去40多年來的形成和演化過程。
首先,我們采用“時分科研合作網(wǎng)絡(luò)”(TSCN)來研究科研團隊的演化。時分科研合作網(wǎng)絡(luò)是在不同時間片下一系列科研合作網(wǎng)絡(luò)的快照的集合。在每個時間片下都是單獨的一個科研合作網(wǎng)絡(luò)TSCN(V,E)。V代表當前時間片作者的集合,E代表當前時間片作者合作關(guān)系的邊集合。
科研合作網(wǎng)絡(luò)中的合作關(guān)系在文章發(fā)表后會繼續(xù)存在,隨著時間流逝合作關(guān)系也會逐漸消失[23]。本文使用合并連續(xù)X年合著關(guān)系建立時分科研網(wǎng)絡(luò)的方法,來模擬科研合作網(wǎng)絡(luò)中合作關(guān)系的存續(xù)及消失。為了確定X的取值,統(tǒng)計了在機器學習領(lǐng)域中作者再次合作的間隔時間,如圖1所示,作者在1年內(nèi)再次合作的次數(shù)最多,隨著時間間隔變長統(tǒng)計到再次合作的次數(shù)快速遞減。在3年內(nèi)再次合作的時間點曲線出現(xiàn)第一個拐點,因此,本文把X取值定為3,假設(shè)3年內(nèi)沒有再次合作的作者間合作關(guān)系斷裂,之后兩人再次合作就認為是開始一段新的合作,作者間隔3年內(nèi)再次合著占統(tǒng)計次數(shù)的84.3%。確定S值后,利用提取的數(shù)據(jù)集中的文章發(fā)表年份信息,以年為單位,合并出1973到2015年間共42個時分科研協(xié)作網(wǎng)絡(luò)。每個時分科研合作網(wǎng)絡(luò)包括當年和前兩年的作者及合著關(guān)系。例如2009年的時分科研合作網(wǎng)絡(luò)由2007年、2008年、2009年的論文合作關(guān)系組成,網(wǎng)絡(luò)演化到2010年時,時分網(wǎng)絡(luò)變?yōu)?008年、2009年、2010年的論文合著關(guān)系組成。
圖1 兩作者再次合作的時間間隔分布曲線
網(wǎng)絡(luò)中的社區(qū)識別和社區(qū)演化分析方法是研究作者合著網(wǎng)絡(luò)中科研團隊的基礎(chǔ),對此學界已開發(fā)了多種方法。例如GraphScope[24]、FacetNet[25]、PioGED[26]等。 Palla等人提出派系過濾法(CPM)[27-28],并利用這一方分析科研合作網(wǎng)絡(luò)等社會網(wǎng)絡(luò)中的團隊演化[29]。CPM允許團隊群重疊,這一方法更有利于分析團隊隨著時間的演化過程。因此,本文使用CPM方法對每個時分科研合作網(wǎng)絡(luò)進行團隊識別。CPM方法通過找到網(wǎng)絡(luò)中所有K連通子圖,并合并其中相鄰子圖的方式(共享其中k-1個節(jié)點)來達到互通。CPM方法有兩個參數(shù)K連通子圖的K值和權(quán)重閾值w。在時分網(wǎng)絡(luò)建立時,關(guān)系衰退關(guān)系已經(jīng)被識別,所以這里不需要再考慮權(quán)重閾值w,只需要確定k群簇(k-clique)中的k值。
從常識來看,在團隊演化的各個時期成員大概率還會在同一個團隊中,所以在選擇參數(shù)k的取值時,以能保證成員在時分協(xié)作網(wǎng)絡(luò)的各個時期劃分在同一個團隊中的程度來評估參數(shù)準確性。為此本文提出了k取不同值時的網(wǎng)絡(luò)團隊成員偏出量DV(k),用以度量團隊成員在團隊演化過程中未被連續(xù)劃分到同一個團隊的程度。DV(k)值越低代表團隊成員劃分到組外的程度越低,所取的k值劃分效果越好。團隊成員偏出量DV(k)的定義如下:
(1)
其中,G代表演化網(wǎng)絡(luò)中的團隊總數(shù),GV(g)代表團隊g中所有成員的偏出量的均值,GV(g)的計算公式如下:
(2)
公式中M代表團隊g中所有成員,DLm代表了成員m在團隊g演化過程中沒有被劃分到團隊內(nèi)的時間,NLm代表成員m在團隊g內(nèi)的生存期。我們分別計算了k值為3、4、5時的網(wǎng)絡(luò)團隊成員偏出量及劃分的團隊數(shù)量,如表1所示,k=3時,長周期的成員也有很低的網(wǎng)絡(luò)團隊成員偏出量,同時團隊劃分粒度更細,可觀察的團隊生命期更長,所以這里我們?nèi)值為3。
表1 k取不同值時團隊的演化分數(shù)對比
團隊演化是網(wǎng)絡(luò)中連續(xù)的時間窗口(時分網(wǎng)絡(luò))中一系列事件(變化)相繼發(fā)生的結(jié)果。Palla等人[28]對團隊演化形態(tài)的劃分,本文確定使用7種獨立的事件:
(1)團隊不變:在連續(xù)的兩個時分網(wǎng)絡(luò)中團隊的規(guī)模不變,部分成員可能離開或加入。
(2)團隊收縮:部分成員離開導(dǎo)致團隊的規(guī)模收縮。團隊可能只離開幾個成員或者劇烈收縮減少大部分成員。
(3)團隊擴張:新成員加入使團隊的規(guī)模增加。團隊的規(guī)??赡苤辉黾訋讉€節(jié)點,也有整體規(guī)模擴張為前一個時間片兩到三倍的可能。
(4)團隊分裂:當一個團隊在下一個時間片分成兩個或多個團隊時,就認為發(fā)生了團隊分裂。分裂發(fā)生后可能形成兩個規(guī)模相當?shù)膱F隊,或者分裂為一個“主團隊”及遠小于原規(guī)模的“子團隊”。
(5)團隊合并:當幾個團隊在下一個時間片合并為一個團隊時認為團隊合并。
(6)團隊消散:當團隊內(nèi)成員在下一個時間片都離開或者彼此間不再合作,團隊即為已經(jīng)消散。
(7)團隊新增:與團隊消散相對應(yīng),當下一個時間片中的團隊沒有與之對應(yīng)的演化前團隊時,就認為團隊是新增的。
我們采用CPM團隊演化法,利用t和t+1時刻時分科研合作網(wǎng)的聯(lián)合圖中的團隊分別去匹配t時刻的團隊和t+1時刻的團隊,識別出不同時期同一個團隊的演化過程。
首先,分析時分科研合作網(wǎng)絡(luò)每個時間片中網(wǎng)絡(luò)中團隊的規(guī)模。分析只需要對機器學習領(lǐng)域的合作網(wǎng)絡(luò)有整體的了解,所以對整個時分網(wǎng)絡(luò),只從1985年開始每隔5年截取一個網(wǎng)絡(luò)進行對比,團隊規(guī)模及不同規(guī)模下團隊數(shù)量的對數(shù)分布如圖2所示??梢钥闯鰴C器學習領(lǐng)域演化網(wǎng)絡(luò)中團隊規(guī)模都近似服從冪律分布,并且隨著領(lǐng)域的發(fā)展,時分網(wǎng)絡(luò)中的團隊規(guī)模和團隊數(shù)量都在逐步增加。
圖2 團隊規(guī)模及不同規(guī)模下團隊數(shù)量分布圖(對數(shù)標尺)
另外一個感興趣的研究是機器學習領(lǐng)域中不同生存期團隊的分布情況,把不同生存期團隊的數(shù)量取對數(shù)后的結(jié)果如圖3所示。從圖中可以看到不同生存期團隊數(shù)量在對數(shù)坐標系下勻速減少,生存期3年以內(nèi)的臨時團隊在網(wǎng)絡(luò)中共用20 000多個,而生存期14年及以上的長期團隊在演化網(wǎng)絡(luò)中的數(shù)量只有個位數(shù)。
圖3 不同生存期團隊的數(shù)量分布圖
在一個不斷演化的網(wǎng)絡(luò)中不同時期形成的團隊的生存期是否相同?例如1980年的團隊平均生存期與2000年團隊的生存期是不是一樣?為此統(tǒng)計了各個時期團隊的生存期如圖4??梢钥闯鰣F隊平均生命期是逐漸增加的,初始的震蕩過程認為是數(shù)據(jù)不足造成的,最后幾年的平均生命期下降是因為很多長周期團隊還沒有結(jié)束造成的。
圖4 不同時間片下新生成團隊平均生存期
Palla等人使用CPM方法得出了小團隊成員穩(wěn)定更有利于團隊長期存在,大型團隊成員不斷變化更有利團隊的長期存在的結(jié)論[28],本文從團隊中成員組成的角度,分析小型團隊和大型團隊的成因及影響團隊長期存在的因素。
本文根據(jù)團隊成員在團隊中生存期的不同,把團隊中成員分成3種角色:
(1)短期參與者:短期參與者在團隊中的生存期小于等于3年,因為我們以3年為單位合并網(wǎng)絡(luò),所以只在短期內(nèi)合作一篇或多篇文章的參與者會在3年內(nèi)被識別出來。這類成員可能是在學校完成學業(yè)后并沒有繼續(xù)留在學術(shù)領(lǐng)域的成員。
(2)持續(xù)參與者:持續(xù)參與者是在團隊創(chuàng)建時就存在,并在消亡始終存在的成員。雖然持續(xù)參與者的認定條件比較苛刻,但經(jīng)過統(tǒng)計發(fā)現(xiàn),96%的團隊中存在持續(xù)參與者,并且在團隊中平均占比達到43.3%,這類成員很可能是團隊的核心人物或領(lǐng)導(dǎo)人。
(3)中長期參與者:介于短期參與者與持續(xù)參與者之間的成員稱為中長期參與者,這類成員也始終投入學術(shù)研究,可能是中間加入或者后來離開了這個團隊的成員。
團隊的規(guī)模作為團隊的基本屬性之一,規(guī)模越大的團隊成員間可以做更細的分工,產(chǎn)生規(guī)模效應(yīng)、提高生產(chǎn)率。但在團隊規(guī)模增加的同時成員間溝通成本也會增加,對生產(chǎn)率提高又有著負向的影響。所以,團隊應(yīng)該根據(jù)工作的性質(zhì),酌情控制團隊的規(guī)模。本文從生存期5年的團隊開始每隔3年生存期截取一次,得到不同規(guī)模的團隊中成員數(shù)量的對比,如圖5所示,可以看到不同生存期的團隊在規(guī)模增加時,短期參與者人數(shù)都會迅速增加,中長期參與者數(shù)量在生存期長的團隊中比在生存期短的團隊中所占的比重更大,持續(xù)參與者人數(shù)在不同生存期的團隊中所占的比重幾乎不變,甚至在相同生存期的團隊中團隊規(guī)模持續(xù)增加參與者人數(shù)反而會減少。
圖5 團隊生存期5年、8年、11年、14年的成員數(shù)量統(tǒng)計
由此可以推斷出,團隊規(guī)模增加與團隊中持續(xù)參與者數(shù)量無關(guān),主要是因為短期參與者加入引起的。對于想擴充規(guī)模的團隊,必須要不斷吸納新成員,并增加團隊的生存期使得其中一部分短期成員轉(zhuǎn)變?yōu)橹虚L期參與者。
團隊的生存期代表了團隊存續(xù)的時間。團隊的生存期越長,團隊中成員的熟悉程度越高、知識的同質(zhì)化程度也會越高。所以團隊的生存期與團隊的績效不一定相關(guān)。已有研究表明成員的低流動性與知識保留相關(guān),成員的高流動性與知識的創(chuàng)造和轉(zhuǎn)移相關(guān)[30]。顯然,工作目標的不同導(dǎo)致團隊的生存期長短各有好處。例如研發(fā)部門在團隊生命期短、人員流動性高的情況下蓬勃發(fā)展[31],而在需要知識沉淀的工作下,生命期長的團隊會更有優(yōu)勢。
圖6比較了不同規(guī)模的團隊中,成員在不同生存期的團隊中的平均數(shù)量。觀察可得,短期參與者數(shù)量與團隊的生存期并不相關(guān),中長期參與者數(shù)量隨著團隊生存期增加而成比例增加,但可以認為這是因為隨著團隊生存期變長中間參與者隨之增加的正?,F(xiàn)象。比較有趣的是,圖中可以發(fā)現(xiàn)隨著團隊生存期增加,團隊中持續(xù)參與者數(shù)量并沒有成比例增加,反而出現(xiàn)了數(shù)量上的減少。
我們單獨統(tǒng)計了不同生存期的團隊中持續(xù)參與者數(shù)量及所占的比率,結(jié)果如圖7所示??梢钥闯鲭S著團隊生存期的增加團隊中持續(xù)參與者數(shù)量及在團隊中的比率是逐漸下降的。與3年內(nèi)是團隊內(nèi)短期成員劃分標準類似,我們也認為生存期1~3年的團隊是短期存在的團隊,可以看到對于生存期4、5年這種剛剛超過短期團隊的團隊,團隊內(nèi)持續(xù)參與者占比在50%左右。所以,我們得出團隊內(nèi)持續(xù)參與者占比大有助于團隊短期內(nèi)的存在,但是減少團隊內(nèi)持續(xù)參與者數(shù)量和比率更有利于團隊的長期發(fā)展。
在對團隊成員和團隊關(guān)系相關(guān)性調(diào)查時,我們發(fā)現(xiàn)在團隊發(fā)展的過程中成員數(shù)量會有一個逐漸增加的趨勢,而在很多消亡的團隊中,都觀察到在即將消亡前團隊規(guī)模呈現(xiàn)下降的趨勢。利用團隊的這個特性,我們提出了一個團隊消亡的預(yù)測方法:在時刻T的團隊成員規(guī)模MST與T-1時刻成員移動的平均規(guī)模GMH(T-1)比較,如果成員當前規(guī)模小于成員移動平均規(guī)模,就預(yù)示著團隊成員規(guī)模處在一個下行趨勢中,團隊有消亡的風險:
(3)
其中MLt代表t時刻團隊的生存期。我們利用該公式,對團隊生存期進行預(yù)測。因為生存期1至3年的團隊,我們認為可能是一次合作隨即消亡的團隊,我們從生存期為4年的團隊開始統(tǒng)計,結(jié)果如表2所示。可以看到對生命期為4年的團隊的預(yù)測查準率是100%,查全率只有5.34%,隨著團隊生存期的增加,預(yù)測時查準率逐漸下降,查全率逐漸提高,生存期為15年的團隊查準率為33%,查全率為100%??梢钥吹皆趫F隊生命期短的時候,團隊成員數(shù)量穩(wěn)定,出現(xiàn)團隊成員得分減少的情況就預(yù)示著團隊即將消亡,但是團隊消亡也可能是其他原因造成的,用這種方式可以檢查出團隊的消亡,但是不能預(yù)測出所有的消亡情況。在團隊生存期達到15年時,使用團隊成員得分減少的預(yù)測方法可以檢測出所有的消亡情況,但是達到預(yù)警值時團隊不一定會消亡,也可能通過團隊成員努力促使團隊回歸正軌。
表2 不同生存期團隊消亡預(yù)測的查準率和查全率
本文采用改進了網(wǎng)絡(luò)關(guān)系衰退算法的派系過濾法(CPM)對機器學習領(lǐng)域的團隊演化路徑進行識別,并提出團隊在演化過程中的7種事件及團隊中成員的3種分類。Palla等[29]的研究顯示:小團隊成員穩(wěn)定更有利于團隊長期存在,大型團隊成員不斷變化更有利團隊的長期存在。在這些研究基礎(chǔ)上,本文進一步分析了團隊成員分類對團隊規(guī)模和團隊生存期的影響,經(jīng)過分析發(fā)現(xiàn)短期參與者是影響團隊規(guī)模的重要因素,規(guī)模大的團隊是因為有更多的短期參與者的加入,團隊中的持續(xù)參與者與團隊生存期相關(guān),在生存期短的團隊中持續(xù)參與者數(shù)量和占比都要比生存期長的團隊更高??蒲泄ぷ髡呖梢愿鶕?jù)工作的性質(zhì)有目的地選擇團隊中持續(xù)參與者數(shù)量及是否要吸納大量新成員,達到控制團隊規(guī)模和團隊的生存期趨勢以更好地為科研工作服務(wù)的目的。
本文利用移動平均法實現(xiàn)了一種預(yù)測團隊消亡的方法,利用文章使用的數(shù)據(jù)集,在團隊生存期較短時可以準確地預(yù)測出團隊的消亡,在團隊生存期較長(大于15年)時可以預(yù)測出所有的團隊消亡。根據(jù)以上發(fā)現(xiàn),科研工作者為了更好地完成研究工作,可以根據(jù)工作的性質(zhì)有目的地選擇成員,達到控制團隊規(guī)模和團隊的生存期趨勢的目的。本研究亦對科研管理部門管理科研團隊和創(chuàng)新群體、促進團隊和群體的健康發(fā)展具有一定的借鑒意義。
盡管取得以上研究成果,但本文還存在一定的不足。未來作者將進一步針對更大領(lǐng)域跨度的大規(guī)模知識圖譜對本文所提方法加以檢驗,探究本文所發(fā)現(xiàn)的團隊演化模式的普適性。本文的另一項后續(xù)工作是利用復(fù)雜系統(tǒng)建模與分析的方法探究本文所解釋的團隊演化模式背后的深層機理。