国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科研人員研究主題的聚焦與遷移研究*

2019-02-24 07:04陳立雪郭思月滕廣青庹銳
數(shù)字圖書館論壇 2019年12期
關(guān)鍵詞:科研人員發(fā)文方向

陳立雪 郭思月 滕廣青 庹銳

(東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院 長春 130117)

科研人員的研究主題分析一直受到圖書情報(bào)學(xué)領(lǐng)域的高度重視??茖W(xué)論文作為科研人員學(xué)術(shù)成果的重要載體,凝聚了科研人員的智慧,其中包含的大量隱含信息是對科研人員研究主題進(jìn)行識別的重要依據(jù)。近年來,科學(xué)知識的更新速度不斷加快,各學(xué)科間的交叉融合趨勢愈加明顯。一方面,學(xué)科領(lǐng)域內(nèi)的研究主題不斷推陳出新,一些原有的熱點(diǎn)主題不斷強(qiáng)化,而另一些新的知識逐漸成為流行主題,學(xué)科知識體系更呈現(xiàn)復(fù)雜性。另一方面,一些科研人員在自己的主要研究方向上堅(jiān)持始終,也有一些科研人員逐漸呈現(xiàn)研究方向的多樣化,甚至還有科研人員熱衷于追逐學(xué)科領(lǐng)域內(nèi)新的流行主題。面對這些問題,高發(fā)文、高被引等不同類型的科研人員會有怎樣的表現(xiàn),是一個(gè)值得深入研究的問題。

本研究采用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型,計(jì)算提取不同類型科研人員的研究主題。通過主題強(qiáng)度等指標(biāo)分析,探測不同類型科研人員的研究偏好,分析其在主要研究方向上的精專程度與主題遷移,為科學(xué)發(fā)展提供決策支持與參照依據(jù)。

1 相關(guān)研究綜述

圖書情報(bào)學(xué)領(lǐng)域,關(guān)于特定學(xué)科研究主題的計(jì)量與分析由來已久。早期的相關(guān)研究主要基于科學(xué)論文的關(guān)鍵詞等形式特征進(jìn)行分析[1],關(guān)注的重點(diǎn)包括領(lǐng)域熱點(diǎn)識別[2]、主題聚類[3]等多個(gè)方面。隨著研究工作的開展,研究者不再局限于對研究主題整體進(jìn)行研究,而是基于研究主題與科研人員之間的關(guān)聯(lián)關(guān)系,探索不同科研人員(群)研究主題的模式與特征。譚春輝等[4]采用詞頻分析和引文分析識別圖書館學(xué)領(lǐng)域的核心科研人員和領(lǐng)域研究主題。徐健等[5]基于關(guān)鍵詞計(jì)算科研人員之間的興趣相似度,并通過網(wǎng)絡(luò)聚類發(fā)現(xiàn)了科研人員個(gè)體在研究主題上的多樣性。但是科學(xué)論文的關(guān)鍵詞只是對論文主題的高度概括和濃縮,雖然能夠大致反映出所在論文的主題方向,但其帶有的人為主觀性難以全面地揭示論文的主題內(nèi)容。并且,傳統(tǒng)的主題劃分方法多是基于對論文中的高頻關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析之后得到的。由于未涉及文本細(xì)節(jié)內(nèi)容或詞語所包含的語義信息,使得主題提煉結(jié)果顯得較為粗糙,而且單純基于關(guān)鍵詞獲得的研究主題中,所伴隨的數(shù)據(jù)失真也是一個(gè)難以忽略的問題。

為彌補(bǔ)關(guān)鍵詞無法對主題進(jìn)行完全描述這一不足,基于自然語言處理的文本主題挖掘技術(shù)被應(yīng)用于科學(xué)計(jì)量中。Mane等[6]采用TF-IDF算法從PANS刊載的論文中提取特征詞,選擇其中突發(fā)權(quán)重指數(shù)最大的前50個(gè)詞,通過共詞分析對論文的主題及其變遷進(jìn)行研究。盡管TF-IDF能夠計(jì)算文檔中詞的重要性,但用于提煉文檔主題仍顯不足。Deerwester等[7]提出潛在語義分析(Latent Semantic Analysis,LSA)模型用于挖掘文檔與詞語之間隱含的潛在語義關(guān)聯(lián),但由于其算法復(fù)雜度較高,因此并沒有得到廣泛應(yīng)用。隨后Hofmann[8]對 LSA算法進(jìn)行改進(jìn),在LSA的基礎(chǔ)上進(jìn)行擴(kuò)展后提出概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)模型。該算法盡管能夠在一定程度上降低計(jì)算的復(fù)雜度,但遇到大規(guī)模文本時(shí),同樣也會使模型變得龐大以致增加處理難度。Blei等[9]在PLSA基礎(chǔ)上提出了LDA模型,通過引入文本的主題分布極大地降低了數(shù)據(jù)的維度,同時(shí)模型的參數(shù)空間規(guī)模是固定的,這也使LDA模型更適用于大規(guī)模文本集。現(xiàn)有的研究成果已經(jīng)證實(shí)LDA在挖掘文本主題方面比LSA和PLSA模型具有更大的優(yōu)勢[10-11]。此后的研究中,LDA被大量應(yīng)用于科學(xué)文獻(xiàn)的文檔主題提取。Griffiths等[12]采用LDA主題模型基于PNAS文集中的論文摘要進(jìn)行主題提取,識別其中的熱點(diǎn)主題和冷門主題及其主題強(qiáng)度變化。Wang等[13]結(jié)合LDA模型和TOT(Topics Over Time)模型對NIPS文獻(xiàn)數(shù)據(jù)集的隱含主題揭示后進(jìn)行了主題偏移的相關(guān)研究。國內(nèi)學(xué)者李湘東等[14]通過LDA的主題提取結(jié)果及JS散度來探測科技期刊的主題在強(qiáng)度和內(nèi)容兩方面的演化,并對不同時(shí)間窗口的主題穩(wěn)定性做出相應(yīng)分析。廖列法等[15]在LDA主題建模的基礎(chǔ)上,引入IPC分類號度量專利文本的技術(shù)主題強(qiáng)度。

綜上所述,學(xué)術(shù)界在基于關(guān)鍵詞的領(lǐng)域主題分析、針對作者的研究主題識別、基于LDA的主題挖掘等方面都積累了一定的成果。特別是在科研人員的研究主題分析方面,Nature旗下的Scientific Reports曾刊文指出,科研人員在進(jìn)行科學(xué)研究時(shí)更容易被流行的主題所吸引[16]。近年來,學(xué)術(shù)界追逐流行熱點(diǎn)的風(fēng)氣仍然存在。鑒于此,本研究采用LDA模型提取科研人員的研究主題,對高發(fā)文、高被引以及隨機(jī)抽取的3類科研人員的主題特征進(jìn)行分析,通過主題強(qiáng)度和主題變異系數(shù)探測不同類型科研人員在主要研究方向上的精專程度與主題遷移。

2 相關(guān)基礎(chǔ)理論

2.1 科研人員的研究主題

針對科研人員研究主題的相關(guān)研究,研究者通常將科研人員已發(fā)表科研成果的主題劃分作為科研人員研究主題的重要依據(jù)。對科研成果主題進(jìn)行劃分之后,將主題結(jié)果對應(yīng)到每位科研人員,以此作為科研人員的研究主題。實(shí)際上,在大多數(shù)科研人員的整個(gè)科研生涯中,其研究主題并單一的。因此,本研究將科研人員所發(fā)表的科學(xué)論文進(jìn)行主題劃分后的結(jié)果作為科研人員的研究主題,并將出現(xiàn)頻次最多的主題作為科研人員的主要研究方向進(jìn)行重點(diǎn)分析。考慮到不同類型科研人員在其主要研究方向上的執(zhí)著程度可能會有差別,研究工作從發(fā)文數(shù)量、被引數(shù)量與隨機(jī)抽取3個(gè)維度對科研人員進(jìn)行分類,探查不同類型科研人員在研究方向以及主題變換方面的模式特征。

研究中的主題劃分采用目前比較主流的LDA主題模型[9]。LDA主題模型打破了傳統(tǒng)空間向量“文檔-詞”的模式,將文檔直接映射到主題空間上,是基于“詞匯、主題、文檔”的三層貝葉斯模型。其主要思想是將文檔集合中的每篇文檔的主題以概率的形式給出,而主題就是詞匯的概率分布。采用主題描述文檔有效地解決了維度災(zāi)難的問題,同時(shí)也克服了空間向量模型的缺點(diǎn)。由于主題是文檔內(nèi)容的分類聚集,因此LDA可以很好地模擬大規(guī)模語料的語義信息。

2.2 主題強(qiáng)度與變異系數(shù)

不同主題科學(xué)論文的出現(xiàn)頻率反映了科研人員對不同主題的關(guān)注程度,在一定時(shí)期內(nèi)科研人員所發(fā)表的論文中,如果該科研人員在某一主題下發(fā)文頻率越高,則表明該科研人員對這一主題關(guān)注程度越高。本研究采用主題強(qiáng)度來描述某一時(shí)段科研人員所發(fā)表論文的主題熱度[17]。某一時(shí)間窗口中,科研人員所發(fā)表的某一主題的論文數(shù)量越多,則這一時(shí)間窗口該主題的強(qiáng)度就越大,見公式(1)。

為了考察科研人員主題強(qiáng)度的波動情況,本研究在主題強(qiáng)度的基礎(chǔ)上,借用統(tǒng)計(jì)學(xué)中變異系數(shù)的思想計(jì)算主題變異系數(shù),對科研人員研究主題的穩(wěn)定性進(jìn)行衡量,具體計(jì)算公式如下。

根據(jù)公式(1)所計(jì)算的某一科研人員在不同時(shí)間的某一主題強(qiáng)度值基于該科研人員這一主題在不同時(shí)間窗口的主題強(qiáng)度值,計(jì)算其標(biāo)準(zhǔn)差和平均值然后對每類科研人員計(jì)算平均值,以得到該類科研人員的主題變異系數(shù)V。較低的變異系數(shù)說明主題的波動性較小,穩(wěn)定性好;相反的,主題變異系數(shù)值越大,則說明主題波動較大,穩(wěn)定性差。

3 研究方法和流程

3.1 數(shù)據(jù)的采集

本研究以Web of Science核心數(shù)據(jù)庫作為基礎(chǔ)數(shù)據(jù)來源,根據(jù)《期刊引證報(bào)告》(JCR,2018),選定“INFORMATION SCIENCE & LIBRARY SCIENCE”學(xué)科中影響因子排名前十位的權(quán)威期刊進(jìn)行文獻(xiàn)檢索,檢索日期為2019年12月5日,檢索時(shí)間段為2006—2019年,將文獻(xiàn)類別限定為“Article”,語種限定為“English”,最終得到8 644篇有效文獻(xiàn),相關(guān)信息如表1所示。

表1 期刊論文數(shù)據(jù)匯總

表1列示了數(shù)據(jù)集合中的期刊名稱、期刊的影響因子以及各個(gè)期刊所刊發(fā)的論文數(shù)量。從中可以大致看出,盡管各個(gè)期刊的發(fā)文量相差較大,各刊的影響因子卻是圖書情報(bào)學(xué)領(lǐng)域排位靠前的,能夠較好地代表該學(xué)科的發(fā)展。表中的8 644篇論文共由1 898位科研人員完成,單個(gè)人員的最高發(fā)文量為72篇,最低發(fā)文量為1篇。研究工作將表1中所有期刊論文作為本研究中科研人員研究主題建模的原始數(shù)據(jù)。

3.2 代表性科研人員提取

不同的科研人員在學(xué)術(shù)界的表現(xiàn)存在很大的差異。傳統(tǒng)文獻(xiàn)計(jì)量學(xué)往往采用發(fā)文量、被引量等指標(biāo)衡量科研人員的學(xué)術(shù)貢獻(xiàn)水平。科研人員在某一時(shí)間段的總發(fā)文量在一定程度上反映了其研究的活躍程度[18];而所著論文的被引用頻次在一定程度上反映該科研人員成果的學(xué)術(shù)價(jià)值[19]。因此,研究工作選擇發(fā)文量和文獻(xiàn)被引頻次兩種指標(biāo),從兩個(gè)不同的考核維度分別篩選兩組不同的科研人員,即高發(fā)文科研人員和高被引科研人員。同時(shí),采用有放回隨機(jī)抽樣的方法在1 898位科研人員中隨機(jī)抽取10組科研人員作為參照。由于本研究更關(guān)注科研人員研究主題的遷移變化情況,為了確保隨機(jī)抽取科研人員的可參照性,在進(jìn)行抽樣時(shí)舍去了發(fā)文量低于2篇的科研人員。據(jù)此得到“INFORMATION SCIENCE & LIBRARY SCIENCE”學(xué)科領(lǐng)域影響因子排名前十位的期刊中高發(fā)文科研人員、高被引科研人員、隨機(jī)科研人員及其對應(yīng)的文獻(xiàn)數(shù)量,結(jié)果如表2所示。

限于篇幅的原因,表2僅列示了一組隨機(jī)抽取的科研人員及其發(fā)文數(shù)量。從表2中的數(shù)據(jù)可以發(fā)現(xiàn),科研人員的發(fā)文數(shù)量較少并不意味其被引頻次越少,如作者ELLISON N B并不屬于本研究中的高發(fā)文作者,但其所撰寫論文的被引頻次最多。并且,不同類型科研人員的重合率很低,具有良好的可比較性。

3.3 主題模型構(gòu)建

研究工作將所獲取的8 644篇有效科學(xué)論文中每一篇論文的標(biāo)題、關(guān)鍵詞和摘要經(jīng)過一系列的分詞、去停用詞等預(yù)處理之后作為一個(gè)文檔d,構(gòu)成訓(xùn)練文檔集合D作為LDA模型輸入的語料,由此獲得整體文獻(xiàn)集的研究主題。在這個(gè)過程中,對于主題數(shù)的確定是主題劃分的一個(gè)關(guān)鍵步驟,不同學(xué)者給出了一些不同的主題數(shù)選取指標(biāo),Blei等[9]曾提出用基于困惑度的方法來確定主題個(gè)數(shù),困惑度越小,模型泛化能力越強(qiáng)。Teh等[20]提出基于狄利克雷過程的HDP法來自動確定主題數(shù),采用此方法無須預(yù)先確定主題數(shù),主題可由數(shù)據(jù)生成再通過數(shù)據(jù)反向?qū)⑵渫瞥?。曹娟等[21]基于主題之間的相似度計(jì)算主題向量之間的余弦距離、KL距離等來確定主題個(gè)數(shù)。但上述方法在確定最優(yōu)主題數(shù)量時(shí),或多或少存在些許弊端,如在使用困惑度指標(biāo)確定主題數(shù)量時(shí),其主題內(nèi)容存在冗余現(xiàn)象。因此,本研究采用Coherence Score函數(shù)評價(jià)模型以獲取最優(yōu)主題數(shù)[22],選擇最高值的一致性分?jǐn)?shù)可以提供更加合理的主題數(shù)量。以主題數(shù)量為橫坐標(biāo),一致性得分為縱坐標(biāo),根據(jù)計(jì)算結(jié)果繪制一致性得分的折線圖,如圖1所示。

表2 不同類型作者與文獻(xiàn)數(shù)量

圖1 一致性得分折線圖

由圖1中的一致性得分折線可以看出,當(dāng)主題數(shù)量為14個(gè)時(shí)具有最高的一致性得分,因此設(shè)定主題個(gè)數(shù)為14,經(jīng)過最大100輪次的迭代過程,模型經(jīng)過訓(xùn)練后獲得初步的主題訓(xùn)練結(jié)果,提取結(jié)果中的主題、主題詞及相應(yīng)的文檔數(shù)量,如表3所示。

表3列示了采用LDA模型計(jì)算得到的14個(gè)研究主題及其主題詞。根據(jù)14個(gè)研究主題的概率詞項(xiàng)進(jìn)行推理,可以為每個(gè)主題制定相應(yīng)的標(biāo)簽。即topic0:企業(yè)管理。topic1:文本分析。topic2:用戶行為。topic3:信息檢索。topic4:醫(yī)療信息。topic5:健康護(hù)理。topic6:用戶服務(wù)。topic7:信息安全。topic8:知識管理。topic9:信息傳播。topic10:社群分析。topic11:引文分析。topic12:系統(tǒng)開發(fā)。topic13:公共信息。在此基礎(chǔ)上,以每篇論文所對應(yīng)的最大主題概率分布為依據(jù),將8 644篇論文分別歸屬到一個(gè)對應(yīng)的主題下,然后匯總不同主題的論文數(shù)量。表3中的論文數(shù)量可以直觀地反映出圖書情報(bào)學(xué)領(lǐng)域中發(fā)文量最多的主題所代表的學(xué)科熱點(diǎn)方向,如文本分析(topic1)、醫(yī)療信息(topic4)、引文分析(topic11)、系統(tǒng)開發(fā)(topic12)等。

4 研究結(jié)果

4.1 科研人員與研究主題關(guān)聯(lián)分析

科研人員的研究主題由其所發(fā)表論文的主題所反映,同一科研人員多篇論文隸屬多個(gè)主題則意味著該科研人員的研究主題比較分散。研究中將科研人員所發(fā)表的論文和基于LDA模型生成的該領(lǐng)域14個(gè)主題進(jìn)行對應(yīng)。以主題和科研人員為網(wǎng)絡(luò)節(jié)點(diǎn),以科研人員在某一主題下發(fā)表論文為連邊,分別構(gòu)建高發(fā)文、高被引以及隨機(jī)抽取的科研人員的“科研人員-主題”2-模網(wǎng)絡(luò),結(jié)果如圖2所示。

圖2中,(a)(b)(c)分別為高發(fā)文、高被引以及隨機(jī)抽取的科研人員的“科研人員-主題”2-模網(wǎng)絡(luò)。其中,方形節(jié)點(diǎn)代表研究主題,圓形節(jié)點(diǎn)代表科研人員,連邊的粗細(xì)表示邊權(quán)重的大小,即科研人員在某一主題發(fā)文數(shù)量的多少。

表3 LDA主題分類結(jié)果

圖2 “科研人員-主題”2-模網(wǎng)絡(luò)

從圖2(a)中可以發(fā)現(xiàn),12個(gè)主題節(jié)點(diǎn)中有7個(gè)主題節(jié)點(diǎn)位于網(wǎng)絡(luò)的中心區(qū)域,這些主題節(jié)點(diǎn)的度值都大于或等于3,而且網(wǎng)絡(luò)中存在多條高權(quán)重的連邊,說明這些主題在高發(fā)文科研人員群體中非常受到青睞。其中,文本分析(topic1)、醫(yī)療信息(topic4)、健康護(hù)理(topic5)與超過半數(shù)的高發(fā)文科研人員之間存在連邊,一定程度上說明這3個(gè)主題是高發(fā)文科研人員的熱點(diǎn)研究主題。同時(shí),引文分析(topic11)與醫(yī)療信息(topic4)兩個(gè)主題的邊權(quán)重合計(jì)值分別高達(dá)164和156。這意味著高發(fā)文科研人員的科研產(chǎn)出多與這兩個(gè)研究主題相關(guān),且與整個(gè)學(xué)科中所占比例最高的主題基本吻合,印證了高發(fā)文科研人員的研究主題在一定程度上代表了整個(gè)學(xué)科領(lǐng)域的熱點(diǎn)研究方向。

圖2(b)的2-模網(wǎng)絡(luò)中,主題節(jié)點(diǎn)數(shù)量達(dá)到13個(gè),多于圖2(a)中高發(fā)文科研人員涉及的主題數(shù)量。這一現(xiàn)象初步說明,高被引科研人員的研究主題相比高發(fā)文科研人員而言更加分散。從主題節(jié)點(diǎn)的度值來看,度值大于或等于3的主題節(jié)點(diǎn)數(shù)為6個(gè),即在主題總數(shù)量增加的同時(shí)高度值主題節(jié)點(diǎn)數(shù)量卻減少。同時(shí),僅有1個(gè)主題(topic0)與超過半數(shù)的高被引科研人員之間存在連邊,進(jìn)一步說明高被引科研人員的研究主題相對于圖2(a)中的高發(fā)文科研人員更加分散。此外,圖2(b)中表現(xiàn)突出的高權(quán)重連邊數(shù)量僅有1條,說明大多數(shù)高被引科研人員并不集中于某單一主題方向。

圖2(c)展示的是一組隨機(jī)抽取的“科研人員-主題”2-模網(wǎng)絡(luò)。該網(wǎng)絡(luò)同樣擁有13個(gè)主題節(jié)點(diǎn),說明隨機(jī)科研人員的研究主題也是相對分散的。該網(wǎng)絡(luò)中度值大于或等于3的主題節(jié)點(diǎn)數(shù)為7個(gè),在相對于圖2(a)主題總數(shù)增加的同時(shí)高度值主題節(jié)點(diǎn)數(shù)與之持平,但是與半數(shù)以上隨機(jī)科研人員存在連邊的主題節(jié)點(diǎn)數(shù)量為0,并且網(wǎng)絡(luò)中并不存在突出的高權(quán)重連邊。這一現(xiàn)象表明,隨機(jī)抽取的科研人員相對于高發(fā)文科研人員而言,不但研究主題分散,而且研究方向更具有靈活性。

為了能夠獲得更清晰的對比結(jié)果,研究工作對于高發(fā)文、高被引以及10組隨機(jī)抽取的科研人員的2-模網(wǎng)絡(luò)的基本特征指標(biāo)進(jìn)行測算,相關(guān)結(jié)果如表4所示。

表4 2-模網(wǎng)絡(luò)基本特征指標(biāo)

表4的數(shù)據(jù)顯示,高發(fā)文科研人員的2-模網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)最少,隨機(jī)科研人員次之,高被引科研人員2-模網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)最多。通過核查節(jié)點(diǎn)性質(zhì)發(fā)現(xiàn),網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量差異的原因主要由主題節(jié)點(diǎn)數(shù)量變化所導(dǎo)致。因此,從3類科研人員涉及的主題節(jié)點(diǎn)數(shù)量的角度看,高發(fā)文科研人員的研究主題相對集中,而高被引科研人員的研究主題則相對分散。此外,表4中的連邊數(shù)量與網(wǎng)絡(luò)密度指標(biāo)顯示,高發(fā)文科研人員所對應(yīng)的2-模網(wǎng)絡(luò)連邊數(shù)量最多且密度最大,隨機(jī)抽取的科研人員對應(yīng)的2-模網(wǎng)絡(luò)連邊數(shù)量最少且密度最小。2-模網(wǎng)絡(luò)的網(wǎng)絡(luò)密度指的是網(wǎng)絡(luò)中實(shí)際連接的邊數(shù)與網(wǎng)絡(luò)中節(jié)點(diǎn)間可能存在的最大連邊數(shù)量的比值。在本研究中這一指標(biāo)反映研究主題集合與科研人員集合之間聯(lián)系的緊密程度。由此可以得出,盡管同一位高發(fā)文科研人員可能會涉及多個(gè)研究主題,但是同一研究主題也被多個(gè)高發(fā)文科研人員共同關(guān)注。結(jié)合每個(gè)研究主題的發(fā)文數(shù)量可以發(fā)現(xiàn),圖2(a)中邊權(quán)重合計(jì)數(shù)最高的引文分析(topic11)與醫(yī)療信息(topic4)兩個(gè)主題所包含的論文數(shù)量之和,超過10位高發(fā)文科研人員發(fā)文數(shù)量的70%,從主題發(fā)文量的層面進(jìn)一步說明高發(fā)文科研人員的研究興趣更為集中。

4.2 主要研究方向與精專程度分析

出于對不同類型科研人員的主要研究方向及其精專程度進(jìn)行考察的目的,研究工作將每位科研人員所發(fā)表論文中出現(xiàn)頻次最高的主題作為該科研人員的主要研究方向,在此基礎(chǔ)上對不同類型科研人員的主要研究方向的分布特征進(jìn)行對比分析,獲得高發(fā)文、高被引以及隨機(jī)抽?。?組)的科研人員的主要研究方向的堆積條形圖,如圖3所示。

圖3 不同類型科研人員的主要研究方向

圖3下部顯示,高發(fā)文科研人員中,有5位科研人員將醫(yī)療信息(topic4)作為自己的主要研究方向,4位科研人員將引文分析(topic11)作為自己的主要研究方向,僅有1位科研人員將文本分析(topic1)作為自己的主要研究方向。由此可以看出,高發(fā)文科研人員的主要研究方向最為集中。在圖3中部高被引科研人員中,有2位科研人員將企業(yè)管理(topic0)作為自己的主要研究方向,3位科研人員將用戶服務(wù)(topic6)作為自己的主要研究方向,還有5位科研人員分別將文本分析(topic1)、用戶行為(topic2)、醫(yī)療信息(topic4)、引文分析(topic11)和系統(tǒng)開發(fā)(topic12)分別作為自己的主要研究方向。顯然,高被引科研人員相對于高發(fā)文科研人員在主要研究方向上更分散。圖3上部為一組隨機(jī)抽取的科研人員的主要研究主題數(shù)據(jù),有2位科研人員將文本分析(topic1)作為自己的主要研究方向,2位科研人員將用戶行為(topic2)作為自己的主要研究方向,2位科研人員將引文分析(topic11)作為自己的主要研究方向,還有4位科研人員分別將醫(yī)療信息(topic4)、信息安全(topic7)、知識管理(topic8)和系統(tǒng)開發(fā)(topic12)作為自己的主要研究方向。顯然隨機(jī)抽取的科研人員的主要研究方向最為分散。由此可以發(fā)現(xiàn),即使以頻次最高的主題作為科研人員的主要研究方向進(jìn)行測度,同樣顯示出高發(fā)文科研人員比高被引科研人員的研究方向更為集中。這一點(diǎn)與前文2-模網(wǎng)絡(luò)分析的結(jié)果相一致。

慕課不斷發(fā)展的同時(shí)對教師的教學(xué)能力、專業(yè)知識儲備量也提出了更高的要求[10]。在傳統(tǒng)課堂上,有些教師可能總是重復(fù)以往的知識點(diǎn),而忽略了最新的知識內(nèi)容。在慕課這個(gè)平臺上,教師如果想進(jìn)行問題模式的教學(xué),首要的就是豐富自己的知識。只有教師不斷的提升理論水平、實(shí)踐能力,并將兩者融匯貫通,才能有效指導(dǎo)學(xué)生完成對知識的分析、整合、歸納、演繹,最終內(nèi)化于心的過程[11]。并且與此同時(shí),教師不僅可以將自己的專業(yè)知識分享給別人,還可以學(xué)習(xí)到最全面最新穎的知識點(diǎn),而且還可以自己設(shè)計(jì)問題和學(xué)習(xí)者進(jìn)行線上討論,通過有趣的學(xué)習(xí)方法讓學(xué)生更好的掌握知識,做到了提高自身專業(yè)知識的同時(shí),改革了教學(xué)方法。

為了進(jìn)一步對不同類型科研人員在各自主要研究方向上的精專程度進(jìn)行對比分析,這部分研究采用公式(1)計(jì)算各類型科研人員中的每位科研人員在不同時(shí)間窗口(以每個(gè)自然年度為一個(gè)時(shí)間窗口)中主要研究方向的主題強(qiáng)度值;然后計(jì)算單一科研人員在整個(gè)時(shí)間序列上主題強(qiáng)度的均值作為該科研人員的主題強(qiáng)度;最后,計(jì)算某類科研人員中所有人員的主題強(qiáng)度的均值作為該類科研人員的主題強(qiáng)度值。為了更加客觀地呈現(xiàn)計(jì)算結(jié)果,在進(jìn)行主題強(qiáng)度的計(jì)算時(shí),對隨機(jī)抽取的10組科研人員均進(jìn)行計(jì)算,以組間平均值作為隨機(jī)科研人員的主題強(qiáng)度值。計(jì)算結(jié)果如表5所示。

表5 不同類型科研人員主要研究方向的主題強(qiáng)度

表5中的數(shù)據(jù)顯示,高發(fā)文科研人員的主題強(qiáng)度值最高。這意味著高發(fā)文科研人員群體在進(jìn)行科學(xué)研究時(shí),比較側(cè)重于自己的主要研究方向,而在其他研究主題上發(fā)表的文章數(shù)量相對較少,研究的精專程度較高。高被引科研人員群體的主題強(qiáng)度值最小,說明高被引科研人員對于非自己主要研究方向的其他研究主題,相比其他兩類科研人員有更多的涉及,因此主題強(qiáng)度值相對較低,在主要研究方向上的精專程度不如其他兩類科研人員。隨機(jī)科研人員的主題強(qiáng)度值在3類科研人員中居中,結(jié)合前文的網(wǎng)絡(luò)分析可以發(fā)現(xiàn),盡管隨機(jī)抽取的科研人員研究主題比較分散,但是該類科研人員在各自主要研究方向上的精專程度要略高于高被引科研人員。

4.3 主題穩(wěn)定性與主題遷移分析

出于對不同類型科研人員主要研究方向的穩(wěn)定性及其主題遷移進(jìn)行考察的目的,進(jìn)一步采用公式(2)計(jì)算不同類型科研人員主要研究方向的主題變異系數(shù),如表6所示。

表6 不同類型科研人員的主題變異系數(shù)

從表6中主要研究方向的主題變異系數(shù)可以發(fā)現(xiàn),高發(fā)文科研人員的主題變異系數(shù)最低,說明此類科研人員的主要研究方向在整個(gè)時(shí)間周期(2006—2019年)中比較穩(wěn)定。高被引科研人員和隨機(jī)科研人員的主題變異性系數(shù)值都比較高,表明這兩類科研人員群體的主要研究方向的穩(wěn)定性都較差。其中高被引科研人員群體主要研究方向的主題變異系數(shù)略高于隨機(jī)科研人員,即高被引科研人員的主要研究方向并不穩(wěn)定,甚至比隨機(jī)抽取的科研人員還要略顯欠佳。

研究工作進(jìn)一步基于每位科研人員在不同時(shí)間窗口主要研究方向的主題強(qiáng)度,分別按照科研人員類型繪制河流圖,動態(tài)考察不同科研人員在時(shí)間序列上的主要研究方向變化及其遷移情況。由于部分科研人員發(fā)表的成果在自然年度上并非連續(xù)的,當(dāng)某一科研人員在某時(shí)間段內(nèi)(1個(gè)或連續(xù)多個(gè)時(shí)間窗口)沒有論文發(fā)表且該時(shí)段前后的主題強(qiáng)度均不為0時(shí),則將該時(shí)段的主題強(qiáng)度用前一時(shí)間窗口的主題強(qiáng)度值進(jìn)行填充,以此區(qū)別于科研人員在該時(shí)段發(fā)表論文但研究主題產(chǎn)生遷移的情況。所得結(jié)果如圖4所示。

圖4(a)為高發(fā)文科研人員主要研究方向的主題強(qiáng)度河流圖,每條支流在不同時(shí)間窗下的寬度變化能夠反映該科研人員在某一段時(shí)期內(nèi)是否發(fā)生興趣轉(zhuǎn)移。從圖4(a)中可以發(fā)現(xiàn),有2位高發(fā)文科研人員(BA為BATES D W、TH為THELWALL M)各自的主要研究方向的主題強(qiáng)度在時(shí)間序列上出現(xiàn)了“斷流”現(xiàn)象。表明這兩位科研人在斷流處曾發(fā)生主題遷移,研究主題偏離了其主要研究方向。除此之外的其他高發(fā)文科研人員在自己的主要研究方向上都保持了較好的連續(xù)性,且這些科研人員在各自主要研究方向上所持續(xù)的時(shí)間基本都長達(dá)10年,甚至更久。此外,高發(fā)文科研人員群體雖然個(gè)體支流寬度偶有起伏,但是該群體總體河流寬度相對平穩(wěn),說明高發(fā)文科研人員在其主要研究方向上總體表現(xiàn)出較高程度的穩(wěn)定性。

圖4(b)和圖4(c)分別是高被引科研人員和隨機(jī)抽取的科研人員(1組)的主題強(qiáng)度河流圖。從中不難發(fā)現(xiàn),高被引科研人員與隨機(jī)科研人員在時(shí)間序列上分別發(fā)生7次和5次“斷流”。說明這兩類科研人員發(fā)生主題遷移的概率明顯高于高發(fā)文科研人員,尤其以高被引科研人員的表現(xiàn)最為突出。盡管隨機(jī)抽取的科研人員在自己的主要研究方向上的主題連續(xù)性略高于高被引科研人員,但是單一個(gè)體較高的“斷流”次數(shù)顯示出隨機(jī)抽取的科研人員發(fā)生主題遷移的周期更短。從兩類科研人員河流的總體寬度變化還可以發(fā)現(xiàn),高被引科研人員在時(shí)間軸后期河流的總寬度明顯收窄。說明隨著時(shí)間推移,高被引科研人員群體在自己的主要研究方向上興趣逐漸淡化,研究主題發(fā)生遷移且很少恢復(fù)。

圖4 科研人員主要研究方向的主題強(qiáng)度時(shí)序變化

5 結(jié)論

本文基于圖書情報(bào)學(xué)學(xué)科領(lǐng)域影響因子排名前十位學(xué)科期刊的論文數(shù)據(jù),從中抽取高發(fā)文和高被引排名前十位的科研人員和10組隨機(jī)抽取的科研人員,采用LDA主題模型提取科研人員的研究主題,識別不同類型科研人員的研究主題的相關(guān)特征,對3類科研人員各自主要研究方向在時(shí)間序列上的主題強(qiáng)度與主題遷移進(jìn)行分析。綜合上述分析結(jié)果,研究工作初步得出以下結(jié)論。

(1)高發(fā)文科研人員的研究主題相對集中。“科研人員-主題”2-模網(wǎng)絡(luò)分析的結(jié)果顯示,高發(fā)文科研人員的主題節(jié)點(diǎn)數(shù)量少于其他兩類科研人員,高權(quán)重連邊數(shù)量與單一主題的邊權(quán)重合計(jì)則明顯高于其他兩類科研人員(見圖2)。這一結(jié)果表明,在高發(fā)文科研人員研究主題相對集中的同時(shí),高被引與隨機(jī)科研人員的研究主題表現(xiàn)出多樣化特征。同時(shí),高發(fā)文科研人員對應(yīng)的2-模網(wǎng)絡(luò)中突出的邊權(quán)重,說明高發(fā)文科研人員的研究主題在一定程度上代表了整個(gè)學(xué)科領(lǐng)域的熱點(diǎn)研究方向。

(2)高發(fā)文科研人員的精專程度更高。針對主題強(qiáng)度的分析表明,高發(fā)文科研人員群體的平均主題強(qiáng)度值最高,高被引科研人員群體的平均主題強(qiáng)度值最低(見表5)。這意味著高發(fā)文科研人員群體更關(guān)注自己的主要研究方向,在其他主題上發(fā)文量較少,研究的精專程度較高。而高被引科研人員群體在主要研究方向上的主題強(qiáng)度則在3類人員中最低,在其他主題上的研究工作攤薄了其在主要研究方向上的精專程度。

(3)高被引科研人員研究主題的遷移性更突出。主題變異性的分析結(jié)果表明,高發(fā)文科研人員在主要研究方向上具備高度穩(wěn)定性,相反高被引科研人員主要研究方向的穩(wěn)定性最低(見表6)。相比高發(fā)文科研人員,高被引科研人員有更高的概率發(fā)生主題遷移,與涉獵廣泛或暫時(shí)性的興趣轉(zhuǎn)移不同,高被引科研人員主要研究方向發(fā)生主題遷移后很少再被重拾(見圖4)。

科學(xué)界的傳統(tǒng)認(rèn)知中,在鼓勵(lì)積極吸納新知識的同時(shí),也反對盲目追捧流行或時(shí)髦的概念,即流行的不等于是高水平的。對于研究中發(fā)現(xiàn)的高被引科研人員表現(xiàn)出的主題遷移性,本文并未做更深層次的挖掘。高被引科研人員的主題遷移可能是由于近年來科學(xué)知識的快速更新以及高水平科研人員對新知識渴求;也可能由于更多的科研人員熱衷于追捧時(shí)髦主題,從而堆高其被引量。研究中也存在一些不足之處,以特定領(lǐng)域影響因子排名靠前的權(quán)威期刊文獻(xiàn)作為研究數(shù)據(jù),尚不足以獲得更全面的認(rèn)識,在未來的工作中有待更全面深入的研究。

猜你喜歡
科研人員發(fā)文方向
科技部等五部門聯(lián)合發(fā)文開展減輕青年科研人員負(fù)擔(dān)專項(xiàng)行動
科研人員揭示油桃果實(shí)表皮不長毛的奧秘
2022年組稿方向
科研人員破譯黑豬肉特征風(fēng)味物質(zhì)
2021年組稿方向
2021年組稿方向
10條具體舉措! 山東發(fā)文做好返鄉(xiāng)留鄉(xiāng)農(nóng)民工就地就近就業(yè)
我國科研人員揭秘銀杏古樹長壽機(jī)制
位置與方向
北辰区| 尼勒克县| 九江市| 新津县| 蚌埠市| 凌源市| 苍梧县| 阿拉善右旗| 密云县| 宜春市| 咸丰县| 沙雅县| 循化| 铁岭县| 安乡县| 城固县| 东海县| 巴彦淖尔市| 丰县| 如皋市| 平湖市| 上栗县| 衡水市| 丘北县| 横峰县| 靖江市| 克拉玛依市| 黄梅县| 宝坻区| 武城县| 盐池县| 南昌县| 收藏| 芦溪县| 思南县| 黔南| 崇义县| 翁源县| 雷州市| 高密市| 宁海县|