国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

社會(huì)科學(xué)數(shù)據(jù)集的跨學(xué)科性研究

2023-08-31 02:26劉智鋒王繼民
現(xiàn)代情報(bào) 2023年9期
關(guān)鍵詞:社會(huì)科學(xué)跨學(xué)科

劉智鋒 王繼民

關(guān)鍵詞: 社會(huì)科學(xué); 數(shù)據(jù)集; 跨學(xué)科; CHARLS; CGSS

DOI:10.3969 / j.issn.1008-0821.2023.09.014

〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 09-0165-13

隨著開放獲取運(yùn)動(dòng)的不斷興起, 開放科學(xué)得到了科研社區(qū)的廣泛關(guān)注[1] 。開放科學(xué)數(shù)據(jù)作為開放科學(xué)的重要組成部分, 是促進(jìn)科學(xué)數(shù)據(jù)高效利用的重要途徑。早在2018 年, 國(guó)務(wù)院辦公廳發(fā)布了《科學(xué)數(shù)據(jù)管理辦法》[2] , 提出促進(jìn)科學(xué)數(shù)據(jù)的開放共享, 以支撐科技創(chuàng)新與社會(huì)經(jīng)濟(jì)發(fā)展。學(xué)界圍繞開放科學(xué)數(shù)據(jù)開放共享開展研究, 重點(diǎn)關(guān)注科學(xué)數(shù)據(jù)共享平臺(tái)[3] 、開放政策[4] 、影響因素[5] 等方面。

科學(xué)數(shù)據(jù)集開放只是共享的第一步, 數(shù)據(jù)集開放之后如何被學(xué)者利用, 則是科學(xué)數(shù)據(jù)發(fā)揮價(jià)值的關(guān)鍵所在, 同時(shí)也是理解科學(xué)數(shù)據(jù)開放共享如何促進(jìn)科學(xué)進(jìn)步的途徑。關(guān)于數(shù)據(jù)集的利用, 當(dāng)前圖情領(lǐng)域?qū)W者多數(shù)從數(shù)據(jù)集利用主體出發(fā), 重點(diǎn)關(guān)注數(shù)據(jù)復(fù)用行為特征[6] 及其影響因素[7] ; 也有學(xué)者研究了科學(xué)數(shù)據(jù)集的知識(shí)擴(kuò)散[8] ; 卻鮮有研究關(guān)注數(shù)據(jù)集如何被不同學(xué)科領(lǐng)域的學(xué)者利用。數(shù)據(jù)集作為實(shí)證研究的基礎(chǔ), 同一數(shù)據(jù)集不僅被本學(xué)科領(lǐng)域的學(xué)者利用, 也可被不同學(xué)科的學(xué)者復(fù)用[9] 。分析數(shù)據(jù)集被哪些學(xué)科使用, 跨學(xué)科性如何、是否存在跨學(xué)科合作社區(qū), 相關(guān)研究的主題以及跨學(xué)科研究如何演化等問題, 有助于理解數(shù)據(jù)集在不同學(xué)科的擴(kuò)散規(guī)律以及數(shù)據(jù)集如何在不同學(xué)科發(fā)揮作用的機(jī)制。

隨著數(shù)據(jù)驅(qū)動(dòng)的研究范式在社會(huì)科學(xué)領(lǐng)域不斷盛行, 數(shù)據(jù)集已成為社會(huì)科學(xué)領(lǐng)域量化分析的重要基礎(chǔ)[10] , 社會(huì)科學(xué)數(shù)據(jù)集的數(shù)量快速增長(zhǎng), 數(shù)據(jù)集的影響力不斷增強(qiáng)。社會(huì)科學(xué)數(shù)據(jù)是指人類各類社會(huì)系統(tǒng)運(yùn)行過程中所產(chǎn)生的各類數(shù)據(jù)[11] , 與自然科學(xué)數(shù)據(jù)存在顯著差異。在自然科學(xué)研究中, 實(shí)驗(yàn)等方法獲取的數(shù)據(jù)標(biāo)準(zhǔn)性較好, 如在計(jì)算機(jī)科學(xué)和生物醫(yī)學(xué)等領(lǐng)域, 基于同一實(shí)驗(yàn)數(shù)據(jù)集, 研究者可以從不同角度或采用不同方法進(jìn)行研究, 從而具有較高的重復(fù)利用率; 相比之下, 社會(huì)科學(xué)數(shù)據(jù)主要通過調(diào)查等收集, 數(shù)據(jù)較為主觀, 質(zhì)量參差不齊,且大部分社科數(shù)據(jù)集是研究者根據(jù)自身研究需求進(jìn)行獲取, 盡管存在一些高質(zhì)量數(shù)據(jù)集, 但滿足統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)集相對(duì)較少, 數(shù)據(jù)集的共享和重復(fù)利用率較低。為了促進(jìn)社會(huì)科學(xué)數(shù)據(jù)集的共享與使用,社會(huì)科學(xué)領(lǐng)域?qū)W者不斷推進(jìn)高質(zhì)量的數(shù)據(jù)集建設(shè),如北京大學(xué)牽頭開展了中國(guó)健康與養(yǎng)老追蹤調(diào)查,收集一套中國(guó)中老年人及其家庭的高質(zhì)量微觀數(shù)據(jù)等, 高質(zhì)量的社科數(shù)據(jù)不斷增加。

以往研究更多聚焦于科學(xué)數(shù)據(jù)集的共享與重復(fù)利用研究[12] , 對(duì)社會(huì)科學(xué)數(shù)據(jù)集的跨學(xué)科擴(kuò)散研究較少。因此, 本文擬以被廣泛使用的中國(guó)健康與養(yǎng)老追蹤調(diào)查(CHARLS)和中國(guó)綜合社會(huì)調(diào)查(CGSS)兩個(gè)社會(huì)科學(xué)數(shù)據(jù)集為研究對(duì)象, 從數(shù)據(jù)集的跨學(xué)科性測(cè)度分析、數(shù)據(jù)集跨學(xué)科合作社區(qū)結(jié)構(gòu)與主題識(shí)別以及數(shù)據(jù)集跨學(xué)科合作演化研究3 個(gè)方面, 對(duì)社會(huì)科學(xué)數(shù)據(jù)集的跨學(xué)科性進(jìn)行研究, 以期為促進(jìn)社會(huì)科學(xué)數(shù)據(jù)集在不同學(xué)科之間的開放共享、高效利用以及數(shù)據(jù)集的影響力評(píng)價(jià)等方面提供理論支持。

1相關(guān)研究

1.1科學(xué)數(shù)據(jù)集使用特征研究

科學(xué)數(shù)據(jù)集是描述科學(xué)研究對(duì)象、狀態(tài)、條件等因素的數(shù)字、文字和符號(hào)[13] , 可以分為調(diào)查數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、記錄數(shù)據(jù)等不同類型,對(duì)實(shí)證研究具有重要研究意義[14] 。以科學(xué)數(shù)據(jù)集作為研究對(duì)象, 學(xué)界從不同視角對(duì)科學(xué)數(shù)據(jù)集的特征開展了一系列相關(guān)研究。從數(shù)據(jù)生命周期的視角出發(fā), 孟祥保等[15] 分析了教育學(xué)、歷史學(xué)等6 個(gè)學(xué)科的數(shù)據(jù)創(chuàng)建主體、數(shù)據(jù)組織、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)出版以及數(shù)據(jù)引用5 個(gè)方面的特征。屈亞杰等[16] 從被引社會(huì)科學(xué)數(shù)據(jù)的被引次數(shù)、訪問形式、規(guī)模、時(shí)間跨度等不同方面揭示了社會(huì)科學(xué)數(shù)據(jù)的引用特點(diǎn)。沈婷婷[17] 以《中國(guó)社會(huì)科學(xué)》為例, 研究了人文社會(huì)學(xué)科學(xué)者的數(shù)據(jù)來(lái)源、所用的數(shù)據(jù)類型、方法與工具等。楊寧等[18] 分別從計(jì)量分析與內(nèi)容分析兩個(gè)視角出發(fā), 分析了生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集的使用強(qiáng)度、使用章節(jié)、使用位置等使用特征。戚景琳等[19] 、張瑩等[20] 探索了經(jīng)濟(jì)學(xué)和管理學(xué)領(lǐng)域的科研人員數(shù)據(jù)使用行為特征。Park H[9] 通過科學(xué)數(shù)據(jù)集在不同學(xué)科之間的引用情況, 研究科學(xué)、技術(shù)、工程等理工科的科學(xué)數(shù)據(jù)集跨學(xué)科性。綜上可知, 學(xué)者們主要從使用和引用兩個(gè)視角出發(fā), 分析了科學(xué)數(shù)據(jù)集的特征和科研人員的數(shù)據(jù)集復(fù)用行為。然而, 社會(huì)科學(xué)數(shù)據(jù)集的跨學(xué)科特性并未得到深入研究。

1.2跨學(xué)科性相關(guān)研究

跨學(xué)科研究, 也被稱為交叉學(xué)科研究, 已被認(rèn)為是人類解決重大科研難題的重要研究范式[21] 。而跨學(xué)科性是跨學(xué)科研究的特征, 如研究的跨學(xué)科分布及跨學(xué)科的廣度、深度等[22] 。關(guān)于跨學(xué)科性的研究, 學(xué)者主要從跨學(xué)科理論研究、跨學(xué)科性測(cè)度、跨學(xué)科性的演化等方面展開。在跨學(xué)科性的理論研究方面, 步一等[23] 從知識(shí)重組的視角來(lái)解構(gòu)跨學(xué)科性。關(guān)于跨學(xué)科性的測(cè)度, Stirling A[24] 提出可以從學(xué)科豐富性、學(xué)科均衡性以及學(xué)科差異性3 個(gè)維度對(duì)跨學(xué)科性進(jìn)行測(cè)度, 學(xué)科豐富性表示學(xué)科的種類多少, 學(xué)科均衡性代表的是不同學(xué)科的數(shù)目是否均衡, 而學(xué)科的差異性反映不同學(xué)科之間的差異程度; 后續(xù)學(xué)者采用各種類型的指標(biāo)來(lái)衡量這3 個(gè)維度, 如不同學(xué)科數(shù)[25] 、信息熵[26] 、基尼系數(shù)[27] 等。在此基礎(chǔ)上, 學(xué)者們通過跨學(xué)科性測(cè)度指標(biāo)隨時(shí)間的變化來(lái)研究跨學(xué)科性的演化, 如Zhao Y 等[28] 分析了COVID-19 相關(guān)研究是否具有越來(lái)越高的跨學(xué)科性; 吳小蘭等[29] 從學(xué)科豐富度、均衡度和差異度3 個(gè)方面研究了國(guó)家自然科學(xué)基金項(xiàng)目發(fā)文的跨學(xué)科演變。

此外, 部分學(xué)者從學(xué)科共現(xiàn)網(wǎng)絡(luò)與跨學(xué)科引用的視角來(lái)研究特定學(xué)科領(lǐng)域的跨學(xué)科性。學(xué)科共現(xiàn)網(wǎng)絡(luò)通過不同學(xué)科在同一篇論文共現(xiàn)關(guān)系來(lái)構(gòu)建,特定領(lǐng)域論文的學(xué)科共現(xiàn)網(wǎng)絡(luò)可以反映該領(lǐng)域的跨學(xué)科合作結(jié)構(gòu), 從而揭示該領(lǐng)域的跨學(xué)科特征。如Xu X 等[30] 構(gòu)建了7 544篇論文的學(xué)科共現(xiàn)網(wǎng)絡(luò),并對(duì)網(wǎng)絡(luò)進(jìn)行分析以揭示精準(zhǔn)醫(yī)學(xué)領(lǐng)域的跨學(xué)科性。Hu J 等[31] 采用大數(shù)據(jù)領(lǐng)域的論文學(xué)科共現(xiàn)網(wǎng)絡(luò)來(lái)分析該領(lǐng)域的跨學(xué)科性。跨學(xué)科引用視角, 通過分析不同學(xué)科之間的引用情況, 以揭示不同學(xué)科之間的跨學(xué)科性以及不同學(xué)科之間的知識(shí)流動(dòng), 如徐璐等[32] 分析了圖書情報(bào)領(lǐng)域期刊的跨學(xué)科引用,來(lái)研究期刊在跨學(xué)科交流中所起的作用。施順順[33] 采用Rao-Stirling 多樣性指標(biāo)評(píng)估了公共管理學(xué)的跨學(xué)科性。

綜上可知, 當(dāng)前學(xué)者關(guān)于跨學(xué)科性開展了大量的研究, 然而這些研究主要研究特定主題或?qū)W科領(lǐng)域的跨學(xué)科性, 鮮有研究分析基于特定數(shù)據(jù)集的相關(guān)研究的跨學(xué)科性, 因此, 本文擬借鑒以往的相關(guān)研究, 從學(xué)科多樣性和學(xué)科均衡性對(duì)數(shù)據(jù)集的跨學(xué)科性進(jìn)行測(cè)度, 并從學(xué)科共現(xiàn)網(wǎng)絡(luò)的視角出發(fā)研究基于特定數(shù)據(jù)集的相關(guān)研究的跨學(xué)科合作網(wǎng)絡(luò)結(jié)構(gòu)及其演化規(guī)律。

1.3知識(shí)實(shí)體擴(kuò)散相關(guān)研究

科學(xué)知識(shí)擴(kuò)散是指知識(shí)在不同學(xué)者與學(xué)科領(lǐng)域之間的流動(dòng), 科學(xué)知識(shí)的擴(kuò)散可以促進(jìn)知識(shí)的生產(chǎn)與傳播, 從而推動(dòng)科學(xué)發(fā)展。學(xué)術(shù)論文作為科學(xué)知識(shí)的重要載體, 是科學(xué)知識(shí)擴(kuò)散研究的重要對(duì)象。以往研究通常從引文分析的視角來(lái)探討論文的擴(kuò)散模式與規(guī)律。如閔超等[34] 將引文視作知識(shí)擴(kuò)散的過程, 并從多個(gè)維度分析了引文擴(kuò)散的要素與過程。也有研究針對(duì)經(jīng)典論文(如諾貝爾獎(jiǎng)獲獎(jiǎng)?wù)撐模郏常担莺椭鳎ㄈ纭督Y(jié)構(gòu)洞: 競(jìng)爭(zhēng)的社會(huì)結(jié)構(gòu)》)[36] 等, 揭示其引文擴(kuò)散模式。同時(shí), 部分學(xué)者關(guān)注引文擴(kuò)散的影響因素[37-38] , 揭示知識(shí)擴(kuò)散的內(nèi)在機(jī)制。此外, 有研究從全文引文的視角出發(fā), 研究跨學(xué)科知識(shí)擴(kuò)散的特征[39] 。可見, 基于學(xué)術(shù)論文的引文分析, 可以深入了解知識(shí)擴(kuò)散的模式和規(guī)律。

近年來(lái), 隨著學(xué)術(shù)論文的全文開放獲取的增加以及自然語(yǔ)言處理技術(shù)的快速發(fā)展, 學(xué)者們開始深入研究全文內(nèi)容, 采用深度學(xué)習(xí)等方法抽取論文中的知識(shí)實(shí)體, 如問題、算法、理論、數(shù)據(jù)集和軟件等[40] , 使細(xì)粒度知識(shí)實(shí)體的擴(kuò)散研究得以實(shí)現(xiàn)。如有研究者分析了論文中LDA 算法的擴(kuò)散渠道及其模式[41] 。也有學(xué)者研究了CiteSpace 等科學(xué)計(jì)量相關(guān)軟件在不同學(xué)科的使用情況[42-43] 。此外, 部分學(xué)者探究了數(shù)據(jù)集實(shí)體的擴(kuò)散和使用情況, 如楊寧等[8] 抽取了PubMed Central 全文中使用的基因表達(dá)相關(guān)數(shù)據(jù)集, 并從科學(xué)數(shù)據(jù)集擴(kuò)散廣度和強(qiáng)度等方面揭示了擴(kuò)散特征。Hou J 等[44] 研究了數(shù)據(jù)集在Twitter 上的傳播方式, 以及學(xué)者和大眾在傳播過程中扮演的角色。此外, Jiao C 等[45] 探究了PLOS ONE論文中用于分享研究數(shù)據(jù)的機(jī)制和存儲(chǔ)庫(kù)。綜上所述, 已有部分學(xué)者研究了各種類型知識(shí)實(shí)體, 如科學(xué)數(shù)據(jù)集、算法等的擴(kuò)散特征與規(guī)律。然而, 當(dāng)前關(guān)于高質(zhì)量社會(huì)科學(xué)數(shù)據(jù)集在不同學(xué)科的擴(kuò)散規(guī)律尚未得到深入研究。因此, 本研究將從社會(huì)科學(xué)數(shù)據(jù)集的跨學(xué)科視角出發(fā), 探究其在不同學(xué)科的擴(kuò)散。

2數(shù)據(jù)與方法

本文提出的社會(huì)科學(xué)數(shù)據(jù)集跨學(xué)科性研究框架如圖1 所示。該研究框架一共包含3 個(gè)模塊, 分別是數(shù)據(jù)收集與跨學(xué)科性測(cè)度分析、數(shù)據(jù)集跨學(xué)科合作社區(qū)結(jié)構(gòu)與主題識(shí)別以及數(shù)據(jù)集跨學(xué)科合作演化研究。首先, 采集使用特定數(shù)據(jù)集的文獻(xiàn)集, 提取發(fā)表時(shí)間、標(biāo)題、摘要、學(xué)科分類等字段, 采用信息熵、不同學(xué)科數(shù)等指標(biāo)對(duì)跨學(xué)科性進(jìn)行測(cè)度; 其次, 構(gòu)建跨學(xué)科合作網(wǎng)絡(luò), 并采用Louvain 算法對(duì)網(wǎng)絡(luò)進(jìn)行聚類, 識(shí)別數(shù)據(jù)集跨學(xué)科合作社區(qū), 采用BERTopic 主題模型, 提取不同學(xué)科潛在的合作研究主題; 最后, 劃分不同的時(shí)間窗口, 構(gòu)建不同時(shí)間窗口的數(shù)據(jù)集跨學(xué)科合作網(wǎng)絡(luò), 觀測(cè)網(wǎng)絡(luò)結(jié)構(gòu)特征指標(biāo)變化, 分析網(wǎng)絡(luò)演化特征。

2.1數(shù)據(jù)來(lái)源

本文以中國(guó)健康與養(yǎng)老追蹤調(diào)查(CHARLS)和中國(guó)綜合社會(huì)調(diào)查(CGSS)兩個(gè)數(shù)據(jù)集為例, 中國(guó)健康與養(yǎng)老追蹤調(diào)查數(shù)據(jù)集是由北京大學(xué)牽頭采集的關(guān)于中國(guó)45 歲及以上中老年個(gè)人及家庭的微觀數(shù)據(jù), 廣泛應(yīng)用于人口老齡化等跨學(xué)科研究; 中國(guó)綜合社會(huì)調(diào)查是我國(guó)最早的全國(guó)性、綜合性學(xué)術(shù)調(diào)查項(xiàng)目, 全面采集了個(gè)人、家庭、社區(qū)和社會(huì)各個(gè)層面的數(shù)據(jù), 是研究中國(guó)社會(huì)的最重要數(shù)據(jù)來(lái)源之一。因此, CHARLS 和CGSS 數(shù)據(jù)集均具有較好的代表性。CHARLS 數(shù)據(jù)和CGSS 數(shù)據(jù)在社會(huì)科學(xué)領(lǐng)域得到了廣泛地使用, 產(chǎn)生了許多在國(guó)際期刊發(fā)表的高質(zhì)量成果; 本研究擬以使用CHARLS 數(shù)據(jù)和CGSS 數(shù)據(jù)的英文論文為研究對(duì)象, 分析社會(huì)科學(xué)數(shù)據(jù)集的跨學(xué)科性。

為了獲取使用CHARLS 數(shù)據(jù)和CGSS 數(shù)據(jù)的英文論文, 本文分別采用數(shù)據(jù)集的英文全稱與簡(jiǎn)寫等構(gòu)造檢索式TS=(“China Health and Retirement Lon?gitudinal Study” OR “ China Health and RetirementLongitudinal Studies” OR “Chinese Health and Retire?ment Longitudinal Study” OR “ Chinese Health andRetirement Longitudinal Studies” OR CHARLS)和TS=(“Chinese General Social Survey” OR “China GeneralSocial Survey” OR “Chinese Social Survey” OR “ChinaSocial Survey” OR (CGSS AND Survey)), 在Web ofScience 核心合集中進(jìn)行檢索, 時(shí)間限制為2013—2021 年, 文獻(xiàn)類型限制為Article, 檢索時(shí)間為2022年7 月16 日, 剔除少數(shù)非目標(biāo)文獻(xiàn), 最終得到使用CHARLS 數(shù)據(jù)集的論文數(shù)為790 篇, 使用CGSS 數(shù)據(jù)集的論文數(shù)為328 篇, 論文的時(shí)間分布如圖2(a)所示, 可知使用CHARLS 數(shù)據(jù)集和CGSS 數(shù)據(jù)集的英文論文在2013—2016 年較為穩(wěn)定, 而在2016—2021年呈現(xiàn)較快的增長(zhǎng)趨勢(shì), 表明以中國(guó)數(shù)據(jù)集為基礎(chǔ)的研究在國(guó)際期刊上得到了廣泛的認(rèn)可。

2.2研究方法

2.2.1跨學(xué)科性測(cè)度

本文的學(xué)科分類采用Web of Science 學(xué)科分類體系, 該分類體系一共包含252 個(gè)不同的學(xué)科[46] ,一篇論文可屬于1 個(gè)或多個(gè)不同的學(xué)科。借鑒以往的相關(guān)研究, 本文從多樣性和平衡性兩個(gè)方面對(duì)社會(huì)科學(xué)數(shù)據(jù)集的跨學(xué)科性進(jìn)行測(cè)度。多樣性指的是使用數(shù)據(jù)集的學(xué)科的數(shù)量, 本文采用不同的學(xué)科數(shù)表示使用CHARLS 和CGSS 數(shù)據(jù)集的學(xué)科多樣性;平衡性指的是使用數(shù)據(jù)集的學(xué)科數(shù)量的均衡程度,本文采用信息熵來(lái)計(jì)算使用CHARLS 和CGSS 數(shù)據(jù)集的學(xué)科平衡性。

2.2.2社會(huì)網(wǎng)絡(luò)分析

社會(huì)網(wǎng)絡(luò)分析已被廣泛應(yīng)用于揭示特定學(xué)科領(lǐng)域的知識(shí)結(jié)構(gòu)[47] 。本文借鑒以往的研究, 采用社會(huì)網(wǎng)絡(luò)分析揭示CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò)結(jié)構(gòu)及其演化特征。首先, 基于論文所屬的學(xué)科共現(xiàn)關(guān)系, 構(gòu)建學(xué)科共現(xiàn)網(wǎng)絡(luò), 其中, 學(xué)科共現(xiàn)網(wǎng)絡(luò)的節(jié)點(diǎn)代表特定學(xué)科, 邊代表兩個(gè)學(xué)科在一篇論文中同時(shí)出現(xiàn), 邊的粗細(xì)代表兩個(gè)學(xué)科的共現(xiàn)強(qiáng)度。網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)可以反映使用特定數(shù)據(jù)集的不同學(xué)科數(shù); 網(wǎng)絡(luò)的邊數(shù)代表不同學(xué)科對(duì)數(shù); 網(wǎng)絡(luò)的密度為當(dāng)前邊數(shù)與理論最大邊數(shù)的比值, 反映網(wǎng)絡(luò)的稀疏程度。Louvain 社區(qū)發(fā)現(xiàn)算法是社會(huì)網(wǎng)絡(luò)常用的聚類方法[48] , 本文采用Louvain 算法[49] 對(duì)CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò)進(jìn)行社區(qū)探測(cè), 以發(fā)現(xiàn)CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作社群。

2.2.3 BERTopic

BERTopic 是由Grootendorst M[50] 于2022 年提出的一種基于Transformer 語(yǔ)言模型的主題建模方法, 該方法基于預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行動(dòng)態(tài)的嵌入表示, 可以更好地對(duì)文檔進(jìn)行語(yǔ)義表示, 還可以自動(dòng)生成特定的主題, 避免了主題數(shù)的設(shè)定, 相對(duì)以往的LDA 主題建模和Top2vec 方法均具有更好的效果。因此, 本文擬采用BERTopic 對(duì)使用CHARLS 和CGSS 數(shù)據(jù)集的論文進(jìn)行主題識(shí)別, 以揭示潛在的跨學(xué)科合作主題。

BERTopic 算法包含4 個(gè)主要模塊, 首先采用預(yù)訓(xùn)練語(yǔ)言模型對(duì)每個(gè)文檔進(jìn)行嵌入表示, 然后對(duì)獲取的文檔向量表示進(jìn)行降維處理, 接著采用聚類算法對(duì)文檔進(jìn)行聚類, 最后對(duì)同類的文檔進(jìn)行合并, 并采用基于類別的c-TF-IDF 算法提取同類別中的重要關(guān)鍵詞以表征該類別的主題。其中, 各個(gè)模塊是相對(duì)獨(dú)立的, 不同的模塊可以選取不同的算法進(jìn)行組合, 本文使用官方推薦的組合方案, 選?。樱澹睿簦澹睿悖澹簦颍幔睿螅妫铮颍恚澹?的All-MiniLM-L6-v2 版本作為文檔的詞嵌入模型, 首先采用UMAP 對(duì)高維向量進(jìn)行降維, 然后采?。龋模拢樱茫粒?聚類算法[51] 對(duì)文檔進(jìn)行聚類, 最后采?。悖裕疲桑模?算法進(jìn)行主題提取。

3結(jié)果與分析

3.1 CHARLS 和CGSS數(shù)據(jù)集的學(xué)科分布

CHARLS 數(shù)據(jù)和CGSS 數(shù)據(jù)作為跨學(xué)科的數(shù)據(jù)集, 分別被74 個(gè)和58 個(gè)不同的學(xué)科所使用, 論文篇均學(xué)科數(shù)分別為1.54 和1. 53 個(gè)。學(xué)科頻次和不同學(xué)科數(shù)隨時(shí)間的變化如圖2(b)和圖2(c)所示,可知使用CHARLS 和CGSS 數(shù)據(jù)集的學(xué)科不斷增加。進(jìn)一步, 采用信息熵度量學(xué)科的均衡性, 由圖2(d)可知, 隨著時(shí)間的推移, 信息熵不斷增大, 使用CHARLS 和CGSS 數(shù)據(jù)集的學(xué)科分布越來(lái)越均衡。

根據(jù)各個(gè)學(xué)科使用數(shù)據(jù)集的頻次, 可將使用CHARLS 和CGSS 數(shù)據(jù)集的學(xué)科分為核心、主要和邊緣3 類。核心學(xué)科為使用數(shù)據(jù)集的論文數(shù)30 篇以上, 主要學(xué)科為使用數(shù)據(jù)集的論文數(shù)10 篇以上,邊緣學(xué)科為使用數(shù)據(jù)集的論文數(shù)小于10 篇。基于此, 可得使用CHARLS 數(shù)據(jù)集的核心學(xué)科有11 個(gè),主要學(xué)科有14 個(gè), 邊緣學(xué)科有49 個(gè); 使用CGSS 數(shù)據(jù)集的核心學(xué)科有6 個(gè), 主要學(xué)科有8 個(gè), 邊緣學(xué)科有44 個(gè)。CHARLS 數(shù)據(jù)集涉及的3 類學(xué)科數(shù)多于CGSS 數(shù)據(jù)集涉及的學(xué)科數(shù)。具體而言, 使用CHARLS 數(shù)據(jù)集和CGSS 數(shù)據(jù)集的核心學(xué)科如表1所示, CHARLS 數(shù)據(jù)的核心學(xué)科主要與公共衛(wèi)生、老年學(xué)、環(huán)境科學(xué)、經(jīng)濟(jì)學(xué)、健康政策與服務(wù)等相關(guān)。而CGSS 數(shù)據(jù)的核心學(xué)科主要與社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、公共衛(wèi)生以及環(huán)境研究相關(guān)。

3.2 CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作社區(qū)探測(cè)

跨學(xué)科合作網(wǎng)絡(luò)可以刻畫出使用數(shù)據(jù)集的相關(guān)學(xué)科以及學(xué)科之間的合作關(guān)系。圖3(a)和圖3(b)分別是CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò), 節(jié)點(diǎn)代表學(xué)科, 邊代表學(xué)科的共現(xiàn)關(guān)系, 邊的粗細(xì)代表學(xué)科共現(xiàn)的頻次。具體而言, CHARLS 數(shù)據(jù)集跨學(xué)科合作網(wǎng)絡(luò)包含64 個(gè)節(jié)點(diǎn), 107 條不同的邊, 平均度為3.344, 網(wǎng)絡(luò)密度為0. 053; CGSS數(shù)據(jù)集學(xué)科合作網(wǎng)絡(luò)的節(jié)點(diǎn)包含54 個(gè)節(jié)點(diǎn), 形成76 條不同的邊, 平均度為2.815, 網(wǎng)絡(luò)密度為0.053。CHARLS 和CGSS 數(shù)據(jù)集跨學(xué)科合作網(wǎng)絡(luò)度排名前十的學(xué)科如表2 所示, 通過學(xué)科的度的大小可以揭示學(xué)科的重要程度。

在此基礎(chǔ)上, 本研究采用Louvain 算法分別對(duì)CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò)進(jìn)行聚類分析, 如圖3 所示, 節(jié)點(diǎn)大小表示節(jié)點(diǎn)的度, 相同顏色的節(jié)點(diǎn)屬于同一個(gè)社區(qū); 可以發(fā)現(xiàn), 使用CHARLS 數(shù)據(jù)集存在7 個(gè)跨學(xué)科協(xié)作社區(qū), 形成了以老年醫(yī)學(xué)、環(huán)境衛(wèi)生與職業(yè)健康以及健康經(jīng)濟(jì)與衛(wèi)生服務(wù)為主的三大研究社區(qū); 使用CGSS 數(shù)據(jù)集的研究社區(qū)較為分散, 存在10 個(gè)不同的跨學(xué)科協(xié)作社區(qū), 形成了以經(jīng)濟(jì)學(xué)、社會(huì)學(xué)以及環(huán)境科學(xué)為主的三大研究社區(qū)。

3.3 CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作主題識(shí)別

識(shí)別基于CHARLS 和CGSS 數(shù)據(jù)集的研究主題, 可以發(fā)現(xiàn)不同學(xué)科潛在的合作方向。本文采用BERTopic 模型分別對(duì)使用CHARLS 和CGSS 數(shù)據(jù)集的論文主題進(jìn)行識(shí)別, 共識(shí)別出使用CHARLS數(shù)據(jù)集的論文研究主題19 個(gè), 圖4 表示了其中的8 個(gè)主題排名前5 的特征詞, 結(jié)合相關(guān)文獻(xiàn)可知,CHARLS 數(shù)據(jù)集是關(guān)于中國(guó)老年的微觀調(diào)查數(shù)據(jù),使用CHARLS 數(shù)據(jù)集的研究主要圍繞老年人的抑郁狀況、醫(yī)療保險(xiǎn)、睡眠狀況、高血壓狀況、家庭經(jīng)濟(jì)支出、空氣污染、吸煙行為、能源消費(fèi)等影響因素及其之間的相互作用機(jī)制等展開, 受到社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、環(huán)境科學(xué)、公共衛(wèi)生等學(xué)科領(lǐng)域?qū)W者的關(guān)注, 也是后續(xù)可以進(jìn)一步合作的學(xué)科交叉點(diǎn)。

基于同樣的方法, 共識(shí)別出使用CGSS 數(shù)據(jù)集的論文研究主題10 個(gè), 圖5 展示了其中8 個(gè)主題排名前5 的特征詞, 結(jié)合使用CGSS 數(shù)據(jù)集的相關(guān)論文, 可得研究主題主要包含環(huán)境行為與能源消費(fèi)、員工工作滿意度、居民幸福感、婚姻與家庭、互聯(lián)網(wǎng)使用、政治民主與信任、教育支出與回報(bào)、區(qū)域差異等, 主要涉及的學(xué)科有社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué)、教育學(xué)、環(huán)境科學(xué)等, 不同學(xué)科領(lǐng)域的學(xué)者可以基于CGSS 數(shù)據(jù)集, 同時(shí)引入外部數(shù)據(jù)集等, 開展更多的跨學(xué)科合作研究。

對(duì)基于CHARLS和CGSS數(shù)據(jù)集研究的主題進(jìn)行可視化, 圖6為研究主題的可視化圖譜, 每個(gè)圓圈代表一個(gè)研究主題, 圓圈的大小代表該主題相關(guān)文檔的出現(xiàn)頻率, 越大代表出現(xiàn)的頻率越高, 不同圓圈的距離代表主題之間的相似度, 通過對(duì)不同主題及其之間的關(guān)系進(jìn)行可視化, 可以揭示主題的結(jié)構(gòu)特征。由圖6可知, 使用CHARLS 數(shù)據(jù)集的研究主題可以分為6 個(gè)不同的簇, 不同學(xué)科合作或關(guān)注的主題較為集中; 而基于CGSS 數(shù)據(jù)集的相關(guān)研究主題的結(jié)構(gòu)較為分散; 造成兩者差異的可能原因是, CHARLS 數(shù)據(jù)集的主要調(diào)查對(duì)象為中老年, 數(shù)據(jù)收集的范圍以及所包含的信息量較為有限, 而CGSS 是一個(gè)綜合性的數(shù)據(jù)集, 數(shù)據(jù)包含的范圍較為廣泛, 可以開展關(guān)于中國(guó)社會(huì)不同方面與層面的研究。

3.4 CHARLS 和CGSS數(shù)據(jù)集的跨學(xué)科研究演化分析

使用CHARLS 和CGSS 數(shù)據(jù)集的論文數(shù)在2013—2015 年較為穩(wěn)定, 在2016—2018 年實(shí)現(xiàn)了一定程度的增長(zhǎng), 2019—2021 年呈現(xiàn)快速增長(zhǎng)的趨勢(shì), 基于此將時(shí)間窗口劃分為3 段。本文首先統(tǒng)計(jì)了2013—2015 年、2016—2018 年以及2019—2021年3 個(gè)時(shí)間段使用CHARLS 和CGSS 數(shù)據(jù)集的相關(guān)學(xué)科頻次的變化以反映學(xué)科的演化情況。其中, 3個(gè)階段使用CHARLS 數(shù)據(jù)集學(xué)科頻次前5 的學(xué)科如表3所示。第二階段即2016—2018 年使用CHARLS 數(shù)據(jù)集的學(xué)科除了社會(huì)與醫(yī)學(xué)相關(guān)的學(xué)科, 經(jīng)濟(jì)學(xué)和環(huán)境科學(xué)等學(xué)科使用該數(shù)據(jù)集的頻次不斷增加, 并進(jìn)入前5; 到第三個(gè)時(shí)間段, 環(huán)境科學(xué)使用該數(shù)據(jù)集的頻次進(jìn)一步提升, 其他學(xué)科相對(duì)穩(wěn)定。

3 個(gè)階段使用CGSS 數(shù)據(jù)集學(xué)科頻次前5 的學(xué)科如表4 所示, 在第一階段使用CGSS 數(shù)據(jù)集的學(xué)科主要有社會(huì)學(xué)、政治學(xué)、教育學(xué)以及經(jīng)濟(jì)學(xué); 第二階段經(jīng)濟(jì)學(xué)使用CGSS 數(shù)據(jù)集的頻次快速提升,位居第一, 公共衛(wèi)生與環(huán)境相關(guān)學(xué)科亦較多使用該數(shù)據(jù)集; 第三階段則以環(huán)境科學(xué)相關(guān)學(xué)者使用該數(shù)據(jù)集居多。

分別構(gòu)建CHARLS 和CGSS 數(shù)據(jù)集在3 個(gè)時(shí)間窗口的跨學(xué)科合作網(wǎng)絡(luò), 以揭示跨學(xué)科合作網(wǎng)絡(luò)的演化特征。CHARLS 和CGSS 數(shù)據(jù)集3 個(gè)不同階段的跨學(xué)科合作網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)、邊數(shù)、密度以及社區(qū)數(shù)等指標(biāo)的變化如圖7 所示。由圖7 可知, 3 個(gè)階段的跨學(xué)科合作網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)和邊數(shù)都在不斷增長(zhǎng),反映了使用CHARLS 和CGSS 數(shù)據(jù)集的相關(guān)學(xué)科以及不同學(xué)科之間的合作不斷加強(qiáng); 由于網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)增長(zhǎng)較快, 導(dǎo)致跨學(xué)科合作網(wǎng)絡(luò)的密度有所下降,表明不同學(xué)科之間的合作存在較大的空間; 此外,相關(guān)的研究社區(qū)數(shù)也呈現(xiàn)增長(zhǎng)的趨勢(shì), 表明CHARLS 和CGSS 數(shù)據(jù)集的研究社區(qū)不斷興起。

CHARLS 和CGSS 數(shù)據(jù)集3 個(gè)階段的跨學(xué)科合作網(wǎng)絡(luò)結(jié)構(gòu)如圖8 和圖9 所示, 采用Louvain 算法分別對(duì)不同階段的網(wǎng)絡(luò)進(jìn)行聚類分析。對(duì)比圖8(a) ~(c)可知, CHARLS 數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò)不斷擴(kuò)張, 2013—2015 年以老年學(xué)相關(guān)學(xué)科為研究主導(dǎo); 2016—2018 年, 形成了經(jīng)濟(jì)學(xué)、老年學(xué)以及公共衛(wèi)生與職業(yè)健康三足鼎立的學(xué)科格局;2019—2021 年, 延續(xù)了上一階段的學(xué)科格局, 且3個(gè)不同學(xué)科主導(dǎo)的網(wǎng)絡(luò)不斷充實(shí), 越來(lái)越多學(xué)科參與合作。對(duì)比圖9(a) ~ (c), 可知, CGSS 數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò)不斷擴(kuò)張, 在第一階段以社會(huì)學(xué)和政治學(xué)相關(guān)學(xué)科為主; 第二階段, 則以社會(huì)學(xué)、經(jīng)濟(jì)學(xué)和環(huán)境科學(xué)相關(guān)學(xué)科為主; 第三階段, 仍以社會(huì)學(xué)、經(jīng)濟(jì)學(xué)和環(huán)境科學(xué)等學(xué)科為主, 且計(jì)算機(jī)科學(xué)、健康政策與服務(wù)等一批新的學(xué)科不斷加入。

4結(jié)論與討論

隨著數(shù)據(jù)驅(qū)動(dòng)的研究范式在社會(huì)科學(xué)中不斷盛行, 數(shù)據(jù)集已成為社會(huì)科學(xué)研究的重要戰(zhàn)略資源。社會(huì)科學(xué)數(shù)據(jù)集為社會(huì)科學(xué)領(lǐng)域各個(gè)學(xué)科的實(shí)證研究提供了重要基礎(chǔ)。同一社會(huì)科學(xué)數(shù)據(jù)集可被不同學(xué)科用于相關(guān)領(lǐng)域的研究問題, 不同的學(xué)科也可基于特定的數(shù)據(jù)集進(jìn)行合作研究, 社會(huì)科學(xué)數(shù)據(jù)集已成為學(xué)科交叉的重要載體和機(jī)制之一。通過分析社會(huì)科學(xué)數(shù)據(jù)集的跨學(xué)科性, 可以促進(jìn)數(shù)據(jù)集在不同學(xué)科間的開放共享, 并推動(dòng)基于數(shù)據(jù)集的跨學(xué)科研究。

本文提出了一個(gè)針對(duì)社會(huì)科學(xué)數(shù)據(jù)集的跨學(xué)科性研究框架, 并以社會(huì)科學(xué)領(lǐng)域具有代表性的CHARLS 和CGSS 數(shù)據(jù)集為例。首先, 采用信息熵和不同學(xué)科數(shù)等指標(biāo)對(duì)數(shù)據(jù)集的跨學(xué)科多樣性和平衡性進(jìn)行測(cè)度, 以揭示使用CHARLS 和CGSS 數(shù)據(jù)集的學(xué)科分布及其變化趨勢(shì)。其次, 構(gòu)建了數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò), 并采用Louvain 算法和BER?Topic 模型對(duì)網(wǎng)絡(luò)結(jié)構(gòu)和主題進(jìn)行了分析, 發(fā)現(xiàn)不同學(xué)科之間的合作社區(qū)和潛在的研究主題。最后,通過劃分不同時(shí)間窗口, 可以觀察數(shù)據(jù)集跨學(xué)科合作網(wǎng)絡(luò)的演化特征, 從而揭示不同階段的主導(dǎo)學(xué)科和合作模式。

在數(shù)據(jù)集跨學(xué)科性特征方面,研究發(fā)現(xiàn)CHARLS和CGSS 分別在74 個(gè)和58 個(gè)不同學(xué)科得到了廣泛的應(yīng)用, 其學(xué)科多樣性和平衡性在不斷增長(zhǎng)。除社會(huì)學(xué)外, 還在公共衛(wèi)生、環(huán)境科學(xué)、經(jīng)濟(jì)學(xué)等不同學(xué)科被使用, 表明這兩個(gè)數(shù)據(jù)集在各學(xué)科之間具有較強(qiáng)的擴(kuò)散能力和影響力。因此, 學(xué)者在選擇數(shù)據(jù)集時(shí), 不應(yīng)局限于本學(xué)科領(lǐng)域, 可以根據(jù)研究問題的需求, 從其他學(xué)科獲取相應(yīng)的數(shù)據(jù)集。關(guān)于數(shù)據(jù)集跨學(xué)科合作社區(qū)的分布,結(jié)果表明使用CHARLS和CGSS 數(shù)據(jù)集均呈現(xiàn)以少數(shù)跨學(xué)科合作社區(qū)為主導(dǎo)的格局, 使用CHARLS 數(shù)據(jù)集的學(xué)科形成了以老年醫(yī)學(xué)、環(huán)境衛(wèi)生與職業(yè)健康以及健康經(jīng)濟(jì)與衛(wèi)生服務(wù)為主的三大研究社區(qū); 使用CGSS 數(shù)據(jù)集的研究社區(qū)較為分散, 形成了以經(jīng)濟(jì)學(xué)、社會(huì)學(xué)以及環(huán)境科學(xué)為主的三大研究社區(qū)。可見, 除了以研究問題為中心構(gòu)建跨學(xué)科合作社區(qū), 還可以研究數(shù)據(jù)集為紐帶, 促進(jìn)多個(gè)學(xué)科之間的合作。

在數(shù)據(jù)集跨學(xué)科合作主題方面, 使用CHARLS的研究主題達(dá)到19 個(gè), 圍繞老年人的抑郁狀況、醫(yī)療保險(xiǎn)、睡眠狀況、高血壓狀況、家庭經(jīng)濟(jì)支出等多個(gè)主題展開。采用CGSS 數(shù)據(jù)集進(jìn)行的研究主題有10 個(gè), 包含環(huán)境行為與能源消費(fèi)、員工工作滿意度、教育支出與回報(bào)等多個(gè)主題。然而, CHARLS的研究主題相對(duì)較為集中, CGSS 的則較為分散,可能由于CGSS 作為綜合性數(shù)據(jù)集, 調(diào)查對(duì)象更為多樣化, 數(shù)據(jù)項(xiàng)更加豐富, 從而研究問題分布較為廣泛。關(guān)于跨學(xué)科演化分析, 研究發(fā)現(xiàn)CHARLS 和CGSS 數(shù)據(jù)集跨學(xué)科合作網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)、邊數(shù)、社區(qū)數(shù)隨著時(shí)間在不斷增長(zhǎng), 表明不斷有學(xué)科使用這兩個(gè)數(shù)據(jù)集, 且形成了新的跨學(xué)科合作社區(qū)。

本文從新的視角探討了社會(huì)科學(xué)數(shù)據(jù)集的跨學(xué)科性, 為理解數(shù)據(jù)集在不同學(xué)科間的開放共享和高效利用提供了新的思路和方法, 對(duì)于促進(jìn)社會(huì)科學(xué)數(shù)據(jù)集在各學(xué)科間的擴(kuò)散以及數(shù)據(jù)集的評(píng)價(jià)具有一定的理論與實(shí)踐意義。在理論意義方面, 本文為數(shù)據(jù)集的跨學(xué)科研究提供了一個(gè)較為完整的框架, 后續(xù)可以在此基礎(chǔ)上研究不同數(shù)據(jù)集的跨學(xué)科性。此外, 還為評(píng)價(jià)社會(huì)科學(xué)數(shù)據(jù)集的質(zhì)量和影響力提供了新的指標(biāo)和方法, 有助于后續(xù)從數(shù)據(jù)集的跨學(xué)科性視角對(duì)數(shù)據(jù)集進(jìn)行評(píng)價(jià); 在實(shí)踐意義方面, 本文揭示了CHARLS 和CGSS 數(shù)據(jù)集的使用學(xué)科分布、潛在的研究主題以及潛在的合作學(xué)科, 為相關(guān)研究人員提供了啟示和借鑒。同時(shí), 也為數(shù)據(jù)集建設(shè)者和管理者如何促進(jìn)數(shù)據(jù)集在不同學(xué)科之間的擴(kuò)散提供參考依據(jù)。

本研究存在一定的不足之處。首先, 本文的數(shù)據(jù)集來(lái)源于Web of Science 核心合集, 主要分析了使用CHARLS 和CGSS 數(shù)據(jù)集的英文文獻(xiàn)集。在后續(xù)研究中, 可以納入使用CHARLS 和CGSS 數(shù)據(jù)集的中文文獻(xiàn)集作為研究數(shù)據(jù)源的補(bǔ)充, 并對(duì)使用CHARLS 和CGSS 數(shù)據(jù)集的中英文文獻(xiàn)集的跨學(xué)科性進(jìn)行對(duì)比分析。其次, 未來(lái)的研究可以進(jìn)一步探索社會(huì)科學(xué)數(shù)據(jù)集和自然科學(xué)數(shù)據(jù)集在擴(kuò)散特征和模式方面的差異, 以期更好地理解數(shù)據(jù)在不同學(xué)科間的擴(kuò)散和應(yīng)用規(guī)律, 為各領(lǐng)域數(shù)據(jù)集的開放共享與利用提供有益的啟示。

猜你喜歡
社會(huì)科學(xué)跨學(xué)科
跨學(xué)科教學(xué)在高中生物課堂教學(xué)中的應(yīng)用實(shí)踐
《云南社會(huì)科學(xué)》征稿征訂啟事
初中歷史跨學(xué)科主題學(xué)習(xí)活動(dòng)的實(shí)踐與思考
《北京科技大學(xué)學(xué)報(bào)》(社會(huì)科學(xué)版)
《河北農(nóng)業(yè)大學(xué)(社會(huì)科學(xué)版)》2021年喜報(bào)
應(yīng)用型高校推進(jìn)跨學(xué)科人才培養(yǎng)的路徑探索
我校成功承辦“生命科學(xué)與老齡化社會(huì)”跨學(xué)科論壇
商標(biāo)跨類保護(hù)的跨學(xué)科解釋
數(shù)學(xué)在社會(huì)科學(xué)中的應(yīng)用
哲學(xué)社會(huì)科學(xué)