国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

工具視角下的圖書情報(bào)學(xué)科發(fā)展及動(dòng)向分析
——以Python為例

2023-02-24 11:28:44孟文靜
現(xiàn)代情報(bào) 2023年1期
關(guān)鍵詞:情報(bào)工具圖書

孟文靜 宋 歌

(1.東南大學(xué)經(jīng)濟(jì)管理學(xué)院,江蘇 南京 211189;2.南京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,江蘇 南京 211800)

一個(gè)學(xué)科的發(fā)展是與研究工具的出現(xiàn)及應(yīng)用相輔相成的,當(dāng)新的研究工具進(jìn)入某一學(xué)科,就意味著學(xué)科的領(lǐng)域范圍和深度發(fā)生了變化。可以借由新的工具完成之前無(wú)法實(shí)現(xiàn)的研究,探索更為廣闊和深入的領(lǐng)域及問(wèn)題。因此,研究工具在一定層面成為了判斷和預(yù)測(cè)學(xué)科發(fā)展的一個(gè)途徑。尤其是新的工具所探究的必然包含之前未能涉及的方面,相對(duì)應(yīng)地,研究工具的引入與創(chuàng)新即是對(duì)新的研究經(jīng)驗(yàn)的回應(yīng)。當(dāng)前,圖書情報(bào)學(xué)科新的研究經(jīng)驗(yàn)隨著大數(shù)據(jù)時(shí)代的到來(lái)而產(chǎn)生,科學(xué)研究越來(lái)越依賴數(shù)據(jù),并通過(guò)能夠分析大量數(shù)據(jù)的科學(xué)軟件實(shí)現(xiàn)??死锼埂ぐ驳律闹恼隆独碚摰慕K結(jié)》直截了當(dāng)?shù)乇磉_(dá)了這種觀點(diǎn):“海量數(shù)據(jù)的新可用性,以及處理這些數(shù)據(jù)的工具,提供了一種理解世界的全新方式”[1]。

軟件工具是現(xiàn)代科學(xué)生態(tài)系統(tǒng)中的一個(gè)重要組成部分,特別是在遵循數(shù)據(jù)驅(qū)動(dòng)范式的學(xué)科中,這些學(xué)科由大量科學(xué)數(shù)據(jù)的不斷生成、可用性和消耗所引導(dǎo)[2]。如今,這種新的計(jì)算和數(shù)據(jù)驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)模式已逐漸影響到幾乎每個(gè)科學(xué)領(lǐng)域,科學(xué)軟件被用于學(xué)術(shù)工作的各個(gè)階段,從注釋初步想法到數(shù)據(jù)收集、管理、規(guī)范、分析、建模、模擬、預(yù)測(cè)、可視化及傳播研究成果的整個(gè)過(guò)程中都發(fā)揮重要作用[3]。2014年一項(xiàng)對(duì)英國(guó)羅素大學(xué)集團(tuán)15所研究型大學(xué)科研人員的調(diào)查顯示,92%的受訪者表示他們使用了研究軟件,且69%的受訪者認(rèn)為如果沒(méi)有軟件,他們的研究將不可實(shí)現(xiàn)[4]。2017年對(duì)美國(guó)國(guó)家博士后協(xié)會(huì)成員的調(diào)查得到了類似結(jié)果,相應(yīng)的占比分別為95%和63%[5]。在科睿唯安的數(shù)據(jù)引文數(shù)據(jù)庫(kù)(DCI)中,2017—2018年的軟件引用數(shù)量翻了一番。圖書情報(bào)學(xué)科在數(shù)據(jù)、算法與算力的驅(qū)動(dòng)下進(jìn)入了研究工具上的快速更新迭代期,各類軟件工具的應(yīng)用呈遞增和多樣化趨勢(shì)。也陸續(xù)有研究者對(duì)CiteSpace[6]、VOSviewer[7]、SPSS[8]、HistCite[9]等軟件工具的使用、引用情況進(jìn)行了研究。

而本研究認(rèn)為,研究工具是研究方法(無(wú)論是定量的還是定性的)在操作層面的外化,研究工具的發(fā)展與應(yīng)用是對(duì)科研生態(tài)演變的回應(yīng)。因此,通過(guò)對(duì)研究工具的使用分析,可以比較客觀且真實(shí)地揭示學(xué)科發(fā)展的歷程和動(dòng)向,以及研究領(lǐng)域、研究問(wèn)題的變化。本研究以Python為例,通過(guò)對(duì)圖書情報(bào)學(xué)科在變革中對(duì)該工具的采納、應(yīng)用與創(chuàng)新,揭示該學(xué)科當(dāng)前的發(fā)展及未來(lái)動(dòng)向。選擇Python的理由有二:一是Python不僅可以實(shí)現(xiàn)一般科學(xué)軟件的功能,而且能夠支持?jǐn)?shù)據(jù)密集型研究范式中的各種高級(jí)任務(wù)。二是無(wú)論從時(shí)間點(diǎn)的契合還是功能的發(fā)展與應(yīng)用,Python都伴隨了數(shù)據(jù)密集型研究范式在圖書情報(bào)學(xué)科的萌發(fā)、演進(jìn)過(guò)程。在這種情況下,圖書情報(bào)學(xué)科對(duì)Python軟件包的選擇、引入與使用、創(chuàng)新,以及利用Python進(jìn)行了哪些研究,研究主題發(fā)生了怎樣的變化都值得深入探討,并以此揭示圖書情報(bào)學(xué)科的發(fā)展及動(dòng)向。

1 相關(guān)研究述評(píng)

圖書情報(bào)學(xué)科的軟件研究正處于發(fā)展階段,當(dāng)前以軟件影響力評(píng)價(jià)、軟件使用和軟件引用規(guī)范為主要研究問(wèn)題。在軟件影響力評(píng)價(jià)研究中,由于軟件引用缺乏一致性和標(biāo)準(zhǔn)化,因此很難僅從引文指標(biāo)測(cè)度軟件影響力,潘雪蓮[10]基于全文數(shù)據(jù)源從軟件使用和引用的角度測(cè)度軟件學(xué)術(shù)影響力。趙蓉英等[11]利用軟件引用量、下載量、復(fù)用量3個(gè)指標(biāo)對(duì)開(kāi)源軟件進(jìn)行補(bǔ)充計(jì)量學(xué)視角下的學(xué)術(shù)影響力評(píng)價(jià)。Priem J等[12]則將下載、瀏覽、安裝指標(biāo)納入開(kāi)源軟件使用統(tǒng)計(jì)測(cè)度中。周春雷等[13]提出從軟件工具輔助、支持的科研領(lǐng)域范圍及深度方面研究軟件影響力,調(diào)查發(fā)現(xiàn)不同知識(shí)圖譜軟件的學(xué)術(shù)影響力差別很大。

在軟件工具提及和使用的研究中,Park H等[14]對(duì)數(shù)據(jù)引文索引數(shù)據(jù)庫(kù)(DCI)中軟件類的引文從時(shí)間、引用字段、標(biāo)識(shí)符使用等方面分析了各個(gè)知識(shí)庫(kù)中軟件引用的差異及引用多樣性。Duck G等[15]發(fā)現(xiàn)PubMed Central中不同學(xué)科領(lǐng)域的研究在使用軟件和數(shù)據(jù)庫(kù)方面存在較大差異。趙丹等[16]對(duì)大數(shù)據(jù)工具主題論文的年代、期刊、學(xué)科分布進(jìn)行了統(tǒng)計(jì)。崔明等[17]通過(guò)對(duì)我國(guó)9種圖情學(xué)期刊的考察,發(fā)現(xiàn)13.87%的論文使用了軟件,并將圖情學(xué)常用軟件歸納為6種。除了統(tǒng)計(jì)分析,學(xué)者們還利用社會(huì)網(wǎng)絡(luò)分析對(duì)軟件工具進(jìn)行研究。Li K等[18]從引用或提及R的所有PLoS期刊的全文中識(shí)別R包,繪制了由R包組成的共同提及網(wǎng)絡(luò)。Ordua-Malea E等[7]提出了一種基于鏈接的跟蹤科學(xué)軟件使用和興趣的網(wǎng)絡(luò)測(cè)量分析方法,并以VOSviewer舉例說(shuō)明了該方法的可操作性。此外,也有學(xué)者利用知識(shí)擴(kuò)散理論開(kāi)展工具使用研究,Pan X等[9]從文獻(xiàn)級(jí)、期刊級(jí)和學(xué)科級(jí)調(diào)查了3種文獻(xiàn)計(jì)量工具(CiteSpace、HistCite和VOSviewer)的擴(kuò)散廣度和速度。于曉彤等[19]測(cè)度了10種高頻知識(shí)圖譜軟件的擴(kuò)散和引用情況。徐浩等[20]從核心作者發(fā)文、合作網(wǎng)絡(luò)和研究機(jī)構(gòu)層面對(duì)CiteSpace的學(xué)科領(lǐng)域擴(kuò)散特征進(jìn)行了分析。

軟件引用規(guī)范方面,Niemeyer K E等認(rèn)為,將軟件看作出版物以正式引用能夠促進(jìn)軟件的開(kāi)發(fā)和共享[21],而目前即使在具有較高影響因子的期刊中,軟件的引用也常是非正式的[22]。Smith A M等[23]針對(duì)軟件引用標(biāo)準(zhǔn)缺失現(xiàn)象,從理論層面提出了引用軟件的6項(xiàng)原則,包括重要性、歸屬性、唯一標(biāo)識(shí)性、持久性、可訪問(wèn)性和特異性。Pan X等[24]通過(guò)對(duì)12個(gè)學(xué)科的調(diào)查發(fā)現(xiàn),標(biāo)注軟件的引用格式和引用方法更易提高軟件引用率。Heinle A等[25]倡導(dǎo)并提供了統(tǒng)一的軟件引用格式,但受到軟件類型多樣性的影響,軟件引用仍未形成統(tǒng)一格式[26]。Li K等[27]以R語(yǔ)言軟件包lme4為例,分析一款軟件的多種引用方式的差異,并評(píng)估其中兩種引用方式的變遷,結(jié)果表明,引文格式變化對(duì)引用行為有直接影響。

綜上所述,近年來(lái)國(guó)內(nèi)外關(guān)于軟件工具的研究已逐漸出現(xiàn),其中的研究思路與方法為本研究的開(kāi)展提供了很好的借鑒。由于已有成果很少有對(duì)Python的研究,且聚焦的問(wèn)題主要是已發(fā)表論文中軟件引用的缺失和失范以及軟件之間在使用率和影響力上的差距等,深入到研究主題,反映學(xué)科發(fā)展的探索較為缺乏。因此,本研究以Python作為工具視角的切入點(diǎn),通過(guò)分析該工具在圖書情報(bào)學(xué)科的應(yīng)用演進(jìn)及特征,以管中窺豹的方式揭示圖書情報(bào)學(xué)科在變革中的發(fā)展進(jìn)程及未來(lái)動(dòng)向,同時(shí)為本學(xué)科軟件工具的開(kāi)發(fā)提供需求參照,也為學(xué)者選擇適合的軟件包及其應(yīng)用組合提供參考。

2 數(shù)據(jù)采集與處理

Python作為一個(gè)成熟的軟件生態(tài)系統(tǒng),任何人都可以構(gòu)建新組件來(lái)擴(kuò)展軟件的核心功能,這些構(gòu)建塊被稱為包。正是這些軟件包直接促進(jìn)了無(wú)數(shù)的科學(xué)任務(wù),使Python適用于許多知識(shí)領(lǐng)域。本研究需要采集應(yīng)用了各種Python軟件包的圖情學(xué)科論文成果。數(shù)據(jù)采集過(guò)程分為兩步。第一步,篩選較多采用了Python作為研究工具的國(guó)際權(quán)威圖書情報(bào)學(xué)期刊。具體辦法為以2020年SSCI來(lái)源期刊中INFORMATION SCIENCE & LIBRARY SCIENCE(LIS)學(xué)科Q1區(qū)、Q2區(qū)期刊為樣本池,利用43個(gè)期刊官方網(wǎng)站和Google Scholar、Emerald、Wiley、ScienceDirect、Taylor & Francis Online、SAGE Journals、AISeLibrary、Springer網(wǎng)站對(duì)1990—2021年刊載的論文以“Python”為檢索詞在篇名、關(guān)鍵詞、摘要或全文檢索項(xiàng)檢索。在檢索結(jié)果中,有10種期刊命中論文數(shù)量較其他期刊明顯為多,將其作為樣本期刊,下載論文全文數(shù)據(jù)。第二步,篩選樣本期刊中應(yīng)用了Python的論文,并確定其所應(yīng)用的軟件包。首先,以“Python”為檢索詞對(duì)10種期刊共17 673篇論文進(jìn)行第一輪全文檢索,為確保應(yīng)用而非僅提及Python,采用人工標(biāo)注法從命中文獻(xiàn)中篩選論文,并標(biāo)注其中應(yīng)用的所有Python軟件包。其次,將獲得的軟件包名稱作為檢索詞,在10種期刊中進(jìn)行第二輪全文檢索,并人工標(biāo)注,篩選論文。為保證標(biāo)注質(zhì)量,在明確標(biāo)注規(guī)則后由標(biāo)注員A獨(dú)立完成全部標(biāo)注,再由標(biāo)注員B隨機(jī)抽取20%的論文進(jìn)行獨(dú)立標(biāo)注,采用Kappa系數(shù)對(duì)標(biāo)注結(jié)果進(jìn)行一致性檢驗(yàn)。Kappa值為0.847,大于0.8,表明一致性程度較高,說(shuō)明標(biāo)注員A的標(biāo)注結(jié)果較為可靠,適用于進(jìn)一步分析。

在此過(guò)程中,由于存在與軟件包名稱相同的人名、動(dòng)詞、形容詞以及R語(yǔ)言和C語(yǔ)言同名軟件包,因此需判斷軟件包名稱所在句子中是否出現(xiàn)Package、Module、Library、Toolkit、Python或軟件包創(chuàng)作者、腳本語(yǔ)言及年份等指示性單詞,通過(guò)排查和篩選,最終共獲得560篇論文。最后,對(duì)軟件包名稱進(jìn)行規(guī)范,包括全簡(jiǎn)稱、名稱中有無(wú)空格等情況的統(tǒng)一,最終共有138個(gè)Python軟件包。數(shù)據(jù)采集和標(biāo)注工作于2022年3月完成。

3 實(shí)證與結(jié)果

3.1 軟件包類型與應(yīng)用擴(kuò)散

3.1.1 軟件包在論文和期刊層面的擴(kuò)散

在論文層面,對(duì)Python的首次應(yīng)用在2008年,隨后5年只有零星應(yīng)用,自2014年起,應(yīng)用逐漸增多,而在近5年出現(xiàn)了應(yīng)用案例迅速上升的趨勢(shì)。至2020年,有41%的論文應(yīng)用了至少兩種Python軟件包,2021年這一數(shù)字是55%??傮w趨勢(shì)是篇均應(yīng)用Python軟件包數(shù)量從2014年開(kāi)始逐漸增加,2017年超過(guò)1.5,2020年達(dá)到2以上。

利用文獻(xiàn)[28]提出的擴(kuò)散廣度、速度、加速度、強(qiáng)度及延時(shí)系列指標(biāo)測(cè)度軟件包擴(kuò)散情況。擴(kuò)散速度和加速度如表1所示,擴(kuò)散曲線和軟件包種數(shù)如圖1所示。其中擴(kuò)散速度以每年應(yīng)用Python軟件包的論文數(shù)計(jì)算,累積文獻(xiàn)數(shù)形成擴(kuò)散曲線,軟件包種數(shù)為每年采納的軟件包種數(shù),若在當(dāng)年某一種軟件包被多次采納,計(jì)數(shù)仍為1。由于擴(kuò)散速度和擴(kuò)散加速度仍在迅速增長(zhǎng),不能確定二者峰值出現(xiàn)的時(shí)間,因此根據(jù)創(chuàng)新擴(kuò)散理論[29],Python在圖書情報(bào)學(xué)科應(yīng)用擴(kuò)散的一階拐點(diǎn)和二階拐點(diǎn)均未出現(xiàn),還不能預(yù)測(cè)該擴(kuò)散最終會(huì)達(dá)到的規(guī)模數(shù)量。由于2020年擴(kuò)散加速度顯著增長(zhǎng),可將2008—2019年劃分為Python軟件包擴(kuò)散的起步階段,從2020年始為起飛階段。即Python在圖書情報(bào)學(xué)科的應(yīng)用擴(kuò)散,起步階段歷經(jīng)12年,其中沉寂期[30]6年。另外,軟件包的應(yīng)用種數(shù)持續(xù)上升,并在2020年大幅增長(zhǎng),意味著圖書情報(bào)學(xué)科所采用的Python軟件包在不斷新增和更新,且促使Python的應(yīng)用擴(kuò)散進(jìn)入起飛階段。

表1 Python軟件包在圖書情報(bào)學(xué)科的應(yīng)用擴(kuò)散基本指標(biāo)

圖1 Python軟件包在圖書情報(bào)學(xué)科的應(yīng)用擴(kuò)散趨勢(shì)

期刊層面的擴(kuò)散特點(diǎn)表現(xiàn)在:①期刊間應(yīng)用Python軟件包的論文數(shù)量差異顯著。InformationProcessingandManagement和Scientometrics的論文數(shù)量均超過(guò)140篇,而其他8種期刊的論文數(shù)量均低于60篇;②期刊間的首次應(yīng)用時(shí)間也存在較大差異。最早是InformationProcessingandManagement,于2008年首次應(yīng)用Python軟件包,最晚是TelematicsandInformatics,首次應(yīng)用時(shí)間是2017年。值得注意的是,有80%的期刊在2014—2017年首次應(yīng)用了Python軟件包。此外,僅InformationProcessingandManagement的采納加速度呈單調(diào)上升趨勢(shì),其他9種期刊的加速度曲線呈波動(dòng)震蕩形態(tài),這是知識(shí)擴(kuò)散在起步階段的典型狀態(tài)。

3.1.2 軟件包類型及采納特征

借鑒PyPI[31]網(wǎng)站的軟件包分類框架以及崔明等[17]對(duì)我國(guó)圖情領(lǐng)域高頻使用軟件主要用途的歸納,結(jié)合本研究中138個(gè)軟件包的主要功能,將圖書情報(bào)學(xué)科應(yīng)用的Python軟件包劃分為11個(gè)類別,各類別及其說(shuō)明如表2所示。其中軟件發(fā)展類主要由便于Python書寫和執(zhí)行的軟件包組成,在圖書情報(bào)學(xué)研究中并不具有特殊作用,在后面的分析中不做贅述。基于分類的軟件包應(yīng)用概況如表3所示,其中“應(yīng)用頻次”指某類軟件包下每一種軟件包應(yīng)用次數(shù)之和,“擴(kuò)散延時(shí)”指某類軟件包發(fā)布年與采納年之差。

表2 圖書情報(bào)學(xué)科Python軟件包類型劃分

表3 圖書情報(bào)學(xué)科不同類型Python軟件包應(yīng)用概況

各類軟件包進(jìn)入圖書情報(bào)學(xué)科存在時(shí)間差。2008年Twidale M B等[32]在解決利用外部資源庫(kù)進(jìn)行“在搜索時(shí)寫作”的引文文本解析問(wèn)題時(shí)采用了自然語(yǔ)言處理軟件包Pybtex輔助開(kāi)發(fā)個(gè)人信息搜索助手,是Python軟件包應(yīng)用于圖書情報(bào)學(xué)科的一次探索,此后自然語(yǔ)言處理類軟件包被圖書情報(bào)學(xué)科大量應(yīng)用,是應(yīng)用頻次位居第一的軟件包類型。2011年復(fù)雜網(wǎng)絡(luò)類軟件包開(kāi)始應(yīng)用于圖書情報(bào)學(xué)科。2014年機(jī)器學(xué)習(xí)類軟件包被引入并爆發(fā)出新的應(yīng)用活力,成為應(yīng)用頻次僅次于自然語(yǔ)言處理類軟件包的類型。2015—2017年,隨著圖像處理、科學(xué)計(jì)算、數(shù)據(jù)采集、可視化、數(shù)據(jù)分析類軟件包的加入,圖書情報(bào)學(xué)科對(duì)于不同類型Python軟件包的應(yīng)用逐漸豐富。目前最新進(jìn)入圖書情報(bào)學(xué)科的軟件包則集中在地理信息系統(tǒng)類。

通過(guò)表3可以看到各類軟件包的總體擴(kuò)散延時(shí),而近3年擴(kuò)散延時(shí)最短的軟件包集中在機(jī)器學(xué)習(xí)類和自然語(yǔ)言處理類。尤其是機(jī)器學(xué)習(xí)類軟件包,已經(jīng)呈現(xiàn)一出現(xiàn)就被采納的態(tài)勢(shì),擴(kuò)散延時(shí)越來(lái)越短。具有類似特征的還有數(shù)據(jù)采集類軟件包,其軟件包從發(fā)布到首次應(yīng)用最短僅用了兩年時(shí)間。較短的擴(kuò)散延時(shí)表明該類軟件包符合當(dāng)前圖書情報(bào)學(xué)科的研究需求。而地理信息系統(tǒng)類軟件包的擴(kuò)散延時(shí)則較長(zhǎng),其中一款軟件包從2006年發(fā)布,直至2021年才被圖書情報(bào)學(xué)科采用。當(dāng)某一類軟件同時(shí)具備采納時(shí)間晚和擴(kuò)散延時(shí)長(zhǎng)的特點(diǎn)時(shí),表明圖書情報(bào)學(xué)科正在利用其他學(xué)科較為成熟的技術(shù)、方法進(jìn)行融合創(chuàng)新。

3.1.3 各類軟件包擴(kuò)散特征

各類軟件包被引入圖書情報(bào)學(xué)科后的使用與更迭特征,可通過(guò)軟件包應(yīng)用次數(shù)和應(yīng)用年數(shù)進(jìn)行表征(圖略)。如某種軟件包的應(yīng)用年數(shù)為2,應(yīng)用次數(shù)為3,則表示該軟件包被應(yīng)用了2年,共在3篇論文中使用。結(jié)果分析如下:

自然語(yǔ)言處理類軟件包數(shù)量最多、總體應(yīng)用次數(shù)最高。這與圖書情報(bào)學(xué)科研究對(duì)象或樣本多為各類文本資源,對(duì)自然語(yǔ)言處理技術(shù)有很強(qiáng)的需求直接相關(guān),且該類軟件包的優(yōu)化和更新及時(shí),尤以nltk為代表。nltk自2005年發(fā)布第一個(gè)Python使用版本以來(lái)已經(jīng)迭代了68次,服務(wù)年份在所有軟件包中是最長(zhǎng)的,為11年。首次應(yīng)用是2010年nltk被用于語(yǔ)義關(guān)系識(shí)別中的文本預(yù)處理[33],此后nltk一直被認(rèn)為是文本處理的利器。

機(jī)器學(xué)習(xí)類軟件包在圖書情報(bào)學(xué)科中的應(yīng)用次數(shù)僅次于自然語(yǔ)言處理類,在圖書情報(bào)學(xué)科中的受歡迎程度較高。其中scikit-learn軟件包應(yīng)用頻次最高,常與其他軟件包結(jié)合應(yīng)用于情感分析和文本分類。

復(fù)雜網(wǎng)絡(luò)類軟件包只有1個(gè)networkx。此類軟件包數(shù)量少的原因之一在于具有類似功能的其他軟件工具較為豐富。如UCINET、Pajek等的發(fā)展時(shí)間久,功能成熟且用戶粘度較強(qiáng),而如Gephi、VOSviewer等可視化功能較強(qiáng)的網(wǎng)絡(luò)分析工具也逐漸增多,其中不少軟件擁有較多用戶。雖然復(fù)雜網(wǎng)絡(luò)類軟件包只有networkx在服務(wù)中,但服務(wù)年數(shù)較長(zhǎng),為9年,僅次于nltk。

科學(xué)計(jì)算軟件包產(chǎn)生時(shí)間較早,近5年被應(yīng)用到圖書情報(bào)學(xué)科中,多被用于文獻(xiàn)計(jì)量研究中的共現(xiàn)分析、聚類[34]、引文數(shù)量預(yù)測(cè)[35]和一些常規(guī)統(tǒng)計(jì)分析工作[36]。這一現(xiàn)象標(biāo)志著Python工具在圖書情報(bào)學(xué)科中已出現(xiàn)常規(guī)化使用的趨勢(shì)。

數(shù)據(jù)采集、數(shù)據(jù)分析、可視化類軟件包的數(shù)量均中等,且3類軟件包被應(yīng)用于圖書情報(bào)學(xué)研究的時(shí)間相近,應(yīng)用頻次也相近。這一現(xiàn)象與這3類軟件包在數(shù)據(jù)分析流程中功能上有銜接一致。

地理信息系統(tǒng)、圖像處理、數(shù)據(jù)庫(kù)類軟件包均數(shù)量偏少,應(yīng)用次數(shù)低,但在采納時(shí)間上,這3類軟件包的使用狀況不同。數(shù)據(jù)庫(kù)類軟件包在2010—2021年被間歇使用,而地理信息系統(tǒng)和圖像處理類軟件包分別自2020年、2015年進(jìn)入圖書情報(bào)學(xué)科,并主要應(yīng)用在近兩年的研究中。

圖2反映了常用軟件包的應(yīng)用占比變化。可見(jiàn),多數(shù)Python軟件包的占比變化較為平緩。變化突出的有nltk軟件包,盡管其應(yīng)用頻次逐年仍有上升,但是自2016年起應(yīng)用占比顯著下降。機(jī)器學(xué)習(xí)類軟件包應(yīng)用的快速增長(zhǎng),以及同類自然語(yǔ)言處理軟件包應(yīng)用的增多均加重了其下降趨勢(shì)。與此相反,用于深度學(xué)習(xí)的tensorflow,其應(yīng)用占比遞增明顯。2016—2021年,谷歌公司已對(duì)其進(jìn)行了88次版本的更新。隨著深度學(xué)習(xí)的深入與流行,圖書情報(bào)學(xué)科對(duì)tensorflow等機(jī)器學(xué)習(xí)類軟件包也越發(fā)重視。

圖2 2015—2021年圖書情報(bào)學(xué)科常用Python軟件包應(yīng)用占比

總體而言,約50%的軟件包是2020—2021年新引入的,如機(jī)器學(xué)習(xí)類軟件包xgboost、gender-guesser、tslearn、sexmachine等,自然語(yǔ)言處理類軟件包snownlp、whoosh、scispacy、senta等,數(shù)據(jù)采集類軟件包getoldtweets、twarc、pytrends、pybliometrics等,以及全部的地理信息系統(tǒng)類軟件包。而在2019—2021年3年間,138個(gè)軟件包中約87.7%在使用中,其余17個(gè)如textstat、django、jaydebeapi、lasagne、mosek等不被繼續(xù)使用的軟件包被具有類似功能的軟件包所替代。

3.2 軟件包應(yīng)用網(wǎng)絡(luò)分析

軟件包可以單獨(dú)或共同應(yīng)用于研究中,因此,Python軟件包形成的組合應(yīng)用網(wǎng)絡(luò)有力地表明了它們與科學(xué)研究的關(guān)系以及它們?cè)谔囟ㄑ芯恐信c其他Python軟件包的關(guān)系。以軟件包為網(wǎng)絡(luò)節(jié)點(diǎn),軟件包于一篇論文中的共同應(yīng)用關(guān)系為邊,構(gòu)建138個(gè)Python軟件包的組合應(yīng)用網(wǎng)絡(luò),該網(wǎng)絡(luò)為無(wú)向多值網(wǎng)絡(luò),如果兩個(gè)軟件包在n篇論文中被共同使用,則關(guān)系(邊)的權(quán)重為n,如圖3所示。

以下通過(guò)網(wǎng)絡(luò)基本指標(biāo)來(lái)理解該網(wǎng)絡(luò)的屬性,并探索網(wǎng)絡(luò)的群落結(jié)構(gòu),以便考察組合應(yīng)用特征。首先,該網(wǎng)絡(luò)的連通性較好,網(wǎng)絡(luò)密度為0.043,加權(quán)聚集系數(shù)為0.797,平均路徑長(zhǎng)度為2.521,高聚集系數(shù)和較短的平均路徑長(zhǎng)度表明圖書情報(bào)學(xué)科中的Python軟件包應(yīng)用網(wǎng)絡(luò)具有小世界特征[37]。整體網(wǎng)絡(luò)特征指標(biāo)顯示,Python軟件包的組合應(yīng)用已較為常見(jiàn),并且各種軟件包形成了不同的工具簇以應(yīng)用于相關(guān)研究。但是在該網(wǎng)絡(luò)規(guī)模水平,平均路徑長(zhǎng)度有進(jìn)一步縮短的空間,即軟件包的組合應(yīng)用應(yīng)向更廣泛和多樣拓展。

其次,群落特征方面,該網(wǎng)絡(luò)共包含15個(gè)成分,其中14個(gè)小規(guī)模成分的邊權(quán)均為1,未構(gòu)成穩(wěn)定的應(yīng)用網(wǎng)絡(luò),暫不討論。而成分15是規(guī)模最大的連通組,由117個(gè)節(jié)點(diǎn)構(gòu)成,占整體網(wǎng)絡(luò)規(guī)模的85%。其中雙邊連接成分的規(guī)模為98,雙邊連接成分是成分中不包含切點(diǎn)的部分,這說(shuō)明最大連通組的網(wǎng)絡(luò)結(jié)構(gòu)很強(qiáng)健,有71%的軟件包之間存在兩種及以上的組合關(guān)系,反映了Python軟件包經(jīng)常組合應(yīng)用于不同的研究。

圖4展現(xiàn)了軟件包的高頻組合應(yīng)用關(guān)系。其中,共同應(yīng)用頻次超過(guò)10的組合均為機(jī)器學(xué)習(xí)和自然語(yǔ)言處理類別下的軟件包組合,且各自類別內(nèi)軟件包的組合應(yīng)用也非常頻繁。機(jī)器學(xué)習(xí)類軟件包scikit-learn和自然語(yǔ)言處理軟件包nltk的組合應(yīng)用最多,其次是機(jī)器學(xué)習(xí)軟件包keras和tensorflow的組合。其他超過(guò)11次的組合應(yīng)用依次為gensim和nltk、gensim和scikit-learn、keras和scikit-learn、scikit-learn和tensorflow、nltk和tensorflow。而2020—2021年新建立的軟件包組合(組合次數(shù)>3)集中在機(jī)器學(xué)習(xí)類別內(nèi),分別為scikit-learn和xgboost、scikit-learn和pytorch、scikit-learn和selenium,以及機(jī)器學(xué)習(xí)和自然語(yǔ)言處理的組合gensim和jieba。

圖4 圖書情報(bào)學(xué)科Python軟件包高頻組合網(wǎng)絡(luò)

組合應(yīng)用可以實(shí)現(xiàn)多種研究目的,例如Khoo C S等[38]利用自然語(yǔ)言處理軟件包nltk和stanfordcorenlp進(jìn)行句子分割和情感極性標(biāo)記,Zubiaga A等[39]將機(jī)器學(xué)習(xí)軟件包scikit-learn、theano、lasagne、hyperopt用于社交媒體對(duì)話的謠言立場(chǎng)分類。AL-Smadi M等[40]在利用nltk進(jìn)行數(shù)據(jù)預(yù)處理后采用gensim主題建模,并在此基礎(chǔ)上使用機(jī)器學(xué)習(xí)軟件包scikit-learn進(jìn)行分類,通過(guò)3個(gè)軟件包的組合實(shí)現(xiàn)語(yǔ)義識(shí)別和語(yǔ)義相似性分析。Aparup K等[41]則利用gensim和scikit-learn對(duì)疫情暴發(fā)時(shí)產(chǎn)生的Twitter數(shù)據(jù)和學(xué)術(shù)摘要進(jìn)行詞向量處理及文本分類。

軟件包類別組合應(yīng)用網(wǎng)絡(luò)如圖5所示,可借此觀察類間組合情況。首先,顯而易見(jiàn)的是在圖書情報(bào)學(xué)科中自然語(yǔ)言處理類和機(jī)器學(xué)習(xí)類卻是組合應(yīng)用最為頻繁的軟件包類別。其他高頻類別組合有:自然語(yǔ)言處理類分別與可視化類、數(shù)據(jù)采集類、科學(xué)計(jì)算類的組合,以及機(jī)器學(xué)習(xí)類與科學(xué)計(jì)算類、軟件發(fā)展類的組合。其次,k-核為網(wǎng)絡(luò)中聯(lián)結(jié)致密的核心,圖5的k-核最高級(jí)數(shù)為7,由除數(shù)據(jù)庫(kù)類、復(fù)雜網(wǎng)絡(luò)類、圖像處理類之外的8類構(gòu)成。這8類中的任何一類都與其他7類軟件包發(fā)生組合應(yīng)用,證明多種類別軟件包的組合應(yīng)用較常見(jiàn)。例如Cavalcante I M等[42]將機(jī)器學(xué)習(xí)軟件包scikit-learn、科學(xué)計(jì)算軟件包numpy、可視化軟件包matplotlib、數(shù)據(jù)分析軟件包pandas用于執(zhí)行機(jī)器學(xué)習(xí)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析和可視化任務(wù),以研究彈性的供應(yīng)商投資組合。Curiskis S A等[43]利用nltk和scikit-learn進(jìn)行數(shù)據(jù)預(yù)處理,采用scikit-learn、gensim和數(shù)據(jù)分析軟件包pyclustering進(jìn)行文本聚類,以比較4種主題建模和文本聚類方法的效果。

圖5 圖書情報(bào)學(xué)科Python軟件包類別組合網(wǎng)絡(luò)

3類及以上軟件包的使用在推動(dòng)研究平臺(tái)與工具創(chuàng)新上發(fā)揮著重要作用,甚至能夠促進(jìn)新軟件包的開(kāi)發(fā)。McLevey J等[44]開(kāi)發(fā)了一款依賴于numpy、scipy和matplotlib的專門應(yīng)用于文獻(xiàn)計(jì)量學(xué)的Python軟件包metaknowledge,可與可視化軟件包pyldavis、seaborn,自然語(yǔ)言處理軟件包gensim、nltk,復(fù)雜網(wǎng)絡(luò)軟件包networkx,數(shù)據(jù)分析軟件包pandas結(jié)合使用,實(shí)現(xiàn)了利用工具創(chuàng)造工具的創(chuàng)新。

3.3 軟件包應(yīng)用領(lǐng)域分析

Python在圖書情報(bào)學(xué)科應(yīng)用的熱點(diǎn)領(lǐng)域可以通過(guò)論文關(guān)鍵詞共現(xiàn)進(jìn)行分析,可視化結(jié)果如圖6所示。節(jié)點(diǎn)為關(guān)鍵詞,節(jié)點(diǎn)越大說(shuō)明該關(guān)鍵詞出現(xiàn)頻次越高,連線代表關(guān)鍵詞在論文中的共現(xiàn)關(guān)系。可見(jiàn),研究領(lǐng)域主要涉及社交媒體研究、分類研究、合作研究和引文研究。通過(guò)關(guān)鍵詞共現(xiàn)強(qiáng)度可知,研究領(lǐng)域中的學(xué)術(shù)影響力評(píng)價(jià)、社交媒體網(wǎng)絡(luò)研究、自然語(yǔ)言分類研究、合作模式識(shí)別研究和知識(shí)深度學(xué)習(xí)研究是Python使用過(guò)程中更為側(cè)重的研究主題,且以science、Twitter、knowledge、text、news、big data、publication為研究的主要數(shù)據(jù)來(lái)源或研究對(duì)象。

圖6 Python在圖書情報(bào)學(xué)科應(yīng)用的熱點(diǎn)領(lǐng)域

圖7為論文關(guān)鍵詞聚類時(shí)區(qū)圖,展現(xiàn)了圖書情報(bào)學(xué)科應(yīng)用Python工具解決學(xué)科問(wèn)題的進(jìn)程,各時(shí)區(qū)間關(guān)鍵詞節(jié)點(diǎn)的連線表明了研究的傳承關(guān)系[45]。結(jié)合Python軟件包的應(yīng)用擴(kuò)散階段及過(guò)程可知:自2008年起步階段初始,圖書情報(bào)學(xué)科開(kāi)始利用Python研究信息學(xué)中的檢索問(wèn)題及科學(xué)計(jì)量領(lǐng)域的問(wèn)題,而機(jī)器學(xué)習(xí)和自然語(yǔ)言處理研究逐漸萌芽。2014年之后,研究聚焦于復(fù)雜網(wǎng)絡(luò)和引文分析。2016年以后的特點(diǎn)是,對(duì)科學(xué)出版物的研究更加多面,不僅將其作為計(jì)量中的常規(guī)樣本,更對(duì)期刊撤稿、開(kāi)放獲取、社交媒體對(duì)傳統(tǒng)出版物的影響等時(shí)代突顯問(wèn)題進(jìn)行研究。同期,情感分析研究正處于發(fā)端階段。在起步階段的最后幾年,即2017年開(kāi)始,研究對(duì)象不斷細(xì)化直至知識(shí)單元;數(shù)據(jù)來(lái)源不斷擴(kuò)展,從學(xué)術(shù)出版物到Twitter社交媒體、新聞?wù)Z料、大數(shù)據(jù)等;研究方法逐漸豐富,包括引文分析、社會(huì)網(wǎng)絡(luò)分析、情感分析、模型分析、文本分析等;使用的研究技術(shù)包括主題建模、文本分類、文本挖掘、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、遷移學(xué)習(xí)等。自2020年以來(lái),應(yīng)用增幅顯著,研究問(wèn)題已擴(kuò)展至行為研究(behavior analysis)、復(fù)雜網(wǎng)絡(luò)研究(complex network)、演化(evolution analysis)與趨勢(shì)研究(trend analysis)、技術(shù)分析(technology analysis)、用戶參與度研究(engagement)、虛假新聞研究(fake news)等。

圖7 Python在圖書情報(bào)學(xué)科應(yīng)用領(lǐng)域的擴(kuò)展過(guò)程

由此可見(jiàn),對(duì)Python在圖書情報(bào)學(xué)科應(yīng)用領(lǐng)域的分析能夠反映該學(xué)科通過(guò)研究工具實(shí)現(xiàn)的研究對(duì)象與數(shù)據(jù)來(lái)源的變化,研究方法與技術(shù)的更迭,研究問(wèn)題的拓展與豐富,研究?jī)?nèi)容的細(xì)化與深化,不同研究領(lǐng)域的興起與發(fā)展,以及研究范式的逐步轉(zhuǎn)變。

4 結(jié)論與討論

本研究明確了Python在圖書情報(bào)學(xué)科的應(yīng)用擴(kuò)散進(jìn)程、所處階段;按照功能將百余種Python軟件包分成了11個(gè)類別;分析了軟件包及其類別的組合應(yīng)用網(wǎng)絡(luò);呈現(xiàn)了Python在圖書情報(bào)學(xué)科的應(yīng)用領(lǐng)域、解決的問(wèn)題及其拓展過(guò)程。綜合各部分的研究結(jié)果,主要推斷總結(jié)如下:

1)當(dāng)前圖書情報(bào)學(xué)科在研究方法和工具上的快速更新與迭代是毋庸置疑的。Python在圖書情報(bào)學(xué)科的應(yīng)用擴(kuò)散剛剛進(jìn)入起飛階段,并已呈現(xiàn)常規(guī)化使用趨向,預(yù)期今后應(yīng)用該工具的論文將爆發(fā)式增長(zhǎng),同時(shí)不同軟件包之間的組合應(yīng)用也將不斷創(chuàng)新,這將推進(jìn)該學(xué)科形成,擁有更多緊密的工具組群。

2)Python軟件包應(yīng)用種數(shù)與應(yīng)用次數(shù)的增長(zhǎng)趨勢(shì)相同,均于2014年開(kāi)始增加,并于2020年大幅增長(zhǎng)。兩次增長(zhǎng)分別是由各種機(jī)器學(xué)習(xí)類軟件包的引入和軟件包類型多樣性的增加引發(fā)的,標(biāo)識(shí)了圖書情報(bào)學(xué)科研究范式轉(zhuǎn)型過(guò)程中的關(guān)鍵時(shí)間點(diǎn)和事件。

3)近年來(lái),擴(kuò)散延時(shí)最短的軟件包類型依次為機(jī)器學(xué)習(xí)類、自然語(yǔ)言處理類和數(shù)據(jù)采集類。較短及明顯縮短的擴(kuò)散延時(shí)說(shuō)明以上3類軟件包符合當(dāng)前圖書情報(bào)學(xué)科的研究需求。其中,由于深度學(xué)習(xí)的流行促使機(jī)器學(xué)習(xí)類工具應(yīng)用大幅增長(zhǎng),并與自然語(yǔ)言處理類工具更加緊密地結(jié)合,形成了當(dāng)前圖書情報(bào)學(xué)科研究范式轉(zhuǎn)型過(guò)程中最有力的工具驅(qū)動(dòng)。

4)地理信息系統(tǒng)類是最新引入的軟件包類型,應(yīng)用情況分兩種:一是助力傳統(tǒng)研究,如分析研究主題在國(guó)家層面的分布;二是基于大數(shù)據(jù)背景的研究,如城市形態(tài)大數(shù)據(jù)。根據(jù)初始應(yīng)用頻次和用途可推斷,地理信息系統(tǒng)類軟件包在圖書情報(bào)學(xué)科的應(yīng)用才剛剛開(kāi)始,伴隨科學(xué)研究向數(shù)據(jù)密集型研究范式的轉(zhuǎn)變以及數(shù)字人文的興起,地理信息系統(tǒng)類軟件包將獲得更加廣泛的應(yīng)用。此外,該類軟件包的擴(kuò)散延時(shí)較長(zhǎng),表明圖書情報(bào)學(xué)科正在利用其他學(xué)科較為成熟的技術(shù)、方法進(jìn)行融合創(chuàng)新,即近兩年地理信息系統(tǒng)類軟件包的突現(xiàn)與使用體現(xiàn)出圖書情報(bào)學(xué)科研究領(lǐng)域的拓展。

5)圖像處理類軟件包的擴(kuò)散延時(shí)較短,近兩年的應(yīng)用增加,可利用其提取圖像中的數(shù)據(jù)進(jìn)行圖形元數(shù)據(jù)研究、照片數(shù)據(jù)分析等。該類軟件包在圖書情報(bào)學(xué)科有潛在的應(yīng)用前景,值得關(guān)注。

6)大部分軟件包類型之間的組合應(yīng)用都較為頻繁,最為突出的是自然語(yǔ)言處理類和機(jī)器學(xué)習(xí)類,且一項(xiàng)研究中應(yīng)用多種類別軟件包也較常見(jiàn)。這一情況促使專門應(yīng)用于文獻(xiàn)計(jì)量學(xué)的Python軟件包的誕生,但是類似的工具還很少,功能整合有限,可以期待有更多符合圖書情報(bào)學(xué)科研究場(chǎng)景的工具或平臺(tái)產(chǎn)生,而將工具應(yīng)用到曾經(jīng)觸不可及的研究問(wèn)題中去,能使學(xué)科煥發(fā)活力。本研究中的應(yīng)用組合情況可為其提供需求參照。

更為重要的是,通過(guò)以Python為例的分析可知,工具視角的研究對(duì)學(xué)科發(fā)展具有現(xiàn)實(shí)意義。不限于某種工具,從更廣泛的意義來(lái)說(shuō),挖掘研究工具的應(yīng)用特征能夠從工具視角探析學(xué)科變革、現(xiàn)狀及態(tài)勢(shì),對(duì)于促進(jìn)學(xué)科發(fā)展至關(guān)重要,如研究范式轉(zhuǎn)型,研究方法與技術(shù)的更迭,研究熱點(diǎn)的變遷和趨向,研究領(lǐng)域新生及新研究問(wèn)題的出現(xiàn),明確學(xué)科發(fā)展歷程中的關(guān)鍵事件及時(shí)間節(jié)點(diǎn)等,并可通過(guò)分析演變動(dòng)因,評(píng)估學(xué)科發(fā)展動(dòng)態(tài),明晰學(xué)科前沿,預(yù)測(cè)未來(lái)發(fā)展方向。總之,工具視角下的學(xué)科發(fā)展及動(dòng)向分析,有助于學(xué)科發(fā)展規(guī)劃,前瞻性研究布局,促發(fā)新的研究領(lǐng)域等工作的開(kāi)展。

本研究從工具視角分析學(xué)科的發(fā)展及動(dòng)向,尤其適用于在當(dāng)前新舊研究范式轉(zhuǎn)換時(shí)期探究學(xué)科在數(shù)據(jù)驅(qū)動(dòng)的研究變革中的發(fā)展趨向,也為探索學(xué)科發(fā)展脈絡(luò)提供了新的考察路徑和認(rèn)識(shí)維度。本研究的局限在于工具視角僅是認(rèn)識(shí)學(xué)科發(fā)展的視角之一,單一視角無(wú)法反映一個(gè)學(xué)科發(fā)展的全貌。此外,任何一種工具和研究方法都有其使用范疇,本研究?jī)H以Python為例,能夠揭示的學(xué)科發(fā)展動(dòng)向有限,未來(lái)將擴(kuò)大工具范圍,做進(jìn)一步研究。

猜你喜歡
情報(bào)工具圖書
情報(bào)
情報(bào)
情報(bào)
波比的工具
波比的工具
圖書推薦
南風(fēng)(2020年22期)2020-09-15 07:47:08
歡迎來(lái)到圖書借閱角
班里有個(gè)圖書角
“巧用”工具
讀者(2017年18期)2017-08-29 21:22:03
交接情報(bào)
伽师县| 礼泉县| 台东县| 山丹县| 郸城县| 综艺| 咸宁市| 达尔| 常熟市| 惠州市| 安顺市| 龙里县| 贵港市| 社会| 尤溪县| 永泰县| 祁门县| 阳谷县| 章丘市| 原阳县| 徐州市| 广德县| 本溪| 中山市| 侯马市| 万州区| 徐汇区| 临沧市| 巴彦淖尔市| 新民市| 福清市| 阳山县| 贵州省| 连南| 云霄县| 秭归县| 石渠县| 崇信县| 卓尼县| 濮阳市| 敖汉旗|