王光志 武華維 王超
摘 要 隨著互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,圖書(shū)情報(bào)與檔案的工作環(huán)境、內(nèi)容、方式等發(fā)生了變化。本文從學(xué)科內(nèi)容角度出發(fā),利用期刊論文的題錄信息,提出一種測(cè)度圖書(shū)情報(bào)與檔案一體化程度的方法。根據(jù)齊普夫定律對(duì)主題詞賦權(quán),對(duì)通過(guò)改進(jìn)Jaccard相似系數(shù)計(jì)算學(xué)科內(nèi)容特征的相似度,提出一體化指數(shù)測(cè)度三者一體化程度,最后以《中國(guó)圖書(shū)館學(xué)報(bào)》《情報(bào)學(xué)報(bào)》《檔案學(xué)研究》三種核心期刊為對(duì)象進(jìn)行實(shí)證研究。結(jié)果發(fā)現(xiàn),三者在某些領(lǐng)域存在逐漸融合的態(tài)勢(shì),但是這種融合的主題內(nèi)容范圍和融合的程度仍然限制在一定范圍,即沒(méi)有出現(xiàn)較為明顯、劇烈變化。
關(guān)鍵詞 學(xué)科內(nèi)容 圖情檔一體化 測(cè)度方法
Abstract The development of the Internet and information technology has changed the working environment, content and methods of library, information and archives. To this end, from the perspective of subject content, a method for measuring the degree of integration of library, information and archives is proposed. Firstly, according to Zipfs law, the subject words are empowered. Secondly, the Jaccard similarity coefficient is improved to measure the similarity of the subject content. Thirdly, the integration degree of the integration index is proposed. Finally, Journal of the Library Science in China, Journal of the China Society for Scientific and Technical Information and Archives Science Study are empirically analyzed. The results show that there is a gradual integration of the three in some areas, but the scope of the subject matter of the fusion and the degree of integration are still limited to a certain extent, that is, no obvious and dramatic change.
Keywords Subject content. Integration of library, information and archives. Measurement method.
0 引言
自上世紀(jì)六七十年代,“圖書(shū)、情報(bào)、檔案一體化”被提出以來(lái)[1],國(guó)內(nèi)有相當(dāng)一部分學(xué)者認(rèn)為圖書(shū)、情報(bào)、檔案工作一體化是必然的發(fā)展趨勢(shì),并以此為中心展開(kāi)了許多相關(guān)研究。隨著互聯(lián)網(wǎng)和信息技術(shù)的迅猛發(fā)展,圖書(shū)情報(bào)、檔案的工作環(huán)境、內(nèi)容、方式等內(nèi)容也隨之發(fā)生變化,尤其是人工智能、物聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)的出現(xiàn),使得圖情檔的學(xué)科體系和能力建設(shè)無(wú)法忽視信息和數(shù)據(jù)這一核心[2]。在信息化、網(wǎng)絡(luò)化的今天,圖書(shū)、情報(bào)、檔案一體化這一命題是否仍然成立,并且圖書(shū)、情報(bào)、檔案的一體化程度如何?現(xiàn)有的研究似乎對(duì)這一疑問(wèn)尚未有充分的認(rèn)識(shí)和研究。鑒于此,本文采用一種定量分析的方式,從學(xué)科內(nèi)容的角度出發(fā),構(gòu)建一種圖書(shū)、情報(bào)、檔案一體化的測(cè)度方法,以期為相關(guān)研究人員提供一種觀(guān)測(cè)新背景下圖書(shū)、情報(bào)、檔案一體化發(fā)展程度的新方法或新途徑。
1 相關(guān)研究綜述
1978年,中國(guó)科學(xué)院最早提出“圖書(shū)與情報(bào)一體化”,以提高工作效率、避免重復(fù)浪費(fèi),便于統(tǒng)一領(lǐng)導(dǎo)規(guī)劃[3]。這引起學(xué)界廣泛關(guān)注,隨后國(guó)內(nèi)學(xué)者展開(kāi)了一系列圖書(shū)、情報(bào)、檔案一體化的相關(guān)研究。首先,部分學(xué)者對(duì)圖書(shū)、情報(bào)、檔案一體化的必要性和內(nèi)在依據(jù)展開(kāi)相關(guān)研究,如劉英則和呂福玲[4]認(rèn)為圖書(shū)、情報(bào)、檔案同屬于知識(shí)載體,都是信息的范疇,這便為三者一體化管理提供了理論依據(jù)。李學(xué)軍[5]認(rèn)為圖書(shū)、情報(bào)、檔案三者都屬于信息源的一種,這種共性便為圖情檔一體化提供了理論基礎(chǔ),同時(shí),這種共性使得三者會(huì)擁有相同的服務(wù)或工作對(duì)象,其工作方式和技術(shù)方法手段也會(huì)相同。另外,許芳[6]、符少華[7]、李華[8]等學(xué)者認(rèn)為,圖書(shū)、情報(bào)、檔案是企業(yè)進(jìn)行科技信息管理的重要手段,在信息技術(shù)時(shí)代背景下,通過(guò)圖書(shū)、情報(bào)、檔案三者間的知識(shí)共享,可以增強(qiáng)企業(yè)知識(shí)創(chuàng)新,提供企業(yè)競(jìng)爭(zhēng)力,所以對(duì)企業(yè)來(lái)說(shuō),圖書(shū)、情報(bào)、檔案一體化是必然趨勢(shì);而宋雄偉[9]、余敏[10]、翁雪梅[11]等學(xué)者認(rèn)為,圖書(shū)、情報(bào)、檔案一體化,對(duì)高校的教育、教學(xué)、科研發(fā)展起著重要的推動(dòng)作用,便于圖書(shū)情報(bào)學(xué)科相關(guān)知識(shí)在學(xué)校內(nèi)部的共享與流動(dòng),所以實(shí)行圖情檔一體化是改善和發(fā)展現(xiàn)代高校信息服務(wù)的趨勢(shì)。
為了進(jìn)一步論證圖情檔一體化的可行性,相關(guān)學(xué)者調(diào)研了歐美國(guó)家中圖情檔一體化的理論和實(shí)踐研究。李群和劉維榮[12]發(fā)現(xiàn),美國(guó)、英國(guó)和日本在圖情檔一體化方面主要體現(xiàn)在利用網(wǎng)絡(luò)和信息技術(shù)實(shí)現(xiàn)三者數(shù)字資源的共享以及一體化管理。李群[13]進(jìn)一步對(duì)美國(guó)的教學(xué)實(shí)踐進(jìn)行研究,發(fā)現(xiàn)美國(guó)大學(xué)的檔案學(xué)與圖書(shū)館學(xué)、情報(bào)學(xué)之間的教學(xué)聯(lián)系緊密,三者在教學(xué)中相互滲透。張錦和王海蘭[14]研究發(fā)現(xiàn),英國(guó)電影組織(BFI) 在組織和功能上實(shí)現(xiàn)英國(guó)電影信息中心、英國(guó)國(guó)家影視圖書(shū)館、英國(guó)國(guó)家影視檔案館三者之間的一體化運(yùn)行模式。
隨著研究程度的深入,學(xué)者開(kāi)始重點(diǎn)研究圖書(shū)、情報(bào)、檔案一體化策略,具體來(lái)說(shuō),就是研究從哪些方面可以更好地實(shí)現(xiàn)圖書(shū)、情報(bào)、檔案一體化的開(kāi)展和進(jìn)行。如葉鷹[15]進(jìn)一步探討了圖書(shū)情報(bào)檔案一體化的學(xué)理基礎(chǔ);吳營(yíng)和季曉琳[16]參考ISO9000標(biāo)準(zhǔn)管理原則,探討了圖書(shū)情報(bào)檔案一體化的質(zhì)量管理。田麗[17]探討了遼寧省圖書(shū)、情報(bào)、檔案專(zhuān)業(yè)人才校館所聯(lián)合培養(yǎng)的模式。王小云[18]從圖書(shū)、情報(bào)、檔案的專(zhuān)業(yè)課程資源的建設(shè)角度,探討了圖書(shū)、情報(bào)、檔案一體化專(zhuān)業(yè)教育的問(wèn)題。趙益民[19]探索了圖書(shū)情報(bào)檔案的一體化整合模式,嘗試通過(guò)行業(yè)聯(lián)盟的形式對(duì)圖書(shū)情報(bào)檔案從虛擬層次進(jìn)行一體化整合,以實(shí)現(xiàn)資源建設(shè)和業(yè)務(wù)管理的整合。
綜上所述,可以發(fā)現(xiàn)幾乎所有涉及圖情檔一體化的相關(guān)研究都未持懷疑乃至否定態(tài)度,當(dāng)然也有部分學(xué)者就圖情檔一體化的可行性進(jìn)行了論證,如葛翠玲[20]對(duì)圖情檔一體化開(kāi)展了否定性檢驗(yàn)研究,論證結(jié)果多認(rèn)為圖情檔一體化在我國(guó)具有很強(qiáng)(或者一定的)可行性。但是,筆者認(rèn)為部分學(xué)者顯然混淆了圖情檔一體化的概念內(nèi)涵。其實(shí),圖情檔的一體化是在保持三者獨(dú)立性,而不是取消三者獨(dú)立性的基礎(chǔ)上相互聯(lián)系、相互滲透的,三者是在較高程度的協(xié)調(diào)性、統(tǒng)一性和整體性[21]上,為社會(huì)提供信息保障,三者的本質(zhì)都是信息工作系統(tǒng)[22],包括工作流程的一體化、服務(wù)對(duì)象的一體化、資源建設(shè)的一體化,學(xué)科建設(shè)的一體化等等。從現(xiàn)有文獻(xiàn)中發(fā)現(xiàn),學(xué)者多從信息資源一體化、工作流程一體化、服務(wù)流程一體化等工作實(shí)務(wù)上進(jìn)行的定性研究,尚未提及較為系統(tǒng)或詳實(shí)的定量分析。當(dāng)然也有部分學(xué)者從學(xué)科建設(shè)方面了一些圖書(shū)、情報(bào)、檔案一體化的定性探討,但是多數(shù)研究似尚未對(duì)學(xué)科內(nèi)容方面進(jìn)行較為深入的定量分析。如劉滿(mǎn)閃和焦運(yùn)立[23]從基本共性和非基本共性的角度探討了圖書(shū)、情報(bào)、檔案一體化的學(xué)科依據(jù);趙國(guó)俊[24]研究了圖書(shū)、情報(bào)、檔案三個(gè)學(xué)科發(fā)展的分化和整合趨勢(shì),他認(rèn)為當(dāng)前三個(gè)學(xué)科在不斷分化和整合,其中整合成為主流形態(tài)。張莉婭和鄧勇[25]從著者交叉和知識(shí)網(wǎng)絡(luò)的角度分析了圖書(shū)、情報(bào)、檔案三個(gè)學(xué)科的交叉融合,利用期刊論文中的著者和關(guān)鍵詞分析發(fā)現(xiàn)三者雖屬于同源性學(xué)科但是三者之間有著本質(zhì)的區(qū)別。初景利和張穎[2]指出當(dāng)前圖情檔存在學(xué)科邊界模糊、學(xué)科融合危機(jī)、體系構(gòu)建艱巨等問(wèn)題。閆慧[26]認(rèn)為圖情檔三個(gè)學(xué)科之間存在認(rèn)同危機(jī),三者不僅長(zhǎng)期以來(lái)存在話(huà)語(yǔ)碎片化、內(nèi)生力不足的問(wèn)題,而且圖書(shū)館、檔案兩個(gè)學(xué)科偏文和情報(bào)學(xué)話(huà)語(yǔ)偏理,這一切都使得三者之間的融合難道較大。
2 圖情檔一體化程度分析框架
隨著期刊全文數(shù)據(jù)庫(kù)、文摘數(shù)據(jù)庫(kù)及信息技術(shù)的發(fā)展,期刊論文的題錄信息成為承載文獻(xiàn)內(nèi)容的重要元數(shù)據(jù)。利用相關(guān)技術(shù)和方法對(duì)某一學(xué)科領(lǐng)域的期刊題錄信息進(jìn)行處理與分析,可以揭示該學(xué)科研究與發(fā)展的內(nèi)外部特征[27-29]。考慮到學(xué)科內(nèi)容主要以文本信息為承載對(duì)象,而期刊承載了學(xué)科發(fā)展、建設(shè)方面的信息,所以本文從學(xué)科內(nèi)容的角度來(lái)測(cè)度圖書(shū)、情報(bào)、檔案一體化程度時(shí),主要以期刊為數(shù)據(jù)對(duì)象、以文本處理及分析方法為手段。如果代表學(xué)科內(nèi)容的圖情檔三類(lèi)期刊題錄信息之間呈現(xiàn)較高的一致性,即研究?jī)?nèi)容較為相似,則說(shuō)明圖書(shū)、情報(bào)、檔案在學(xué)科內(nèi)容的一體化程度較高,反之則說(shuō)明三者一體化程度不緊密。其具體的分析框架見(jiàn)圖1。
3 數(shù)據(jù)處理方法
本文以期刊的題名、摘要、關(guān)鍵詞三種題錄信息來(lái)表征圖書(shū)館學(xué)、情報(bào)學(xué)、檔案學(xué)學(xué)科的主要內(nèi)容??紤]到主題是表示學(xué)科內(nèi)容的基本單位,本文利用自然語(yǔ)言處理技術(shù)對(duì)題名、作者關(guān)鍵詞和摘要作為輸入數(shù)據(jù)源作進(jìn)一步的文本分詞處理,以分別獲取圖書(shū)館學(xué)、情報(bào)學(xué)、檔案學(xué)學(xué)科領(lǐng)域主題詞。
3.1 數(shù)據(jù)處理工具及流程
本文主要采用python語(yǔ)言中的jieba分詞工具來(lái)進(jìn)行文本分詞。同時(shí),考慮到該工具中分詞詞表可能無(wú)法識(shí)別這三個(gè)學(xué)科的專(zhuān)業(yè)主題詞,所以本文同時(shí)將作者關(guān)鍵詞作為分詞詞典的重要補(bǔ)充;然后,使用自建的常用停用詞表對(duì)分詞結(jié)果進(jìn)行進(jìn)一步過(guò)濾,然后再進(jìn)行詞性分析,僅保留包含實(shí)意的動(dòng)詞、動(dòng)名詞。最后,分別對(duì)圖書(shū)館學(xué)、情報(bào)學(xué)和檔案學(xué)數(shù)據(jù)集中的關(guān)鍵詞進(jìn)行頻次統(tǒng)計(jì),然后根據(jù)詞頻的大小選取前100個(gè)高頻詞,分別形成三個(gè)主題詞集合Term情報(bào)、Term圖書(shū)館、Term檔案。針對(duì)圖書(shū)、情報(bào)、檔案學(xué)科內(nèi)容的一體化測(cè)度便是在這三個(gè)主題詞集合的基礎(chǔ)上展開(kāi)的。
3.2 基于Jaccard相似系數(shù)的計(jì)算方法
本文為了證明圖書(shū)、情報(bào)、檔案在學(xué)科內(nèi)容上一體化程度,需要在已經(jīng)獲取的圖書(shū)、情報(bào)、檔案三個(gè)主題詞集合的基礎(chǔ)上,進(jìn)一步計(jì)算三個(gè)主題詞集合之間的相似程度,以便獲取三者學(xué)科內(nèi)容的一體化程度。
本研究主要采用Jaccard(杰卡德)相似系數(shù)分別計(jì)算出圖書(shū)與情報(bào)、情報(bào)與檔案、檔案與圖書(shū)之間的主題內(nèi)容相似度。Jaccard相似系數(shù),又稱(chēng)Jaccardindex,在于計(jì)算集合A與集合B的交集元素在各自集合中所占的比例。Jaccard相似系數(shù)可用于比較有限樣本集之間的相似性與差異性。Jaccard系數(shù)值越大,樣本間的相似度越高,Jaccard系數(shù)值越小,樣本間的相似度越低。Jaccard相似系數(shù)用公式(1) 表示為:
Jaccard相似性系數(shù)主要用于計(jì)算符號(hào)度量或布爾值度量的樣本間相似度。若樣本間的特征屬性由符號(hào)和布爾值標(biāo)識(shí),無(wú)法衡量差異具體值的大小,只能獲得“是否相同”這樣一種結(jié)果,而Jaccard系數(shù)關(guān)心的是樣本間共同具有的特征。這恰好符合本研究測(cè)度圖書(shū)、情報(bào)、檔案學(xué)科內(nèi)容一體化的需求。同時(shí),與常用的余弦相似系數(shù)相比,Jaccard系數(shù)可以避免因文本數(shù)據(jù)稀疏影響而導(dǎo)致誤導(dǎo)性計(jì)算結(jié)果的出現(xiàn),尤其適合稀疏度過(guò)高的數(shù)據(jù)。假設(shè)在計(jì)算圖書(shū)與情報(bào)、情報(bào)與檔案、檔案與情報(bào)之間學(xué)科內(nèi)容相似度時(shí),如果三個(gè)學(xué)科的主題詞頻數(shù)據(jù)比較稀疏,那個(gè)他們?nèi)咧g的內(nèi)容相似度會(huì)呈現(xiàn)出比較高的數(shù)值,這樣不可避免的會(huì)影響對(duì)實(shí)際情況的判斷??紤]到數(shù)據(jù)稀疏性這一因素,本研究選擇Jaccard系數(shù)來(lái)計(jì)算文本相似度。
3.3 Jaccard相似系數(shù)的局限與改進(jìn)
Jaccard系數(shù)也存在一定的局限。具體來(lái)說(shuō),Jaccard相似系數(shù)使用0~1表示關(guān)鍵詞的值,對(duì)于每一個(gè)詞同等對(duì)待,計(jì)算方便快捷。然而,Jaccard相似系數(shù)只考慮主題詞集合之間共同交集,忽視交集主題詞頻之間的數(shù)量差異,沒(méi)有考慮到詞頻的影響。鑒于此,本文對(duì)Jaccard相似系數(shù)做出進(jìn)一步的改進(jìn),將主題詞的詞頻這一因素考慮進(jìn)來(lái),利用改進(jìn)后的Jaccard相似系數(shù)來(lái)計(jì)算圖書(shū)、情報(bào)、檔案三個(gè)學(xué)科彼此間的內(nèi)容相似性。Jaccard相似系數(shù)的改進(jìn)步驟具體如下。
首先,增加主題詞權(quán)重。根據(jù)齊普夫定律,本文按照詞頻統(tǒng)計(jì)從大到小進(jìn)行排序,然后將主題詞詞頻順序的序數(shù)的倒數(shù)作為該主題詞的權(quán)重值。
3.4 一體化程度測(cè)度說(shuō)明
利用Jaccard相似系數(shù)計(jì)算圖書(shū)與情報(bào)、圖書(shū)與檔案、情報(bào)與檔案之間學(xué)科內(nèi)容的相似程度,這種相似程度僅僅體現(xiàn)了兩個(gè)對(duì)象之間的一體化程度,為此需要將圖書(shū)、情報(bào)、檔案三者之間的相似程度擬合成一個(gè)整體才能夠代表三者學(xué)科內(nèi)容的一體化程度的數(shù)值。
本文利用三者之間的集中程度和離散程度將三個(gè)學(xué)科內(nèi)容相似系數(shù)擬合成學(xué)科內(nèi)容一體化指數(shù)。在利用圖書(shū)、情報(bào)、檔案三者間的內(nèi)容相似程度來(lái)把握三者學(xué)科內(nèi)容的一體化程度時(shí),主要利用三者間的內(nèi)容相似度的集中程度來(lái)反映相似度的整體集中水平,利用三者間內(nèi)容相似度的離散程度來(lái)反映各個(gè)相似度之間的差異程度。如果圖書(shū)、情報(bào)、檔案三者間的內(nèi)容相似程度的整體水平高且各個(gè)相似間的差異小,那么三者的整體內(nèi)容相似度高,即學(xué)科內(nèi)容的一體化程度高。所以一體化在測(cè)度時(shí)既要考慮各個(gè)相似程度的整體水平,也要考慮離散水平,兩個(gè)因素相互依賴(lài)。由于兩個(gè)因素的相互作用決定了整體一體化水平,因而我們采用乘法合成法,將整體水平和離散水平合成一個(gè)指標(biāo)。本研究中采用均值來(lái)表示整體水平,采用變異系數(shù)來(lái)衡量離散水平,其中不用標(biāo)準(zhǔn)差的原因主要是它只能反映組內(nèi)數(shù)據(jù)的離散水平,而無(wú)法衡量不同數(shù)據(jù)組間的離散水平。而變異系數(shù)則消除了不同組間數(shù)據(jù)量綱的問(wèn)題,可以進(jìn)行不同組間的離散程度比較。由此,圖書(shū)、情報(bào)、檔案學(xué)科內(nèi)容的一體化指數(shù)的公式為:
4 實(shí)證分析
4.1 數(shù)據(jù)來(lái)源與獲取
《中國(guó)圖書(shū)館學(xué)報(bào)》 《情報(bào)學(xué)報(bào)》 《檔案學(xué)研究》分別是由中國(guó)圖書(shū)館學(xué)會(huì)、中國(guó)科學(xué)技術(shù)情報(bào)學(xué)會(huì)和中國(guó)檔案學(xué)學(xué)會(huì)主辦的國(guó)家級(jí)專(zhuān)業(yè)期刊,三個(gè)刊物分別刊發(fā)圖書(shū)館、情報(bào)、檔案研究的重要成果,具有很高的學(xué)術(shù)水平,是國(guó)內(nèi)圖書(shū)情報(bào)檔案研究熱點(diǎn)和前沿主題的風(fēng)向標(biāo),具備一定的代表性。因此本文將三種期刊分別作為圖書(shū)、情報(bào)、檔案學(xué)科內(nèi)容分析的數(shù)據(jù)來(lái)源。
在CNKI《中國(guó)學(xué)術(shù)期刊數(shù)據(jù)庫(kù)》中檢索《中圖書(shū)館學(xué)報(bào)》和《檔案學(xué)研究》自2008年以來(lái)近十年所有的文章,從萬(wàn)方數(shù)據(jù)《中國(guó)學(xué)術(shù)期刊數(shù)據(jù)庫(kù)》中檢索《情報(bào)學(xué)報(bào)》自2008年以來(lái)的所有文章,經(jīng)人工篩選,只保留學(xué)術(shù)研究論文,共獲得3396篇,作者關(guān)鍵詞8618個(gè)(見(jiàn)表1)。
4.2 文本計(jì)算與分析
首先,利用python語(yǔ)言中的jieba分詞工具來(lái)對(duì)3396篇《中國(guó)圖書(shū)館學(xué)報(bào)》、《情報(bào)學(xué)報(bào)》、《檔案學(xué)研究》中論文的題錄信息進(jìn)行文本分詞;然后,去除停用詞和按詞性進(jìn)一步過(guò)濾后,分別統(tǒng)計(jì)三種期刊中的主題詞頻數(shù),按照詞頻統(tǒng)計(jì)從大到小進(jìn)行排序,利用(公式2)獲得所有主題詞的權(quán)重。再次,選取前100中的主題詞作為主題詞集合,并取圖書(shū)、情報(bào)、檔案三者之間主題詞集合的交集。最后按照(公式4)計(jì)算圖書(shū)、情報(bào)、檔案三者之間主體內(nèi)容的相似程度。
表2為2008—2017年圖書(shū)、情報(bào)、檔案三者之間的交集主題詞個(gè)數(shù),交集主題詞集的個(gè)數(shù)占比都在18%~50%,僅由交集主題詞集合的數(shù)量可以看出圖書(shū)、情報(bào)、檔案三者的學(xué)科內(nèi)容呈現(xiàn)一定程度的一體化(交集主題詞占比高于18%),但是這種一體化的程度并不太高(交集主題詞占比低于50%)。
在交集主題詞集合的基礎(chǔ)上,進(jìn)一步結(jié)合主題詞的權(quán)重分析2008—2017年圖書(shū)-情報(bào)、情報(bào)-檔案、檔案-情報(bào)兩兩之間的內(nèi)容相似度(見(jiàn)圖2)。在2008—2017年這十年間,圖書(shū)-情報(bào)間的內(nèi)容相似度在0.0363~0.0753范圍內(nèi),圖書(shū)-檔案間的內(nèi)容相似度在0.0309~0.0695范圍內(nèi),情報(bào)-檔案間的內(nèi)容相似度在0.0204~0.0695范圍內(nèi),可以看出三者之間內(nèi)容相似度總體上集中在0.02~0.08。2008—2010年之間,圖書(shū)-情報(bào)間的相似度明顯高于其他兩個(gè),情報(bào)-檔案間的相似度相對(duì)較低。在2011—2016年間,情報(bào)-檔案間的相似度開(kāi)始逐漸提高,相較于同期其他相似度,開(kāi)始顯出一定的優(yōu)勢(shì);相同時(shí)期,相較于同期其他相似度,圖書(shū)-情報(bào)間的相似度優(yōu)勢(shì)有所降低。在這十年間,相較于同期其他相似度,圖書(shū)-檔案間的相似度優(yōu)勢(shì)不是非常明顯??傮w上看,圖書(shū)-情報(bào)、圖書(shū)-檔案、檔案-情報(bào)三者之間的內(nèi)容相似度總體上呈現(xiàn)增大的趨勢(shì)(圖2中兩條直線(xiàn)所示)。
4.3 一體化系數(shù)計(jì)算分析
在完成圖書(shū)-情報(bào)、圖書(shū)-檔案、情報(bào)-檔案內(nèi)容相似度分析的基礎(chǔ)上,利用(公式4) 計(jì)算2008—2017年圖書(shū)、情報(bào)、檔案三者一體化指數(shù),具體結(jié)果如圖3所示。從總體上看,圖書(shū)、情報(bào)、檔案三者學(xué)科內(nèi)容的一體化呈現(xiàn)逐漸增大的趨勢(shì),但這是一種比較緩慢的增大過(guò)程(圖3中的直線(xiàn)所示)。在這十年間,圖書(shū)、情報(bào)、檔案學(xué)科三者之間的內(nèi)容相似的平均水平集中在0.038~0.068,三者之間的整體相似程度變化幅度小,三者之間的內(nèi)容相似度的差異程度集中在0.072~0.482,內(nèi)容相似程度的差異性波動(dòng)較大,但是圖3可以看出這種差異性總體上呈現(xiàn)出逐漸降低的趨勢(shì)。
2008年和2013年的一體化指數(shù)分別為十年間的最低值和最高值,進(jìn)一步對(duì)2008年(圖4)和2013年(圖5)的一體化內(nèi)容發(fā)現(xiàn),2008年的一體化程度明顯差于2013年的一體化程度。在2008年,圖書(shū)-情報(bào)、情報(bào)-檔案、圖書(shū)-檔案三者所具有相似主題內(nèi)容各異,尤其是圖書(shū)-情報(bào)之間存在較多的相似主題,圖書(shū)-情報(bào)之間多側(cè)重自動(dòng)構(gòu)建、資源、專(zhuān)家、主題詞表、中文、中國(guó)、質(zhì)量、知識(shí)轉(zhuǎn)移、知識(shí)流、知識(shí)管理、戰(zhàn)略、用戶(hù)研究、用戶(hù)、影響因素、引文分析、研究綜述、研究現(xiàn)狀、學(xué)科、敘詞表、信息資源、項(xiàng)目、系統(tǒng)、網(wǎng)絡(luò)環(huán)境、網(wǎng)絡(luò)、途徑、圖書(shū)館服務(wù)、數(shù)字圖書(shū)館、數(shù)字、實(shí)證研究、論文、領(lǐng)域本體、理論、科學(xué)、技術(shù)、高校圖書(shū)館、服務(wù)質(zhì)量、電子政務(wù)、測(cè)度。而情報(bào)-檔案、檔案-圖書(shū)之間的相似主題內(nèi)容較少,其中情報(bào)-檔案多側(cè)重知識(shí)集成、因素、新聞、情報(bào)、企業(yè)、領(lǐng)域、國(guó)際、關(guān)系、高校、概念、對(duì)策,檔案-圖書(shū)多側(cè)重政府信息公開(kāi)、信息資源建設(shè)、信息服務(wù)、新時(shí)期、現(xiàn)狀、文獻(xiàn)、圖書(shū)館、史學(xué)、美國(guó)、理性、開(kāi)發(fā)利用、基礎(chǔ)理論、傳統(tǒng)。所以,2008年圖書(shū)、情報(bào)、檔案的一體化程度總體較差,其中圖情檔三者共同關(guān)注的主題內(nèi)容為策略、發(fā)展趨勢(shì)、環(huán)境、科學(xué)、模式、模型、期刊、視角、體系、信息。
在2013年,圖情檔三者共同關(guān)注的主題內(nèi)容為美國(guó)、技術(shù)、內(nèi)容、環(huán)境、中國(guó)、網(wǎng)絡(luò)、實(shí)證研究、信息、資源、評(píng)價(jià)、方法研究、研究述評(píng)、高校等,圖書(shū)-情報(bào)、情報(bào)-檔案、圖書(shū)-檔案三者共同擁有的主題內(nèi)容數(shù)量較多。圖書(shū)-檔案多側(cè)重?cái)?shù)據(jù)庫(kù)、信息化、圖書(shū)館學(xué)、資源共享、國(guó)際、平臺(tái)、信息資源、館藏、標(biāo)準(zhǔn)等內(nèi)容,圖書(shū)-情報(bào)多側(cè)重情感分析、個(gè)性化、用戶(hù)、電子、質(zhì)量、web2.0、特征融合、制度、社交網(wǎng)絡(luò)、文獻(xiàn)等內(nèi)容,情報(bào)-檔案多側(cè)重互聯(lián)網(wǎng)、政府門(mén)戶(hù)網(wǎng)站、數(shù)據(jù)挖掘、突發(fā)事件、知識(shí)圖譜、企業(yè)、政策、信息服務(wù)、電子政務(wù)、數(shù)據(jù)等內(nèi)容,圖書(shū)-情報(bào)、情報(bào)-檔案、檔案-圖書(shū)之間的相似主題內(nèi)容的數(shù)量比較均衡。
5 結(jié)語(yǔ)
通過(guò)對(duì)以《中國(guó)圖書(shū)館學(xué)報(bào)》《情報(bào)學(xué)報(bào)》《檔案學(xué)研究》三種核心期刊為代表的圖書(shū)、情報(bào)、檔案學(xué)科內(nèi)容的分析研究發(fā)現(xiàn),三者面臨的工作環(huán)境、工作對(duì)象、手段發(fā)生變化,三者在某些領(lǐng)域存在逐漸融合的態(tài)勢(shì),但是三個(gè)學(xué)科之間仍然有自己的特定的理論和方法,這種融合的主題內(nèi)容范圍和融合的程度仍然限制在一定范圍,即沒(méi)有出現(xiàn)較為明顯、劇烈變化。
本文基于學(xué)科內(nèi)容的圖書(shū)、情報(bào)、檔案一體化的測(cè)度,通過(guò)對(duì)核心期刊的論文題錄信息實(shí)證研究發(fā)現(xiàn),可以量化圖書(shū)、情報(bào)、檔案在學(xué)科內(nèi)容上的一體化程度及趨勢(shì)。當(dāng)然,本文提出的方法也存在一定的局限性。首先,選用實(shí)證數(shù)據(jù)可能無(wú)法全部囊括全部的圖書(shū)、情報(bào)、檔案的主題內(nèi)容。其次,對(duì)學(xué)科內(nèi)容的把握仍然僅僅依賴(lài)于期刊的題錄信息,受一定條件的限制,無(wú)法通過(guò)全文來(lái)進(jìn)行分析。最后,本研究仍然將主題詞作為構(gòu)成學(xué)科內(nèi)容的基本單元,但是主題詞可能會(huì)脫離具體語(yǔ)義,造成與內(nèi)容之間存在一定的誤差,影響分析結(jié)果。所以,針對(duì)這三個(gè)方面的問(wèn)題,未來(lái)本研究的研究重點(diǎn)將會(huì)側(cè)重基于更多期刊的全本數(shù)據(jù)及基于語(yǔ)義的學(xué)科內(nèi)容分析。