摘 要:為有針對性地查找我國檔案學文獻定量研究中存在的問題,通過對從CNKI收錄的相關(guān)期刊論文中提取的差錯進行統(tǒng)計和分析,發(fā)現(xiàn)信息檢索問題明顯、數(shù)據(jù)處理缺乏重視、經(jīng)典定律盲目套用、定量分析創(chuàng)新不足、行文論述不夠嚴謹是檔案學文獻定量研究的主要問題,提出了解決這些問題的對策和建議。
關(guān)鍵詞:檔案學;文獻定量研究;文獻計量;問題;對策
Abstract: In order to explore the problems in the literature quantitative research on Archival Science in China, this paper makes a statistics and analysis of the errors extracted from CNKI journal articles. It founds that the errors of information retrieval, data processing, application of the classical laws, innovation of quantitative analysis, writing and discussion are the main problems of the literature quantitative research on Archival Science. Based on those findings, this paper proposes corresponding strategies and suggestions to address those problems.
Keywords: Archival science; Literature quantitative research; Bibliometrics; problems ; Countermeasures
1 引言
文獻定量研究作為一種常用的研究方法,往往和定性研究結(jié)合使用。上世紀80年代后期,國內(nèi)檔案期刊開始刊發(fā)運用定量方法進行檔案學文獻研究的論文。隨著網(wǎng)絡(luò)和計算機技術(shù)的發(fā)展,各類可檢索利用的數(shù)據(jù)庫日益增多,文獻定量研究的樣本數(shù)據(jù)獲取越來越便捷,定量研究得到了比較廣泛的應(yīng)用,相關(guān)的文章數(shù)量逐年增多。
相關(guān)論文的增多在很大程度上表明文獻定量研究方法已為檔案學界認同和接受,但在活躍、認同和接受的背后,更應(yīng)當冷靜地分析和總結(jié)檔案學文獻定量研究中的得失,尤其是問題和不足,這對于提升檔案學文獻定量研究的水平更具現(xiàn)實意義,畢竟文獻定量研究在檔案學領(lǐng)域應(yīng)用的時間還不長。然而,相關(guān)的專門研究極少,只在部分文中對有關(guān)問題有所涉及,李財富早在1997年就針對引文指出定量分析不準確[1]的問題;王新才、文振興在計量分析檔案學研究中計量法的運用時,提出統(tǒng)計分析之外的研究方法運用少等四個值得思考的地方[2];陳忠海、董一超在研究定量方法在檔案學研究中的運用時,指出了文獻檢索存在的問題突出等三個方面的學術(shù)不規(guī)范行為,并提出了四個方面的建議[3];筆者也認為不少文獻在信息檢索、樣本數(shù)量、數(shù)據(jù)收集和處理(包括數(shù)據(jù)清洗和加工)、圖表制作、經(jīng)典定律運用等方面也還有各類問題[4]。盡管這些研究指出了文獻定量研究中的一類或幾類問題,但對問題的分析大多比較宏觀,不夠全面、深入和透徹,似乎尚未引起研究者的足夠重視,許多專家和研究者早已指出甚至多次指出的有關(guān)問題依舊不斷出現(xiàn),因此,開展針對檔案學文獻定量研究問題與對策的專門研究十分必要。
2 分析數(shù)據(jù)來源
要準確分析和梳理檔案學文獻定量研究的問題與不足,必須全面了解相關(guān)文獻的基本情況。2017-2018年間,筆者針對1989年以來檔案學文獻定量研究的相關(guān)文獻進行過專門分析,在對照原文進行數(shù)據(jù)核對、整理的過程中,明顯感覺到有些論文在信息檢索、數(shù)據(jù)處理等方面存在一些問題。近一年閱看新發(fā)表的相關(guān)文獻時,相關(guān)問題依然不少。
為減少文獻檢索和數(shù)據(jù)處理的工作量,本文以文獻[5]分析的563篇文獻作為原始數(shù)據(jù)(文獻[5]中詳述了檢索、樣本獲取和數(shù)據(jù)處理過程),從全文中提取了檢索項、檢索表達式、數(shù)據(jù)處理、樣本數(shù)量、經(jīng)典定律使用、圖譜效果等信息,并對有無明顯問題作出判斷,也通過檢索、查找相關(guān)文獻驗證或核對了部分把握不準的判斷。
3 主要問題及原因簡析
3.1 信息檢索問題明顯。信息檢索是獲取分析樣本的有效手段,包括早期僅能以手工方式收集數(shù)據(jù)在內(nèi)的563篇論文中,有507篇是通過信息檢索來獲取分析數(shù)據(jù)的,可見信息檢索是目前絕大多數(shù)文獻定量研究必不可少的環(huán)節(jié)。但檢索中的問題特別多,表1是主要問題的匯總,包括:(1)檢索中該使用同義詞及相關(guān)詞但未使用,或是使用不全面,這個問題最為突出,如檢索“數(shù)字檔案館”的相關(guān)文獻僅用該詞顯然會出現(xiàn)漏檢,因為數(shù)字檔案館還有“電子檔案館、虛擬檔案館”等其他稱謂;(2)使用偏長的詞組、短語甚至句子檢索,往往會造成較大量的漏檢;(3)部分上下位概念詞用“與”或“或”組配,如在CNKI中用“篇名=檔案檢索*檢索”的檢索結(jié)果與“篇名=檔案檢索”完全相同;(4)檢索表達式書寫不正確,布爾邏輯運算符運用不當;(5)不知“主題”檢索項的準確內(nèi)涵,誤認為是主題詞項,將“主題”當作“主題詞”進行檢索。
此外,信息檢索中還存在檢索限定(精確或模糊、分類或?qū)]嫷龋┻\用極少、可簡化的檢索式編制得過于復(fù)雜、無準確的時間范圍、檢索項名稱使用混亂、位置檢索等專業(yè)檢索方式運用極少、專門檢索期刊甚至一種期刊用跨庫高級檢索、檢索過程描述錯誤或不準確等諸多問題。也有少量論文說明了來源數(shù)據(jù)庫但沒有提及檢索或未清楚描述。
出現(xiàn)信息檢索中諸多問題的根源是有些作者未系統(tǒng)學習和掌握信息檢索的基本技能和方法,對檢索使用的數(shù)據(jù)庫及其檢索規(guī)則缺乏較深入的了解。
3.2 數(shù)據(jù)處理缺乏重視。數(shù)據(jù)處理是對檢索或以其他方式獲取的樣本數(shù)據(jù)進行清洗和加工的過程,對確保定量研究的質(zhì)量至關(guān)重要。然而,相關(guān)論文中有關(guān)數(shù)據(jù)處理的描述卻讓人感受不到這種重要,除直接檢索一種或多種期刊、專門數(shù)據(jù)庫等不是必須進行數(shù)據(jù)處理的之外,有264篇無數(shù)據(jù)處理或未提及,有270篇僅有簡單篩選,或是剔除新聞、一稿多投、不相關(guān)文獻以及去重等簡短敘述;有8篇論及機構(gòu)的統(tǒng)一,有11篇對關(guān)鍵詞作了規(guī)范,而逐一核對原文(包括引文)、清除或規(guī)范CNKI機標關(guān)鍵詞、統(tǒng)一刊名、提取題錄之外的數(shù)據(jù)項等處理更是少之又少。
有數(shù)據(jù)處理的也多是手工刪選方式,借助相關(guān)軟件或自編軟件的作者偏少,有25篇用到了Excel,有少數(shù)作者用到了E-learning等工具或自編軟件進行數(shù)據(jù)處理,甚至進行數(shù)據(jù)格式的轉(zhuǎn)換。工具利用少也反映出多數(shù)論文的數(shù)據(jù)處理效率不高。
對數(shù)據(jù)處理重視不足大致有以下四個主要原因,一是有些作者不愿為數(shù)據(jù)處理花費大量時間和精力;二是有些作者不知如何處理或不清楚數(shù)據(jù)處理涉及哪些內(nèi)容和要求;三是有些作者主觀地認為檢索獲取的數(shù)據(jù)可以直接利用,不需要進行處理;四是有些作者運用現(xiàn)代技術(shù)手段的能力不強,處理有一定困難。當然,也不排除有些作者進行了數(shù)據(jù)處理,但限于篇幅而簡單地一筆帶過。
3.3 經(jīng)典定律盲目套用。在文獻計量學中,布拉德福定律、洛特卡定律、普賴斯定律等是公認的經(jīng)典定律,有些作者在分析文獻數(shù)量時,用布拉德福定律進行文獻分區(qū),得出核心論文或核心期刊數(shù)量;在分析作者或機構(gòu)時,用到了洛特卡定律、普賴斯定律,得出核心作者、核心機構(gòu),或驗證作者分布與定律的結(jié)果是否一致,判斷形成沒形成核心作者群。在定量研究中運用經(jīng)典定律本無可厚非,甚至能增加分析判斷的可信度,但這些經(jīng)典定律都是在樣本數(shù)較多的情況下得出的,有些論文僅有百余個甚至幾十個樣本(有132篇樣本數(shù)少于100)。更令人遺憾的是,定律公式的格式有很多是錯誤的,尤其是上下標不分地混排在一起。另外,公式中字母的大小寫、正斜體也大都不符合數(shù)學公式的規(guī)范要求。值得注意的是,有多篇文章的差錯完全相同,或許是引用、參考了有同樣錯誤論文的結(jié)果。
經(jīng)統(tǒng)計,563篇論文中有129篇用到了經(jīng)典定律,運用情況見表2,有些論文同時用到了這三個定律。盲目套用經(jīng)典定律本身就表明有些作者對這些經(jīng)典定律的由來、作用和可運用的范圍缺乏了解,也不排除個別作者盲目跟風,胡亂引用。
3.4 定量分析創(chuàng)新不足。文獻定量研究,特別是文獻計量學發(fā)展到今天,在圖書情報之外的許多學科都得到了較為廣泛的運用,同時也用到了科學計量學、可視化等方法和技術(shù),并融入了學科特色。但檔案學文獻定量研究在方法和手段上還比較單一,文獻計量近幾年仍是主要方法,可視化分析、社會網(wǎng)絡(luò)分析、聚類分析、h指數(shù)等方法和技術(shù)運用不多;時間分布、來源刊、作者、機構(gòu)、關(guān)鍵詞等可直接從題錄中獲取的數(shù)據(jù)項是定量研究中運用最多的計量元素,很少有作者自主地從文獻中挖掘題錄之外的計量元素;除年度分布外,各計量元素大多只有總量統(tǒng)計,鮮有體現(xiàn)數(shù)量動態(tài)變化特征的分時段數(shù)據(jù)、階段性陡增數(shù)據(jù)等;定量研究的對象九成以上為期刊論文(或包含期刊論文),分析的文獻類型比較單一。
此外,針對外文文獻、引文分析等的定量研究偏少;知識圖譜工具運用中圖的質(zhì)量大多不高,節(jié)點和標簽相互疊加,亂作一團;缺少結(jié)合檔案學特點運用或修正經(jīng)典定律的研究。在提取分析數(shù)據(jù)時,發(fā)現(xiàn)僅有極少數(shù)作者有能力利用計算機軟件開發(fā)數(shù)據(jù)處理、數(shù)據(jù)格式轉(zhuǎn)換、主要計量元素數(shù)據(jù)統(tǒng)計等的工具程序。
3.5 行文論述不夠嚴謹。行文論述嚴謹是文獻定量研究的基本要求,但有些論文卻缺失了這種嚴謹。這類問題主要包括:(1)對檢索數(shù)據(jù)庫或平臺、經(jīng)典定律、分析方法等不惜篇幅地加以說明或介紹;(2)列出了多種檢索方法和結(jié)果,但分析時選用的是其中的一個檢索結(jié)果,或是詳細地介紹檢索中的每一個操作細節(jié);(3)簡單地羅列統(tǒng)計數(shù)據(jù),有幾篇論文甚至將百余位發(fā)文作者、近百個機構(gòu)按發(fā)文數(shù)量一一列示;(4)沒有數(shù)據(jù)獲取過程,直接進行分析;(5)有近一成的論文沒有圖表,超過兩成的僅一張圖表,甚至有2篇知識圖譜分析的論文竟然沒有一幅圖;(6)超過半數(shù)的論文篇幅在3頁之內(nèi),甚至有不少僅1頁,太過“精練”的文字恐怕難以將研究過程和結(jié)論論述清楚;(7)部分論文分析樣本數(shù)量過少。
此外,一些論文中還有較明顯的各種形式的差錯,如:標題中有“20年”,但分析數(shù)據(jù)只有11年;分析“檔案××”的檢索詞卻是“圖書××”;檢索時選擇期刊,分析時還有學位論文;分析中引用和被引不分,等等。
出現(xiàn)這類問題是由于少數(shù)作者缺乏嚴謹?shù)难芯繎B(tài)度,對定量研究論文寫作的重點甚或定量研究的目的是什么不太清楚,對定量研究缺乏較深刻的認識和理解;也不排除個別作者用無關(guān)的敘述達到增加篇幅的目的。
4 對策和建議
4.1 切實提高對定量研究的認識。提高對文獻定量研究的正確認識是解決上述問題的關(guān)鍵。要充分認識到,檔案學文獻定量研究的目的,是要用定量的方法來揭示檔案學及其各主題領(lǐng)域文獻的結(jié)構(gòu)和數(shù)量變化,從中發(fā)現(xiàn)其本質(zhì)聯(lián)系與發(fā)展變化規(guī)律。絕不能簡單地認為定量研究只是按照已有的套路,統(tǒng)計幾個數(shù)字,驗證一下與經(jīng)典定律是否一致,得出幾條與統(tǒng)計結(jié)果“相符”的結(jié)論,人云亦云。更不該有文獻定量研究是多出成果、快出成果的一條捷徑這樣狹隘的認識。事實上,檔案學文獻定量研究需要研究者具有良好的信息檢索能力、較強的數(shù)據(jù)處理能力、較豐富的檔案學專業(yè)知識,同時還需要嚴謹、細致、扎實、認真的研究態(tài)度。認識提高了,自然會去關(guān)注和進行系統(tǒng)學習,進而較好地掌握文獻計量、科學計量、社會網(wǎng)絡(luò)分析等文獻定量研究的技術(shù)、方法。對于經(jīng)典定律的學習,重要的是要學習這些定律的最初思想力量[6],學習文獻計量學家研究問題的方法,而不該教條地照搬照套。同時,要加強文獻定量研究相關(guān)軟件工具的學習,掌握先進的技術(shù),運用自己的各種專長去探索檔案學文獻定量研究,走出自己的研究之路。
盡管文獻定量研究者無須有深廣的專業(yè)背景知識[7],但這并不意味著研究者不需要專業(yè)知識,對于不熟悉的主題領(lǐng)域進行文獻研究時,仍應(yīng)學習和了解相關(guān)知識,否則難以準確地總結(jié)出該領(lǐng)域研究的特點、前沿及其演進。
4.2 學習掌握信息檢索的技術(shù)方法。信息檢索作為獲取分析數(shù)據(jù)的最常用方法,是文獻定量研究最重要的基礎(chǔ)性工作之一。信息檢索因看似簡單而往往不為研究者重視,但它卻是一項專門的技術(shù),需要通過必要的學習來掌握,絕不是有些人自以為是的那樣——和用百度等搜索引擎一樣簡單。事實上很多人并不會使用搜索引擎的一些檢索技巧和高級檢索功能。
想要提高信息檢索能力,首先要改變對信息檢索狹隘或片面的錯誤認識;其次要花些時間和精力來學習檢索的原理、方法、技術(shù)(包括布爾邏輯檢索、截詞檢索、限制檢索、位置檢索[8]等)和程序,甚至要學習和理解概念及其邏輯關(guān)系,全面掌握信息檢索技能;最后,要加深對數(shù)據(jù)庫的了解,只有知悉了擬要檢索數(shù)據(jù)庫的方方面面(如收錄范圍、檢索詞的切分規(guī)則、檢索項及其關(guān)系、檢索語法要求、有無機標關(guān)鍵詞等),勤于實踐,反復(fù)調(diào)試,檢索才能有的放矢,得心應(yīng)手。
對于某一主題領(lǐng)域文獻的檢索要從對主題領(lǐng)域蘊含的概念分析入手,找出其盡可能全的同義或相關(guān)詞,以提高查全率(甚至可以通過獲取施引文獻等來提高查全)。文獻定量研究最好采用專業(yè)檢索,這樣可很好地解決檢索詞種類多、數(shù)量多時無法利用檢索框來完成等困難。
4.3 高度重視數(shù)據(jù)處理。數(shù)據(jù)處理是文獻定量研究最重要的又一項基礎(chǔ)性工作,必須高度重視。即便檢索得到了較充足的樣本,不通過數(shù)據(jù)處理剔除無關(guān)數(shù)據(jù),規(guī)范機構(gòu)、刊名、關(guān)鍵詞,補全一些缺項,區(qū)分同名作者,也不能得到干凈和完整的樣本數(shù)據(jù)。
文獻定量研究中信息檢索結(jié)果往往不宜直接使用,一方面是因為要獲得較全面的樣本,通常會有較高的誤檢率;另一方面是數(shù)據(jù)本身還有各類問題,如數(shù)據(jù)制作加工差錯、引文不完整或不準確、機構(gòu)名稱變更或合并、檢索系統(tǒng)自動標引的關(guān)鍵詞,等等,這些都需要通過數(shù)據(jù)處理來解決。用沒有經(jīng)過處理的數(shù)據(jù)直接進行分析,結(jié)果和結(jié)論通常難以客觀真實。
文獻定量研究中的最大難點是數(shù)據(jù)處理[9],需要花費大量的時間來精心完成。張晉輝和劉清認為文獻計量分析工作中,數(shù)據(jù)清洗所占的時間占全部工作量的80%~90%[10],筆者雖未精確地計算過這個比例,但準備一篇論文在數(shù)據(jù)處理上花的時間往往要兩三個月。武夷山先生曾坦言:對于從事科學計量學研究的,如果不肯花力氣去搜集、挖掘待分析的數(shù)據(jù),那就趁早改行得了[11],檔案學文獻定量研究亦當如此。
提高計算機運用能力,借助一些軟件或自編的程序和工具,可以大大提高數(shù)據(jù)處理的質(zhì)量和效率。
4.4 勇于探索和創(chuàng)新研究分析手段。文獻定量研究可以是程式化的,盡管有些研究者對此是批評的,但筆者認為,樣本獲取、處理、計量或分析(包括可視化等)、得出結(jié)論等是文獻定量研究必不可少的環(huán)節(jié)。需要注意的是,程式化并不是說只能按既定的套路去做研究,完全可以突破和創(chuàng)新。定量研究往往是以題錄數(shù)據(jù)為基礎(chǔ)的,但可通過提取題錄中沒有的內(nèi)容或項目作為新的定量分析元素,從文獻本身去挖掘新的數(shù)據(jù),如某一領(lǐng)域的研究方法、文獻的篇幅,等等;即使是常用的計量元素,在計量時也可以增加近三年或五年的計量結(jié)果,以體現(xiàn)量的變化;運用知識圖譜工具CiteSpace時可進行兩個甚至多個節(jié)點的疊加,如可將作者和機構(gòu)呈現(xiàn)到一個圖譜中,在實現(xiàn)兩張圖譜原有作用的基礎(chǔ)上,還可呈現(xiàn)作者與機構(gòu)間的關(guān)系,等等,文獻定量研究應(yīng)鼓勵和提倡各種嘗試與實踐。
對于經(jīng)典定律,可以結(jié)合檔案學的特色來作必要的驗證研究,經(jīng)典定律本身有其時代特征,檔案學也可能有著不同于其他學科的自身特點和文獻產(chǎn)出、老化、分布等規(guī)律,通過分析研究來探尋、發(fā)現(xiàn)其中的規(guī)律,甚至修正經(jīng)典定律也是極有意義的事情。
4.5 注重定量研究的科學嚴謹??茖W嚴謹是做任何研究的基本要求,文獻定量研究更是如此。定量研究講究的是用數(shù)據(jù)和數(shù)量說話,要從數(shù)字或數(shù)字的變化及其聯(lián)系去探尋隱藏在這背后的規(guī)律、變化和趨勢。因此,準確地獲取分析研究的數(shù)據(jù)是文獻定量研究的基礎(chǔ)和關(guān)鍵,這就要求研究者不能輕易地放過任何一條相關(guān)數(shù)據(jù),也不能無視任何一條無關(guān)數(shù)據(jù)混雜其中,做到這一點需要的是耐心和細致。強調(diào)數(shù)據(jù)的重要,并不是說一定要花大量的篇幅來描述這個過程,如對數(shù)據(jù)庫、檢索過程、成熟的研究方法等大可不必作過多的介紹。
文獻定量研究過程中,要注重合理地運用圖表。圖表往往是文獻定量研究中不可或缺的組成部分,以圖表形式來揭示計量元素間的量及關(guān)系,直觀簡潔,其效果是用文字描述難以企及的,一篇文獻定量研究的論文中如果沒有圖表或僅有一兩張圖表,恐怕很難讓人從中看出量的大小、差異和變化。
此外,編輯出版機構(gòu)嚴格把關(guān)尤為重要,如能將樣本量過少、檢索漏洞明顯、不作數(shù)據(jù)處理或處理太過簡單、盲目驗證經(jīng)典定律等問題明顯的論文拒之門外,對促進檔案學文獻定量研究的健康發(fā)展將大有裨益。
5 總結(jié)與討論
由于水平和能力所限,筆者從相關(guān)論文中較易提取、統(tǒng)計和評判的幾個方面,梳理和分析了檔案學文獻定量研究部分期刊論文中出現(xiàn)的主要問題,也涉及了一些其他問題,限于篇幅,多數(shù)問題未舉例詳述;同時,結(jié)合開展文獻定量研究的一點粗淺體會和認識,提出了幾點值得商討的對策和建議,僅是一家之言,并未更深入地對計量結(jié)果和結(jié)論作出評判,分析的深度和廣度顯然是不夠的。當然,有上述問題,特別是同時存在多個問題的論文已無需評判,因為用不恰當檢索獲取的數(shù)據(jù)、沒有進行過必要清洗或處理的數(shù)據(jù)進行的定量分析,真實性和客觀性已然存在瑕疵。重要的是要從中總結(jié)經(jīng)驗和教訓(xùn),使文獻定量研究能真正做到用事實說話。
必須強調(diào)的是,文獻定量研究是一項復(fù)雜的科學勞動,既需要掌握各種相關(guān)知識,更需要踏實認真的研究態(tài)度,注重的是科學、真實和客觀,因而要求的是每一個環(huán)節(jié)都不應(yīng)出現(xiàn)明顯甚至絲毫的偏差。對于需要通過信息檢索來獲取樣本的某主題領(lǐng)域的文獻定量研究來說,如果不認真分析研究課題,就無法提煉出精準的檢索詞(含同義和相關(guān)詞),進而編制恰當?shù)臋z索式,也就不可能獲得高查全率的數(shù)據(jù);不進行數(shù)據(jù)清洗和處理,便沒有可能得到客觀、真實的定量結(jié)果的樣本。不做好這些基礎(chǔ)性的工作,由不準確的定量結(jié)果推出結(jié)論便失去了定量研究應(yīng)有的價值,計量出的結(jié)果十有八九是片面的,得出的結(jié)論也完全可能是只見樹木不見森林。
參考文獻:
[1]李財富.關(guān)于檔案學定量分析研究的反思[J].山西檔案,1997(5):11-13.
[2]王新才,文振興.檔案學研究中計量法運用的計量分析[J].檔案管理,2014(3):59-62.
[3]陳忠海,董一超.定量研究方法在檔案學研究中的應(yīng)用狀況、問題及建議——基于2004-2015年《檔案學通訊》《檔案學研究》所載文獻的統(tǒng)計分析[J].檔案學通訊,2016(2):41-47.
[4]李曉明.我國檔案學文獻定量研究的發(fā)展現(xiàn)狀與熱點分析[J].檔案管理,2017(6):45-49.
[5]李曉明.檔案學文獻定量研究的定量分析[J].北京檔案,2018(3):17-21.
[6] 王崇德.文獻計量學引論[M].桂林:廣西師范大學出版社, 1997:25-26.
[7]包昌火.情報研究方法論[M].北京:科學技術(shù)文獻出版社,1991:213.
[8]陳氫,陳梅花.信息檢索與利用[M].北京:清華大學出版社,2012:29-32.
[9]李曉明,張玲玲.基于CSSCI的國內(nèi)電子文件研究可視化分析[J].北京電子科技學院學報,2016,24(1):43-51,75.
[10]張晉輝,劉清.基于推理機的SCI地址字段數(shù)據(jù)清洗方法設(shè)計[J].情報科學,2010,28(5):741-746.
[11]武夷山.做菜與科學計量學研究[J].情報學報,2013,32(10):1.
(作者單位:北京電子科技學院 來稿日期:2019-02-20)