●王 軍
(鄭州大學(xué)信息管理學(xué)院,鄭州450001)
數(shù)字保存的差距分析
——基于對出版商的調(diào)查
●王 軍
(鄭州大學(xué)信息管理學(xué)院,鄭州450001)
數(shù)字保存;差距分析;出版商
數(shù)字保存的差距分析包括認(rèn)知差距分析和實踐差距分析。認(rèn)知差距分析指標(biāo)包括保存原因、保存重要性、保存職責(zé)、保存費(fèi)用的承擔(dān)、保存威脅。實踐差距分析指標(biāo)包括數(shù)字資源的獲取與出版、數(shù)字資源的長期保存、數(shù)字資源的用戶訪問。通過整體差距分析發(fā)現(xiàn),出版商的總體差距處于中等略偏上,認(rèn)知差距較低,實踐差距較高。通過條件差距分析發(fā)現(xiàn),大型出版商的差距值小于小型出版商;要求研究人員提交研究型數(shù)據(jù)的出版商的差距值小于不要求提交的出版商;擁有數(shù)字保存系統(tǒng)的出版商的差距值小于不擁有數(shù)字保存系統(tǒng)的出版商。基于差距分析,認(rèn)為減小差距的方法有制定數(shù)字保存的質(zhì)量保證標(biāo)準(zhǔn)、建立數(shù)字保存的經(jīng)濟(jì)評價方法、提高研究型數(shù)據(jù)的保存規(guī)模等。
數(shù)字保存的差距分析是指通過比較數(shù)字保存的當(dāng)前狀況與其標(biāo)桿(數(shù)字保存的理想狀態(tài))之間的差距,尋找產(chǎn)生差距的原因,探討縮小差距的對策。差距分析已應(yīng)用到眾多行業(yè),但在數(shù)字保存中的應(yīng)用還沒見報道。而且對數(shù)字保存的全面調(diào)查目前也鮮見報道,一個較為全面的調(diào)查是歐盟的PARSE.insight項目。[1]本文引用該項目對出版界數(shù)字保存的調(diào)查結(jié)果,運(yùn)用差距分析方法計量存在的差距,進(jìn)而分析原因,尋求解決對策。
1.1 差距分析的指標(biāo)設(shè)置
1.1.1 認(rèn)知差距的指標(biāo)
出版商對數(shù)字保存的認(rèn)知是指該類機(jī)構(gòu)對數(shù)字保存基本問題的看法。表1列出了認(rèn)知指標(biāo)及其在PARSE.Ⅰnsight對出版商的調(diào)查問卷中對應(yīng)的調(diào)查問題。[2]為了方便敘述,表1和表2所列出的調(diào)查問題是從調(diào)查問卷中抽出后進(jìn)行重新編號,與原始調(diào)查問卷中的編號有所差異。
表1 認(rèn)知差距指標(biāo)及其對應(yīng)的調(diào)查問題
1.1.2 實踐差距的指標(biāo)
出版商對數(shù)字保存的實踐是指該類機(jī)構(gòu)對數(shù)字保存領(lǐng)域中相關(guān)問題的解決方法。這些問題主要有數(shù)字資源的獲取與出版、數(shù)字資源的長期保存、數(shù)字資源的用戶訪問等。
表2 實踐差距指標(biāo)設(shè)置及其對應(yīng)的調(diào)查問題
1.2 差距分析指標(biāo)的賦值
1.2.1 調(diào)查結(jié)果的差距量化處理
根據(jù)答案的類型,表1和表2中的調(diào)查問題可分為四類(見表3),量化賦值方式也對應(yīng)設(shè)計為四種。
表3 調(diào)查問題的答案類型與差距量化值
1.2.2 調(diào)查問題的差距值賦值
(1)簡單單選型問題。針對單份答卷中該類問題的差距值賦值見表3中的“玉”。如(Q11)是否擁有自己的在線數(shù)字化學(xué)術(shù)出版平臺?選擇“是”的答卷,該問題的差距值為0;選擇“否”或不選的答卷,該問題的差距值為1。
針對所有答卷的該類問題的差距值賦值,算法為:(a×0+b×1+c×1)÷n,其中a、b、c分別為選擇肯定答案、選擇否定答案和不選的出版商數(shù)量,n為收回的有效答卷數(shù)量(本案例中為193)。例如,如果問題(Q11)的調(diào)查結(jié)果為:“是”(110,該數(shù)字表示選擇該答案的出版商數(shù)量,下同)、“否”(65)、不選(18),該問題的差距值=(110×0+65×1+18×1)÷ 193=0.43,表明該問題的差距為中等稍偏下。
(2)反向多重單選型問題。這里的“反向”意指差距值從大到小,與下面的(3)多重單選型問題正好相反。
針對單份答卷中該類問題的差距值賦值算法為:(a×1+b×0.75+c×0.25+d×0+e×0)÷t,其中a、b、c、d、e分別為選擇“非常嚴(yán)重”、“嚴(yán)重”、“比較嚴(yán)重”、“不嚴(yán)重”、“無影響(或不選)”的選項被選中的數(shù)量,t為多重選項的數(shù)量。如(Q9)請對下述列出的目前及未來10年中數(shù)字保存面臨威脅程度給出判斷。多重單選答案見表4,其中保存威脅為多選,但每種保存威脅后面的5個威脅程度選項為單選。如果某個出版商的答案為表4中的“∨”符號所示,該差距量化值=(2×1+2×0.75+2×0.25+1× 0+1×0)÷7=0.57,含義為差距中等稍偏上。
表4 “請對下述列出的目前及未來10年中數(shù)字保存面臨威脅程度給出判斷”的問題調(diào)查問卷(N=193)
(3)多重單選型問題。針對單份答卷中該類問題的差距值賦值和所有答卷的該類問題的差距值賦值,除了對應(yīng)答案選項的差距量化值不同外,其他計算方法與第Ⅱ種類型(反向多重單選型)完全一致,不再贅述。
(4)簡單多選型問題。針對單份答卷中該類問題的差距值賦值算法為:1-(選中的選項數(shù)量÷總選項數(shù)量)。如(Q15)接收的研究型數(shù)據(jù)的類型有哪些?多選的答案有:辦公文檔、圖像、純文本、多媒體數(shù)據(jù)、科學(xué)和統(tǒng)計格式數(shù)據(jù)、數(shù)據(jù)庫、結(jié)構(gòu)化文本、源代碼、軟件應(yīng)用數(shù)據(jù)、配置數(shù)據(jù)等10種。如果選擇了8種,那么,差距量化值=1-(8/10)=0.2,含義為差距較小。
針對所有答卷的該類問題的差距值賦值算法為:(n-k÷m)÷n,其中,n為有效的問卷總數(shù),k為所有被選中的選項之和,m為選項個數(shù)。如果問題(Q15)的調(diào)查結(jié)果為:對應(yīng)選項的被選中次數(shù)依次為103、78、58、68、77、38、91、41、91、23,根據(jù)算法計算出的差距值為0.65,該問題的差距為較大。
1.2.3 各級指標(biāo)的差距值賦值
各級指標(biāo)的差距值賦值等于其所包含的所有下級指標(biāo)(或調(diào)查問題)的差距值的算數(shù)平均值。
1.3 差距分析的實施
差距分析的實施包括總體差距分析和條件差距分析??傮w差距分析是指基于上述差距指標(biāo)的賦值,計算出所有指標(biāo)的差距值,據(jù)此對出版商數(shù)字保存的現(xiàn)狀進(jìn)行整體評估。條件差距分析是指設(shè)置有意義的篩選條件對調(diào)查結(jié)果的樣本進(jìn)行篩選,對篩選出的樣本進(jìn)行差距值計算。如調(diào)查問題“出版商的類型”作為篩選條件,分別篩選出大型出版商(出版期刊大于50種)和小型出版商(出版期刊不大于50種)兩組問卷,計算和比較分析這兩組的差距值,討論篩選條件對差距的影響。
2.1 調(diào)查簡介
針對出版商的PARSE.insight項目調(diào)查對象選擇來自目前兩個最主要的學(xué)術(shù)出版商名錄:STM出版商協(xié)會[3]和DOAJ。[4]調(diào)查采用網(wǎng)絡(luò)問卷和重點(diǎn)訪談的方式,共收到來自193家出版商的有效答卷。其中,STM出版商有67家,DOAJ出版商有126家。參考文獻(xiàn)[2]和參考文獻(xiàn)[5]分別列出了調(diào)查問卷的格式和調(diào)查結(jié)果。[5]
基于作者設(shè)計的程序,調(diào)查問題以及各級指標(biāo)的差距值的計量結(jié)果見表5、表6。
2.2 整體差距分析
不設(shè)置任何篩選條件的整體差距分析結(jié)果見表5。雖然出版商是數(shù)字資源的主要出版者和保存者,但從總體差距分析的結(jié)果(總體差距值0.52)來看,數(shù)字保存還有很長的路要走。從一級指標(biāo)來看,認(rèn)知差距(0.41)要遠(yuǎn)小于實踐差距(0.62)。這種情況與整個社會對數(shù)字資源長期保存的認(rèn)識基本一致,且對這項活動的重要價值都給予充分肯定,但具體到操作層面,需要解決保存技術(shù)、保存資金等問題,而這些問題的解決需要一個漫長的過程。
2.2.1 認(rèn)知差距分析
從二級指標(biāo)來看,出版商對數(shù)字保存的不同領(lǐng)域的認(rèn)識差別很大。在保存原因和保存重要性方面高度一致(差距值僅為0.04、0.16),在保存職責(zé)和保存費(fèi)用承擔(dān)方面差距較大(差距值分別為0.53、0.51),在保存威脅方面差距巨大(差距值為0.80)。
表5 整體差距分析結(jié)果
從保存實施者角度看,目前的數(shù)字保存項目有兩類:基于市場機(jī)制運(yùn)營(如Elsevier保存系統(tǒng))和基于公益性機(jī)制運(yùn)營(如美國國會圖書館的AM保存系統(tǒng))。前者屬于市場經(jīng)濟(jì)產(chǎn)品,保存費(fèi)用由企業(yè)承擔(dān),以經(jīng)濟(jì)效益為主要目的;后者屬于公共經(jīng)濟(jì)產(chǎn)品,保存費(fèi)用大都來自公共財政,以社會效益為主要目的。兩類保存項目存在很大差異,業(yè)界應(yīng)該探討不同類型的數(shù)字資源對不同類型保存項目的適宜性,如事關(guān)社會發(fā)展人類進(jìn)步的數(shù)字資源應(yīng)該以后者保存為主,而娛樂型數(shù)字資源應(yīng)該以前者保存為主,只有這樣,才有助于縮小數(shù)字保存的認(rèn)知差距。
從三級指標(biāo)來看,出版界對出版物的保存認(rèn)知差距要小于對研究型數(shù)據(jù)的保存認(rèn)知差距。目前的保存系統(tǒng)大多主要保存正式出版物(期刊論文、專著等),但對研究人員在科學(xué)研究過程中產(chǎn)生的數(shù)據(jù)保存甚少,對保存理論的研究也集中在正式出版物上,對研究型數(shù)據(jù)的探討也很少。隨著數(shù)字保存的進(jìn)展,可以期待對研究型數(shù)據(jù)的保存將逐步提升和完善。
2.2.2 實踐差距分析
從二級指標(biāo)來看,出版商對數(shù)字保存不同領(lǐng)域的實踐差別也很大。在用戶訪問方面差距較小(差距值0.38),但在數(shù)字資源的獲取出版和長期保存方面差距很大(差距值分別為0.76、0.71)。這可能說明以下兩個問題。
(1)出版商非常重視數(shù)字保存的最后一個環(huán)節(jié)——用戶服務(wù)。因為出版商構(gòu)建的保存系統(tǒng)一般為商業(yè)性的,營利是主要目的,用戶服務(wù)是影響營利的一個最主要因素。
(2)出版商對數(shù)字保存的前兩個環(huán)節(jié)(數(shù)字資源的獲取出版、數(shù)字資源的保存)實踐欠佳。這個問題可以通過對調(diào)查對象的考察來解釋。調(diào)查對象有STM和DOAJ,前者一般是大型出版商,都進(jìn)行同行評審,出版期刊占本次調(diào)查全部期刊97%,占全球同行評審期刊35%(據(jù)統(tǒng)計,目前同行評審期刊約25400種[6]),一般有自己建立的保存系統(tǒng);而后者一般都是小型出版商,一般委托第三方保存系統(tǒng)進(jìn)行保存。雖然STM出版商在數(shù)字保存實踐方面的保存差距也不大,但DOAJ出版商的保存差距非常大,并且在數(shù)量上占大多數(shù)。
2.3 條件差距分析
本文僅選取三個篩選條件進(jìn)行分類差距分析(見表6),以期從不同的角度對出版商數(shù)字保存認(rèn)知與實踐進(jìn)行剖析。
2.3.1 篩選條件一:出版商的規(guī)模
表6中“篩選條件1”中的數(shù)據(jù)為該篩選條件產(chǎn)生的差距值。
整體上講,大型出版商的差距值都要比小型出版商小,原因還是與前者大都建設(shè)有保存系統(tǒng)而后者則幾乎沒有有關(guān)。所以,大型出版商一般都具有較豐富的保存經(jīng)歷和較高的保存意識。但有一點(diǎn)不同,即無論是二級指標(biāo)的“保存原因”、“保存重要性”、“保存威脅”,還是它們各自包括的三級指標(biāo),其差距值都沒有大的變化。這表明,無論出版的期刊種數(shù)多少,也不管保存的形式如何,出版商對上述幾個方面的認(rèn)知程度基本一致。
2.3.2 篩選條件二:研究型數(shù)據(jù)的提交
表6中“篩選條件2”中的數(shù)據(jù)為該篩選條件產(chǎn)生的差距值。整體上講,要求研究人員提交研究型數(shù)據(jù)的出版商的差距值都要比不要求研究人員提交研究型數(shù)據(jù)的出版商小。
三級指標(biāo)方面,對于沒有涉及研究型數(shù)據(jù)的指標(biāo),兩種類型的出版商的差距值相差不大,但對于涉及研究型數(shù)據(jù)的指標(biāo),兩種類型的出版商的差距值相差非常大。這說明,不要求研究人員提交研究型數(shù)據(jù)的出版商在對研究型數(shù)據(jù)的認(rèn)識與操作方面缺乏相關(guān)知識與技能。
2.3.3 篩選條件三:是否擁有數(shù)字保存系統(tǒng)
表6中“篩選條件3”中的數(shù)據(jù)為該篩選條件產(chǎn)生的差距值。從表6可知,肯定回答的差距值幾乎都要小于否定回答的差距值。這也充分說明了數(shù)字保存是一項需要長期實踐操作的項目,在實踐中不斷提高認(rèn)識,不斷解決遇到的問題,不斷積累保存經(jīng)驗,不斷提高保存水平。
表6 條件差距分析表
本文依據(jù)PARSE.insight對出版商的調(diào)查結(jié)果,對數(shù)字保存進(jìn)行了差距分析,但這種分析也存在局限性,具體表現(xiàn)為:一是差距分析指標(biāo)是基于PARSE. insight項目對出版商的調(diào)查問卷,而該調(diào)查問卷純粹是為了調(diào)查目的,并沒有考慮差距分析的需要,所以該差距分析指標(biāo)及其相對應(yīng)的調(diào)查問題有待進(jìn)一步完善;二是調(diào)查結(jié)果的差距量化處理可能存在一些缺陷,如反向多重單選型問題和多重單選型問題的中間差距值量化方法都缺乏嚴(yán)謹(jǐn)?shù)恼撟C,因此表3中的一些差距量化處理方式需要進(jìn)一步研究;三是各級指標(biāo)的差距值計量模型完全基于下級指標(biāo)(或調(diào)查問題)差距值的算數(shù)平均值,沒有考慮加權(quán),這種做法是否合適,也有待于進(jìn)一步探討。
[1]PARSE.Ⅰnsight[EB/OL].[2013-08-28].http: //www.parse-insight.eu/.
[2]PARSE.Ⅰnsight,Survey Questions Publishing[EB/ OL].[2013-06-05].http://www.parse-insight.eu/ downloads/PARSE-insight_survey_questions_publishing. pdf.
[3]STM.Ⅰnternational Association of Scientific,Technological and Medical Publishers[EB/OL].[2013-06-01].http://www.stm-assoc.org/.
[4]DOAJ.Directory of Open Access Journals[EB/OL].[2013-06-09].http://www.doaj.org/.
[5]PARSE.Ⅰnsight,Survey Results[EB/OL].[2013-06-11].http://www.swivel.com/people/1015959-PARSE -insight/group_assets/public.
[6]Tenopir C.Renowned Scholar on Scholarly Publishing[EB/OL].[2013-09-01].http://www.stm-assoc. org/about.php.
G255.76
A
1005-8214(2014)12-0009-05
王軍(1966-),女,河南商丘人,館員,研究方向:數(shù)字保存,發(fā)表論文20多篇。
2013-12-24[責(zé)任編輯]閻秋娟
本文系國家自然科學(xué)基金項目“數(shù)字保存經(jīng)濟(jì)要素與經(jīng)濟(jì)評價研究”(項目編號:71173197)研究成果之一。