張曉慧
摘? 要:《圖書館論壇》2014年第九期的“公益性數(shù)字保存的經(jīng)濟價值”一文,以ESDS為例,收集了大量調(diào)查資料,進行了理論探索,尤以“權(quán)值系數(shù)”進行成本分析為重。資料采錄是基礎(chǔ),數(shù)據(jù)分析是支柱;概念不能含糊,原理必須清晰?;谶@樣的認識,該文著重從資料采錄、數(shù)據(jù)分析兩個方面,試圖探究、考量其價值,以期推動討論深入持續(xù)。
關(guān)鍵詞:數(shù)字保存? 資料采錄? 數(shù)據(jù)分析? 成本? 價值
中圖分類號:G250.253? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1672-3791(2019)03(a)-0240-02
Abstract: The 9th " Library Tribune " in 2014" The economic value of public welfare nature of the digital preservation " one article, taking ESDS as an example, collecting a large number of survey data, designing the four forms of digital preservation of economic value; exploring the theory, especially the "weights" cost analysis for heavy. Data acquisition is the foundation, data analysis is the pillar; concept can not be vague, the principle must be clear. Based on this understanding, this paper focuses on the two aspects of data acquisition and data collection, trying to explore concerns the value of this paper, in order to in-depth discussion can continue.
Key Words: Digital preservation; Data acquisition; Data analysis; Cost; Value
“公益性數(shù)字保存的經(jīng)濟價值”一文(作者:臧國全、李哲。以下簡稱“價值”,發(fā)表于2014年第九期的《圖書館論壇》),以ESDS(Economic and Social Data Service)為例,設(shè)計了數(shù)字保存經(jīng)濟價值的4種表現(xiàn)形式,包括保存價值、用戶收益與凈經(jīng)濟價值、效率影響、保存特藏收益等,尤以“權(quán)值系數(shù)”進行成本分析為重。該文是國家自然科學基金項目“數(shù)字保存經(jīng)濟要素與經(jīng)濟評價研究”(項目編號:71173197)的研究成果之一,筆者在此從資料采錄、數(shù)據(jù)分析兩個方面,著重探究、考量其關(guān)于“成本”分析的價值。
1? 關(guān)于調(diào)查資料的價值
“價值”一文涉及資料龐雜,全部取自2012年ESDS。作為英國經(jīng)濟和社會科學數(shù)據(jù)的分布式數(shù)字保存服務(wù)項目,ESDS是該領(lǐng)域科學研究、教學和學習的重要數(shù)據(jù)庫,其數(shù)字資源分為5個類型,為所有用戶提供完全免費的訪問服務(wù)。作者首先以非抽樣調(diào)查,得到了統(tǒng)計表,內(nèi)含當年有效用戶數(shù)量及訪問數(shù)字資源的總次數(shù)V、數(shù)字資源提交總次數(shù)U,以及訪問與提交次數(shù)在各類型資源的分布狀況,并掌握了有效用戶數(shù)量M,明確了用戶年均訪問次數(shù)L=V/M。這些基礎(chǔ)工作是必要的,也是清晰的(見表1)。
與此同時,原文還就平均值的獲得進行了一系列搜集整理工作。一是以訪問需收費為假設(shè),就用戶的“支付意愿”(即用戶為獲得訪問服務(wù)而愿意支付的金額)進行了調(diào)查,結(jié)果顯示每戶的年平均支付意愿為B=962,而每次的平均支付意愿為b=48.5;二是以訪問不再向新用戶開放為假設(shè),就原用戶的“接受意愿”(即轉(zhuǎn)讓訪問權(quán)時愿意接受的價格)進行了調(diào)查,結(jié)果顯示每戶的年平均接受意愿為A=1,576;三是調(diào)查每次數(shù)字“資源提交的平均耗時”,以“最近一次提交耗時”T=185h來代替;四是用戶每次數(shù)字“資源訪問的平均耗時”,以ESDS用戶“最近一次訪問耗時”t=0.41h來代替。關(guān)于支付意愿、接受意愿的平均值,是怎么考慮的?有無加權(quán)分析,是否合理?都不得而知。至于提交、訪問耗時的平均值,以最近一次的情形代替總體的平均水平,其合理性、背景是什么?這些平均值,是基于全面調(diào)查還是抽樣調(diào)查或者其他調(diào)查,其數(shù)據(jù)價值如何?是非常需要斟酌的,因為事關(guān)成本分析的成敗。
“價值”一文存在數(shù)據(jù)混亂引用隨意的現(xiàn)象。例如,關(guān)于2012年有效用戶數(shù)量M,原文在“效率影響”等分析中,均以M=23000人為有效用戶數(shù)量,并據(jù)此分析給出了一系列計算結(jié)果;然而在“支付意愿”“接受意愿”等分析中,原文卻又采用了M=32000人這個數(shù)據(jù),進而在隨后的分析中都以這個數(shù)字為依據(jù)。以這樣隨意的討論結(jié)果,與“實際擬合”不嚴肅。
“價值”一文給出了樣本容量為N1=894的“用戶訪問抽樣調(diào)查”,并配合各類型分布情況表(見表2)有說明:依數(shù)字資源5個類型的劃分,表的左邊“類型1”之列,表明選擇類型1資源的用戶,分僅僅單獨選擇類型1的、同時選擇類型2的、同時選擇類型3的、同時選擇類型4的、同時選擇類型5的等5種情形,其用戶數(shù)依次為422、79、206、65、80個,選擇類型1的用戶合計為852個;其余各列類推。然而依此表述,僅僅訪問5個類型中一個類型的用戶(見表中斜線),其累加就達422+208+404++167+209,遠大于樣本容量N1即894。原文關(guān)于樣本容量為N2=193的“數(shù)字資源提交抽樣調(diào)查”,也存在著類似問題。這兩個抽樣調(diào)查,其價值大打折扣。但愿這只不過是我們理解有問題。