屈亞杰,王亞男
(1. 北京師范大學(xué)政府管理學(xué)院,北京 100875;2. 中央財(cái)經(jīng)大學(xué)馬克思主義學(xué)院,北京 100081)
社會(huì)科學(xué)領(lǐng)域科學(xué)數(shù)據(jù)的引用現(xiàn)狀與特點(diǎn)分析*
屈亞杰1,王亞男2
(1. 北京師范大學(xué)政府管理學(xué)院,北京 100875;2. 中央財(cái)經(jīng)大學(xué)馬克思主義學(xué)院,北京 100081)
從被引科學(xué)數(shù)據(jù)內(nèi)容的視角分析社會(huì)科學(xué)領(lǐng)域科學(xué)數(shù)據(jù)的引用現(xiàn)狀與特點(diǎn)。通過(guò)抽樣調(diào)查法獲取研究樣本,統(tǒng)計(jì)樣本被引社會(huì)科學(xué)數(shù)據(jù)在創(chuàng)建者、類(lèi)型、被引次數(shù)、訪(fǎng)問(wèn)方式、更新次數(shù)、規(guī)模及時(shí)間跨度等方面的概況。結(jié)果發(fā)現(xiàn),被引社會(huì)科學(xué)數(shù)據(jù)的創(chuàng)建者多是政府機(jī)構(gòu)和研究機(jī)構(gòu);被引社會(huì)科學(xué)數(shù)據(jù)的類(lèi)型雖多樣化,但調(diào)查類(lèi)數(shù)據(jù)居于主導(dǎo),被引用次數(shù)最多;公眾訪(fǎng)問(wèn)和僅ICPSR用戶(hù)訪(fǎng)問(wèn)的樣本數(shù)據(jù)集的數(shù)量相當(dāng);大部分被引社會(huì)科學(xué)數(shù)據(jù)的時(shí)間跨度短、規(guī)模小、更新次數(shù)少。
社會(huì)科學(xué);科學(xué)數(shù)據(jù);引用
社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)涉及范圍廣泛,多與社會(huì)發(fā)展、民生國(guó)計(jì)密切相關(guān)。20世紀(jì)80年代,White指出社會(huì)科學(xué)學(xué)者應(yīng)該像引用文獻(xiàn)一樣以規(guī)范化的格式列出其使用數(shù)據(jù)[3]。國(guó)外許多致力于共享科學(xué)數(shù)據(jù)的組織和機(jī)構(gòu)廣泛關(guān)注和推動(dòng)科學(xué)數(shù)據(jù)引用的發(fā)展。如2015年8月—2016年12月,國(guó)際科技數(shù)據(jù)委員會(huì)數(shù)據(jù)引用與實(shí)踐任務(wù)組在俄羅斯、澳大利亞、芬蘭、以色列、印度、中國(guó)、日本等召開(kāi)國(guó)際數(shù)據(jù)引用系列研討會(huì),致力于促進(jìn)數(shù)據(jù)引用聯(lián)合聲明和數(shù)據(jù)引用政策在全球范圍內(nèi)的應(yīng)用[4]。鑒于統(tǒng)計(jì)工作量和數(shù)據(jù)庫(kù)內(nèi)容全面性等因素,本文以美國(guó)校際社會(huì)科學(xué)數(shù)據(jù)共享聯(lián)盟存儲(chǔ)庫(kù)為例,選取ICPSR Bibliography of Data-Related Literature數(shù)據(jù)施引文獻(xiàn)庫(kù)的208條社會(huì)科學(xué)數(shù)據(jù)為研究對(duì)象,從創(chuàng)建者、類(lèi)型、引用次數(shù)、訪(fǎng)問(wèn)方式、更新次數(shù)、規(guī)模及時(shí)間跨度等維度展開(kāi)分析,以了解社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)被引現(xiàn)狀與特點(diǎn),為數(shù)據(jù)引用實(shí)踐的進(jìn)一步發(fā)展提供借鑒。
通過(guò)文獻(xiàn)調(diào)研發(fā)現(xiàn),目前直接研究社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)引用的論文較少,且均采用實(shí)證研究的方式;而更多研究是從寬泛的科學(xué)數(shù)據(jù)引用角度展開(kāi),尤其表現(xiàn)在理論研究方面。
理論方面的研究呈現(xiàn)現(xiàn)狀綜述與問(wèn)題探討相結(jié)合的特點(diǎn)。侯經(jīng)川等歸納國(guó)際眾多致力于數(shù)據(jù)引證相關(guān)研究成果,對(duì)國(guó)際研究現(xiàn)狀進(jìn)行梳理,并提出亟待解決的三個(gè)問(wèn)題:數(shù)據(jù)引證現(xiàn)狀評(píng)估與研究進(jìn)展追蹤,數(shù)據(jù)引證索引編纂、指標(biāo)體系研究及數(shù)據(jù)引證數(shù)據(jù)庫(kù)建立,基于數(shù)據(jù)引證行為、記錄及索引分析[5]。屈寶強(qiáng)等從科學(xué)數(shù)據(jù)引用實(shí)踐、各利益相關(guān)者態(tài)度、科學(xué)數(shù)據(jù)引用格式、基于引用的數(shù)據(jù)發(fā)現(xiàn)與評(píng)價(jià)等維度對(duì)數(shù)據(jù)引用現(xiàn)狀進(jìn)行分析,并指出科學(xué)數(shù)據(jù)引用雖已引起學(xué)術(shù)界重視,但仍存在缺乏對(duì)數(shù)據(jù)引用的氛圍和意識(shí)、沒(méi)有通用的數(shù)據(jù)引用格式和位置指南等問(wèn)題[6]。而張靜蓓等在總結(jié)數(shù)據(jù)引用所面臨關(guān)鍵問(wèn)題的基礎(chǔ)上,從數(shù)據(jù)引用規(guī)范發(fā)展、文獻(xiàn)管理軟件調(diào)研、數(shù)據(jù)引用利益相關(guān)的責(zé)任與義務(wù)三方面概括目前國(guó)外數(shù)據(jù)引用的研究進(jìn)展,并指出數(shù)據(jù)共享和引用意識(shí)缺乏、引用對(duì)象不明確及數(shù)據(jù)如何長(zhǎng)期保存是數(shù)據(jù)引用面臨的三大難題[7]。
對(duì)于社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)引用的論文一般選擇期刊作為樣本,涉及學(xué)科包括圖書(shū)情報(bào)學(xué)、社會(huì)學(xué)、人口學(xué)等。Sieber等對(duì)心理學(xué)、社會(huì)學(xué)及人類(lèi)學(xué)等學(xué)科的1 000篇論文內(nèi)容進(jìn)行分析后,發(fā)現(xiàn)很多作者沒(méi)有對(duì)數(shù)據(jù)引用的原始數(shù)據(jù)作者和數(shù)據(jù)來(lái)源出處進(jìn)行說(shuō)明,只有19%的作者在參考文獻(xiàn)提到引用的數(shù)據(jù)[8]。丁楠等分別對(duì)我國(guó)圖書(shū)情報(bào)領(lǐng)域(2003—2013年)和社會(huì)學(xué)領(lǐng)域(2003—2014年)代表性期刊的數(shù)據(jù)引用行為進(jìn)行調(diào)查分析,發(fā)現(xiàn)規(guī)范引用比例雖總體呈現(xiàn)逐漸升高的狀態(tài),但非規(guī)范引用比例仍不容小覷[9-10]。Mooney等通過(guò)Wilson Web數(shù)據(jù)庫(kù)檢索含有關(guān)于數(shù)據(jù)或數(shù)據(jù)集的存儲(chǔ)、檢索、利用、分析等相關(guān)詞匯的論文,并按人文科學(xué)、社會(huì)科學(xué)和自然科學(xué)對(duì)檢索結(jié)果隨機(jī)抽樣,選取分屬于44種期刊的65篇論文作為研究樣本[11]。研究發(fā)現(xiàn),約有一半期刊刊發(fā)過(guò)數(shù)據(jù)引用方面的聲明及格式要求,但論文中很少有對(duì)其引用數(shù)據(jù)進(jìn)行注釋。
以上研究主要關(guān)注引用行為本身,即論文對(duì)所使用科學(xué)數(shù)據(jù)的標(biāo)引狀況,而較少涉及被引科學(xué)數(shù)據(jù)內(nèi)容。因而本文從被引科學(xué)數(shù)據(jù)內(nèi)容的視角展開(kāi)研究,通過(guò)分析其在不同維度的統(tǒng)計(jì)數(shù)據(jù),總結(jié)社會(huì)科學(xué)領(lǐng)域科學(xué)數(shù)據(jù)的引用現(xiàn)狀與特點(diǎn)。
美國(guó)校際社會(huì)科學(xué)數(shù)據(jù)共享聯(lián)盟存儲(chǔ)庫(kù)(Interuniversity Consortium for Political and Social Research,ICPSR)由美國(guó)密歇根高校社會(huì)研究中心于1962年建立,是國(guó)際重要的學(xué)術(shù)研究數(shù)據(jù)資源庫(kù)之一。其創(chuàng)立目的是收集與保存社會(huì)科學(xué)研究數(shù)據(jù)資源,提供公開(kāi)并公平的使用渠道,以提升數(shù)據(jù)資源的利用率[12];主要任務(wù)是維護(hù)并提供研究、教學(xué)所需的社會(huì)科學(xué)數(shù)據(jù)資料檔案并提供訓(xùn)練與協(xié)助,使研究者在量化研究中能有效運(yùn)用資料。ICPSR現(xiàn)維護(hù)50余萬(wàn)條社會(huì)科學(xué)和行為科學(xué)研究數(shù)據(jù)檔案,9 000多個(gè)數(shù)據(jù)集,包括教育、老齡化、刑事司法、藥物濫用、恐怖主義等21個(gè)專(zhuān)業(yè)數(shù)據(jù)集,是目前世界上最大的社會(huì)科學(xué)數(shù)據(jù)中心。而ICPSR Bibliography of Data-Related Literature是一個(gè)可搜索的數(shù)據(jù)施引文獻(xiàn)庫(kù),收集與ICPSR存儲(chǔ)和發(fā)布的數(shù)據(jù)資料集相關(guān)的引用文獻(xiàn)資料,截至2016年該數(shù)據(jù)庫(kù)已收錄超過(guò)7萬(wàn)篇引用科學(xué)數(shù)據(jù)的論文,涉及6 752條科學(xué)數(shù)據(jù)。
本文以ICPSR Bibliography of Data-Related Literature數(shù)據(jù)庫(kù)為例,對(duì)其收錄論文所引用的社會(huì)科學(xué)數(shù)據(jù)進(jìn)行抽樣研究,分析樣本被引社會(huì)科學(xué)數(shù)據(jù)在創(chuàng)建者、類(lèi)型、被引次數(shù)、訪(fǎng)問(wèn)方式、更新次數(shù)、規(guī)模及時(shí)間跨度等方面的分布情況。首先,將ICPSR Bibliography of Data-Related Literature數(shù)據(jù)庫(kù)收錄的6 752條數(shù)據(jù)集按照首字母A—Z進(jìn)行排序,按結(jié)果顯示的順序每30條數(shù)據(jù)集歸為一組,共分成225個(gè)組;其次,采取等距抽樣方法,每組選取第30條數(shù)據(jù)集作為樣本,獲得初步樣本225個(gè);最后,依據(jù)元數(shù)據(jù)項(xiàng)的完備程度(包括數(shù)據(jù)集的創(chuàng)建者、類(lèi)型、引用次數(shù)、訪(fǎng)問(wèn)方式、更新次數(shù)、規(guī)模及時(shí)間跨度)對(duì)樣本進(jìn)一步篩選,獲得樣本數(shù)據(jù)集208個(gè)。由于ICPSR存儲(chǔ)庫(kù)是世界最大的社會(huì)科學(xué)數(shù)據(jù)中心,樣本數(shù)據(jù)采用科學(xué)的抽樣方法獲得,因而具有一定代表性。
以ICPSR為例,從科學(xué)數(shù)據(jù)內(nèi)容的視角分析社會(huì)科學(xué)數(shù)據(jù)的引用現(xiàn)狀。分析維度包括被引社會(huì)科學(xué)數(shù)據(jù)的創(chuàng)建者、類(lèi)型、引用次數(shù)、訪(fǎng)問(wèn)方式、更新次數(shù)、規(guī)模及時(shí)間跨度等。
4.1 被引社會(huì)科學(xué)數(shù)據(jù)創(chuàng)建者
社會(huì)科學(xué)數(shù)據(jù)創(chuàng)建者,指對(duì)社會(huì)科學(xué)研究作出主要貢獻(xiàn),并能授權(quán)數(shù)據(jù)存儲(chǔ)庫(kù)保存和發(fā)布研究所產(chǎn)出科學(xué)數(shù)據(jù)的科研人員或機(jī)構(gòu)。因而,從宏觀(guān)層面看,社會(huì)科學(xué)數(shù)據(jù)的創(chuàng)建者分為個(gè)人創(chuàng)建者和機(jī)構(gòu)創(chuàng)建者。其中,個(gè)人創(chuàng)建者主要是科研人員,而機(jī)構(gòu)創(chuàng)建者包括政府機(jī)構(gòu)、研究機(jī)構(gòu)(高校和研究所)、企業(yè)、協(xié)會(huì)和基金會(huì)等。被引社會(huì)科學(xué)數(shù)據(jù)的個(gè)人創(chuàng)建者和機(jī)構(gòu)創(chuàng)建者數(shù)量統(tǒng)計(jì)情況如表1所示。
表1 被引社會(huì)科學(xué)數(shù)據(jù)的不同創(chuàng)建者數(shù)量統(tǒng)計(jì)
通過(guò)對(duì)208個(gè)樣本數(shù)據(jù)集的創(chuàng)建者分析,發(fā)現(xiàn)33個(gè)被引社會(huì)科學(xué)數(shù)據(jù)集來(lái)源于個(gè)人創(chuàng)建者(占比16%),有175個(gè)被引社會(huì)科學(xué)數(shù)據(jù)集來(lái)源于機(jī)構(gòu)創(chuàng)建者(占比84%)。機(jī)構(gòu)創(chuàng)建者可分為政府機(jī)構(gòu)、研究機(jī)構(gòu)、企業(yè)、協(xié)會(huì)和基金會(huì)四類(lèi),其中政府機(jī)構(gòu)創(chuàng)建者有98個(gè)(占比56%),是被引用科學(xué)數(shù)據(jù)的主要產(chǎn)出機(jī)構(gòu),包括美國(guó)人口普查局、美國(guó)司法統(tǒng)計(jì)局、聯(lián)邦司法中心、美國(guó)國(guó)家教育統(tǒng)計(jì)中心、美國(guó)勞工統(tǒng)計(jì)局、美國(guó)國(guó)家衛(wèi)生統(tǒng)計(jì)中心、美國(guó)社會(huì)保障局、歐盟委員會(huì)等。政府機(jī)構(gòu)所創(chuàng)建的數(shù)據(jù)多與經(jīng)濟(jì)發(fā)展、民生需求密切相關(guān),開(kāi)放程度較高,因而很容易被科研人員引用。例如,American Housing Survey,1995:MSA Core and Supplement File涉及9個(gè)大都市統(tǒng)計(jì)區(qū)域的住房信息(包括建造年份、住房類(lèi)型和人數(shù)、商業(yè)或醫(yī)療機(jī)構(gòu)設(shè)施的完善度等),該數(shù)據(jù)的創(chuàng)建者是美國(guó)人口普查局[13]。研究機(jī)構(gòu)包括高校和研究所,該類(lèi)機(jī)構(gòu)創(chuàng)建者有56個(gè)數(shù)據(jù)集(占比32%),是科學(xué)數(shù)據(jù)的重要?jiǎng)?chuàng)建者和擁有者,包括密歇根大學(xué)、威斯康星大學(xué)、約翰霍普金斯大學(xué)、加州大學(xué)伯克利分校、弗吉尼亞聯(lián)邦大學(xué)、埃塞克斯大學(xué)、美國(guó)城市研究所、維拉司法研究所等。例如,Health Reform Monitoring Survey,F(xiàn)irst Quarter 2015是美國(guó)2015年第一季度衛(wèi)生改革監(jiān)測(cè)的社會(huì)科學(xué)數(shù)據(jù),調(diào)查內(nèi)容包括健康狀況自我報(bào)告、獲得醫(yī)療保險(xiǎn)和支付醫(yī)療費(fèi)用的困難、健康保險(xiǎn)類(lèi)型以及沒(méi)有健康保險(xiǎn)的原因等,數(shù)據(jù)創(chuàng)建者是美國(guó)城市研究所[14]。企業(yè)、協(xié)會(huì)和基金會(huì)雖然也是科學(xué)數(shù)據(jù)的創(chuàng)建者,但由于企業(yè)的營(yíng)利性、協(xié)會(huì)和基金會(huì)很少直接開(kāi)展研究等因素的限制,這兩類(lèi)機(jī)構(gòu)創(chuàng)建者所產(chǎn)出的科學(xué)數(shù)據(jù)很少被其他研究者引用。
4.2 被引社會(huì)科學(xué)數(shù)據(jù)類(lèi)型
對(duì)208個(gè)樣本數(shù)據(jù)集的類(lèi)型進(jìn)行調(diào)查,發(fā)現(xiàn)ICPSR將被引的社會(huì)科學(xué)數(shù)據(jù)主要分為調(diào)查數(shù)據(jù)、行政記錄數(shù)據(jù)、事務(wù)數(shù)據(jù)、綜合性數(shù)據(jù)、普查數(shù)據(jù)和其他數(shù)據(jù)(觀(guān)察數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、臨床數(shù)據(jù)、醫(yī)學(xué)記錄等)類(lèi)型。其中,調(diào)查數(shù)據(jù)集數(shù)量最多(130個(gè))、行政記錄數(shù)據(jù)集27個(gè)、事務(wù)數(shù)據(jù)集22個(gè)、綜合性數(shù)據(jù)集13個(gè)、普查數(shù)據(jù)和其他類(lèi)型數(shù)據(jù)集各8個(gè)。各類(lèi)型社會(huì)科學(xué)數(shù)據(jù)所占比例如圖1所示。
調(diào)查數(shù)據(jù)在樣本數(shù)據(jù)集中占比62%,是重要的社會(huì)科學(xué)數(shù)據(jù)類(lèi)型。與自然類(lèi)學(xué)科通常需要依靠實(shí)驗(yàn)室、儀器、設(shè)備等產(chǎn)出科學(xué)數(shù)據(jù)的方式不同,社會(huì)科學(xué)一般采用調(diào)查法獲取研究數(shù)據(jù)。例如,密歇根大學(xué)為衡量消費(fèi)者態(tài)度和期望變化,了解發(fā)生變化的原因,對(duì)影響消費(fèi)者信心的不同因素展開(kāi)月度調(diào)查(包括個(gè)人財(cái)務(wù)、就業(yè)、物價(jià)變動(dòng)、國(guó)家商業(yè)狀況,以及種族、性別、年齡和教育等)[15],該調(diào)查數(shù)據(jù)對(duì)預(yù)測(cè)總體消費(fèi)者行為的變化至關(guān)重要。行政記錄數(shù)據(jù)集和事務(wù)數(shù)據(jù)集占比分別為13%和11%。行政記錄數(shù)據(jù)是國(guó)家行政部門(mén)為實(shí)現(xiàn)服務(wù)、監(jiān)督和管理目的,通過(guò)對(duì)系統(tǒng)內(nèi)的登記對(duì)象收集相關(guān)信息和對(duì)信息進(jìn)行加工所形成的行政記錄統(tǒng)計(jì)化后的數(shù)據(jù)[16]。行政記錄數(shù)據(jù)是政府統(tǒng)計(jì)數(shù)據(jù)的重要來(lái)源,能有效解決政府統(tǒng)計(jì)數(shù)據(jù)獲取困難的問(wèn)題。事務(wù)數(shù)據(jù)是描述具體事件的數(shù)據(jù),一般具有時(shí)間維度和數(shù)值維度,可指代一個(gè)或多個(gè)事件對(duì)象(如存儲(chǔ)記錄、活動(dòng)記錄等)。這兩類(lèi)數(shù)據(jù)的創(chuàng)建者多為政府部門(mén),隨著政務(wù)公開(kāi)實(shí)踐的發(fā)展,這些數(shù)據(jù)的共享程度逐步提高,因而相比其他類(lèi)型數(shù)據(jù),行政記錄數(shù)據(jù)和事務(wù)數(shù)據(jù)被引用的數(shù)量?jī)H次于調(diào)查數(shù)據(jù)。綜合性數(shù)據(jù)、普查數(shù)據(jù)和其他類(lèi)型數(shù)據(jù)(觀(guān)察數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)等)的總占比為14%。其中,綜合性數(shù)據(jù)指通過(guò)一定方法將單個(gè)數(shù)據(jù)進(jìn)行集成后形成的數(shù)據(jù),在某種意義上,綜合性數(shù)據(jù)的表現(xiàn)形式是匯總表格。如美國(guó)人口普查局的“摘要文件”屬于綜合性數(shù)據(jù),包括在特定地理區(qū)域具有各種指定屬性的個(gè)體總數(shù)[17]。普查數(shù)據(jù)指國(guó)家或地區(qū)為詳細(xì)調(diào)查某項(xiàng)重要國(guó)情,專(zhuān)門(mén)組織的一次大規(guī)模全面調(diào)查而產(chǎn)生的原始數(shù)據(jù),普查數(shù)據(jù)通常被用來(lái)說(shuō)明現(xiàn)象在一定時(shí)點(diǎn)上的全面情況,如人口普查數(shù)據(jù)、農(nóng)業(yè)普查數(shù)據(jù)、經(jīng)濟(jì)普查數(shù)據(jù)。
4.3 社會(huì)科學(xué)數(shù)據(jù)被引次數(shù)
分別從時(shí)間和數(shù)據(jù)類(lèi)型的維度對(duì)208個(gè)樣本數(shù)據(jù)集的被引用情況進(jìn)行統(tǒng)計(jì),如表2和圖2所示。2011—2015年調(diào)查數(shù)據(jù)的被引總數(shù)是342次,明顯高于其余數(shù)據(jù)類(lèi)型的被引總數(shù),說(shuō)明科研人員對(duì)調(diào)查數(shù)據(jù)的需求較大。另外,調(diào)查數(shù)據(jù)的總被引次數(shù)較高與ICPSR存儲(chǔ)庫(kù)收錄和發(fā)布的調(diào)查數(shù)據(jù)數(shù)量較多密切相關(guān),便于科研人員及時(shí)獲取和使用。而2011—2015年普查數(shù)據(jù)的被引次數(shù)為3次,是所有社會(huì)科學(xué)數(shù)據(jù)類(lèi)型中引用次數(shù)最少的,可能因普查數(shù)據(jù)通常需要長(zhǎng)周期的調(diào)研才能獲取,且其規(guī)模一般很大,通過(guò)存儲(chǔ)庫(kù)發(fā)布所需時(shí)間較長(zhǎng),使得ICPSR存儲(chǔ)庫(kù)收錄和發(fā)布的普查數(shù)據(jù)數(shù)量較少。2011—2015年社會(huì)科學(xué)數(shù)據(jù)的總被引次數(shù)均超過(guò)95次,并在2013年達(dá)到峰值,2014年和2015年有所下降,但依然比2012年的被引次數(shù)多。這說(shuō)明,ICPSR存儲(chǔ)庫(kù)所收錄和發(fā)布的社會(huì)科學(xué)數(shù)據(jù)對(duì)科研人員的影響力逐漸增強(qiáng),而科研人員對(duì)社會(huì)科學(xué)數(shù)據(jù)的引用意識(shí)也在不斷提高。
4.4 被引社會(huì)科學(xué)數(shù)據(jù)訪(fǎng)問(wèn)方式
由于ICPSR所發(fā)布的社會(huì)科學(xué)數(shù)據(jù)訪(fǎng)問(wèn)權(quán)限包括面向公眾和僅面向ICPSR用戶(hù)兩種方式,因此,被引社會(huì)科學(xué)數(shù)據(jù)的訪(fǎng)問(wèn)方式分為直接訪(fǎng)問(wèn)和登陸ICPSR才能訪(fǎng)問(wèn)。對(duì)208個(gè)樣本數(shù)據(jù)集的訪(fǎng)問(wèn)方式進(jìn)行統(tǒng)計(jì),被引社會(huì)科學(xué)數(shù)據(jù)樣本中直接訪(fǎng)問(wèn)和登陸ICPSR訪(fǎng)問(wèn)的數(shù)量分別為103個(gè)和105個(gè),說(shuō)明ICPSR存儲(chǔ)庫(kù)所發(fā)布的社會(huì)科學(xué)數(shù)據(jù)共享程度較高,科研人員訪(fǎng)問(wèn)時(shí)不需要與ICPSR成員機(jī)構(gòu)聯(lián)系。對(duì)于登陸ICPSR才能訪(fǎng)問(wèn)的社會(huì)科學(xué)數(shù)據(jù),只要科研人員所在機(jī)構(gòu)是ICPSR的成員機(jī)構(gòu)或獲取到ICPSR成員機(jī)構(gòu)內(nèi)科研人員的賬號(hào),均可訪(fǎng)問(wèn)。
表2 2011—2015年數(shù)據(jù)集不同分類(lèi)型被引情況次
圖2 2011—2015年數(shù)據(jù)集被引總數(shù)情況
4.5 被引社會(huì)科學(xué)數(shù)據(jù)更新次數(shù)
更新次數(shù)指自社會(huì)科學(xué)數(shù)據(jù)首次發(fā)布后的修改次數(shù)。更新次數(shù)越多,社會(huì)科學(xué)數(shù)據(jù)的版本越多,說(shuō)明內(nèi)容變化越大。對(duì)208個(gè)樣本數(shù)據(jù)集的更新次數(shù)進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)沒(méi)有更新的被引社會(huì)科學(xué)數(shù)據(jù)量是99個(gè),占比47%,說(shuō)明樣本中有將近一半的被引社會(huì)科學(xué)數(shù)據(jù)只有一個(gè)版本;目前有2個(gè)及以上版本的被引社會(huì)科學(xué)數(shù)據(jù)在樣本中占比53%,更新1次的占比35%,更新2次的占比10%,更新2次以上的占比8%。被引社會(huì)科學(xué)數(shù)據(jù)更新次數(shù)最多達(dá)到8次,調(diào)查樣本中僅有2個(gè)。總體來(lái)看,對(duì)數(shù)據(jù)的更新包括新增、更改、刪除等操作。如美國(guó)衛(wèi)生與人類(lèi)服務(wù)部通過(guò)《國(guó)家藥物濫用治療服務(wù)調(diào)查(2000年)》產(chǎn)出的調(diào)查數(shù)據(jù)目前有9個(gè)版本,更新內(nèi)容包括添加變量、刪除變量、調(diào)整變量順序、添加相應(yīng)的Stata數(shù)據(jù)定義語(yǔ)句、更新XML文件、修訂PDF文檔等[18]。
4.6 被引社會(huì)科學(xué)數(shù)據(jù)規(guī)模
被引社會(huì)科學(xué)數(shù)據(jù)的規(guī)模指其所占內(nèi)存大小。數(shù)據(jù)規(guī)??赡芘c數(shù)據(jù)創(chuàng)建主體、數(shù)據(jù)類(lèi)型、數(shù)據(jù)時(shí)間跨度等因素有關(guān)。對(duì)208個(gè)樣本數(shù)據(jù)集的規(guī)模進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)規(guī)模小于50MB的樣本數(shù)據(jù)集有124個(gè),占比59%,說(shuō)明樣本中超過(guò)一半的被引社會(huì)科學(xué)數(shù)據(jù)的規(guī)模較小。被引社會(huì)科學(xué)數(shù)據(jù)規(guī)模大于50MB的占比41%,其中50—500MB的被引社會(huì)科學(xué)數(shù)據(jù)量有66個(gè),占比32%;數(shù)據(jù)規(guī)模大于500MB的有18個(gè),占比低于10%。在18個(gè)數(shù)據(jù)規(guī)模大于500MB的被引社會(huì)科學(xué)數(shù)據(jù)集中,有17個(gè)由政府機(jī)構(gòu)創(chuàng)建,說(shuō)明政府機(jī)構(gòu)所產(chǎn)出并發(fā)布的社會(huì)科學(xué)數(shù)據(jù)規(guī)模通常較大。其中,規(guī)模最大的被引社會(huì)科學(xué)數(shù)據(jù)是美國(guó)商務(wù)部和人口普查局于2004年產(chǎn)出的調(diào)查數(shù)據(jù),該數(shù)據(jù)包含18個(gè)數(shù)據(jù)集,數(shù)據(jù)規(guī)模達(dá)到51 670MB,詳細(xì)反映了美國(guó)家庭和個(gè)人經(jīng)濟(jì)狀況[19]。
4.7 被引社會(huì)科學(xué)數(shù)據(jù)時(shí)間跨度
被引社會(huì)科學(xué)數(shù)據(jù)的時(shí)間跨度,指其所揭示內(nèi)容所包含的年限。對(duì)208個(gè)樣本數(shù)據(jù)集的時(shí)間跨度進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)樣本中時(shí)間跨度在1年內(nèi)的被引社會(huì)科學(xué)數(shù)據(jù)量是124個(gè),占比60%,說(shuō)明大部分被引社會(huì)科學(xué)數(shù)據(jù)揭示的是具體某年的信息。如密歇根大學(xué)社會(huì)研究所開(kāi)展的研究揭示出2002年美國(guó)青少年關(guān)于重要價(jià)值觀(guān)、行為和生活方式方面的內(nèi)容[20]。樣本中被引用社會(huì)科學(xué)數(shù)據(jù)的時(shí)間跨度大于1年的數(shù)量是84個(gè)(占比40%),其中時(shí)間跨度1—5年的被引社會(huì)科學(xué)數(shù)據(jù)占比29%,大于5年的被引社會(huì)科學(xué)數(shù)據(jù)占比為11%。時(shí)間跨度最大的被引社會(huì)科學(xué)數(shù)據(jù)由美國(guó)高校政治和社會(huì)研究聯(lián)盟創(chuàng)建,該數(shù)據(jù)時(shí)間跨度長(zhǎng)達(dá)181年,包含關(guān)于美國(guó)社會(huì)和政治方面的大量數(shù)據(jù),并按州、種族、國(guó)籍、家庭人數(shù)、家庭規(guī)模、出生、死亡、婚姻、職業(yè)、宗教和一般經(jīng)濟(jì)狀況等進(jìn)行分類(lèi)[21]。
通過(guò)分析社會(huì)科學(xué)領(lǐng)域科學(xué)數(shù)據(jù)的引用現(xiàn)狀,發(fā)現(xiàn)其具有數(shù)據(jù)創(chuàng)建者多是政府機(jī)構(gòu)和研究機(jī)構(gòu),數(shù)據(jù)類(lèi)型多樣、調(diào)查類(lèi)數(shù)據(jù)被引次數(shù)較多,公眾訪(fǎng)問(wèn)和僅ICPSR用戶(hù)訪(fǎng)問(wèn)的樣本數(shù)據(jù)集的數(shù)量相當(dāng),大部分被引社會(huì)科學(xué)數(shù)據(jù)的時(shí)間跨度短、規(guī)模較小、更新次數(shù)少等特點(diǎn)。
(1)被引社會(huì)科學(xué)數(shù)據(jù)的創(chuàng)建者多為機(jī)構(gòu)創(chuàng)建者。與被引科學(xué)數(shù)據(jù)的個(gè)人創(chuàng)建者相比,機(jī)構(gòu)創(chuàng)建者明顯居于主導(dǎo)地位。同時(shí),被引社會(huì)科學(xué)數(shù)據(jù)的創(chuàng)建者多是政府機(jī)構(gòu)和研究機(jī)構(gòu)。機(jī)構(gòu)創(chuàng)建者產(chǎn)出和發(fā)布的研究數(shù)據(jù)被引用量較多的原因可能有兩方面:一方面,在科研人員開(kāi)展研究時(shí)申請(qǐng)國(guó)家基金資助不容易,受時(shí)間、資金及精力等方面限制,研究成果產(chǎn)出周期較長(zhǎng)、共享程度有所欠缺;另一方面,機(jī)構(gòu)創(chuàng)建者開(kāi)展的研究多依托國(guó)家基金資助項(xiàng)目,研究?jī)?nèi)容范圍廣泛,研究團(tuán)隊(duì)協(xié)同工作,產(chǎn)出的研究成果可信度和共享程度較高。政府機(jī)構(gòu)在機(jī)構(gòu)創(chuàng)建者中占比56%,其創(chuàng)建的社會(huì)科學(xué)數(shù)據(jù)被引用程度較高。這是因?yàn)檎當(dāng)?shù)據(jù)與民生國(guó)計(jì)密切相關(guān),是社會(huì)科學(xué)領(lǐng)域開(kāi)展研究所需數(shù)據(jù)的重要來(lái)源,同時(shí)美國(guó)政府?dāng)?shù)據(jù)開(kāi)放程度較高也是重要因素。另外,高校和研究機(jī)構(gòu)開(kāi)展研究時(shí)通常會(huì)有科研資助機(jī)構(gòu)支持,而科研資助機(jī)構(gòu)則要求由其資助產(chǎn)出的科研成果及科學(xué)數(shù)據(jù)能及時(shí)以適當(dāng)?shù)姆绞焦蚕恚龠M(jìn)科研成果效益最大化(如英國(guó)研究理事會(huì)最主要的任務(wù)是資助研究)?!禦CUK數(shù)據(jù)政策通用原則》規(guī)定,由其資助項(xiàng)目所產(chǎn)生的科學(xué)數(shù)據(jù)是公共物品,為公眾利益而產(chǎn)生,應(yīng)在不損害知識(shí)產(chǎn)權(quán)和隱私的情況下,盡可能及時(shí)開(kāi)放共享[22]。
(2)被引社會(huì)科學(xué)數(shù)據(jù)的類(lèi)型多樣,調(diào)查類(lèi)社會(huì)科學(xué)數(shù)據(jù)的被引次數(shù)較多。由于創(chuàng)建主體和研究方法的不同,被引社會(huì)科學(xué)數(shù)據(jù)包括調(diào)查數(shù)據(jù)、行政記錄數(shù)據(jù)、事務(wù)數(shù)據(jù)、綜合性數(shù)據(jù)、普查數(shù)據(jù)等多種類(lèi)型,其中調(diào)查類(lèi)數(shù)據(jù)在總數(shù)據(jù)集中占比最大,這說(shuō)明對(duì)于社會(huì)科學(xué)研究而言,調(diào)查數(shù)據(jù)起著舉足輕重的作用。例如,對(duì)于同類(lèi)研究的后續(xù)研究者而言,引用關(guān)于該主題的已有調(diào)查數(shù)據(jù),以避免重復(fù)勞動(dòng),節(jié)省研究成本。同時(shí),擬引用調(diào)查數(shù)據(jù)的確定性和可參考性也尤其重要。確定性主要表現(xiàn)為調(diào)查數(shù)據(jù)指向明確的時(shí)間與對(duì)象,可參考性指調(diào)查數(shù)據(jù)具有代表性、調(diào)查數(shù)據(jù)與研究主題具有一致性。在通過(guò)電話(huà)訪(fǎng)談、個(gè)人訪(fǎng)談、問(wèn)卷調(diào)查及網(wǎng)絡(luò)調(diào)查等方法開(kāi)展研究時(shí),確保數(shù)據(jù)的確定性和可參考性十分重要。
(3)公眾訪(fǎng)問(wèn)和僅ICPSR用戶(hù)訪(fǎng)問(wèn)的樣本數(shù)據(jù)集的數(shù)量相當(dāng)。引用科學(xué)數(shù)據(jù)的前提是科學(xué)數(shù)據(jù)可獲取,因而,科學(xué)數(shù)據(jù)的訪(fǎng)問(wèn)方式對(duì)引用具有重要影響。由于受存儲(chǔ)庫(kù)的屬性限制,不同存儲(chǔ)庫(kù)的公開(kāi)訪(fǎng)問(wèn)程度不同。如國(guó)家數(shù)據(jù)中心一般面向公眾訪(fǎng)問(wèn),而機(jī)構(gòu)存儲(chǔ)庫(kù)部分提供公眾訪(fǎng)問(wèn)。因此,一方面數(shù)據(jù)存儲(chǔ)庫(kù)應(yīng)盡可能提供公眾訪(fǎng)問(wèn)途徑,以促進(jìn)科學(xué)數(shù)據(jù)再利用;另一方面,科研人員可通過(guò)多種途徑訪(fǎng)問(wèn)和獲取研究所需數(shù)據(jù)。
(4)大部分被引社會(huì)科學(xué)數(shù)據(jù)的時(shí)間跨度短、規(guī)模較小、更新次數(shù)少。社會(huì)科學(xué)數(shù)據(jù)的時(shí)間跨度短意味其產(chǎn)出的周期短、規(guī)模小、效率高,使得數(shù)據(jù)上傳、下載比較方便;而更新次數(shù)少則表明社會(huì)科學(xué)數(shù)據(jù)的版本少,內(nèi)容變化小。因此,該類(lèi)社會(huì)科學(xué)數(shù)據(jù)更易被研究者引用。
大數(shù)據(jù)時(shí)代數(shù)據(jù)的價(jià)值日益受到科研人員的重視,數(shù)據(jù)共享實(shí)踐的發(fā)展也使得社會(huì)科學(xué)數(shù)據(jù)更容易被科研人員獲取并引用。本文基于對(duì)ICPSR Bibliography of Data-Related Literature數(shù)據(jù)庫(kù)被引社會(huì)科學(xué)數(shù)據(jù)概況的統(tǒng)計(jì),從被引科學(xué)數(shù)據(jù)的創(chuàng)建者、類(lèi)型、引用次數(shù)、訪(fǎng)問(wèn)方式、更新次數(shù)、規(guī)模及時(shí)間跨度等7個(gè)維度分析引用現(xiàn)狀,并總結(jié)被引社會(huì)科學(xué)數(shù)據(jù)的4個(gè)特點(diǎn),有助于科研人員明晰目前社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)的被引情況,為數(shù)據(jù)引用實(shí)踐的進(jìn)一步發(fā)展提供借鑒。
研究尚存在一些不足,例如樣本量不大,本文采用等距抽樣方法,僅抽取208個(gè)樣本數(shù)據(jù)集展開(kāi)統(tǒng)計(jì)分析。另外,本文僅選取社會(huì)科學(xué)領(lǐng)域被引數(shù)據(jù)的現(xiàn)狀與特點(diǎn)展開(kāi)分析,未涉及自然科學(xué)領(lǐng)域的科學(xué)數(shù)據(jù),也沒(méi)有深入到具體某一學(xué)科,樣本來(lái)源數(shù)據(jù)庫(kù)屬于美國(guó)。因此,下一步研究方向可側(cè)重于自然科學(xué)領(lǐng)域科學(xué)數(shù)據(jù)或某一具體學(xué)科數(shù)據(jù),也可以選擇其他國(guó)家(如英國(guó)、澳大利亞)的數(shù)據(jù)存儲(chǔ)庫(kù)作為研究對(duì)象,開(kāi)展相關(guān)研究。
[1]吳金紅,陳勇躍.面向科研第四范式的科學(xué)數(shù)據(jù)監(jiān)管體系研究[J].圖書(shū)情報(bào)工作,2015,59(16):11-17.
[2]丁楠,黎嬌,李文雨澤,等.基于引用的科學(xué)數(shù)據(jù)評(píng)價(jià)研究[J].圖書(shū)與情報(bào),2014(5):95-99.
[3]WHITE H D. Citation analysis of data fi les use[J].Library Trends,1982,31(3):467-477.
[4]CODATA.International Series of Data Citation Workshops[EB/OL].[2017-04-01].http://www.codata.org/task-groups/data-citationstandards-and-practices/international-series-of-data-citationworkshops.
[5]侯經(jīng)川,方靜怡.數(shù)據(jù)引證研究:進(jìn)展與展望[J].中國(guó)圖書(shū)館學(xué)報(bào),2013(1):112-118.
[6]屈寶強(qiáng),王凱.科學(xué)數(shù)據(jù)引用現(xiàn)狀和研究進(jìn)展[J].情報(bào)理論與實(shí)踐,2016(5):134-138,114.
[7]張靜蓓,呂俊生,田野.國(guó)外科學(xué)數(shù)據(jù)引用研究進(jìn)展[J].圖書(shū)情報(bào)工作,2014(8):91-95,138.
[8]SIEBER J E,TRUMBO B E.(Not) giving credit where credit is due:citation of data sets[J].Science and Engineering Ethics,1995,1(1):11-20.
[9]丁楠,丁瑩,楊柳,等.我國(guó)圖書(shū)情報(bào)領(lǐng)域數(shù)據(jù)引用行為分析[J].中國(guó)圖書(shū)館學(xué)報(bào),2014(6):105-114.
[10]丁楠,楊柳,丁瑩,等.我國(guó)社會(huì)學(xué)期刊論文數(shù)據(jù)引用行為研究[J].圖書(shū)與情報(bào),2014(6):88-93.
[11]MOONEY H,NEWTON M P.The anatomy of a data citation:discovery,reuse,and credit[J].Journal of Librarianship and Scholarly Communication,2012,1(1):1035.
[12]ICPSR.About ICPSR[EB/OL].[2017-04-01].https://www.icpsr.umich.edu/icpsrweb/content/about/.
[13]ICPSR.American housing survey,1995:MSA core and supplement file(ICPSR 2368)[EB/OL].[2017-05-08].http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/2368.
[14]ICPSR.Health reform monitoring survey,first quarter 2015(ICPSR 36364)[EB/OL].[2017-05-08].http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/36364.
[15]ICPSR.Survey of consumer attitudes and behavior,March 1996(ICPSR 2943)[EB/OL].[2017-05-08].http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/2943.
[16]方越巒,劉建平.行政記錄:政府統(tǒng)計(jì)不可忽略的數(shù)據(jù)資源[J].統(tǒng)計(jì)研究,2013(10):22-29.
[17]ICPSR.Glossary of social science terms[EB/OL].[2017-04-01].http://www.icpsr.umich.edu/icpsrweb/ICPSR/support/glossary.
[18]ICPSR.National survey of substance abuse treatment services(N-SSATS),2000(ICPSR3436)[EB/OL].[2017-04-01].http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/3436.
[19]ICPSR.Survey of income and program participation(SIPP)2004 panel(ICPSR 4517)[EB/OL].[2017-04-01].http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/4517.
[20]ICPSR.Monitoring the future:a continuing study of American youth(8th- and 10th-grade surveys),2002(ICPSR 3752)[EB/OL].[2017-04-01].http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/3752.
[21]ICPSR.Historical,demographic,economic,and social data:the United States,1790-1970(ICPSR 3)[EB.OL].[2017-04-01].http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/3.
[22]Research Councils UK.RCUK common principles on data policy[EB/OL].[2017-04-01].http://www.rcuk.ac.uk/research/datapolicy/.
Research on the Citation Present Situation and Characteristics of Scientific Data in Social Science
QU YaJie1, WANG YaNan2
(1. The School of Government, Beijing Normal University, Beijing 100875, China;2. The School of Marxism, Central University of Finance and Economics, Beijing 100081, China)
Research on the citation present situation and characteristics of scientific data in social science from the perspective of the content of cited scientific data.The sample was obtained by sampling survey method, then statistics the overview of samples from the aspects such as creator, type, citation, the number of updates,size, time span and so on. After analyzing the statistical data, can draw the following conclusions. The creators of cited scientific data are mostly government agencies and research institutions. Although the types of cited scientific data are diversified, the survey data is dominant and the most cited. Public access and only ICPSR user access are equally divided. Most of the cited scientific data has short time span, small scale and less updated time.
Social Science; Scientific Data; Cite
G255
10.3772/j.issn.1673-2286.2017.06.004
1 引言
是良好科學(xué)實(shí)踐的基本要求,一直是科學(xué)界及圖書(shū)情報(bào)領(lǐng)域關(guān)注的重點(diǎn)問(wèn)題。參考文獻(xiàn)已經(jīng)成為科技文獻(xiàn)的重要組成部分,科技文獻(xiàn)發(fā)表或出版后被其他作者學(xué)習(xí)、參考、借鑒和引用,輔助新文獻(xiàn)的發(fā)表,促進(jìn)學(xué)科體系循序漸進(jìn)地發(fā)展。隨著計(jì)算機(jī)在科研方面大量應(yīng)用,科研過(guò)程產(chǎn)生海量科學(xué)數(shù)據(jù)。同時(shí),數(shù)據(jù)密集型科學(xué)研究范式的興起使科學(xué)數(shù)據(jù)成為驅(qū)動(dòng)科學(xué)研究發(fā)展的重要力量[1]。而發(fā)表的學(xué)術(shù)論文與支撐數(shù)據(jù)的斷層會(huì)產(chǎn)生很多問(wèn)題,如科學(xué)研究成果的不可重現(xiàn)性、科學(xué)數(shù)據(jù)不可再利用、數(shù)據(jù)重復(fù)收集、相同數(shù)據(jù)子集的激增及科學(xué)欺詐等。因此,科學(xué)數(shù)據(jù)的引用問(wèn)題日益受到關(guān)注。眾多學(xué)術(shù)機(jī)構(gòu)提出,科學(xué)數(shù)據(jù)和學(xué)術(shù)論文同樣重要,科學(xué)數(shù)據(jù)需要被正確引用。科學(xué)數(shù)據(jù)引用指作者在論文中以參考文獻(xiàn)、腳注或文中注等方式,對(duì)其所使用的科學(xué)數(shù)據(jù)標(biāo)注來(lái)源出處的做法[2]。規(guī)范科學(xué)數(shù)據(jù)引用是對(duì)數(shù)據(jù)集創(chuàng)建或管理者貢獻(xiàn)的認(rèn)可,能夠?qū)崿F(xiàn)對(duì)基礎(chǔ)數(shù)據(jù)的溯源,便于驗(yàn)證科學(xué)研究推進(jìn);可跟蹤和評(píng)價(jià)數(shù)據(jù)集影響,有助于科學(xué)數(shù)據(jù)的共享與傳播。
屈亞杰,女,1991年生,碩士研究生,研究方向:科學(xué)數(shù)據(jù)管理,E-mail:819468068@qq.com。
王亞男,女,1989年生,碩士,研究方向:信息分析。
2017-04-13)
* 本研究得到國(guó)家社會(huì)科學(xué)基金項(xiàng)目“云計(jì)算環(huán)境下圖書(shū)館信息資源安全政策法律研究”(編號(hào):11CTQ004)資助。