決定哪些數(shù)據(jù)應(yīng)該共享以及如何組織,在一定程度上根據(jù)預(yù)期用戶而定。
數(shù)據(jù)階段型存儲庫(Data Staging Repository,DataStaR)是康奈爾大學(xué)圖書館的一項主要針對本校學(xué)者的數(shù)據(jù)監(jiān)護(hù)服務(wù),其以機構(gòu)庫為基礎(chǔ),力圖扮演學(xué)術(shù)界共享數(shù)據(jù)集時的一個暫時的、過渡性質(zhì)的存儲節(jié)點,其設(shè)想是建設(shè)成為一個數(shù)據(jù)監(jiān)護(hù)平臺及一套完整服務(wù)方案,擁有可產(chǎn)生多種格式的高質(zhì)量元數(shù)據(jù)的工具,由圖書館員負(fù)責(zé)操作,通過協(xié)助學(xué)者完善數(shù)據(jù)和元數(shù)據(jù)來促進(jìn)共享,最終積極幫助他們向各自領(lǐng)域的學(xué)科庫發(fā)布數(shù)據(jù)成果,供長期使用和保存。DataStaR不但是具體數(shù)據(jù)監(jiān)護(hù)服務(wù)的典型案例,還體現(xiàn)出當(dāng)前美國高校圖書館對機構(gòu)庫建設(shè)的一些新思路,非常值得了解。
DataStaR正是機構(gòu)庫“回到科研流程中”的一次嘗試,它關(guān)注的不是改變學(xué)術(shù)出版體系,而是機構(gòu)庫如何能成為支持?jǐn)?shù)據(jù)密集型學(xué)術(shù)的新形式。
目前,大量高校學(xué)者所承擔(dān)的“小科學(xué)”(Small Science),因分布散、規(guī)模小而長期是數(shù)據(jù)管理的盲區(qū),這些項目通常只有數(shù)名學(xué)者參與,產(chǎn)生的數(shù)據(jù)存放在個人電腦里,既沒有統(tǒng)一標(biāo)準(zhǔn),也沒有分享機制,更缺乏長期利用策略。
海登(Heidorn)對2007年美國國家科學(xué)基金會批準(zhǔn)項目的調(diào)查顯示,當(dāng)年共撥款28.7億美元資助12025個項目,其中獲撥款排名前20%的項目占據(jù)六成經(jīng)費,剩余四成經(jīng)費資助了多達(dá)9621個項目,最小一項只獲得591美元。這些小項目根本不可能有充裕的人力財力來處理產(chǎn)生的數(shù)據(jù),海登稱其為“暗數(shù)據(jù)”。小科學(xué)是人們認(rèn)識和了解特定局部事物的重要手段,長期忽視小科學(xué)的數(shù)據(jù)是非常不合理的,隨著計算機技術(shù)、互聯(lián)網(wǎng)技術(shù)、數(shù)字化存儲技術(shù)的發(fā)展,海量科學(xué)數(shù)據(jù)的數(shù)字化和網(wǎng)絡(luò)化成為可能。美國越來越多的基金機構(gòu)要求資助的項目發(fā)布數(shù)據(jù),如國立健康研究院就從2003年起規(guī)定年度預(yù)算達(dá)到50萬美元的項目在申請時必須制定數(shù)據(jù)發(fā)布方案。
2007年后,美國多家高校圖書館陸續(xù)開始了數(shù)據(jù)監(jiān)護(hù)服務(wù)的探索:除DataStaR外,新墨西哥大學(xué)圖書館主持的地球數(shù)據(jù)觀測網(wǎng)(Data Observation Network for Earth,DataONE)項目關(guān)注地球影像數(shù)據(jù),約翰·霍普金斯大學(xué)圖書館主持的數(shù)據(jù)保育(Data Conservancy)項目關(guān)注天文數(shù)據(jù),這兩個項目各獲得國家科學(xué)基金會高達(dá)2000萬美元的資助。還有調(diào)查數(shù)據(jù)監(jiān)護(hù)需求的伊利諾伊大學(xué)數(shù)據(jù)監(jiān)護(hù)基礎(chǔ)信息(Data Curation Profiles)項目;設(shè)計數(shù)據(jù)監(jiān)護(hù)課程的北卡羅來納大學(xué)數(shù)據(jù)化監(jiān)護(hù)課程(Digital Curation Curriculum,DigCCurr)項目;探索“數(shù)據(jù)館員”職業(yè)規(guī)劃的普渡大學(xué)圖書館的分布式數(shù)護(hù)監(jiān)護(hù)中心(Distributed Data Curation Center,D2C2)項目等。
康奈爾的圖書館員通過調(diào)查發(fā)現(xiàn),合作過的學(xué)者對數(shù)據(jù)監(jiān)護(hù)確實有不少需求,這使得圖書館確信主動開展合作能給雙方都帶來切實收獲。從調(diào)查結(jié)果來看,學(xué)者對數(shù)據(jù)監(jiān)護(hù)的需求五花八門,最常見的幾點有:
·需要一個協(xié)作空間以便科研過程中分享數(shù)據(jù);
·需要協(xié)助確認(rèn)共享時應(yīng)該分享原始的還是加工后的數(shù)據(jù)、是完整的還是重點的數(shù)據(jù);
·需要在期刊不提供發(fā)布途徑時,依科研資助者要求完成數(shù)據(jù)發(fā)布;
·需要了解下階段用戶如何使用數(shù)據(jù),避免誤讀、誤用。
還有些學(xué)者干脆想知道別人使用他們的數(shù)據(jù)后做出了什么新成果,有些人希望后繼使用者能在發(fā)表成果時注明原始數(shù)據(jù)源及其所屬資助項目名稱等等。當(dāng)然DataStaR也許無法滿足所有要求,但這些需求也確實反映出學(xué)者普遍覺得靠自身去處理數(shù)據(jù)有些力不從心,發(fā)展一個本地的、階段型的數(shù)據(jù)發(fā)布方案是很值得研究的事情。
DataStaR系統(tǒng)主要由4部分構(gòu)成:
·基于Fedora的數(shù)據(jù)集存儲庫;
·基于Vitro的語義元數(shù)據(jù)存儲庫;
·用于對文件格式進(jìn)行批量自動識別的開源工具:數(shù)字記錄目標(biāo)識別程序(Digital Record Object Identification,DROID,由英國國家檔案局開發(fā));
·用于向外部永久存儲庫傳輸文件的內(nèi)容轉(zhuǎn)移協(xié)議——面向存儲的簡單網(wǎng)絡(luò)服務(wù)協(xié)議(Simple Web Service Offering Repository Deposit,SWORD,由英國JISC資助開發(fā))。
以一位生態(tài)學(xué)者研究某物種的分布為例,操作流程大致如下:用戶首先將野外觀測數(shù)據(jù)匯總,然后錄入一個電子表格成為數(shù)據(jù)集。她將電子表格上傳到DataStaR,此時系統(tǒng)會根據(jù)用戶注冊時填寫的信息以及檢測到的文件格式自動生成一些基本元數(shù)據(jù),用戶只需補充一項描述信息的元數(shù)據(jù)并設(shè)定他人訪問權(quán)限。
上傳時,用戶選定一個未來發(fā)布的目標(biāo)庫,系統(tǒng)會根據(jù)目標(biāo)庫的要求,生成合適的元數(shù)據(jù)表單供用戶填寫;若選擇“待定”,則要填寫一些額外的元數(shù)據(jù)供備用。隨著數(shù)據(jù)集不斷豐富,最終還可生成顯示物種分布情況的地理信息系統(tǒng)(GIS)數(shù)據(jù)集,DataStaR的圖書館員在這一過程中根據(jù)生態(tài)學(xué)及GIS數(shù)據(jù)存儲庫的不同標(biāo)準(zhǔn),協(xié)助學(xué)者決定應(yīng)該共享哪些數(shù)據(jù),整理和格式化數(shù)據(jù),創(chuàng)建高質(zhì)量元數(shù)據(jù)等。
決定哪些數(shù)據(jù)應(yīng)該共享以及如何組織,在一定程度上根據(jù)預(yù)期用戶而定。就生態(tài)學(xué)來說,一般預(yù)期數(shù)據(jù)將會用于反復(fù)分析,或集合多位研究人員的數(shù)據(jù)進(jìn)行對比,故加工后的數(shù)據(jù)集就比原始觀測數(shù)據(jù)更有用。至于元數(shù)據(jù),一些元數(shù)據(jù)很容易理解和完成,另一些則可能需要專業(yè)知識或?qū)唧w要求進(jìn)行仔細(xì)研讀才能完成。目前圖書館員協(xié)助學(xué)者創(chuàng)建元數(shù)據(jù)中最重大的作用就是準(zhǔn)確賦予受控詞和主題詞、知識產(chǎn)權(quán)申明的書面表述、撰寫地理坐標(biāo)等特殊元素的規(guī)范表達(dá)等。DataStaR雖然不承擔(dān)數(shù)據(jù)集長期保存任務(wù),但它會對數(shù)據(jù)集的元數(shù)據(jù)進(jìn)行備份,這些高質(zhì)量的元數(shù)據(jù)可供學(xué)者未來反復(fù)使用,也是其提高用戶忠誠度的重要手段之一。
科研結(jié)束時,用戶和圖書館員一同核對元數(shù)據(jù)和數(shù)據(jù),將整理好的數(shù)據(jù)集發(fā)布到一個生態(tài)學(xué)的學(xué)科庫,如CUGIR;將相應(yīng)的GIS數(shù)據(jù)集發(fā)布到紐約州立GIS數(shù)據(jù)交流中心,最后將兩個數(shù)據(jù)集的備份存儲到康奈爾大學(xué)圖書館自己的機構(gòu)庫eCommons里。數(shù)據(jù)從DataStaR流動到外部學(xué)科庫的機制可自動亦可手動,視目標(biāo)庫的結(jié)構(gòu)和要求決定。當(dāng)向eCommons發(fā)布數(shù)據(jù)集時,系統(tǒng)可從早前提交的學(xué)科記錄中提取必要元數(shù)據(jù)并自動生成到機構(gòu)庫中,然后將數(shù)據(jù)集和作為支撐材料的學(xué)科記錄一起存入;向生態(tài)學(xué)科專門數(shù)據(jù)存儲庫發(fā)布的工作也是自動完成,但向紐約州立GIS數(shù)據(jù)交流中心提交時則由于政策規(guī)定,必須由圖書館員人工操作。
首屆科學(xué)數(shù)據(jù)大會探討“科研大數(shù)據(jù)與數(shù)據(jù)科學(xué)”
本刊訊 2月24日,首屆科學(xué)數(shù)據(jù)大會在中國科學(xué)院大學(xué)國際會議中心舉行。包括中科院院士郭華東、陳潤生,中國工程院院士汪懋華在內(nèi)的400多名專家、青年科研人員參會。
中科院副院長、國際科技數(shù)據(jù)委員會(CODATA)中國全國委員會主席丁仲禮向會議發(fā)來賀信。他在賀信中表示,科研大數(shù)據(jù)和數(shù)據(jù)科學(xué)的作用越來越重要,希望中國能涌現(xiàn)出大量新型交叉人才,深化傳統(tǒng)科研模式改革,推動數(shù)據(jù)時代變革,以更好地服務(wù)國家創(chuàng)新發(fā)展戰(zhàn)略。
CODATA主席郭華東認(rèn)為,大數(shù)據(jù)已成為信息主權(quán)的一種表現(xiàn)形式,將是繼邊防、海防、空防之后,另一個大國博弈的空間?!按髷?shù)據(jù)正在開啟一次重大的時代轉(zhuǎn)型,它將改變?nèi)祟惖纳钜约袄斫馐澜绲姆绞?。?/p>
與會專家表示,數(shù)據(jù)科學(xué)不但與學(xué)科發(fā)展、產(chǎn)業(yè)轉(zhuǎn)型、社會生活密切聯(lián)系,而且正成為科研體系的重要部分。大數(shù)據(jù)發(fā)展將引起科研組織方式的深刻變化,使知識的創(chuàng)造和應(yīng)用更加緊密結(jié)合,大數(shù)據(jù)不斷提出的重大挑戰(zhàn)將推動形成重大科技創(chuàng)新的新一輪機遇期。
據(jù)了解,2014科學(xué)數(shù)據(jù)大會由國際科技數(shù)據(jù)委員會中國全國委員會主辦、中科院計算機網(wǎng)絡(luò)信息中心承辦,會議主題為“科研大數(shù)據(jù)與數(shù)據(jù)科學(xué)”。
DataStaR最主要的服務(wù)對象是康奈爾大學(xué)的學(xué)者,這一點跟傳統(tǒng)的機構(gòu)庫類似。但是,其主要任務(wù)是促進(jìn)數(shù)據(jù)向長期存儲庫(如學(xué)科庫)流動,對自身的定位是一個短期的、暫時性的數(shù)據(jù)集存儲點和可靠的服務(wù)伙伴。這種階段型定位使DataStaR兼有一般機構(gòu)庫和學(xué)科庫的特征。
DataStaR與機構(gòu)庫一樣,重點服務(wù)于本地機構(gòu);沒有提供過多的數(shù)據(jù)分析、使用方面的工具,比如可視化統(tǒng)計軟件、數(shù)據(jù)抓取軟件等;沒有為終端用戶提供存儲內(nèi)容方面的服務(wù);沒有針對學(xué)者的強制性存儲要求。在其他方面,DataStaR又具備一些學(xué)科庫的功能:機構(gòu)庫的初衷是管理文檔而非數(shù)據(jù),一些學(xué)科庫則一開始就把目標(biāo)對準(zhǔn)了數(shù)據(jù)。學(xué)科庫通常都有各自特定的元數(shù)據(jù)標(biāo)準(zhǔn),而DataStaR由于面向多學(xué)科的用戶,所以可以支持好幾種元數(shù)據(jù)標(biāo)準(zhǔn)。學(xué)科庫都要求發(fā)布的數(shù)據(jù)格式化,DataStaR就會主動幫助數(shù)據(jù)提供者根據(jù)那些要求來完善并提交數(shù)據(jù)。
近年來機構(gòu)庫熱潮席卷美國高校圖書館,但其中不乏視其為一種館藏或純粹爭取經(jīng)費之舉,許多機構(gòu)庫只是一味收集校內(nèi)學(xué)術(shù)成果,至多是個“網(wǎng)上文庫”而已。康奈爾大學(xué)圖書館也稱自己的舊機構(gòu)庫DSpace“像個鄉(xiāng)村圖書館的地下室,堆積著落滿灰塵的舊文件?!?/p>
DataStaR正是機構(gòu)庫“回到科研流程中”的一次嘗試,它關(guān)注的不是改變學(xué)術(shù)出版體系,而是機構(gòu)庫如何能成為支持?jǐn)?shù)據(jù)密集型學(xué)術(shù)的新形式。圖書館已經(jīng)意識到數(shù)據(jù)對科研的重要驅(qū)動力和再利用價值,開展數(shù)據(jù)監(jiān)護(hù)正是面向科研流程的新服務(wù)。美國國家科學(xué)基金會在考察提交申請的數(shù)據(jù)監(jiān)護(hù)項目時,指明收藏數(shù)據(jù)只是服務(wù)切入點,對數(shù)據(jù)進(jìn)行監(jiān)護(hù),使之可供再利用或跨學(xué)科新利用才是最根本目的。這要求圖書館必須從“以藏為主”轉(zhuǎn)變?yōu)橐粋€活躍的科研代理人,為科研數(shù)據(jù)交流、知識共享提供機會和橋梁。學(xué)者改變學(xué)術(shù)交流習(xí)慣的動力并非機構(gòu)強迫,而來自于數(shù)據(jù)監(jiān)護(hù)的新需求,這對他們來說是個緊迫的問題。機構(gòu)庫可以成為容納數(shù)據(jù)的倉儲,更進(jìn)一步說,機構(gòu)庫可成為整個數(shù)據(jù)監(jiān)護(hù)戰(zhàn)略的一個重要部分。
目前,DataStaR已經(jīng)和康奈爾大學(xué)內(nèi)多個項目組、科考站和實驗室建立了良好的長期合作關(guān)系,還為不少學(xué)者創(chuàng)建了個人數(shù)據(jù)空間,至2011年9月,已有多個項目的39個數(shù)據(jù)集經(jīng)DataStaR完成高質(zhì)量元數(shù)據(jù)并成功發(fā)布,鑒于元數(shù)據(jù)管理服務(wù)的成功,從2012 年起,該項目將建設(shè)目標(biāo)完全轉(zhuǎn)變?yōu)橐粋€數(shù)據(jù)集注冊系統(tǒng),以更專注的目光繼續(xù)為康奈爾學(xué)者服務(wù)。