李雨柔
(黑龍江大學,黑龍江 哈爾濱 150080)
近年來,開放獲取資源的快速發(fā)展不僅為研究人員和作者提供了自由和豐富的資源,而且提高了數(shù)據(jù)的循環(huán)利用價值,在一定程度上也提高了資源的透明度,促進了科學研究和社會進步。但是,在將資源進行開放的過程中也不可避免地產(chǎn)生了一系列問題,尤其是關(guān)于資源開放能不能持續(xù)發(fā)展下去的問題。筆者從區(qū)塊鏈的角度研究開放獲取科學數(shù)據(jù)資源的建設(shè)和管理,針對科學數(shù)據(jù)開放獲取所面臨的問題提出建議,以期使科學數(shù)據(jù)開放獲取能夠得到持續(xù)性的發(fā)展。
科學數(shù)據(jù)和其他學術(shù)研究論文或其他形式的學術(shù)成果一樣,屬于信息資源的一種,科學研究數(shù)據(jù)不僅僅是科研成果的顯性表達,同時也是科學研究過程中不可或缺的要素之一[1]。伴隨著科學的不斷發(fā)展及技術(shù)水平的提高,各領(lǐng)域產(chǎn)生的數(shù)據(jù)也在不斷地增加。大數(shù)據(jù)時代下科學數(shù)據(jù)早已成為最基本且具有較大價值的科學資源類型之一,在不同學科領(lǐng)域都發(fā)揮著巨大的作用。
有研究結(jié)果顯示,雖然隨著科學研究活動的增加和深入,每年都會產(chǎn)生很多的科學數(shù)據(jù)資源,但是這些數(shù)據(jù)資源不會永存,大概有80%的科學數(shù)據(jù)在出版以后的20年內(nèi)就會消失。這種情況給科學研究造成了比較大的損失,使得科研工作者可能需要重復(fù)進行科學研究才能夠獲得其所需要的科學數(shù)據(jù)。因此,對科學數(shù)據(jù)資源進行正確的獲取及管理至關(guān)重要。在過去十年里,各種數(shù)據(jù)管理正朝著開放獲取的方向發(fā)展,隨著這一趨勢的發(fā)展,國內(nèi)外許多國家對科學數(shù)據(jù)進行了開放訪問,訪問者能夠相對容易地訪問并且使用開放的科學數(shù)據(jù)資源。就國內(nèi)而言,我們國家也已經(jīng)通過科學數(shù)據(jù)共享建成了包括社會科學、自然科學等很多學科共存的數(shù)據(jù)資源系統(tǒng)[2]??傊?無論在國內(nèi)還是國外,科學數(shù)據(jù)共享與開放都逐漸成為一種趨勢,因此,加強對這些信息資源的開放獲取的管理研究具有一定的現(xiàn)實意義。
開放獲取運動的展開為全球范圍內(nèi)科學數(shù)據(jù)開放和整合提供了有利的基礎(chǔ),相應(yīng)地也促進了科學研究的向前發(fā)展。但是與此同時,在科學數(shù)據(jù)開放獲取這一過程中,也面臨著一些挑戰(zhàn),從而無法避免地帶來了一些負面影響。
隨著科學數(shù)據(jù)開放獲取的不斷發(fā)展,隨之而來的還有一些侵權(quán)行為的產(chǎn)生,極大地影響了數(shù)據(jù)開放獲取的健康持續(xù)發(fā)展。雖然,在“布達佩斯開放獲取計劃”中曾經(jīng)指出“在互聯(lián)網(wǎng)公共領(lǐng)域里可以被免費獲取,并且允許任何用戶下載、傳輸?shù)取盵3],但是為了保護自身的合法權(quán)益,許多資源貢獻者會選擇只貢獻一部分或者拒絕貢獻原始成就來保護自己的知識產(chǎn)權(quán)。因此,在開放數(shù)據(jù)資源獲取過程中的版權(quán)問題能否在運行中始終得到妥善處理,是保證開放數(shù)據(jù)能否可持續(xù)發(fā)展的重要環(huán)節(jié)[4]。
近年來,開放獲取科學數(shù)據(jù)資源建設(shè)面臨的另一個重要挑戰(zhàn)是數(shù)據(jù)分布零散。由于不同平臺的收集、整理的標準不統(tǒng)一或平臺通信技術(shù)的先進性有限等,使得系統(tǒng)與系統(tǒng)之間的通信受到影響,或者分享出的數(shù)據(jù)不能得到有效的利用,而產(chǎn)生很多零散分布的數(shù)據(jù),在一定程度上影響了數(shù)據(jù)資源的進一步開放共享、獲取與利用。而在當下,能夠一定程度上緩解信息孤島問題的主要方法即運用信息技術(shù)把不同平臺、不同格式的信息資源連接到一起,但是整合不同平臺、不同格式的資源具有相當大的難度,目前的效果并不十分理想,這限制了開放數(shù)據(jù)資源的獲取與共享。
區(qū)塊鏈是一種將信息存儲在分布式節(jié)點上,防止人為篡改的技術(shù)。這項技術(shù)的理論原理是基于加密算法,并結(jié)合數(shù)據(jù)庫等多種傳輸技術(shù),對數(shù)據(jù)進行記錄、存儲及傳輸[5,6]。由于區(qū)塊鏈技術(shù)本身具有的不可篡改、去中心化等諸多特性,很多領(lǐng)域都在探索將區(qū)塊鏈技術(shù)運用到自身業(yè)務(wù)中,圖書館的很多業(yè)務(wù)工作也不例外,比如在知識庫建設(shè)過程中便可以利用區(qū)塊鏈技術(shù),特別是涉及數(shù)據(jù)的版權(quán)保護、數(shù)據(jù)的共建共享等方面,能夠充分體現(xiàn)區(qū)塊鏈的特殊優(yōu)勢。因此,筆者將主要從區(qū)塊鏈技術(shù)的角度,針對上述科學數(shù)據(jù)管理面臨的版權(quán)保護不足和開放共享程度不足的問題進行可行性分析。
目前,科學數(shù)據(jù)通常由機構(gòu)知識庫存儲著,其建設(shè)在我國通常是由圖書館和信息中心的科研機構(gòu)協(xié)調(diào)管理。在這些傳統(tǒng)的機構(gòu)式圖書館項目中,圖書館、學者和用戶之間的關(guān)系不僅僅是服務(wù)與被服務(wù)之間的關(guān)系,更是數(shù)據(jù)提供與數(shù)據(jù)交流之間的關(guān)系[7]。區(qū)塊鏈技術(shù)的典型特征之一就是去中心化,而區(qū)塊鏈的這一特性對于解決在建設(shè)科學數(shù)據(jù)過程中的非結(jié)構(gòu)化數(shù)據(jù)的采集和處理問題具有一定的優(yōu)勢,使用區(qū)塊鏈技術(shù)能夠增加這些相關(guān)組織的自主性。同時,在這個系統(tǒng)中的全部節(jié)點可以在一個相對安全可靠的環(huán)境里自由地進行數(shù)據(jù)的交換、記錄等操作,一定程度上也減少了因數(shù)據(jù)格式或平臺系統(tǒng)差異帶來的數(shù)據(jù)零散分布的問題,從而提高數(shù)據(jù)利用效果。
許多前人的研究和實踐表明,數(shù)據(jù)獲取的便利性與用戶的參與、理解和體驗密切相關(guān)。機構(gòu)知識庫的構(gòu)建者通常需要綜合考慮數(shù)據(jù)安全和各方利益,需要在數(shù)據(jù)采集和數(shù)據(jù)安全之間取得平衡。如果只考慮數(shù)據(jù)的安全而因此限制了對數(shù)據(jù)的開放存取,它不僅會違反開放建設(shè)的初衷,同時也會大大減少用戶的期望,而且也違背了辦公廳下發(fā)的一系列文件所傳達的促進數(shù)據(jù)開放獲取的精神。如果只考慮數(shù)據(jù)獲取的便利性,而沒有安全可靠的技術(shù)或機制來保障數(shù)據(jù)所有者的利益和意愿,必然會使數(shù)據(jù)所有者不愿意貢獻自己的數(shù)據(jù),尤其是一些有價值的數(shù)據(jù)。因此,從兼顧數(shù)據(jù)的開放與安全來看,科學數(shù)據(jù)開放的權(quán)限更適合交于數(shù)據(jù)上傳者,由他們來決定數(shù)據(jù)的開放程度,包括全部開放或者部分加密等,同時應(yīng)用區(qū)塊鏈技術(shù)的加密算法和分布式處理,這不僅可以澄清數(shù)據(jù)授權(quán)的范圍和保護主人的隱私數(shù)據(jù),而且也能夠確保用戶訪問、下載和分析各種數(shù)據(jù)無須訪問原始數(shù)據(jù)。
科學數(shù)據(jù)作為一種信息資源,在現(xiàn)今大數(shù)據(jù)時代已經(jīng)成為一種資產(chǎn),但是它與其他普通資產(chǎn)不同,因為它的傳播速度快,并且它的傳播主體通常也會變化得比較快,數(shù)據(jù)所有權(quán)不明確已成為數(shù)據(jù)流通的一大障礙[8],由于科學數(shù)據(jù)資產(chǎn)的特殊性,目前迫切需要一種具有針對性的機制來有效地確??茖W數(shù)據(jù)資產(chǎn)的所有權(quán)。區(qū)塊鏈的鏈條結(jié)構(gòu)具有可追溯性,可以直觀、完整地記錄包括作者從最初的產(chǎn)生思路到實驗數(shù)據(jù)的獲得、再到形成作品初稿到形成最終成果的一系列的完整過程,做到開放科學數(shù)據(jù)的同時保證了數(shù)據(jù)安全和數(shù)據(jù)版權(quán),進而促進學者或機構(gòu)科學數(shù)據(jù)的開放及獲取。
鑒于區(qū)塊鏈技術(shù)在科學數(shù)據(jù)開放共享運用的優(yōu)勢,筆者提出基于區(qū)塊鏈技術(shù)的科學數(shù)據(jù)開放獲取管理流程設(shè)計思路。
設(shè)計的核心原理即基于智能合同和加密技術(shù),具體的環(huán)節(jié)包括:①審核數(shù)據(jù)。對科學數(shù)據(jù)進行審核,主要從格式和內(nèi)容方面對數(shù)據(jù)上傳者上傳的數(shù)據(jù)進行審核,比如審核數(shù)據(jù)資源的內(nèi)容和格式是不是和數(shù)據(jù)庫的標準一致、是否符合元數(shù)據(jù)處理的標準等。②對數(shù)據(jù)進行加密并保存。通過特殊的密鑰將審核通過的數(shù)據(jù)資源進行加密處理,然后將這些加密后的科學數(shù)據(jù)存儲在區(qū)塊鏈的各個塊中。③公開數(shù)據(jù)。把已經(jīng)存儲在塊中的科學數(shù)據(jù),公開發(fā)布在系統(tǒng)中。④身份認證數(shù)據(jù)。利用區(qū)塊鏈的共識機制對科學數(shù)據(jù)進行價值認證和質(zhì)量判斷。⑤數(shù)據(jù)的傳播和分享。在系統(tǒng)平臺上傳播和共享通過用戶身份驗證的數(shù)據(jù)。這些數(shù)據(jù)經(jīng)過平臺認證后,會有時間標記,包括完整的來源和權(quán)限,可以在網(wǎng)絡(luò)上安全地點對點傳播和共享。傳播和共享范圍也比較靈活,可以在小組內(nèi)部小范圍共享,或者單位之間共享,并對共享資源進行評估,如評分、表揚和推薦。
區(qū)塊鏈技術(shù)的日益成熟為科學數(shù)據(jù)開放獲取的持續(xù)發(fā)展提供了一定的技術(shù)支撐。筆者將區(qū)塊鏈技術(shù)的特性與科學數(shù)據(jù)開放獲取過程中的難點相結(jié)合,將技術(shù)的不同特性與其針對的問題進行結(jié)合,設(shè)計出科學數(shù)據(jù)開放獲取的管理流程。但是區(qū)塊鏈技術(shù)畢竟還是一種正在發(fā)展中的技術(shù),在其實踐應(yīng)用過程中也會存在一些問題。比如,隨著信息技術(shù)和密碼學的不斷發(fā)展,區(qū)塊鏈中采用的非對稱加密算法在不久的將來會很容易被破解等。但畢竟區(qū)塊鏈技術(shù)目前還是能夠在一定程度上推動科學數(shù)據(jù)的開放獲取建設(shè),因此要充分認識到區(qū)塊鏈技術(shù)的優(yōu)勢,合理有效地將其運用到相關(guān)業(yè)務(wù)中。