馬海群,蒲 攀
(黑龍江大學a.信息資源管理研究中心,b.信息管理學院)
開放數(shù)據(jù)的內(nèi)涵認知及其理論基礎(chǔ)探析
馬海群a,蒲 攀b
(黑龍江大學a.信息資源管理研究中心,b.信息管理學院)
我國各類數(shù)據(jù)公開力度與國際水平相比存在明顯差距,開放數(shù)據(jù)現(xiàn)狀與數(shù)據(jù)需求之間的供求關(guān)系也表現(xiàn)出非平衡性。近年來,數(shù)據(jù)中心聯(lián)盟(DCA)、開放數(shù)據(jù)中心委員會(ODCC)等的相繼成立,以及《促進大數(shù)據(jù)發(fā)展行動綱要》等相關(guān)政策的頒布,表明了我國加入全球開放數(shù)據(jù)運動的積極態(tài)度。本文從開放數(shù)據(jù)的定義、類型以及其與大數(shù)據(jù)、開放源代碼、開放獲取、信息公開等概念的辨析入手,深入分析開放數(shù)據(jù)的內(nèi)涵,并對知情權(quán)理論、數(shù)據(jù)權(quán)理論和數(shù)據(jù)價值理論等開放數(shù)據(jù)的理論基礎(chǔ)進行探究,試圖豐富我國開放數(shù)據(jù)的理論研究體系。
開放數(shù)據(jù);大數(shù)據(jù);知情權(quán);數(shù)據(jù)權(quán);數(shù)據(jù)價值
從2009年起,隨著美國、英國、加拿大、新西蘭等國政府相繼宣布他們的公眾信息開放計劃,開放數(shù)據(jù)開始受到主流媒體的關(guān)注。筆者以為,全球數(shù)據(jù)資源急速膨脹的倒逼、信息公開實踐的推動、后信息時代大眾創(chuàng)新的需求驅(qū)動、開源理念與開放思維的普及、公眾政治參與意識的覺醒等共同推動了全球開放數(shù)據(jù)運動的興起。在我國,國家主席習近平曾指出,實現(xiàn)“中國夢”的關(guān)鍵在于共享。這種共享是方方面面的,我們認為,數(shù)據(jù)的開放就是其中很重要的一個方面。它不僅是促進我國民主社會中公眾知情權(quán)、數(shù)據(jù)權(quán)等基本權(quán)利普遍實現(xiàn)的必要手段,也是促進大數(shù)據(jù)時代以價值發(fā)現(xiàn)為主要目標、以數(shù)據(jù)驅(qū)動為主要方式的社會創(chuàng)新和大眾創(chuàng)新的重要途徑。
隨著國內(nèi)數(shù)據(jù)中心聯(lián)盟(DCA)和開放數(shù)據(jù)中心委員會(ODCC)等的相繼成立,2014年和2015年開放數(shù)據(jù)中心峰會的召開,以及2013年《關(guān)于進一步加強政務(wù)部門信息共享建設(shè)管理的指導意見》和《關(guān)于促進信息消費擴大內(nèi)需的若干意見》、2015年《促進大數(shù)據(jù)發(fā)展行動綱要》、2016年《貴州省大數(shù)據(jù)發(fā)展應(yīng)用促進條例》的頒布,包括2015年著手進行的《中華人民共和國政府信息公開條例》的修訂工作,[1]我國的開放數(shù)據(jù)運動已經(jīng)有望跟國際形勢接軌。
2.1 開放數(shù)據(jù)的定義
將數(shù)據(jù)開放有很多方法,在網(wǎng)絡(luò)時代最直接的方式是提供數(shù)據(jù)在線版本。關(guān)于開放數(shù)據(jù),至今尚無統(tǒng)一標準的定義,大多是針對開放性的描述,以下介紹幾種典型定義。
開放知識基金會:開放數(shù)據(jù)是一類可以被任何人免費使用、再利用、再分發(fā)的數(shù)據(jù),在其限制上,頂多是要求署名和使用類似的協(xié)議再分發(fā)。[2]維基百科:開放數(shù)據(jù)是指數(shù)據(jù)應(yīng)該免費提供給任何人,以便他們按照自己的意愿自由地訪問、使用、修改和再發(fā)布,而不受版權(quán)、專利權(quán)或其他控制機制的限制和約束。[3]喬爾·古林:那些已經(jīng)被政府或者其他組織發(fā)布,任何人都能獲得并能用于任何商業(yè)或者個人目的的數(shù)據(jù)。[4]相麗玲:一種自然屬于或被許可進入公有領(lǐng)域,可以面向所有人自由使用或被授權(quán)利用、再利用和重新分配的數(shù)據(jù)。[5]李佳佳:開放數(shù)據(jù)不是可供人們獲取的數(shù)據(jù),也不是免費的數(shù)據(jù),它是總是被給予的數(shù)據(jù),它依賴于見證者而存在。[6]
筆者在此通過“數(shù)據(jù)”和“開放”兩大要素來闡釋開放數(shù)據(jù)的內(nèi)涵。首先,“數(shù)據(jù)(data)”一詞在拉丁文里是“已知”的意思,也可理解為“事實”。第一次開放數(shù)據(jù)的正式會議將“數(shù)據(jù)”定義為“一切以電子形式存儲的記錄”。[7]化柏林指出:數(shù)據(jù)是對客觀世界的簡單描述與觀察記錄,是對事實的編碼化、序列化、數(shù)字化。[8]美國紐約州2013年11月發(fā)布的開放數(shù)據(jù)手冊中對“數(shù)據(jù)”的解釋是,數(shù)據(jù)是統(tǒng)計或事實性信息的最終版本,它以字母數(shù)字形式反映在列表、表格、圖形、圖表或其他非敘事形式的文件中,可以進行數(shù)字傳輸或處理。[9]綜上可知,數(shù)據(jù)是字母數(shù)字形式的可供處理的客觀記錄。其次,開放數(shù)據(jù)所開放的不僅僅是單純的某一個數(shù)據(jù),更多的是某一類數(shù)據(jù)或者數(shù)據(jù)組合,通常被稱為“數(shù)據(jù)集”,即保存在存儲設(shè)備上的相關(guān)命名記錄,以及包含序化和格式化,并以表格或非表格形式呈現(xiàn)的數(shù)據(jù)的集合。最后,數(shù)據(jù)的格式應(yīng)該是開放的。開放格式的好處在于它允許開發(fā)者基于它開發(fā)不同的軟件和服務(wù),進而降低重用數(shù)據(jù)的壁壘,[2]常見的開放數(shù)據(jù)格式有CSV、RDF、JSON、KML/KMZ、XML、HTML、ZIP等。
再從“開放”的角度理解,洪京一指出,開放數(shù)據(jù)并不是簡單地將數(shù)據(jù)電子化、格式化,降低獲取數(shù)據(jù)的難度和提高數(shù)據(jù)的再利用程度才是核心,該核心的實現(xiàn)正是對于“開放性”的要求。[10]真正的開放意味著對任何人不存在任何再利用數(shù)據(jù)的限制,無論是法律上、經(jīng)濟上還是技術(shù)上。2007年12月,第一次開放數(shù)據(jù)的正式會議制定發(fā)布了開放公共數(shù)據(jù)的8條標準和原則,要求數(shù)據(jù)必須是完整的、原始的、及時的、可讀取的、機器可處理的、不需要許可證的、數(shù)據(jù)的獲取必須是無歧視的(可獲取性和可訪問性)、數(shù)據(jù)的格式必須是通用非專有的(再利用和再分發(fā))。[7]192陽光基金會在此基礎(chǔ)上增加了可持續(xù)提供和最小化獲取開支,英國皇家學會提出了“可評價”的標準。[11]以上準則使得開放數(shù)據(jù)具有“互用性”的特點,即協(xié)同操作或混合不同數(shù)據(jù)集成為可能,這也是數(shù)據(jù)共通共享的核心要義,互用性的存在直接推動著開放數(shù)據(jù)最終目標“數(shù)據(jù)增值”的實現(xiàn)。
美國行政管理和預(yù)算局(OMB)認為,聯(lián)邦政府發(fā)布的數(shù)據(jù),其獲得方式、產(chǎn)生的方法必須是透明的,要求政府在發(fā)布數(shù)據(jù)的同時,必須發(fā)布一系列文檔,說明數(shù)據(jù)的來源、產(chǎn)生的方法,以及用戶復(fù)制過程中可能出現(xiàn)的問題和錯誤。[7]132根據(jù)OMB的要求,任何人通過相同的方法,都能夠產(chǎn)生和復(fù)制聯(lián)邦政府發(fā)布的相同的數(shù)據(jù),當然,這需要在相當透明和理想的環(huán)境下才能實現(xiàn)。但OMB的做法無疑拓寬了“開放”的內(nèi)涵,即開放數(shù)據(jù)不僅僅指“數(shù)據(jù)”的開放,還應(yīng)該包含“過程”的開放,即數(shù)據(jù)的來源、獲取、處理等一系列數(shù)據(jù)操作方式的公開與透明。當然,偏差甚至錯誤也是允許存在的,數(shù)據(jù)開放的目的是實現(xiàn)價值增值,實現(xiàn)的方法除了挖掘數(shù)據(jù)本身及關(guān)聯(lián)的價值以外,也應(yīng)當包括數(shù)據(jù)糾錯。
2.2 開放數(shù)據(jù)的類型
說到開放數(shù)據(jù),大部分人會將其等同于開放政府數(shù)據(jù)或者政府開放數(shù)據(jù),其實不然,如今的開放數(shù)據(jù)興起于科研領(lǐng)域的開放獲取。徐佳寧將開放數(shù)據(jù)的發(fā)展分為三個階段:科學數(shù)據(jù)共享階段、開放政府數(shù)據(jù)階段和開放數(shù)據(jù)的結(jié)構(gòu)化、關(guān)聯(lián)化階段。[12]所以我們認為如今各類符合“默認開放”原則的結(jié)構(gòu)化、關(guān)聯(lián)化數(shù)據(jù)也應(yīng)屬于開放數(shù)據(jù)的范疇。
麥肯錫全球研究所(MGI)2013年發(fā)布的研究報告《開放數(shù)據(jù):流動性信息開啟創(chuàng)新、提高效率》中指出,來自公共和私人領(lǐng)域的開放數(shù)據(jù)為大數(shù)據(jù)分析增加了新的維度,并將之提升到“以數(shù)據(jù)驅(qū)動創(chuàng)新”的新層面,因此,開放的數(shù)據(jù)集無論大小,都可以來自政府或其他機構(gòu)和企業(yè)以及個人。[13]報告還對數(shù)據(jù)的范圍和關(guān)系進行了界定(見圖),很明顯,開放政府數(shù)據(jù)完全包含在開放數(shù)據(jù)中,而作為個人數(shù)據(jù)的“My-Data”也有一部分與開放數(shù)據(jù)重合。因此,本文對開放數(shù)據(jù)的分類將據(jù)此進行。此外,由于開放數(shù)據(jù)的理念最早源于1958年國際科學聯(lián)合會建立世界數(shù)據(jù)中心(WDC)時提出的科學數(shù)據(jù)的開放獲取,[14]所以,如今的科學數(shù)據(jù)應(yīng)該有絕大部分屬于開放數(shù)據(jù)的范疇,比如公共資金、公益基金資助的科學研發(fā)過程中產(chǎn)生的原始數(shù)據(jù)(涉及國家安全、公共安全的除外)。
圖開放數(shù)據(jù)與其他種類數(shù)據(jù)的關(guān)系
美國信息智庫專家喬爾·古林也指出,從某個特殊的意義上來說,個人數(shù)據(jù)也可以成為開放數(shù)據(jù),借助新技術(shù),個人可以安全并有選擇地公開自己想要公開的數(shù)據(jù)。同時,Personal.com和Reputation.com等公司也堅持認為,由個人控制的私人數(shù)據(jù)的新市場將能在保護個人隱私的同時創(chuàng)造出新的商業(yè)發(fā)展機會。[4]17那么,由于個人數(shù)據(jù)存在極大的價值增值空間,但它的開放又很容易觸及隱私問題,這類數(shù)據(jù)的開放便成了一道矛盾的選擇題。MGI的報告為之提供了可能的思路,即可將個人數(shù)據(jù)分為不包含個人可識別信息部分(這部分在獲得授權(quán)的情況下向公眾無差別開放),以及涉及個人身份信息的數(shù)據(jù)(這部分數(shù)據(jù)可面向數(shù)據(jù)持有者本人開放)。美國已經(jīng)開始了這方面的實踐,一些醫(yī)院現(xiàn)在提供個別患者獲得自己的醫(yī)療記錄數(shù)據(jù),在某些情況下,個人被允許修改或校正提供給它們的關(guān)于自身的數(shù)據(jù),以改善數(shù)據(jù)的質(zhì)量。[13]
綜上,我們按數(shù)據(jù)權(quán)利主體,將開放數(shù)據(jù)的類型分為政府數(shù)據(jù)、公共數(shù)據(jù)、科學數(shù)據(jù)、商業(yè)數(shù)據(jù)和個人數(shù)據(jù)。需要說明的是,雖然公共數(shù)據(jù)的權(quán)利所有人是公眾,但大部分是政府持有的,這部分數(shù)據(jù)與政府數(shù)據(jù)重合。同樣,雖然公民個人數(shù)據(jù)的所有權(quán)在公民自己手中,但很多數(shù)據(jù)卻并非自身持有,而是托管于第三方,例如QQ、微信、微博等社交網(wǎng)站的個人資料數(shù)據(jù)及原創(chuàng)內(nèi)容,這部分數(shù)據(jù)在經(jīng)過授權(quán)允許的情況下也可能轉(zhuǎn)變成商業(yè)數(shù)據(jù)。
2.3 開放數(shù)據(jù)相關(guān)概念辨析
2.3.1 開放數(shù)據(jù)與大數(shù)據(jù)
首先,大數(shù)據(jù)是與小數(shù)據(jù)相對的概念??梢岳斫鉃閭鹘y(tǒng)抽樣分析的“小數(shù)據(jù)”與當今計算機處理技術(shù)的“大記錄”共同造就了大數(shù)據(jù),大數(shù)據(jù)的核心在于“大”規(guī)模、“大”處理和“大”創(chuàng)新,而開放數(shù)據(jù)的核心要義在于大“開放”。其次,開放數(shù)據(jù)與大數(shù)據(jù)的特點不同。開放數(shù)據(jù)強調(diào)數(shù)據(jù)的可獲取性、再利用性、普遍參與性、免費性和互用性,大數(shù)據(jù)強調(diào)數(shù)據(jù)的大體量(Volume)、大處理(Velocity)、來源多樣(Variety)、真實準確(Veracity)、易變(Variability)、低價值密度(Value)和復(fù)雜(Complexity)的“6V+1C”特性。再次,開放數(shù)據(jù)與大數(shù)據(jù)囊括的數(shù)據(jù)范圍不同。MGI報告中開放數(shù)據(jù)與其他種類數(shù)據(jù)的關(guān)系圖示清楚地表明,開放數(shù)據(jù)與大數(shù)據(jù)有相交重合的部分,也有相互分離的部分。就范圍來看,絕大部分開放數(shù)據(jù)最終都屬于大數(shù)據(jù)。最后,開放數(shù)據(jù)與大數(shù)據(jù)的目的性不同。開放數(shù)據(jù)最初的目的在于推進民主,因此無例外情況下倡導所有公共數(shù)據(jù)全部開放,而大數(shù)據(jù)通常來源于無目的、無方向甚至無意識間產(chǎn)生的資源。一個典型的例子就是美國國家安全局的“棱鏡門”事件,我們可以說棱鏡計劃屬于大數(shù)據(jù),但是斯諾登對“棱鏡計劃”的揭露不能算作開放數(shù)據(jù),因為真正的數(shù)據(jù)開放,必須是由有權(quán)利這么做,并且有明確公共目的人來有意公布。[4]8-10在此需要強調(diào),目的的合法性同樣重要。
2.3.2 開放數(shù)據(jù)與開放源代碼
首先,開放的對象與要求不同。開放源代碼開放的是程序原代碼,停留在技術(shù)層面,并且沒有特殊的格式要求,面向的僅僅是程序員。而開放數(shù)據(jù)開放的是原始數(shù)據(jù),要求統(tǒng)一標準的開放格式。它不僅和技術(shù)人員相關(guān),還與數(shù)據(jù)的來源、性質(zhì)以及過去和未來的使用人員都息息相關(guān)。其次,興起的領(lǐng)域不同。開放源代碼屬于軟件工程領(lǐng)域,它的興起主要依靠互聯(lián)網(wǎng)巨頭IBM、微軟等之間的商業(yè)競爭,競爭的焦點在于是否“免費”提供并授權(quán)修改。而開放數(shù)據(jù)興起于科研、政府及公共領(lǐng)域,是為了響應(yīng)公眾的數(shù)據(jù)訴求,自帶公益的屬性,所以“免費”是無需爭議的前提,也不具備營利性。最后,受益的群體不同。開放源代碼的受益者主要是信息技術(shù)產(chǎn)業(yè)領(lǐng)域的各互聯(lián)網(wǎng)企業(yè),或者說是這些企業(yè)的技術(shù)員和程序員。很明顯,想要直接獲得開源帶來的好處,首先必須擁有一定的專業(yè)技術(shù)知識儲備。開放數(shù)據(jù)的受益者是無差別的所有人,理想狀態(tài)下,不受地域、國籍、民族、文化限制的所有自然人都能從中獲益,也因為這種普遍參與性,受益人并不需要具備特定的技能。
2.3.3 開放數(shù)據(jù)與開放獲取
首先,開放的對象和領(lǐng)域不同。前面論述過,開放數(shù)據(jù)的對象是諸多來源的原始數(shù)據(jù)本身,我們通過這些“原始數(shù)據(jù)”可能會得到任一領(lǐng)域的科學發(fā)現(xiàn),但并不絕對。而開放獲取興起于科研、學術(shù)和出版領(lǐng)域,它的對象主要是學術(shù)出版物,即已經(jīng)得到的科學發(fā)現(xiàn),主要是科研領(lǐng)域的成果。因此,可以這么認為,開放獲取是開放數(shù)據(jù)在科研領(lǐng)域的早期表現(xiàn)形式,通過開放獲取我們一定能夠得到知識,但通過開放數(shù)據(jù),我們僅能得到事實,能否將這些事實轉(zhuǎn)化成知識還取決于個人能力等一系列其他因素。其次,開放的程度不同。開放獲取分兩種程度:“免費”開放獲取,即免費在線訪問,和“自由”開放獲取,即免費在線訪問外加一些額外的使用權(quán),這些額外使用權(quán)通常由各種具體的知識共享許可協(xié)議授予。[14]而開放數(shù)據(jù)遵循“默認公開推定”原則,即公開是原則,不公開是例外,并不需要額外的授權(quán)過程。所有數(shù)據(jù)一旦產(chǎn)生,就將被默認為“可以公開”,如果不能公開必須說明理由,這些例外一般包括涉及國家安全、機密信息、個人隱私等方面的數(shù)據(jù)。最后,開放的形式不同。開放數(shù)據(jù)以機器可讀的開放格式公布原始數(shù)據(jù),任何人可以對這些數(shù)據(jù)進行操作并提出質(zhì)疑。但由于開放獲取只能提供科學發(fā)現(xiàn)的最終版本,即包含知識的原始文獻,這些版本里或許會包含一定量的數(shù)據(jù)集,但卻不包括得出發(fā)現(xiàn)的原始數(shù)據(jù)。從而就缺乏作為檢驗實驗或調(diào)查是否科學的基本依據(jù),其他科研人員也無法通過避免重復(fù)勞動的方式來縮短深入研究的周期。[15]
2.3.4 開放數(shù)據(jù)與信息公開
首先,產(chǎn)生的環(huán)境不同。信息公開是上個世紀末提出的,對應(yīng)于電子政務(wù)的早期環(huán)境,最早是互聯(lián)網(wǎng)技術(shù)普及催生的政府行為。而數(shù)據(jù)開放是2009年提出的新概念,產(chǎn)生于大數(shù)據(jù)時代,由科學領(lǐng)域的開放獲取運動催生。[16]信息公開最初主要由美國社會的第四股力量“新聞和報紙”推動,而開放數(shù)據(jù)最初的動力來源于民間組織。其次,概念的內(nèi)涵不同。第一,公開是政府等相關(guān)權(quán)利機構(gòu)和社會公眾或某一社會特定主體的關(guān)系,是點對點或點對面的。開放是將相關(guān)數(shù)據(jù)的全過程透明化,且由于數(shù)據(jù)開放主體的多樣性,形成了開放主體與社會公眾面對面的關(guān)系。第二,信息公開強調(diào)主體的主動性,開放數(shù)據(jù)強調(diào)主體的義務(wù)性。第三,情報學專家認為,信息是數(shù)據(jù)在信息媒介上的映射,是有意義的數(shù)據(jù),而數(shù)據(jù)是對客觀事實數(shù)字化的記錄,其本身并無意義。[8]那么從這一點上理解,信息公開就是賦予了背景的開放數(shù)據(jù),由于同一組數(shù)據(jù)可以被賦予N多種背景(N>1),因此從范疇上來說,開放數(shù)據(jù)要大于信息公開。最后,最終目的不同。信息公開主要是民主政治的要求,為了滿足公眾的知情權(quán),并對政府機構(gòu)進行監(jiān)督與檢查。但由于開放原始數(shù)據(jù)的成本比信息公開高很多,所以開放數(shù)據(jù)除了考慮社會效應(yīng),滿足公眾的知情權(quán)、數(shù)據(jù)權(quán)以外,還要考慮經(jīng)濟效益。它通過賦予公眾數(shù)據(jù)的使用權(quán)、分享傳播權(quán)來刺激公眾的數(shù)據(jù)需求、推動大眾創(chuàng)新,并最終實現(xiàn)數(shù)據(jù)增值。需要指出的是,雖然信息公開與開放數(shù)據(jù)有諸多不同,但兩者之間也存在大量相同或相近的內(nèi)容,信息公開的內(nèi)容經(jīng)過重新抽取、處理、格式化、結(jié)構(gòu)化可以作為開放數(shù)據(jù)的內(nèi)容,這也是我國上海市加快推進政府開放數(shù)據(jù)建設(shè)的一條快速途徑。[17]
以上對開放數(shù)據(jù)內(nèi)涵的分析為相關(guān)研究的展開奠定了基本的理念基礎(chǔ),而開放數(shù)據(jù)理論研究體系的豐富還需要有相關(guān)理論基礎(chǔ)的支撐,下面基于開放數(shù)據(jù)運動所追求的目標屬性探究其理論基礎(chǔ)。
3.1 知情權(quán)理論
知情權(quán)(Right to know)又稱了解權(quán)或知悉權(quán),是二戰(zhàn)后出現(xiàn)的一項新的人權(quán)。憲政領(lǐng)域的公民知情權(quán)是指公民接受、尋求和獲取官方所掌握的情報信息的自由和權(quán)利。[18]1766年瑞典頒布的《出版自由法》規(guī)定市民為出版可以自由地閱覽公文書,成為知情權(quán)的雛形,也是世界上最早以法律形式規(guī)定知情權(quán)的國家。[19]1945年,美聯(lián)社執(zhí)行主編庫珀率先在美國提出了“知情權(quán)”的概念。他指出,知情權(quán)是指人民有權(quán)知道政府的運作情況和信息。如果不尊重公民的知情權(quán),在任何一個國家,甚至全世界,都將無政治自由可言。1953年,美國哈羅德·克勞斯出版了《人民的知情權(quán)》一書,被后世譽為信息自由運動的“圣經(jīng)”,后來美國出臺的《信息自由法》,基本主張也都來源于此。[7]17-21此后,知情權(quán)的概念逐漸流行起來,并被作為公民的一項基本權(quán)利寫入法律。如聯(lián)合國大會1948年通過的《世界人權(quán)宣言》、美國1966年的《信息自由法》、挪威1971年的《信息自由法》、法國1978年的《自由獲得行政文件》、澳大利亞1982年的《情報自由法》、加拿大1987年的《信息公開法》、荷蘭1991年的《政府信息法》、俄羅斯1995年的《信息、信息化與信息保護法》、日本1995年的《關(guān)于行政機關(guān)所保有之信息公開的法律》、韓國1996年的《公共機構(gòu)信息公開法》、英國2000年的《信息自由法》以及我國2007年通過的《中華人民共和國政府信息公開條例》(2015年修訂工作已在進行中),等等。[19,20]
知情權(quán)是民主政治的內(nèi)在要求,固有性、基本性與核心性是知情權(quán)的基本權(quán)利屬性,同時具有基礎(chǔ)性、普遍性和不可剝奪性的特點,并遵循普遍、合理和正義的原則。它的價值主要體現(xiàn)在:保障公民基本民事權(quán)利(人身權(quán)、財產(chǎn)權(quán)、知識產(chǎn)權(quán)等),推動政治民主化進程,監(jiān)督政府行為、防止政府腐敗,提高信息資源的共享程度和利用效率,維護法治秩序等方面。[21]開放數(shù)據(jù)最初的目的在于推進民主,毫無疑問,它的整個過程是為了滿足公民的知情權(quán),而關(guān)于開放數(shù)據(jù)的立法及行政法規(guī)制定的首要目標也是保障公民基本的知情權(quán),從而實現(xiàn)對公民的賦權(quán),進而實現(xiàn)建立在公民知情權(quán)基礎(chǔ)上的對公民的參與權(quán)和監(jiān)督權(quán)等的保障,并且使之能夠成為約束行政權(quán)力和建立民主政治的基礎(chǔ)。[21]可以說,若公民基本的知情權(quán)得不到有效保證,民主政治將失去重要基石,開放數(shù)據(jù)也便成為一紙空談。
3.2 數(shù)據(jù)權(quán)理論
2010年5月,英國首相卡梅倫領(lǐng)導的聯(lián)合政府在深化數(shù)據(jù)開放運動的同時,首次提出了“數(shù)據(jù)權(quán)(Right to Data)”的概念,強調(diào)數(shù)據(jù)權(quán)是信息時代每個公民都擁有的一項基本權(quán)利,它將確保人民有權(quán)向政府索取各式各樣的數(shù)據(jù),用于社會創(chuàng)新或者商業(yè)創(chuàng)新,并承諾要在全社會普及數(shù)據(jù)權(quán)。不久后的5月25日,英國女王在新一屆議會發(fā)表的演講中也強調(diào)要全面保障公眾的數(shù)據(jù)權(quán)。[7]271-274此后,數(shù)據(jù)權(quán)作為數(shù)字時代一項新的公民權(quán)利開始受到廣泛關(guān)注和討論。曹磊指出,數(shù)據(jù)民主下的數(shù)據(jù)權(quán)是民主社會公民權(quán)利在網(wǎng)絡(luò)空間的延伸。[22]李良榮指出,“數(shù)據(jù)權(quán)”有望成為下一個公民應(yīng)有且必需的權(quán)利。[23]2011年4月,英國勞工關(guān)系部和商業(yè)部推出了落實全民數(shù)據(jù)權(quán)的“MyData”項目,“你的數(shù)據(jù)你做主”是該項目的核心思想,谷歌、巴克萊信用卡、匯豐銀行、Groupe Aeroplan、Home Retail Group等十多家不同行業(yè)的大公司紛紛加入了這個項目,承諾將對社會開放公司收集的與客戶相關(guān)的數(shù)據(jù),實現(xiàn)了商業(yè)領(lǐng)域開放數(shù)據(jù)的巨大飛躍。值得一提的是,由于把數(shù)據(jù)開放的理念從公共領(lǐng)域推進到商業(yè)領(lǐng)域的重大實踐,“MyData”的成功一度使英國的數(shù)據(jù)開放超越了美國。[7]274-276
廣義的數(shù)據(jù)權(quán)包括數(shù)據(jù)主權(quán)和數(shù)據(jù)權(quán)利兩個方面,前者的實施主體是國家,后者的主體是全體公民。狹義的數(shù)據(jù)權(quán)僅指數(shù)據(jù)權(quán)利,即卡梅倫政府提出的信息時代公民的一項基本權(quán)利,主要包括個人數(shù)據(jù)權(quán)和數(shù)據(jù)財產(chǎn)權(quán)。數(shù)據(jù)主權(quán)是一個國家獨立自主地對其政權(quán)管轄地域內(nèi)的數(shù)據(jù)享有生成、傳播、管理、控制、利用和保護的權(quán)力,其核心是對數(shù)據(jù)的管理權(quán)、控制權(quán)和利用權(quán)。[24]數(shù)據(jù)權(quán)利是相對應(yīng)公民數(shù)據(jù)采集義務(wù)而形成的對數(shù)據(jù)利用的權(quán)力,具備獨立性和開放性。[22]國家的數(shù)據(jù)主權(quán)是公民的數(shù)據(jù)權(quán)利得以行使的充分條件。個人數(shù)據(jù)權(quán)是自然人依法對其個人數(shù)據(jù)進行控制和支配并排除他人干涉的權(quán)利,屬于人格權(quán)類型,主要包括數(shù)據(jù)檢索權(quán)、數(shù)據(jù)獲取權(quán)、數(shù)據(jù)授權(quán)權(quán)、數(shù)據(jù)裁定權(quán)、數(shù)據(jù)修正權(quán)、監(jiān)督使用權(quán)、數(shù)據(jù)隱私權(quán)、數(shù)據(jù)安全權(quán)、數(shù)據(jù)隱匿權(quán)、數(shù)據(jù)遺忘權(quán)、數(shù)據(jù)收益申請權(quán)和數(shù)據(jù)侵害索賠權(quán)等。數(shù)據(jù)財產(chǎn)權(quán)是權(quán)利人直接支配特定的數(shù)據(jù)財產(chǎn)并排除他人干涉的權(quán)利,屬于經(jīng)濟權(quán)類型,它是大數(shù)據(jù)時代誕生的一種新類型的財產(chǎn)權(quán)形態(tài),主要表現(xiàn)在權(quán)利人依法享有對自己數(shù)據(jù)財產(chǎn)的所有、利用、獲益和處理的權(quán)利。[24]此外,個人數(shù)據(jù)具有價值和使用價值的商品特征,為構(gòu)建數(shù)據(jù)市場提供了“數(shù)據(jù)商品化”的思路,這也為個人數(shù)據(jù)權(quán)與數(shù)據(jù)財產(chǎn)權(quán)之間搭起了橋梁,以便公民數(shù)據(jù)權(quán)的充分實現(xiàn)。[25]
需要特別指出的是,在基于“預(yù)測”的大數(shù)據(jù)時代,公民的數(shù)據(jù)權(quán)也會因預(yù)測的“雙刃劍效應(yīng)”而受到侵害,即往往不是因為“所做”而是因為“將做”受到懲罰。由于大數(shù)據(jù)強調(diào)相關(guān)關(guān)系,而非因果關(guān)系,便會造成“預(yù)測”的偏差甚至濫用。2002年上映的美國電影《Minority Report》中有這樣一個場景:在2054年的華盛頓特區(qū),警局預(yù)防犯罪組依據(jù)三個超自然人的想象——Howard Marks將要謀殺他的妻子,而逮捕了他,可事實上,Howard什么也沒做。[26]電影描述了一個未來可以準確預(yù)知的世界,而如今我們利用大數(shù)據(jù)分析技術(shù)正在實現(xiàn)這種預(yù)知,該場景警示我們:未來可能出現(xiàn)大數(shù)據(jù)“預(yù)測”的濫用,通過侵犯個人數(shù)據(jù)權(quán),而侵犯公民的人身財產(chǎn)權(quán)利。這種預(yù)測違背了人類的自由意志,違反了無罪推定的原則。面對這種侵害,我們應(yīng)當有權(quán)利依法行使數(shù)據(jù)侵害索賠權(quán)、數(shù)據(jù)隱私權(quán)、監(jiān)督使用權(quán)等數(shù)據(jù)權(quán)利。[27]
3.3 數(shù)據(jù)價值理論
2015年1月1日,由大華南IT高管共贏圈、CIO發(fā)展中心等發(fā)起成立的“數(shù)據(jù)價值網(wǎng)”正式上線。作為DT時代的新銳媒體,它致力于促進分享、聯(lián)接以及整合各種有價值的數(shù)據(jù)資源。數(shù)據(jù)價值網(wǎng)的成立在為大數(shù)據(jù)時代數(shù)據(jù)增值提供良好平臺的同時,也啟發(fā)我們重新審視數(shù)據(jù)價值。
數(shù)據(jù)科學家舍恩伯格指出:數(shù)據(jù)的全部價值遠遠大于其最初的使用價值,最終,數(shù)據(jù)的價值是其所有可能用途的總和。[27]132這一說法與大數(shù)據(jù)定律之一“數(shù)據(jù)之和的價值遠遠大于數(shù)據(jù)價值的和”的觀點一致,即對于大數(shù)據(jù)時代數(shù)據(jù)價值的挖掘,我們總能得到“1+1>2”(這里的“+”指的是數(shù)據(jù)的整合,而非簡單的加和)的效果。即使考慮數(shù)據(jù)折舊(注釋:數(shù)據(jù)失去部分基本用途),也不影響這種價值的實現(xiàn)。因為在開放數(shù)據(jù)的助力下,數(shù)據(jù)的潛在價值(注釋:因使用而產(chǎn)生的價值)往往足以抵消數(shù)據(jù)折舊所帶來的負面影響,而且并非所有的數(shù)據(jù)都會貶值(注釋:比如史書資料數(shù)據(jù))。此外,數(shù)據(jù)具有價值和使用價值的商品特征,價值取決于數(shù)據(jù)本身,由它的及時性、真實性、客觀性和準確性決定。也就是說數(shù)據(jù)一旦產(chǎn)生這個價值就確定了,我們暫且把這部分價值稱為數(shù)據(jù)的“固有價值”。但正如舍恩伯格所言:“大部分的數(shù)據(jù)價值在于它的使用,而不是占有本身”,基本再利用、數(shù)據(jù)重組、數(shù)據(jù)擴展、數(shù)據(jù)折舊、數(shù)據(jù)廢氣和開放數(shù)據(jù)這六種潛在價值的釋放方式將最終決定數(shù)據(jù)的全部價值。開放數(shù)據(jù)使數(shù)據(jù)具有經(jīng)濟學意義上的“非競爭性”,由于無差別獲取原始數(shù)據(jù),因此個人的使用并不會妨礙其他人的使用,也不會像其他物質(zhì)產(chǎn)品一樣隨著使用而有所耗損。即數(shù)據(jù)經(jīng)過無限次重復(fù)利用之后,要么獲得新的科學發(fā)現(xiàn)而增值,要么保持原有價值繼續(xù)傳播。同時,根據(jù)邊際成本遞減規(guī)律,當收集多個數(shù)據(jù)流或每個數(shù)據(jù)流中更多的數(shù)據(jù)點時,由于額外成本減少、數(shù)據(jù)用途增多的雙重影響,潛在價值會得到更大程度的釋放。
價值轉(zhuǎn)移也是數(shù)據(jù)價值實現(xiàn)的一個重要途徑,這一點在諸多商業(yè)實踐中得到了證實。數(shù)據(jù)價值鏈主要由數(shù)據(jù)本身、技術(shù)和思維這三大要素構(gòu)成。[27]160大數(shù)據(jù)時代最初,數(shù)據(jù)本身更值錢,典型的例子就是2006年微軟以1.1億美元的價格購買了埃齊奧尼的大數(shù)據(jù)公司Farecast,而兩年后,谷歌以7億美元的價格購買了為Farecast提供數(shù)據(jù)的ITA Software公司。[28]這5.9億美元的價格差并不一定說明ITA Software比Farecast實力強,但卻在很大程度上表明了商業(yè)公司對數(shù)據(jù)本身的看重。要想挖掘數(shù)據(jù)帶來的價值與利益,就需要最大程度地獲取數(shù)據(jù)本身。隨著數(shù)據(jù)爆炸式增長,數(shù)據(jù)的價值密度不斷降低,擁有海量數(shù)據(jù)本身的優(yōu)勢就減弱了,此時,價值轉(zhuǎn)移到了技術(shù)上,數(shù)據(jù)科學家應(yīng)運而生,并成為極度缺乏的人才。谷歌首席經(jīng)濟學家哈里·范里安曾說“數(shù)據(jù)非常之多而且具有戰(zhàn)略重要性,但真正缺少的是從數(shù)據(jù)中提取價值的能力,”[29]數(shù)據(jù)科學家正擁有這種能力。他們懂技術(shù),具備數(shù)據(jù)處理相關(guān)的所有素質(zhì),并且運用得恰到好處。他們能夠通過數(shù)據(jù)挖掘得出“啤酒與尿布”的特殊關(guān)聯(lián)并指導銷售。到目前為止,數(shù)據(jù)和技能依然備受關(guān)注。因為在現(xiàn)今世界,技能依然欠缺,而數(shù)據(jù)則非常之多。但這并不是說思維就不重要了,相反,數(shù)據(jù)思維非常關(guān)鍵,因為它往往能夠激發(fā)數(shù)據(jù)和技能的雙重優(yōu)勢,并且實現(xiàn)數(shù)據(jù)價值在這三者之間的自由轉(zhuǎn)移?!按髷?shù)據(jù)+”就是數(shù)據(jù)思維的典型例子,它通過把大數(shù)據(jù)嫁接到不同的產(chǎn)業(yè),充分整合數(shù)據(jù)資源以創(chuàng)造經(jīng)濟效益。另外,對數(shù)據(jù)廢氣(注釋:用戶在線交互的副產(chǎn)品,通常包括瀏覽的頁面、停留的時間和位置、輸入的信息等)的挖掘也是數(shù)據(jù)思維的價值體現(xiàn)。阿里巴巴旗下淘寶網(wǎng)站的商品推薦功能就是數(shù)據(jù)廢氣價值挖掘的典型。某一用戶可能只是為了打發(fā)時間而瀏覽了商品,并未有任何購買行為,從經(jīng)濟效應(yīng)上來說,本次瀏覽是無效的,產(chǎn)生了數(shù)據(jù)廢氣。但淘寶會通過這個瀏覽得到用戶感興趣商品的反饋,進而通過挖掘潛在用戶或用戶的潛在購買力來創(chuàng)造收益。在大數(shù)據(jù)時代,那些單純擁有數(shù)據(jù)、技術(shù)或思維的公司,都在數(shù)據(jù)的價值轉(zhuǎn)移中分得了一杯羹,而像谷歌的拼寫檢查程序、亞馬遜的圖書推薦系統(tǒng)、淘寶的商品推薦系統(tǒng)三者兼具的企業(yè)更是收獲頗豐。
數(shù)據(jù)的潛在價值和價值轉(zhuǎn)移重塑了大數(shù)據(jù)價值鏈,顛覆了傳統(tǒng)的商業(yè)模式,催生了新的科學發(fā)現(xiàn),也成為呼喚開放數(shù)據(jù)的原始動力和最終目標。
[1]盧夢君.國務(wù)院信息公開辦確認:《信息公開條例》修訂工作已在進行中[EB/OL].[2016-03-28].http://www.thepaper.cn/newsDetail_forward_129 7040.
[2]Open Knowledge Foundation.Open Data Handbook Documentation[R].Cambridge of the UK:Open KnowledgeFoundation,2012.
[3]Open data[EB/OL].[2016-03-31].https://en. wikipedia.org/wiki/Open_data.
[4](美)喬爾·古林(Joel Gurin).開放數(shù)據(jù)[M].張尚軒譯.北京:中信出版社,2015:6.
[5]相麗玲,王晴.論開放數(shù)據(jù)的法律屬性、責任義務(wù)及其相關(guān)機制[J].國家圖書館學刊,2013(5):38-44.
[6]李佳佳.信息管理的新視角:開放數(shù)據(jù)[J].情報理論與實踐,2010(7):35-39.
[7]徐子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活[M].桂林:廣西師范大學出版社,2012:193.
[8]化柏林,鄭彥寧.情報轉(zhuǎn)化理論(上)——從數(shù)據(jù)到信息的轉(zhuǎn)化[J].情報理論與實踐,2012,35(3):1-4.
[9]New York State.New York StateOpen Data Handbook[R].United States:New York State,2013.
[10]洪京一.從G8開放數(shù)據(jù)憲章看國外開放政府數(shù)據(jù)的新進展[J].世界電信,2014(Z1):55-60.
[11]中國科學院國家科學圖書館開放資源建設(shè)組.開放數(shù)據(jù)調(diào)研報告[EB/OL].[2016-03-25].http: //open-resources.las.ac.cn/drupal/?q=node/3064.
[12]徐佳寧,王婉.結(jié)構(gòu)化、關(guān)聯(lián)化的開放數(shù)據(jù)及其應(yīng)用[J].情報理論與實踐,2014(2):53-56.
[13]McKinseyGlobal Institute.Open data:Unlocking innovation and performance with liquid information[R]. United States:MGI,2013.
[14]Openaccess[EB/OL].[2016-03-28].https://en. wikipedia.org/wiki/Open_access.
[15]Murray-Rust P.Open data in science[J].Serial Review,2008,34(1):52-64.
[16]胡小明.信息公開與數(shù)據(jù)開放有什么區(qū)別[J].中國信息化,2014(Z3):8-9.
[17]衛(wèi)軍朝,蔚海燕.上海推進政府開放數(shù)據(jù)建設(shè)的路徑及對策[J].科學發(fā)展,2014(11):80-88.
[18]陳瑞平,等.知情權(quán)理論與高校黨務(wù)公開制度的若干探討[J].前沿,2010(4):112-114.
[19]夏青青.公民知情權(quán)的基本理論探研[J].通化師范學院學報,2010(7):62-66.
[20]劉澤?。撝闄?quán)的基礎(chǔ)理論及其制度構(gòu)建[D].北京:中國政法大學,2007.
[21]馬海群,等.高校信息公開政策研究[M].北京:知識產(chǎn)權(quán)出版社,2014:10-12.
[22]曹磊.網(wǎng)絡(luò)空間的數(shù)據(jù)權(quán)研究[J].國際觀察, 2013(1):53-58.
[23]李良榮.“數(shù)據(jù)權(quán)”:下一個公民應(yīng)有且必需的權(quán)力[EB/OL].[2016-04-05].http://theory.people. com.cn/n/2013/0521/c112851-21551974-3.htm l.
[24]齊愛民,盤佳.數(shù)據(jù)權(quán)、數(shù)據(jù)主權(quán)的確立與大數(shù)據(jù)保護的基本原則[J].蘇州大學學報(哲學社會科學版),2015(1):64-70,191.
[25]謝楚鵬,溫孚江.大數(shù)據(jù)背景下個人數(shù)據(jù)權(quán)與數(shù)據(jù)的商品化[J].電子商務(wù),2015(10):32-34,42.
[26]MinorityReport(film)[EB/OL].[2016-04-08]. https://en.wikipedia.org/wiki/Minority_Report_(film).
[27](英)維克托·邁爾-舍恩伯格,庫克耶.大數(shù)據(jù)時代[M].盛楊燕,周濤譯.杭州:浙江人民出版社,2013:202-207.
[28]劉奧南.大數(shù)據(jù)開啟大時代[EB/OL].[2016-04-05].http://finance.china.com.cn/stock/20130817/ 1733563.shtm l.
[29]文雯.斯人:數(shù)據(jù)科學家[EB/OL].[2016-04-08].http://news.takungpao.com/fk/takung/small -park/2013-10/1987898.htm l.
Research on the Connotation and Theoretical Foundation ofOpen Data
MaHai-qun,Pu Pan
Comparingwith theinternational level,thereisasignificantgap ofour countryon the issueofopendataand the relationship between the supply and demand of the open data.The establishmentof the Data Center Alliance(DCA),Open Data Center Committee(ODCC)and the issue of related policy shows the positive attitude of China'saccession to the globalopen datamovement.Thisarticleanalyzes the conceptsand typesofopen dataaswellas thedifferenceamongopen dataand bigdata,open source code,open access,open information,etc.Meanwhile,it explores the theoretical basis of open data such as the right to know,the righttodataand thevalueofdata toenrich the theoretical research system of open data in China.
Open Data;BigData;Right toKnow;Right toData;ValueofData
G252.8
A
1005-8214(2016)11-0048-07
馬海群(1964-),男,黑龍江大學信息管理學院博士,教授,博士生導師,研究方向:信息政策與法律研究;蒲攀(1990-),女,陜西人,黑龍江大學信息管理學院在讀研究生,研究方向:信息資源管理研究。
2016-04-11[責任編輯]王崗
本文系國家社科基金重點項目“開放數(shù)據(jù)與數(shù)據(jù)安全的政策協(xié)同研究”(項目編號:15ATQ002),黑龍江大學研究生創(chuàng)新科研項目“大數(shù)據(jù)環(huán)境下我國開放數(shù)據(jù)政策模型研究”(項目編號:YJSCX2015-066HLJU)的系列成果之一。