国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

暢想大數(shù)據(jù)時(shí)代的檔案數(shù)據(jù)科學(xué)

2021-12-03 10:44劉婉欣雷曉蓉馮文博
檔案管理 2021年6期
關(guān)鍵詞:檔案工作檔案大數(shù)據(jù)

劉婉欣 雷曉蓉 馮文博

摘 ?要:檔案工作正在經(jīng)歷一個(gè)從接收保管紙質(zhì)檔案到接收保管電子檔案,從管檔案實(shí)體到管檔案數(shù)據(jù),從手工操作到信息化智能化操作,從檔案資源分散利用到聯(lián)網(wǎng)共享的變革過程?,F(xiàn)在以數(shù)據(jù)管理的角度審視檔案工作,在數(shù)據(jù)時(shí)代,檔案的收集整理保管利用將如何發(fā)展。

關(guān)鍵詞:大數(shù)據(jù);檔案;數(shù)據(jù)科學(xué);檔案管理;檔案工作

Abstract: Archival work is going through a process of transformation from receiving and keeping paper archives to receiving and keeping electronic archives, from managing archive entities to managing archive data, from manual operation to informatization and intelligent operation, from decentralized utilization of archive resources to network sharing. Now reviewing the archives work from the perspective of data management, in the data age, how the collection, storage and utilization of archives will develop.

Keywords: ?Big data; Archives; Data science; Archives management; Archives work

隨著大數(shù)據(jù)的縱深發(fā)展,檔案工作正逐步向數(shù)據(jù)檔案工作方面轉(zhuǎn)變。檔案工作從傳統(tǒng)檔案管理向檔案數(shù)據(jù)管理轉(zhuǎn)換。

檔案界面對大數(shù)據(jù)時(shí)代的到來,積極采取應(yīng)對措施。首先是檔案的載體發(fā)生變化:從紙質(zhì)檔案進(jìn)行數(shù)字化,接收雙套檔案,到現(xiàn)在的接收電子檔案。其次是管理上由手工記錄、計(jì)算機(jī)單機(jī)版數(shù)據(jù)管理到檔案管理信息系統(tǒng)管理。為與數(shù)據(jù)時(shí)代接軌,檔案信息化系統(tǒng)應(yīng)運(yùn)而生,標(biāo)準(zhǔn)版、定制版出現(xiàn)在人們面前,檔案信息化系統(tǒng)對檔案的各項(xiàng)工作極盡詳盡,充分展現(xiàn)出檔案工作者的積極參與與智慧展示。

回顧檔案界對大數(shù)據(jù)的應(yīng)對,我們發(fā)現(xiàn),所有工作都是從檔案的角度,分析、研究、設(shè)想檔案在今后社會發(fā)展過程中如何生存,如何在檔案的收集整理、保管利用上保持優(yōu)勢,如何順應(yīng)時(shí)代的變化。但是如果我們換個(gè)位置,以數(shù)據(jù)管理的角度審視檔案工作,在數(shù)據(jù)時(shí)代,檔案的定義及收集保管利用將如何變化?

目前,大數(shù)據(jù)已受到各學(xué)科領(lǐng)域的高度關(guān)注,成為包括計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)在內(nèi)的多個(gè)學(xué)科領(lǐng)域的新研究方向,使不同專業(yè)領(lǐng)域中的數(shù)據(jù)研究出現(xiàn)相互高度融合的趨勢,由此產(chǎn)生一門新興學(xué)科——數(shù)據(jù)科學(xué)。

數(shù)據(jù)科學(xué)興起于1974年,著名計(jì)算機(jī)科學(xué)家、圖靈獎(jiǎng)獲得者PeterNaur在其著作Concise Survey of Computer Methods的前言中首次明確提出了數(shù)據(jù)科學(xué)的概念:“數(shù)據(jù)科學(xué)是一門基于數(shù)據(jù)處理的科學(xué)?!盵1]

從目前的研究現(xiàn)狀來看,數(shù)據(jù)科學(xué)可以分為兩類:專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)。專業(yè)數(shù)據(jù)科學(xué)聚集了不同專業(yè)中的數(shù)據(jù)科學(xué)中的共性理念、理論、方法、術(shù)語與工具;相對于專業(yè)中的數(shù)據(jù)科學(xué),專業(yè)數(shù)據(jù)科學(xué)更具共性和可移植性,并為不同專業(yè)中的數(shù)據(jù)科學(xué)研究奠定了理論基礎(chǔ);專業(yè)中的數(shù)據(jù)科學(xué)代表的是不同專業(yè)中對數(shù)據(jù)科學(xué)的差異性認(rèn)識和區(qū)別化應(yīng)用,是將數(shù)據(jù)科學(xué)當(dāng)作傳統(tǒng)學(xué)科的新研究學(xué)科和思維模式來研究,強(qiáng)調(diào)的是數(shù)據(jù)科學(xué)的學(xué)科交叉性。[2]

大數(shù)據(jù)時(shí)代,數(shù)據(jù)科學(xué)為檔案帶來什么變化?

數(shù)據(jù)存儲模式的變化:數(shù)據(jù)在先、模式在后或無模式的出現(xiàn),改變了傳統(tǒng)數(shù)據(jù)的管理。在大數(shù)據(jù)環(huán)境下,無法沿用“模式在先、數(shù)據(jù)在后”的建設(shè)模式,主要原因有兩個(gè):①數(shù)據(jù)模式可能不斷變化或根本不存在;②按照預(yù)定模式進(jìn)行數(shù)據(jù)的存儲和處理時(shí),容易出現(xiàn)信息丟失。因此,數(shù)據(jù)在先、模式在后或無模式成為數(shù)據(jù)產(chǎn)品設(shè)計(jì)的主要趨勢,確保數(shù)據(jù)管理系統(tǒng)的敏捷性。這就使檔案的數(shù)據(jù)保管無需建立系統(tǒng),當(dāng)然,模式在后或無模式也會帶來新問題,如限制數(shù)據(jù)管理系統(tǒng)的處理能力及加大應(yīng)用系統(tǒng)的開發(fā)難度。在“數(shù)據(jù)在先、模式在后或無模式”的興起背后,是信息系統(tǒng)建設(shè)模式的歷史性變革——從先行支付轉(zhuǎn)向現(xiàn)收現(xiàn)付的建設(shè)模式。[3]

思維模式發(fā)生改變:在傳統(tǒng)科學(xué)研究中,由于數(shù)據(jù)的獲取、存儲和計(jì)算能力所限,人們往往采取數(shù)據(jù)→知識→問題的過程,從數(shù)據(jù)尤其是樣本數(shù)據(jù)中提煉出知識之后,用知識來解決現(xiàn)實(shí)問題。大數(shù)據(jù)時(shí)代的到來及數(shù)據(jù)科學(xué)的出現(xiàn)為人們提供了另一種研究思路,數(shù)據(jù)→問題,在尚未從數(shù)據(jù)中提煉出知識的前提下,用數(shù)據(jù)直接解決問題。強(qiáng)調(diào)的是在尚未將數(shù)據(jù)轉(zhuǎn)換為知識的前提下,直接用數(shù)據(jù)解決現(xiàn)實(shí)世界中的問題。與傳統(tǒng)認(rèn)識中的“知識就是力量”類似,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)也成為一種重要力量。

數(shù)據(jù)一致性及現(xiàn)實(shí)主義的回歸:在傳統(tǒng)數(shù)據(jù)管理中,對數(shù)據(jù)一致性的要求接近于完美主義——強(qiáng)一致性,即任何時(shí)候從任何地方讀出的任何數(shù)據(jù)均為正確數(shù)據(jù)。但是,強(qiáng)一致性不符合大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理要求——高擴(kuò)展性、高性能、高容錯(cuò)性、高伸縮性和高經(jīng)濟(jì)性。因此,NoSQL等新興數(shù)據(jù)管理技術(shù)從根本上改變了人們對數(shù)據(jù)一致性的傳統(tǒng)認(rèn)識,主要表現(xiàn)在提出CAP理論和BASE原則等新興數(shù)據(jù)管理理念,引入弱一致性、最終一致性等概念,并提供了不同的解決方案,如更新一致性、讀寫一致性和會話一致性等??梢?,在數(shù)據(jù)科學(xué)研究中,數(shù)據(jù)的一致性出現(xiàn)了多樣化趨勢,即根據(jù)不同應(yīng)用場景,有針對性地選擇具體的一致性及其實(shí)現(xiàn)方法。對數(shù)據(jù)一致性的多樣化認(rèn)識的轉(zhuǎn)變反映了人們對數(shù)據(jù)管理目標(biāo)的根本轉(zhuǎn)折——從完美主義回歸至現(xiàn)實(shí)主義。[4]

區(qū)塊鏈技術(shù)及靠近數(shù)據(jù)原則的應(yīng)用:傳統(tǒng)關(guān)系數(shù)據(jù)庫更加看重?cái)?shù)據(jù)冗余的負(fù)面影響——冗余數(shù)據(jù)導(dǎo)致的數(shù)據(jù)一致性保障成本較高。與此不同的是,數(shù)據(jù)科學(xué)中更加重視冗余數(shù)據(jù)的積極作用,即冗余數(shù)據(jù)在負(fù)載均衡、災(zāi)難恢復(fù)和完整性檢驗(yàn)中的積極作用。同時(shí),還通過引入?yún)^(qū)塊鏈技術(shù)和物化視圖的方法豐富冗余數(shù)據(jù)的存在形式,縮短用戶請求響應(yīng)時(shí)間,確保良好的用戶體驗(yàn)。

突出數(shù)據(jù)的主動屬性:數(shù)據(jù)科學(xué)的一個(gè)重要貢獻(xiàn)或價(jià)值就在于它改變了人們對數(shù)據(jù)的研究方向,即從被動屬性轉(zhuǎn)向主動屬性。長期以來,人們習(xí)慣性地把數(shù)據(jù)當(dāng)作被動或死的東西,關(guān)注的是“你能對數(shù)據(jù)做什么”,如模式定義、結(jié)構(gòu)化處理和預(yù)處理,都試圖將復(fù)雜數(shù)據(jù)轉(zhuǎn)換成簡單數(shù)據(jù)。但是,大數(shù)據(jù)時(shí)代更加關(guān)注數(shù)據(jù)的另一個(gè)屬性——主動屬性,強(qiáng)調(diào)的是“數(shù)據(jù)能給你帶來什么”,如數(shù)據(jù)驅(qū)動型應(yīng)用、以數(shù)據(jù)為中心的設(shè)計(jì)、讓數(shù)據(jù)說話、數(shù)據(jù)洞見等,將復(fù)雜性認(rèn)為是數(shù)據(jù)的自然屬性,開始接受數(shù)據(jù)的復(fù)雜性。

數(shù)據(jù)準(zhǔn)備與加工:數(shù)據(jù)預(yù)處理還是數(shù)據(jù)加工,在傳統(tǒng)數(shù)據(jù)研究中,數(shù)據(jù)準(zhǔn)備主要強(qiáng)調(diào)的是將復(fù)雜數(shù)據(jù)轉(zhuǎn)換為簡單數(shù)據(jù),對臟數(shù)據(jù)進(jìn)行清洗處理后得到干凈數(shù)據(jù),從而防止出現(xiàn)“垃圾進(jìn)垃圾出”現(xiàn)象,主要涉及重復(fù)數(shù)據(jù)的過濾、錯(cuò)誤數(shù)據(jù)的識別以及缺失數(shù)據(jù)的處理??梢?,數(shù)據(jù)預(yù)處理主要關(guān)注的是數(shù)據(jù)的質(zhì)量維度問題。但是,由于小數(shù)據(jù)到大數(shù)據(jù)之間存在質(zhì)量涌現(xiàn)現(xiàn)象即個(gè)別小數(shù)據(jù)的質(zhì)量問題(如缺失數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)或重復(fù)數(shù)據(jù))不影響整個(gè)大數(shù)據(jù)的可用性,大數(shù)據(jù)處理中關(guān)注的并非是傳統(tǒng)意義上的數(shù)據(jù)預(yù)處理,而轉(zhuǎn)向另一個(gè)重要課題——數(shù)據(jù)加工。在數(shù)據(jù)科學(xué)中,數(shù)據(jù)加工是指數(shù)據(jù)的創(chuàng)造性增值過程,包括兩種表現(xiàn)形式:數(shù)據(jù)打磨和數(shù)據(jù)改寫。與數(shù)據(jù)預(yù)處理不同的是,數(shù)據(jù)加工更加強(qiáng)調(diào)如何將數(shù)據(jù)科學(xué)家的理論、實(shí)踐和精神素質(zhì)融入數(shù)據(jù)處理工作之中,從而達(dá)到數(shù)據(jù)增值的目的。因此,數(shù)據(jù)加工并不僅限于技術(shù)工作的范疇,而且還涉及藝術(shù)層面的創(chuàng)造,如需要采用數(shù)據(jù)柔術(shù)和整齊化處理的方法進(jìn)行數(shù)據(jù)加工處理。與此同時(shí),數(shù)據(jù)準(zhǔn)備的關(guān)注點(diǎn)轉(zhuǎn)向另一個(gè)重要問題,即如何發(fā)揮人的增值作用。

新興的數(shù)據(jù)產(chǎn)品:數(shù)據(jù)產(chǎn)品不限于數(shù)據(jù)形態(tài)的產(chǎn)品,任何用數(shù)據(jù)來幫助目標(biāo)用戶實(shí)現(xiàn)其某一目的的產(chǎn)品都可以被視為數(shù)據(jù)產(chǎn)品。數(shù)據(jù)產(chǎn)品是指在數(shù)據(jù)科學(xué)項(xiàng)目中形成,能夠被人、計(jì)算機(jī)以及其他軟硬件系統(tǒng)消費(fèi)、調(diào)用或使用,并滿足某種需求的任何產(chǎn)品,包括數(shù)據(jù)集、文檔、知識庫、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見、決策及它們的各種組合。

數(shù)據(jù)產(chǎn)品開發(fā)主要關(guān)注如何將數(shù)據(jù)科學(xué)的理論融入傳統(tǒng)產(chǎn)品開發(fā)實(shí)踐之中,進(jìn)而實(shí)現(xiàn)產(chǎn)品的更新?lián)Q代和用戶體驗(yàn)的提升。未來,數(shù)據(jù)產(chǎn)品開發(fā)將嵌入傳統(tǒng)產(chǎn)品的研發(fā)之中,二者的界限會越來越模糊。如何將數(shù)據(jù)科學(xué)家的創(chuàng)造性設(shè)計(jì)、批判性思考和好奇性提問的職業(yè)素質(zhì)融入產(chǎn)品研發(fā)之中,從而實(shí)現(xiàn)傳統(tǒng)產(chǎn)品的增值和核心競爭力的提升,是未來數(shù)據(jù)產(chǎn)品開發(fā)的難點(diǎn)所在。在此背景下,以數(shù)據(jù)為中心的設(shè)計(jì)思維將會成為數(shù)據(jù)產(chǎn)品開發(fā)的主要思維模式。同時(shí),良好的用戶體驗(yàn)將成為產(chǎn)品開發(fā)的主要評價(jià)指標(biāo)之一。數(shù)據(jù)產(chǎn)品開發(fā)的興起將推動數(shù)據(jù)科學(xué)的嵌入式應(yīng)用。數(shù)據(jù)科學(xué)將作為傳統(tǒng)產(chǎn)品的創(chuàng)新點(diǎn)、增值點(diǎn)和競爭力之源,成為產(chǎn)品開發(fā)的必要環(huán)節(jié),數(shù)據(jù)科學(xué)與領(lǐng)域呈現(xiàn)出了高度融合的趨勢。

數(shù)據(jù)科學(xué)具有與其他學(xué)科不同的新特征,例如思維模式的轉(zhuǎn)變、對數(shù)據(jù)認(rèn)識的變化、指導(dǎo)思想的變化、以數(shù)據(jù)產(chǎn)品開發(fā)為主要目的、專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)的差異性以及數(shù)據(jù)科學(xué)的三要素(理論和實(shí)踐、精神素質(zhì))。因此,數(shù)據(jù)科學(xué)在某種程度上具有檔案管理的屬性,是檔案管理的機(jī)遇,數(shù)據(jù)科學(xué)管理的成果可以稱之為數(shù)據(jù)檔案。

在大數(shù)據(jù)時(shí)代,無論是數(shù)據(jù)工程師還是數(shù)據(jù)科學(xué)家,他們都將是未來的檔案工作者。傳統(tǒng)科學(xué)領(lǐng)域中,與數(shù)據(jù)相關(guān)的人定位于數(shù)據(jù)工程師——從事數(shù)據(jù)的組織、管理、備份、恢復(fù)工作的人。數(shù)據(jù)科學(xué)的研究任務(wù),需要一類全新的人才——數(shù)據(jù)科學(xué)家。二者的主要區(qū)別在于:數(shù)據(jù)工程師負(fù)責(zé)的是數(shù)據(jù)的管理,而數(shù)據(jù)科學(xué)家擅長的是基于數(shù)據(jù)的管理,如基于數(shù)據(jù)的決策、產(chǎn)品開發(fā)、業(yè)務(wù)定義等。未來,檔案工作者即數(shù)據(jù)工程師,負(fù)責(zé)數(shù)據(jù)本身的管理,而檔案的高級管理人員即數(shù)據(jù)科學(xué)家,主要職責(zé)是基于數(shù)據(jù)的管理,包括基于數(shù)據(jù)的分析、決策、流程定義與再造、產(chǎn)品設(shè)計(jì)和服務(wù)提供等。因此,今后的檔案管理人員,將是有理論功底和實(shí)踐經(jīng)驗(yàn),而且還要求有精神素質(zhì),即創(chuàng)造性設(shè)計(jì)、批判性思考和好奇性提問的能力的數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家。

參考文獻(xiàn):

[1]曹嘉君,王曰芬.基于數(shù)據(jù)科學(xué)的知識創(chuàng)新服務(wù)應(yīng)用模式構(gòu)建研究[J].情報(bào)學(xué)報(bào),2018,37(10):971-978.

[2]李志國,鐘將.數(shù)據(jù)科學(xué)在國內(nèi)管理學(xué)研究中的應(yīng)用綜述[J].計(jì)算機(jī)科學(xué),2018,45(09):38-45.

[3]朝樂門,邢春曉,張勇.數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢[J].計(jì)算機(jī)科學(xué),2018,45(01):1-13.

[4]方璐.大數(shù)據(jù)時(shí)代的科學(xué)研究方法[D].浙江工業(yè)大學(xué),2014.

(作者單位:哈爾濱工業(yè)大學(xué)檔案館 來稿日期:2021-08-20)

猜你喜歡
檔案工作檔案大數(shù)據(jù)
淺談實(shí)現(xiàn)檔案工作規(guī)范化管理的路徑
探析全程管理視角下如何貫徹落實(shí)“344”制度
藝術(shù)檔案工作重要性研究
試析機(jī)關(guān)檔案管理工作的創(chuàng)新
檔案的開發(fā)利用在供電公司全面管理中的作用
淺談北京衛(wèi)視《檔案》的敘述方式
新常態(tài)下高校檔案工作發(fā)展研究
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究