陸祝政 宓永迪
(浙江圖書館 浙江 杭州 310007)
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等信息技術(shù)的飛速發(fā)展,人類進(jìn)入了大數(shù)據(jù)時代。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中,大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。圖書館擁有的數(shù)據(jù)可以大致分為用戶行為數(shù)據(jù)、海量資源數(shù)據(jù)、自身業(yè)務(wù)流程數(shù)據(jù),范圍包括用戶和流通大數(shù)據(jù),無線上網(wǎng)數(shù)據(jù),電子閱覽室數(shù)據(jù),數(shù)字資源訪問數(shù)據(jù),人流、車輛數(shù)據(jù),RFID、環(huán)境控制、IT和設(shè)備運維、視頻監(jiān)控等數(shù)據(jù),以及這些數(shù)據(jù)關(guān)聯(lián)融合、重組再造之后產(chǎn)生的新生數(shù)據(jù),這些數(shù)據(jù)都將構(gòu)成圖書館的大數(shù)據(jù),幾乎涉及圖書館各個業(yè)務(wù)環(huán)節(jié),具有讀者行為識別與串聯(lián)、圖書館運行狀態(tài)描述、讀者信息與服務(wù)需求預(yù)判等功能。如何管理、控制大數(shù)據(jù)資源,利用大數(shù)據(jù)對圖書館資源進(jìn)行整合、挖掘與利用,同時避免大數(shù)據(jù)帶來的負(fù)面風(fēng)險,對于圖書館的建設(shè)和發(fā)展,提高服務(wù)水平,開拓創(chuàng)新都必不可少。
傳統(tǒng)圖書館的決策經(jīng)常是憑借領(lǐng)導(dǎo)和工作人員對事物發(fā)展的假設(shè)和過去的經(jīng)驗進(jìn)行,難免出現(xiàn)主觀、隨意、思維固化,與現(xiàn)實脫節(jié)的現(xiàn)象,同時缺乏有效的反饋和監(jiān)督手段。運用大數(shù)據(jù)技術(shù)手段,建立科學(xué)決策機制,充分利用數(shù)字化關(guān)聯(lián)分析、數(shù)學(xué)建模、虛擬仿真及人工智能等技術(shù),基于海量數(shù)據(jù)進(jìn)行模塊化分析和模擬,建立各類風(fēng)險控制模型,為決策提供更為系統(tǒng)、精確、科學(xué)的參考依據(jù),同時提供更為全面、可靠的實時跟蹤,推動決策向數(shù)據(jù)分析型轉(zhuǎn)變。應(yīng)用大數(shù)據(jù),對執(zhí)行過程中產(chǎn)生的數(shù)據(jù)進(jìn)行全程記錄、挖掘分析,還能有效防止執(zhí)行過程中的隨意性和弄虛作假行為。大數(shù)據(jù)強調(diào)資料整合、數(shù)據(jù)輸出、數(shù)據(jù)分析必須在瞬間完成,這有助于對問題情境進(jìn)行即時判斷,可以及時發(fā)現(xiàn)和處理新產(chǎn)生的各類問題[1]。如編目人員編目定額、圖書流通工作人員工作量確定等都可以通過對相關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計分析,并結(jié)合新書到館與預(yù)加工情況、讀者整體借閱情況等進(jìn)行核定[2]。
在大數(shù)據(jù)時代,數(shù)據(jù)信息成了一種新資源,這種資源與傳統(tǒng)資源不同,不會因為使用而被消耗,而是越被使用越能體現(xiàn)其隱藏價值。大數(shù)據(jù)只有在社會中開放、流動才能充分發(fā)揮作用,從而獲得保值、增值。運用大數(shù)據(jù),可以打破圖書館與圖書館、圖書館與社會、圖書館與企業(yè)之間存在的信息孤島,通過整合數(shù)據(jù)資源,建立快速、精準(zhǔn)、高效、一站式的服務(wù)模式。首先,通過有效利用各圖書館的數(shù)據(jù)資源,充分發(fā)揮大數(shù)據(jù)匯聚的倍增潛力和迭代價值。例如,浙江圖書館正在建設(shè)的全省數(shù)據(jù)中心以及全省通借通還系統(tǒng),全面覆蓋不同圖書館、不同系統(tǒng)的數(shù)據(jù)采集和數(shù)據(jù)接口,實現(xiàn)全省公共圖書館流通數(shù)據(jù)、用戶數(shù)據(jù)、書目數(shù)據(jù)的互聯(lián)互通,為用戶提供跨區(qū)域無縫連接的圖書館服務(wù),并完成全省用戶行為、圖書館業(yè)務(wù)的實時分析和智能推送。其次,將不同領(lǐng)域、不同部門的數(shù)據(jù)資源開放互聯(lián),是充分發(fā)揮大數(shù)據(jù)技術(shù)優(yōu)勢的重要基礎(chǔ)。一些互聯(lián)網(wǎng)平臺,如支付寶、微信、百度等對自身海量數(shù)據(jù)進(jìn)行了大規(guī)模的收集、存儲和積累,并建立了大數(shù)據(jù)匯聚和處理平臺。因此,建立“企業(yè)+圖書館”的合作模式,加強同第三方平臺的合作,可以使圖書館能夠使用更大范圍的數(shù)據(jù)資源深化服務(wù),同時也貢獻(xiàn)自身的數(shù)據(jù)服務(wù)社會。如國內(nèi)多個圖書館與芝麻信用合作,推出信用借閱服務(wù),利用用戶的芝麻信用數(shù)據(jù)作為圖書館免除押金的根據(jù),反過來用戶良好的借閱記錄也將增加自己的信用積分[3]。這一大數(shù)據(jù)的開放融合案例充分發(fā)揮圖書館與第三方平臺各自的數(shù)據(jù)和服務(wù)特長,使用戶感受到極為便利的服務(wù)體驗,還利用文化的力量助推誠信社會的建設(shè)。
以公共服務(wù)為宗旨的圖書館,核心目標(biāo)是使服務(wù)覆蓋更多的用戶,使資源獲得更高效的利用,因此傳統(tǒng)意義上采用粗放的以盡量滿足用戶基本需求的普適服務(wù),隨著公共文化的服務(wù)實現(xiàn)全民覆蓋,在用戶物質(zhì)生活水平與文化水平均有顯著提升的環(huán)境下,逐步轉(zhuǎn)變到滿足用戶的個性化需求的精準(zhǔn)服務(wù),而大數(shù)據(jù)為建立以用戶問題為導(dǎo)向的精準(zhǔn)服務(wù)提供了有效手段。一方面,基于圖書館收集的各類數(shù)據(jù)及公共服務(wù)系統(tǒng)數(shù)據(jù)、移動終端數(shù)據(jù)、第三方平臺數(shù)據(jù)等社會化數(shù)據(jù)形成大數(shù)據(jù),分析圖書館主要用戶群的特征,并據(jù)此進(jìn)行包括書刊采購、空間布局等在內(nèi)的資源建設(shè)成效評估,實現(xiàn)資源配置優(yōu)化。另一方面,從用戶終端、圖書館系統(tǒng)記錄、第三方平臺日志等分析個別用戶的流通、到館時間、館內(nèi)停留位置、檢索等數(shù)據(jù),把用戶與圖書館有關(guān)的行為串聯(lián)起來,通過對用戶顯性行為和隱性行為的分析挖掘,探尋其數(shù)據(jù)模式及特征,發(fā)現(xiàn)個人和某個群體的興趣和行為規(guī)律,建立用戶個人知識體系,進(jìn)而準(zhǔn)確定位其使用圖書館的行為及特定的需求、習(xí)慣、偏好,從而為用戶提供個性化的高質(zhì)量服務(wù),如新書推薦、活動預(yù)告等[4]。
人工智能(AI)是研究使計算機來模擬人的某些思維過程和智能行為,主要包括視覺內(nèi)容識別/視頻分析、語音識別/語音翻譯、深度計算/機器學(xué)習(xí)、自然語言理解等領(lǐng)域。作為最有發(fā)展?jié)摿Φ男录夹g(shù),人工智能已經(jīng)逐步在各行各業(yè)進(jìn)入實用階段。人工智能在圖書館也有廣泛前景,人工智能將深刻融入到圖書館整個生態(tài)系統(tǒng)之中,實現(xiàn)圖書館從線上到線下、從物理到虛擬的全面智能化[5],為用戶提供全新的服務(wù)模式。目前,人工智能已經(jīng)開始在圖書館獲得實際應(yīng)用,例如人臉識別技術(shù),不但將到館人流的統(tǒng)計精確到人,極大提升客流統(tǒng)計的價值,更可以使得工作人員在讀者一進(jìn)門就立即識別,主動提供一對一服務(wù)。智能機器人代替館員開展咨詢服務(wù)也成為現(xiàn)實,如清華大學(xué)圖書館開發(fā)的“小圖”聊天、咨詢機器人早已上線,還一度引起轟動。一些研究人員還利用智能機器人進(jìn)行上架、導(dǎo)引[6]。人工智能最核心的是需要有大量的數(shù)據(jù)支持,數(shù)據(jù)資源是機器學(xué)習(xí)訓(xùn)練的基本素材,通過對于大量數(shù)據(jù)的學(xué)習(xí),機器能不斷積累經(jīng)驗并優(yōu)化決策參數(shù),從而獲得人工智能。同樣,大數(shù)據(jù)也是圖書館智能化程度升級和進(jìn)化的前提條件,擁有高質(zhì)量的大數(shù)據(jù),才能夠不間斷地進(jìn)行圖書館各種服務(wù)、決策等場景模擬演練,逐漸向著智能化服務(wù)靠攏。因此,圖書館積累的各種大數(shù)據(jù),是未來智能圖書館最重要的數(shù)據(jù)基礎(chǔ)。
在以流式方式產(chǎn)生數(shù)據(jù)的時代,從海量數(shù)據(jù)中獲取有價值的部分是成敗的關(guān)鍵。很多圖書館開展大數(shù)據(jù)建設(shè)時,存在盲目收集數(shù)據(jù)并進(jìn)行分析的情況,而更多數(shù)據(jù)不意味著就可以轉(zhuǎn)化為有意義的結(jié)果。首先,需要有明確的目標(biāo)。大數(shù)據(jù)技術(shù)要服務(wù)于公共價值導(dǎo)向,具體到圖書館就是提高決策水平,創(chuàng)新服務(wù)。這是大數(shù)據(jù)應(yīng)用的出發(fā)點和目標(biāo)實現(xiàn)的前提之一,也是大數(shù)據(jù)功能實現(xiàn)的重要保障。圖書館利用大數(shù)據(jù)實現(xiàn)什么樣的目標(biāo)在開展大數(shù)據(jù)應(yīng)用前就應(yīng)該明確,這樣才有利于選擇合適的數(shù)據(jù)源和數(shù)據(jù)分析方法,從而得到準(zhǔn)確可靠的基于大數(shù)據(jù)的解決方案。在明確目標(biāo)后,需要制定相應(yīng)數(shù)據(jù)的抽取和清洗方法,根據(jù)原始數(shù)據(jù)所在系統(tǒng)的特點采取不同方式,如對于直接開放數(shù)據(jù)庫接口的平臺采用數(shù)據(jù)庫直接采集的方式;對于開放程序接口的平臺利用其 API 進(jìn)行數(shù)據(jù)獲?。粚τ跓o開放接口的平臺則需進(jìn)行網(wǎng)絡(luò)爬蟲技術(shù)、網(wǎng)頁抓取策略及網(wǎng)頁分析算法的研究。此外,Web數(shù)據(jù)抽取、非結(jié)構(gòu)化數(shù)據(jù)抽取也是大數(shù)據(jù)抽取研究的一項重要內(nèi)容。此后,數(shù)據(jù)還需進(jìn)行包括轉(zhuǎn)換、清洗、歸類編碼和數(shù)字編碼、拆分、匯總、加載等一系列處理過程,保證數(shù)據(jù)采集的有效性、真實性、穩(wěn)定性。大數(shù)據(jù)分析是大數(shù)據(jù)理念與方法的核心,是指對海量類型多樣、增長快速、內(nèi)容真實的大數(shù)據(jù)進(jìn)行分析,從中找出可以幫助決策的隱藏模式,未知的相關(guān)關(guān)系以及其他有用信息的過程,分析方法的優(yōu)劣將決定分析結(jié)果的有效與否。大數(shù)據(jù)的分析技術(shù)包括數(shù)據(jù)預(yù)處理技術(shù)、數(shù)據(jù)統(tǒng)計與分析挖掘技術(shù)。數(shù)據(jù)預(yù)處理技術(shù)主要在分析使用前,將數(shù)據(jù)進(jìn)行降維、標(biāo)準(zhǔn)化、噪聲去除等預(yù)處理。數(shù)據(jù)統(tǒng)計與分析挖掘技術(shù)指的是利用統(tǒng)計、回歸、趨勢分析、關(guān)聯(lián)規(guī)則分析、決策樹建模等方法,實現(xiàn)數(shù)據(jù)向價值的轉(zhuǎn)變。數(shù)據(jù)分析一般步驟包括探索性數(shù)據(jù)分析,在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過進(jìn)一步的分析從中挑選一定的模型,最后使用數(shù)理統(tǒng)計方法對所定模型或估計的可靠程度和精確程度作出推斷。
大數(shù)據(jù)的作用在于對實踐的指導(dǎo),只有通過“目標(biāo)、設(shè)想、試驗、應(yīng)用”,最后再反饋到第一步,形成一個數(shù)據(jù)分析的閉環(huán),才能體現(xiàn)出數(shù)據(jù)的價值。首先,需要明確目標(biāo),創(chuàng)造性地提出達(dá)到目標(biāo)的假設(shè)或者設(shè)想,然后利用大數(shù)據(jù)進(jìn)行試驗,如果成功則進(jìn)行實際應(yīng)用,并制定下一步的目標(biāo);如果失敗,返回第一步修正目標(biāo)。通過不斷的閉環(huán)循環(huán),滿足用戶需求。
目前,圖書館各類數(shù)據(jù)數(shù)量大、類型復(fù)雜、關(guān)聯(lián)性強,使用傳統(tǒng)手段難以清晰地呈現(xiàn),更難以從中發(fā)現(xiàn)問題和解決方法。數(shù)據(jù)可視化主要是借助于圖形化手段,清晰有效地傳達(dá)與溝通信息。數(shù)據(jù)可視化作為大數(shù)據(jù)的最后一個環(huán)節(jié),將分析處理出來的大數(shù)據(jù),再次進(jìn)行整理,通過二維、三維圖表的形式呈現(xiàn)出來,以可視、實時、交互的方式表達(dá)復(fù)雜數(shù)據(jù)蘊含的信息和規(guī)律,讓用戶和管理者可以更加直觀地看到數(shù)據(jù)的變化以及趨勢,明晰各種數(shù)據(jù)之間的聯(lián)系,對圖書館各方面服務(wù)情況能快速了解,便于管理者及時處理出現(xiàn)的異常狀況,并為圖書館的后期業(yè)務(wù)調(diào)整、決策提供支持。例如,一些圖書館的閱讀報告就是利用大數(shù)據(jù)可視化工具對圖書館上年度的各項借閱指標(biāo)進(jìn)行解讀,而圖書館實時數(shù)據(jù)展示則用圖表動態(tài)反映當(dāng)前圖書館業(yè)務(wù)數(shù)據(jù),如到館人數(shù)、借還數(shù)量等的變化情況。
當(dāng)前,歐美等國家與地區(qū)均在探索建立數(shù)據(jù)產(chǎn)權(quán)與流動規(guī)則,如早在1992年,歐盟委員會通過《數(shù)據(jù)庫指令草案(Commission Proposal for a Council Directive on the Legal)》確立了數(shù)據(jù)庫權(quán)(database right)。數(shù)據(jù)庫權(quán)賦予數(shù)據(jù)庫控制者對抗他人對數(shù)據(jù)庫內(nèi)容提取的排他權(quán)利,并存在著若干平衡性安排,如對合法利用人的非實質(zhì)性部分的提取或再利用行為進(jìn)行限制性排除,并規(guī)定了若干“法定許可”[7]。圖書館的大數(shù)據(jù)無疑具有公益性質(zhì),如何維護(hù)圖書館的數(shù)據(jù)權(quán),特別是在與數(shù)據(jù)廠商合作開發(fā)數(shù)據(jù)時,如何劃出相關(guān)的界線,保護(hù)利用好這些數(shù)據(jù),使其為社會大眾服務(wù),是值得探討的新問題。
大數(shù)據(jù)技術(shù)通過分類、聚類、回歸分析、關(guān)聯(lián)規(guī)則等算法,可以從海量不完整、非確定性信息資源中挖掘出有價值的實用信息和知識,但這種技術(shù)運用也會帶來信息安全問題。大數(shù)據(jù)時代信息安全的威脅主要來自大數(shù)據(jù)抓取過程中的信息泄漏。大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)等技術(shù)的深度融合應(yīng)用可以把設(shè)備、人、服務(wù)等各種元素關(guān)聯(lián)起來,通過計算、分析、生成等方法,在看似無關(guān)的事物之間建立起聯(lián)系,在此基礎(chǔ)上預(yù)測人們的生活狀態(tài)和行為方式[8]。圖書館大數(shù)據(jù)可以歸入大數(shù)據(jù)長尾的尾部,一般圖書館往往更加強調(diào)開放而忽略安全,其實圖書館大數(shù)據(jù)中也包含大量讀者個人數(shù)據(jù),其中不乏身份證號、學(xué)號、手機號、電子郵箱、地址、讀者借閱信息等較為敏感數(shù)據(jù)。而大數(shù)據(jù)的應(yīng)用過程中必然導(dǎo)致數(shù)據(jù)的流動和集中,使得原來敏感度不高的大量長尾尾部數(shù)據(jù)變得敏感起來,用戶的隱私數(shù)據(jù)更容易泄露。
為防止大數(shù)據(jù)產(chǎn)生的隱私泄露風(fēng)險,首先要完善立法。例如,何種數(shù)據(jù)可以被何種機構(gòu)所搜集,數(shù)據(jù)在何時、何地可以通過何種形式披露、留存和使用,數(shù)據(jù)使用的期限應(yīng)該是多長等應(yīng)有明確規(guī)定,在法律層面加強對個人信息采集、存儲、使用的規(guī)范和監(jiān)管。我國已頒布數(shù)十部法律法規(guī)來保護(hù)公民個人信息安全,相比歐盟、美國和日本等國家,沒有制定專門的法律來規(guī)范個人數(shù)據(jù)的使用,2018年開始實施的《信息安全技術(shù)個人信息安全規(guī)范》作為國家標(biāo)準(zhǔn),明確了個人信息的收集、保存、使用、共享的合規(guī)要求。在國家已有相關(guān)非強制性標(biāo)準(zhǔn)、個人對隱私安全又不夠重視的情況下,圖書館業(yè)界的自覺自律顯得更為重要。圖書館需要按照國家標(biāo)準(zhǔn),在網(wǎng)絡(luò)隱私認(rèn)證規(guī)則、技術(shù)保護(hù)規(guī)范等方面形成行業(yè)規(guī)約,約束自身行為,同時謹(jǐn)慎對待和第三方的數(shù)據(jù)合作,盡量在事先制定出相關(guān)的隱私保護(hù)準(zhǔn)則,防止敏感數(shù)據(jù)的非法擴散導(dǎo)致不良后果。為了在大數(shù)據(jù)的開放流動和保護(hù)用戶隱私之間保持平衡,需要制定數(shù)據(jù)流通管理機制、定價機制、隱私保護(hù)機制、數(shù)據(jù)交換標(biāo)準(zhǔn)等一系列制度規(guī)定。國外一些圖書館使用定期清除讀者借閱記錄的方法,在讀者歸還圖書和清還欠費之后,及時清除讀者的借閱記錄,達(dá)到保護(hù)讀者隱私的目的[9]。但是殘缺不全的數(shù)據(jù)又會給大數(shù)據(jù)的應(yīng)用帶來很大障礙,如何平衡利用與保護(hù)的關(guān)系,既鼓勵大數(shù)據(jù)的自由流動,又防止隱私泄露、數(shù)據(jù)盜用,是關(guān)系到大數(shù)據(jù)利用的一個關(guān)鍵問題。
由數(shù)據(jù)驅(qū)動的決策過程包括個人信息的收集、管理、分析、保留、公開與使用等環(huán)節(jié),每一個環(huán)節(jié)都有可能出現(xiàn)不準(zhǔn)確、不合法或不公平的因素。例如,因收集不當(dāng)而形成具有偏見的歷史數(shù)據(jù),以及大數(shù)據(jù)的算法背后可能包含著人的主觀意志等,都會內(nèi)嵌到系統(tǒng)層面,并可能會被放大、扭曲,產(chǎn)生各種歧視現(xiàn)象。這些數(shù)據(jù)如果被輸入給人工智能系統(tǒng)進(jìn)行訓(xùn)練,則人工智能也將先天就帶上偏見,而現(xiàn)在以深度學(xué)習(xí)為基礎(chǔ)的機器學(xué)習(xí)系統(tǒng)存在的工作原理上的黑箱,更使得分析、糾正問題變得困難。一些反映個人某些心理、生理或者偏好的閱讀數(shù)據(jù),如被開放整合到第三方系統(tǒng)中,可能會使其在工作、社會上受到歧視對待,限制他們自由選擇的權(quán)力。在小數(shù)據(jù)時代,遺忘是常態(tài)。由于網(wǎng)絡(luò)技術(shù)和云技術(shù)的發(fā)展,信息一旦被上傳存儲,則立即被永久性地保存下來。于是,在大數(shù)據(jù)時代,記憶成了新常態(tài),而遺忘則成了例外,以致產(chǎn)生某些倫理困惑。例如一個人因為偶爾忘交罰款或者超期未還圖書,導(dǎo)致其留下長期信用污點或者受到就業(yè)歧視是否合適。如何控制數(shù)據(jù)的時效性,用戶是否有自主刪除其個人借閱記錄的權(quán)力,在什么范圍內(nèi)可以對自身保留在圖書館的數(shù)據(jù)進(jìn)行使用權(quán)的設(shè)置,成為需要探討的問題。國內(nèi)有圖書館在開展信用服務(wù)時,對于用戶的超期現(xiàn)象會上傳至信用平臺,罰扣用戶的信用分,但是此信用扣分在用戶還書后只保留12個月[10],這種方法既有助于幫助用戶培養(yǎng)誠信意識,也不至于使得用戶在此行為改正后仍然長期背負(fù)信用污點,是一種較為折中的解決數(shù)據(jù)歧視方案。
大數(shù)據(jù)并非完全精確無誤,要避免盲目崇拜。客觀上大數(shù)據(jù)的信息來源非常廣泛,且往往以動態(tài)數(shù)據(jù)流的形式產(chǎn)生,這樣致使大數(shù)據(jù)中常常包含各種形成的噪聲數(shù)據(jù)和冗余數(shù)據(jù)。許多大數(shù)據(jù)本身就是模糊的,其中含有大量虛假和有害的內(nèi)容,這將造成數(shù)據(jù)的整體質(zhì)量下降,數(shù)據(jù)存儲成本增加。如已經(jīng)有人發(fā)現(xiàn)可以通過人工智能大規(guī)模編寫以假亂真的點評信息來影響人們的判斷,這對大數(shù)據(jù)的真實性構(gòu)成新的重大挑戰(zhàn)[11]。圖書館大數(shù)據(jù)具有多數(shù)據(jù)來源、多維度、多采集方法和多存儲模式的特點,導(dǎo)致大數(shù)據(jù)中不可避免地存在著錯誤、粗糙和不合時宜的非清潔數(shù)據(jù)[12],更兼受各種利益驅(qū)使,可能產(chǎn)生的人為虛假數(shù)據(jù)。真實性成疑的數(shù)據(jù),增加了圖書館大數(shù)據(jù)應(yīng)用的復(fù)雜度和數(shù)據(jù)決策成本,這些數(shù)據(jù)質(zhì)量問題使得后續(xù)的分析、挖掘、展現(xiàn)都產(chǎn)生偏差,甚至還可能誤導(dǎo)用戶、產(chǎn)生歧視偏見,降低了圖書館對用戶實際閱讀需求的感知和對未來服務(wù)發(fā)展趨勢的預(yù)測能力,嚴(yán)重的還會誤導(dǎo)決策。
因此,必須從源頭保證數(shù)據(jù)的質(zhì)量,包括建立完善的數(shù)據(jù)質(zhì)量控制體系,制定數(shù)據(jù)的統(tǒng)一標(biāo)準(zhǔn),采取數(shù)據(jù)清洗等技術(shù)手段來盡量提高數(shù)據(jù)的真實性、可靠性。具體在進(jìn)行數(shù)據(jù)的初始收集和整理時,應(yīng)該對所收集整理數(shù)據(jù)的真實性和可信度進(jìn)行嚴(yán)格的監(jiān)測和細(xì)致的過濾、清洗,通過嚴(yán)格鑒別數(shù)據(jù)的出處和來源,并進(jìn)行對比,正確識別并剔除掉虛假甚至惡意的數(shù)據(jù)信息,收集整理出真實有用的數(shù)據(jù)信息。另外,在分析過程中,分析者必須保持客觀公正的態(tài)度,對于所分析的領(lǐng)域要有深入了解,能夠精準(zhǔn)掌握與運用數(shù)據(jù)分析技術(shù)、方法和手段,才能得出正確可信的結(jié)論[13]。
大數(shù)據(jù)的應(yīng)用創(chuàng)新,人才和算法是其中的核心部分。大數(shù)據(jù)平臺的構(gòu)建,大數(shù)據(jù)的加工、處理、分析是一個包括多個領(lǐng)域的系統(tǒng)工程,需要IT、數(shù)據(jù)挖掘統(tǒng)計、所在行業(yè)等幾方面的專業(yè)知識和人員,根據(jù)實際情況,提出相關(guān)的算法并逐步完善。目前圖書館普遍缺乏大數(shù)據(jù)方面的技術(shù)人員,包括數(shù)據(jù)收集、管理和分析人才,特別是中小圖書館缺少既掌握圖書館業(yè)務(wù),又具備大數(shù)據(jù)技術(shù)的專業(yè)人員,容易產(chǎn)生新的“數(shù)據(jù)鴻溝”。掌握了數(shù)據(jù)資源,并不等于實現(xiàn)了大數(shù)據(jù)應(yīng)用,大數(shù)據(jù)能否創(chuàng)造價值,既與其本身屬性和特征有關(guān),也涉及開發(fā)利用大數(shù)據(jù)的算法,如果沒有發(fā)揮關(guān)鍵作用的正確算法,數(shù)據(jù)量再大也不能發(fā)揮應(yīng)有的作用[14]。另外,眾多大數(shù)據(jù)分析得出的結(jié)論往往只能在一定的范圍內(nèi),附加上相關(guān)的限制條件才有參考價值。將其盲目擴大適用領(lǐng)域,會導(dǎo)致其失去意義并產(chǎn)生誤導(dǎo)。只有掌握正確的分析方法,理解分析結(jié)果的適用性,才能避免諸如辛普森悖論和安斯庫姆四重奏之類的數(shù)據(jù)分析陷阱,防止大數(shù)據(jù)的欺騙性[15]。因此,圖書館的大數(shù)據(jù)事業(yè)不是光靠圖書館一家可以完全勝任的,需要借助多方力量走商業(yè)化算法軟件結(jié)合定制的路線。
隨著人工智能的廣泛應(yīng)用,以大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)為技術(shù)支撐的智慧圖書館將向以人工智能為核心、整合上述多種技術(shù)的智能化圖書館、或稱為“人工智能+圖書館”轉(zhuǎn)變。有關(guān)研究機構(gòu)的報告指出,中國在人工智能領(lǐng)域的細(xì)分指標(biāo)上,唯一占據(jù)絕對優(yōu)勢的是大數(shù)據(jù),具備絕對的數(shù)量優(yōu)勢和較寬松的隱私限制[16]。因此,充分發(fā)揮大數(shù)據(jù)的應(yīng)用價值,防范可能存在的風(fēng)險,不僅對圖書館當(dāng)前的發(fā)展有利,更對未來的轉(zhuǎn)型升級有著重要的作用。