安友愛
摘要:大數(shù)據(jù)的高速發(fā)展對于圖書館的發(fā)展帶來了前所未有的機(jī)遇與挑戰(zhàn),并對現(xiàn)有的數(shù)據(jù)分析模式造成了很大的沖擊,如何順應(yīng)大數(shù)據(jù)浪潮,并借此對于圖書館的服務(wù)模式及數(shù)據(jù)挖掘技術(shù)進(jìn)行更新,是值得每一個(gè)圖書館員思考的問題。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;機(jī)遇;挑戰(zhàn)
中圖分類號:F27
文獻(xiàn)標(biāo)識碼:A
doi:10.19311/j.cnki.16723198.2016.21.032
而今,隨著互聯(lián)網(wǎng)、社交網(wǎng)的數(shù)據(jù)量不斷增長,在大數(shù)據(jù)浪潮的沖擊下,圖書館的IT應(yīng)用也可借此加強(qiáng)數(shù)據(jù)建設(shè),從而為圖書館知識服務(wù)創(chuàng)造更多的機(jī)遇,譬如構(gòu)建業(yè)務(wù)建設(shè)的風(fēng)險(xiǎn)模型,或是對圖書館用戶進(jìn)行流失分析,甚至可以通過整合多維度大數(shù)據(jù)進(jìn)行輔助決策。
1大數(shù)據(jù)的特性
1.1數(shù)量大
數(shù)據(jù)量已不僅僅局限于TB級,已然向著PB甚至更高級別的數(shù)據(jù)量邁進(jìn),呈指數(shù)型增長的數(shù)據(jù)量已無法用傳統(tǒng)的數(shù)據(jù)處理方式進(jìn)行分析存儲。
1.2實(shí)時(shí)性
數(shù)據(jù)實(shí)時(shí)生成對數(shù)據(jù)分析模型提出了更高的要求,依賴于交互式、實(shí)時(shí)數(shù)據(jù)、建立實(shí)時(shí)的分析模型,通過分析挖掘數(shù)據(jù)背后深層次的需求增長或者對未來數(shù)據(jù)進(jìn)行及時(shí)預(yù)測實(shí)時(shí)數(shù)據(jù)在大數(shù)據(jù)時(shí)代下意義顯得尤為重要。
1.3多維度
大數(shù)據(jù)時(shí)代下,數(shù)據(jù)來源廣泛而多樣,不再僅僅局限于手工統(tǒng)計(jì)分析,而是可依據(jù)各類訪問日志、檢索記錄、新聞媒體、影音視頻以及社交軟件等來源,具備結(jié)構(gòu)化、半結(jié)構(gòu)化甚至非結(jié)構(gòu)化屬性的數(shù)據(jù),以及在多維度基礎(chǔ)上獲得一段時(shí)間內(nèi)的數(shù)據(jù)形成的面板數(shù)據(jù)等。
1.4價(jià)值高
數(shù)據(jù)即是財(cái)富,也許單一的數(shù)據(jù)并無多大價(jià)值,但當(dāng)龐大的數(shù)據(jù)將為我們提供更多更復(fù)雜的潛在信息,依據(jù)數(shù)據(jù)分析和挖掘技術(shù),將會深入了解到數(shù)據(jù)背后的意義。
2大數(shù)據(jù)為圖書館帶來的挑戰(zhàn)
2.1存儲能力及計(jì)算能力的挑戰(zhàn)
隨著大數(shù)據(jù)的飛速發(fā)展,數(shù)據(jù)來源增多,數(shù)據(jù)類型多樣,數(shù)據(jù)采集技術(shù)的提高使得人們捕獲數(shù)據(jù)能力也在穩(wěn)步上升,各類結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)呈現(xiàn)出的復(fù)雜性吸引了眾多研究者的目光,而大數(shù)據(jù)為基礎(chǔ)的科學(xué)研究呈現(xiàn)出百花齊放的優(yōu)良態(tài)勢。有助于圖書館在此背景下向著新型知識服務(wù)的方向轉(zhuǎn)變。而圖書館現(xiàn)有的數(shù)據(jù)儲存技術(shù)以及數(shù)據(jù)分析技術(shù)顯然難以跟上大數(shù)據(jù)發(fā)展的步伐。如何將分層分級存儲架構(gòu)的設(shè)計(jì)付諸實(shí)踐以適應(yīng)信息管理的需要,如何是數(shù)據(jù)不再受到現(xiàn)有計(jì)算能力能力約束,如何實(shí)現(xiàn)高通量計(jì)算機(jī)、高可靠性、高預(yù)測性等數(shù)據(jù)分析技術(shù)來對現(xiàn)有的大數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析等問題,都是有待解決的難題。
2.2數(shù)據(jù)分析能力的挑戰(zhàn)
大數(shù)據(jù)帶給我們向著廣度和深度發(fā)展的,已經(jīng)突破了常規(guī)而傳統(tǒng)的數(shù)據(jù)分析要求。大數(shù)據(jù)時(shí)代下的圖書館也需要通過數(shù)據(jù)分析了解知識服務(wù)的特點(diǎn)以及對未來的發(fā)展進(jìn)行預(yù)測,從而應(yīng)對可能發(fā)生的困境或機(jī)遇,因此,關(guān)聯(lián)分析、趨勢分析、神經(jīng)網(wǎng)絡(luò)分析、移動(dòng)平均線分析等分析技術(shù),可以為圖書館未來的發(fā)展創(chuàng)造一定的主動(dòng)權(quán)。
2.3硬件設(shè)備的挑戰(zhàn)
隨著儲存和計(jì)算規(guī)模的不斷擴(kuò)大,圖書館需要將高端服務(wù)器轉(zhuǎn)換為中低端硬件構(gòu)成的大規(guī)模計(jì)算機(jī)集群,從而支持非結(jié)構(gòu)化的數(shù)據(jù)儲存要求,同時(shí)需要有能夠獲取儲存大規(guī)模數(shù)據(jù)的硬件并能夠自動(dòng)壓縮、分層、刪除重復(fù)數(shù)據(jù)等智能分析技術(shù),并且有復(fù)制分塊數(shù)據(jù)集到集群服務(wù)的網(wǎng)絡(luò)設(shè)施以及具有保護(hù)性可保密性的軟硬件基礎(chǔ)設(shè)施。
2.4人員儲備的挑戰(zhàn)
對于現(xiàn)有的大多數(shù)圖書館員而言,大數(shù)據(jù)分析技術(shù)是一項(xiàng)全新的技術(shù),他們并不具備相關(guān)的知識儲備及分析能力,即便是具有一定的知識的圖書館員,可能有也缺乏實(shí)際應(yīng)用的能力,難以將可挖掘的數(shù)據(jù)做持久化處理及深度分析。此外,隨著圖書館數(shù)據(jù)量的增長,所能夠真正分析使用的數(shù)據(jù)比例實(shí)際在降低,如果選擇實(shí)用可靠的數(shù)據(jù)分析方法,提高可分析數(shù)據(jù)比例,真正將數(shù)據(jù)分析應(yīng)用到知識服務(wù)的輔助決策中,是每一個(gè)圖書館員索要思考的問題。
3大數(shù)據(jù)為圖書館帶來的機(jī)遇
3.1智能輔助
傳統(tǒng)的信息檢索模式依賴于用戶所輸入的檢索詞,通過檢索功能將結(jié)果對用戶進(jìn)行反饋,而依賴于大數(shù)據(jù)的智能輔助功能則不僅僅只是被動(dòng)的接收用戶的檢索要求,可以通過檢索歷史判斷客戶需求,從而主動(dòng)推送相關(guān)信息給用戶。通過對用戶搜索行為數(shù)據(jù)的分析,發(fā)現(xiàn)客戶的搜索習(xí)慣和搜索需求,并有針對性的進(jìn)行推送,從而提高檢索效率。
3.2用戶流失及價(jià)值分析
隨著硬件、軟件局限性以及人員素質(zhì)無法滿足當(dāng)前或未來的要求等問題約束了圖書館的發(fā)展,特別是在網(wǎng)絡(luò)技術(shù)高速發(fā)展,信息量急速膨脹的今天,高校人員對于圖書館的存在價(jià)值進(jìn)一步弱化,因此,如何能夠通過利用大數(shù)據(jù)分析用戶的需求、行為特點(diǎn)、使用習(xí)慣等來應(yīng)對圖書館用戶流失的現(xiàn)狀,并且對于未來在交互知識服務(wù)中對于用戶與圖書館使用方向發(fā)展態(tài)勢進(jìn)行預(yù)測,消除圖書館所面臨的發(fā)展困境是值得每一位圖書館員研究的課題。
3.3引文分析及趨勢分析
利用各類統(tǒng)計(jì)學(xué)的方法:如時(shí)間序列分析、相關(guān)分析、假設(shè)檢驗(yàn)、聚類分析等方式,量化文獻(xiàn)引用頻率及行為,通過相互引證關(guān)系分析除了可以分析作者影響力或是文獻(xiàn)重要性,還可分析學(xué)科之間的交互性以及信息來源分布特征,從而為各學(xué)科發(fā)展方向提供相應(yīng)的規(guī)劃依據(jù)。同時(shí),圖書館作為文獻(xiàn)集合的載體,可得到不同類型、不同信息要素之間相互引證的數(shù)據(jù),從而為用戶建立立體的引用分析,掌握全面的引證關(guān)系,即在廣度上對于知識體系進(jìn)行挖掘。此外,通過對于不同時(shí)間點(diǎn)的相同指標(biāo),可建立某些檢索或引證的趨勢曲線分析,便于用戶了解檢索的學(xué)術(shù)趨勢或是學(xué)科的研究熱點(diǎn)的歷史變遷。從而發(fā)現(xiàn)不同學(xué)科、不同主題甚至不同機(jī)構(gòu)的文獻(xiàn)生長方向,在深度上挖掘相關(guān)的知識體系。
3.4知識服務(wù)及業(yè)務(wù)建設(shè)的風(fēng)險(xiǎn)模型構(gòu)建
通過數(shù)據(jù)挖掘技術(shù)可構(gòu)建圖書館信息安全風(fēng)險(xiǎn)評估模型,信息資源利用率評估模型、圖書采購及使用率評估模型、知識產(chǎn)權(quán)風(fēng)險(xiǎn)評估模型等具有分析、決策等功能的數(shù)學(xué)模型來協(xié)助我們對于相關(guān)知識服務(wù)及業(yè)務(wù)建設(shè)的關(guān)鍵因素進(jìn)行深入研究,同時(shí)可依據(jù)二八原則:即80%的效益由20%的關(guān)鍵因素決定,從而能夠達(dá)到抓主要因素,促進(jìn)圖書館有效發(fā)展的作用。
3.5知識挖掘及情報(bào)分析
通過引入先進(jìn)的分析技術(shù):如數(shù)據(jù)挖掘、索引規(guī)則等手段來對于各類文獻(xiàn)數(shù)據(jù)進(jìn)行深入分析,了解各類文獻(xiàn)間的錯(cuò)綜復(fù)雜的關(guān)系,揭示信息資源關(guān)聯(lián)立體的知識體系,挖掘客戶潛在的知識需求,從而提供精準(zhǔn)的發(fā)現(xiàn)服務(wù)。此外,利用結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),實(shí)現(xiàn)自動(dòng)化、智能化的分析技術(shù),獲取動(dòng)態(tài)化、知識化的情報(bào),通過人機(jī)交互的方式及可視化的技術(shù),幫助用戶在一定的技術(shù)環(huán)境中查看分析結(jié)果,了解信息資源潛在的發(fā)展規(guī)律。
參考文獻(xiàn)
[1]姜山,王剛.大數(shù)據(jù)對圖書館的啟示[J].圖書館工作與研究,2013,(4):5254.
[2]朱靜微,李紅艷.大數(shù)據(jù)時(shí)代下圖書館的挑戰(zhàn)及其應(yīng)對策略[J].現(xiàn)代情報(bào),2013,33(5):1013.
[3]高瑾.大數(shù)據(jù)與圖書館建設(shè)[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2015,(1).