摘要:大數(shù)據(jù)的誕生給高校圖書館工作帶來了機遇與挑戰(zhàn)。高校圖書館要勇于面對,提高圖書館的技術(shù)水平,組建專業(yè)的館員團隊,建立館藏文獻(xiàn)分類數(shù)據(jù)庫,運用數(shù)據(jù)挖掘技術(shù),分析在校讀者層次,預(yù)測讀者的信息需求,建立讀者需求數(shù)據(jù)庫,用數(shù)據(jù)推送的方式,對讀者進(jìn)行閱讀推廣,高校圖書館利用大數(shù)據(jù)的新價值,開展創(chuàng)新性服務(wù)。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘;精準(zhǔn)推送;讀者需求;高校圖書館 文獻(xiàn)標(biāo)識碼:A
中圖分類號:G258 文章編號:1009-2374(2016)17-0191-02 DOI:10.13535/j.cnki.11-4406/n.2016.17.093
隨著科技與電子信息技術(shù)的日益進(jìn)步,數(shù)據(jù)挖掘與分析技術(shù)形成,沃爾瑪?shù)摹捌【?尿布”案例,被公認(rèn)為是商業(yè)領(lǐng)域內(nèi)數(shù)據(jù)挖掘的誕生。從大量的非結(jié)構(gòu)化數(shù)據(jù)中,分析并得到兩種不相干客戶行為之間的內(nèi)在聯(lián)系,即大數(shù)據(jù)時代的數(shù)據(jù)分析與數(shù)據(jù)挖掘技術(shù)。大數(shù)據(jù)被譽為是未來的石油與黃金,美國政府也于2012年3月29日撥款2億美元推行“大數(shù)據(jù)的研究和發(fā)展計劃”,這開啟了世界的大數(shù)據(jù)時代。2013年5月9日,奧巴馬簽署行政命令《政府信息的默認(rèn)形式就是開放并且機器可讀》,大數(shù)據(jù)時代沖擊著各行各業(yè),它正在撬動中國的制度創(chuàng)新、科技創(chuàng)新。高校圖書館作為學(xué)校的文獻(xiàn)信息中心,搜集、分析并挖掘用戶的行為與信息需求,預(yù)測用戶的需求導(dǎo)向,引導(dǎo)讀者向?qū)I(yè)化的深閱讀方向發(fā)展;拓寬圖書館的服務(wù)方式,尋求館藏資源建設(shè)與用戶信息需求的完美結(jié)合,是大數(shù)據(jù)時代,高校圖書館服務(wù)創(chuàng)新亟需解決的問題。
1 大數(shù)據(jù)時代高校圖書館面臨的機遇與挑戰(zhàn)
1.1 大數(shù)據(jù)的內(nèi)涵
2011年5月,麥肯錫在《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領(lǐng)域》報告中首次提出了大數(shù)據(jù)概念,報告指出“數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運用將預(yù)示著新一波勝利率增長和消費者盈余浪潮的到來”。大數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的總和;大數(shù)據(jù)的“數(shù)據(jù)”不是數(shù)據(jù)存儲,而是數(shù)據(jù)獲取與數(shù)據(jù)應(yīng)用。大數(shù)據(jù)的“大”意義具有多樣性。IBM認(rèn)為大數(shù)據(jù)具有“3V”特點,即種類(Variety)多、速度(Velocity)快、容量(Volume)大。綜合大數(shù)據(jù)的諸多特點,在數(shù)據(jù)深度分析之后,新數(shù)據(jù)的價值會翻倍,數(shù)據(jù)的處理會形成新的產(chǎn)業(yè),大數(shù)據(jù)將改變目前的IT構(gòu)架。圖書館作為知識、信息的服務(wù)中心,在全球大數(shù)據(jù)時代將面臨機遇與挑戰(zhàn)。
1.2 高校圖書館面臨的機遇與挑戰(zhàn)
高校圖書館作為學(xué)校的知識、信息中心,為師生提供快捷、滿意的信息服務(wù),圖書館如何運用數(shù)據(jù)挖掘與分析技術(shù),提升圖書館的信息服務(wù)水平,是當(dāng)前亟待解決的問題。高校圖書館擁有豐富的信息資源與人力資源,在大數(shù)據(jù)時代如何不被市場邊緣化,為用戶開展大數(shù)據(jù)分析服務(wù)是其發(fā)展趨勢。
首先,高校圖書館的數(shù)據(jù)挖掘與分析技術(shù)要與時俱進(jìn)。大數(shù)據(jù)時代,將會出現(xiàn)諸多的數(shù)據(jù)分析公司,印度班加羅爾已有超過100家以數(shù)據(jù)分析為主要業(yè)務(wù)的新型數(shù)據(jù)公司,如Analytic Edge、Zinnov以及自稱是全球最大的專業(yè)性數(shù)據(jù)分析公司的Mu Sigma。高校圖書館在館藏資源建設(shè)、讀者信息服務(wù)和工作方式上將受到大數(shù)據(jù)的沖擊,要開拓創(chuàng)新、勇于挑戰(zhàn),建立高質(zhì)量的信息服務(wù)技術(shù)團隊,達(dá)到信息資源即時獲取、精確分析、深度挖掘、精準(zhǔn)推送的目標(biāo)。
其次,圖書館的技術(shù)與工具要符合數(shù)據(jù)挖掘的要求,圖書館要了解自身的數(shù)據(jù)收集、存貯、分析和挖掘現(xiàn)狀,還必須掌握用戶對圖書館的信息利用與需求度,在知己知彼的前提下,開展數(shù)據(jù)分析服務(wù)。目前,圖書情報界所熟知的聚類分析、數(shù)據(jù)挖掘、關(guān)聯(lián)規(guī)則、網(wǎng)絡(luò)分析、可視化分析、數(shù)據(jù)融合與數(shù)據(jù)集成等,這只是針對結(jié)構(gòu)化數(shù)據(jù)和有限數(shù)量的關(guān)鍵詞進(jìn)行聚類分析、共現(xiàn)分析等,并不能真正挖掘非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化化數(shù)據(jù),更不能通過數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。一些學(xué)者開始思考去采集和利用網(wǎng)絡(luò)社交等信息行為產(chǎn)生的大量非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),如蘇玉照等人就認(rèn)為如果能夠采集到Web日志的數(shù)據(jù),就能很好地滿足發(fā)現(xiàn)關(guān)聯(lián)規(guī)則、內(nèi)容分類和用戶聚類的需求,從而能提高個性化推薦的精度,進(jìn)而對定制Web日志的數(shù)據(jù)模型、過程及方法進(jìn)行探索。大數(shù)據(jù)時代,高校圖書館的信息搜集、存貯、非結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)的挖掘也是攻克難關(guān)。
2 大數(shù)據(jù)時代高校圖書館的應(yīng)對措施
大數(shù)據(jù)時代,圖書館的館藏資源都將以數(shù)字化和網(wǎng)絡(luò)化形式存在,即館藏資源經(jīng)過數(shù)據(jù)挖掘與分析后,將以不同的形式按照用戶的閱讀需求推送,用戶的個性化需求可以通過修改數(shù)據(jù)包來實現(xiàn)。數(shù)據(jù)分析與數(shù)據(jù)挖掘技術(shù)會盡可能讓館藏資源與讀者需求達(dá)到無縫契合,圖書館讀者服務(wù)工作上升到理想境界。
2.1 將數(shù)據(jù)分析技術(shù)運用到圖書館文獻(xiàn)資源建設(shè)
大數(shù)據(jù)時代,數(shù)據(jù)搜集與存貯是必備條件,在商業(yè)市場中,數(shù)據(jù)分析被運用得淋漓盡致。如奈飛公司利用客戶的網(wǎng)上點擊記錄,預(yù)測其消費需求,進(jìn)行客戶針對性精準(zhǔn)營銷。高校圖書館亦可參考這一做法,根據(jù)讀者對館藏資源的點擊率,利用圖書館自動化系統(tǒng),對館藏資源進(jìn)行分類與排行,預(yù)測讀者喜好,在校園局域網(wǎng)平臺上,對讀者進(jìn)行文獻(xiàn)信息分類,實現(xiàn)信息精準(zhǔn)推送。
首先,建立館藏資源大數(shù)據(jù),對館藏資源進(jìn)行精細(xì)化分類。利用自動化系統(tǒng),分析、歸類館藏紙質(zhì)資源,以學(xué)科、出版年、文獻(xiàn)借閱率等不同的標(biāo)準(zhǔn)對館藏文獻(xiàn)進(jìn)行劃分重組,按照不同的知識體系,以專業(yè)性、時效性和讀者喜好度等標(biāo)準(zhǔn)歸類,建立館藏資源的網(wǎng)狀結(jié)構(gòu)系統(tǒng),使每類館藏文獻(xiàn)體系都有相對應(yīng)的讀者群,反過來,每類讀者群都有相對應(yīng)的館藏分類體系,二者一一對應(yīng)。
其次,盡可能使館藏資源體系全面而不失個性化。在文獻(xiàn)采訪過程中,挖掘出館藏數(shù)據(jù)的價值與隱藏在讀者背后的閱讀需求,預(yù)測讀者閱讀趨勢。目前,市場上的圖書采集器只能進(jìn)行館藏文獻(xiàn)查重,無法實現(xiàn)按讀者需求采購,結(jié)合國外讀者主導(dǎo)式采購系統(tǒng)(簡稱PDA),利用書商提供的電子書單,通過圖書館網(wǎng)絡(luò)平臺,積極引導(dǎo)讀者參與圖書采購。按讀者的網(wǎng)上瀏覽記錄,對其行為進(jìn)行跟蹤、分析、預(yù)測,對其讀者進(jìn)行閱讀推送,結(jié)合淘寶網(wǎng)顧客瀏覽記錄,向讀者提供館藏或訂單已有的、與讀者需求傾向一致的相關(guān)圖書。
2.2 數(shù)據(jù)挖掘技術(shù)應(yīng)用到圖書館自動化系統(tǒng)
圖書館可以運用網(wǎng)絡(luò)數(shù)據(jù)對讀者進(jìn)行數(shù)據(jù)挖掘與分析,這種基于網(wǎng)絡(luò)的數(shù)據(jù)挖掘,不需要制定問卷,也不需要逐一調(diào)查,成本低廉。數(shù)據(jù)挖掘?qū)⒊蔀樵絹碓街匾姆治鲱A(yù)測工具,它將給讀者以導(dǎo)向,根據(jù)讀者的文獻(xiàn)借閱史、借閱方式、行為愛好、讀者借閱排行榜、讀者的電子圖書點擊率等行為,網(wǎng)上瀏覽記錄等,分析讀者潛在的信息需求,為讀者制定個性化的文獻(xiàn)推薦系統(tǒng)。2013年5月,加拿大蒙特利爾交通局宣布,將利用SAP(思愛普)公司的大數(shù)據(jù)處理平臺,對所有顧客的消費歷史和個人信息進(jìn)行分析,然后按照其偏好、習(xí)慣和需要,對每位顧客定制專門的消費計劃和個性化票價。此外,2014年1月,美國的電子零售巨頭亞馬遜宣布了一項新的專利:“預(yù)判發(fā)貨”(Anticipatory Shipping),即在網(wǎng)購時,顧客還沒有下單,亞馬遜就將包裹寄出。亞馬遜鎖定固定的群體,他們對某些消費有固定的預(yù)算。亞馬遜有1億客戶,他們的消費日積月累,可以說是海量數(shù)據(jù),亞馬遜靠數(shù)據(jù)挖掘來完成預(yù)判發(fā)貨工作。圖書館也可以為讀者推薦新書目數(shù)據(jù),當(dāng)讀者在某本書的簡介上停留時間較長時,我們可以通過網(wǎng)絡(luò)軟件自動將這本書生成訂單,發(fā)給書商或出版社。同時運用關(guān)聯(lián)數(shù)據(jù)的方法,將與此書相關(guān)的圖書推送給讀者,進(jìn)行數(shù)據(jù)推送服務(wù)。
收集讀者閱讀行為數(shù)據(jù),包括讀者的基本信息、文獻(xiàn)借閱史、閱讀習(xí)慣、到館時間、閱讀興趣、考試時間、網(wǎng)上瀏覽歷史等,對這些數(shù)據(jù)進(jìn)行分析與挖掘,提前預(yù)知讀者的信息需求,圖書館利用現(xiàn)有館藏,及時開展針對性服務(wù),分類對讀者進(jìn)行資源推薦與介紹,急讀者之所急,變被動服務(wù)為主動。值得注意的是,這類服務(wù)具有時效性與針對性,開學(xué)與期末、期中,各類考試、節(jié)日等,讀者的閱讀需求是動態(tài)的,圖書館要隨時關(guān)注他們的閱讀心理變化,為讀者制定不同的閱讀方案。
對讀者進(jìn)行閱讀推廣,在大數(shù)據(jù)時代,挖掘讀者的借閱數(shù)據(jù)與習(xí)慣,對讀者提供個性化的服務(wù)。挖掘整合館藏資源,分類對讀者進(jìn)行文獻(xiàn)推送服務(wù)。利用校園局域網(wǎng)、學(xué)校公告、宣傳欄、圖書館網(wǎng)站、圖書館信息咨詢處、圖書館讀者服務(wù)平臺等渠道進(jìn)行新書閱讀推廣,策劃不同的閱讀專題,宣傳、介紹圖書館的館藏資源。舉辦圖書閱讀講座,讓讀者深入了解圖書館館藏與圖書館功能,引導(dǎo)讀者參與到圖書采訪工作中,提高圖書館的信息服務(wù)水平。
2.3 建立大數(shù)據(jù)服務(wù)專業(yè)團隊
數(shù)據(jù)分析作為一種技術(shù),與之匹配的管理制度就需出爐。大數(shù)據(jù)對技術(shù)要求極高,如人工智能、商業(yè)智能、數(shù)學(xué)算法、電子信息技術(shù)、物聯(lián)網(wǎng)等跨學(xué)科交互實現(xiàn)的技術(shù)。因為社交媒體的出現(xiàn),全世界的網(wǎng)民都能成為數(shù)據(jù)的生產(chǎn)者。而數(shù)據(jù)挖掘,是指通過特定的算法對大量的數(shù)據(jù)進(jìn)行自動分析,從而揭示隱藏在數(shù)據(jù)之后的規(guī)律和趨勢,即在大數(shù)據(jù)當(dāng)中發(fā)現(xiàn)新知識,為決策者提供參考。
圖書館要善于抓住市場信息,緊跟圖書館發(fā)展趨勢,建立具備數(shù)據(jù)挖掘與分析的技術(shù)團隊,劃撥相應(yīng)的經(jīng)費,搭建信息獲取與推送的網(wǎng)絡(luò)平臺,制定基于讀者閱讀需求的數(shù)據(jù)挖掘方針、計劃,合理、有序地開展讀者需求信息挖掘與分析工作。結(jié)合圖書館實際,最大限度地滿足讀者需求,引導(dǎo)館藏建設(shè)與讀者需求趨于一致。
2.4 提高圖書館的讀者服務(wù)方式
大數(shù)據(jù)時代,圖書館對讀者行為進(jìn)行分析,是提高其服務(wù)方式的主要手段。
讀者的所有閱讀行為都是有跡可循的,反過來,在讀者的閱讀過程中,我們也可以為讀者推送他們感興趣的文獻(xiàn)信息。如淘寶網(wǎng)的推薦頁面,當(dāng)你在哪些商品上瀏覽時間過長或已購買該商品時,之后你看其他網(wǎng)頁時它會給你推薦類似商品。圖書館可以借用淘寶的這一功能,運用數(shù)據(jù)關(guān)聯(lián)技術(shù)使圖書館的自動化系統(tǒng)與圖書館網(wǎng)頁聯(lián)合,在讀者在進(jìn)入圖書館網(wǎng)頁或書目查詢界面時推送讀者感興趣的書目。
3 大數(shù)據(jù)時代圖書館面臨的問題
大數(shù)據(jù)時代,圖書館有能力且有條件開展數(shù)據(jù)挖掘分析工作,圖書館的硬件設(shè)施、人力資源、技術(shù)支持、經(jīng)費運算和管理體制等均受到大數(shù)據(jù)時代的挑戰(zhàn)。圖書館的資源優(yōu)勢在大數(shù)據(jù)時代如何展現(xiàn),圖書館關(guān)聯(lián)數(shù)據(jù)集成管理研究,即如何將現(xiàn)有的數(shù)據(jù)資源創(chuàng)建成關(guān)聯(lián)數(shù)據(jù)并在網(wǎng)上發(fā)布,將是當(dāng)前急需解決的問題之一。
參考文獻(xiàn)
[1] 韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012,(5).
[2] 韓翠峰.大數(shù)據(jù)時代圖書館的服務(wù)創(chuàng)新與發(fā)展[J].圖書館,2013,(1).
[3] 涂子沛.數(shù)據(jù)之巔[M].北京:中信出版社,2014.
作者簡介:王黎(1985-),女,甘肅蘭州人,咸陽師范學(xué)院圖書館助理館員。
(責(zé)任編輯:周 瓊)