陳廉芳
大數(shù)據(jù)環(huán)境下圖書館用戶小數(shù)據(jù)的采集、分析與應用??
陳廉芳
大數(shù)據(jù)創(chuàng)新了思維方式,小數(shù)據(jù)同樣具有重大價值。小數(shù)據(jù)是個體用戶的“全數(shù)據(jù)”,與大數(shù)據(jù)相比,小數(shù)據(jù)更具可操作性、適用性和人文關懷等特點。通過用戶表達和行為感知采集的小數(shù)據(jù),可以采用基于知識、內容、交互、協(xié)同、關聯(lián)、情境、混合等的推薦算法進行分析。圖書館用戶小數(shù)據(jù)的采集分析可應用于描繪個人數(shù)據(jù)報告、增強宣傳推廣效果、優(yōu)化嵌入式服務、加強用戶感受體驗、提供決策決議參考等方面。參考文獻9。
大數(shù)據(jù) 小數(shù)據(jù) 用戶數(shù)據(jù) 個性化服務
用戶是圖書館的服務對象,也是圖書館的重要資源,對用戶信息資源的挖掘和整理,對用戶興趣和需求的精細化分析,影響著圖書館服務的深化和發(fā)展。隨著對圖書館用戶體驗和個性化需求的重視,用戶信息的資源化引起了廣泛關注[1]。計算機網(wǎng)絡、傳感器、云計算和海量存儲等技術的發(fā)展催生出大數(shù)據(jù)概念,與可以通過目前主流軟件工具在合理時間內采集、存儲、處理的數(shù)據(jù)集不同,大數(shù)據(jù)是無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,促成了“不是隨機樣本、而是所有數(shù)據(jù),不是精確性、而是混雜性,不是因果關系、而是相關關系”的大數(shù)據(jù)時代思維變革[2]。大數(shù)據(jù)代表著人類認知過程的進步,但大范圍地收集零散的、多渠道的和非結構化的用戶信息并從中提取出有價值的資源具有一定挑戰(zhàn)性,且進行大數(shù)據(jù)分析的要求高、難度大,同時也存在著一定的不足,而對用戶個性化信息的追蹤可作為補充。
美國康奈爾大學計算機科學教授艾斯汀指出,從用戶上網(wǎng)和使用各種移動設備過程中產生的大量用戶行為軌跡數(shù)據(jù)中提取出的個體數(shù)據(jù),可以為揭示人類行為模式規(guī)律提供依據(jù),這些個體數(shù)據(jù)即為大數(shù)據(jù)時代的小數(shù)據(jù)[3];同樣,圖書館用戶小數(shù)據(jù)關注的目標是個體用戶,研究的對象是個體用戶空間上全方位的、時間上全過程的、深度上精細化的所有可利用數(shù)據(jù),旨在通過數(shù)據(jù)采集、存儲、處理、整合和分析為相關決策提供高質量的服務。圖書館用戶小數(shù)據(jù)包括讀者在圖書館實體或者虛擬空間里產生的數(shù)據(jù),也包括在館外空間特別是在網(wǎng)絡上自由表達出的信息訴求;包括有意識的表述出來的需求,也包括不經意間遺留下來的需要被挖掘感應的信息痕跡;包括專指性高的可直接參考利用的數(shù)據(jù),也包括價值密度低需要充分整理分析才可被利用的數(shù)據(jù)資源;甚至包括其他用戶產生的但卻能反映某用戶相關信息需求的數(shù)據(jù)??傊?,它是“一個用戶”與圖書館有關聯(lián)的所有數(shù)據(jù)的集合。
美國沃頓商學院喬納·伯杰推測,大數(shù)據(jù)的演進方向將會是個體數(shù)據(jù)的采集量化[4]。大數(shù)據(jù)的價值在于能夠通過巨量數(shù)據(jù)的堆積使事物之間的相互關系及其規(guī)律得以逐漸地清晰呈現(xiàn),這種規(guī)律是小批量數(shù)據(jù)難以體現(xiàn)出來的。但同時,小數(shù)據(jù)也有著大數(shù)據(jù)難以企及的價值優(yōu)勢。與大數(shù)據(jù)相比,小數(shù)據(jù)分析更具可操作性、適用性和人文關懷等特點,更適合于圍繞個人或團體的個性化、差異性需求提供服務。
1.1可操作性
單個圖書館的數(shù)據(jù)集的量有可能不足以觀測出事物之間的微妙關系,因而不能算作真正的大數(shù)據(jù)分析,大數(shù)據(jù)分析需要云技術的支持,將眾多圖書館的數(shù)據(jù)開放至云端,集聚起來才能成為真正的大數(shù)據(jù)。而小數(shù)據(jù)是圍繞圖書館用戶個人的信息采集,數(shù)據(jù)集中性高,能夠較為容易地通過用戶登記、閱讀終端、物聯(lián)網(wǎng)設施、傳感器設備等多種方式獲取。大數(shù)據(jù)是隨著新的采集、預處理、存儲管理、分析挖掘、展現(xiàn)應用等新技術和Hadoop、Hadapt、HPCC等新工具的出現(xiàn)而出現(xiàn)的,普通圖書館沒有必要也沒有足夠能力去承擔這些高尖端設備和先進技術的成本。小數(shù)據(jù)分析所需要的數(shù)據(jù)量是有限的,采集、計算和決策的成本比大數(shù)據(jù)要小,在一般圖書館可勝任的能力和范圍之內。
1.2適用性
從數(shù)據(jù)分析的效率上看,大數(shù)據(jù)的分析結果雖能引發(fā)突破性的變革,但采集到的巨量數(shù)據(jù)之間并不一定存在相關關系,信息的巨量導致噪音的巨大,某些具體的相關性以現(xiàn)有的技術和方法有可能未能探測出,即便得出兩個變量之間的相關性,這種相關性也有可能是毫無意義或是難以應用的,整個分析過程花費昂貴且回報不清晰。大數(shù)據(jù)發(fā)現(xiàn)的是一般的普遍規(guī)律,這些規(guī)律是否適用于特定的圖書館還需進一步地考量實踐。同一類事物的內部存在著多樣性,小數(shù)據(jù)不去探索數(shù)據(jù)的普遍規(guī)律和聯(lián)系,而是去發(fā)現(xiàn)事物的特殊性,在特定圖書館內發(fā)現(xiàn)特定用戶的特殊性對其工作本身的指導作用更強。圍繞并跟蹤用戶的小數(shù)據(jù),能夠結合情境快速、便捷、安全、準確地推測出用戶的特殊信息需求,進而靈活地推送相關文獻和服務。
1.3人文關懷
大數(shù)據(jù)的服務對象是整個行業(yè)和機構,采用的是全樣本分析方法,雖擺脫了用局部代替整體的局限,但卻陷入了用一般化的共性來代表個性的困惑,個性化需求未受到充分重視,用戶被平均化,特性被抹殺掉。大數(shù)據(jù)的經典銷售案例“啤酒與尿布”為商家?guī)砹舜罅康睦麧?,但顯然許多購買尿布的顧客對啤酒沒有需求,并不能為這部分顧客帶來方便。數(shù)字化已經滲透到生活的各個角落,大數(shù)據(jù)試圖將人們的感情觀念量化,將人們的活動傾向數(shù)據(jù)化,冷冰冰地通過規(guī)律來表達。而小數(shù)據(jù)靜態(tài)地采集用戶產生的、與其相關的方方面面的數(shù)據(jù),動態(tài)地進行服務流程的跟蹤,實時地反映用戶需求,注重數(shù)據(jù)分析,也關注價值判斷,重視用戶交互,使得服務更深入、決策更精準。
因此,大數(shù)據(jù)分析是整個行業(yè)或區(qū)域圖書館聯(lián)盟才有能力處理的,是整個行業(yè)的責任,大數(shù)據(jù)發(fā)現(xiàn)的規(guī)律推動著整體大局的發(fā)展;而對于單一圖書館,小數(shù)據(jù)分析更有可行性、更體現(xiàn)精細化,具備情境性、高效率、靈活性、易操作、實用性強等特點,且尊重用戶價值觀念,體現(xiàn)人文關懷,因而能夠迅速運用到具體的服務實踐中。
用戶需求的獲取是圖書館提供服務的前提準備。建立起良好的用戶和館員溝通渠道是獲取用戶需求的一條途徑,除此之外,智慧化地主動獲取方式也越來越受到重視。以用戶小數(shù)據(jù)為挖掘對象,通過歷史行為數(shù)據(jù)收集,運用機器學習原理智能化地推測用戶的興趣和需求,構建用戶需求模型,可以大范圍地高效獲取用戶需求。將這些動態(tài)性變化的需求信息存儲于圖書館開設的類似于“我的圖書館”個人虛擬空間,可為圖書館服務提供決策依據(jù)。
2.1用戶小數(shù)據(jù)的采集
小數(shù)據(jù)的采集內容包括個體使用圖書館過程中產生的所有數(shù)據(jù)和其他能推測出該用戶對圖書館需求的相關數(shù)據(jù)。用戶的小數(shù)據(jù)種類繁多,可以通過用戶表達和行為感知兩種方式采集(如表1所示)。用戶表達能夠最為直截了當?shù)卣莆沼脩舻呐d趣需求,包括:(1)用戶登記的信息,如辦理借閱證、注冊服務項目、參加活動等所登記的姓名、專業(yè)、聯(lián)系方式、研究方向和興趣愛好等;(2)參考咨詢的信息,如用戶各種文獻需求的申請、課題項目檢索查新的要求、各種疑難困惑的咨詢問題等;(3)通過圖書館社會媒體生成的內容,如對圖書館的微博、微信、博客的評價反饋等信息。
除用戶表達出的需求外,還有用戶未知的、未表達的或難以清晰表達的需求,這一部分要通過對用戶的行為進行感知才能獲取,可分為四個層次:個體身體的姿勢、動作等體感行為的感知;用于時空精準定位的一定時間維度和空間維度上的軌跡行為的感知;一定物理空間和虛擬空間中學習、科研、工作、生活行為的感知;結合用戶情境狀態(tài)的網(wǎng)絡社交行為感知[5]。伴隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,移動技術、RFID技術、人工智能、可穿戴設備等在圖書館的逐步應用為此提供了條件。圖書館用戶行為感知的內容主要有:(1)用戶使用數(shù)據(jù)庫的信息,如數(shù)據(jù)庫登錄次數(shù)、停留時間、信息收藏、文獻瀏覽下載、文獻標記轉發(fā)的情況;(2)用戶使用圖書集成管理系統(tǒng)的信息,如借閱、收藏、評價、預約和推薦圖書的記錄;(3)用戶使用各種空間、資源、設備的信息和體驗感覺,如用戶進出圖書館以及各閱覽室、使用設施設備、翻閱各種文獻等情況;(4)外圍信息,如同類型用戶的文獻獲取經歷和其他用戶向其轉發(fā)推薦的資料信息等。
目前,圖書館用戶行為數(shù)據(jù)的采集大部分是從計算機或移動設備的點擊、瀏覽、檢索等過程中獲取。隨著智能和傳感技術設備越來越密切地與人體接觸,用戶行為的感知也將越來越豐富和深入,逐步實現(xiàn)通過全時空、多渠道的人機物三元交互技術采集的多元數(shù)據(jù)在數(shù)據(jù)層、特征層或決策層的融合,使以個體用戶為中心的不同數(shù)據(jù)之間不斷互補完善,增加用戶行為數(shù)據(jù)采集的可靠性和可信度[6]。
2.2用戶小數(shù)據(jù)的分析
多渠道的信息采集解決了數(shù)據(jù)稀疏性問題。用戶小數(shù)據(jù)的分析能推算出用戶的各種興趣需求和接受圖書館服務時的舒適度,把各種資源、服務及推送方式與相應的用戶相互匹配,形成高質量的個性化服務。新用戶在圖書館空間中留下的使用痕跡和體驗次數(shù)較少,數(shù)據(jù)量小不足以根據(jù)已有的使用記錄推算用戶興趣,可以采用基于知識的推薦技術:利用學科專業(yè)知識和情報分析方法分析用戶表單中的興趣特點,挖掘用戶需求的各個方面,計算資源與用戶之間的距離,以便尋找出適合的推薦方案。當用戶的圖書館使用數(shù)據(jù)積累到一定量的時候,可以采用基于內容的推薦技術:先根據(jù)用戶的使用情況,給每個行為特征賦予一定權重,構建出用戶興趣模型,將屬性相適合的資源推送給用戶,并在用戶使用過程中,動態(tài)性地更新用戶興趣。只要新的資源有了屬性描述,基于知識或內容的推薦技術就可以將其推薦給相應用戶,但是這兩種分析方法只能根據(jù)過往的興趣推測現(xiàn)在的興趣,不能推測出用戶喜歡但卻沒有表達出的興趣。借助社交網(wǎng)絡推薦可以將一個用戶與其他用戶聯(lián)系起來,提取其他用戶對該用戶的推薦、分享和評論信息,并將提取信息作為推薦資源的參考,以便提高推薦的廣度和用戶獲得推薦的驚喜程度。協(xié)同過濾推薦技術利用用戶興趣的相似性來進行資源推薦,該技術的關鍵是根據(jù)用戶的歷史記錄找出與其興趣相似的用戶,再將相似用戶所需要的信息推薦給當前用戶,以期能夠滿足用戶的潛在需求。既然利用用戶的相似性可以進行推薦,那么根據(jù)資源的相關性也可以進行基于關聯(lián)規(guī)則的推薦。該方法將推薦轉化為挖掘資源之間的關聯(lián),當資源A和資源B頻繁地被同時使用時,有理由相信兩者之間存在某種關聯(lián)規(guī)則,那么當用戶使用了資源A時,用戶有可能也需要資源B[6]。
用戶的興趣會受到多維度情境的影響,因此結合情境的推薦越來越受到重視。智能手機可以通過感應器判斷用戶在室內還是戶外從而自動調整響鈴模式以增強用戶體驗,類似地,基于上下文感知的推薦技術就是根據(jù)時空、任務和所處環(huán)境的不同,實時主動地推送用戶感興趣的信息服務。移動醫(yī)療可以利用可穿戴設備連續(xù)追蹤和分析個人血壓、心率、睡眠、飲食、鍛煉等情況,集成個人健康數(shù)據(jù),從而為醫(yī)療護理和決策提供依據(jù)。同樣,根據(jù)追蹤的個人生理和心理數(shù)據(jù)可以判斷用戶接收圖書館服務時的舒適程度,以此為依據(jù)調整服務模式,提升用戶體驗。顯然,各種推薦算法都有各自的優(yōu)勢(如表2所示),組合各種推薦技術,提高算法的質量,將成為數(shù)據(jù)分析的一種趨勢[7]。
小數(shù)據(jù)分析可以使圖書館人擺脫主觀的直覺經驗,重新公正、客觀地認識用戶,并驅動著服務向更高效、更精準、更智慧的方向發(fā)展。用戶小數(shù)據(jù)可應用于以下幾個方面:
3.1制作個人數(shù)據(jù)報告
小數(shù)據(jù)能夠描繪出用戶個人使用圖書館的足跡、特征、趨勢等全景圖,以合適的方式將報告呈現(xiàn)給本人,可以使用戶感受到關注和尊重。報告內容可以是用戶使用圖書館的關鍵歷史記錄,如圖書館賦予的各種榮譽稱號或者各種第一次:第一次踏入圖書館的時間、第一次使用的某一設備、借閱的第一本書、下載的第一篇論文等,勾起青春和汗水的回憶,增加用戶忠誠度和粘合度;可以是用戶使用圖書館的頻次統(tǒng)計分析,如年度參加活動的清單、入館的時間和頻率、圖書借閱的數(shù)量、論文下載的次數(shù)和學科興趣偏好,并顯示用戶的百分比排名,根據(jù)排名給予一定的虛擬頭銜。這些可以幫助用戶進行自我剖析,更清晰地認識到自己使用圖書館的狀態(tài),無形中獲得榮譽或受到激勵。在客觀記錄統(tǒng)計的基礎上,結合本館的服務開展和館藏資源,提供圖書館使用指南、閱讀指導、活動通知和提醒,并接受讀者的相應意見建議。
3.2增強宣傳推廣效果
圖書館宣傳推廣的方式有線上線下相結合的資料發(fā)放、講座培訓、專題展覽、知識競賽、主題活動等等,宣傳推廣要追求廣泛深入,但也要考慮投資效益,盲目地向大多數(shù)用戶投送,費用高且效果差。利用用戶小數(shù)據(jù)的整理統(tǒng)計,對用戶進行分類,根據(jù)宣傳推廣的內容,將目標用戶劃分為不同的層次等級,繼而進行重點推介、廣泛宣傳,讓服務更具有目標導向性。以閱讀推廣為例,各種讀書會、大型新聞媒體、圖書館、網(wǎng)絡書店、出版社等都定期推出熱點暢銷圖書排名,傳統(tǒng)的閱讀推廣缺乏目標用戶的調查和細分,粗疏地將這些圖書投送給大量的目標用戶。這些圖書無疑具有高品質,但卻并不適合于每一位讀者,有可能不符合用戶的愛好,還有可能給用戶帶來了干擾。而基于小數(shù)據(jù)的閱讀推薦,能夠根據(jù)用戶的知識背景層次、閱讀模式方法、閱讀喜好習慣、閱讀觀點看法、閱讀社會關系、閱讀歷史記錄等將用戶進一步地細分為各種興趣愛好小組,再利用對用戶的時空位置和實時情境的跟蹤,便于預測用戶閱讀需求信息的變化,為用戶推送適合的閱讀內容。
3.3優(yōu)化嵌入式服務
嵌入式服務是將資源和服務無縫地推送到用戶所處環(huán)境中,讓用戶能夠隨時隨地隨心地使用,向用戶推送資源和服務的前提是要精準地掌握用戶需求。與宣傳推廣相比,嵌入式服務對精細、準確把握用戶需求的要求更高,而且要求能及時獲悉用戶需求的情境變化。不恰當?shù)那度氩粌H會造成資源浪費,而且容易打擾用戶。用戶需求信息的準確獲取,成為開展嵌入式服務的一個前提。小數(shù)據(jù)的采集分析要求對用戶進行全過程的連續(xù)追蹤,不僅要能計算出用戶持續(xù)性的興趣愛好,更為重要的是要能反映出用戶的信息需求變化,以便適時調整服務策略和服務內容,這適合于面向學習和科研項目的嵌入式服務。例如,圖書館嵌入學習的活動要協(xié)同參與教學輔助,事先了解學習者所面臨的教學目標計劃、課程設計大綱、自身已有的知識儲備水平等;事中要把握教學進度和掌握程度,同步嵌入學習內容和信息素養(yǎng)能力;事后要評測知識掌握能力和信息素養(yǎng)提升能力,以便進行學習內容的補充和服務的改進。
3.4提升用戶感受體驗
圖書館的服務除了滿足有用性,還要追求良好的用戶體驗,要滿足用戶在本能層、行為層和反思層等三個層次的體驗[8]。本能層主要是用戶感官體驗,通過可穿戴設備、移動智能設備、傳感器網(wǎng)絡等收集、整合、分析用戶生理小數(shù)據(jù)來判斷用戶心情的愉悅程度,以此來調整設施設備的配置和空間環(huán)境的配備,如色調、通風、溫度、濕度、搭配、布局等,來實現(xiàn)大多數(shù)用戶的最佳體驗。行為層主要是用戶操作體驗,例如,可以通過小數(shù)據(jù)分析用戶對服務方式的偏好來制定服務策略,可以將用戶反饋、咨詢或抱怨進行記錄以避免重復性溝通產生的厭煩,還可以以小數(shù)據(jù)為依據(jù)挑選特定用戶參加各種資源推薦、眾籌、培訓等體驗活動。反思層主要是用戶情感體驗,小數(shù)據(jù)所面向的對象是個體用戶,從小數(shù)據(jù)中發(fā)現(xiàn)用戶問題并予以解決。這種個性化的服務本身就蘊涵著注重細節(jié)、尊重個體的人文精神,使用戶感受關愛,增進感情。感官體驗、操作體驗和情感體驗之間是相互關聯(lián)、相互影響的,小數(shù)據(jù)的挖掘使圖書館能夠知己知彼,整體上提升用戶體驗。
3.5 提供決策決議參考
與大數(shù)據(jù)相比,小數(shù)據(jù)以個體用戶為中心,具有采集對象單一、內容完整、挖掘層次深和價值密度高等特點,全方位、全過程的用戶數(shù)據(jù)采集分析能夠改變圖書館以往依靠經驗、直覺或抽樣數(shù)據(jù)分析的個性化服務決策支持模式,為個性化服務決策提供高效、經濟和可靠的數(shù)據(jù)支持,形成全樣本的小數(shù)據(jù)支持模式,確保決策的合理科學[9]。個人小數(shù)據(jù)并不是孤立存在的,連同其他用戶的數(shù)據(jù)進行綜合評比分析更能顯示出其特征,通過橫向和縱向對比為館員評價用戶和用戶自我認知提供依據(jù),可以作為圖書館輔助個人學習、科研活動的決策參考。小數(shù)據(jù)為個性化服務提供決策,小數(shù)據(jù)整合形成的較大規(guī)模的數(shù)據(jù)為圖書館整體決策提供依據(jù),將個人小數(shù)據(jù)的某項具體特征通過有序整理形成圖書館群體用戶的整體偏好和需求數(shù)據(jù),可以為圖書館資源采購、空間布局、活動舉辦、規(guī)章制定等提供參考。
大數(shù)據(jù)的熱度已經滲透到圖書情報行業(yè),在肯定大數(shù)據(jù)給圖書館帶來的創(chuàng)造性變革外,也應走出大數(shù)據(jù)的盲目崇拜誤區(qū),理智地尋找那些有價值的可以為圖書館所用的用戶小數(shù)據(jù),進行小數(shù)據(jù)的采集、計算和分析,將其應用到描繪個人數(shù)據(jù)報告、增強宣傳推廣效果、提高資源嵌入契合、加強用戶感受體驗、促進決策決議合理等方面,讓服務更便捷、更精準,更溫馨,不斷提升圖書館服務質量。
1李愛國,等.圖書館用戶信息資源化:概念解析與理論框架構建[J].圖書情報工作,2015(13).
2(美)邁爾-舍恩伯格,庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
3Estrin D..Small data,where n=me[J].Communications of the ACM,2014,57(4):32-34.
4Jonah Berger.Is Little Data The Next Big Data?[EB/OL].[2015-10-09].https://www. linkedin.com/pulse/20130908184001-5670386 -is-little-data-the-next-big-data.
5陳益強,等.多源數(shù)據(jù)融合的用戶行為感知與識別[J].中國計算機學會通訊,2014(5).
6黃瓊.網(wǎng)絡圖書資源個性化推薦算法研究[D].成都:西南交通大學,2014:14-15.
7宋瑞平.混合推薦算法的研究[D].蘭州:蘭州大學,2014:15-17.
8諾曼.情感化設計[M].付秋芳,程進三,譯.北京:電子工業(yè)出版社,2005:5.
9陳臣,馬曉亭.基于小數(shù)據(jù)的圖書館個性化推送服務與服務質量保證研究[J].情報理論與實踐,2015(10).
(陳廉芳 館員 福建醫(yī)科大學圖書館)
Library Users'Small Data Collection,Analysis and Application in Big Data Environment
Chen Lianfang
Big data innovates ways of thinking,while small data also has a significant value,which is the“whole data”of individual users.Compared with big data,small data is more operable,available and shows humanistic care.User expression and behavior perception are two ways to collect small data.The analysis of small data is based on the recommendation algorithm of knowledge,content,interaction,collaboration,context,correlation,and combination,etc.Library users'small data can be applied to describe personal data report,enhance promotional effect,optimize embedded service,improve user experiences and provide reference for decision making.9 refs.
Big Data;Small Data;User Data;Personalized Service
?本文系福建省中青年教師教育科研項目“大數(shù)據(jù)環(huán)境下的高校圖書館嵌入式服務”(項目編號:JAS14959)研究成果之一。
2015-12-06