程光勝(寧夏財(cái)經(jīng)職業(yè)技術(shù)學(xué)院信息與智能工程系)
在以 “智慧” 為主題的時(shí)代背景下,智慧圖書館的研究和建設(shè)已成為圖書情報(bào)領(lǐng)域關(guān)注的熱點(diǎn),但目前關(guān)于智慧圖書館的內(nèi)涵,還沒有統(tǒng)一的界定。曾強(qiáng)等認(rèn)為,智慧圖書館是有感知的,通過智能化技術(shù)的感知為用戶提供高效、精準(zhǔn)的服務(wù),這種服務(wù)是建立在智慧圖書館具備分析、判斷、思考和創(chuàng)造的服務(wù)能力基礎(chǔ)上的[1]。石婷婷等認(rèn)為,智慧圖書館是圖書館發(fā)展的高級階段,并從感知、要素、人文、哲學(xué)等不同視角對智慧圖書館的定義進(jìn)行了綜述,得出智慧圖書館是以人為本的可持續(xù)發(fā)展和高品質(zhì)服務(wù)的一種新模式[2]。吳建中等認(rèn)為,智慧圖書館是建立在數(shù)字化圖書館基礎(chǔ)上的,是一種高度智慧化的知識服務(wù)體系,是一個(gè) “以人為本” 的線上與線下、虛擬和線上融合的新業(yè)態(tài),凸顯 “使用和增值”[3]。從這些研究可以看出,智慧圖書館是在物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等新一代智能技術(shù)的賦能下,實(shí)現(xiàn)圖書館的全要素智慧化建設(shè)和轉(zhuǎn)型,體現(xiàn) “以人為本” 的個(gè)性化、精準(zhǔn)化和泛在化的智慧服務(wù)。同時(shí),也有文獻(xiàn)從邏輯方法、服務(wù)模式等角度對智慧圖書館進(jìn)行了論述。總之,無論是智慧圖書館的理論研究還是業(yè)界實(shí)踐,目前都處于探索階段。
用戶畫像的概念由Alan Cooper等提出[4],是指建立在真實(shí)數(shù)據(jù)基礎(chǔ)上的用戶模型,是用戶信息的標(biāo)簽化表示,是智慧圖書館用戶研究的有力工具,最近幾年在電子商務(wù)、教育、公共服務(wù)等領(lǐng)域得到廣泛應(yīng)用。用戶畫像本質(zhì)是研究用戶、探求用戶真實(shí)需求、對用戶進(jìn)行信息分析的過程,通過分析,準(zhǔn)確定義、描述和刻畫用戶特征,為用戶提供更加精準(zhǔn)和個(gè)性化的服務(wù)。
趙建建在用戶畫像模型設(shè)計(jì)的基礎(chǔ)上,從用戶數(shù)據(jù)入手,建立用戶標(biāo)簽體系,通過TF-IDF算法以及聚類分析全方位闡述了個(gè)體用戶畫像和群體用戶畫像的生成過程[5]。廖運(yùn)平等將智慧圖書館的用戶畫像按照應(yīng)用目的劃分為面向設(shè)計(jì)的用戶畫像和面向營銷的用戶畫像,并從內(nèi)涵特征、需求分析、創(chuàng)建方法、創(chuàng)建步驟等方面闡述了兩類用戶畫像的區(qū)別及生成過程[6]。楊倩為了精準(zhǔn)分析與預(yù)測用戶需求,選取用戶、資源和服務(wù)三個(gè)維度,并分別創(chuàng)建標(biāo)簽內(nèi)容表,運(yùn)用聚類算法分組用戶,構(gòu)建了基于需求深度和資源廣度的差別化用戶群組畫像[7]。肖海清等提出并構(gòu)建了基于參與視角的用戶畫像,并將其應(yīng)用到圖書館閱讀推廣領(lǐng)域[8]。于興尚等從用戶認(rèn)知維度提出圖書館用戶畫像系統(tǒng)模型,旨在契合圖書館用戶信息軌跡,改善用戶認(rèn)知需求質(zhì)量,縮小認(rèn)知差距[9]。李曉敏等以智慧圖書館的圖書推薦為目的,從自然屬性、興趣屬性、社交屬性三個(gè)維度構(gòu)建了用戶畫像,并實(shí)證了該用戶畫像能夠提升個(gè)性化服務(wù)能力,達(dá)到精準(zhǔn)推薦的效果。[10]
上述文獻(xiàn)側(cè)重從圖書情報(bào)領(lǐng)域構(gòu)建用戶畫像,最終目的是實(shí)現(xiàn)圖書資源的精準(zhǔn)推薦和個(gè)性化服務(wù),但是在構(gòu)建維度上略有差異,運(yùn)用的算法、流程以及方法不盡相同,這為本文提供了很好的思路。然而,用戶畫像的構(gòu)建需要依賴大量用戶數(shù)據(jù),如何從數(shù)據(jù)科學(xué)的角度,發(fā)揮數(shù)據(jù)的最大價(jià)值并構(gòu)建用戶精準(zhǔn)畫像,現(xiàn)有文獻(xiàn)卻很少涉及。因此,本文將用戶數(shù)據(jù)分為用戶 “小數(shù)據(jù)” 和用戶 “大數(shù)據(jù)” ,根據(jù)小數(shù)據(jù)和大數(shù)據(jù)的特點(diǎn)構(gòu)建精準(zhǔn)的用戶畫像和群體畫像,并通過精準(zhǔn)畫像為用戶提供智慧服務(wù)。
這里的用戶 “小數(shù)據(jù)” 是指個(gè)體數(shù)據(jù),用其構(gòu)建用戶畫像能夠 “見微” ,用戶 “大數(shù)據(jù)” 是指全量數(shù)據(jù),反映群體特征,用其構(gòu)建群體畫像能夠 “知著” 。在用戶畫像中,通過綜合運(yùn)用 “大數(shù)據(jù)+小數(shù)據(jù)” ,既能以小帶大、小中見大,又能抓大放小、以大兼小,充分發(fā)揮大小數(shù)據(jù)的優(yōu)勢,讓大數(shù)據(jù)體現(xiàn)規(guī)律、小數(shù)據(jù)蘊(yùn)含智慧。大數(shù)據(jù)時(shí)代下的小數(shù)據(jù)是一類新型的數(shù)據(jù),并不是數(shù)據(jù)量小,而是圍繞個(gè)體的全方位數(shù)據(jù),對外形成一個(gè)富有個(gè)人色彩的數(shù)據(jù)系統(tǒng),具有鮮明的個(gè)體獨(dú)特性、復(fù)雜多樣的數(shù)據(jù)特性、高度的實(shí)時(shí)動態(tài)性和明顯的人機(jī)交互性。[11]
數(shù)據(jù)多未必就是大數(shù)據(jù)。對于單個(gè)圖書館而言,現(xiàn)有的數(shù)據(jù)量映射到全體用戶上是很稀疏的,難以反映特定的相關(guān)關(guān)系和規(guī)律,因此圍繞單個(gè)用戶的小數(shù)據(jù)分析可能更具優(yōu)勢。小數(shù)據(jù)的數(shù)據(jù)體量有限、相關(guān)性強(qiáng)、價(jià)值密度高,關(guān)注個(gè)體的特殊性,而非總體的普遍性,數(shù)據(jù)的獲取、處理和分析成本很低,能夠準(zhǔn)確描述個(gè)體的特征和行為,體現(xiàn)其個(gè)性化閱讀及知識需求,為圖書館個(gè)性化智能服務(wù)決策制定和模式構(gòu)建提供有力支撐[12]。而大數(shù)據(jù)分析采用全樣本方法,得到的結(jié)果是一般化的共性,用戶的個(gè)性化需求完全被忽略,將其應(yīng)用到智慧圖書館的 “智慧” 服務(wù)中,難以讓個(gè)體用戶滿意。
獲取用戶小數(shù)據(jù)是實(shí)現(xiàn)用戶精準(zhǔn)畫像的基礎(chǔ),一般包括用戶表達(dá)和行為感知兩個(gè)方面[13]。前者是用戶需求的直接反映,如用戶的借閱行為、文獻(xiàn)的查閱、對特定主題的評論反饋等,這些可以視作外表特征,是用戶自身可以表達(dá)的;后者需要借助特定的技術(shù)或設(shè)備去感知,如特定時(shí)空維度下的行為軌跡感知、基于用戶情境的社交行為感知等。與其他數(shù)據(jù)來源相比,智慧圖書館下的用戶小數(shù)據(jù)除了能夠記錄和反映用戶的行為及喜好等特征外,還能記錄用戶的心理、生理、思想、情感和文化等特征,并將這些特征進(jìn)行量化表示,以便繪制更加精準(zhǔn)的用戶畫像。
劉慶麟認(rèn)為,用戶小數(shù)據(jù)由個(gè)體特征數(shù)據(jù)、讀者體驗(yàn)數(shù)據(jù)和社會化及共享數(shù)據(jù)構(gòu)成[14]。陳臣等根據(jù)畫像的需要,將圖書館用戶小數(shù)據(jù)劃分為讀者特征數(shù)據(jù)、用戶生成數(shù)據(jù)和閱讀相關(guān)數(shù)據(jù),其中的閱讀相關(guān)數(shù)據(jù)具體為閱讀情景數(shù)據(jù)、閱讀行為數(shù)據(jù)、閱讀心理數(shù)據(jù)、閱讀社會關(guān)系數(shù)據(jù)[15]。劉揚(yáng)等將用戶個(gè)人小數(shù)據(jù)分解為用戶基本數(shù)據(jù)、用戶行為數(shù)據(jù)、科研協(xié)同數(shù)據(jù)和情景數(shù)據(jù)[16]。綜合以上分類并根據(jù)本文的研究需要,筆者將智慧圖書館環(huán)境下的用戶小數(shù)據(jù)劃分為用戶特征數(shù)據(jù)、用戶場景數(shù)據(jù)、用戶行為數(shù)據(jù)以及用戶情感數(shù)據(jù)。
用戶特征數(shù)據(jù)反映用戶的人口統(tǒng)計(jì)屬性,包括用戶在注冊或個(gè)人信息維護(hù)時(shí)填寫的姓名、性別、文化程度、專業(yè)方向、關(guān)注領(lǐng)域等,屬于靜態(tài)數(shù)據(jù),一般不會發(fā)生變化;用戶場景數(shù)據(jù)反映用戶使用圖書館的位置空間變換,線上可以通過網(wǎng)絡(luò)IP地址、移動終端傳感設(shè)備,線下可以通過智慧圖書館內(nèi)的視頻采集設(shè)備等途徑采集;用戶行為數(shù)據(jù)反映用戶使用圖書館過程中執(zhí)行的各種操作,如圖書借閱、文獻(xiàn)下載、主題詞查詢、觀看音視頻資源、資源評論等,記錄了用戶使用圖書館時(shí)留下的操作痕跡;用戶情感數(shù)據(jù)反映用戶在使用圖書館過程中的情感變化,有顯性和隱性之分,顯性可通過智能設(shè)備采集和感知,隱性可借助智能技術(shù)深度挖掘和分析獲取,是用戶小數(shù)據(jù)很重要的組成部分。過去囿于技術(shù)和設(shè)備,情感數(shù)據(jù)在研究中一直被忽視,近年來隨著機(jī)器學(xué)習(xí)、人工智能等技術(shù)的深度應(yīng)用,情感數(shù)據(jù)已經(jīng)引起不同領(lǐng)域研究者的極大關(guān)注。
圖書館中的用戶小數(shù)據(jù)可能分散于各個(gè)子系統(tǒng)和不同的數(shù)據(jù)節(jié)點(diǎn)。不同的子系統(tǒng)由于產(chǎn)生數(shù)據(jù)的方式和環(huán)境的不同,其數(shù)據(jù)類型和存儲方式呈現(xiàn)多樣性,如用戶的基本信息、查詢信息、借閱信息等結(jié)構(gòu)化數(shù)據(jù)屬于信息系統(tǒng)常規(guī)的數(shù)據(jù)和操作,而對用戶行為的跟蹤和記錄等半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)一般由系統(tǒng)自動生成,主要采用文本、XML文件等存儲。另外,還有一部分?jǐn)?shù)據(jù)由各種傳感器生成,如位置定位、心理生理指標(biāo)等,屬于行為感知數(shù)據(jù),這類數(shù)據(jù)一般也屬于半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。針對結(jié)構(gòu)化數(shù)據(jù),在存儲時(shí)可采用基于SQL的關(guān)系型數(shù)據(jù)庫,而對半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù),則需借助基于NoSQL的非關(guān)系型數(shù)據(jù)庫實(shí)現(xiàn),比較有代表性的有鍵值對型(如 Redis、Riak等)、文檔型 (如 MongoDB、CouchDB等)、列存儲型(如HBase、Cassandra等)和圖形(如 Infinite Graph、Neo4J等)。因此,從這些不同的子系統(tǒng)和數(shù)據(jù)節(jié)點(diǎn)獲取用戶小數(shù)據(jù)時(shí),就需面臨如何來獲取以及獲取后如何整合等問題,獲取的完整性和整合的一致性直接影響用戶畫像的精準(zhǔn)性。目前,已有成熟的API和第三方工具用于獲取不同存儲環(huán)境下的數(shù)據(jù),在整合時(shí)需要對數(shù)據(jù)進(jìn)行清洗,如補(bǔ)充缺失值、剔除異常值、刪除重復(fù)值等。
為了建立用戶精準(zhǔn)畫像,首先需要創(chuàng)建用戶畫像標(biāo)簽。有了上述用戶小數(shù)據(jù),用戶畫像標(biāo)簽可由經(jīng)過數(shù)據(jù)處理和分析的用戶小數(shù)據(jù)動態(tài)生成。具體生成過程見模型。
式(1)中,M表示用戶畫像標(biāo)簽,M={M1,M2,M3,M4},M1表示用戶基本信息標(biāo)簽,M2表示用戶場景信息標(biāo)簽,M3表示用戶行為信息標(biāo)簽,M4表示用戶情感信息標(biāo)簽。則
其中,i=1,2,3,4,j=1,2,……,n,n代表用戶小數(shù)據(jù)的數(shù)據(jù)容量。aij為常量矩陣,表示因子載荷,F(xiàn)j為相互獨(dú)立且不可測的公因子,表示畫像相關(guān)因子在整個(gè)用戶小數(shù)據(jù)指標(biāo)體系中的權(quán)重,εi為僅對該類畫像標(biāo)簽有影響的特殊因子,在M的計(jì)算表達(dá)式中,F(xiàn)與εi相互獨(dú)立。
用戶畫像就是用戶信息、用戶場景、用戶行為和用戶情感不同類別標(biāo)簽的集合,可以完整刻畫用戶在特定時(shí)間段內(nèi)的綜合表現(xiàn)。通過上述模型生成的用戶標(biāo)簽并不是固定不變的,會隨著用戶行為、情感、場景等的變化而變化,這種變化可以通過模型進(jìn)行刻畫和描述,如果用P表示用戶在某個(gè)時(shí)間點(diǎn)上生成的畫像,那么引入時(shí)間變量t,P就是一個(gè)隨時(shí)間t衰減的函數(shù),具體見式(2)。
式(2)中,i=1,2,3,4,Ct為隨時(shí)間t變化的衰減值,Ct∈(0,1],時(shí)間間隔越長,則Ct的取值越小,衰減越厲害。其計(jì)算公式見式(3)。
式(3)中,t為當(dāng)前時(shí)間,t'為學(xué)習(xí)行為發(fā)生或畫像模型生成的時(shí)間,α為衰減因子,其值可由專家根據(jù)經(jīng)驗(yàn)給出或通過回歸計(jì)算得到。
以時(shí)間作為X軸、以空間(位置)作為Y軸、以情感作為Z軸,生成立體化的用戶個(gè)體畫像(見圖1)。
圖1 立體畫像描述
在時(shí)間上,可以分為(0:00,6:00]、(6:00,8:00]、(8:00,12:00]、(12:00,14:00]、(14:00,18:00]、(18:00,20:00]、(20:00,24:00] 七個(gè)時(shí)間段,用于探索用戶的學(xué)習(xí)時(shí)間規(guī)律;在空間上,可以反映用戶的位置變化,進(jìn)一步了解用戶在學(xué)習(xí)時(shí)是否經(jīng)常集中于某個(gè)地點(diǎn),以發(fā)現(xiàn)用戶的特定學(xué)習(xí)模式;情感維度反映用戶學(xué)習(xí)時(shí)的情感變化,與時(shí)間、空間維度不同的是,情感無法直接提取,需要借助文本分析、圖像識別、視頻挖掘等技術(shù)手段深層次分析獲取。通過以上三個(gè)維度集中反映用戶的學(xué)習(xí)行為,從而獲取用戶的關(guān)注領(lǐng)域、研究方向、資源偏好、操作習(xí)慣、網(wǎng)絡(luò)互動等重要信息。
圖書館的每個(gè)用戶在學(xué)習(xí)過程中會與其他個(gè)體產(chǎn)生某種關(guān)聯(lián),從而形成特定的網(wǎng)絡(luò)關(guān)系。利用用戶小數(shù)據(jù)可以為每一位用戶建立精準(zhǔn)畫像,但是會給系統(tǒng)帶來極大的資源和計(jì)算開銷,且個(gè)人用戶畫像在應(yīng)用中也會受限。因此,為了減輕系統(tǒng)計(jì)算壓力,提高用戶畫像應(yīng)用的實(shí)際性,有必要利用圖書館積累的大數(shù)據(jù)建立用戶群體畫像。與個(gè)體精準(zhǔn)畫像不同,群體畫像本質(zhì)上是對用戶進(jìn)行分組,按照相似性原理將具有相似特征的用戶群體組織成一個(gè)虛擬整體,并用特定標(biāo)簽對其進(jìn)行描述。群體內(nèi)的用戶有很多共性特征,而群體之間的用戶在某種程度上存在一定的差異,因此群體畫像是一個(gè)將扁平化的用戶數(shù)據(jù)經(jīng)過不同的數(shù)據(jù)分析方法形成高度概括化和標(biāo)簽化畫像的過程[17]。
為了推動知識交流和創(chuàng)新,也為了促進(jìn)學(xué)科交叉和融合,本文以閱讀興趣為主題構(gòu)建群體畫像,構(gòu)建流程見圖2。群體畫像使得群內(nèi)具有趨同性,群內(nèi)用戶通過交流深化領(lǐng)域?qū)W習(xí),不同群體畫像具有外部互異常性,群間用戶通過交流促進(jìn)融合創(chuàng)新[18]。
圖2 群體畫像構(gòu)建流程
群體畫像構(gòu)建流程在邏輯上劃分為數(shù)據(jù)層、分析層和概念層。數(shù)據(jù)層表示用戶的各項(xiàng)數(shù)據(jù),在群體畫像中主要關(guān)注用戶的各項(xiàng)行為數(shù)據(jù),而這些行為數(shù)據(jù)一般是系統(tǒng)通過日志的方式記錄下來的,默認(rèn)為文本文件或XML文件格式;分析層按照特定需求對數(shù)據(jù)層的各項(xiàng)數(shù)據(jù)進(jìn)行分析,典型的分析方法有聚類分析、文本分析、主題分析、網(wǎng)絡(luò)分析等,通過綜合運(yùn)用這些方法,形成用戶大數(shù)據(jù)與畫像標(biāo)簽的關(guān)聯(lián);概念層是標(biāo)簽在特定用戶群體上的可視化呈現(xiàn),可以按照不同的時(shí)間段、不同的方式展示群體畫像結(jié)果。
根據(jù)圖書館用戶的閱讀和學(xué)習(xí)行為,筆者認(rèn)為可從用戶基本信息、學(xué)習(xí)興趣和網(wǎng)絡(luò)社交關(guān)系三個(gè)方面設(shè)計(jì)畫像標(biāo)簽。用戶基本信息可以顯示畫像群體人數(shù)、男女性別占比、學(xué)科專業(yè)分布、學(xué)歷或職稱結(jié)構(gòu)分布等信息;學(xué)習(xí)興趣反映畫像群體關(guān)注哪些關(guān)鍵詞,并以類似詞云的方式呈現(xiàn)關(guān)鍵詞熱度;網(wǎng)絡(luò)社交關(guān)系以網(wǎng)絡(luò)圖的方式顯示用戶和用戶之間關(guān)于某一主題(話題)的討論、評價(jià)等信息,或在某一段時(shí)間內(nèi)共同學(xué)習(xí)了某個(gè)資源,或通過合作關(guān)系發(fā)表了某篇論文,或通過引證關(guān)系引用了其他用戶的作品等。
在設(shè)計(jì)群體畫像標(biāo)簽后,需要對用戶數(shù)據(jù)進(jìn)行整合處理。整合后將以用戶ID為關(guān)鍵字,對應(yīng)用戶一段時(shí)間的所有文本信息,文本信息主要反映這一段時(shí)間用戶學(xué)習(xí)的資源、搜索的關(guān)鍵詞、發(fā)布的文本評論等。在此基礎(chǔ)上,提取所有文本信息的關(guān)鍵詞,通過關(guān)鍵詞構(gòu)建用戶學(xué)習(xí)興趣模型,并采用關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的方式發(fā)現(xiàn)用戶的共同學(xué)習(xí)興趣,構(gòu)建學(xué)習(xí)興趣模型。
通過關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),形成了基于關(guān)鍵詞的詞網(wǎng)絡(luò)。關(guān)鍵詞共現(xiàn)次數(shù)越多,說明用戶關(guān)注的主題越相似,學(xué)習(xí)興趣越大。在詞網(wǎng)絡(luò)的基礎(chǔ)上,可借助社團(tuán)劃分算法劃分用戶群體。顧名思義,社團(tuán)就是在網(wǎng)絡(luò)中屬性相似或角色相近的點(diǎn)集,而這里就是以關(guān)鍵詞為中心形成的用戶群體,群體內(nèi)部連接緊密而群體之間連接松散。為了在復(fù)雜網(wǎng)絡(luò)中有效劃分社團(tuán)而形成一系列有意義的社團(tuán)結(jié)構(gòu),誕生了很多網(wǎng)絡(luò)社團(tuán)劃分,如Girvan等提出的GN算法(分裂法)、Newman提出的FN貪婪算法(聚合法)、Blondel等提出的Louvain算法(聚合法)、Waltman等提出的SLM算法(聚合法)等。陳云偉等針對這些算法進(jìn)行了比較研究,結(jié)果表明:GN算法時(shí)間效率低下,F(xiàn)N算法無法保證計(jì)算精度和計(jì)算效率,而Louvain算法、Louvain多級細(xì)分算法、SLM算法針對中小型數(shù)據(jù)集的劃分效果較好[19]。
執(zhí)行具體劃分是一個(gè)數(shù)據(jù)量較大的計(jì)算過程,考慮到結(jié)果生成的非實(shí)時(shí)性、吞吐量、處理速度等因素,可以選擇Spark實(shí)現(xiàn)對數(shù)據(jù)的處理和計(jì)算。同時(shí),不論是處理的數(shù)據(jù)對象還是生成的群體畫像對象,都可以采用基于文檔的MongoDB數(shù)據(jù)庫實(shí)現(xiàn)存儲管理。在搭建技術(shù)平臺時(shí),可以選擇Spark+MongoDB的大數(shù)據(jù)技術(shù)管理平臺實(shí)現(xiàn)群體畫像的計(jì)算處理和存儲。
用戶畫像的目的是為智慧圖書館的個(gè)性化推薦系統(tǒng)提供智能化支持,為單個(gè)用戶和群體用戶提供個(gè)性化資源推薦,實(shí)現(xiàn)用戶和資源之間精準(zhǔn)映射。用戶畫像的結(jié)構(gòu)關(guān)系見圖3,從圖3可以看出,用戶畫像是個(gè)性化推薦的基礎(chǔ),個(gè)性化推薦系統(tǒng)是推薦的核心,推薦系統(tǒng)需要與用戶畫像、館藏資源同時(shí)交互,從而產(chǎn)生針對用戶個(gè)體和用戶群體的不同推薦。
圖3 用戶畫像應(yīng)用
(1)學(xué)習(xí)需求推薦。通過精準(zhǔn)用戶畫像,可以獲知用戶使用圖書館是基于哪一種類型的閱讀需求。如果是學(xué)習(xí)型閱讀需求,可以結(jié)合用戶的閱讀興趣和偏好推薦與閱讀主題相關(guān)的優(yōu)質(zhì)學(xué)習(xí)資源;如果是科研型閱讀需求,可以推薦與用戶最近研究主題相關(guān)的文獻(xiàn)資料;如果是實(shí)踐型閱讀需求,可以推薦相關(guān)視頻資源和操作手冊;如果是娛樂型閱讀需求,可以從用戶成長發(fā)展的角度推薦業(yè)余文化生活方面的信息資源。
(2)場景服務(wù)推薦。場景個(gè)性化服務(wù)是指圖書館提供的契合用戶興趣和需求的各種服務(wù),滿足用戶的實(shí)時(shí)場景(時(shí)間、空間、學(xué)習(xí)情境等)需求。融入場景標(biāo)簽的用戶畫像為圖書館個(gè)性化場景服務(wù)推薦提供了有效支撐,如用戶只要打開智慧圖書館App,借助智能終端的傳感器設(shè)備,用戶畫像模型就能夠?qū)崟r(shí)獲取用戶的場景數(shù)據(jù),從而推薦與場景相匹配的資源列表。
(3)智能用戶追蹤。用戶從注冊圖書館到使用再到最終的注銷退出,存在用戶生命周期特性。用戶個(gè)體畫像可以捕獲用戶所處生命周期的階段,運(yùn)用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等方法判別用戶的狀態(tài)和類別(普通、活躍、流失),并根據(jù)這些信息制定追蹤策略、優(yōu)化資源供給、改進(jìn)服務(wù)模式,確保為用戶提供優(yōu)質(zhì)資源,并根據(jù)流失用戶的畫像信息建立流失預(yù)警分析機(jī)制,強(qiáng)化個(gè)性化服務(wù)措施,吸引流失用戶回到圖書館。
(4)智慧服務(wù)評估。用戶可以對推薦結(jié)果進(jìn)行有效評估,幫助推薦系統(tǒng)優(yōu)化推薦算法,生成更高質(zhì)量、更加精準(zhǔn)的推薦結(jié)果,提高推薦引擎的推薦質(zhì)量,滿足用戶潛在的學(xué)習(xí)需求,體現(xiàn) “以人為本” 的智慧服務(wù)。
本文基于智慧圖書館的用戶海量行為數(shù)據(jù),從數(shù)據(jù)科學(xué)的角度區(qū)分了小數(shù)據(jù)和大數(shù)據(jù)的內(nèi)涵,明確了二者的相互關(guān)系。在此基礎(chǔ)上,利用小數(shù)據(jù)構(gòu)建用戶個(gè)體畫像,利用大數(shù)據(jù)構(gòu)建用戶群體畫像,充分發(fā)揮了用戶大數(shù)據(jù)和用戶小數(shù)據(jù)的各自優(yōu)勢。生成的用戶畫像模型實(shí)現(xiàn)了圖書館各種資源與用戶需求的精準(zhǔn)對接,滿足了用戶的個(gè)性化需求,進(jìn)而有效支撐智慧圖書館的 “智慧” 服務(wù)。然而,本文僅僅側(cè)重于圖書館的用戶畫像,事實(shí)上要實(shí)現(xiàn)用戶和知識資源的精準(zhǔn)適配,還需要從多個(gè)維度、更細(xì)粒度刻畫資源實(shí)體——知識元,形成有語義化的知識元和知識元之間的結(jié)構(gòu)關(guān)系,并按需組合知識元,形成特定意義上的學(xué)習(xí)資源。這將打破以文獻(xiàn)、圖書為單位的資源體系,從而使用戶需求和知識元之間能夠形成更加靈活的映射關(guān)系。