崔樂(lè)樂(lè)
(昆明醫(yī)科大學(xué)圖書館,云南 昆明 650500)
用戶畫像的概念最早是由交互設(shè)計(jì)之父A la n Cooper在1998年提出的,是建立在現(xiàn)實(shí)生活中一系列真實(shí)數(shù)據(jù)上的用戶目標(biāo)模型,是對(duì)真實(shí)用戶的虛擬化[1]。在國(guó)外,用戶畫像已經(jīng)成為廣告、市場(chǎng)營(yíng)銷和數(shù)據(jù)分析等領(lǐng)域的重要工具。例如,F(xiàn)acebook和Google等科技公司在個(gè)性化推薦、廣告投放和用戶體驗(yàn)方面都充分利用了用戶畫像。此外,歐美一些圖書館也開始使用用戶畫像來(lái)提升服務(wù)質(zhì)量[2]。在國(guó)內(nèi),隨著大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展,用戶畫像也逐漸被應(yīng)用于多個(gè)領(lǐng)域,在圖書館領(lǐng)域,用戶畫像也成為提高管理效率和服務(wù)水平的一種重要手段[3]。
目前,圖書館領(lǐng)域的用戶畫像主要圍繞建立用戶畫像模型等展開研究,如何利用用戶畫像為讀者提供個(gè)性化服務(wù)模式是當(dāng)前圖書館管理與服務(wù)重點(diǎn)關(guān)注的領(lǐng)域[4],而其中以構(gòu)建多維度、多層次、立體化的用戶畫像模型,實(shí)施圖書的個(gè)性化推薦、個(gè)性化信息檢索、個(gè)性化借閱、個(gè)性化參考咨詢等個(gè)性化服務(wù)[5]成為提高圖書館服務(wù)效能的重要手段之一。隨著信息化、數(shù)字化和智能化的發(fā)展,基于大數(shù)據(jù)的用戶畫像模型及相關(guān)技術(shù)也在更新迭代中,基于此,本文以高校多維度用戶數(shù)據(jù)類型為依托,構(gòu)建適應(yīng)高校圖書館的用戶畫像模型,進(jìn)而構(gòu)建多樣化的高校圖書館可視化系統(tǒng),圖書館可視化系統(tǒng)對(duì)用戶查詢意圖、興趣等進(jìn)行推理和預(yù)測(cè),為用戶及相關(guān)部門提供有效的調(diào)查結(jié)果,同時(shí)館員根據(jù)可視化系統(tǒng)對(duì)讀者服務(wù)及系統(tǒng)建設(shè)提供決策依據(jù)。
高校圖書館的用戶畫像模型構(gòu)建流程是:首先收集高校圖書館用戶的各類信息數(shù)據(jù)進(jìn)行預(yù)處理,去掉臟數(shù)據(jù),使用戶的屬性數(shù)據(jù)和行為數(shù)據(jù)相關(guān)聯(lián),然后對(duì)關(guān)聯(lián)后的用戶數(shù)據(jù)進(jìn)行深入挖掘和分析后建立用戶標(biāo)簽,初步建立用戶畫像模型,細(xì)分用戶形成個(gè)人用戶畫像和群體用戶畫像。
圖書館用戶數(shù)據(jù)的獲取從自然屬性、用戶偏好屬性、交互行為屬性和社交行為屬性四個(gè)維度著手,一般可從圖書館后臺(tái)管理系統(tǒng)、閘機(jī)打卡系統(tǒng)或圖書館搜索引擎中獲取。其中,圖書館后臺(tái)管理系統(tǒng)中保存了用戶入學(xué)注冊(cè)時(shí)的身份信息、注冊(cè)信息和登錄信息等,這些用戶的自然屬性數(shù)據(jù)和交互行為數(shù)據(jù)均可通過(guò)系統(tǒng)數(shù)據(jù)庫(kù)直接導(dǎo)出。用戶偏好數(shù)據(jù)一般從圖書館檢索借閱系統(tǒng)和互聯(lián)網(wǎng)搜索引擎中獲取。用戶在線瀏覽、在線評(píng)論、留言等交互信息可以運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù)從用戶經(jīng)常使用的操作頁(yè)面爬取、識(shí)別。
采集完用戶數(shù)據(jù)后,在充分保障用戶數(shù)據(jù)隱私的前提下,首先對(duì)用戶基本信息、借閱行為數(shù)據(jù)、圖書標(biāo)簽數(shù)據(jù)、檢索數(shù)據(jù)、交互行為數(shù)據(jù)等進(jìn)行清洗,過(guò)濾去除與用戶特征不相關(guān)的數(shù)據(jù),然后利用數(shù)據(jù)挖掘算法對(duì)用戶數(shù)據(jù)進(jìn)行深入挖掘和分析,形成真實(shí)可用的圖書館用戶畫像數(shù)據(jù)集。高校圖書館用戶畫像數(shù)據(jù)的構(gòu)成如圖1所示。
圖1 高校圖書館用戶畫像數(shù)據(jù)構(gòu)成
構(gòu)建準(zhǔn)確的用戶畫像需要將用戶數(shù)據(jù)標(biāo)簽化、向量化,為后續(xù)數(shù)據(jù)挖掘和數(shù)據(jù)分析提供可計(jì)算的數(shù)值信息[6]。針對(duì)圖書館數(shù)據(jù),如偏好圖書類別——哲學(xué)、文學(xué)、工業(yè)技術(shù)、社會(huì)科學(xué)等可形成描述用戶興趣愛好的標(biāo)簽。標(biāo)簽體系的建立需要結(jié)合真實(shí)業(yè)務(wù)場(chǎng)景下的用戶需求,有目的性地提煉出能夠代表用戶特征的標(biāo)簽,建立有需求偏向的標(biāo)簽體系。針對(duì)圖書館數(shù)據(jù)的標(biāo)簽提取,本文從收集高校圖書館用戶群體自然屬性數(shù)據(jù)、內(nèi)容偏好數(shù)據(jù)、交互行為數(shù)據(jù)和社交行為數(shù)據(jù)四個(gè)維度的具體信息來(lái)構(gòu)建用戶畫像的標(biāo)簽體系。
高校圖書館用戶畫像模型是一個(gè)描述讀者特征和行為的模型,由數(shù)據(jù)來(lái)源層、數(shù)據(jù)分析處理層以及數(shù)據(jù)標(biāo)簽層3個(gè)層次構(gòu)建而成。具體構(gòu)建過(guò)程如圖2所示。
在構(gòu)建用戶畫像模型時(shí),需要注意以下幾個(gè)方面。
(1)數(shù)據(jù)質(zhì)量:確保收集到的數(shù)據(jù)完整、準(zhǔn)確、可靠,避免噪聲和異常值對(duì)模型訓(xùn)練產(chǎn)生不利影響。
(2)標(biāo)簽體系:建立起合理、完備、可擴(kuò)展的標(biāo)簽體系,以便對(duì)讀者特征和行為進(jìn)行描述和識(shí)別。
(3)模型選擇:根據(jù)具體需求選擇合適的模型,避免過(guò)擬合或欠擬合等問(wèn)題對(duì)模型應(yīng)用產(chǎn)生不利影響。
(4)模型評(píng)估:對(duì)建立的模型進(jìn)行準(zhǔn)確性、魯棒性、穩(wěn)定性等方面的評(píng)估和測(cè)試,以驗(yàn)證其適用性和有效性。
用戶畫像模型建立后,我們通過(guò)設(shè)計(jì)通用技術(shù)框架構(gòu)建可視化系統(tǒng)。該系統(tǒng)框架由用戶交互界面、服務(wù)接口層interfaceServer和數(shù)據(jù)適配器3個(gè)部分組成。
用戶交互界面通過(guò)可視化編程組件實(shí)現(xiàn),內(nèi)置多種可視化組件,如折線圖、柱狀圖、餅狀圖、氣泡圖、詞云等,并提供任務(wù)管理、可視化設(shè)計(jì)與UI編排、數(shù)據(jù)加載、可視化預(yù)覽和發(fā)布功能。
接口服務(wù)層interfaceServer通過(guò)從后臺(tái)獲得的數(shù)據(jù)為為前端提供restful接口。
數(shù)據(jù)適配器運(yùn)用dataAdapter適配器和數(shù)據(jù)庫(kù)進(jìn)行交互,并緩存、匯總數(shù)據(jù)然后通過(guò)interfaceServer提供給用戶交互界面使用。本文以高校圖書館應(yīng)用的讀者興趣畫像、讀者閱讀報(bào)告、院系閱讀報(bào)告為例,具體實(shí)現(xiàn)內(nèi)容如下。
(1)讀者興趣畫像。讀者興趣畫像包含讀者的基本信息、進(jìn)館信息、借閱下載信息、使用學(xué)科、數(shù)據(jù)庫(kù)分析、熱點(diǎn)主題等內(nèi)容,通過(guò)這6個(gè)方面形成的用戶畫像能夠?qū)ψx者的使用進(jìn)行進(jìn)行分析統(tǒng)計(jì)。界面實(shí)現(xiàn)如圖3所示。
圖3 用戶興趣畫像界面
(2)讀者閱讀報(bào)告。讀者閱讀報(bào)告的展示以HTML5動(dòng)畫展示,個(gè)人閱讀報(bào)告主要有借閱量、進(jìn)館次數(shù)、進(jìn)館時(shí)間、訪問(wèn)圖書館門口網(wǎng)站、檢索下載文獻(xiàn)量等統(tǒng)計(jì)信息,其界面展示如圖4所示。
圖4 讀者閱讀報(bào)告界面
(3)院系閱讀報(bào)告。院系閱讀報(bào)告主要包括學(xué)院讀者入館趨勢(shì)、入館讀者類型、讀者借閱情況、熱門借閱TOP10統(tǒng)計(jì)、資源下載情況、熱門檢索關(guān)鍵詞等內(nèi)容,旨在提高“學(xué)院-圖書館”互動(dòng)頻率,提升二級(jí)學(xué)院對(duì)圖書館的滿意度。在此基礎(chǔ)上通過(guò)與各個(gè)二級(jí)學(xué)院交流工作,可發(fā)掘出更多有價(jià)值的數(shù)據(jù)和分析點(diǎn),為圖書館讀者服務(wù)水平提升提供一定的數(shù)據(jù)支撐。其畫面展示如圖5所示。
圖5 院系閱讀報(bào)告
本文面向高校圖書館,以圖書館用戶畫像的可視化構(gòu)建與表達(dá)為研究重點(diǎn),詳細(xì)探討了高校圖書館用戶畫像可視化系統(tǒng)的數(shù)據(jù)體系、系統(tǒng)框架、構(gòu)建流程與技術(shù)實(shí)現(xiàn),最后形成了一套高校圖書館的可視化系統(tǒng),該系統(tǒng)以多種形式的用戶興趣畫像及圖書館閱讀報(bào)告的形式呈現(xiàn),為讀者提供滿足其個(gè)性化需求的精準(zhǔn)推薦服務(wù),對(duì)智慧化的圖書館借閱服務(wù)及管理具有重要的參考及應(yīng)用意義。■