趙萌萌
摘 要:文章論述了用戶畫像的概念,介紹了用戶畫像視角下數(shù)字圖書館服務的相關內(nèi)容,探討了用戶畫像相關技術的具體應用,即數(shù)據(jù)采集和標簽提取技術、數(shù)據(jù)儲存技術、個性化推薦技術等,分析了數(shù)字圖書館服務體系建設的重點,旨在提高圖書館各類資源的利用率,為用戶提供個性化的資源推薦服務。
關鍵詞:數(shù)字圖書館;服務體系;用戶畫像
中圖分類號:G250.76?? 文獻標識碼:A?? 文章編號:1003-1588(2023)05-0094-03
1 用戶畫像
用戶畫像是指收集和分析目標用戶的基礎信息、歷史行為、生活習慣等數(shù)據(jù),挖掘其中與用戶需求和偏好相關的信息內(nèi)容,再利用各類算法提取能夠體現(xiàn)用戶特征的核心指標,從而給目標用戶貼上全維度的標簽[1,2]。用戶畫像具有目標性、獨特性、真實性和移情性等特征[3],是建立在一系列真實數(shù)據(jù)之上的目標用戶模型。在產(chǎn)品設計、精準營銷、教育、廣告等領域中使用用戶畫像技術,能夠進一步分析用戶需求,從而對市場進行更細致的劃分。隨著數(shù)據(jù)挖掘技術、大數(shù)據(jù)技術的應用,用戶畫像技術已經(jīng)實現(xiàn)了自動畫像,即基于定期更新的海量用戶數(shù)據(jù)自動進行信息挖掘,分析勾勒用戶的行為偏好、場景、價值取向及背景等多維度特征,對用戶形象進行全面精準的刻畫,進而有效預測用戶需求并提供與之相適應的服務。相較于傳統(tǒng)討論小組、問卷調(diào)查等信息數(shù)據(jù)采集方式,自動用戶畫像的數(shù)據(jù)采集過程更加智能,收集的數(shù)據(jù)信息更加豐富,應用前景更為廣闊。
2 用戶畫像視角下的數(shù)字圖書館服務
在數(shù)字圖書館服務中應用用戶畫像技術,是指搜集并分析用戶的基礎信息、閱讀偏好和借閱歷史等數(shù)據(jù),提取與用戶閱讀特點相關的核心指標,再利用聚類算法對用戶進行分類,分析挖掘不同用戶群體的閱讀信息全貌與需求,進而建設更高效的服務體系,全面滿足用戶的信息需求。將用戶畫像技術應用于數(shù)字圖書館服務領域是互聯(lián)網(wǎng)技術發(fā)展的必然趨勢,其應用具有三大特征:一是交互性。交互性是指在使用數(shù)字圖書館過程中,不同用戶的終端和圖書館系統(tǒng)之間產(chǎn)生了大量互動行為和數(shù)據(jù)信息,這些數(shù)據(jù)是分析用戶行為的前提和基礎。二是動態(tài)性。動態(tài)性是指用戶的各類操作處于持續(xù)變化中,其訪問偏好、閱讀興趣等標簽信息也會隨之不斷調(diào)整與更新。三是跨時空性??鐣r空性體現(xiàn)在受諸多因素影響,用戶的閱讀偏好和興趣會存在短期遷移,從而使相同的書籍內(nèi)容在不同時間、空間上對用戶的吸引性存在差異,精準化的用戶畫像能夠?qū)τ脩羝眠M行及時跟蹤,并對畫像結(jié)果進行反饋更新[4]。
3 用戶畫像相關技術
3.1 數(shù)據(jù)采集和標簽提取技術
利用數(shù)據(jù)采集技術能夠全面準確地采集用戶的數(shù)據(jù)信息,該技術是建立用戶畫像的基礎,如日志挖掘技術、平臺數(shù)據(jù)庫采集技術、埋點監(jiān)控、網(wǎng)絡爬蟲技術等[5]。日志挖掘和平臺數(shù)據(jù)庫采集技術通常被用于采集用戶的社交數(shù)據(jù)和行為數(shù)據(jù)等。圖書館只有對采集到的數(shù)據(jù)做更深層次的分析挖掘,才能實現(xiàn)數(shù)據(jù)價值。Web日志與平臺數(shù)據(jù)庫詳細記錄了用戶的行為軌跡,而海量行為數(shù)據(jù)中蘊含了相應的規(guī)律,分析這些數(shù)據(jù)能夠了解用戶的深層次需求。與自動化數(shù)據(jù)采集相比,日志挖掘與平臺數(shù)據(jù)庫采集的成本偏高,但對于數(shù)字圖書館服務體系建設而言,系統(tǒng)日志與數(shù)據(jù)庫中的數(shù)據(jù)價值又極高,無法完全放棄。埋點監(jiān)控是利用SDK對系統(tǒng)頁面操作節(jié)點進行搜集,埋點出現(xiàn)行為變化時,系統(tǒng)便能夠自動傳輸數(shù)據(jù)。網(wǎng)絡爬蟲技術能夠自動收集用戶的基礎信息,有效降低了數(shù)據(jù)采集的成本[6]。標簽提取是指提取源數(shù)據(jù)中的用戶特征和偏好并對其進行格式化處理,進而構(gòu)建用戶的虛擬化模型,形成具有標簽特征與應用價值的用戶畫像。
3.2 數(shù)據(jù)儲存技術
HBase和Hive數(shù)據(jù)倉庫是應用較為廣泛的數(shù)據(jù)標簽存儲方式。HBase是一個分布式的開源數(shù)據(jù)庫,能夠?qū)崟r儲存、讀寫數(shù)據(jù)信息。Hive是依托Hadoop的數(shù)據(jù)倉庫基礎架構(gòu),能夠?qū)A繑?shù)據(jù)信息進行提取和轉(zhuǎn)換、加載,更適用于處理結(jié)構(gòu)化信息[7]。數(shù)據(jù)庫主要被用于儲存原始數(shù)據(jù),處理相關事務,數(shù)據(jù)倉庫則主要被用于計算分析數(shù)據(jù),能夠?qū)?shù)據(jù)信息進行加載、轉(zhuǎn)換和抽取等操作。Hive負責儲存源數(shù)據(jù),HBase負責對需實時查詢的軌跡和日志等進行處理,二者表現(xiàn)出了較高的兼容性。
3.3 個性化推薦技術
個性化推薦技術主要包括機器學習技術、協(xié)同過濾算法等。機器學習是人工智能技術的一個分支,是指通過綜合運用統(tǒng)計、概率等學科知識和算法,使計算機能夠盡可能模擬人類的學習模式,并在持續(xù)的學習經(jīng)驗積累中優(yōu)化算法性能[8]。大數(shù)據(jù)背景下,圖書館可以借助機器學習技術對海量數(shù)據(jù)進行深度和智能化的數(shù)據(jù)分析,為個性化推薦提供支持。協(xié)同過濾算法是應用較為廣泛的個性化推薦算法之一,其原理是基于用戶歷史操作信息計算不同用戶的距離,參考與目標用戶相距最近的用戶加權評價值,對目標用戶對產(chǎn)品的喜愛程度進行預測,系統(tǒng)根據(jù)預測結(jié)果向目標用戶推薦其可能感興趣的產(chǎn)品。協(xié)同過濾算法具體可以被劃分為基于用戶的協(xié)同過濾、基于物品的協(xié)同過濾等,在數(shù)字圖書館服務體系建設中,筆者更傾向利用基于用戶的協(xié)同過程算法,即通過計算用戶的相似性,向其推薦同類型用戶感興趣的資訊信息,同時也能夠挖掘用戶尚未表現(xiàn)出的喜好興趣,防范出現(xiàn)推薦內(nèi)容同質(zhì)化等問題。
4 基于用戶畫像的數(shù)字圖書館服務體系建設
4.1 精準化推薦
目前,圖書館提供的泛在化推薦服務已經(jīng)很難滿足用戶的個性化資源獲取需求。隨著人工智能技術和大數(shù)據(jù)技術的應用,精準化推薦服務成為數(shù)字圖書館服務體系的重要構(gòu)成部分。精準化推薦以圖書館用戶為核心,通過分析用戶在圖書館借閱、搜索的行為數(shù)據(jù),挖掘其深層次的信息需求,從而針對性地調(diào)整資源配置,為用戶提供精準化的資源推薦服務。精準化推薦以建立用戶標簽體系為基礎,用戶標簽體系主要包括用戶基本屬性、閱讀興趣與偏好、閱讀主題、心理特征等。圖書館應按照用戶標簽的相似性和關聯(lián)性對其進行劃分,如按專業(yè)、年齡、性別等將用戶分為不同群體,形成相應的群體畫像,從而明確不同群體用戶的活躍度、借閱特點和閱讀偏好等,這是圖書館提供精準化服務的依據(jù)。
4.2 個性化智慧搜索
信息資源的爆炸式增長導致當代社會信息焦慮現(xiàn)象日益嚴重,難以高效滿足用戶知識需求成為突出問題[9]。個性化搜索可以幫助圖書館用戶快速精準檢索到所需內(nèi)容,一定程度上緩解了用戶的信息焦慮。個性化智慧搜索是數(shù)字圖書館服務體系的核心業(yè)務之一,其在數(shù)據(jù)分析的基礎上對用戶在特定和普遍情景中的偏好興趣進行挖掘,并根據(jù)用戶每次的檢索行為及時調(diào)整分析結(jié)果。當用戶檢索時,系統(tǒng)會將檢索詞與數(shù)據(jù)庫主題詞做匹配,并根據(jù)用戶顯性和隱性需求調(diào)整主題。
4.3 智能化隱私保護
隨著數(shù)字圖書館資源的開放共享,用戶的信息安全與個人隱私安全成為業(yè)界廣泛關注的焦點之一。數(shù)字圖書館服務體系隱私安全問題主要涉及身份污染與隱私泄漏兩個方面:身份污染問題是由于用戶賬號綁定了過多身份信息,進而產(chǎn)生各種無用數(shù)據(jù);隱私泄漏是指未經(jīng)圖書館用戶允許私自使用用戶信息并獲取利益[10]。數(shù)字圖書館在提供精準化推薦、智慧化預測等服務時,會實時監(jiān)測、搜集用戶行為信息并上傳至云端,而云空間的不確定性與虛擬性,導致信息收集傳輸期間極易發(fā)生隱私泄露或數(shù)據(jù)丟失等問題。圖書館可采取數(shù)據(jù)脫敏的方式處理用戶行為數(shù)據(jù),即基于用戶所處情景將數(shù)據(jù)信息分為不可恢復和可恢復兩種類型,同時構(gòu)建隱藏式用戶標簽體系,對行為數(shù)據(jù)的共享和使用權限進行控制,并通過隱藏用戶標簽進一步防范數(shù)據(jù)信息泄露,保證用戶個人隱私信息的安全。
5 結(jié)語
用戶畫像作為利用大數(shù)據(jù)技術精準定位用戶的一種重要方式,被運用到圖書館閱讀推薦、知識服務等方面,基于此,圖書館能夠為用戶提供個性化的閱讀推廣服務。數(shù)字圖書館應充分重視新興技術的應用,積極構(gòu)建科學合理的服務體系,降低運營成本,減少資源浪費,全方位提升用戶體驗。
參考文獻:
[1] 韓秋萍.基于用戶畫像的圖書館個性化推薦體系構(gòu)建策略研究[J].河南圖書館學刊,2022(9):59-60,70.
[2] 程光勝.基于“大數(shù)據(jù)+小數(shù)據(jù)”的智慧圖書館用戶精準畫像模型構(gòu)建[J].圖書館理論與實踐,2022(5):90-95,104.
[3] 徐玉虹.基于用戶畫像的公共圖書館精準服務對策研究[J].河南圖書館學刊,2022(4):42-45.
[4] 湯麗媛,王俏.數(shù)據(jù)驅(qū)動下的圖書館用戶畫像構(gòu)建與信息資源精準服務研究[J].晉圖學刊,2021(6):39-44.
[5] 王毅,吳睿青.公共圖書館數(shù)字文化資源服務用戶畫像研究[J].圖書情報工作,2021(16):42-55.
[6] 劉海鷗,李凱,姜波.移動圖書館推薦系統(tǒng)中的用戶畫像與資源畫像情境化融合研究[J].圖書館,2021(6):66-71,93.
[7] 楊正.大數(shù)據(jù)環(huán)境下用戶畫像在圖書館個性化服務中的研究[J].中國新通信,2021(8):55-56.
[8] 王靈萱.基于用戶畫像的圖書館聯(lián)盟用戶數(shù)據(jù)個性化服務分析[J].信息與電腦(理論版),2020(14):165-168.
[9] 張宇,阮雪靈,閆幸.基于情境化用戶畫像的圖書館知識服務方法研究[J].中國新通信,2020(7):86-88.
[10] 許鵬程,畢強,張晗,等.數(shù)據(jù)驅(qū)動下數(shù)字圖書館用戶畫像模型構(gòu)建[J].圖書情報工作,2019(3):30-37.
(編校:周雪芹)