楊 帆
大數據已成為人類最寶貴的財富,怎樣有效運用這些數據,發(fā)揮其作用,是大數據實踐的核心。圖書館的資源一直是人類社會的重要財富,而近年圖書館的數字資源呈爆發(fā)式增長,如何從這些數據中挖掘更有價值的信息,從而更好地為社會提供服務,是圖書館面臨的挑戰(zhàn)。
用戶畫像以及標簽化體系在數據統(tǒng)計、數據分析以及大數據領域應用廣泛。國內圖書館領域的專家學者很早就涉足大數據研究。一方面,對圖書館大數據的理論基礎作深入的研究,如樊偉紅等對圖書館大數據特點、相關技術進行了分析,并提出大數據可以幫助圖書館建立業(yè)務風險模型、用戶流失分析模型等[1];蘇新寧提出圖書館為應對大數據挑戰(zhàn),在資源建設、資源組織、服務模式以及人才建設等方面需要做出轉變[2]。另一方面,對圖書館大數據的應用模式以及相關技術應用進行了深入研究,如何勝等基于大規(guī)模網絡分析方法提出高校圖書館大數據應用模式體系[3];溫浩宇等針對圖書館的異構數據提出基于NoSQL的中間件模型的數據集成方法,用于存儲異構數據等[4]。
近兩年圖書館對大數據的研究及應用逐漸向以用戶為核心的服務提升等領域滲透,如研究圖書館用戶行為、個性化服務和精細化服務等。本文以國家圖書館大數據項目為例,重點討論圖書館讀者畫像、資源畫像的構建,基于讀者畫像和資源畫像如何構建圖書館大數據平臺以及平臺的相關分析工具等。
用戶畫像就是以海量數據為基礎,抽取出與用戶相關的信息全貌,包括用戶的姓名、年齡、性別等固有屬性,也包括用戶的網絡行為和習慣,如網購行為、閱讀習慣等,以上足夠多的數據逐漸抽象出一個用戶的信息全貌,這樣的信息為大數據進一步分析用戶的行為習慣,更精準地定位用戶并提供個性化服務奠定了基礎。
國內圖書館對于用戶畫像及數據標簽化的研究與應用可以分為兩種方式。
(1)研究如何通過數據的采集以及補全而構建完善的讀者畫像模型或用戶行為模型。朱白認為還原讀者的真實面目是圖書館精準服務的內容之一,提出了如何通過分析讀者相關數據去繪制讀者的“臉譜”,從而實現讀者的精準定位[5]。胡媛等認為用戶畫像是大數據環(huán)境下用戶描述工具,在用戶的建模上具有優(yōu)勢,并基于用戶畫像提出了數字圖書館知識社區(qū)關聯模型構建,進而對數字圖書館用戶畫像進行建模分析,在此基礎上構建綜合服務能力評價指標體系[6]。劉速分析了用戶畫像的概念及特征,并從數據來源、數據采集、信息識別、模型搭建等方面就用戶畫像的構建進行闡述,并提出了一些用戶畫像的分析方法[7]。美國思域技術公司(Civic Technologies)在美國博物館和圖書館服務協(xié)會資助下,在美國10所圖書館展開了關于用戶方面的大數據項目,通過分析核心用戶數據,深入了解用戶的生活、學習習慣,細分用戶,形成用戶畫像用于創(chuàng)新服務[8]。
(2)通過構建用戶畫像(或用戶行為模型),將畫像分析結果用于圖書館個性化服務或圖書館精準服務,這類研究著眼于如何利用用戶畫像或用戶行為模型為圖書館或讀者服務。2013年上海圖書館開展創(chuàng)新型數據服務,并發(fā)布了上海圖書館年度閱讀報告以及讀者個人年度閱讀賬單。通過該項目,上海圖書館將讀者的行為數據以及資源數據緊密聯系在一起,并進行了挖掘分析,實現了數據可視化在圖書館的應用[9],其中資源分類與讀者行為的關聯就是類似標簽應用的一種方式。趙迎春提出利用讀者行為數據構建大數據分析平臺的思路,并提出應用策略以及系統(tǒng)架構[10]。何勝等基于本體及關聯數據技術,提出一種構建用戶行為模型的方法,根據本體的用戶行為模型,設計了一種通用Hadoop大數據分析平臺和MapReduce計算框架用于圖書館個性化服務[11]。
2015年初,國家圖書館開始大數據項目——數據管理與分析平臺的項目建設工作。該項目在前期充分調研的基礎上,選取了與讀者、資源相關的5個主要業(yè)務系統(tǒng),其中包括ALEPH系統(tǒng)、文津搜索系統(tǒng)、讀者門戶系統(tǒng)、統(tǒng)一用戶管理系統(tǒng)、門禁管理系統(tǒng)的數據作為大數據項目的數據來源。這5個核心業(yè)務系統(tǒng)涉及到的數據主要包含了讀者相關的數據,包括讀者屬性數據(如性別、生日等),讀者行為數據(借還書、出入閱覽室等);資源元數據(包含資源屬性信息)以及資源利用相關的數據。因此,如何構建讀者數據以及資源數據之間的聯系,如何建立讀者與資源的數據模型成為了該大數據項目的關鍵,而用戶畫像的概念恰好符合這樣的要求。
用戶畫像數據可分為兩個維度:靜態(tài)畫像數據,動態(tài)畫像數據。靜態(tài)畫像數據就是用戶的個人基本數據,即姓名、性別、年齡等;動態(tài)畫像數據就是用戶的行為數據。不同行業(yè)不同領域對用戶靜態(tài)數據和動態(tài)數據的需求不同,但是基本差距不會太大,當然,用戶畫像的“像素”(用戶數據項)越高越好。很多互聯網公司還會根據情況以及針對關鍵行為數據的缺失,通過爬蟲系統(tǒng)爬取或通過購買來獲取自身不具備的行為數據。但是由于實施成本和對用戶隱私的保護,因此“像素”并不是衡量用戶畫像的唯一指標。
讀者畫像數據從統(tǒng)一用戶管理系統(tǒng)、ALEPH系統(tǒng)、文津搜索系統(tǒng)、讀者門戶系統(tǒng)、門禁管理系統(tǒng)等5個核心業(yè)務系統(tǒng)中抽取用戶數據建立讀者畫像。統(tǒng)一用戶管理系統(tǒng)保存了讀者注冊信息、登錄信息以及身份信息等大量讀者靜態(tài)和動態(tài)信息數據。例如,ALEPH系統(tǒng)承擔了國家圖書館大部分傳統(tǒng)業(yè)務,包括書目數據編目、OPAC檢索、紙本圖書流通等,也保存了讀者借還書信息、圖書預約、續(xù)借信息。文津搜索系統(tǒng)整合了國家圖書館自建資源和外購資源的元數據,同時也記錄了讀者檢索、查看、在線閱讀、文獻傳遞等行為信息。讀者門戶系統(tǒng)是國家圖書館各類資源的發(fā)布窗口,保存了讀者在線瀏覽、閱讀、收藏等信息。門禁管理系統(tǒng)則記錄了讀者在各個閱覽室的刷卡記錄,具體見圖1。其中,5個核心業(yè)務系統(tǒng)均保存了不同程度的讀者行為數據,而讀者的賬號信息(ID、身份證號、非實名注冊賬號)就成為了多系統(tǒng)之間行為數據關聯的橋梁。與互聯網不同的是,圖書館的用戶行為數據既包含線上行為數據,也包含線下行為數據,這些數據完整地勾勒了讀者的信息全貌,為進一步分析讀者行為習慣提供了足夠的數據基礎。
圖1 構建讀者畫像的用戶數據情況
以往研究更注重研究用戶的行為偏好,通過讀者畫像和偏好定位到他們喜歡的書籍或書籍類型,從而實現圖書推薦等服務。但這些研究中僅注重讀者建模后與資源數據的掛接和關聯,對圖書館資源的畫像構建和圖書館資源分析還不夠重視。在大數據環(huán)境下圖書館服務的應用中,通過一些資源定位到一定范圍的讀者群體也非常關鍵,這對圖書館精細化服務起著至關重要的作用。因此,為圖書館的資源畫像,不僅可以將資源元數據的屬性信息從眾多系統(tǒng)中抽取出來建立完整的圖書館資源,而且還可以完成讀者行為數據中與資源相關的數據建立相應的關聯,為后面的讀者與資源的精細化分析以及數據挖掘構建起完整的數據體系。
在其他行業(yè)大數據應用中,和用戶相關聯的對象資源往往是具體的商品或者服務。對讀者來講,圖書館浩瀚的資源就是他們的對象,而圖書館的資源比其他行業(yè)的數據相對復雜,尤其在分類方面。以國家圖書館為例,信息系統(tǒng)的資源數據有自建中文、西文圖書數據,有自建學位論文資源、多媒體資源、縮微影像資源,有來自于全國聯合編目系統(tǒng)的數據,有外購數據,還有全國征集的古籍、縮微影像等。圖2粗略整理了用于構建資源畫像而從業(yè)務系統(tǒng)中選取的資源屬性相關數據。
圖2 構建資源畫像的相關數據
標簽可以理解為一種用戶特征的符號表示,用戶畫像就可以用標簽的集合來表示[12],符號可以是數字,也可以是文字,而資源畫像也是如此。因此,“畫像”建立的過程,就是添加相應的標簽的過程。圖1與圖2中的屬性數據,也就是基本屬性標簽。收集的讀者畫像數據以及資源畫像數據就抽象出一個讀者畫像模型以及資源畫像模型,而打標簽就是對這些初次收集特征數據、行為數據“貼上”符號,方便計算機處理。一般來講,標簽化會采用多級標簽與多級分類,例如第一級標簽是基本屬性,那么二級標簽就是基于第二級分類逐級進行細分,如果還能進行細分則可以分為三級標簽,如讀者基本屬性信息中的地址信息是二級分類,地址信息又分為工作地址與家庭地址,這就屬于三級分類。當然,根據數據的情況還可以進行更細的劃分,而且當多層數據標簽進行關聯之后,還可以形成更精細化的標簽,例如根據已有用戶劃分模型進行組合、交叉分析,生成精細化標簽群體。而這些不同層級的標簽,就構成了標簽體系。
以國家圖書館大數據項目為例,根據已獲取的讀者畫像數據、資源畫像數據建立起基本屬性標簽?;緦傩詷撕灠ㄗx者基本屬性標簽和資源基本屬性標簽。讀者基本屬性標簽是以數據來源系統(tǒng)中的讀者基本屬性為基礎對讀者進行處理與分析。比如,姓名、性別、職稱、地域、教育程度等特征屬性的歸為讀者屬性的一級標簽;通過一級標簽信息進一步挖掘得到的歸為讀者屬性二級標簽;對讀者的基本行為信息,如讀者卡注冊時間,最近登錄時間分為三級標簽。資源基本屬性標簽是以數據來源系統(tǒng)中的資源基本屬性為基礎對資源進行歸類分析,如資源系統(tǒng)號、題名、責任者、出版者等特征屬性,分級方法同讀者基本屬性標簽。具體分級情況如表1所示(標簽數據多,僅列常見數據)。
表1 基礎標簽體系分級
讀者及資源標簽關聯后的精細化標簽。主要將讀者屬性以及資源屬性標簽進行關聯、聚類(或結合多種屬性特征和信息行為進行多維度關聯),形成全新、更精細化的標簽,如檢索了什么關鍵字、作者的相關領域有哪些、隸屬的分類學科、資源類型、借閱行為是否頻繁、訪問特征等,這些標簽形成了讀者與資源的模型,詳見表2-3。
大數據技術以及聚類、挖掘分析等分析方法在圖書館的應用,為精細化服務以及個性化服務提供了新思路。如何在浩瀚的資源中定位到有一定特色的資源,如何在茫茫人海中找到某一特定的人群是這個問題的關鍵。因此,圖書館的大數據平臺必須有一套工具用來“找人”和“找書”,不斷精細化資源和人群的范圍,針對不同精細化的人群提供特定的服務,而迭代分析就是為實現由粗到細的篩選分析方法。迭代分析就是通過行為、用戶、資源維度逐層鉆取關聯分析得到更精準細化的(用戶或資源)群體或行為現象。圖3是本文提出的一種迭代工具設計思路。首先在讀者模型中找到一種行為進行分析,獲得的結果增加讀者另一個維度進行分析可以獲得一個范圍的群體。將這個分析結果關聯到資源的一個維度,獲取到一個資源的群體,當結果再次選定一種用戶行為時,就完成了一個迭代周期。根據這樣的分析方法迭代下去,就會獲得更精細的分析結果(讀者群體或資源群體)。通過對數據結果不斷地由粗到細、由大變小的篩選、過濾、剔除不符合條件的數據結果集,就會得到最終需要的數據結果內容。對這些數據集打標簽,對每個讀者或資源進行統(tǒng)一的打標簽處理,從而實現數據結果的永久保存,并可按照該維度進行統(tǒng)計分析。
表2 讀者數據模型
表3 資源數據模型
圖3 迭代分析設計思路
國家圖書館數據管理與分析系統(tǒng)在架構上分為基礎資源層、數據處理層、應用層以及表現層4層結構,詳見圖4。基礎數據來源于5個重要核心業(yè)務系統(tǒng),涉及的數據類型包括元數據、讀者數據、日志訪問數據、各系統(tǒng)的業(yè)務數據等4種類型。數據采集后,需要配置與不同數據來源、不同存儲形式和接口的基礎數據訪問適配器,并通過ETL工具進行數據的抽取、數據質量的凈化、轉換以及最后的數據加載處理。之后,數據被載入到Hadoop分布式計算平臺中,以HDFS分布式文件系統(tǒng)和YARN分布式計算框架為基礎,數據存儲于HBase中,利用Hive對抽取的5個系統(tǒng)業(yè)務數據內容進行計算。計算平臺生成新的數據,用于生成各種畫像、標簽系統(tǒng)以及用于各類業(yè)務分析、迭代分析等。
圖4 基于標簽體系的大數據分析系統(tǒng)
圖5 數據處理流程
數據處理主要包括數據采集、ETL處理、數據預處理、生成模型、生成畫像及標簽等,見圖5。(1)首先采集原始數據。將關系型數據庫、文本文件、Excel等數據類型放到對應的數據適配器進行整合處理。(2)將這些數據導入ETL工具中進行數據清洗。(3)ETL處理。用戶屬性數據、用戶行為數據、資源屬性數據加載到ETL工具中,進行去重、去除非法字段、字段拆分、字段合并、資源數據信息代碼表轉換、數據類型規(guī)范化等處理,有效的數據將會存儲到MongoDB中。(4)MongoDB中的數據加載到Hadoop平臺。(5)根據預定義的基礎模型進行數據裝載。(6)對數據進行預處理分析,如行為資源整合、時間維度統(tǒng)一、多源數據維度對照關聯。(7)生成讀者、行為、資源多維關聯模型。(8)使用多維關聯生成的中間數據進行相關預測行為分析。其中,資源標簽的設定還需要根據資源畫像模型,通過聚類分析,設定聚類信息字段,從而得出資源聚類分布和從屬關系。(9)生成的畫像、標簽、多維關聯數據用于上層業(yè)務自定義分析、迭代分析、標簽精細化處理,生成決策依據數據,進行業(yè)務指導。
根據數據的多維關聯分析以及數據計算結果,加載到讀者數據模型以及資源數據模型中,即獲得了完成的讀者及資源的畫像輪廓。國家圖書館大數據項目最終獲取的讀者個人畫像以及資源畫像,見圖6-7。
圖6 國家圖書館大數據項目獲取的讀者個人畫像
圖7 國家圖書館大數據項目獲取的資源個人畫像
圖8 數據管理與分析平臺標簽管理工具
完整的大數據分析系統(tǒng)還需要有一定的管理工具和分析工具作支撐。標簽工具以及標簽管理工具就是其中重要的兩個工具,可對新分析產生的數據進行“打標簽”和對標簽進行管理。圖8是國家圖書館大數據項目平臺——數據管理與分析平臺標簽管理工具。該工具里的標簽一共有兩類,即“讀者標簽”與“資源標簽”,一個標簽代表了一類讀者或資源群體。如標簽“紅學”,它代表了喜歡《紅樓夢》的讀者,是用戶的一種特征。系統(tǒng)中的標簽體系共分為三級,而標簽名稱是標簽的唯一屬性。
圖9 標簽添加工具
圖10 迭代分析工具
新的標簽由工作人員設定,包括標簽的種類、屬性、分級、條件規(guī)則等。圖9是標簽添加工具,標簽分為用戶特征類和資源類,標簽歸屬則規(guī)定了該標簽的級別,里面可選擇的還包括已經存在的一級到三級標簽,凡是系統(tǒng)中或今后新增的符合該條件的信息將自動打標簽處理。而通過迭代分析找到的數據集(讀者群體或資源群體)可以人為進行打標簽處理,如圖10。
本文提出了一種基于讀者畫像及資源畫像為基礎構建圖書館大數據分析平臺的方法,介紹了如何從數據采集到建立模型逐步實現構建讀者以及資源畫像的思路,同時提出了一個基于標簽體系的迭代分析工具設計思路,該工具可以用于定位一定讀者群體以及資源群體,從而實現“以書找人,以人找書”。目前根據系統(tǒng)直接分析產生的數據結果以及后期工作人員通過分析工具獲得的結果已經完成了兩期大數據洞察報告,報告對國家圖書館服務情況、主要服務對象和整體資源利用情況進行了深入分析,并根據數據分析結果提出了一些服務優(yōu)化建議。今后在圖書館大數據項目(尤其是畫像層面)實踐中,將著重研究圖書的分類與學科分類進行掛接;如何將大眾分類的概念靈活引入并使用,這對資源畫像以及后期資源推薦將起到非常重要的作用。