曹樹金,岳文玉
(中山大學信息管理學院,廣州 510006)
在大數據智能化時代,信息技術的發(fā)展和社會需求的變化,為圖書館的服務創(chuàng)新提供了新技術和新思路。近年來,以人為本的服務理念成為當代圖書館的重要議題[1],圖書情報領域的學者和工作人員越來越關注以用戶個性化需求為導向的圖書館精準化服務水平的提升。圖書館既是海量信息資源的平臺,又產生各類大數據(包括業(yè)務數據、讀者軌跡數據、交互數據等),如何組織、管理和利用讀者數據,準確分析和預測讀者需求,使之應用于圖書館的精準化服務是當前亟需解決的問題之一。
讀者畫像利用各類用戶數據實現用戶屬性特征的揭示和組織,為圖書館的精準化服務研究提供了具象化結果。本文從圖書館的多維度用戶數據出發(fā),選取某市圖書館的讀者作為研究對象,通過收集讀者的個人基本數據、借閱數據和讀者與客服在線問答過程中產生的各類交互數據為其構建讀者畫像,挖掘讀者的現實需求及潛在需求,為精準推薦和服務提供有效的科學依據,提升圖書館服務的個性化與智慧化水平。
當前關于精準服務比較有代表性的概念是:精準服務是以用戶為導向的強調依據用戶個性化需求配置資源的服務模式[2]。在大數據時代,新思維和新技術推動圖書館服務模式創(chuàng)新并促進圖書館服務能力提升[3]。為順應大數據給圖書館信息服務帶來的影響,學者們紛紛就圖書館服務轉型提出了不同的見解。SIGUENZAGUZMAN 等[4]認為,大數據技術為針對館藏開展個性化推薦與服務方面提供更多的可能性。利用數據挖掘和文獻計量工具對圖書館服務中產生的數據進行處理和分析,輔助圖書館決策和評估服務[5]。此外,還有學者利用數據挖掘技術對圖書館收集的各種數據集進行數字圖書館服務推薦[6,7]、圖書館服務質量指標[8]、圖書館的利用模式及對用戶的影響[9]、社交媒體關注者的組成及特征[10]等進行研究。有不少學者探討了圖書館應用大數據技術將對圖書館管理和服務模式具有重要影響。如蘇新寧[11]、陳傳夫等[12]、王云等[13]均強調了利用大數據技術進行圖書館管理和服務轉型的重要性。
用戶畫像是基于用戶的直接數據和間接數據建立的目標用戶模型[14]。目前用戶畫像在模型構建[15,16]、指標體系[17,18]、方法應用[19,20]等方面已有了大量研究。在圖書情報領域,學者們也展開了大量的研究,WU 等[21]基于用戶興趣和社交關系提出了一種共同演化模型以描述用戶畫像;曾群等[22]在構建用戶畫像庫的基礎上,為不同類型的讀者制定個性化服務;畢達天[23]基于空間向量模型,構建移動圖書館的用戶畫像模型;ZAUGG[24]依據不同類別用戶群體的需求和行為的不同構建用戶畫像。程秀峰等[25]從自然、情境等維度構建了用戶畫像的指標體系和智慧參考服務模式。
進行主題建模時常用的方法包括BTM[26,27](Biterm Topic Model)、狄利克雷多項式混合模型DMM[28]、word2vec[29]以及LDA[30]等。
LDA 模型多用于處理海量的長文本數據,交互式短文本由于內容簡短和交互性強的特點,導致其在主題挖掘過程中的文本矩陣過于稀疏而無法分析,為了解決這一問題,學者們一般采用擴充文本長度的方法進行處理。部分學者通過引入外部數據集的方法進行文本長度的擴充,如引入外部搜索數據[31,32]、對短文本進行定義和分類[33]等,但這種文本長度的擴充方法在匹配合理性方面存在一定的障礙。因此,為了避免引入外部數據的弊端,部分學者采取了句子集群合并的方法。HONG[34]等通過拼接微博文本的方法,對微博文本進行處理;NAKATA 等[35]將同一時間段出現的文本進行合并,通過計算文本集合與主題的關聯度分析句子類型。上述學者從源文本角度進行句子集群合并有效解決文本簡短導致的無法分析的障礙。
目前,圖書館領域對讀者畫像的研究多以理論研究為主,而且屬性偏單一,不能對用戶進行全面多維的描述。因此本文通過收集讀者的個人基本數據、借閱數據和讀者與客服在線問答過程中產生的各類交互數據為其構建讀者畫像;在采用LDA 模型進行主題分析時,采用會話切分的方式擴充文本長度,解決文本簡短導致的矩陣過于稀疏而無法分析的問題。
圖書館讀者畫像主要對讀者借閱數據和在線交互數據進行挖掘,深度揭示讀者需求?;赥F-IDF 算法和LDA 建模方法進行讀者畫像總體框架的構建。構建讀者畫像的流程主要包括數據收集處理、單個/群體特征分析及讀者畫像這3 個過程,如圖1 所示。
圖1 讀者畫像構建總體框架Fig.1 The framework of reader profile construction
在數據采集處理階段,為提高實驗結果準確性,對采集到的文本數據進行預處理。對在線咨詢交互文本進行會話切分,并采用ICTCLAS 分詞工具進行漢語分詞處理,添加用戶自定義詞典,再通過去停用詞和詞性篩選等流程,過濾文本中對分析沒有意義的部分。這一部分工作的目的在于將讀者借閱數據和在線交互數據轉化為能夠進行主題建模的標準語料庫以提取讀者特征,降低模型計算的復雜度,提升模型的運行效率,提高用戶特征標簽的可解釋性。
讀者畫像的構建分為單個讀者畫像的構建和群體讀者畫像的構建兩個部分。主要采用TF-IDF 算法和LDA 模型對讀者畫像進行文本特征分析。TF-IDF 可以用來評估一個字詞在一個語料庫中的重要程度,詞的重要性隨著它在文件中出現的次數增加而增加,但與它在語料庫中的出現頻率成反比,TF 表示字詞的頻率,IDF 表示逆文本頻率,TF 值和IDF 值相乘得到TF-IDF 值,具有較高詞頻和較低逆文本頻率的詞可作為該文檔的代表標簽[36,37]。LDA 主題生成模型是三層貝葉斯概率模型,其生成主題詞的具體過程為面向語料庫中的文檔,從主題分布中抽取一個主題,并在該主題中抽取主題詞,直至遍歷所有文檔中的詞,形成從文本-主題-詞的多項式分布。計算每個詞在一篇文檔中出現的概率[38]公式為:p(特征詞| 文檔)=∑主題p(特征詞| 主題) ×p(主題| 文檔)。將LDA 模型運用于交互文本主題的挖掘可以實現基于語義層面的文本建模。通過TF-IDF 算法尋找代表文本內容的關鍵詞,實現對讀者文本數據的有效挖掘,分析出讀者偏好。LDA 主題模型可以排除主觀因素的影響,挖掘出各主題中相關詞項。
單個讀者畫像需要基于讀者的所有數據進行標簽化。采用TF-IDF 算法對單個讀者畫像進行借閱書籍文本特征和在線咨詢文本特征分析,構建單個讀者畫像,并依據該畫像制定精準化信息服務。群體讀者畫像的構建,從性別、年齡和咨詢活躍度3 個不同的維度對讀者進行分類,采用TF-IDF 算法對不同群體用戶進行借閱書籍文本特征分析以及采用LDA 模型對不同群體在線交互文本進行主題提取,同時對比不同維度讀者群體的交互數據文本特征以及借閱書籍文本特征,根據多視角聚類結果,更加精準的給不同群體讀者進行推薦和服務。
需要說明的是,圖書館為了給讀者提供個性化精準服務,需要對海量的讀者個人信息、借閱偏好、交互記錄進行充分的挖掘,這必然會涉及到用戶的隱私問題。因此,在進行數據處理的過程中,需要保障讀者的知情權和選擇權,降低對讀者個人隱私數據的關注度,禁止隱私數據的過度挖掘。同時,圖書館用戶數據的相關管理人員需要形成良好的職業(yè)道德修養(yǎng),保障讀者隱私數據不受侵犯。
數據主要由某市圖書館的讀者借閱和在線咨詢行為產生,這里按照數據所在維度的不同,分為讀者維度數據、圖書借閱維度和在線咨詢的數據。讀者維度數據集主要是反映讀者個人基本屬性的數據,如讀者編號、性別、年齡、辦證日期等;圖書借閱數據主要收集了書名、作者以及借閱時間;讀者在線咨詢的數據主要包括咨詢時間、咨詢內容。具體讀者畫像數據集包含的數據類型詳見圖2。
圖2 讀者畫像數據集Fig.2 Reader profile data set
本研究收集某市圖書館2019 年5 月15 日到2020年6 月04 日的數據,包括300 名讀者的在線咨詢交互數據1 809 條以及圖書借閱數據168 217 條。在數據預處理階段,利用ICTCLAS 分詞工具將會話文本轉化為多個詞向量,添加用戶自定義詞典,并依據停用詞典過濾掉高頻無意義的助詞、介詞以及標點符號,如“謝謝”“好的”“個”等,通過規(guī)范數據格式和去除冗余數據進行數據預處理和清洗以保證數據質量。經過預處理,本文最終保留了292 名有效讀者的1 801 條在線咨詢交互數據和圖書借閱數據14 609 條。對在線咨詢文本進行會話切分,即按照會話交互的時間間隔進行文本合并,形成多集合的文本數據。再對這些文本進行分詞處理、添加用戶自定義詞典以及停用詞過濾,使得文本結構符合LDA 模型的分析要求。
單個讀者畫像需要基于讀者的所有數據進行標簽化。通過標簽化實現對讀者的特征揭示,并為后續(xù)的數據挖掘工作進行鋪墊。表1 和表2 給出了某讀者在借還書以及在線咨詢過程中產生的主要數據。
表1 某讀者借閱數據示例(部分)Table 1 An example of a reader's borrowing data(part)
表2 某讀者在線咨詢數據示例Table 2 An example of online consultation data of a reader
對該讀者借閱書籍數據以及在線咨詢文本數據進行特征分析,即對這些數據進行向量化表示,向量的每一維由特征項及其權重組成,權重用TF-IDF 的方法來計算,計算公式如下:
其中w(ti,d)是ti的權重,d為全部信息數據的集合,tf(ti,d)為ti在全部信息數據中的詞頻,N為全部信息數據的總數,ni是數據集中出現ti的文本數量。輸出該讀者借閱書籍文本特征以及在線咨詢文本特征,為讀者實現精準化的信息服務提供依據。
該讀者的借閱書籍文本特征和在線咨詢文本特征如圖3 和圖4 所示,圖中字體的大小和粗細反應重要程度的高低。讀者個人畫像示例及讀者分析報告如圖5、表3 所示。
表3 單個讀者分析報告Table 3 Single reader analysis report
圖3 讀者借閱書籍文本特征Fig.3 Text features of books borrowed by readers
圖4 讀者在線咨詢交互文本特征Fig.4 Interactive text features of readers'online consultation
圖5 個人讀者畫像示例Fig.5 An example of reader profile
單個讀者畫像可以全面地揭示出某個獨立讀者的特征,但在圖書館具體的精準化信息服務中,還需要對不同類型群體的讀者屬性進行研究。用戶群體畫像的研究目的就是為了了解各類群體內某些共同的特征和需求,從不同的維度對讀者進行分類,能夠更加精準的為讀者進行推薦和服務,同時對比不同維度的讀者的交互數據文本特征以及借閱書籍文本特征,能夠有效的借鑒數據,在用戶群體內總結提煉出共性指標作為推薦的依據,有助于更好地了解讀者,進而能夠幫助圖書館為讀者提供精準服務。為了更好地掌握不同維度的讀者特征,下面將從讀者咨詢活躍度維度、
年齡維度、性別維度對讀者畫像進行分析。
4.3.1 讀者咨詢活躍度維度分析
讀者咨詢活躍度最直觀的表現了讀者對圖書館的需求,將讀者咨詢活躍度t定義為在一段時間內讀者的在線咨詢次數,通過統(tǒng)計在同一周期內讀者的在線咨詢次數將讀者進行分層。基于同一周期內訪問次數計算出平均值A之后,將訪問次數大于0 次并小于0.5A的讀者定義為低咨詢活躍度,訪問次數大于0.5A小于A的讀者定義為中咨詢活躍度,將訪問次數大于A的讀者定義為高咨詢活躍度。得到咨詢活躍度范圍定級表,如表4 所示。
表4 咨詢活躍度范圍定級表Table 4 Activity range grading table
依據咨詢活躍度等級將292 名讀者劃分為3 個讀者群體,分析這3 個群體借閱書籍文本特征,并結合讀者在線交互數據揭示不同群體讀者屬性特征,為其實現更為精準化的信息服務。
低咨詢活躍度讀者群、中咨詢活躍度讀者群以及高咨詢活躍度讀者群的借閱書籍文本特征如圖6、圖7和圖8 所示,文本字體的大小和粗細反應重要程度的高低。
圖6 低咨詢活躍度讀者借閱書籍文本特征Fig.6 Text features ofbooks borrowed byreaders with low activity
圖7 中咨詢活躍度讀者借閱書籍文本特征Fig.7 Text features ofbooks borrowed bymoderatelyactive readers
圖8 高咨詢活躍度讀者借閱書籍文本特征Fig.8 Text features ofbooks borrowed byhighlyactive readers
低咨詢活躍度讀者借閱書籍文本特征:《三國演義》 《伯羅奔尼撒戰(zhàn)爭史》 《大禹治水》 等歷史類的書籍以及張嘉驊編著少年讀史記系列的叢書受到歡迎?!兜静萑恕?《偷影子的人》 以及邢卓著的 《數學王國游樂園:數字王國的秘密》 系列叢書等適合少年兒童閱讀的書籍受到歡迎;中咨詢活躍度讀者借閱書籍文本特征:楊紅櫻、敖幼祥以及 《暴走漫畫》 創(chuàng)作部編繪的漫畫深受讀者喜愛,《老人與?!?《廖若晨星》《父》 以及 《落花生》 等小說散文類也是讀者熱衷的讀物;高咨詢活躍度讀者借閱書籍文本:由中國青年出版社出版的 《青年文摘》 和上海文藝出版社出版的《故事會》 這類青年雜志受到歡迎,天蠶土豆、唐家三少所著的玄幻小說以及 《山本》 《浮生六記》 等小說類文學受到讀者喜愛。另外,《托德先生的故事》 和(英)畢翠克絲·波特編繪的繪本類讀物也深受歡迎。
為了得出低咨詢活躍度讀者的在線咨詢交互文本的主題特征,采用LDA 模型方法進行主題挖掘工作。在試驗階段,本研究預將主題設置為2~6 類,對各類詞項的隸屬概率進行實驗。研究發(fā)現將主題分為2~4類時,每一類中的詞項概率隨著分類數量的增加而上升,但各個主題間的區(qū)分度不夠明顯,當主題數設置為4 時,實驗結果較為理想,在分為5 類時詞項的分布概率下降。因此,將主題數目設置T=4,超參數設置為α=0.01,β=0.05,迭代1 000 次,抽取各主題下概率最高的前20 個術語,利用Gibbs Sampling 進行參數估計和推斷。同理將中咨詢活躍度讀者主題數T設為4,高咨詢活躍度讀者主題數T設為5,擇優(yōu)選取概率較高的10 項特征詞進行展示,如表5、表6 和表7所示。
表5 低咨詢活躍度讀者在線咨詢文本主題分布情況表Table 5 Topic distribution of online consultation texts of low activity readers
表6 中咨詢活躍度讀者在線咨詢文本主題分布情況表Table 6 Topic distribution of online consultation texts of active readers
表7 高咨詢活躍度讀者在線咨詢文本主題分布情況表Table 7 Topic distribution of online consultation texts of highly active readers
可以發(fā)現低咨詢活躍度讀者較為關心圖書的逾期歸還、還書續(xù)借、預約以及密碼修改問題;中咨詢活躍度讀者較為關心違約金的繳納、各聯合圖書館的地址以及開館時間、辦證問題、東西丟失如何找回的問題;預約進館、館藏書目查詢、還書形式、館內WIFI連接以及圖書丟失問題是高咨詢活躍度讀者較為關心的問題。
對這3 個群體的讀者特征進行分析,發(fā)現低咨詢活躍度讀者在圖書館的主要活動為書籍借閱,屬于經常在圖書館借書的人群。但是這類讀者的咨詢活躍度不是很高,因此可以具體分析原因進行改善,從而能夠吸引更多的讀者。中咨詢活躍度讀者對圖書館的資源使用主要集中在公共資源方面,從咨詢的問題來看,該類讀者屬于經常來館的讀者群體,屬于圖書館的忠實讀者。這類讀者對圖書館的研究價值最高,可以對這類讀者進行調研,從而了解圖書館需改進之處;高咨詢活躍度讀者在圖書館的主要活動為館藏資源的閱讀和公共資源的使用,屬于經常在圖書館讀書的人群,這類讀者對圖書館的館藏資源比較感興趣且經常使用公共資源進行自修。依據讀者特征的分析結果,為精準服務提供依據,具體服務策略詳見表8。
表8 咨詢活躍度維度讀者服務策略分析表Table 8 Analysis of reader service strategies in the dimension of consultation activity
4.3.2 讀者年齡維度分析
年齡維度也是推薦時需要參考的重要因素,不同年齡段的讀者感興趣的圖書以及關心的問題不同,因此周期性參考年齡維度的書籍變化以及咨詢問題的主題變化情況,可以及時有效地為讀者進行更精準化的服務。本次數據來源的讀者年齡在4 歲至61 歲之間,依據聯合國世界衛(wèi)生組織提出年齡分段[39],我們將讀者年齡維度劃分為4~17 歲少兒及青少年讀者、18~45歲青年讀者以及46~61 歲中年讀者。3 個年齡段讀者的借閱書籍文本特征如圖9、圖10 和圖11 所示,3 個年齡段讀者在線咨詢文本主題分布情況如表9、表10和表11 所示,對3 個年齡段的讀者進行特征分析,可得到3 個年齡段讀者群體特征和相應服務策略,如表12 所示。
表9 少兒及青少年讀者在線咨詢文本主題分布情況表Table 9 Topic distribution of online consultation texts of children and young readers
表10 青年讀者在線咨詢文本主題分布情況表Table 10 Topic distribution of online consultation texts of young readers
表11 中年讀者在線咨詢文本主題分布情況表Table 11 Topic distribution of online consultation texts of middle-aged readers
圖9 少兒及青少年讀者借閱書籍文本特征Fig.9 Text features of books borrowed by children and young readers
圖10 青年讀者借閱書籍文本特征Fig.10 Text features of books borrowed by young readers
圖11 中年讀者借閱書籍文本特征Fig.11 Text features of books borrowed by middle aged readers
可以發(fā)現該市圖書館制作的蜂蜂書包深受少兒及青少年讀者喜愛,楊紅櫻、張嘉驊、朱斌、孫幼軍等兒童類書籍的作家和漫畫家受到歡迎,中國青年出版社出版的讀物受到少兒及青少年讀者歡迎;《青年文摘》 和 《故事會》 等青年雜志受到青年讀者歡迎,三毛、余非魚等編著的浪漫言情小說受到讀者喜愛,同時,天蠶土豆和天下霸唱所著玄幻推理類小說也較受歡迎;《父》 《落花生》 以及 《故事會》 等散文和民間故事集受到中年讀者的喜愛,《一千零一夜》 《天生一對》 等兒童文學作品以及楊紅櫻、崔鐘雷編著的兒童作品也受到關注。
從在線咨詢文本主題來看,少兒及青少年讀者較為關心預約、開館閉館時間、圖書館活動以及圖書丟失等問題;青年讀者讀者較為關心還書續(xù)借、開館閉館時間、預約以及自修室的問題;中年讀者較為關心還書續(xù)借、密碼以及開館閉館時間的問題。
對這3 個群體的讀者特征進行分析,發(fā)現少兒及青少年群體讀者在圖書館的主要活動為進館閱讀和參加活動,而且年齡較小,對新奇的活動和設備興趣會比較大;青年群體讀者在圖書館的主要活動為借閱書籍以及公共資源的使用;中年群體讀者的主要活動為在館閱讀書籍,說明這類讀者對圖書館的館藏資源比較感興趣。依據讀者特征的分析結果,為精準服務提供依據,具體服務策略詳見表12。
4.3.3 讀者性別維度分析
從性別維度對讀者的分析可以揭示出不同性別的讀者對書目以及圖書館公共資源使用的偏好,從而更精準的為讀者提供信息服務。對男性讀者和女性讀者分別做借閱書籍文本特征分析和在線咨詢交互文本分析,兩個性別讀者的借閱書籍文本特征如圖12 和13所示,在線咨詢交互文本的主題分析采用LDA 模型的方法,擇優(yōu)選取概率較高的10 項特征詞進行展示,如表13 和表14 所示。最終可得到不同性別讀者群體特征,并據此提出服務策略,如表15 所示。
表13 女性讀者在線咨詢文本主題分布情況表Table 13 Topic distribution of online consultation texts of female readers
表14 男性讀者在線咨詢文本主題分布情況表Table 14 Topic distribution of online consultation texts of male readers
圖12 女性讀者借閱書籍文本特征Fig.12 Text features of books borrowed by female readers
表12年齡維度讀者服務策略對比表Table 12 Comparison of reader service strategies in age dimension
從借閱書籍文本特征來看,中國青年出版社出版的 《青年文摘》 受到女性讀者歡迎?!读稳舫啃恰贰对洔婧!?等愛情小說,天蠶土豆、唐家三少所著的玄幻類小說也備受歡迎,《一千零一夜》 《天生一對》以及楊紅櫻編著的書籍等適合少年兒童閱讀的書籍受到歡迎;《偽裝者》 《薄冰》 《猛士》 和 《遠大前程》等歷史諜戰(zhàn)類軍事類小說是男性讀者熱衷的讀物,《三國演義》 是借閱次數最多的書籍。
圖13 男性讀者借閱書籍文本特征Fig.13 Text features of books borrowed by male readers
從在線咨詢文本主題來看,女性讀者較為關心違約金、館藏、預約以及辦證等問題;男性讀者較為關心預約、館內資源的使用、還書以及登錄密碼的問題。
對這兩個群體的讀者特征進行分析,發(fā)現女性讀者在圖書館較為關注違約金的繳納以及館藏書籍;男性讀者對圖書館的資源使用主要集中在公共資源方面,包括WIFI 以及自修室的使用。依據讀者特征的分析結果,為精準服務提供依據,具體服務策略詳見表15。
表15 基于兩性讀者群特征分析的服務策略Table 15 Service strategy based on the analysis of the characteristics of male and female readers
本文以某市圖書館的讀者基本數據、圖書借閱數據和在線咨詢數據為基礎,結合TF-IDF 模型和LDA模型進行分析,得到讀者借閱書籍文本特征和在線咨詢文本特征,組成單個讀者畫像和群體讀者畫像,并依據讀者畫像提出針對性服務策略的建議。
本研究具有一定的理論意義,以往學者多采用引入外部數據的方法進行交互式短文本的主題挖掘。本文加入會話切分的預處理方法進行LDA 建模,優(yōu)化LDA 模型結果,可以實現針對讀者在線咨詢數據這類交互式短文本的主題抽取,挖掘出讀者關注的問題。
本文構建的多維圖書館讀者畫像分析框架,實現了讀者屬性特征的揭示與組織,為圖書館的精準化服務研究提供了新思路。從不同維度讀者群體畫像的分析來看,不同群體咨詢的主題內容側重點存在差異。圖書館應在準確挖掘用戶潛在需求的基礎上,向特定讀者提供所需的智慧型知識產品和服務[40],實現精準化服務的最終目標。
本研究的數據覆蓋面有限,對數據所蘊含讀者特征的揭示還不夠深入,未來可以沿著這個方向開展更全面具體的研究。