陳曉玲李劍鋒付 強
(吉林省科學技術信息研究所a.信息資源中心;b.信息技術支撐中心,長春 130033)
隨著數字化科技文獻平臺的發(fā)展,對從事提供信息方面服務工作而言,其服務的模式和理念對管理者提出了新的要求,服務方式要以網絡平臺為主的信息化服務[1]。科技文獻服務于廣大用戶的工作存在服務內容的深度和廣度不夠寬泛,缺乏用戶服務細節(jié)化,從而降低服務質量,服務理念不夠創(chuàng)新,加強“人”的因素及數據素養(yǎng)的意識和理念,只有轉變和創(chuàng)新科技資源的服務思想,才能真正提高和完善服務質量[2]?,F(xiàn)階段用戶在使用平臺過程中對數據庫的訪問次數、檢索次數、瀏覽次數和下載次數等方面留下海量的數據集,由于海量數據集以不同的結構形式分散的存儲在服務器中,從而使大量的隱性的有價值的用戶信息無法得到有效的利用和挖掘[3]。上述問題直接導致管理部門無法進行高效的決策,管理人員無法為用戶提供高質量的服務,因此如何將這些用戶數據信息轉化為知識服務,為管理部門提供決策依據,科學指導管理,提高平臺的管理水平和服務質量,將是迫切需要解決的問題。
將數據挖掘分析技術應用于平臺共享服務領域,可根據用戶下載文獻的歷史數據發(fā)現(xiàn)、挖掘數據之間的關聯(lián)關系。挖掘數據背后隱藏的信息,預測用戶的信息需求,掌握用戶下載文獻類型規(guī)律,這是平臺開展個性化服務的基礎[4]。數據挖掘能為平臺管理者進行業(yè)務處理和信息服務提供先進的工具,平臺的信息及數據庫能得到更深層次的加工,平臺的工作能更有效率,價值管理人員能按照各個用戶的要求或習慣,為用戶組織更多、更好的有針對性的高質量文獻類型信息,提供更多的個性化服務。進一步豐富平臺的功能,提升平臺信息服務、知識服務的績效,使其在助推吉林省創(chuàng)新驅動發(fā)展中發(fā)揮更大的作用。本研究是當前科技文獻發(fā)展的熱點同時也是重點,是科技文獻資源建設、科技信息服務發(fā)展的趨勢和方向,其研究成果能立刻應用到實際工作中,轉化效果顯著。筆者利用平臺的用戶數據進挖掘和建立用戶畫像,并在平臺進行功能的開發(fā)與實現(xiàn)。
對用戶行為數據集進行預處理,建立挖掘結構模型,預測用戶行為,提升用戶服務績效和滿意度。突破基于用戶的固有數據、資源或系統(tǒng)服務的獲取,以用戶需求目標驅動,挖掘和發(fā)現(xiàn)知識,為用戶解決實際問題,實現(xiàn)知識的價值增值。為用戶提供高質量、符合用戶真正需求的服務產品。1)根據用戶初步需求分析,不斷幫助用戶修改需要及用戶反饋,最終獲得知識服務需求[5];2)解決用戶基本問題,提出合理化的方案和決策;3)貫穿于用戶需求全過程的連續(xù)性、動態(tài)式的系統(tǒng)服務[6]。對用戶行為數據集進行預處理,建立挖掘結構模型,預測用戶行為,提升用戶服務績效和滿意度。
首先采集用戶基本信息、交互信息以及行為信息數據,進行數據預處理,建立用戶畫像。并經過統(tǒng)計、分類、聚類等數據挖掘算法,給用戶建立標簽體系和用戶行為模型[7],進一步預測用戶行為(見圖1)。
圖1 數據挖掘在平臺科研用戶行為分析中的應用技術路線圖Fig.1 Application technology roadmap of data mining in platform research user behavior analysis
依托于平臺,截止2020年活躍用戶約1 500人,通過平臺注冊用戶的基本信息以及后臺和日志記錄存儲的用戶行為數據,從而形成用戶的基礎信息、交互信息和行為信息數據集?;A信息數據集主要包括性別、年齡、學歷、工作單位、機構類型和學科領域、地區(qū)等;交互信息數據集主要包括對其他用戶資源的評價、收藏和分享等;行為數據集主要包括用戶對資源的瀏覽、閱讀、檢索、收藏和評論等產出的所有記錄。
用戶畫像的數據源于收集的用戶基本信息、交互信息和行為信息,第1步根據用戶基本信息、行為數據進行用戶“刻畫”[8];第2步對用戶的動態(tài)行為數據進行關聯(lián),完善用戶的畫像,從而達到修正標簽體系[9],這是一個漸近式的循環(huán)過程,最終為所有的用戶打上畫像標簽,進一步精、準、快地分析出用戶行為習慣、閱讀偏好和關注熱點等數據挖掘信息,以便提供平臺的用戶個性化服務。
平臺的后臺管理數據庫擁有用戶基本信息、交互信息、行為信息的所有數據集[10]。在平臺用戶細分過程中主要使用k均值聚類算法,其原理是隨機選取k個對象作為初始的聚類中心,計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離其最近的聚類中心。在對平臺用戶日志信息和文獻數據資源進行分析時,要用到文本挖掘相關算法。常用的文本挖掘算法有基于詞頻的TF-IDF(Term Frequency-Inverse Document Frequency)算法以及基于自然語言理解的LDA(Latent Dirichlet Allocation)算法。1)TF-IDF是一種統(tǒng)計方法,其基本原理是提取出單篇文本/文獻的對應關鍵詞以及權重值,利于后續(xù)使用[11]。2)LDA是一種非監(jiān)督機器學習技術,可用于識別大規(guī)模文檔集或語料庫中潛藏的主題信息。進而對文獻資源按主題及關鍵詞信息進行分類[12]。
利用上述聚類、文本挖掘等技術整合用戶數據,包括注冊用戶基本信息、資源檢索、瀏覽、訪問、收藏、在線時間、資源下載量和資源收藏量等,按照一定的規(guī)則和標準對數據進行歸類并量化,對用戶數據打標簽處理。再運用歸一化算法,建立用戶標簽特征向量,完成用戶建模。
用戶模型包括單用戶畫像模型和群體用戶畫像模型[13]。群體用戶畫像模型是通過分析機構用戶群體行為特征的相似度,如群體用戶的基本屬性、用戶之間交互、用戶對資源需求和服務評價等的相似度,以及群體用戶瀏覽資源、利用某類資源的相似度等計算得出。相似度度量(Similarity),即計算個體間的相似程度,相似度度量的值越小,說明個體間相似度越小,相似度的值越大說明個體差異越大。平臺用戶畫像框架模型如圖2所示。
圖2 平臺用戶畫像框架模型Fig.2 Platform user portrait framework model
通過上述用戶模型的建立,確定用戶模型特征向量,根據文獻資源建立特征向量模型,做相似度計算。計算文本相似性,常用的方法是計算向量空間余弦相似度(Cosine Similarity)。余弦相似度的原理是利用向量空間中兩個向量夾角的余弦值,把它作為衡量兩個個體間差異的大小[14]。余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫余弦相似性。
通過計算用戶模型特征向量與文獻資源模型特征向量的余弦相似度,按照相似度值從大到小的順序將待推送文獻資源進行排序,再加入時效性權值進行二次排序,完成用戶行為預測及個性化推送[15]。其中時效性權值計算公式如下
其中S為計算得到的相似度,ξ為時效性權值調整系數,t為平臺當前時間,t0為文獻資源進入數據庫的時間。
首先對平臺審核通過的實名注冊用戶基本屬性和關注信息進行過濾,其次對用戶在平臺瀏覽、檢索和下載科技資源過程中生成的大量瀏覽記錄進行數據挖掘和分析處理,同時剔除繁雜的和不相關的記錄,最終通過數據挖掘算法得出用戶的真正關注的科技資源信息,如平臺用戶的個人空間中的閱讀記錄實例(見圖3),以時間線的為軸羅列出用戶的文獻閱讀記錄。通過對用戶行為的數據挖掘分析,在平臺的首頁中猜你喜歡功能模塊推薦出關注的熱點文獻(見圖4)。
圖3 平臺用戶閱讀記錄展示Fig.3 Display of reading records of platform users
圖4 平臺首面的猜你喜歡功能Fig.4 Guess what you like from the first side of the platform
根據前期的需求分析和用戶畫像方法,對用戶行為數據集進行預處理,建立數據挖掘結構模型,預測用戶行為,提升用戶服務績效和滿意度。同時,通過對用戶行為和特征的大數據整理、挖掘和分析,形成精準信息推送的內容和推送規(guī)則,使用戶在使用平臺時能無縫融入精準推送服務中,本研究內容在平臺V2.0版本中進行系統(tǒng)設計開發(fā)和實證運行,其效果已在平臺的使用中得到實證,轉化率達到100%。平臺的用戶檢索績效、用戶信息獲取績效,以及用戶科研績效都得到了極大的提升,平臺信息服務和知識服務能力切實得到了提升,平臺的支撐和保障作用進一步增強,平臺本身肩負著助推我省創(chuàng)新驅動發(fā)展、協(xié)同科研攻關和提升科研績效的使命,完善平臺功能,將更好地發(fā)揮平臺的科技資源支撐和保障作用。