肖詩伯等
摘要:為幫助科研用戶解決在海量文獻檢索中遇到的信息過載等問題,該文從用戶使用文獻的行為出發(fā),運用大數(shù)據(jù)分析中隨機游走的二分圖算法分析處理,通過協(xié)同過濾的方式預(yù)測用戶未來的文獻需求。評價指標顯示本模型準確率為72.4%、覆蓋率為14.6%、召回率為69.1%。能較好完成對文獻的預(yù)測,實現(xiàn)對用戶的個性化推薦,主動改善用戶的文獻檢索環(huán)境。
關(guān)鍵詞:二分圖;隨機游走;大數(shù)據(jù);個性化;文獻;推薦系統(tǒng)
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)02-0008-03
Abstrac: This paper for helps researcher solve the information overload problems in vast literature search. From the user's literature use behavior, use the Random-Walk bipartite graph theory of big data analysis to analysis and processing, Through collaborative filtering approach to predict user future literature needs. Evaluating indicator shows the model: Precision rate of 72.4%,Coverage rate of 14.6%,Recall rate of 69.1%. It can be better to complete the predict for literature, to realize the individuation recommendation for user, initiative to improve the user's literature retrieval environment.
Key words: bipartite graph; random walk; big data; individuation; literature; recommendation system
隨著“中國創(chuàng)造”的不斷提升和發(fā)展,科研工作中各學(xué)科的融合性和精細度越來越受到重視,海量的科研學(xué)術(shù)文獻也日益涌現(xiàn)。然而,科研用戶的文獻檢索方法仍多采用關(guān)鍵字檢索,而簡單同質(zhì)的關(guān)鍵字檢索:一方面不能充分表達用戶的科研特色、側(cè)重點及知識需求;另一方面檢索結(jié)果過多而發(fā)生信息過載現(xiàn)象,造成用戶花費大量時間篩選無關(guān)文獻。同時通過期刊分類導(dǎo)航獲得的文獻也有科學(xué)局限性,無法很好服務(wù)于融合多學(xué)科的科研工程。
隨著大數(shù)據(jù)、機器學(xué)習(xí)、web2.0等技術(shù)的出現(xiàn)與成熟,可通過人工智能的方式解決此類問題[1,2]。本文運用二分圖模型算法,分析用戶的文獻使用行為特征、個人屬性和文獻特征。一方面通過用戶之間的行為相似度,分析用戶興趣,預(yù)測用戶真實及潛在需求的文獻需求并向其主動推薦,以幫助用戶面對海量文獻資源不易找到適合自身需求文獻的信息現(xiàn)象;另一方面挖掘每篇文獻的知識價值,將適合的文獻推薦給適合的用戶,而不僅僅推薦新、熱方向的學(xué)術(shù)文獻,解決因海量文獻所產(chǎn)生的長尾效應(yīng)(The Long Tail)。
1 研究思路
將用戶對文獻的使用行為(如:下載、閱讀),視為用戶對具體某文獻的興趣和知識需求。在多用戶使用文獻的行為中,行為相似性越高,表明其行為和知識需求越相似。通過對行為相似度分析,發(fā)現(xiàn)用戶還未產(chǎn)生行為而有知識需求的文獻,這類文獻或是用戶當前研究點中需要的知識,也或是下一步研究領(lǐng)域中的潛在需求知識。最終將滿足用戶個性化需求的文獻主動推薦給用戶。讓用戶從知識圈、興趣圈的角度獲取文獻,這屬于大數(shù)據(jù)分析中以協(xié)同過濾方式對海量“用戶-文獻”行為進行分析的方法。
本文運用大數(shù)據(jù)分析技術(shù)中的二分圖模型算法[3],來分析“用戶-文獻”之間的概率相關(guān)性。這是用頂點和邊來表示概率分布的技術(shù)。將用戶與文獻2變量之間的關(guān)系獨立編碼在“圖”中表示,使概率分布的表達表示成因子乘積的形式。其優(yōu)點是可以更好的捕獲隨機變量間的關(guān)系。應(yīng)用方法為:將用戶使用行為轉(zhuǎn)換為一系列無向二元組表達,單個二元組用V(u,l)表示用戶閱讀過文獻l,閱讀行為通過“邊”e(u,l)來連接?!坝脩?文獻”二分圖模型如下圖1示例:
其中un為具體用戶頂點,ln為具體文獻頂點。Vu為用戶頂點集合,Vl為文獻頂點集合。e為通過使用行為連接用戶與文獻的邊。用戶u1與l2、l3相連,表示該用戶對這2篇文獻產(chǎn)生過使用行為。文獻l2與u1、u2、u3相連,表示該文獻被這3名用戶使用過。
3個性化推薦方法
為在二分圖模型上分析用戶文獻使用行為,實現(xiàn)個性化推薦。首先將用戶u的文獻推薦任務(wù)轉(zhuǎn)換為:度量與用戶頂點u沒有“邊”相連的文獻頂點l與用戶u的相關(guān)性。對相關(guān)性的計算采用一種概率系數(shù)的方式[4]。然后將用戶u對所有文獻的相關(guān)概率進行排序,概率系數(shù)越高表示用戶u選擇某文獻l的可能性越大。最后取概率最高的前30篇文獻作為推薦列表向用戶展示,來實現(xiàn)用戶個性化文獻推薦。
影響用戶與未產(chǎn)生行為的文獻之間相關(guān)概率的因素有:1從用戶頂點到文獻頂點間“邊”的數(shù)量;2用戶頂點與文獻頂點間“邊”的長度;3同類2頂點之間“邊”經(jīng)過的異類頂點數(shù)。
具有較高相關(guān)概率的2頂點的特征有:12頂點之間的“邊”長度較短;22頂點之間“邊”的路徑較多;32頂點之間的“邊”未經(jīng)過較大Out-Degree(出度)的頂點。
3.1數(shù)據(jù)準備
將“用戶-文獻”行為數(shù)據(jù)集按行為產(chǎn)生的時間軸分為8份。先產(chǎn)生行為的7份作訓(xùn)練樣本,用來計算用戶對未行為文獻的相關(guān)性。最后1份作測試樣本,與訓(xùn)練樣本計算出的文獻作對比驗證,以評價算法的計算準確性。通過創(chuàng)建Numpy運算符和科學(xué)計算包以調(diào)用函數(shù)。采用二分圖模型中基于隨機游走的Personalrank算法來計算“圖”中2頂點之間的相關(guān)概率[5]。初始化各頂點的初始概率值:用戶u頂點的初始游走概率α=1,文獻頂點的初始訪問概率β=0,定義“邊”的權(quán)重為1,然后運用迭代公式處理。
3.2算法實施
第一步,運用隨機游走的路徑選擇方式,從用戶un頂點開始,在“用戶-文獻”二分圖中隨機選擇“邊”e游走到下一個頂點[6]。到達一個頂點后,首先計算概率α=1-d判斷是否繼續(xù)游走。若繼續(xù)游走:則又按照隨機路徑選擇的方式,在當前頂點上選擇一條“邊”e向下一個頂點游走,到達后繼續(xù)計算概率α重復(fù)下去。若計算出的概率α為停止:則回到用戶un頂點,重新進行下一輪游走。針對某用戶un經(jīng)過這樣多次隨機游走后,將每篇文獻頂點的被訪問到的概率迭代到一起,就能獲得一個收斂的穩(wěn)定值。通過對文獻訪問概率排序,提取概率最高的30篇用戶un未產(chǎn)生行為的文獻,就能預(yù)測到與某用戶高度相關(guān)的、有需求文獻。
4.2實驗結(jié)果
本實驗采用CiteULike提供的數(shù)據(jù)集,該數(shù)據(jù)集含有1800多用戶對1.2萬篇文獻的行為數(shù)據(jù),其中包含“用戶-文獻”無向圖數(shù)據(jù)6萬多條。未人為去除噪音數(shù)據(jù),計算結(jié)果能體現(xiàn)真實行為情況。對計算模型匯總的隨機游走參數(shù)α,在多次測試計算中對比認為取0.87為最佳。
將本文構(gòu)建的計算模型對訓(xùn)練樣本進行計算,得出的推薦列表通過評價公式驗證,其結(jié)果如下表1所示:
通過與理想狀態(tài)下的樸素貝葉斯、K-NN算法比較,本模型的準確率和召回率差異不是太大,能較好實現(xiàn)對用戶行為的分析和預(yù)測。覆蓋率為14.6%說明計算模型能較好挖掘長尾文獻。通過實驗,發(fā)現(xiàn)數(shù)據(jù)維度的向量大小與時間、空間復(fù)雜度有很大關(guān)系。
5總結(jié)
本文針對海量學(xué)術(shù)文獻的檢索過程中,科研用戶常遇到信息過載等現(xiàn)象而無法較好獲取適合自身需求的文獻的問題。結(jié)合當前大數(shù)據(jù)、機器學(xué)習(xí)技術(shù)中的二分圖模型算法,分析多用戶對文獻的使用行為,發(fā)現(xiàn)用戶未來的文獻需求。實驗結(jié)果反映算法能較好完成預(yù)測質(zhì)量,達到向用戶推薦文獻的要求。能幫助用戶解決信息過載問題,發(fā)掘相對較低流行度文獻,體現(xiàn)科研內(nèi)容價值。下一步研究中:一方面,可通過增加文獻內(nèi)容特征,提高計算準確率;另一方面,可運用基于位置敏感的LSH(哈希函數(shù))來降低運算的空間、時間復(fù)雜度。
參考文獻:
[1] 王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應(yīng)用,2012,48(7):66-76.
[2] 肖詩伯,楊玉梅,蘭鷹,等.基于多標簽屬性的學(xué)術(shù)文獻推薦研究[J].情報探索,2015,(04):8-10.
[3] 張宏毅,王立威,陳瑜希, 等.概率圖模型研究進展綜述[J].軟件學(xué)報,2013,(11):2476-2497.
[4] 劉建偉,黎海恩,羅雄麟, 等.概率圖模型表示理論[J].計算機科學(xué),2014,41(9):1-17.
[5] 原福永,蔡紅蕾. 一種在信任網(wǎng)絡(luò)中隨機游走的推薦算法[J].現(xiàn)代圖書情報技術(shù),2014,30(10):70-75.
[6] 趙悅. 概率圖模型學(xué)習(xí)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2012:52-61
[7] 劉建國,周濤,郭強, 等. 個性化推薦系統(tǒng)評價方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(3):1-10.