孟 佩,曹 菡,師 軍
(陜西師范大學,陜西 西安 710119)
基于Softmax回歸模型的協(xié)同過濾算法研究與應用
孟 佩,曹 菡,師 軍
(陜西師范大學,陜西 西安 710119)
針對傳統(tǒng)的協(xié)同過濾推薦算法所存在的推薦精度不高的問題,提出了基于Softmax回歸模型的協(xié)同過濾算法。根據(jù)用戶的屬性特征將用戶分為不同的簇,再從目標用戶所在的簇中實現(xiàn)協(xié)同過濾推薦,有效縮減了最近鄰居的查找范圍,提高了推薦效率。主要將此改進算法應用于飲食推薦中,根據(jù)用戶的飲食記錄對用戶按口味偏好進行精準分類,將偏好相同的用戶劃分到同一個簇中,再從目標用戶所在的用戶簇中查找最近鄰居,完成推薦。從兩方面對此方法進行了實證分析:基于Softmax的用戶口味偏好分類的準確率分析和基于Softmax的協(xié)同過濾推薦精準度分析,驗證了該方法的有效性和可行性。
Softmax回歸;口味偏好;協(xié)同過濾;營養(yǎng)飲食
隨著社會經(jīng)濟的發(fā)展和人民生活條件的改善,人們的飲食消費觀念已經(jīng)由溫飽型轉向營養(yǎng)型,因此出現(xiàn)了許多營養(yǎng)膳食系統(tǒng)及飲食推薦方面的研究。基于本體的個性化營養(yǎng)推薦系統(tǒng)[1-2],主要采用協(xié)同過濾技術和上下文相關技術進行飲食推薦,忽略了數(shù)據(jù)稀疏的問題;基于Web數(shù)據(jù)挖掘的健康餐飲分析推薦系統(tǒng)的設計[3],基于模糊決策的體質(zhì)學飲食推薦建模及其系統(tǒng)實現(xiàn)[4],都過分注重營養(yǎng)卻忽略了用戶的飲食喜好,推薦的食物雖然健康,用戶卻不喜歡。
大多數(shù)用戶在飲食上都有自己偏好的口味,而且短期之內(nèi)不會改變,所以文中采用Softmax多分類回歸算法,根據(jù)用戶近期一周的飲食記錄,預測用戶的口味偏好,在此基礎上,對目標用戶所在的類采用協(xié)同過濾算法[5-9],完成top-N推薦。此方法能夠縮小鄰居查詢范圍,減少計算量,縮短計算時間并提高用戶口味滿意度,彌補已有的營養(yǎng)膳食系統(tǒng)的不足,很好地平衡用戶的喜好和飲食營養(yǎng)之間的關系。
Softmax回歸模型[10-11]是解決多類回歸問題的算法,是當前深度學習研究中廣泛使用在深度網(wǎng)絡有監(jiān)督學習部分的分類器。設訓練Softmax回歸模型的樣本來自k個類,共有m個,則由這些樣本組成的訓練集為{(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))}。其中x(i)∈Rn,標簽y(i)∈{1,2,…,k}。給定測試輸入x,用假設函數(shù)針對每一個類別j估算出概率值p(y=j|x),即估計x的每一種分類結果出現(xiàn)的概率,其中出現(xiàn)概率最大的類別即為輸出值。因此,假設函數(shù)要輸出一個k維向量(向量元素的和為1)用來表示這k個估計的概率值。假設函數(shù)hθ(xi)形式如下:
(1)
該模型的代價函數(shù)[12-13]為:
(2)
其中,1{·}為指示函數(shù),如果花括號中的表達式為真,則指示函數(shù)取值為1,否則為0。
原始的代價函數(shù)沒有權重衰減項,即加號后面的部分,加入權重衰減可以解決Softmax回歸的參數(shù)冗余所帶來的數(shù)值問題,能夠保證得到唯一的解。解決J(θ)的最小化問題有兩種常用方法:梯度下降法和最小二乘法。文中采用第一種方法進行優(yōu)化。具體思想是先對θ取一個隨機初始值(其目的是使對稱失效),然后不斷迭代改變θ的值使J(θ)減小,直到最終收斂取得一個θ值使得J(θ)最小,最終確定出假設函數(shù)hθ(x),以此對新輸入的數(shù)據(jù)進行預測分類。
(1)數(shù)據(jù)歸一化處理。
①Min-max標準化,也稱為離差標準化,是對原始數(shù)據(jù)的顯性變換,使結果值映射到[0,1]之間,轉換公式為:
X=(x-min)/(max-min)
(3)
其中,max為樣本數(shù)據(jù)的最大值;min為樣本數(shù)據(jù)的最小值。
②Z-score標準化,該方法對原始數(shù)據(jù)的均值(mean)和標準差(standarddeviation)進行數(shù)據(jù)的標準化。經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0,標準差為1,轉換公式為:
(4)
以用戶在最近一周內(nèi)所食用的各種菜品的次數(shù)作為實驗數(shù)據(jù)進行實驗,由于每個人的飲食喜好不同,喜歡吃菜的程度不同,則實驗數(shù)據(jù)內(nèi)容可能會存在很大差異,進而影響數(shù)據(jù)分析結果,因此該實驗采用線性函數(shù)法對數(shù)據(jù)進行歸一化處理,使其歸一化到[0,1]范圍內(nèi),增強可比性。
(2)Softmax回歸模型的訓練。
到了13世紀初,蒙古鐵騎繼續(xù)對西夏大舉進攻,國都興慶府被蒙古大軍攻破之后,黑城尚未失守,其間西夏國一些重要歷史文獻被轉移到黑城,并在此掩藏。1286年,元世祖忽必烈在此設立“亦集乃路總管府”,這里成為中原到漠北的交通樞紐。在西夏黑城的基礎上,一個新的城市出現(xiàn)了— —亦集乃,并進行了大規(guī)模的擴建。黑城在原規(guī)模上擴大了三分之二,再一次呈現(xiàn)出繁榮。
該實驗訓練數(shù)據(jù)200條,測試數(shù)據(jù)150條,采用梯度下降法對代價函數(shù)進行迭代優(yōu)化,當結果達到收斂或經(jīng)過指定步長數(shù)之后模型訓練完畢。
區(qū)別于傳統(tǒng)的基于用戶的協(xié)同過濾算法,基于Softmax的協(xié)同過濾推薦算法首先對用戶進行分類,將具有相同特征的用戶劃分到同一類中,然后在目標用戶所在的用戶簇中進行鄰居查找及top-N推薦,避免了在整個用戶空間上進行算法的實現(xiàn),減少了一定的計算量和時間,并提高了推薦結果的精準度。
具體方法:使用Softmax對用戶進行分類,尋求目標用戶所在的用戶簇,對每一類具有相同口味偏好的用戶建立用戶-飲食頻次矩陣[14]和食物-營養(yǎng)素矩陣,求取食物間的相似度,完成預測并進行最終推薦。其中,食物間的相似度由用戶飲食相似度和食物營養(yǎng)素相似度共同決定,均采用Pearson相關系數(shù)進行計算,相關公式如下:
simfood(i,j)=a*simdiet(i,j)+(1-a)*simnutrients(i,j)
(5)
simdiet(i,j)=
(6)
simnutrients(i,j)=
(7)
在參考校園一卡通數(shù)據(jù)的基礎上,以350條生成數(shù)據(jù)為例驗證改進算法的可用性。其中200條為訓練數(shù)據(jù),共含有清淡味、甜味、麻辣味和酸辣味4類口味偏好的用戶,分別用1、2、3、4表示。通過訓練數(shù)據(jù)訓練出模型參數(shù)θ,得到預測函數(shù)hθ(x),再通過150條測試數(shù)據(jù)進行驗證,檢測假設函數(shù)的正確性。該實驗最終正確率為99.333%。用戶飲食記錄數(shù)據(jù)結構如表1所示。
表1 飲食記錄數(shù)據(jù)結構表
在訓練數(shù)據(jù)和測試數(shù)據(jù)中,各類口味偏好的用戶數(shù)據(jù)分布情況如表2所示。
表2 實驗樣本分布表
Matlab下的實驗結果如圖1所示。
圖1 Softmax實驗結果圖
(2)基于Softmax的協(xié)同過濾精準度驗證。
該實驗將分兩組進行對比:一組實驗是直接進行協(xié)同過濾推薦,另一組是基于Softmax的協(xié)同過濾,在上述分類的基礎上對每類用戶進行實驗。采用平均絕對誤差(MAE)對算法進行度量,主要是通過計算目標用戶的預測評分與實際評分之間的偏差來度量預測的準確性,因而MAE的值越小,推薦的質(zhì)量越高。
實驗結果如圖2~4所示。
圖2 傳統(tǒng)的協(xié)同過濾
圖3 改進的協(xié)同過濾
圖4 實驗對比
從實驗結果看,基于Softmax的協(xié)同過濾的推薦質(zhì)量高于傳統(tǒng)的協(xié)同過濾,所以該方法具有可行性。
文中主要提出了一種基于Softmax的協(xié)同過濾改進算法,通過用戶的某種特征屬性對用戶進行分組,根據(jù)目標用戶所在的用戶群,采用協(xié)同過濾算法實現(xiàn)推薦。模擬飲食數(shù)據(jù),采用Softmax多分類回歸算法,對用戶按口味進行分類,在此基礎上采用協(xié)同過濾算法進行飲食推薦研究。實驗結果證明了該方法的可行性,能夠為用戶提供滿意度更高的服務。
[1] 劉 浩.基于本體的個性化營養(yǎng)推薦系統(tǒng)[D].天津:天津大學,2007.
[2] 唐建華,張秀南.營養(yǎng)食療個性化推薦系統(tǒng)設計與開發(fā)[J].揚州大學烹飪學報,2014,31(2):23-26.
[3] 康鐘榮.基于項目特征分類與填充的協(xié)同過濾算法研究[J].河南科技,2013(6):3-5.
[4] 侯翠琴,焦李成,張文革.一種壓縮稀疏用戶評分矩陣的協(xié)同過濾算法[J].西安電子科技大學學報,2009,36(4):614-618.
[5]ArY,BostanciE.Ageneticalgorithmsolutiontothecollaborativefilteringproblem[J].ExpertSystemswithApplications,2016,61:122-128.
[6] 李曉城,張增杰,夏勇明,等.基于web數(shù)據(jù)挖掘的健康餐飲分析推薦系統(tǒng)的設計[J].微型電腦應用,2011,27(1):44-46.
[7] 付德坤.基于模糊決策的中醫(yī)飲食推薦建模及嵌入式系統(tǒng)實現(xiàn)[D].成都:電子科技大學,2013.
[8] 黃 洋.基于聚類和項目類別偏好的協(xié)同過濾推薦算法研究[D].杭州:浙江理工大學,2014.
[9]AbdelwahabA,SekiyaH,MatsubaI.Collaborativefilteringbasedonaniterativepredictionmethodtoalleviatethesparsityproblem[C]//Proceedingsofthe11thinternationalconferenceoninformationintegrationandweb-basedapplications&services.[s.l.]:ACM,2009.
[10]TinoP.BifurcationstructureofequilibriaofiteratedSoftmax[J].Chaos,Solitons&Fractals,2009,41(4):1804-1816.
[11] 付 鵬,姚建剛,龔 磊.利用紅外特征和Softmax回歸識別絕緣子污穢等級[J].計算機工程與應用,2015,51(13):181-185.
[12] 汪海波,陳雁翔,李艷秋.基于主成分分析和Softmax回歸模型的人臉識別方法[J].合肥工業(yè)大學學報:自然科學版,2015,38(6):759-763.
[13] 王 晟.基于Softmax回歸的電力儀表分類[J].研究與開發(fā),2014(6):25-28.
[14]MajidA,ChenLing,ChenGencai.Acontext-awarepersonalizedtravelrecommendationsystembasedongeotaggedsocialmediadatamining[J].InternationalJournalofGeographicalInformationScience,2013,27(4):662-663.
Research and Application of Collaborative Filtering Algorithm Based on Softmax Regression Model
MENG Pei,CAO Han,SHI Jun
(Shaanxi Normal University,Xi’an 710119,China)
In view of the low accuracy for traditional collaborative filtering recommendation algorithm,the collaborative filtering algorithm based on Softmax regression model is proposed.According to the user’s attributes,the users can be divided into different clusters,and the collaborative filtering recommendation is realized in the cluster from its target users,reduction of the nearest neighbors search scope,improvement of the performance of the recommendation system.The improved algorithm is applied to dietary recommendations,depending on the user’s diet by recording the user taste preferences for accurate classification,the same user preferences will be divided into the same cluster,and then the nearest neighbor is searched from the user cluster where there is the target user to complete the recommendation.An empirical analysis about this method from two aspects is made,including the accuracy analysis of the user’s taste preference classification based on Softmax and precision analysis of collaborative filtering recommendation based on Softmax,and the effectiveness and feasibility is verified.
Softmax regression;taste preference;collaborative filtering;nutrition diet
2016-01-21
2016-05-06
時間:2016-11-21
國家自然科學基金資助項目(41271387)
孟 佩(1989-),女,碩士研究生,研究方向為云計算、數(shù)據(jù)挖掘;曹 菡,博士,教授,通訊作者,研究方向為大數(shù)據(jù)處理、空間數(shù)據(jù)挖掘以及智慧旅游。
http://www.cnki.net/kcms/detail/61.1450.TP.20161121.1641.024.html
TP301.6
A
1673-629X(2016)12-0153-03
10.3969/j.issn.1673-629X.2016.12.033