国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶點(diǎn)擊的線性回歸在內(nèi)容推薦中的應(yīng)用研究

2017-09-08 00:00石方夏
現(xiàn)代電子技術(shù) 2017年17期
關(guān)鍵詞:線性回歸回歸分析

石方夏

摘 要: 在內(nèi)容推薦中根據(jù)用戶的瀏覽偏好進(jìn)行內(nèi)容排序?qū)μ岣哂脩舻狞c(diǎn)擊率具有至關(guān)重要的作用。推薦流中內(nèi)容隨著時間變化呈現(xiàn)出流動性,分析歷史數(shù)據(jù)中用戶和推薦內(nèi)容的點(diǎn)擊信息進(jìn)行回歸分析,提取用戶在內(nèi)容點(diǎn)擊時特征的相關(guān)性,并對特征進(jìn)行歸一化,擬合出在當(dāng)前特征分布下的點(diǎn)擊率,以線性回歸作為擬合模型進(jìn)行用戶點(diǎn)擊率預(yù)測。實(shí)驗(yàn)以今日頭條中用戶瀏覽點(diǎn)擊日志為測試數(shù)據(jù)集,采用改進(jìn)算法進(jìn)行內(nèi)容排序時截取單領(lǐng)域下用戶點(diǎn)擊內(nèi)容作為點(diǎn)擊率進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法能夠較為準(zhǔn)確地推薦用戶傾向點(diǎn)擊的內(nèi)容。

關(guān)鍵詞: 用戶點(diǎn)擊率; 線性回歸; AUC; 特征抽?。?回歸分析

中圖分類號: TN911?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)17?0135?03

Application of linear regression based on user clicks rate in content recommendation

SHI Fangxia

(School of Information Engineering, Xizang Minzu University, Xianyang 712082, China)

Abstract: The content ranking according to users′ browsing preference in content recommendation plays an important role in improvement of the user clicks rate. The content in recommendation flow changes with time. The clicks information of user and recommendation content in historical data is analyzed for regression analysis. The feature correlation while user clicks the content is extracted. The features are normalized to fit the clicks rate of current features distribution. The linear regression is used as the fitting model to predict user clicks rate. The logs browsed and clicked by users are taken as the test dataset in the experiment. The content clicked by users in the single field is cut out with the improved algorithm as the clicks rate for verification. The experimental results show that the improved algorithm can recommend clicks content of user preference accurately.

Keywords: user clicks rate; linear regression; AUC; feature extraction; regression analysis

0 引 言

目前,國內(nèi)新聞類產(chǎn)品如今日頭條、一點(diǎn)資訊和微博頭條等都以內(nèi)容推薦為主,如何提高內(nèi)容推薦的準(zhǔn)確性,從而提升用戶對推薦內(nèi)容的點(diǎn)擊率,提升用戶對平臺的粘性,對提升平臺的用戶留存具有非常重要的意義。

用戶在內(nèi)容瀏覽時的用戶行為至關(guān)重要,用戶對內(nèi)容的點(diǎn)擊、評論和轉(zhuǎn)發(fā)等行為都能很明顯地反映用戶對內(nèi)容的偏好程度,分析抽取用戶在內(nèi)容瀏覽時的反饋行為能夠很好地幫助提升平臺內(nèi)容排序的準(zhǔn)確性。本文嘗試以用戶在內(nèi)容瀏覽時對各個領(lǐng)域點(diǎn)擊分布為出發(fā)點(diǎn),抽象出用戶對各個領(lǐng)域的興趣度,進(jìn)而分析提取用戶對各個領(lǐng)域的點(diǎn)擊傾向性,并結(jié)合內(nèi)容的時間因素和熱度因素進(jìn)行綜合回歸分析,基于線性回歸中各個特征的強(qiáng)解釋性,采用線性回歸進(jìn)行各個特征的回歸系數(shù)擬合。

1 線性回歸

線性回歸模型作為業(yè)界的常用模型,對于趨勢分析有非常好的效果。因其模型簡單并且對特征可解釋性強(qiáng),因此在工業(yè)界得到了廣泛應(yīng)用。線性回歸可描述為:對于一系列的給定特征,分析給定特征和實(shí)際值之間的一種組合關(guān)系,假設(shè)實(shí)際值總能夠根據(jù)一定的組合方式由給定的一系列特征擬合得到,稱這種組合方式為線性回歸。實(shí)際值和特征之間的組合關(guān)系可表示為:

(1)

式中:表示實(shí)際值;表示給定的各個特征值;表示組合方式,組合方式可以表示為向量形式的回歸系數(shù)?;貧w分析是一種近似的分析,通過大量的數(shù)據(jù)訓(xùn)練,不斷地對當(dāng)前最優(yōu)的回歸系數(shù)進(jìn)行再調(diào)整,以一種迭代收斂的方式最小化損失函數(shù),從而獲得最優(yōu)解,損失函數(shù)表示如下:

(2)

2 用戶點(diǎn)擊率回歸擬合

用戶的點(diǎn)擊具有一定的局部性,即用戶在一段時間內(nèi)瀏覽的內(nèi)容主題是相對固定的,通過截取分析用戶一段時間的點(diǎn)擊日志進(jìn)行回歸分析,擬合最佳的回歸系數(shù),從而提高內(nèi)容排序的準(zhǔn)確性,提升用戶的點(diǎn)擊欲望。

假設(shè)截取時間段為對于用戶,用戶歷史推薦的內(nèi)容為,表示給用戶推薦的第條內(nèi)容,從內(nèi)容角度可以劃分的領(lǐng)域集合為,對于用戶假設(shè)給用戶總共推薦條內(nèi)容,用戶共點(diǎn)擊條內(nèi)容,則認(rèn)為用戶在時間段內(nèi)對內(nèi)容集合的點(diǎn)擊率為記為對于領(lǐng)域而言,同理,根據(jù)點(diǎn)擊次數(shù)和總推薦次數(shù)比值得到對于領(lǐng)域的點(diǎn)擊傾向性對于時間特征和內(nèi)容本身的熱度特征,取平均值后進(jìn)行歸一化。假設(shè)在線性回歸時選取各個領(lǐng)域、時間和內(nèi)容熱度三個維度的特征,用戶的點(diǎn)擊率作為實(shí)際值,則可以將線性回歸公式歸納為:endprint

(3)

式中:表示各個領(lǐng)域的回歸系數(shù);和分別表示時間衰減的回歸系數(shù)和內(nèi)容熱度的回歸系數(shù)。其中時間衰減的特征計算方式如下:

(4)

內(nèi)容熱度的計算方式采用邏輯函數(shù)進(jìn)行歸一化:

(5)

假設(shè)在時間段內(nèi)共有用戶個,則個用戶對應(yīng)會產(chǎn)生個點(diǎn)擊率以及點(diǎn)擊率對應(yīng)的各個維度特征,可表示為:

(6)

3 實(shí)驗(yàn)與分析

實(shí)驗(yàn)選取今日頭條中用戶瀏覽和點(diǎn)擊的測試數(shù)據(jù)集,測試數(shù)據(jù)集截取時間段為2016年3月10日上午8:00—22:00之間14個小時共計1億條瀏覽記錄,對該1億條記錄進(jìn)行分析處理,根據(jù)內(nèi)容信息提取內(nèi)容從屬的領(lǐng)域信息,領(lǐng)域列表采用今日頭條公開的領(lǐng)域分類集合,內(nèi)容的領(lǐng)域提取策略采用文本匹配的方式,即內(nèi)容中有文本能夠和領(lǐng)域相匹配,則該內(nèi)容從屬于該領(lǐng)域,可能存在當(dāng)前內(nèi)容從屬于多個領(lǐng)域的情況。與此同時,可以獲得內(nèi)容的熱度信息(即該條內(nèi)容的評論數(shù))、內(nèi)容的時間特性。測試數(shù)據(jù)集的樣例格式如表1所示。

在表1中,第一列表示用戶是否點(diǎn)擊該條內(nèi)容,第二列表示用戶設(shè)備號,第三列表示推薦內(nèi)容,第四列表示時間。今日頭條對內(nèi)容領(lǐng)域的分類包括財經(jīng)、軍事、國際、時尚、游戲等不到100個領(lǐng)域的分類。

3.1 評價指標(biāo)

ROC和AUC是評價分類器的指標(biāo)。ROC是受試者工作特征曲線(Receiver Operating Characteristic Curve) 的簡寫,又稱為感受性曲線(Sensitivity Curve)。得此名的原因在于曲線上各點(diǎn)反映著相同的感受性,它們都是對同一信號刺激的反應(yīng),只不過是在幾種不同的判定標(biāo)準(zhǔn)下所得的結(jié)果而已。ROC是反映敏感性和特異性連續(xù)變量的綜合指標(biāo),用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系,它通過將連續(xù)變量設(shè)定出多個不同的臨界值,從而計算出一系列敏感性和特異性,再以敏感性為縱坐標(biāo)、(1?特異性)為橫坐標(biāo)繪制成曲線。AUC是ROC曲線下面積(Area Under ROC Curve)的簡稱,顧名思義,AUC的值就是處于ROC Curve下方的那部分面積的大小。通常,AUC的值介于0.5~1.0之間,AUC越大,診斷準(zhǔn)確性越高。在ROC曲線上,最靠近坐標(biāo)圖左上方的點(diǎn)為敏感性和特異性均較高的臨界值。

AUC計算常用方式是統(tǒng)計所有的(為正類樣本的數(shù)目,為負(fù)類樣本的數(shù)目)個正負(fù)樣本對中有多少個組中的正樣本的score大于負(fù)樣本的score。當(dāng)二元組中正負(fù)樣本的score相等時,按照0.5計算,然后除以計算公式如下:

(7)

回歸的一個重要特性是提高用戶預(yù)測的準(zhǔn)確性,因此采用訓(xùn)練之后的模型進(jìn)行回歸預(yù)測時,一個重要的指標(biāo)是評判模型的預(yù)測是否能夠提高用戶的點(diǎn)擊率,即是否能夠?qū)⒂脩魞A向點(diǎn)擊的內(nèi)容挑選出來。此處的點(diǎn)擊率驗(yàn)證可以轉(zhuǎn)化為用戶推薦的準(zhǔn)確率,即給用戶推薦的條內(nèi)容中,用戶點(diǎn)擊的條數(shù)量,則推薦準(zhǔn)確率可以表示為:

(8)

3.2 實(shí)驗(yàn)分析

實(shí)驗(yàn)選取測試數(shù)據(jù)集的1億條數(shù)據(jù),其中70%作為模型的訓(xùn)練數(shù)據(jù),30%作為測試數(shù)據(jù),其中30%的測試數(shù)據(jù)可以用于驗(yàn)證模型的AUC和準(zhǔn)確率。準(zhǔn)確率的驗(yàn)證方式采用單領(lǐng)域按小時進(jìn)行時間切分,具體見實(shí)驗(yàn)對比部分。

為了對比不同方式下在測試數(shù)據(jù)集上的AUC表現(xiàn),分別選取本文的線性回歸模型、基于時間和熱度序的模型以及純熱度序的模型,采用三種方式分別計算在測試數(shù)據(jù)集上的AUC體現(xiàn),如圖1所示。

從圖1可以看出,本文的點(diǎn)擊回歸模型在AUC上表現(xiàn)良好,均值都保持在0.7以上,相對于時間熱度模型和純熱度模型,本文的模型在AUC上有較為明顯的提升。同時,將數(shù)據(jù)分布的14個時間段以兩個小時為間隔進(jìn)行AUC對比,可見,本文模型在AUC上的表現(xiàn)也較為穩(wěn)定。

如前所述,采用訓(xùn)練模型對比用戶在數(shù)據(jù)集上的準(zhǔn)確率(點(diǎn)擊率)表現(xiàn)。采用單領(lǐng)域下分時段的準(zhǔn)確率分析。具體做法為:以領(lǐng)域和時間片為劃分,時間片的分割單位為h,選取單領(lǐng)域下時間片為某1 h內(nèi)的30%測試數(shù)據(jù),用三種模型(點(diǎn)擊回歸模型、時間熱度模型和純熱度模型)分別計算得分排名Top100的內(nèi)容,根據(jù)實(shí)際情況下Top100中用戶點(diǎn)擊內(nèi)容的占比來定義準(zhǔn)確率。具體的數(shù)據(jù)表現(xiàn)如圖2所示。

從圖2可以看出,本文的點(diǎn)擊回歸模型在點(diǎn)擊準(zhǔn)確率上同樣表現(xiàn)良好,在某些峰值點(diǎn),點(diǎn)擊率能達(dá)到60%以上,這在內(nèi)容推薦流中對提高用戶的點(diǎn)擊率是非常有效的?;跁r間熱度序和純熱度序的模型則相對較為欠缺,熱度序在某些點(diǎn)會和時間熱度序持平,這可以解釋為熱度序在一定程度上能夠反映用戶的點(diǎn)擊傾向性受到群體的影響。

4 結(jié) 語

本文通過在內(nèi)容推薦流中擬合用戶的點(diǎn)擊信息進(jìn)行回歸分析,通過提取用戶歷史的點(diǎn)擊領(lǐng)域信息以及推薦內(nèi)容本身的時間信息和熱度信息,并對測試數(shù)據(jù)集以AUC和點(diǎn)擊率進(jìn)行指標(biāo)評估。實(shí)驗(yàn)結(jié)果表明,本文的模型相比于時間熱度序和純熱度序能較為明顯地提升用戶的點(diǎn)擊欲望。下一步的工作應(yīng)當(dāng)是考慮提取深層次的信息進(jìn)行補(bǔ)充,同時,基于用戶協(xié)同過濾的思想,提升群體智慧。

參考文獻(xiàn)

[1] 黃斌,彭志平.基于級聯(lián)過濾的多模型融合的推薦方法[J].小型微型計算機(jī)系統(tǒng),2016(1):33?37.

[2] 余永紅,陳興國,高陽.一種基于耦合對象相似度的項目推薦算法[J].計算機(jī)科學(xué),2014(2):33?35.

[3] 陳珂,鄒權(quán),彭志平,等.異質(zhì)社交網(wǎng)絡(luò)中協(xié)同排序的好友推薦算法[J].小型微型計算機(jī)系統(tǒng),2014(6):1270?1274.

[4] 朱亮,陸靜雅,左萬利.基于用戶搜索行為的query?doc關(guān)聯(lián)挖掘[J].自動化學(xué)報,2014(8):1654?1666.

[5] 華曉芳,楊緒兵.隱目標(biāo)回歸算法設(shè)計研究[J].計算機(jī)工程與設(shè)計,2014(9):3113?3118.

[6] 聶卉.基于內(nèi)容分析的用戶評論質(zhì)量的評價與預(yù)測[J].圖書情報工作,2014(13):83?89.

[7] 王萍,王毅,文麗.優(yōu)化用戶滿意體驗(yàn)的數(shù)字資源建設(shè)探究[J].中國圖書館學(xué)報,2014(5):98?109.

[8] 陳潔敏,湯庸,李建國,等.個性化推薦算法研究[J].華南師范大學(xué)學(xué)報(自然科學(xué)版),2014(5):8?15.

[9] 李廣利.科技查新用戶滿意度影響因素分析[J].現(xiàn)代情報,2014(10):162?165.

[10] 李忠俊,周啟海,帥青紅.一種基于內(nèi)容和協(xié)同過濾同構(gòu)化整合的推薦系統(tǒng)模型[J].計算機(jī)科學(xué),2009(12):142?145.endprint

猜你喜歡
線性回歸回歸分析
國道公路養(yǎng)護(hù)管理與規(guī)劃研究
中國經(jīng)濟(jì)發(fā)展?fàn)顩r與大學(xué)生就業(yè)情況的相關(guān)性研究
城鄉(xiāng)居民醫(yī)療費(fèi)用的相關(guān)性與回歸分析
基于變形監(jiān)測的金安橋水電站壩體穩(wěn)定性分析
森林碳匯影響因素的計量模型研究
河北省城鎮(zhèn)居民人均可支配收入與消費(fèi)統(tǒng)計分析
投資者情緒與股票市場收益的相互影響分析
河南省經(jīng)濟(jì)增長質(zhì)量與創(chuàng)新能力關(guān)系的實(shí)證分析
企業(yè)退休金收支平衡的研究
企業(yè)退休金收支平衡的模型分析