国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用戶隱式評(píng)價(jià)的農(nóng)業(yè)知識(shí)協(xié)同過濾推薦算法優(yōu)化與仿真

2015-09-14 09:51:45劉波等
物聯(lián)網(wǎng)技術(shù) 2015年8期

劉波等

摘 要:基于湖南國家農(nóng)村農(nóng)業(yè)信息化示范省建設(shè)項(xiàng)目農(nóng)業(yè)知識(shí)抽取與推薦研究,提出了基于用戶隱式評(píng)價(jià)的農(nóng)業(yè)知識(shí)協(xié)同過濾推薦算法。該算法主要針對(duì)協(xié)同過濾算法中用戶偏好描述粒度大和評(píng)價(jià)矩陣稀疏引起的相似度計(jì)算不準(zhǔn)確問題,通過建立農(nóng)業(yè)知識(shí)標(biāo)準(zhǔn)特征矩陣和用戶評(píng)分項(xiàng)目內(nèi)容權(quán)重矩陣,然后基于內(nèi)容的特征對(duì)評(píng)價(jià)矩陣進(jìn)行填充,再基于項(xiàng)目協(xié)同過濾算法推薦相應(yīng)的知識(shí)。使用農(nóng)業(yè)數(shù)據(jù)集論證了本算法也適合農(nóng)業(yè)文本知識(shí)推薦。該方法既改善了數(shù)據(jù)稀疏性,同時(shí)又反映了用戶的個(gè)性興趣。

關(guān)鍵詞:協(xié)同過濾推薦;用戶偏好-項(xiàng)目評(píng)價(jià)矩陣;混合推薦算法;農(nóng)業(yè)知識(shí)服務(wù)

中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2015)08-00-04

0 引 言

當(dāng)前農(nóng)業(yè)知識(shí)服務(wù),主要是農(nóng)戶被動(dòng)接受信息,導(dǎo)致涉農(nóng)組織、農(nóng)戶想要的信息得不到,不適用的信息卻很多。在這種背景下,推薦技術(shù)作為個(gè)性化服務(wù)的核心技術(shù)[1],相繼移植到農(nóng)業(yè)知識(shí)服務(wù)領(lǐng)域。大眾化的農(nóng)業(yè)知識(shí)推送,基于內(nèi)容的個(gè)性化推薦近些年取得了大量的成果,然而,推薦技術(shù)在個(gè)性化農(nóng)業(yè)知識(shí)服務(wù)上存在諸多挑戰(zhàn)[2],主要表現(xiàn)在:

(1)農(nóng)業(yè)信息的動(dòng)態(tài)時(shí)效性、區(qū)域性給用戶興趣表示帶來多樣性;

(2)用戶文化層次較低,農(nóng)業(yè)知識(shí)的客觀性,農(nóng)業(yè)農(nóng)村信息基礎(chǔ)設(shè)施較差使系統(tǒng)很難顯式獲取用戶的評(píng)價(jià)行為;

(3)農(nóng)業(yè)用戶的小規(guī)模性和農(nóng)業(yè)知識(shí)的海量存儲(chǔ),導(dǎo)致用戶評(píng)價(jià)矩陣稀疏,傳統(tǒng)的協(xié)同過濾算法難以直接應(yīng)用。正是在這樣的背景下,湖南國家農(nóng)村農(nóng)業(yè)信息化示范省建設(shè)項(xiàng)目組開展基于協(xié)同過濾的農(nóng)業(yè)文本知識(shí)推薦模型與算法研究[3]。

1 相關(guān)定義

1.1 用戶偏好

用戶模型是個(gè)性化信息推薦的基礎(chǔ),必須建立合適的用戶模型表示用戶偏好,并能有效的進(jìn)行學(xué)習(xí)、更新,使其準(zhǔn)確表示用戶特征。由于農(nóng)業(yè)典型的生態(tài)區(qū)域性和過程復(fù)雜性,涉農(nóng)用戶在組織從事農(nóng)業(yè)生產(chǎn)經(jīng)營活動(dòng)中,與種植環(huán)境、養(yǎng)殖情景、流通節(jié)奏息息相關(guān),如何反應(yīng)這種動(dòng)態(tài)變化的具有區(qū)域性、多樣化興趣是解決農(nóng)業(yè)個(gè)性化信息服務(wù)的關(guān)鍵問題之一。同時(shí)本文的研究對(duì)象主要是涉農(nóng)用戶,由于文化層次相對(duì)較低,上網(wǎng)獲取信息能力較差,對(duì)網(wǎng)絡(luò)深度應(yīng)用不多,造成用戶偏好數(shù)據(jù)獲取困難。傳統(tǒng)的加權(quán)關(guān)鍵詞,表示用戶興趣模型,采用“用戶-興趣特征”兩級(jí)管理方式,沒有對(duì)用戶偏好進(jìn)行分類,降低了推薦精度,文獻(xiàn)[4]針對(duì)此問題進(jìn)行研究,改進(jìn)為“用戶-興趣主題-興趣特征”的三級(jí)管理方式,文獻(xiàn)[5]基于層次矢量空間模型,采用用戶瀏覽行為計(jì)算網(wǎng)頁興趣度,具有較高的準(zhǔn)確率和召回率。文獻(xiàn)[6]基于矢量空間模型構(gòu)建了基于用戶興趣的信息檢索模型,進(jìn)行了基于用戶興趣模型的個(gè)性化實(shí)現(xiàn)。

1.2 用戶興趣度量

用戶瀏覽內(nèi)容時(shí)伴隨多種瀏覽行為,用戶瀏覽一次相關(guān)頁面的行為形成相應(yīng)的一條歷史記錄,研究表明用戶一定時(shí)間段內(nèi),許多瀏覽行為能很好反映用戶興趣,主要表現(xiàn)為保存頁面、打印頁面、收藏頁面,在一時(shí)間段內(nèi)訪問同一頁面次數(shù),在頁面上瀏覽停留時(shí)間[7,8]。目前研究中一般通過內(nèi)容關(guān)鍵詞,結(jié)合賦予這些行為以權(quán)值來表達(dá)網(wǎng)頁和用戶興趣相關(guān)性得到用戶特征矢量。對(duì)權(quán)值的處理通常有兩種方式[7]:第一種是把用戶瀏覽各種行為的權(quán)值相加;第二種是幾種行為同時(shí)發(fā)生的,取其中最大值。前者放大了網(wǎng)頁對(duì)用戶興趣表達(dá)的重要性,后者縮小了網(wǎng)頁對(duì)用戶興趣表達(dá)的重要性。文獻(xiàn)[9]研究表明,基于其訪問頁面次數(shù)、停留時(shí)間的用戶興趣度性能好且較接近,在實(shí)際瀏覽中,會(huì)出現(xiàn)頁面駐留時(shí)間遠(yuǎn)超用戶正常瀏覽時(shí)間和遠(yuǎn)小于用戶瀏覽時(shí)間的兩種異常情況[9,10]。

1.3 特征詞興趣值度量

根據(jù)用戶對(duì)特征詞,所在農(nóng)業(yè)知識(shí)條目頁面實(shí)際瀏覽時(shí)間、該特征詞在該用戶所有瀏覽記錄中出現(xiàn)的次數(shù)、瀏覽興趣度來表示。同時(shí)為了更精準(zhǔn)表示用戶興趣值,用頁面停留時(shí)間平均值取代實(shí)際瀏覽時(shí)間。

1.4 用戶興趣向量

由于農(nóng)業(yè)知識(shí)復(fù)雜性,同一興趣關(guān)鍵詞可能屬于不同主題,同一關(guān)鍵詞也可能有多種表示形式,將用戶興趣組織為主題層次樹,對(duì)樹中的興趣主題和關(guān)鍵詞分別定義權(quán)值。這樣,樹結(jié)構(gòu)既可表示用戶興趣主題,也可表示用戶興趣特征關(guān)鍵詞,還可表示對(duì)興趣主題或興趣特征詞的偏好程度。

2 用戶隱式評(píng)價(jià)的農(nóng)業(yè)知識(shí)協(xié)同過濾推薦算法

2.1 算法框架

基于用戶隱式評(píng)價(jià)的農(nóng)業(yè)知識(shí)協(xié)同過濾推薦算法CIECF (Collaborative Filtering Based on Agricultural Knowledge Content and Implicit Evaluation),其主要思想是在構(gòu)建“用戶-農(nóng)業(yè)知識(shí)”評(píng)價(jià)矩陣中,將學(xué)習(xí)到的基于內(nèi)容的標(biāo)準(zhǔn)特征詞的用戶興趣向量融合到基于查詢、瀏覽行為的用戶隱式評(píng)分中,相對(duì)于純粹基于評(píng)分的評(píng)價(jià)矩陣具有更細(xì)的興趣粒度;推薦過程中,以用戶已評(píng)分項(xiàng)目的內(nèi)容特征計(jì)算其內(nèi)容權(quán)重,對(duì)未評(píng)分項(xiàng)目基于內(nèi)容的評(píng)分預(yù)測(cè)填充,以此使“用戶-農(nóng)業(yè)知識(shí)”評(píng)價(jià)矩陣稠密。在此基礎(chǔ)上,計(jì)算項(xiàng)目之間基于內(nèi)容特征和評(píng)分的相似性,選擇目標(biāo)最近鄰,使用項(xiàng)目協(xié)同過濾,對(duì)近鄰的目標(biāo)項(xiàng)目預(yù)測(cè)評(píng)分,從而預(yù)測(cè)目標(biāo)用戶對(duì)未評(píng)分目標(biāo)項(xiàng)目的評(píng)分,再對(duì)目標(biāo)用戶所有未評(píng)分項(xiàng)目的預(yù)測(cè)評(píng)分值降序進(jìn)行Top-N推薦。其框架如圖1所示。

2.2 算法具體描述

該算法分為以下幾個(gè)步驟:

步驟一:基于瀏覽評(píng)價(jià)的用戶內(nèi)容權(quán)重

“用戶-農(nóng)業(yè)知識(shí)”評(píng)價(jià)矩陣考慮農(nóng)業(yè)知識(shí)內(nèi)容特征較少,而實(shí)際上用戶瀏覽行為是對(duì)農(nóng)業(yè)知識(shí)特征詞感興趣,用戶已評(píng)分信息應(yīng)反映對(duì)特征詞感興趣的權(quán)重;一般用戶對(duì)特征比較相似的農(nóng)業(yè)文本知識(shí)評(píng)價(jià)也是比較相似的。因此,可利用農(nóng)業(yè)文本知識(shí)的特征來反映用戶瀏覽項(xiàng)目的內(nèi)容權(quán)重。

設(shè)Ci類農(nóng)業(yè)知識(shí)標(biāo)準(zhǔn)特征屬性矩陣如下表示:

其中,n為農(nóng)業(yè)知識(shí)項(xiàng)目總數(shù),d為特征總數(shù),in(t)為項(xiàng)目in的第t個(gè)屬性,其值為0和1,1表示具有這種特征,0表示不具有這種特征。

用戶評(píng)分項(xiàng)目的內(nèi)容權(quán)重算法描述如下:

輸入:“用戶-農(nóng)業(yè)知識(shí)”評(píng)價(jià)矩陣Gi,農(nóng)業(yè)知識(shí)標(biāo)準(zhǔn)特征屬性矩陣feaMatrix。

輸出:用戶評(píng)分項(xiàng)目內(nèi)容權(quán)重矩陣UserMatrix。

Step1:對(duì)于“用戶-農(nóng)業(yè)知識(shí)”評(píng)價(jià)分矩陣Gi提取每個(gè)用戶的評(píng)分記錄;

Step2:從農(nóng)業(yè)知識(shí)標(biāo)準(zhǔn)特征屬性矩陣feaMatrix查詢用戶每個(gè)評(píng)分項(xiàng)目標(biāo)準(zhǔn)特征詞,得到用戶評(píng)價(jià)項(xiàng)目的特征;

Step3:在“用戶-農(nóng)業(yè)知識(shí)”評(píng)價(jià)矩陣中,統(tǒng)計(jì)該用戶瀏覽評(píng)價(jià)中包含有某標(biāo)準(zhǔn)特征詞的項(xiàng)目的數(shù)量,作為用戶瀏覽評(píng)價(jià)該標(biāo)準(zhǔn)特征詞的權(quán)重。得到以用戶為行,標(biāo)準(zhǔn)特征詞為列的內(nèi)容權(quán)重矩陣UserMatrix。

步驟二:基于內(nèi)容的評(píng)分預(yù)測(cè)填充

根據(jù)用戶對(duì)項(xiàng)目的評(píng)分計(jì)算出了用戶對(duì)瀏覽同類特征知識(shí)的內(nèi)容評(píng)價(jià),用戶瀏覽知識(shí)具有一定的興趣主題,在“用戶-農(nóng)業(yè)知識(shí)”評(píng)價(jià)矩陣中表現(xiàn)為對(duì)同類型知識(shí)的評(píng)分和,因此對(duì)用戶ui未訪問農(nóng)業(yè)知識(shí)ij的預(yù)測(cè)評(píng)分,可用已瀏覽同類型農(nóng)業(yè)知識(shí)的評(píng)分和,除以用戶評(píng)價(jià)權(quán)重來反映。其算法描述為:

輸入:“用戶-農(nóng)業(yè)知識(shí)”評(píng)價(jià)矩陣Gi,農(nóng)業(yè)知識(shí)標(biāo)準(zhǔn)特征屬性矩陣feaMatrix,用戶評(píng)分項(xiàng)目內(nèi)容權(quán)重矩陣UserMatrix。

輸出:“用戶-農(nóng)業(yè)知識(shí)”評(píng)價(jià)稠密矩陣Gi'。

Step1:對(duì)于“用戶-農(nóng)業(yè)知識(shí)”評(píng)價(jià)分矩陣Gi提取每個(gè)用戶的評(píng)分記錄;

Step2:判斷每個(gè)用戶的評(píng)分項(xiàng)目,對(duì)未評(píng)分某個(gè)項(xiàng)目在feaMatrix矩陣查詢對(duì)應(yīng)的特征信息(typeScore1, typeScore2,…, typeScore k),在“用戶-農(nóng)業(yè)知識(shí)”評(píng)價(jià)矩陣Gi中,計(jì)算具有相應(yīng)特征typeScore1所有農(nóng)業(yè)知識(shí)的瀏覽評(píng)分和sum(typeScore1);再算包含其他特征typ-eScore k的農(nóng)業(yè)知識(shí)用戶瀏覽評(píng)分和sum(typeScore k);得到未評(píng)分項(xiàng)目基于農(nóng)業(yè)知識(shí)特征用戶瀏覽評(píng)分和typeScore =sum(sum(typeScore1), sum(typeScore2),…, sum(type-Score k))。

Step3:在UserMatrix內(nèi)查找此用戶未評(píng)分項(xiàng)目對(duì)應(yīng)特征的用戶評(píng)分項(xiàng)目內(nèi)容權(quán)重并求和,即progType =sum(sum(progType1), sum(progType2),…,sum(progType k))。

步驟六:基于Gi的Top-N推薦

對(duì)步驟五產(chǎn)生的評(píng)分TOP-N排序,產(chǎn)生興趣主題Ci下的推薦Collectioncirecom;

步驟七:對(duì)其他主題下分矩陣Gi并行執(zhí)行前述六個(gè)步驟,產(chǎn)生相應(yīng)推薦集合Collectioncirecom;

步驟八:最后根據(jù)每個(gè)興趣主題分類按主題權(quán)值在該用戶興趣模型中所占比例產(chǎn)生推薦集合CollectionTrecom。

3 仿真實(shí)驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

(1)硬件環(huán)境

仿真時(shí)可選用神舟優(yōu)雅A560P-i5 D4筆記本1臺(tái), Intel Core i5-2450雙核移動(dòng)處理器,8 G DDR3 1 333 MHz 內(nèi)存,500 G SATA2.0硬盤。

(2)軟件環(huán)境

操作系統(tǒng):Windows7 64位 旗艦版 SP1

模擬仿真環(huán)境:Matlab2012b

3.2 基于農(nóng)業(yè)知識(shí)數(shù)據(jù)的實(shí)證實(shí)驗(yàn)

湖南省國家農(nóng)村農(nóng)業(yè)信息化示范省綜合服務(wù)平臺(tái)處于上線測(cè)試階段,通過對(duì)評(píng)分?jǐn)?shù)據(jù)的預(yù)處理之后,獲得15個(gè)獨(dú)立用戶對(duì)59條農(nóng)業(yè)知識(shí)的69次評(píng)分?jǐn)?shù)據(jù),數(shù)據(jù)集稀疏度為1-[69/(15×59)]≈0.922,整理后的數(shù)據(jù)如表1所列,數(shù)據(jù)記錄了用戶編號(hào)、農(nóng)業(yè)知識(shí)編號(hào)、用戶評(píng)分、農(nóng)業(yè)知識(shí)類型(已用數(shù)字1、2…進(jìn)行了規(guī)范化處理),農(nóng)業(yè)知識(shí)類型用于代表農(nóng)業(yè)知識(shí)內(nèi)容特征。實(shí)驗(yàn)中選擇最近鄰居算法中表現(xiàn)效果最好的BCF-PCC、CIECF-ACOS算法作為對(duì)照組實(shí)驗(yàn)。

兩種推薦算法的預(yù)測(cè)準(zhǔn)確性實(shí)驗(yàn)結(jié)果如表2和圖2所示。此數(shù)據(jù)集下BCF-PCC算法的MAE值基本保持在恒值,通過分析算法運(yùn)行過程,原因在于用戶共同評(píng)價(jià)農(nóng)業(yè)知識(shí)非常稀少,于是有可能:(1)本來興趣相似的兩個(gè)用戶因?yàn)楣餐u(píng)分項(xiàng)少,不會(huì)有太高的相似度;(2)興趣不太相似的兩個(gè)用戶因?yàn)樵趦H有的1、2個(gè)共同評(píng)分項(xiàng)中評(píng)分類似。

雖然相似度比較高,但相似度計(jì)算較不準(zhǔn)確,實(shí)際上通過觀察發(fā)現(xiàn),上述算法計(jì)算過程中,相似度矩陣值絕大部分為零,因此,在當(dāng)前數(shù)據(jù)集下,傳統(tǒng)協(xié)同過濾算法不具有適用性。本文提出的CIECF-ACOS算法在鄰居數(shù)為1、2、3、4、5、6時(shí)具有較高的預(yù)測(cè)精度,在最近鄰為3時(shí),效果最好,本文的算法在農(nóng)業(yè)數(shù)據(jù)集和公共數(shù)據(jù)集下表現(xiàn)相似的推薦效果。

4 結(jié) 語

本文結(jié)合農(nóng)業(yè)知識(shí)條目特征和“用戶-農(nóng)業(yè)知識(shí)”評(píng)價(jià)矩陣,提出了基于用戶隱式評(píng)價(jià)的農(nóng)業(yè)知識(shí)協(xié)同過濾推薦算法,該算法通過對(duì)極端稀疏矩陣進(jìn)行基于農(nóng)業(yè)知識(shí)內(nèi)容特征的評(píng)分填充,減少了稀疏性問題和語義粒度劃分大的問題對(duì)推薦效果的影響。通過實(shí)驗(yàn)表明本文算法提高了知識(shí)推薦的準(zhǔn)確率、推薦效果的穩(wěn)定性、降低在線推薦時(shí)間復(fù)雜度,適合農(nóng)業(yè)文本知識(shí)推薦,對(duì)湖南國家農(nóng)村農(nóng)業(yè)信息化示范省建設(shè)農(nóng)業(yè)知識(shí)智能推送研究有一定指導(dǎo)意義。

參考文獻(xiàn)

[1] DietmarJ.,Markus Z.,Alexander F.,et al.Recommender Systems[M].北京:人民郵電出版社,2013:1-200.

[2]郭平,劉波,沈岳.農(nóng)業(yè)云大數(shù)據(jù)自組織推送關(guān)鍵技術(shù)綜述[J].軟件,2013,34(3):1-6.

[3]劉波,沈岳,郭平,等.數(shù)字湖南農(nóng)業(yè)信息化建設(shè)關(guān)鍵策略探索[J].軟件,2013,34(10):1-6.

[4]費(fèi)洪曉,蔣習(xí)翀,徐麗娟.基于樹狀向量空間模型的用戶興趣建模[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(5):79-81,85.

[5]郝水龍,吳共慶,胡學(xué)鋼.基于層次向量空間模型的用戶興趣表示及更新[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)),2012, 48(2):190-197.

[6] Claypool M, Le P, Wased M, et al. Implicit Interest Indicators[C].Proc. of the 6th International Conference on Intelligent UserInterfaces. Santa Fe, New Mexico, USA: ACM Press, 2001: 33-40.

[7]南智敏.基于網(wǎng)頁興趣度的用戶興趣模型體系研究[D].上海:復(fù)旦大學(xué),2012:24-38.

[8]楊晶.用戶興趣模型及實(shí)時(shí)個(gè)性化推薦算法研究[D].南京:南京郵電大學(xué),2013:16-41.

[9]應(yīng)曉敏.面向Internet個(gè)性化服務(wù)的用戶建模技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2003:55- 77.

[10]劉春,梁光磊,譚國平.基于用戶興趣變化融合的個(gè)性化推薦模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(8):2944- 2950.

东丽区| 荣成市| 葵青区| 张家口市| 东山县| 焦作市| 双城市| 扎兰屯市| 郴州市| 达拉特旗| 增城市| 三穗县| 临汾市| 蒙阴县| 建宁县| 太和县| 安顺市| 阳曲县| 龙井市| 衢州市| 民县| 陆丰市| 玉溪市| 苗栗市| 凤阳县| 榆社县| 清水河县| 中阳县| 汾阳市| 卢氏县| 博湖县| 岳阳市| 绥阳县| 海丰县| 巩留县| 集安市| 梧州市| 霸州市| 台东市| 乌拉特中旗| 木兰县|