国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

瓜果種植信息推薦模型

2019-08-24 15:53:03付中正方逵王娟
關(guān)鍵詞:推薦系統(tǒng)特征提取

付中正 方逵 王娟

[摘要]瓜果種植信息推薦有利于實(shí)現(xiàn)瓜果種植規(guī)范化、標(biāo)準(zhǔn)化管理,推進(jìn)瓜果產(chǎn)業(yè)化。通過建立瓜農(nóng)用戶興趣模型和文檔特征模型,并進(jìn)行用戶興趣分類,使用基于內(nèi)容推薦技術(shù),建立了瓜果種植信息推薦模型,為瓜果種植用戶提供個(gè)性化的農(nóng)業(yè)信息服務(wù)。

[關(guān)鍵詞]推薦系統(tǒng);特征提取;用戶興趣模型;信息推薦模型;瓜果種植

[中圖分類號]TP3[文獻(xiàn)標(biāo)識碼]A

1 引言

信息推薦技術(shù)包括了基于協(xié)同過濾推薦、基于內(nèi)容推薦、混合型推薦、基于數(shù)據(jù)挖掘推薦等,國內(nèi)外有許多學(xué)者在這方面開展了廣泛研究。1992年Goldberg等提出了協(xié)同過濾概念,這是目前研究和應(yīng)用最廣泛而且效率較高的一類推薦技術(shù)。自 20 世紀(jì) 90 年代初期第一個(gè)推薦系統(tǒng)問世,推薦系統(tǒng)開始成為一個(gè)獨(dú)立的研究領(lǐng)域,并一直保持著較高的研究熱度。信息推薦是根據(jù)用戶特征推薦滿足用戶需求的對象,實(shí)現(xiàn)個(gè)性化服務(wù)。推薦系統(tǒng)的優(yōu)點(diǎn)在于能主動收集用戶的特征資料,通過對用戶個(gè)性、習(xí)慣、偏好的分析,為用戶定制并提供其感興趣的信息;同時(shí)能及時(shí)跟蹤用戶的需求變化,根據(jù)變化自動調(diào)整信息服務(wù)的方式和內(nèi)容。協(xié)同過濾推薦的優(yōu)勢是不依賴于項(xiàng)目內(nèi)容,而是通過計(jì)算用戶行為之間的相似度來進(jìn)行信息推薦。

基于內(nèi)容過濾推薦技術(shù)與協(xié)同過濾推薦不同,它是利用信息內(nèi)容特征和用戶興趣特征的相似性來進(jìn)行過濾的。在基于內(nèi)容過濾推薦系統(tǒng)中,每個(gè)用戶都用一個(gè)用戶的興趣模型來表示其興趣特征;對每個(gè)項(xiàng)目的內(nèi)容進(jìn)行特征提取形成特征向量。當(dāng)對目標(biāo)用戶進(jìn)行推薦時(shí),需要把該用戶的用戶興趣模型與所有項(xiàng)目的特征向量進(jìn)行相似度計(jì)算,系統(tǒng)通過相似度比較來推薦項(xiàng)目。

基于內(nèi)容的推薦系統(tǒng)由于沒有考慮到用戶行為,這就沒有了協(xié)同過濾中的第一評價(jià)、稀疏性、特殊用戶等問題。但是,由于基于內(nèi)容的推薦系統(tǒng)必須分析信息的內(nèi)容,因此這導(dǎo)致了基于內(nèi)容的推薦系統(tǒng)只能處理文本類信息,而對于音樂、圖像、視頻等媒體信息是無能為力的,也無法對用戶的需求或興趣提供準(zhǔn)確的推薦。

由于協(xié)同過濾推薦和基于內(nèi)容推薦兩種技術(shù)各有其優(yōu)點(diǎn)和缺點(diǎn),于是就產(chǎn)生了混合推薦技術(shù),通過混合、切換、加權(quán)、層疊、特征組合、特征放大等方法將以上兩種技術(shù)進(jìn)行混合,這樣能同時(shí)繼承協(xié)同推薦和基于內(nèi)容推薦的優(yōu)點(diǎn),提高推薦質(zhì)量。

基于數(shù)據(jù)挖掘的推薦技術(shù)主要是通過數(shù)據(jù)挖掘技術(shù),從中挖掘出有價(jià)值的知識,再將這些知識對用戶進(jìn)行推薦,但對農(nóng)民用戶這個(gè)方法不太實(shí)用。

2 瓜果種植信息推薦模型

基于內(nèi)容的推薦是通過計(jì)算項(xiàng)目的內(nèi)容特征與用戶興趣特征的相似度來進(jìn)行推薦的。它的目的是用用戶的興趣模型來表征用戶的興趣特征,將項(xiàng)目內(nèi)容進(jìn)行特征提取形成特征向量,然后通過用戶的用戶興趣模型與項(xiàng)目的特征向量進(jìn)行相似度計(jì)算,以此來推薦結(jié)果項(xiàng)目集,該技術(shù)的核心是用戶的興趣模型的表示、特征提取以及相似度計(jì)算。

瓜果種植信息推薦模型是基于南方瓜果種植標(biāo)準(zhǔn)化體系設(shè)計(jì)的,該模塊主要采用基于內(nèi)容的推薦技術(shù),通過建立農(nóng)民興趣模型和文檔特征模型,對瓜農(nóng)進(jìn)行個(gè)性化的農(nóng)業(yè)信息推薦服務(wù)。在傳統(tǒng)的基于內(nèi)容的推薦技術(shù)基礎(chǔ)上,充分考慮瓜農(nóng)不同的興趣需求,以及整個(gè)模塊的自適應(yīng)修正問題,使得瓜果種植信息推薦模塊更符合瓜農(nóng)的需求。其主要技術(shù)內(nèi)容包括如下幾個(gè)方面:

2.1 數(shù)據(jù)采集與預(yù)處理

為了建立用戶興趣向量模型、文檔特征向量模型和實(shí)際的用戶興趣特征模型,系統(tǒng)需要搜集能反映出用戶興趣的信息,主要根據(jù)用戶注冊信息、用戶日志數(shù)據(jù)等作為用戶興趣特征模型中的原始數(shù)據(jù)。

針對收集到的大量網(wǎng)頁信息內(nèi)容,進(jìn)行清洗,并且去除網(wǎng)頁中的HTML標(biāo)簽,然后,通過分詞器對這些內(nèi)容進(jìn)行分詞,并在分詞的過程中對一些停用詞無用詞進(jìn)行清理。

2.2 文本表示

為了使計(jì)算機(jī)能更有效地處理和計(jì)算文本資源,必須首先將文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的數(shù)學(xué)表示。因此,建立了向量空間模型來進(jìn)行文本表征,它是目前運(yùn)用最廣泛也是最為成功的一種文本表示方法。在向量空間模型中,每一篇文本都被形式化的表示成為的詞條集合。其中,每一個(gè)詞條都被賦予一定的權(quán)值,每個(gè)文本可以表示成為如下向量形式:

其中是特征項(xiàng),與之相對應(yīng)的是權(quán)重,反映了特征詞在文本中的重要程度。每一篇文本的內(nèi)容都被離散化為一個(gè)一個(gè)的特征詞,并且將這些特征詞形式化為數(shù)值的形式。以為項(xiàng)的向量表示方法,把原來極其復(fù)雜的問題,變?yōu)榱讼蛄靠臻g中的普通計(jì)算,這大大提高了運(yùn)算速度和效率。

在向量空間模型中,可以采用不同的權(quán)重衡量方法以及相似度計(jì)算方法,使用者可以根據(jù)不同的數(shù)據(jù)選擇不同的方法,這使得向量空間模型有較為廣泛的適應(yīng)性。

2.3 特征提取

在向量空間模型中,特征項(xiàng)權(quán)值的計(jì)算會直接影響到推薦模型的計(jì)算精確度,因此,選擇權(quán)重計(jì)算方法是一個(gè)比較重要的問題。當(dāng)文本經(jīng)過分詞、清理停用詞等處理后,得到的向量空間的維度是一個(gè)異常高維度的空間,也即是我們通常所說的維數(shù)災(zāi)難的問題,它導(dǎo)致系統(tǒng)資源被大量占用,計(jì)算效率低下。為了降低特征空間的維數(shù),減少存儲空間的使用,我們必須選擇合適的特征提取算法,首先通過對特征權(quán)重進(jìn)行排序,然后根據(jù)TOP-N原則,選擇前N個(gè)特征進(jìn)行處理,或者根據(jù)事先設(shè)定好的閾值,將特征權(quán)重超過該閾值的所有特征項(xiàng)納入考慮范圍。特征提取不僅能避免維數(shù)災(zāi)難問題,而且還能降低整個(gè)系統(tǒng)的計(jì)算復(fù)雜度,最終提高整個(gè)系統(tǒng)的準(zhǔn)確率。

所謂特征選擇,即是從原始特征空間選擇了一部分特征項(xiàng)組成一個(gè)新的低維空間,選擇的這些特征項(xiàng)雖然只是原始空間中的一部分,但是他們能代表原始特征空間的特征。想要進(jìn)行特征選擇,權(quán)重計(jì)算是其核心影響因素。目前,特征權(quán)重計(jì)算方法有很多,如布爾函數(shù)、詞語頻率等。我們選用了目前比較實(shí)用的方法,即TF-IDF-IG算法。該算法通過引入了信息增益,由魯松等人提出,它將文本集合看成是符合某種概率分布的信息源,通過訓(xùn)練數(shù)據(jù)集合的信息熵與文本中特征詞的條件熵之間信息量增益情況來衡量該特征詞在類別中所能夠提供的信息量,也就是特征詞在類別中的重要程度。將傳統(tǒng)的詞語權(quán)重計(jì)算公式IF-IDF改進(jìn)為:

其中,為文檔中特征詞的個(gè)數(shù);為隨機(jī)事件在獲得信息之前結(jié)果的不確定程度;代表觀測信息后,信息空間的不確定程度;為信息增益,即是與這兩種不確定程度的差,也就是特征詞對分類的作用,或者是特征詞提供的用于分類信息量。

2.4 分詞技術(shù)

如果向量空間模型來對文檔進(jìn)行形式化的表示,通過一組離散的相互獨(dú)立的詞語來表征一個(gè)文本,這就需要對收集的原始信息進(jìn)行分詞,在分詞的過程中還需要考慮方言等。瓜果種植信息推薦模塊的分詞技術(shù)為我們自主研發(fā)的農(nóng)業(yè)分詞系統(tǒng)。

2.5 相似度計(jì)算

為了最終實(shí)現(xiàn)向目標(biāo)用戶推薦其感興趣的項(xiàng)目,在衡量用戶對類別文本集中的文檔感興趣的程度時(shí),需要將用戶興趣向量與文檔特征向量進(jìn)行相似度計(jì)算。本文使用余弦相似度進(jìn)行計(jì)算。

2.6 用戶興趣

就用戶而言,所謂的興趣實(shí)際上僅僅反映的是用戶目前的興趣偏好。但是,即使是同一時(shí)期,用戶興趣可能有短期和長期之分,所以我們將用戶興趣模型劃分為用戶的短期興趣和長期興趣。實(shí)踐表明:用戶曾經(jīng)通過搜索引擎搜索的字符串反映的是用戶短期的興趣偏好,用戶瀏覽過的網(wǎng)頁則反映的既是用戶短期的興趣偏好又是用戶長期興趣偏好,而用戶個(gè)人注冊信息則反映了用戶長期興趣偏好。根據(jù)以上幾種信息分析,具體的用戶短期和長期興趣模型算法如下。

長期興趣算法:

輸入:用戶的注冊信息、曾經(jīng)瀏覽的網(wǎng)頁

輸出:用戶的長期興趣

步驟1:收集用戶的注冊信息以及曾經(jīng)瀏覽的網(wǎng)頁并進(jìn)行分詞。

步驟2:將分詞后得到的特征詞進(jìn)行權(quán)重計(jì)算,計(jì)算公式使用本文提出的特征提取改進(jìn)算法。

步驟3:通過TOP-N進(jìn)行降維。

步驟4:退出。

短期興趣算法:

輸入:用戶曾經(jīng)瀏覽的網(wǎng)頁和用戶在搜索欄里輸入的內(nèi)容

輸出:用戶短期興趣

步驟1:收集用戶u曾經(jīng)瀏覽過的網(wǎng)頁和搜索信息并進(jìn)行分詞。

步驟2:將分詞后特到的特征詞進(jìn)行權(quán)重計(jì)算,計(jì)算公式使用本文提出的特征提取算法。

步驟3:通過TOP-N進(jìn)行降維。

2.7 用戶興趣分類

為了減少用戶興趣向量和文檔特征向量相似度計(jì)算的計(jì)算量,必須對用戶興趣進(jìn)行分類處理,使其能映射到湖南省農(nóng)村農(nóng)業(yè)信息化綜合服務(wù)平臺的十二大表空間中的瓜果類,這樣可以大大減少相似度的計(jì)算量,節(jié)約了系統(tǒng)的開銷。

2.8 信息推薦

利用相似度公式,計(jì)算出相似度結(jié)果,采用TOP-N推薦方法,將相似度最靠前的N條信息推薦給用戶。

2.9 反饋修正

在用戶操作完畢之后,系統(tǒng)需要自動將用戶操作結(jié)果反饋給模型。一般來說用戶短期興趣變化較快,因此每次進(jìn)行推薦時(shí),都需要重新定位用戶的短期興趣。而用戶長期興趣在短時(shí)間內(nèi)發(fā)生較大變化的可能性比較小,但用戶原來感興趣的偏好會隨時(shí)間變化而被漸漸遺忘,并且會培養(yǎng)出新的興趣偏好來。其長期興趣的變化情況,在模塊的設(shè)計(jì)中使用時(shí)間窗口來對用戶長期興趣模型進(jìn)行適當(dāng)修正。當(dāng)一個(gè)給定的時(shí)間期限結(jié)束后需要重新判斷用戶的長期興趣,這樣既能減少每次推薦時(shí)都計(jì)算長期興趣的計(jì)算量又能夠把握用戶的長期興趣變化程度和方向,模型能有效進(jìn)行收集和響應(yīng)。

3 結(jié)束語

湖南瓜果種植面積不是很大,地方比較分散,品種多樣化。因此,開展瓜果種植信息推薦比較困難。我們依托湖南省農(nóng)村農(nóng)業(yè)信息化綜合服務(wù)平臺,充分利用平臺農(nóng)民用戶信息,有效收集瓜農(nóng)用戶信息,優(yōu)化用戶興趣模型,不斷提高瓜果種植信息推薦的實(shí)效性和有效性。

[參考文獻(xiàn)]

[1] Goldberg D,Nichols D,Oki B M,et al.Using Collaborative Filtering to Weave an Information Tapestry [J] .Communications of the ACM ,1992,35(12) : 61-70.

[2] 冷亞軍, 陸青, 梁昌勇.協(xié)同過濾推薦技術(shù)綜述[J].模式識別與人工智能, 2018, 27(8):720-733.

[3] Mostafa,J.,Lam.W.,Palakal,M.A multilevel approach to intelligent information filtering: model , system ,and evaluation[J].ACM Transactions on Informatin Systems,1997,15(4):368-399.

[4] Bollaeker,K.D.,Lawrence,Giles,C.L. Discovering relevant seientific literature on the Web[J].IEEE Intelligent Systems,2000,15(2):42-47.

[5] 曾艷,麥永浩.基于內(nèi)容預(yù)測和項(xiàng)目評分的協(xié)同過濾推薦[J].計(jì)算機(jī)應(yīng)用, 2004,24(1):111-113.

[6] 單京晶.基于內(nèi)容的個(gè)性化推薦系統(tǒng)研究[D].長春:東北師范大學(xué),2015.

[7] 魯松,李曉黎,白碩,等.文檔中詞語權(quán)重計(jì)算方法的改進(jìn)[J].中文信息學(xué)報(bào),2000,l4(6):8-13.

[8] 方逵,羅武.中文農(nóng)業(yè)專業(yè)分詞器設(shè)計(jì)與實(shí)現(xiàn)[J].農(nóng)業(yè)工程,2012, 2(3):23-29.

[9] 朱幸輝,方逵.農(nóng)業(yè)信息服務(wù)關(guān)鍵技術(shù)研究與應(yīng)用[M].長沙:國防科技大學(xué)出版社,2013.

[收稿日期]2018-09-03

[基金項(xiàng)目]本文得到湖南省重點(diǎn)研發(fā)項(xiàng)目(編號No2017NK2381)的資助。

[作者簡介]付中正(1996—),男,研究生,研究方向:農(nóng)業(yè)信息化技術(shù);方逵(1963—),男,博士,教授,研究方向:大數(shù)據(jù)與智慧農(nóng)業(yè);

王娟(1986—),女,碩士,主要從事軟件開發(fā)與管理工作。

猜你喜歡
推薦系統(tǒng)特征提取
特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP腦電特征提取算法
數(shù)據(jù)挖掘在選課推薦中的研究
軟件(2016年4期)2017-01-20 10:09:33
基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
基于個(gè)性化的協(xié)同過濾圖書推薦算法研究
個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
淺談Mahout在個(gè)性化推薦系統(tǒng)中的應(yīng)用
關(guān)于協(xié)同過濾推薦算法的研究文獻(xiàn)綜述
商(2016年29期)2016-10-29 15:22:08
吴忠市| 陆良县| 疏附县| 临桂县| 福鼎市| 林州市| 靖边县| 宝兴县| 嫩江县| 永仁县| 和林格尔县| 库伦旗| 乌鲁木齐县| 宝兴县| 张掖市| 永安市| 改则县| 五峰| 九台市| 合江县| 普定县| 宝鸡市| 泗水县| 神农架林区| 新津县| 武义县| 东乡族自治县| 杨浦区| 南木林县| 佳木斯市| 嘉义县| 溆浦县| 大同县| 乃东县| 商城县| 绿春县| 怀宁县| 金门县| 陆丰市| 平远县| 湘阴县|