国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

智能推薦系統(tǒng)及相關(guān)算法原理研究

2021-10-11 02:06:06馬慶祥
科學(xué)咨詢 2021年30期
關(guān)鍵詞:鳳爪鹵肉項(xiàng)集

馬慶祥

(重慶工商職業(yè)學(xué)院 重慶 401520)

一、推薦系統(tǒng)的結(jié)構(gòu)

推薦系統(tǒng)整體上都有一個(gè)類似的結(jié)構(gòu),如圖1所示。首先需要采集用戶的行為數(shù)據(jù)和物品的數(shù)據(jù),然后將用戶行為數(shù)據(jù)經(jīng)過算法建模,形成興趣模型。然后通過模型預(yù)測(cè)用戶對(duì)新的物品是否感興趣,是就推薦給用戶。用戶接收到新的推薦后,可以對(duì)推薦結(jié)果標(biāo)記感興趣還是不感興趣。這樣的行為又會(huì)被系統(tǒng)記錄,并以此重新運(yùn)算,得到新的模型,然后又用新的模型繼續(xù)給用戶推薦?;卺槍?duì)不同推薦內(nèi)容的場(chǎng)景,本文以推薦系統(tǒng)為基礎(chǔ),著重研究各種常用推薦算法的原理及核心結(jié)構(gòu)。

圖1 推薦系統(tǒng)結(jié)構(gòu)圖

二、基于內(nèi)容的推薦

數(shù)據(jù)采集有隱式獲取和顯式獲取等多種方式。顯式獲取是指用戶在應(yīng)用中注冊(cè)、完善個(gè)人信息、問卷調(diào)查,或者線下詢問、訪談、調(diào)查、跟蹤等方式取得的數(shù)據(jù)。這一類方式操作簡便、直接,但用戶基于隱私或者嫌麻煩等各種原因,往往不愿意提供數(shù)據(jù)。盡管顯式獲取的數(shù)據(jù)精準(zhǔn)度高,但實(shí)時(shí)效果并不好。隱式獲取是業(yè)界普遍采用的方式,通過用戶在應(yīng)用上的使用行為來推測(cè)出用戶的偏好。隱式獲取需要注意的就是要隨時(shí)關(guān)注用戶的行為變化。

在用戶方面,關(guān)于用戶個(gè)人信息的主要有性別、年齡、地址、聯(lián)系方式等。關(guān)于行為方面有頁面瀏覽記錄、頁面停留時(shí)間、該頁面的主要內(nèi)容、頁面上的點(diǎn)喜歡操作、點(diǎn)厭惡操作、點(diǎn)贈(zèng)花操作、分享、收藏等。

在物品方面,不同的業(yè)務(wù)場(chǎng)景,物品的描述也不一樣。比如生鮮APP,配送的就是水果、蔬菜、肉食。這類物品的屬性主要就是品牌名稱、類型名稱、產(chǎn)地、單價(jià)、生產(chǎn)日期、保質(zhì)期等。從物品的適用客戶群體分,還有老人、小孩、女性、男性。從適用年齡分,還有嬰幼兒、兒童、青年、成年、老年等。

基于內(nèi)容的推薦,具體原理如下。

假設(shè)已經(jīng)收集到用戶和物品的數(shù)據(jù),去分析用戶喜好的物品,然后尋找與這些物品相似的其他物品來進(jìn)行推薦。如何判斷物品是否相似,就需要提取用戶偏好的物品的特征。比如,用戶喜歡吃草莓,就可以根據(jù)該草莓的產(chǎn)地、口感、顏色、大小、品種、價(jià)格等。找到特征后就需要將特征提取出來,由于針對(duì)這一類屬性的描述大部分情況是文本,非結(jié)構(gòu)化數(shù)據(jù),因此需要從文本中將特征提取出,然后轉(zhuǎn)換為向量。計(jì)算物品的相似度其實(shí)就是在計(jì)算特征向量的相似度。最終在用戶的推薦列表中,越相似的物品就排名越靠前[1]。

三、基于知識(shí)的推薦

知識(shí)推薦系統(tǒng)實(shí)際上是一種專家問答系統(tǒng)?;谟脩衄F(xiàn)階段的知識(shí),和綜合所有物品的特征信息,來尋找合適的推薦。什么情況下需要基于知識(shí)的推薦呢?

比如,一個(gè)一年級(jí)的學(xué)生,把一年級(jí)的課程學(xué)習(xí)完畢后需要開始二年級(jí)的學(xué)習(xí),若是基于內(nèi)容的推薦,那么就會(huì)發(fā)現(xiàn)給該生推薦的內(nèi)容一直是一年級(jí)的。另外對(duì)于用戶來說購買頻次比較低的物品,比如購買新相機(jī)、購買了新的房子、購買了一個(gè)婚紗照套餐等,這類用戶行為間隔周期長的情況,系統(tǒng)是很難建立起用戶行為數(shù)據(jù),因此會(huì)導(dǎo)致推薦的效果較差,這時(shí)就需要基于知識(shí)的推薦。

基于知識(shí)的推薦又分為兩種方式,基于約束的推薦和基于實(shí)例的推薦。

基于約束的推薦是指:實(shí)現(xiàn)給物品分好類,這個(gè)分類也稱約束,然后給每類物品定義一個(gè)過濾條件。此時(shí)用戶給出需求,推薦系統(tǒng)就尋找滿足需求的分類。若是用戶對(duì)物品有更深入的了解,則提出更多的需求,然后系統(tǒng)會(huì)在這個(gè)分類下繼續(xù)尋找過濾條件滿足該需求的數(shù)據(jù)。比如,用戶希望買一套房子,首先需要確定分類:是別墅、洋房還是普通高層住宅。用戶選擇了洋房后,再次提出要求,需要單價(jià)大于5000且小于10000的房子,此時(shí)系統(tǒng)根據(jù)條件進(jìn)行過濾。用戶不斷給出條件,系統(tǒng)不斷過濾滿足條件的數(shù)據(jù),直到用戶完成數(shù)據(jù)檢索。

基于實(shí)例的推薦需要用戶對(duì)物品特征了解非常多,當(dāng)篩選出數(shù)據(jù)后,用戶基于自身的知識(shí)可以采納推薦或者放棄本次推薦,系統(tǒng)根據(jù)用戶的選擇來判斷下一次應(yīng)該推薦什么給用戶。比如同樣是買房子,系統(tǒng)提前建立好每套房子的知識(shí)庫,用戶根據(jù)自己了解的信息直接定位到該房子即可。

四、基于標(biāo)簽的推薦

標(biāo)簽是用來描述物品的關(guān)鍵詞或者是用戶對(duì)該目標(biāo)群體的喜好等,如圖2所示,是某公開課網(wǎng)站的會(huì)員常用的標(biāo)簽。

圖2 公開課常用標(biāo)簽

標(biāo)簽的來源有兩種方式,一是用戶體驗(yàn)了該物品后,由用戶給物品打的標(biāo)簽,比如課程“網(wǎng)絡(luò)爬蟲”,用戶給出的標(biāo)簽就是“大數(shù)據(jù)”“爬蟲”“程序”“腳本”等。對(duì)于課程“python”,用戶給出的標(biāo)簽可能就是“編程語言”“數(shù)據(jù)結(jié)構(gòu)”“解釋型”“面向?qū)ο蟆钡?。用戶打的?biāo)簽,幾乎都是對(duì)課程的客觀描述。另一種方式,就是作者給出的,可能既包含對(duì)物品的喜好,也包含物品的描述[2]。

當(dāng)系統(tǒng)采集到大量標(biāo)簽后,需要進(jìn)行以下工作:

1.分析該用戶經(jīng)常使用的標(biāo)簽。

2.分析擁有這個(gè)標(biāo)簽的所有物品。

3.將物品中沒有被該用戶打過標(biāo)簽的推薦給該用戶。

五、基于圖模型的推薦

通過圖模型來表達(dá)用戶行為,也能實(shí)現(xiàn)推薦。比如,用戶的購買商品記錄,是表結(jié)構(gòu)的組織形式,如表1所示。

表1 用戶購買物品記錄表

其中“?”表示用戶購買過該物品。采集到這些數(shù)據(jù)后再轉(zhuǎn)換為圖的表達(dá)形式,如圖3所示。其中連線,表示用戶購買過物品,用戶和物品表示頂點(diǎn)。轉(zhuǎn)換成圖形后就計(jì)算每個(gè)用戶頂點(diǎn)到物品頂點(diǎn)之間的路徑條數(shù),比如用戶A到物品1的路徑為:用戶A—物品1;用戶A—物品3—用戶B—物品1;用戶A—物品3—用戶D—物品1,總共3條路徑,其中路徑長度分別是:1,3,3,經(jīng)過的頂點(diǎn)數(shù)量分別是0,2,2。基于這樣的算法,可以推算出用戶A到物品4的最短路徑是:用戶A—物品2—用戶C—物品4,經(jīng)過2個(gè)頂點(diǎn);用戶A到物品5的最短路徑是:用戶A—物品2—用戶C—物品4—用戶E—物品5,經(jīng)過4個(gè)頂點(diǎn)。如果各頂點(diǎn)的相關(guān)性比較高,路徑就會(huì)比較短,經(jīng)過的頂點(diǎn)也比較少,因此可以給用戶A推薦物品4。

圖3 用戶采集模型

六、基于關(guān)聯(lián)規(guī)則的推薦

關(guān)聯(lián)規(guī)則的原理是基于物品之間的關(guān)聯(lián)性進(jìn)行推薦,是通過對(duì)用戶的購物記錄進(jìn)行建模,以發(fā)現(xiàn)不同用戶的購物習(xí)慣。注意,關(guān)聯(lián)規(guī)則是指物品的關(guān)聯(lián)關(guān)系,而不是因果關(guān)系。關(guān)聯(lián)規(guī)則中有3個(gè)核心概念:支持度、置信度和提升度。如表2所示用戶的購買記錄。

表2 用戶購買商品記錄表

消費(fèi)記錄中,所有商品組成的集合稱為總項(xiàng)集,A={鹵肉、鳳爪、紅酒、白菜、蘋果、草魚、花生、啤酒、荔枝、豬肉、萵筍、香蕉、榴蓮、雞腿、牛肉、鯽魚}。項(xiàng)集是指總項(xiàng)集的一部分,可以是一到多個(gè)物品的組合,比如{鹵肉}、{鹵肉、鳳爪}、{鹵肉、鳳爪、紅酒}等,稱為k-項(xiàng)集。規(guī)則就是至少兩個(gè)項(xiàng)組成的k-項(xiàng)集,比如{鹵肉}—{鳳爪}是一條規(guī)則,{鹵肉}—{鹵肉、鳳爪、紅酒}也是一條規(guī)則。這種規(guī)則中,項(xiàng)之間的關(guān)聯(lián)強(qiáng)度,用支持度和置信度來衡量。

支持度是指:兩件商品A,B在消費(fèi)記錄中同時(shí)出現(xiàn)的概率,就是買了A也會(huì)買B的概率。如上圖的購買記錄,有5個(gè)訂單,其中買了鹵肉的有4條,買了鳳爪的3條,同時(shí)股買鹵肉、鳳爪的是3條。那么{鹵肉}項(xiàng)的支持度是4/5=0.8,{鳳爪}項(xiàng)的支持度為3/5=0.6,{鹵肉、鳳爪}項(xiàng)的支持度也為3/5=0.6。

置信度是指:用戶購買了A還會(huì)買B的概率。同樣依據(jù)上面的消費(fèi)記錄,用戶在購買鹵肉又購買了鳳爪的記錄有3條,則推斷用戶在購買鹵肉的前提下會(huì)同時(shí)購買鳳爪的置信度是3/5=0.6。購買了鹵肉,又購買了啤酒的記錄有1條,因此置信度為1/5=0.2?;谶@樣的原理,可以將鹵肉與鳳爪搭配銷售。

提升度是用于衡量關(guān)聯(lián)規(guī)則是否有效的一個(gè)度量。意思就是:用戶買了A同時(shí)買了B的次數(shù),高于單獨(dú)購買B的次數(shù),說明商品A對(duì)商品B具有提升作用。依據(jù)用戶的消費(fèi)記錄,{鹵肉、鳳爪}同時(shí)出現(xiàn)的有3次,{鹵肉}單獨(dú)出現(xiàn)只有1次,說明鳳爪對(duì)于鹵肉的銷售具有提升作用。提升度的計(jì)算就是:{鹵肉}的支持度:C1=4/5=0.8,{鳳爪}的支持度:C2=3/5=0.6,{鹵肉、鳳爪}的支持度:C3=3/5=0.6。置信度={鹵肉、鳳爪}的支持度/鹵肉}的支持度*{鳳爪}的支持度=0.6/0.8*0.6=1.25。當(dāng)置信度大于1則說明規(guī)則有效,小于1則無效。關(guān)聯(lián)規(guī)則的推薦過程就是尋找所有項(xiàng)組合置信度比較高的規(guī)則,然后根據(jù)規(guī)則進(jìn)行推薦。

實(shí)際上,若是簡單地基于上述規(guī)則計(jì)算,效率會(huì)非常低。因此,實(shí)際應(yīng)用中一般選擇求頻繁項(xiàng)集的置信度,尋找的是強(qiáng)關(guān)聯(lián)規(guī)則。然而尋找頻繁項(xiàng)集也是個(gè)計(jì)算量巨大的過程,因此業(yè)內(nèi)提出Apriori算法來尋找頻繁項(xiàng)集。該算法有兩個(gè)固定性質(zhì):

?頻繁項(xiàng)集的子集也是頻繁的

?非頻繁項(xiàng)集的超集是非頻繁的

Apriori的計(jì)算過程就是:統(tǒng)計(jì)每一個(gè)商品項(xiàng)的支持度,將支持度過于低的商品移除,同時(shí)也將該商品的超集也移除,這個(gè)移除稱為減枝。將剩余的單項(xiàng)商品兩兩組合,再次計(jì)算對(duì)應(yīng)的支持度,將組合情況下支持度低的移除,同時(shí)將對(duì)應(yīng)的超集移除。基于此規(guī)則不斷迭代,直到無法再次進(jìn)行組合,此時(shí)會(huì)得到一個(gè)頻繁項(xiàng)集。最后,將該頻繁項(xiàng)集進(jìn)行拆分,取出其中一個(gè)商品,比如k1,則剩下k-1個(gè)商品。此時(shí),計(jì)算{k1}集與{k2,k3,kN-1}集之間的置信度。根據(jù)此原理,然后計(jì)算{k2,k3}與{k1}之間的置信度。一直迭代,直到計(jì)算出所有規(guī)則下的置信度。最后根據(jù)業(yè)務(wù)規(guī)則,取出置信度大于1的規(guī)則來為用戶進(jìn)行推薦。

七、基于協(xié)同過濾的推薦

實(shí)際上,只要是基于用戶人口屬性和行為的推薦都稱為協(xié)同過濾。包括圖、關(guān)聯(lián)規(guī)則、知識(shí)都是協(xié)同過濾推薦的一種。純粹依靠人口行為數(shù)據(jù)來進(jìn)行推薦的典型代表是:基于用戶的推薦、基于物品的推薦?;谟脩舻耐扑]步驟是:首先需要找到興趣相似的用戶,然后找到其他用戶喜歡,但是被推薦用戶又沒接觸過的物品,如表3所示,可以看到用戶A與用戶B有兩個(gè)相似的物品,則認(rèn)為A與B用戶興趣相似,然后就可以將物品2推薦給用戶B[3]。

表3 用戶與物品的關(guān)聯(lián)分析表

基于物品的推薦則是用戶喜歡一個(gè)物品,然后尋找與該物品相似的物品來進(jìn)行推薦,如上圖所示,用戶C喜歡物品1和物品2,此時(shí)計(jì)算出物品4與物品1和物品2相似,則給用戶C推薦物品4。

八、結(jié)束語

“個(gè)性化推薦系統(tǒng)”這一概念首次提出,是由于電子商務(wù)的興起而逐漸發(fā)展成熟,慢慢變成了一個(gè)單獨(dú)的概念。如今,個(gè)性化推薦系統(tǒng)更是得到了更為廣闊的發(fā)展,在很多領(lǐng)域都有應(yīng)用,如教育、影視、音樂、社交,甚至閱讀學(xué)習(xí),都有個(gè)性化推薦系統(tǒng)的應(yīng)用。個(gè)性化推薦技術(shù)的核心主要在于兩個(gè)方面,即推薦算法和推薦應(yīng)用。應(yīng)用原理就是根據(jù)不同推薦應(yīng)用的需求和限制條件,選擇不同的推薦算法。隨著對(duì)推薦算法研究的不斷深入,各種配套科技也在不斷發(fā)展,智能化成為大勢(shì)所趨,而個(gè)性化推薦作為智能化發(fā)展過程中重要的部分,也將越來越受到重視。

猜你喜歡
鳳爪鹵肉項(xiàng)集
鹵鳳爪
豉汁蒸鳳爪
道路
男孩放棄機(jī)關(guān)工作賣鹵肉
啃雞爪2
啃雞爪
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項(xiàng)集的快速挖掘算法
這光不好沾
故事林(2013年8期)2013-05-14 17:30:12
高效液相色譜-串聯(lián)質(zhì)譜法測(cè)定鹵肉中3種β-受體激動(dòng)劑殘留
铅山县| 美姑县| 高碑店市| 德清县| 乌海市| 错那县| 汤原县| 金塔县| 抚州市| 垣曲县| 青阳县| 双柏县| 内乡县| 马山县| 遵义县| 大理市| 古浪县| 通化市| 福建省| 都昌县| 石城县| 鄢陵县| 庆安县| 屏边| 皮山县| 石阡县| 平原县| 磴口县| 石林| 金华市| 海原县| 揭西县| 盘山县| 浦县| 宽城| 漳浦县| 大方县| 文山县| 道孚县| 弥渡县| 民乐县|