文/王曉佳
隨著互聯(lián)網(wǎng)的發(fā)展,一直存在著信息過載現(xiàn)象,在這個(gè)過程中有很多值得稱贊的解決方案。從原來的分類信息網(wǎng)站,由網(wǎng)址之家表示,雅虎等為代表的搜索引擎百度和谷歌,個(gè)性化推薦系統(tǒng)的今天,它為用戶提供了合適的選擇商品,音樂,電影等,滿足用戶的需求是一個(gè)許多商業(yè)項(xiàng)目成功的關(guān)鍵因素。隨著移動(dòng)終端和智能可穿戴設(shè)備的普及,數(shù)據(jù)的獲取變得越來越便宜,商家有條件獲取大量的用戶相關(guān)數(shù)據(jù)。據(jù)統(tǒng)計(jì),淘寶每天產(chǎn)生數(shù)千萬筆交易,產(chǎn)生的數(shù)據(jù)近20TB。隨著谷歌Map Reduce算法的發(fā)布,大規(guī)模集群計(jì)算即云計(jì)算的性能變得越來越強(qiáng)大,為大數(shù)據(jù)分析提供了可能性。它們都成為了當(dāng)前推薦系統(tǒng)的基石。目前,越來越多的電子商務(wù)企業(yè)開始關(guān)注推薦系統(tǒng),研究用戶的行為。本研究的目的是為了滿足用戶的需求,通?;谟脩舢嬒窦夹g(shù),描繪不同年齡、性別和職業(yè)的人。滿足不同層次的需求。亞馬遜主導(dǎo)的產(chǎn)品推薦,QQ音樂推薦,淘寶個(gè)性化商品推薦,豆瓣等網(wǎng)站的視頻電影推薦,微博主導(dǎo)的社交關(guān)系推薦,都應(yīng)用了多種類型的推薦系統(tǒng)。推薦系統(tǒng)通常通過發(fā)現(xiàn)特定的潛在用戶、增加商品被點(diǎn)擊的概率、延長(zhǎng)用戶停留時(shí)間、增加網(wǎng)站訪問量等方式使企業(yè)受益。發(fā)現(xiàn)用戶對(duì)商品感興趣,進(jìn)而提高滿意度,增加關(guān)聯(lián)銷售等。根據(jù)Venture Beat的調(diào)查,推薦系統(tǒng)促進(jìn)了許多公司的銷售,比如亞馬遜在推薦系統(tǒng)的支持下銷售額增長(zhǎng)了35%。對(duì)于用戶來說,推薦系統(tǒng)的出現(xiàn)可以減少很多時(shí)間。在推薦系統(tǒng)上線之前,用戶一般需要查看11.7個(gè)條目才能找到自己滿意的產(chǎn)品,在推薦系統(tǒng)的幫助下,只需要查看6.6個(gè)條目,用戶的工作量減少了50%。根據(jù)Choice Stream的一項(xiàng)調(diào)查,45%的普通消費(fèi)者愿意通過推薦系統(tǒng)訪問電子商務(wù),而在高端消費(fèi)者中,這一比例可以達(dá)到69%。因此,推薦系統(tǒng)對(duì)于用戶來說,可以更方便、省時(shí)地找到自己喜歡的商品。
在在線推薦系統(tǒng)中,廣泛使用的推薦算法包括基于內(nèi)容的推薦算法、基于協(xié)同過濾的推薦算法以及基于圖形的推薦算法、基于融合的推薦算法等。在商業(yè)實(shí)踐中,由于每種算法都有自己的優(yōu)點(diǎn)和缺點(diǎn),所以通常是多種算法進(jìn)行交叉使用。
基于內(nèi)容的推薦(Content-based Recomm endation)通過比較用戶的愛好和項(xiàng)目屬性之間的差異性來推薦。該技術(shù)涉及機(jī)器學(xué)習(xí)技術(shù)、自然語言的處理技術(shù)、概率與統(tǒng)計(jì)技術(shù)、分布式計(jì)算等?;趦?nèi)容的推薦首先建立用戶興趣特征的模型,用戶興趣特征可以通過系統(tǒng)的顯式反饋或隱式反饋獲得,通常包括用戶的在線瀏覽、點(diǎn)擊商品、評(píng)價(jià)、購買等。信息通過一定的技術(shù)手段將用戶的興趣愛好和屬性特征進(jìn)行轉(zhuǎn)化。項(xiàng)目由相關(guān)屬性以及與用戶交互的信息定義。推薦系統(tǒng)通過用戶特征與屬性特征的匹配過程進(jìn)行推薦。常用的算法有邏輯回歸算法、決策樹算法等。
當(dāng)前,市場(chǎng)上廣泛使用并且由許多學(xué)者研究的推薦系統(tǒng)算法是協(xié)同過濾算法,該算法目前是最常見最常用的算法。這個(gè)算法正發(fā)揮著促進(jìn)電子商務(wù)發(fā)展的作用。這個(gè)主要被分成兩種技術(shù)。
(1)基于用戶的聯(lián)合過濾。
(2)基于項(xiàng)目的協(xié)同濾波。
主要程序是,首先基于用戶的歷史記錄和用戶的興趣愛好以及其他數(shù)據(jù)反饋,計(jì)算各客戶端之間相似性,然后對(duì)相似度的目標(biāo)客戶端進(jìn)行排序,然后介紹他們。
具有多種正則化技術(shù)的邏輯回歸算法可用于稀疏矩陣,訓(xùn)練和預(yù)測(cè)速度快,模型復(fù)雜度低的特點(diǎn)。其次,介紹了一種性能較好的積分算法——梯度迭代決策樹算法。然后是因式分解機(jī),它是隱式語義模型中的代表性算法。最后,卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一部分,具有自動(dòng)提取數(shù)據(jù)特征的功能,近年來備受關(guān)注。
在統(tǒng)計(jì)學(xué)中,有種算法叫做回歸算法。實(shí)現(xiàn)起來比較容易理解,復(fù)雜性也相對(duì)較低。而且,還可以用于大規(guī)模的機(jī)器學(xué)習(xí)。也就是說,由于他的優(yōu)點(diǎn)很多,所以可以長(zhǎng)期使用,但他的缺點(diǎn)是非線。因?yàn)樗且粋€(gè)現(xiàn)象模型。
在上個(gè)世紀(jì)90年代,提出了一種新的融合性算法,叫做梯度迭代決策樹算法。這是一種基于學(xué)習(xí)機(jī)器的框架,它可以提高任意算法的準(zhǔn)度和精確度,他是受到近似模型的啟發(fā),而被研究出來的。它的優(yōu)點(diǎn)也十分的多,它作為一種性能比較優(yōu)良的分類器,很多人將它和增強(qiáng)框架相結(jié)合使用。在實(shí)驗(yàn)中也確實(shí),實(shí)現(xiàn)了較為優(yōu)異的實(shí)驗(yàn)結(jié)果。
現(xiàn)在有一種更通用的算法叫做因數(shù)分解機(jī)。這個(gè)算法在2010年被提案了,利用分解模型的特征進(jìn)行變換。另外,通過因素之間的相互作用表示。也就是說,可以很好地模擬變量之間的相互作用。即使數(shù)據(jù)不足和數(shù)據(jù)不足,也能得到良好的訓(xùn)練效果。在任務(wù)的實(shí)際執(zhí)行中較好的完成。
在20世紀(jì)60年代Hubel和Wiesel提出了卷積神經(jīng)網(wǎng)絡(luò)。Hubel和Wiesel對(duì)貓大腦皮層的局部敏感神經(jīng)元進(jìn)行了模擬。福島提出的新認(rèn)知是基于神經(jīng)元之間的局部連接和層次結(jié)構(gòu),首次對(duì)圖像網(wǎng)絡(luò)進(jìn)行轉(zhuǎn)換。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以大大降低神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜性,提高神經(jīng)網(wǎng)絡(luò)的泛化能力。CNN是一種前饋神經(jīng)網(wǎng)絡(luò),目前廣泛應(yīng)用于語音、圖像等領(lǐng)域。
互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,數(shù)據(jù)采集和計(jì)算變得越來越便宜,目前來看,大數(shù)據(jù)時(shí)代已經(jīng)到來。國內(nèi)外電子商務(wù)公司和研究機(jī)構(gòu)越來越擅長(zhǎng)于利用數(shù)據(jù)為用戶提供個(gè)性化的體驗(yàn)推薦,特別是近年來,人們利用先進(jìn)的機(jī)器學(xué)習(xí)算法對(duì)這一領(lǐng)域的問題進(jìn)行了深入的學(xué)習(xí)和研究。從梯度迭代決策樹到深度學(xué)習(xí),從協(xié)同過濾到邏輯回歸,這些算法都出現(xiàn)在各個(gè)問題領(lǐng)域的推薦系統(tǒng)中。這些推薦系統(tǒng)的商業(yè)應(yīng)用不僅極大地改善了用戶體驗(yàn),還增加了企業(yè)的收益。
在推薦系統(tǒng)中還存在許多問題,另外技術(shù)需要進(jìn)一步的改進(jìn)。雖然本文對(duì)推薦系統(tǒng)做了一定的研究,但仍有很多地方需要改進(jìn):我們應(yīng)該考慮多種特征處理和數(shù)據(jù)清理,比如使用聚類算法對(duì)用戶進(jìn)行聚類,然后統(tǒng)計(jì)每個(gè)類別的特征,或者使用協(xié)同過濾算法處理非交互式樣本。在搭配推薦系統(tǒng)中,使用卷積神經(jīng)網(wǎng)絡(luò)的方法還是比較簡(jiǎn)單的,所以我們可以針對(duì)這種情況設(shè)計(jì)一個(gè)特殊的神經(jīng)網(wǎng)絡(luò),我相信它會(huì)進(jìn)一步提高效果。