陳俊虹 劉詠梅
摘 要:商務(wù)女裝是女性的日常著裝之一,很多女性在網(wǎng)購(gòu)商務(wù)女裝時(shí)常?;撕荛L(zhǎng)的搜索時(shí)間卻找不到令人滿意的服裝。本文將根據(jù)用戶在搜索過(guò)程中常用的關(guān)鍵詞類別進(jìn)行調(diào)研,得到用戶在網(wǎng)購(gòu)時(shí)常用的關(guān)鍵詞排序后,再根據(jù)關(guān)鍵詞的內(nèi)容進(jìn)行細(xì)分,構(gòu)建標(biāo)簽體系。根據(jù)TF-IDF和余弦相似算法構(gòu)建基于標(biāo)簽的推薦系統(tǒng),從而提高用戶在購(gòu)買商務(wù)女裝時(shí)的精確度。
關(guān)鍵詞:標(biāo)簽推薦算法;用戶興趣;商務(wù)女裝;個(gè)性化推薦系統(tǒng)
中圖分類號(hào):TS941.26 文獻(xiàn)標(biāo)識(shí)碼:B 文章編號(hào): 1674-2346(2017)04-0068-05
1 引言
隨著互聯(lián)網(wǎng)的發(fā)展,各大電商平臺(tái)不斷壯大,網(wǎng)購(gòu)人群也呈現(xiàn)上升的趨勢(shì)。很多事業(yè)型的女性在兼顧家庭和實(shí)業(yè)之余,往往選擇在網(wǎng)絡(luò)上進(jìn)行購(gòu)物。淘寶、天貓等電商平臺(tái),均能夠找到各種各樣與商務(wù)女性相關(guān)的服裝。然而也發(fā)現(xiàn)一些問(wèn)題,例如通過(guò)關(guān)鍵詞的搜索,卻找不到自己喜歡的服裝,或者要花費(fèi)很長(zhǎng)的時(shí)間才找到目標(biāo)服裝。為了節(jié)約消費(fèi)者購(gòu)物時(shí)間和精力,提高用戶的決策效率,因此很多電商平臺(tái)推出了個(gè)性化推薦系統(tǒng)。
在這個(gè)信息過(guò)剩的時(shí)代里,一方面,消費(fèi)者要從大量信息中篩選出自己感興趣的信息是一件較為困難的事;而生產(chǎn)者和經(jīng)營(yíng)者要讓廣大消費(fèi)者對(duì)自己產(chǎn)品的信息引起足夠的注意,也不是一件易事。推薦系統(tǒng)就是解決這類矛盾的重要工具之一。推薦系統(tǒng)通過(guò)發(fā)掘用戶的行為,找到用戶的個(gè)性化需求,從而將長(zhǎng)尾商品準(zhǔn)確地推薦給需要他的用戶,幫助用戶發(fā)現(xiàn)那些他們感興趣但很難發(fā)現(xiàn)的商品。[1]
傳統(tǒng)的推薦系統(tǒng)包含三大基本要素:用戶、資源以及用戶對(duì)項(xiàng)目的評(píng)分。根據(jù)用戶評(píng)分,產(chǎn)生相關(guān)的用戶模型或項(xiàng)目模型,然后再根據(jù)相關(guān)模型特征產(chǎn)生用戶感興趣的服裝,并推薦給用戶,或者產(chǎn)生與已知服裝相似的服裝推薦給用戶。目前推薦系統(tǒng)被廣泛地運(yùn)用于各大電商平臺(tái)的各個(gè)領(lǐng)域,在促進(jìn)服裝銷售方面起到了極大的作用。
2 推薦技術(shù)類型
根據(jù)國(guó)內(nèi)外研究成果,推薦算法主要分為: 基于內(nèi)容的推薦算法 ( Content - based,簡(jiǎn)稱 CB) 、協(xié)同過(guò)濾推薦算法 ( Collaborative Filtering,簡(jiǎn)稱 CF) 和混合推薦算法。[2]
2.1 基于內(nèi)容的推薦算法
基于內(nèi)容的推薦是建立在項(xiàng)目的內(nèi)容信息上作出的推薦,不需要根據(jù)用戶對(duì)項(xiàng)目的評(píng)價(jià)?;趦?nèi)容的推薦系統(tǒng)通過(guò)特征屬性來(lái)定義對(duì)象,當(dāng)用戶對(duì)對(duì)象進(jìn)行評(píng)價(jià)后,系統(tǒng)再通過(guò)學(xué)習(xí)用戶的興趣來(lái)判斷用戶的資料和待預(yù)測(cè)項(xiàng)目之間的吻合程度。[3]
基于內(nèi)容的推薦有優(yōu)點(diǎn),如:沒(méi)有冷啟動(dòng)問(wèn)題和稀疏問(wèn)題。但也有缺點(diǎn),要求內(nèi)容能比較容易地抽取,并形成有意義的特征,且內(nèi)容具有良好的結(jié)構(gòu)。
2.2 協(xié)同過(guò)濾推薦算法
協(xié)同過(guò)濾推薦算法一般分為2種類型:一是基于用戶的協(xié)同過(guò)濾推薦算法,二是基于項(xiàng)目的協(xié)同過(guò)濾推薦算法。
基于用戶的協(xié)同過(guò)濾算法是推薦系統(tǒng)中較為古老的推薦算法。通常協(xié)同過(guò)濾推薦算法包含2個(gè)步驟,首先要找到用戶集,該用戶集要和目標(biāo)的用戶興趣相似,然后再找到該集合中用戶所喜歡的集合,并且是目標(biāo)用戶還沒(méi)有看過(guò)的物品。
基于項(xiàng)目的協(xié)同過(guò)濾推薦算法(簡(jiǎn)稱Item CF)是根據(jù)用戶的行為記錄來(lái)計(jì)算物品與物品之間的相似程度;而目標(biāo)用戶對(duì)未評(píng)分項(xiàng)目的喜好度,則是通過(guò)他在歷史項(xiàng)目中的相似項(xiàng)目的評(píng)分來(lái)加權(quán)擬合,從而產(chǎn)生推薦。
2.3 混合推薦算法
因?yàn)閰f(xié)同過(guò)濾、基于內(nèi)容和基于圖結(jié)構(gòu)等推薦算法各自存在問(wèn)題,因而提出混合推薦算法,來(lái)達(dá)到“相互取長(zhǎng)補(bǔ)短”的目的。[4]混合推薦可以獨(dú)立運(yùn)用協(xié)同過(guò)濾、基于內(nèi)容和基于圖結(jié)構(gòu)的推薦算法,將多種算法進(jìn)行融合,再將融合后的結(jié)果推薦給用戶。在現(xiàn)實(shí)生活中,通常會(huì)采用組合推薦的形式,其中內(nèi)容推薦和協(xié)同過(guò)濾推薦的組合運(yùn)用最多。
3 商務(wù)女裝標(biāo)簽體系
3.1 標(biāo)簽簡(jiǎn)介
標(biāo)簽是一種內(nèi)容組織方式,是相關(guān)性很強(qiáng)的關(guān)鍵詞,能方便地幫助我們找到合適的內(nèi)容及內(nèi)容分類。標(biāo)簽體系的設(shè)計(jì)有2個(gè)較為常見的要求:一是便于檢索,二是效果顯著。在不同的場(chǎng)景下,對(duì)這兩點(diǎn)的要求重點(diǎn)是不同的。
一般而言,標(biāo)簽體系可分為3類:結(jié)構(gòu)化標(biāo)簽體系、半結(jié)構(gòu)化標(biāo)簽體系以及非結(jié)構(gòu)化標(biāo)簽體系。
3.2 商務(wù)女裝標(biāo)簽體系構(gòu)建
在商務(wù)女裝平臺(tái)上,用戶對(duì)服裝打的標(biāo)簽依據(jù)的是系統(tǒng)已有的服裝標(biāo)簽體系,屬于結(jié)構(gòu)化的標(biāo)簽體系。用戶根據(jù)自己的喜好進(jìn)行標(biāo)簽選擇。而系統(tǒng)內(nèi)的標(biāo)簽依據(jù)的是用戶對(duì)服裝的搜索習(xí)慣。
為了獲得用戶的搜索習(xí)慣,本研究展開了問(wèn)卷調(diào)研:1)采用第三方問(wèn)卷調(diào)查,利用專業(yè)在線調(diào)查網(wǎng)站問(wèn)卷星進(jìn)行調(diào)研。2)分別通過(guò)手機(jī)端和PC端向調(diào)研用戶發(fā)放,在線填寫問(wèn)卷。3)結(jié)果得到樣本總量為223份,有效問(wèn)卷206份,無(wú)效問(wèn)卷17份,問(wèn)卷有效率92%,回收率100%。調(diào)查結(jié)果見表1。
根據(jù)調(diào)查,將用戶對(duì)商務(wù)女裝的搜索關(guān)鍵詞前5項(xiàng)進(jìn)行排名,排序的結(jié)果是評(píng)價(jià)的綜合得分。具體的計(jì)算方法是:選項(xiàng)平均綜合得分=( 頻數(shù)茲ㄖ擔(dān)?本題填寫人次(權(quán)值由選項(xiàng)被排列的位置決定)。結(jié)果顯示前7個(gè)最常用的搜索關(guān)鍵詞是款式、風(fēng)格、品牌、類目(如大衣,襯衫,褲裝等)、面料、穿著場(chǎng)合、色彩?;诖?,我們對(duì)商務(wù)女裝的款式、風(fēng)格、品類、面料、穿著場(chǎng)合、色彩分別進(jìn)行分類,每一標(biāo)簽之間權(quán)重相等,例如“穿著場(chǎng)合”下的標(biāo)簽分為4大類:日常辦公、接待會(huì)談、宴請(qǐng)活動(dòng)、慶典活動(dòng)。除了系統(tǒng)設(shè)置的標(biāo)簽內(nèi)容供用戶選擇,還設(shè)置了用戶自由輸入標(biāo)簽的窗口,目的是防止用戶找不到自己的目標(biāo)標(biāo)簽以及系統(tǒng)設(shè)置的標(biāo)簽和服裝本身不吻合。
本研究還對(duì)商務(wù)女裝不同品類的服裝維度進(jìn)行了調(diào)研,如表2、表3所示,除褲裝外,被調(diào)研者首要關(guān)注的是風(fēng)格。從下裝來(lái)看,被調(diào)研者最關(guān)注半身裙的風(fēng)格、廓形、長(zhǎng)度,褲裝的褲腿型、風(fēng)格、長(zhǎng)度,而對(duì)于圖案,大家則較少關(guān)注。從上裝來(lái)看,被調(diào)研者最關(guān)注的還是風(fēng)格,最不關(guān)注的是袖長(zhǎng)。對(duì)于連衣裙,被調(diào)研者第二關(guān)注的是裙長(zhǎng),其次是腰型。在襯衫這一品類下,用戶最關(guān)注的服裝維度是風(fēng)格,第二關(guān)注的是領(lǐng)型,其次是廓形。而對(duì)于外套,被調(diào)研者首要關(guān)注的是風(fēng)格,其次是廓形,第三是衣長(zhǎng)。
根據(jù)每個(gè)品類下用戶最關(guān)注的服裝維度進(jìn)行標(biāo)簽推薦,從而促進(jìn)服裝標(biāo)簽系統(tǒng)的改進(jìn)和完善,也滿足了用戶的喜好,最終達(dá)到推薦的目的。
4 推薦模型構(gòu)建
4.1 構(gòu)建用戶興趣模型
本研究根據(jù)商務(wù)女裝的商品特征以及推薦算法的分析,提出基于商務(wù)女裝相關(guān)標(biāo)簽的推薦模型。根據(jù)商務(wù)女裝的分類以及用戶在選購(gòu)服裝時(shí)考慮的要素,提取與商務(wù)女裝相關(guān)的標(biāo)簽,提出基于標(biāo)簽的推薦算法,構(gòu)成了用戶-標(biāo)簽、標(biāo)簽-服裝2個(gè)二維關(guān)系。[5]通過(guò)用戶、服裝這2個(gè)方面同時(shí)挖掘用戶的興趣,構(gòu)建用戶的興趣模型,再利用服裝的標(biāo)簽內(nèi)容進(jìn)行相似度計(jì)算,最后根據(jù)用戶對(duì)服裝的興趣度進(jìn)行排序,從而形成推薦。具體的推薦過(guò)程描述如下:
1)根據(jù)用戶-標(biāo)簽-服裝的三維關(guān)系分解為用戶-標(biāo)簽、標(biāo)簽-服裝的2個(gè)二維關(guān)系,根據(jù)TF-IDF計(jì)算出用戶對(duì)服裝的興趣度。
2)根據(jù)服裝的標(biāo)簽內(nèi)容,用相似度計(jì)算尋找與用戶感興趣服裝標(biāo)簽內(nèi)容最相似的n個(gè)服裝。
3)將最相似的服裝按照從大到小排序,然后取出排名n的作為最終的 Top-N 推薦集。
4.1.1 用戶與標(biāo)簽的關(guān)聯(lián)度
首先定義用戶集U={U1,U2,U3……Un},用戶總數(shù)為D,服裝集R=大{R1,R2,R3……Rn},用戶標(biāo)注形成的標(biāo)簽集T={T1,T2,T3……Tn},服裝總數(shù)為Q。
TF-IDF[6](term frequency-inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF在推薦系統(tǒng)中的意思是用戶u對(duì)資源使用標(biāo)簽t進(jìn)行標(biāo)注的頻率,等于用戶ui對(duì)資源標(biāo)注標(biāo)簽tj的次數(shù)除以用戶u標(biāo)注的總次數(shù),計(jì)算公式如下:
IDF表示標(biāo)簽t關(guān)于用戶的逆向文件頻率,等于用戶總數(shù)D除以1加上標(biāo)注過(guò)標(biāo)簽 ti的用戶總數(shù)j,再對(duì)得到的商取對(duì)數(shù)(加1是為了防止對(duì)數(shù)為0),計(jì)算公式如下:
4.1.2 服裝與標(biāo)簽的關(guān)聯(lián)度
服裝與標(biāo)簽的關(guān)聯(lián)度是指服裝被該標(biāo)簽標(biāo)記的可能性,計(jì)算公式如(4)、(5)、(6)所示:
TF的意思是標(biāo)簽t被標(biāo)注在服裝r上的頻率,等于標(biāo)簽ti被標(biāo)注在服裝r上的次數(shù)除以標(biāo)注在服裝r上的標(biāo)簽總數(shù),計(jì)算公式(4)所示:
IDF表示標(biāo)簽t關(guān)于服裝的逆向文件頻率,等于服裝總數(shù)Q除以1加上服裝中被標(biāo)簽ti標(biāo)注的總數(shù)l,再對(duì)得到的商取對(duì)數(shù)(加1是為了防止對(duì)數(shù)為0),計(jì)算公式(5)所示:
4.2 服裝相似度量
相似度量采用基于向量夾角余弦的相似度算法。把用戶對(duì)服裝標(biāo)注的標(biāo)簽看做是n維空間上的向量,如果用戶對(duì)服裝沒(méi)有打相應(yīng)的標(biāo)簽,則用戶對(duì)該服裝的向量記為零向量。服裝與服裝之間的相似性通過(guò)向量之間的余弦夾角度量。
用戶-服裝的標(biāo)簽矩陣T的第i個(gè)列向量表示一個(gè)項(xiàng)i,則設(shè)項(xiàng)i和項(xiàng)j在n維用戶空間上的評(píng)分分別表示為向量 和 ,則向量 和 之間的相似性Sim(x,y)為:
(8)
4.3 預(yù)測(cè)排序
根據(jù)公式(8)中找到與用戶感興趣的服裝最相似的服裝進(jìn)行排序,按照相似度從大到小排序。取出排序靠前的n個(gè)服裝作為推薦。
5 小結(jié)
服裝推薦算法是目前各大電商平臺(tái)與企業(yè)都在進(jìn)行的課題。本研究通過(guò)用戶調(diào)研建立商務(wù)女裝的標(biāo)簽體系,并根據(jù)用戶的標(biāo)簽和商務(wù)女裝的標(biāo)簽構(gòu)建基于標(biāo)簽的推薦模型,目的在于改善標(biāo)簽的構(gòu)成以及提高用戶搜索內(nèi)容的準(zhǔn)確性。
參考文獻(xiàn)
[1]項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].北京:人民郵電出版社,2012,73-77.
[2]楊博,趙鵬.推薦算法綜述[J].山西大學(xué)學(xué)報(bào):自然科學(xué)版,2011 (3):337-350
[3]何克勤. 基于標(biāo)簽的推薦系統(tǒng)模型及算法研究[D].上海:華東師范大學(xué),2010.
[4]王國(guó)霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7):71.
[9]劉健,張琨,陳旋.基于標(biāo)簽和協(xié)同過(guò)濾的個(gè)性化推薦算法[J].計(jì)算機(jī)與現(xiàn)代化,2016 (246):62-71.
[10]王石,曹存根,裴亞軍,等.一種基于搭配的中文詞匯語(yǔ)義相似度計(jì)算方法[J].中文信息學(xué)報(bào),2013,27( 1):7-14.
Research on Tag-Based Business Dress Recommendation Model
CHEN Jun-hong LIU Yong-mei
(College of Fashion and Art Design,Donghua University,Shanghai,200051,China)
Abstract: Business dress is one of womens daily wear.However,many women shopping online spend long time searching but cant find satisfying dress.Based on the keywords categories used most often in searching, a research has been carried out.Having got the keywords sorting which is subdivided according to the content of the keywords,a tag system is established.According to TF-IDF and cosine similarity algorithm,a tag-based recommendation system is built to improve the accuracy of users buying business womens wear.
Key words: tag recommendation algorithm;user interest;women's business dress;personalized recommendation system