国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶畫像的個(gè)性化搜索推薦系統(tǒng)

2020-02-02 03:37丁海濤
電子技術(shù)與軟件工程 2020年16期
關(guān)鍵詞:畫像向量圖像

丁海濤

(北京郵電大學(xué)經(jīng)濟(jì)管理學(xué)院 北京市 100089)

社交網(wǎng)絡(luò)的普及讓網(wǎng)絡(luò)用戶在網(wǎng)絡(luò)上留下了豐富的用戶數(shù)據(jù),對(duì)用戶數(shù)據(jù)的深度挖掘可以全面的表征用戶的畫像。推薦系統(tǒng)的實(shí)質(zhì)就是依賴于用戶的歷史行為畫像實(shí)現(xiàn)用戶點(diǎn)對(duì)點(diǎn)的推薦過程。傳統(tǒng)的深度學(xué)習(xí)算法在推薦系統(tǒng)中的應(yīng)用主要依賴于簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)(如MLP),當(dāng)涉及到比較復(fù)雜的附加信息(如圖像、文本等)通常會(huì)涉及到CNN、RNN 等一些更加復(fù)雜的特征提取網(wǎng)絡(luò)[1]?,F(xiàn)行的推薦算法在傳統(tǒng)算法的基礎(chǔ)上進(jìn)一步的提升和發(fā)展,并擁有較好的推薦效果。但是面向于海量數(shù)據(jù)的推薦過程時(shí),傳統(tǒng)的推薦系統(tǒng)往往顯得耗時(shí)、又是甚至無能為力。其主要面臨的問題在于海量數(shù)據(jù)查找過程緩慢、推薦算法無法有效的與用戶歷史行為有效的結(jié)合等,降低了用戶體驗(yàn)?;诖耍疚牧D設(shè)計(jì)一種具有高效的圖像檢索并實(shí)現(xiàn)用戶定向推薦過程的個(gè)性化搜索推薦系統(tǒng),用以解決現(xiàn)有的在電商用戶平臺(tái)上用戶搜索過程的有效性問題,提高用戶體驗(yàn),提升平臺(tái)價(jià)值。

1 設(shè)計(jì)思路

本文的設(shè)計(jì)主要包含兩個(gè)層面,一個(gè)是用戶層面,主要集中于用戶的畫像建立與輸入圖像的處理。文章介紹了通過現(xiàn)行的深度神經(jīng)網(wǎng)絡(luò)(CNN 等)對(duì)用戶多維度的歷史行為信息進(jìn)行分析并構(gòu)建用戶畫像的方法,并將用戶輸入圖片轉(zhuǎn)化為高維嵌入向量;另一個(gè)是系統(tǒng)層面,首先通過倒排索引的方式構(gòu)建海量數(shù)據(jù)的快速查詢過程得到用戶搜索的百級(jí)大小的候選數(shù)據(jù)集,然后利用貝葉斯網(wǎng)絡(luò)將用戶畫像與候選數(shù)據(jù)集中搜索結(jié)果融合進(jìn)行排序?qū)崿F(xiàn)推薦。文章最后通過實(shí)驗(yàn)驗(yàn)證了本方案的有效性。

2 用戶畫像模型的建立

用戶畫像的實(shí)質(zhì)是指利用用戶的各種歷史行為信息,得到一個(gè)描述用戶的文本文件。一般來講,用戶畫像可以分為隱式和顯式兩種畫像模型。顯式的描述方法直接通過對(duì)用戶打標(biāo)簽的方法形成一個(gè)用戶特有的標(biāo)簽文檔,該標(biāo)簽集合就是該用戶特有的畫像模型。隱式的用戶畫像模型通過將機(jī)器學(xué)習(xí)方法提取用戶的歷史文本、圖像信息,得到一組沒有明確含義的關(guān)于用戶的向量集合。后者表示的用戶畫像模型更加精確,因此對(duì)其研究應(yīng)用也更多。

圖1:倒排索引的基本原理

用戶的歷史行為信息通常包含文本和圖像兩個(gè)類別,需要分開進(jìn)行處理并提取特征。對(duì)于文本文件,利用TF-IDF 方法提取文本的關(guān)鍵詞,并且結(jié)合Word2Vec 方法對(duì)關(guān)鍵詞進(jìn)行編碼,實(shí)現(xiàn)評(píng)論文本數(shù)據(jù)的關(guān)鍵詞向量嵌入,提高模型泛化性能,有助于用戶畫像文本多興趣特征描述的準(zhǔn)確性和完整性;對(duì)于圖像數(shù)據(jù),則需要利用到現(xiàn)有的圖像特征提取網(wǎng)絡(luò)結(jié)構(gòu),其中最常用的是VGG16、VGG19 網(wǎng)絡(luò)以及殘差網(wǎng)絡(luò)(ResNet)等。該網(wǎng)絡(luò)是深度學(xué)習(xí)的一大經(jīng)典網(wǎng)絡(luò),采取端到端的多層方式提取低、中、高層特征或?qū)崿F(xiàn)分類功能,可以實(shí)現(xiàn)豐富的圖像特征提取功能,通過去掉網(wǎng)絡(luò)最后一層的全連接層結(jié)構(gòu)用以直接表征圖像特征。將用戶文本特征與圖像特征拼接融合,形成高向量后利用聚類的方式實(shí)現(xiàn)用戶興趣畫像的向量嵌入過程。此外,在現(xiàn)有的一些研究中也提出了一些成熟的用戶畫像的方法,如谷歌團(tuán)隊(duì)[2]提出了一種應(yīng)用于Google Play 推薦的“wide and deep”交差融合模型,以及阿里[3]的算法團(tuán)隊(duì)提出了一種“Tree-based Deep Model”的用戶的興趣樹模型等,均可以運(yùn)用到本工作的后續(xù)的推薦系統(tǒng)中。

3 乘積量化的倒排索引候選集生成辦法

用戶海量數(shù)據(jù)的快速檢索的方法主要包含三個(gè)方面:通過樹的快速檢索、通過哈希表檢索以及通過乘積量化的方法實(shí)現(xiàn)檢索。本文主要依賴于乘積量化(product quantization,PQ)的方法實(shí)現(xiàn)候選集數(shù)據(jù)的快速查找過程。

PQ 算法主要包含訓(xùn)練過程和查找過程。對(duì)于數(shù)據(jù)訓(xùn)練過程,在原數(shù)據(jù)空間中訓(xùn)練向量為N*M,即數(shù)據(jù)向量為N,每個(gè)樣本的維度為M 維。將N*M 的數(shù)據(jù)空間在列方向上劃分為[M/T]個(gè)子空間并在每一個(gè)子空間使用K-means 量化器對(duì)子空間進(jìn)行向量量化,每一個(gè)子空間都可以獲得一個(gè)碼本Ci,i=1,2,…,[M/T]。而后輸入樣本數(shù)據(jù)的查找過程就轉(zhuǎn)化為了輸入樣本與碼本空間的向量之間的對(duì)比,極大的減小了數(shù)據(jù)對(duì)比數(shù)量。

表1:推薦系統(tǒng)結(jié)果分布

倒排索引是相對(duì)與傳統(tǒng)的索引方法提出的一種加快搜索速度的方法。傳統(tǒng)的索引方法往往是通過ID 等標(biāo)識(shí)信息找到適合的單元,然后根據(jù)單元確定單元的屬性。在實(shí)際的對(duì)比過程中,我們更傾向于對(duì)比更加有可能的數(shù)據(jù)而直接過濾掉可能性極小的碼本,進(jìn)一步的實(shí)現(xiàn)加速。具體的,在PQ 算法的訓(xùn)練之前,先對(duì)N 個(gè)訓(xùn)練樣本進(jìn)行一次k=1024 的聚類過程,形成1024 個(gè)類中心然后將每個(gè)源空間中的數(shù)據(jù)向量減去其對(duì)應(yīng)的最短距離的聚類中心,形成N*M 大小的殘差向量空間。當(dāng)輸入數(shù)據(jù)來臨時(shí),首先確定輸入數(shù)據(jù)與聚類中心的殘差索引,就實(shí)現(xiàn)了有效數(shù)據(jù)的劃分,然后再進(jìn)一步通過前述的PQ 算法計(jì)算距離索引即可。圖1展示了倒排索引的基本原理。

4 用戶畫像引導(dǎo)下的貝葉斯排序

從形式上講,基于查詢圖像probe 的高維特征fp和多標(biāo)簽表述的用戶畫像di={vi,ti},其目的是在百級(jí)候選集Ch中,搜索與查詢商品相似度最高的商品c,因此對(duì)目標(biāo)商品的偏好的可以定義為:

Pr (Pp=Pc|fp,fc,vi,ti)

其中,Pp與Pc分別代表目標(biāo)商品與候選商品對(duì)應(yīng)的商品ID,fp與fc分別代表二者的圖像高維特征,上式表示在圖像特征和用戶畫像的條件下,目標(biāo)商品與候選商品ID 是否一致的概率?;谪惾~斯公式,可得到:

由于商品相似但是有可能并不符合用戶偏好,因此提出用戶畫像與圖像分布的獨(dú)立性假設(shè),且根據(jù)條件概率公式進(jìn)而得到

式中Pr (Pp=Pc|fp,fc)可理解為兩個(gè)商品基于視覺相似度為同一ID的概率,而Pr (vi,ti|Pp=Pc)可解釋為當(dāng)商品一致時(shí)用戶偏好的概率,由于用戶目的為搜索與查詢商品ID 一致的物品,因此該項(xiàng)概率值為1。再次利用獨(dú)立性假設(shè),公式可寫為:

通過上式將用戶畫像、圖像特征融合形成推薦概率進(jìn)行排序即可得到推薦列表。

5 實(shí)驗(yàn)與結(jié)論

本文用于用戶搜索的數(shù)據(jù)集為香港中文大學(xué)開放的大規(guī)模服飾數(shù)據(jù)集deep fashion,進(jìn)行離線的用戶推薦過程仿真和驗(yàn)證。

對(duì)于被推薦的商品存在以下四種情況,如表1所示。

定義推薦準(zhǔn)確率表示推薦系統(tǒng)推薦的商品中用戶滿意的商品的比例(P(L)),定義召回率為用戶滿意的商品恰好被系統(tǒng)推薦的比例(R(L)),為能全面考量?jī)烧卟?duì)算法準(zhǔn)確評(píng)估,可以采用F1指標(biāo)。

前述的實(shí)驗(yàn)結(jié)果表明,本文的推薦系統(tǒng)可以在快速的實(shí)現(xiàn)在海量數(shù)據(jù)中的候選數(shù)據(jù)集的生成過程,且整體的推薦系統(tǒng)的評(píng)價(jià)上,以基礎(chǔ)的推薦準(zhǔn)確率為主要參考指標(biāo)進(jìn)行線下的實(shí)驗(yàn)時(shí),推薦系統(tǒng)表現(xiàn)出良好的推薦效果。

猜你喜歡
畫像向量圖像
改進(jìn)的LapSRN遙感圖像超分辨重建
威猛的畫像
向量的分解
聚焦“向量與三角”創(chuàng)新題
“00后”畫像
畫像
有趣的圖像詩(shī)
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
潛行與畫像