臧璣珣,徐鑫航
(1.西安外國(guó)語(yǔ)大學(xué) 信息技術(shù)中心,陜西 西安 710061; 2.西安電子科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710071)
農(nóng)業(yè)生產(chǎn)作為國(guó)家的第一產(chǎn)業(yè)支撐著國(guó)民經(jīng)濟(jì)的建設(shè)和發(fā)展。農(nóng)產(chǎn)品由于產(chǎn)地與保質(zhì)期等因素的限制導(dǎo)致其流通能力較差,不同品種的農(nóng)產(chǎn)品種植地區(qū)、口味、價(jià)格等屬性特征都有所差異,因此如何根據(jù)品種特征選擇合適的銷售區(qū)域和影響力最大化的銷售商,以及發(fā)現(xiàn)最具購(gòu)買(mǎi)潛力的買(mǎi)家已經(jīng)成為農(nóng)業(yè)發(fā)展的重要問(wèn)題[1]。在數(shù)字經(jīng)濟(jì)日益繁茂的時(shí)代,如何將農(nóng)產(chǎn)品在生產(chǎn)、流通、售后等各環(huán)節(jié)產(chǎn)生的海量歷史信息進(jìn)行收集整合和使用是一項(xiàng)重要的任務(wù)。
推薦系統(tǒng)[2]是一種廣泛應(yīng)用的信息過(guò)濾系統(tǒng),它通過(guò)對(duì)歷史數(shù)據(jù)和物品屬性的分析來(lái)預(yù)測(cè)用戶偏好,已經(jīng)在網(wǎng)絡(luò)購(gòu)物、內(nèi)容咨詢等線上平臺(tái)獲取了巨大的成功。傳統(tǒng)的推薦算法主要有基于內(nèi)容的推薦[3]、基于協(xié)同過(guò)濾的推薦[4]和混合推薦[5]等。此外,也有使用深度學(xué)習(xí)、知識(shí)圖譜等技術(shù)來(lái)解決推薦任務(wù)的嘗試。近年來(lái),也有一些研究著眼于農(nóng)產(chǎn)品銷售的推薦系統(tǒng)。針對(duì)協(xié)同過(guò)濾在推薦時(shí)難以及時(shí)捕捉用戶興趣變化的問(wèn)題,李建軍等[6]考慮用戶行為及用戶訪問(wèn)數(shù)據(jù),提出基于改進(jìn)權(quán)值的用戶興趣推薦算法,深入挖掘用戶對(duì)農(nóng)產(chǎn)品的喜好趨勢(shì)。李亞峰等[7]借助K最鄰近算法構(gòu)建用戶瀏覽矩陣,進(jìn)而通過(guò)Jaccard相似度來(lái)實(shí)現(xiàn)對(duì)用戶的農(nóng)產(chǎn)品推薦過(guò)程。鄒詩(shī)雨等[8]利用PMI-VL算法分析農(nóng)產(chǎn)品評(píng)論的情感值以尋找潛在的購(gòu)買(mǎi)者。蘇啟琛等[9]提出一種基于內(nèi)容的生鮮產(chǎn)品推薦算法,利用產(chǎn)品特征與購(gòu)買(mǎi)記錄創(chuàng)建用戶模型以預(yù)測(cè)用戶喜愛(ài)的Top-N生鮮產(chǎn)品。這些方法提供了農(nóng)產(chǎn)品推薦算法的設(shè)計(jì)思路,但其推薦精度以及各銷售環(huán)節(jié)的完整性上仍有優(yōu)化空間。
針對(duì)農(nóng)產(chǎn)品的推薦問(wèn)題,結(jié)合數(shù)據(jù)挖掘、詞嵌入及網(wǎng)絡(luò)表示學(xué)習(xí)等技術(shù),該文構(gòu)建了農(nóng)產(chǎn)品銷售途徑推薦系統(tǒng)。該系統(tǒng)通過(guò)用戶輸入的預(yù)售農(nóng)產(chǎn)品特點(diǎn)向用戶推薦適合銷售的地區(qū)、銷售商及有潛力的買(mǎi)家,有效提升了農(nóng)產(chǎn)品銷售與流通環(huán)節(jié)的效率。最后通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
大規(guī)模生產(chǎn)農(nóng)產(chǎn)品的種類、品種、繁育地區(qū)、銷售區(qū)域往往具有較高的穩(wěn)定性。在進(jìn)行自然語(yǔ)言處理任務(wù)時(shí)需要將詞匯轉(zhuǎn)換為計(jì)算機(jī)可以理解的向量形式,如One-hot將每個(gè)詞匯轉(zhuǎn)換為一個(gè)詞表大小維度的、稀疏的獨(dú)熱向量。詞嵌入則將詞轉(zhuǎn)化成一種分布式表示,它使得離散表示的向量從高維空間映射為低維稠密的連續(xù)向量,不僅可以提升計(jì)算效率還使得嵌入后的詞匯特征可以表示詞與詞之間的關(guān)系。常用于詞嵌入的分布式表示方法包括Word2Vec[10]、BERT[11]以及Glove[12]。
為了從非結(jié)構(gòu)化的文本信息中捕捉待售農(nóng)產(chǎn)品特點(diǎn)與地區(qū)等語(yǔ)義信息的詞向量,提出詞嵌入模型AP-GloVe(Global Word Vector Representation for Agricultural Products),可以在生成農(nóng)產(chǎn)品向量表示時(shí)保留全局詞頻統(tǒng)計(jì)信息與局部上下文信息。
該方法首先從中國(guó)植物主題數(shù)據(jù)庫(kù)、中國(guó)國(guó)家地名信息庫(kù)以及爬取果蔬類文章等多個(gè)來(lái)源獲取農(nóng)產(chǎn)品類別的原始文本信息,并對(duì)得到的源數(shù)據(jù)進(jìn)行預(yù)處理,如數(shù)據(jù)清洗與數(shù)據(jù)集成等操作,目的是獲取標(biāo)準(zhǔn)、連續(xù)的農(nóng)業(yè)文本數(shù)據(jù),進(jìn)而建立“地區(qū)”與“果蔬品種”兩個(gè)專業(yè)詞庫(kù)。然后,對(duì)預(yù)處理后的文本進(jìn)行jieba分詞以獲取農(nóng)業(yè)領(lǐng)域的中文詞匯,進(jìn)而可以得到描述不同詞匯間臨近關(guān)系的共現(xiàn)矩陣。
根據(jù)每個(gè)詞匯與其他詞匯在規(guī)定窗口中出現(xiàn)的次數(shù)構(gòu)造共現(xiàn)矩陣X,矩陣中的元素Xij表示詞匯j在中心詞i的上下文中出現(xiàn)的次數(shù)。當(dāng)詞j再次出現(xiàn)在中心詞i的上下文中時(shí),通過(guò)Xi,j=Xi,j+1更新矩陣中的元素Xij,然后循環(huán)計(jì)算直到每個(gè)詞都作為中心詞更新過(guò)共現(xiàn)矩陣。例如分好詞的語(yǔ)料:“菠蘿,很,好吃”,“荔枝,和,菠蘿,很,甜”,“荔枝,非常,甜”,設(shè)置窗口大小為3,即取中心詞前后各一個(gè)詞作為上下文,分詞共現(xiàn)矩陣如圖1所示。
設(shè)Pi,k代表詞k作為詞i上下文出現(xiàn)的概率,即:
由于Pi,k=Xi,k/Xj,k會(huì)隨著單詞i、j、k之間相關(guān)度的變化而變化,所以GloVe設(shè)定了一個(gè)由詞向量計(jì)算得出的函數(shù)g(vi,vj,vk)來(lái)逼近Pi,k=Xi,k/Xj,k,使得詞向量同樣可以蘊(yùn)含共現(xiàn)矩陣所蘊(yùn)含的信息。GloVe中設(shè)計(jì)的g(vi,vj,vk)=exp((vi-vj)Tvk),即盡可能使得以下等式:
圖2 函數(shù)f(x)圖像
社交影響力[13]是指一個(gè)人或事物會(huì)對(duì)網(wǎng)絡(luò)中另一個(gè)人的行為偏好產(chǎn)生影響,在網(wǎng)絡(luò)中尋找具有影響力的中心節(jié)點(diǎn)并刻畫(huà)其對(duì)鄰居節(jié)點(diǎn)產(chǎn)生的影響具有重要意義,其已被廣泛應(yīng)用于社交推薦[14]和廣告?zhèn)鞑15]等領(lǐng)域。為了在社交網(wǎng)絡(luò)中學(xué)習(xí)出緊湊的網(wǎng)絡(luò)信息特征,并使其保留復(fù)雜的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),提出了一個(gè)基于影響力的圖神經(jīng)網(wǎng)絡(luò)模型IAGNN (Influence-Aware Graph Neural Networks),如圖3所示。首先,IAGNN以圖數(shù)據(jù)作為輸入,根據(jù)節(jié)點(diǎn)間不同的拓?fù)浣Y(jié)構(gòu)關(guān)系得到拓?fù)湫畔,然后將入度作為節(jié)點(diǎn)vi的基本影響信息B。再集成節(jié)點(diǎn)vi的拓?fù)湫畔和基本影響信息B后獲得該節(jié)點(diǎn)的綜合影響力信息矩陣W,最終模型會(huì)從注意力層輸出學(xué)習(xí)到的節(jié)點(diǎn)表示形式并用于下游任務(wù)。
圖3 IAGNN模型
社交網(wǎng)絡(luò)中任意兩個(gè)節(jié)點(diǎn)vi和vj之間不同類型的邊可以表示節(jié)點(diǎn)vi在節(jié)點(diǎn)vj上的不同影響。如圖4所示,從左向右依次表示節(jié)點(diǎn)vi和vj之間存在三種類型的邊,即:vi單向跟隨或轉(zhuǎn)發(fā)vj,vj單向跟隨或轉(zhuǎn)發(fā)vi,以及vi和vj互相跟隨。在社交網(wǎng)絡(luò)中,大多數(shù)主動(dòng)關(guān)注或轉(zhuǎn)發(fā)都可以視為接受另一方行為的影響,并且另一方應(yīng)對(duì)其自身施加影響。此外,節(jié)點(diǎn)vj對(duì)vi的影響還取決于vj被關(guān)注的數(shù)量[16]:
圖4 節(jié)點(diǎn)vi和vj的三種不同拓?fù)?/p>
其中a、b和c為常數(shù),Ii表示節(jié)點(diǎn)vi的直接前驅(qū)節(jié)點(diǎn)數(shù)量,并且根據(jù)上述分析的三種情況在實(shí)驗(yàn)中分配了它們的值。該公式能表示當(dāng)vj受到更多關(guān)注時(shí),vj對(duì)其他節(jié)點(diǎn)的影響更大。
通過(guò)標(biāo)準(zhǔn)化wi={wij1,wij2,…,wijN}生成權(quán)重矩陣w∈Rn*n來(lái)獲得wij,該權(quán)重矩陣表示其他節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)vi的影響。
在嵌入過(guò)程中,每個(gè)節(jié)點(diǎn)都通過(guò)注意力層實(shí)現(xiàn)自注意力機(jī)制。多頭注意力機(jī)制[17]先對(duì)權(quán)重矩陣進(jìn)行線性變換,然后將其輸入到按比例縮放的點(diǎn)積注意力。每個(gè)線性變換的參數(shù)W是不同的。此外,按比例縮放的點(diǎn)積注意力進(jìn)行了N次。該文的注意力層利用的注意力機(jī)制表示為:
a:RF′×RF′→R
之后計(jì)算相似系數(shù)eij:
eij=a([Whi‖Whj])
為了方便統(tǒng)計(jì)注意力系數(shù),經(jīng)過(guò)Softmax對(duì)節(jié)點(diǎn)vj和vi正則化:
αij=softmax(eij)
對(duì)于這樣一個(gè)單層前饋神經(jīng)網(wǎng)絡(luò),使用非線性函數(shù)LeakyReLU進(jìn)行激活,并通過(guò)規(guī)范化不同節(jié)點(diǎn)之間的注意力系數(shù)來(lái)獲得歸一化注意力。在IAGNN模型中,利用節(jié)點(diǎn)之間的關(guān)系以及節(jié)點(diǎn)vi本身的受眾規(guī)模來(lái)獲得相應(yīng)的節(jié)點(diǎn)綜合影響矩陣W。在通過(guò)注意力機(jī)制計(jì)算了影響力系數(shù)之后,對(duì)系數(shù)進(jìn)行正則化和激活函數(shù)操作。此外,每個(gè)頭的聚合特征被級(jí)聯(lián),并且進(jìn)一步通過(guò)非線性激活函數(shù)σ輸出低維節(jié)點(diǎn)表示:
在卷積的每一層中,k個(gè)注意機(jī)制獨(dú)立工作,并最終將其計(jì)算串聯(lián)起來(lái)。IAGNN的算法流程如算法1所示。訓(xùn)練嵌入網(wǎng)絡(luò)后,所學(xué)習(xí)的節(jié)點(diǎn)表示不僅可以表征節(jié)點(diǎn)的潛在特征,還可以探索網(wǎng)絡(luò)中的影響信息。此外,學(xué)習(xí)低維節(jié)點(diǎn)表示會(huì)用于后續(xù)的節(jié)點(diǎn)分類和鏈接預(yù)測(cè)任務(wù)等下游任務(wù),建立各種農(nóng)產(chǎn)品與銷售商、銷售地區(qū)以及潛在買(mǎi)家等節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系,進(jìn)而用于銷售推薦策略。
算法1:IAGNN
1:fori=1,2,…,ndo
2:forjinNido
αij=softmax(wijeij)
4: end for
5:end for
該文以農(nóng)產(chǎn)品特征數(shù)據(jù)和銷售數(shù)據(jù)為基礎(chǔ),實(shí)現(xiàn)了一個(gè)農(nóng)產(chǎn)品銷售途徑推薦系統(tǒng)。其中,銷售地推薦基于面向農(nóng)產(chǎn)品的全局詞向量表示方法AP-GloVe設(shè)計(jì)實(shí)現(xiàn);而銷售商推薦模塊在獲得待推薦銷售地的基礎(chǔ)上完成;潛在買(mǎi)家推薦則基于IAGNN模型實(shí)現(xiàn)。
為實(shí)現(xiàn)銷售地與銷售商推薦,從構(gòu)建的數(shù)據(jù)集與自定義語(yǔ)料庫(kù)中提取文本特征,并計(jì)算根據(jù)提出的AP-GloVe方法所生成嵌入向量的相似度,為特定的農(nóng)產(chǎn)品推薦top-N個(gè)適合的銷售地點(diǎn)。該結(jié)果不僅成為最終展示給用戶的銷售地推薦結(jié)果,也會(huì)輸入銷售商推薦模塊成為銷售商推薦過(guò)程中的一個(gè)決定性因素,流程如圖5所示。
圖5 銷售地銷售商推薦流程
銷售商推薦主要負(fù)責(zé)在給定果蔬品種時(shí),根據(jù)獲取的銷售商數(shù)據(jù)對(duì)銷售商進(jìn)行篩選,具體流程如圖6所示。輸入的銷售商信息經(jīng)過(guò)銷售品種過(guò)濾、銷量過(guò)濾、銷售額過(guò)濾以及銷售地過(guò)濾四個(gè)篩選環(huán)節(jié)輸出最終待推薦的top-N銷售商。在每個(gè)環(huán)節(jié)執(zhí)行前判斷待推薦列表大小,來(lái)防止推薦結(jié)果為空或過(guò)多的情況。如果列表為空則輸出該環(huán)節(jié)執(zhí)行前待推薦列表的前N行;如果大于N則繼續(xù)執(zhí)行下一個(gè)篩選環(huán)節(jié);否則直接輸出當(dāng)前待推薦列表。銷售地過(guò)濾是將先前在銷售地推薦模塊獲得的結(jié)果作為限制條件進(jìn)一步縮小待推薦銷售商范圍,使最終推薦結(jié)果盡可能符合預(yù)銷售方向和預(yù)售地區(qū),并且保證一定的銷量與口碑。
圖6 銷售商推薦流程
潛在買(mǎi)家推薦模塊根據(jù)給定社交網(wǎng)絡(luò)中節(jié)點(diǎn)與節(jié)點(diǎn)的社交關(guān)系以及節(jié)點(diǎn)的社交行為,通過(guò)設(shè)計(jì)的IAGNN模型得到蘊(yùn)含行為與關(guān)系語(yǔ)義的節(jié)點(diǎn)特征表示向量,然后該向量通過(guò)相似度計(jì)算實(shí)現(xiàn)節(jié)點(diǎn)分類與鏈路預(yù)測(cè)任務(wù),完成對(duì)預(yù)售農(nóng)產(chǎn)品推薦有相似喜好和行為的潛在消費(fèi)者,模型總體流程如圖7所示。
圖7 潛在買(mǎi)家推薦流程
為驗(yàn)證AP-GloVe模型生成詞嵌入的準(zhǔn)確性,將Word2Vec的CBOW和Skip-Gram、GloVe、Skip-Gram模型與提出的AP- GloVe模型,在SimLex-999、Wordsim-240和Wordsim-296等詞的相似性任務(wù)數(shù)據(jù)集上進(jìn)行了對(duì)比分析,這些數(shù)據(jù)集包含了詞對(duì)間的相似性評(píng)分。通過(guò)計(jì)算出詞向量間的余弦相似度與數(shù)據(jù)集中相似度評(píng)分的Pearson相關(guān)系數(shù)來(lái)評(píng)估詞嵌入的準(zhǔn)確性,相關(guān)系數(shù)越大表示嵌入結(jié)果相似度與詞對(duì)本身相似度越貼合,得出的Pearson相關(guān)系數(shù)如表1所示。
表1 AP-GloVe方法在詞相似任務(wù)上的Pearson相關(guān)系數(shù)
可以看出,提出的AP-GloVe在具有296組中文詞對(duì)的Wordsim-296數(shù)據(jù)集上明顯優(yōu)于其他方法,并且在其他數(shù)據(jù)集上與其他方法的差距也較小,說(shuō)明該方法保留低共現(xiàn)詞對(duì)信息也可以得到效果相似的嵌入向量。GloVe也有較為穩(wěn)定的效果,說(shuō)明GloVe綜合了全局詞匯的共現(xiàn)信息和Word2Vec局部窗口上下文的優(yōu)勢(shì)是有效的,而且不需要計(jì)算共現(xiàn)次數(shù)為0的詞對(duì),在矩陣計(jì)算中有效的減少了計(jì)算量。
為了驗(yàn)證IAGNN模型生成節(jié)點(diǎn)表示的準(zhǔn)確性,在多個(gè)數(shù)據(jù)集上使用IAGNN與幾種相似的圖網(wǎng)絡(luò)進(jìn)行比對(duì),具體通過(guò)節(jié)點(diǎn)分類與鏈路預(yù)測(cè)這兩個(gè)下游任務(wù)進(jìn)行衡量。
實(shí)驗(yàn)基本設(shè)置如下:當(dāng)應(yīng)用L2正則化時(shí),α=0.2,λ=0.000 5。對(duì)于所有方法和數(shù)據(jù)集,epochs設(shè)置為10 000,dropout設(shè)置為0.6,初始學(xué)習(xí)率為0.005。根據(jù)樣本量,用于計(jì)算節(jié)點(diǎn)之間拓?fù)溆绊懙某?shù)a、b和c分別設(shè)置為60、10和40。為了公平起見(jiàn),該文按照對(duì)比算法原文的默認(rèn)參數(shù)進(jìn)行設(shè)置,包括GAT[18]、GCN[19]、GraphSage[20]和AGNN[21]。
表2顯示了在Twitter、Weibo、Digg和Cora四個(gè)數(shù)據(jù)集上的五種圖網(wǎng)絡(luò)表示學(xué)習(xí)方法在節(jié)點(diǎn)分類任務(wù)上的實(shí)驗(yàn)結(jié)果??傮w而言,實(shí)驗(yàn)結(jié)果表明提出的IAGNN模型的性能優(yōu)于其他比較算法,這表明在節(jié)點(diǎn)嵌入訓(xùn)練過(guò)程中,IAGNN保留了網(wǎng)絡(luò)中節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)和基本影響。除此之外,由表中結(jié)果可以觀察到GAT的性能也較好,這可能是由于GAT和IAGNN涉及的注意力機(jī)制促進(jìn)了預(yù)測(cè)精度的提升。在非社交網(wǎng)絡(luò)形式的Cora和CiteSeer數(shù)據(jù)集上的結(jié)果表明,所提出的IAGNN可以適用于更為廣泛的業(yè)務(wù)領(lǐng)域??傊琁AGNN通過(guò)在生成影響信息矩陣時(shí)保留了圖的拓?fù)浣Y(jié)構(gòu)來(lái)提高節(jié)點(diǎn)嵌入的準(zhǔn)確性。
表2 節(jié)點(diǎn)分類算法精度比較
鏈路預(yù)測(cè)任務(wù)可以描述兩個(gè)節(jié)點(diǎn)之間建立連接關(guān)系的可能行。表3顯示了GAT、GCN以及提出的IAGNN三種算法在不同數(shù)據(jù)集上進(jìn)行鏈路預(yù)測(cè)任務(wù)的AUC性能比較??梢钥吹剑琁AGNN模型的AUC性能在鏈路預(yù)測(cè)任務(wù)中明顯優(yōu)于所有基線。
表3 鏈路預(yù)測(cè)算法AUC性能比較
針對(duì)農(nóng)產(chǎn)品銷售特征設(shè)計(jì)了一個(gè)農(nóng)產(chǎn)品銷售途徑推薦系統(tǒng)。系統(tǒng)通過(guò) AP-GloVe方法為用戶推薦預(yù)售產(chǎn)品適合的銷售地,并借助銷售地模塊結(jié)果對(duì)銷售商等數(shù)據(jù)分析處理來(lái)為用戶推薦預(yù)售產(chǎn)品的銷售商,最終利用IAGNN網(wǎng)絡(luò)模型解決預(yù)售產(chǎn)品潛在買(mǎi)家推薦問(wèn)題,在相關(guān)實(shí)驗(yàn)中取得了優(yōu)于基線的效果。然而實(shí)際的農(nóng)產(chǎn)品銷售還面臨政策、資金、環(huán)境等多方面的影響,隨著數(shù)據(jù)越來(lái)越多元化與技術(shù)的不斷革新,農(nóng)產(chǎn)品線上銷售的道路上還有很多方面值得去研究。