K-Means算法與數(shù)據(jù)挖掘在旅游電商平臺設(shè)計中的應(yīng)用

2022-05-05 09:11:34尹壽芳張善智

西昌學(xué)院學(xué)報（自然科學(xué)版） 2022年1期

尹壽芳，張善智

(安徽工業(yè)經(jīng)濟職業(yè)技術(shù)學(xué)院商貿(mào)學(xué)院，安徽合肥 230051)

0 引言

近年來，隨著國民經(jīng)濟水平的飛速增長，人們的生活質(zhì)量和生活水平得到了顯著提升，旅游消費在人們?nèi)粘Ｉ钕M中所占的比重越來越高。電子商務(wù)行業(yè)的興起和數(shù)據(jù)挖掘技術(shù)的發(fā)展為旅游服務(wù)業(yè)提供了新的消費模式，旅游電子商務(wù)平臺已經(jīng)逐漸成了人們獲取旅游資訊和進行旅游產(chǎn)品預(yù)定的重要手段[1]。但大多旅游電商平臺的商品查找流程煩瑣，且產(chǎn)品推薦界面千篇一律，難以滿足用戶的需求。

近年來數(shù)據(jù)挖掘與電子商務(wù)結(jié)合的研究眾多，研究多采用聚類分析、分類算法和關(guān)聯(lián)分析3類數(shù)據(jù)挖掘方法進行電商精準營銷。張磊等[2]利用lightGBM機器學(xué)習模型進行數(shù)據(jù)分類，挖掘電商廣告轉(zhuǎn)化率的影響因素，以此為基礎(chǔ)對電商搜索廣告進行優(yōu)化調(diào)整，有效實現(xiàn)了電商平臺的個性化廣告推薦；郭艷萍[3]采用模糊運算聚類算法對電商客戶數(shù)據(jù)進行數(shù)據(jù)信息挖掘分析，對電商平臺用戶進行聚類劃分，為實現(xiàn)電商平臺針對化服務(wù)提供輔助決策；阿榮等[4]采用Apriori關(guān)聯(lián)規(guī)則算法對電商平臺用戶進行分類，并根據(jù)用戶的商品興趣參數(shù)估計結(jié)果，為電商平臺用戶提供精準化客戶服務(wù)。在以上研究中，數(shù)據(jù)挖掘與電子商務(wù)的有機融合已經(jīng)取得了一定的成果，但所采用的數(shù)據(jù)挖掘算法仍存在一定的局限性，數(shù)據(jù)挖掘結(jié)果受數(shù)據(jù)集干擾因素影響較大，對多指標群體的劃分精度不夠高，需要進一步加強電商平臺數(shù)據(jù)信息挖掘，為提升電商平臺客戶服務(wù)水平提供參考。

為了進一步提升旅游電商平臺精準化營銷的服務(wù)水平，本研究對K-means聚類算法進行優(yōu)化改進，以提升K-means聚類算法的分析性能，并將其應(yīng)用在旅游電子商務(wù)服務(wù)中，期望通過數(shù)據(jù)分析與整合的手段為用戶定制個性化的旅游產(chǎn)品推薦界面，提升旅游電商平臺的服務(wù)質(zhì)量。

1 基于改進K-means聚類算法的旅游電商平臺設(shè)計

1.1 基于K-means聚類算法的旅游電商平臺

數(shù)據(jù)挖掘是一種基于數(shù)據(jù)庫進行數(shù)據(jù)自動搜索的信息分析手段，通過對現(xiàn)有數(shù)據(jù)進行歸納整理和推理分析，挖掘數(shù)據(jù)中隱含的有價值的知識信息，分析整體趨勢走向，從而對未來變化情況進行合理預(yù)測與決策[5-6]。以數(shù)據(jù)挖掘為基礎(chǔ)構(gòu)建旅游電子商務(wù)平臺，通過對旅游電商平臺用戶相關(guān)信息數(shù)據(jù)進行智能化分析，對用戶的消費潛力和消費傾向進行預(yù)測與判斷，從而為用戶提供具有針對化服務(wù)功能的旅游電商平臺，在方便用戶快速找到心儀的旅游產(chǎn)品的同時，提升旅游電商平臺的銷售量，增強旅游服務(wù)商的行業(yè)競爭力。利用旅游電商平臺上用戶的訪問日志，挖掘用戶的瀏覽偏好特征，根據(jù)不同的商品瀏覽屬性特征，對旅游電商用戶進行用戶聚類，從而為用戶提供個性化旅游商品推薦，優(yōu)化用戶的平臺瀏覽體驗，便于用戶更快地尋找到滿足自己需求的旅游產(chǎn)品。

聚類分析是常用的數(shù)據(jù)挖掘技術(shù)手段，根據(jù)數(shù)據(jù)對象之間的屬性等聯(lián)系，將數(shù)據(jù)庫分為不同的類或簇，歸屬于同一類或簇的數(shù)據(jù)對象具有一定的相似性，通過相似度函數(shù)劃分數(shù)據(jù)對象的相似性[7-8]。K-means聚類算法通過聚類中心對數(shù)據(jù)對象進行聚類劃分，隨機選擇k個聚類中心，按照就近原則將數(shù)據(jù)樣本劃分為k類，然后通過均值計算對歸于同一類的數(shù)據(jù)樣本進行聚類中心重新劃分，反復(fù)進行聚類中心篩選操作，當聚類中心不再發(fā)生改變時算法終止，實現(xiàn)對數(shù)據(jù)對象的劃分聚類，K-means聚類算法運行流程如圖1所示。

圖1 K-means聚類算法運行流程

數(shù)據(jù)集合S={x1,x2,…,xn}中包括n個p維的數(shù)據(jù)樣本，數(shù)據(jù)集合的數(shù)據(jù)矩陣表示如下：

(1)

首先確定數(shù)據(jù)樣本集合的聚類中心，隨機選擇k個聚類中心點，數(shù)據(jù)樣本xi與聚類中心的歐式距離計算函數(shù)d表示如下：

(2)

數(shù)據(jù)對象的差異性矩陣C表示如下：

(3)

通過均值計算的方式對不同類屬的聚類中心點進行重新劃分，得到聚類中心集合，算法反復(fù)迭代直到k個聚類中心不再發(fā)生變化。

1.2 K-means聚類算法損失函數(shù)優(yōu)化

傳統(tǒng)K-means聚類算法的梯度更新以全量數(shù)據(jù)為更新對象，在面對海量數(shù)據(jù)聚類分析時，算法收斂速度較慢，更新計算量巨大[9-10]。為了提升K-means聚類算法的運行效率，采用隨機梯度下降法進行梯度更新，利用樣本的梯度值進行聚類中心的更新操作，通過小部分樣本的計算達到算法更新的目的，加快算法的收斂速度。將樣本與最近聚類中心點的距離平方作為算法的損失函數(shù)，損失函數(shù)表示如下：

(4)

式中：w表示損失值；x表示數(shù)據(jù)樣本集合中的一個隨機樣本；w*表示與該樣本距離最近的聚類中心點。隨機梯度下降法函數(shù)表示如下：

w=w-lr×(w*-x)

(5)

式中：lr表示學(xué)習率。利用隨機梯度下降法對w進行更新，當聚類中心的變化值小于閾值或損失值變化小于閾值時，算法完成收斂，停止參數(shù)更新。

傳統(tǒng)的K-means聚類算法較為復(fù)雜，容易發(fā)生過擬合現(xiàn)象，出現(xiàn)在訓(xùn)練數(shù)據(jù)集上表現(xiàn)較好而在測試集上表現(xiàn)較差的問題[11]。通常通過添加正則化項的方式防止過擬合現(xiàn)象的發(fā)生，對損失函數(shù)進行擴展，在損失函數(shù)中加入模型參數(shù)向量的范數(shù)，對模型復(fù)雜度進行懲罰[12]。將L2正則引入K-means聚類算法(L2表示損失函數(shù)中模型參數(shù)向量的范數(shù))，求參數(shù)向量各元素的平方和，然后進行開方，利用L2范數(shù)提升算法損失函數(shù)的求解穩(wěn)定性，避免算法過擬合。并利用L2范數(shù)將損失函數(shù)變?yōu)閺娡购瘮?shù)，加快算法收斂，提升迭代的收斂效率。多項式模型出現(xiàn)過擬合現(xiàn)象時，其函數(shù)曲線與噪聲點接近，出現(xiàn)在噪聲點之間來回跳躍的情況，函數(shù)曲線部分區(qū)域的切線斜率較高，導(dǎo)致函數(shù)導(dǎo)數(shù)的絕對值過大[13]。L2范數(shù)的引入可以使得較大參數(shù)的值均勻集中在0附近，有效提升算法的泛化能力，避免K-means聚類算法出現(xiàn)過擬合現(xiàn)象。

1.3 K-means聚類算法學(xué)習率優(yōu)化

學(xué)習率的選擇影響算法的收斂速度，合適的學(xué)習率能有效提升算法的收斂效率，訓(xùn)練初期應(yīng)采用較大的學(xué)習率來縮短訓(xùn)練時間，提升算法效率，訓(xùn)練后期應(yīng)對學(xué)習率進行適當減小調(diào)整，避免出現(xiàn)因參數(shù)收斂速度較快而跳過極小值點的問題[14]。傳統(tǒng)的K-means聚類算法利用固定的學(xué)習率值進行訓(xùn)練，容易造成算法震蕩，影響算法性能，因此采用自適應(yīng)梯度優(yōu)化算法對學(xué)習率方向進行自適應(yīng)確定，通過對歷史梯度的指數(shù)衰減平均值和歷史梯度平方的指數(shù)衰減平均值進行存儲，自適應(yīng)確定算法的衰減學(xué)習率。自適應(yīng)梯度優(yōu)化算法具有較強的魯棒性，利用梯度的均值和有偏方差進行估計移動平均，通過偏差修正的方式減小初始化偏差，增強算法的實用性。一階梯度和二階梯度的衰減平均值計算函數(shù)表示如下：

(6)

式中：m和v分別表示一階動量和二階動量；mt表示均值估計；vt表示有偏方差估計；β1表示一階動量衰減系數(shù)；β2表示二階動量衰減系數(shù)；t表示初始化時間步長；gt表示偏導(dǎo)數(shù)向量。

在初始化的初期階段，m和v初始化為0向量，使得mt和vt會偏差向0，對算法性能產(chǎn)生影響，因此在自適應(yīng)梯度優(yōu)化算法中增加偏差校正機制，通過偏差修正保證每次迭代學(xué)習率均保持在確定的范圍內(nèi)。均值估計和有偏方差估計修正函數(shù)表示如下：

(7)

采用自適應(yīng)梯度優(yōu)化算法對K-means聚類算法進行優(yōu)化改進，通過指數(shù)衰減的方式進行學(xué)習率更新，從而控制梯度更新的步長，提升K-means聚類算法的收斂速度。

1.4 K-means聚類算法初始中心點優(yōu)化

傳統(tǒng)K-means聚類算法對初始聚類中心點位置的依賴性較高，聚類中心點的初始位置直接影響算法的最終解的優(yōu)劣，而傳統(tǒng)K-means聚類算法的初始聚類中心點通過隨機選擇的方式確定，具有很強的不確定性[15]。因此采用密度法對k個聚類中心初始位置的選擇方式進行優(yōu)化，結(jié)合密度參數(shù)確定k個初始聚類中心，基于密度法的K-means聚類算法優(yōu)化流程如圖2所示。

圖2 基于密度法的初始聚類中心點優(yōu)化流程

數(shù)據(jù)樣本集合S={x1,x2,…,xn}中數(shù)據(jù)對象之間的平均距離計算函數(shù)表示如下：

(8)

式中：M(S)表示平均距離；d(xi,xj)表示數(shù)據(jù)對象xi和數(shù)據(jù)對象xj之間的距離。數(shù)據(jù)對象xi的密度參數(shù)計算函數(shù)表示如下：

(9)

式中：meandist表示平均距離。

計算數(shù)據(jù)集合S中的所有數(shù)據(jù)對象的密度參數(shù)，形成密度參數(shù)集合D={den(xi,meandist),i∈(1,2,…,n)}。對集合D進行篩選，若數(shù)據(jù)集合D中密度參數(shù)最大的樣本i的參數(shù)值等于1，則將該數(shù)據(jù)對象加入初始聚類中心候選集，若密度參數(shù)最大值大于1，并且樣本點之間的距離低于平均距離，則最大密度參數(shù)所對應(yīng)的平均距離范圍內(nèi)的所有點與距離之和的計算函數(shù)表示如下：

(10)

將sum(Di)的最小值所對應(yīng)的數(shù)據(jù)對象加入初始聚類中心候選集中，刪除密度參數(shù)集合中的數(shù)據(jù)對象i，并刪除數(shù)據(jù)集D中與數(shù)據(jù)對象i的距離低于平均距離的數(shù)據(jù)樣本，反復(fù)迭代直至候選集中的聚類中心點數(shù)量為k，這k個中心點即為算法的初始聚類中心點。通過密度法進行初始聚類中心點的選擇，有效避免了傳統(tǒng)K-means聚類算法的初始聚類中心點隨機性較大的問題，提升初始聚類中心點位置選擇的穩(wěn)定性，減小初始聚類中心點位置對算法性能的不良影響。

2 實驗與結(jié)果分析

為了驗證改進K-means聚類算法的優(yōu)化性和有效性，利用傳統(tǒng)K-means聚類算法和改進K-means聚類算法對旅游電商平臺數(shù)據(jù)進行處理，分別進行20次數(shù)據(jù)聚類分析實驗，對2種算法的響應(yīng)時間進行對比，對比結(jié)果如圖3所示。

從圖3中可以看出，傳統(tǒng)K-means聚類算法的平均響應(yīng)時間為0.724 s，其中最大響應(yīng)時間為0.861 s，傳統(tǒng)K-means聚類算法的運行速度較慢，系統(tǒng)響應(yīng)時間較長。改進K-means聚類算法的平均響應(yīng)時間為0.498 s，其中最大響應(yīng)時間為0.647 s，經(jīng)過優(yōu)化改進，改進K-means聚類算法的平均響應(yīng)響應(yīng)時間縮短了0.226 s，系統(tǒng)響應(yīng)速度提升了31.2%。通過隨機梯度下降法和引入正則化項的方式對算法的損失函數(shù)進行優(yōu)化，并利用自適應(yīng)梯度優(yōu)化算法自適應(yīng)確定算法學(xué)習率，有效提升了K-means聚類算法的運行效率，加快算法收斂速度，從而縮短了改進K-means聚類算法的響應(yīng)時間，具有較好的優(yōu)化性，K-means聚類算法的分析性能得到了明顯提升。

圖3 改進前后的K-means聚類算法性能對比

為了驗證基于改進K-means聚類算法的旅游電商平臺的實用性和可行性，采用線上實驗的方式對改進K-means聚類算法的個性化推薦效果進行測試實驗，并對瀏覽量等平臺數(shù)據(jù)進行統(tǒng)計分析，基于改進K-means聚類算法的旅游電商平臺的數(shù)據(jù)統(tǒng)計情況如表1所示。

表1 基于改進K-means聚類算法的旅游電商平臺數(shù)據(jù)

從表1中可以看出，基于改進K-means聚類算法的旅游電商平臺4周的平均每周平臺瀏覽量為12 163次，其中經(jīng)過改進K-means聚類算法個性化推薦的旅游產(chǎn)品的平均每周瀏覽量為1 874次，平臺用戶的瀏覽行為中推薦旅游產(chǎn)品的占比為15.41%。旅游電商平臺的每周平均產(chǎn)品購買量為194.5次，其中推薦旅游產(chǎn)品的每周平均購買量為55.25次，用戶購買行為中推薦旅游產(chǎn)品的占比為28.41%。結(jié)合改進K-means聚類算法的聚類分析結(jié)果為用戶進行個性化推薦，旅游電商平臺的平均每周推薦流量轉(zhuǎn)化率為29.48%，推薦流量有效轉(zhuǎn)化為產(chǎn)品訂單，基于改進K-means聚類算法的推薦流量質(zhì)量較好，推薦流量向產(chǎn)品訂單的轉(zhuǎn)化率較高，能有效通過針對化的智能旅游產(chǎn)品推薦促成訂單成交，提升電子商務(wù)平臺的銷售業(yè)績。

利用改進K-means聚類算法、關(guān)聯(lián)規(guī)則挖掘算法(Apriori)和基于用戶的協(xié)同過濾算法(User-based CF)在旅游電商平臺線上生產(chǎn)環(huán)境中進行在線實驗，3種算法的旅游產(chǎn)品推薦成交情況如表2所示。

表2 3種算法的旅游產(chǎn)品推薦成交情況

從表2中可以看出，基于改進K-means聚類算法的旅游電商平臺的推薦流量轉(zhuǎn)化率為2.93%，優(yōu)于Apriori算法的2.58%和User-based CF算法的2.36%，推薦轉(zhuǎn)化比例分別增加了0.35%和0.57%。在改進K-means聚類算法個性化推薦下，平臺用戶瀏覽行為中的推薦瀏覽率為28.21%，相較于Apriori算法和User-based CF算法分別提升了4.58%和7.74%，平臺用戶購買行為中的推薦旅游產(chǎn)品購買率為15.37%，相較于Apriori算法和User-based CF算法分別提升了1.93%和2.42%。利用改進K-means聚類算法構(gòu)建旅游電商平臺，為用戶差異化地推薦符合其購買意向的旅游產(chǎn)品，能有效提高電商平臺的旅游產(chǎn)品成交量，提升旅游企業(yè)的經(jīng)濟效益。

3 結(jié)論

隨著電子商務(wù)行業(yè)的興起，旅游產(chǎn)品銷售方式發(fā)生變化，在線旅游產(chǎn)品預(yù)定方式成了一種趨勢。為了提升旅游電子商務(wù)服務(wù)水平，基于K-means聚類算法構(gòu)建旅游電子商務(wù)平臺，并采用隨機梯度下降算法、自適應(yīng)梯度優(yōu)化算法和密度法對K-means聚類算法進行優(yōu)化改進，提升K-means聚類算法的收斂速度和運行性能。實驗結(jié)果表明，改進K-means聚類算法的平均響應(yīng)時間為0.498 s，系統(tǒng)響應(yīng)速度相較于傳統(tǒng)算法提升了31.2%，具有優(yōu)化性?；诟倪MK-means聚類算法的旅游電子商務(wù)平臺的推薦流量轉(zhuǎn)化率為2.93%，平臺用戶瀏覽行為中的推薦瀏覽率為28.21%，平臺用戶購買行為中的推薦旅游產(chǎn)品購買率為15.37%，優(yōu)于Apriori算法和User-based CF算法，能為平臺用戶提供個性化的旅游產(chǎn)品推薦，有效提升了旅游產(chǎn)品的購買成交量，具有較強的實用性和可行性，

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡