国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

K-Means算法與數(shù)據(jù)挖掘在旅游電商平臺設(shè)計中的應(yīng)用

2022-05-05 09:11:34尹壽芳張善智
關(guān)鍵詞:中心點梯度聚類

尹壽芳,張善智

(安徽工業(yè)經(jīng)濟職業(yè)技術(shù)學(xué)院商貿(mào)學(xué)院,安徽 合肥 230051)

0 引言

近年來,隨著國民經(jīng)濟水平的飛速增長,人們的生活質(zhì)量和生活水平得到了顯著提升,旅游消費在人們?nèi)粘I钕M中所占的比重越來越高。電子商務(wù)行業(yè)的興起和數(shù)據(jù)挖掘技術(shù)的發(fā)展為旅游服務(wù)業(yè)提供了新的消費模式,旅游電子商務(wù)平臺已經(jīng)逐漸成了人們獲取旅游資訊和進行旅游產(chǎn)品預(yù)定的重要手段[1]。但大多旅游電商平臺的商品查找流程煩瑣,且產(chǎn)品推薦界面千篇一律,難以滿足用戶的需求。

近年來數(shù)據(jù)挖掘與電子商務(wù)結(jié)合的研究眾多,研究多采用聚類分析、分類算法和關(guān)聯(lián)分析3類數(shù)據(jù)挖掘方法進行電商精準營銷。張磊等[2]利用lightGBM機器學(xué)習模型進行數(shù)據(jù)分類,挖掘電商廣告轉(zhuǎn)化率的影響因素,以此為基礎(chǔ)對電商搜索廣告進行優(yōu)化調(diào)整,有效實現(xiàn)了電商平臺的個性化廣告推薦;郭艷萍[3]采用模糊運算聚類算法對電商客戶數(shù)據(jù)進行數(shù)據(jù)信息挖掘分析,對電商平臺用戶進行聚類劃分,為實現(xiàn)電商平臺針對化服務(wù)提供輔助決策;阿榮等[4]采用Apriori關(guān)聯(lián)規(guī)則算法對電商平臺用戶進行分類,并根據(jù)用戶的商品興趣參數(shù)估計結(jié)果,為電商平臺用戶提供精準化客戶服務(wù)。在以上研究中,數(shù)據(jù)挖掘與電子商務(wù)的有機融合已經(jīng)取得了一定的成果,但所采用的數(shù)據(jù)挖掘算法仍存在一定的局限性,數(shù)據(jù)挖掘結(jié)果受數(shù)據(jù)集干擾因素影響較大,對多指標群體的劃分精度不夠高,需要進一步加強電商平臺數(shù)據(jù)信息挖掘,為提升電商平臺客戶服務(wù)水平提供參考。

為了進一步提升旅游電商平臺精準化營銷的服務(wù)水平,本研究對K-means聚類算法進行優(yōu)化改進,以提升K-means聚類算法的分析性能,并將其應(yīng)用在旅游電子商務(wù)服務(wù)中,期望通過數(shù)據(jù)分析與整合的手段為用戶定制個性化的旅游產(chǎn)品推薦界面,提升旅游電商平臺的服務(wù)質(zhì)量。

1 基于改進K-means聚類算法的旅游電商平臺設(shè)計

1.1 基于K-means聚類算法的旅游電商平臺

數(shù)據(jù)挖掘是一種基于數(shù)據(jù)庫進行數(shù)據(jù)自動搜索的信息分析手段,通過對現(xiàn)有數(shù)據(jù)進行歸納整理和推理分析,挖掘數(shù)據(jù)中隱含的有價值的知識信息,分析整體趨勢走向,從而對未來變化情況進行合理預(yù)測與決策[5-6]。以數(shù)據(jù)挖掘為基礎(chǔ)構(gòu)建旅游電子商務(wù)平臺,通過對旅游電商平臺用戶相關(guān)信息數(shù)據(jù)進行智能化分析,對用戶的消費潛力和消費傾向進行預(yù)測與判斷,從而為用戶提供具有針對化服務(wù)功能的旅游電商平臺,在方便用戶快速找到心儀的旅游產(chǎn)品的同時,提升旅游電商平臺的銷售量,增強旅游服務(wù)商的行業(yè)競爭力。利用旅游電商平臺上用戶的訪問日志,挖掘用戶的瀏覽偏好特征,根據(jù)不同的商品瀏覽屬性特征,對旅游電商用戶進行用戶聚類,從而為用戶提供個性化旅游商品推薦,優(yōu)化用戶的平臺瀏覽體驗,便于用戶更快地尋找到滿足自己需求的旅游產(chǎn)品。

聚類分析是常用的數(shù)據(jù)挖掘技術(shù)手段,根據(jù)數(shù)據(jù)對象之間的屬性等聯(lián)系,將數(shù)據(jù)庫分為不同的類或簇,歸屬于同一類或簇的數(shù)據(jù)對象具有一定的相似性,通過相似度函數(shù)劃分數(shù)據(jù)對象的相似性[7-8]。K-means聚類算法通過聚類中心對數(shù)據(jù)對象進行聚類劃分,隨機選擇k個聚類中心,按照就近原則將數(shù)據(jù)樣本劃分為k類,然后通過均值計算對歸于同一類的數(shù)據(jù)樣本進行聚類中心重新劃分,反復(fù)進行聚類中心篩選操作,當聚類中心不再發(fā)生改變時算法終止,實現(xiàn)對數(shù)據(jù)對象的劃分聚類,K-means聚類算法運行流程如圖1所示。

圖1 K-means聚類算法運行流程

數(shù)據(jù)集合S={x1,x2,…,xn}中包括n個p維的數(shù)據(jù)樣本,數(shù)據(jù)集合的數(shù)據(jù)矩陣表示如下:

(1)

首先確定數(shù)據(jù)樣本集合的聚類中心,隨機選擇k個聚類中心點,數(shù)據(jù)樣本xi與聚類中心的歐式距離計算函數(shù)d表示如下:

(2)

數(shù)據(jù)對象的差異性矩陣C表示如下:

(3)

通過均值計算的方式對不同類屬的聚類中心點進行重新劃分,得到聚類中心集合,算法反復(fù)迭代直到k個聚類中心不再發(fā)生變化。

1.2 K-means聚類算法損失函數(shù)優(yōu)化

傳統(tǒng)K-means聚類算法的梯度更新以全量數(shù)據(jù)為更新對象,在面對海量數(shù)據(jù)聚類分析時,算法收斂速度較慢,更新計算量巨大[9-10]。為了提升K-means聚類算法的運行效率,采用隨機梯度下降法進行梯度更新,利用樣本的梯度值進行聚類中心的更新操作,通過小部分樣本的計算達到算法更新的目的,加快算法的收斂速度。將樣本與最近聚類中心點的距離平方作為算法的損失函數(shù),損失函數(shù)表示如下:

(4)

式中:w表示損失值;x表示數(shù)據(jù)樣本集合中的一個隨機樣本;w*表示與該樣本距離最近的聚類中心點。隨機梯度下降法函數(shù)表示如下:

w=w-lr×(w*-x)

(5)

式中:lr表示學(xué)習率。利用隨機梯度下降法對w進行更新,當聚類中心的變化值小于閾值或損失值變化小于閾值時,算法完成收斂,停止參數(shù)更新。

傳統(tǒng)的K-means聚類算法較為復(fù)雜,容易發(fā)生過擬合現(xiàn)象,出現(xiàn)在訓(xùn)練數(shù)據(jù)集上表現(xiàn)較好而在測試集上表現(xiàn)較差的問題[11]。通常通過添加正則化項的方式防止過擬合現(xiàn)象的發(fā)生,對損失函數(shù)進行擴展,在損失函數(shù)中加入模型參數(shù)向量的范數(shù),對模型復(fù)雜度進行懲罰[12]。將L2正則引入K-means聚類算法(L2表示損失函數(shù)中模型參數(shù)向量的范數(shù)),求參數(shù)向量各元素的平方和,然后進行開方,利用L2范數(shù)提升算法損失函數(shù)的求解穩(wěn)定性,避免算法過擬合。并利用L2范數(shù)將損失函數(shù)變?yōu)閺娡购瘮?shù),加快算法收斂,提升迭代的收斂效率。多項式模型出現(xiàn)過擬合現(xiàn)象時,其函數(shù)曲線與噪聲點接近,出現(xiàn)在噪聲點之間來回跳躍的情況,函數(shù)曲線部分區(qū)域的切線斜率較高,導(dǎo)致函數(shù)導(dǎo)數(shù)的絕對值過大[13]。L2范數(shù)的引入可以使得較大參數(shù)的值均勻集中在0附近,有效提升算法的泛化能力,避免K-means聚類算法出現(xiàn)過擬合現(xiàn)象。

1.3 K-means聚類算法學(xué)習率優(yōu)化

學(xué)習率的選擇影響算法的收斂速度,合適的學(xué)習率能有效提升算法的收斂效率,訓(xùn)練初期應(yīng)采用較大的學(xué)習率來縮短訓(xùn)練時間,提升算法效率,訓(xùn)練后期應(yīng)對學(xué)習率進行適當減小調(diào)整,避免出現(xiàn)因參數(shù)收斂速度較快而跳過極小值點的問題[14]。傳統(tǒng)的K-means聚類算法利用固定的學(xué)習率值進行訓(xùn)練,容易造成算法震蕩,影響算法性能,因此采用自適應(yīng)梯度優(yōu)化算法對學(xué)習率方向進行自適應(yīng)確定,通過對歷史梯度的指數(shù)衰減平均值和歷史梯度平方的指數(shù)衰減平均值進行存儲,自適應(yīng)確定算法的衰減學(xué)習率。自適應(yīng)梯度優(yōu)化算法具有較強的魯棒性,利用梯度的均值和有偏方差進行估計移動平均,通過偏差修正的方式減小初始化偏差,增強算法的實用性。一階梯度和二階梯度的衰減平均值計算函數(shù)表示如下:

(6)

式中:m和v分別表示一階動量和二階動量;mt表示均值估計;vt表示有偏方差估計;β1表示一階動量衰減系數(shù);β2表示二階動量衰減系數(shù);t表示初始化時間步長;gt表示偏導(dǎo)數(shù)向量。

在初始化的初期階段,m和v初始化為0向量,使得mt和vt會偏差向0,對算法性能產(chǎn)生影響,因此在自適應(yīng)梯度優(yōu)化算法中增加偏差校正機制,通過偏差修正保證每次迭代學(xué)習率均保持在確定的范圍內(nèi)。均值估計和有偏方差估計修正函數(shù)表示如下:

(7)

采用自適應(yīng)梯度優(yōu)化算法對K-means聚類算法進行優(yōu)化改進,通過指數(shù)衰減的方式進行學(xué)習率更新,從而控制梯度更新的步長,提升K-means聚類算法的收斂速度。

1.4 K-means聚類算法初始中心點優(yōu)化

傳統(tǒng)K-means聚類算法對初始聚類中心點位置的依賴性較高,聚類中心點的初始位置直接影響算法的最終解的優(yōu)劣,而傳統(tǒng)K-means聚類算法的初始聚類中心點通過隨機選擇的方式確定,具有很強的不確定性[15]。因此采用密度法對k個聚類中心初始位置的選擇方式進行優(yōu)化,結(jié)合密度參數(shù)確定k個初始聚類中心,基于密度法的K-means聚類算法優(yōu)化流程如圖2所示。

圖2 基于密度法的初始聚類中心點優(yōu)化流程

數(shù)據(jù)樣本集合S={x1,x2,…,xn}中數(shù)據(jù)對象之間的平均距離計算函數(shù)表示如下:

(8)

式中:M(S)表示平均距離;d(xi,xj)表示數(shù)據(jù)對象xi和數(shù)據(jù)對象xj之間的距離。數(shù)據(jù)對象xi的密度參數(shù)計算函數(shù)表示如下:

(9)

式中:meandist表示平均距離。

計算數(shù)據(jù)集合S中的所有數(shù)據(jù)對象的密度參數(shù),形成密度參數(shù)集合D={den(xi,meandist),i∈(1,2,…,n)}。對集合D進行篩選,若數(shù)據(jù)集合D中密度參數(shù)最大的樣本i的參數(shù)值等于1,則將該數(shù)據(jù)對象加入初始聚類中心候選集,若密度參數(shù)最大值大于1,并且樣本點之間的距離低于平均距離,則最大密度參數(shù)所對應(yīng)的平均距離范圍內(nèi)的所有點與距離之和的計算函數(shù)表示如下:

(10)

將sum(Di)的最小值所對應(yīng)的數(shù)據(jù)對象加入初始聚類中心候選集中,刪除密度參數(shù)集合中的數(shù)據(jù)對象i,并刪除數(shù)據(jù)集D中與數(shù)據(jù)對象i的距離低于平均距離的數(shù)據(jù)樣本,反復(fù)迭代直至候選集中的聚類中心點數(shù)量為k,這k個中心點即為算法的初始聚類中心點。通過密度法進行初始聚類中心點的選擇,有效避免了傳統(tǒng)K-means聚類算法的初始聚類中心點隨機性較大的問題,提升初始聚類中心點位置選擇的穩(wěn)定性,減小初始聚類中心點位置對算法性能的不良影響。

2 實驗與結(jié)果分析

為了驗證改進K-means聚類算法的優(yōu)化性和有效性,利用傳統(tǒng)K-means聚類算法和改進K-means聚類算法對旅游電商平臺數(shù)據(jù)進行處理,分別進行20次數(shù)據(jù)聚類分析實驗,對2種算法的響應(yīng)時間進行對比,對比結(jié)果如圖3所示。

從圖3中可以看出,傳統(tǒng)K-means聚類算法的平均響應(yīng)時間為0.724 s,其中最大響應(yīng)時間為0.861 s,傳統(tǒng)K-means聚類算法的運行速度較慢,系統(tǒng)響應(yīng)時間較長。改進K-means聚類算法的平均響應(yīng)時間為0.498 s,其中最大響應(yīng)時間為0.647 s,經(jīng)過優(yōu)化改進,改進K-means聚類算法的平均響應(yīng)響應(yīng)時間縮短了0.226 s,系統(tǒng)響應(yīng)速度提升了31.2%。通過隨機梯度下降法和引入正則化項的方式對算法的損失函數(shù)進行優(yōu)化,并利用自適應(yīng)梯度優(yōu)化算法自適應(yīng)確定算法學(xué)習率,有效提升了K-means聚類算法的運行效率,加快算法收斂速度,從而縮短了改進K-means聚類算法的響應(yīng)時間,具有較好的優(yōu)化性,K-means聚類算法的分析性能得到了明顯提升。

圖3 改進前后的K-means聚類算法性能對比

為了驗證基于改進K-means聚類算法的旅游電商平臺的實用性和可行性,采用線上實驗的方式對改進K-means聚類算法的個性化推薦效果進行測試實驗,并對瀏覽量等平臺數(shù)據(jù)進行統(tǒng)計分析,基于改進K-means聚類算法的旅游電商平臺的數(shù)據(jù)統(tǒng)計情況如表1所示。

表1 基于改進K-means聚類算法的旅游電商平臺數(shù)據(jù)

從表1中可以看出,基于改進K-means聚類算法的旅游電商平臺4周的平均每周平臺瀏覽量為12 163次,其中經(jīng)過改進K-means聚類算法個性化推薦的旅游產(chǎn)品的平均每周瀏覽量為1 874次,平臺用戶的瀏覽行為中推薦旅游產(chǎn)品的占比為15.41%。旅游電商平臺的每周平均產(chǎn)品購買量為194.5次,其中推薦旅游產(chǎn)品的每周平均購買量為55.25次,用戶購買行為中推薦旅游產(chǎn)品的占比為28.41%。結(jié)合改進K-means聚類算法的聚類分析結(jié)果為用戶進行個性化推薦,旅游電商平臺的平均每周推薦流量轉(zhuǎn)化率為29.48%,推薦流量有效轉(zhuǎn)化為產(chǎn)品訂單,基于改進K-means聚類算法的推薦流量質(zhì)量較好,推薦流量向產(chǎn)品訂單的轉(zhuǎn)化率較高,能有效通過針對化的智能旅游產(chǎn)品推薦促成訂單成交,提升電子商務(wù)平臺的銷售業(yè)績。

利用改進K-means聚類算法、關(guān)聯(lián)規(guī)則挖掘算法(Apriori)和基于用戶的協(xié)同過濾算法(User-based CF)在旅游電商平臺線上生產(chǎn)環(huán)境中進行在線實驗,3種算法的旅游產(chǎn)品推薦成交情況如表2所示。

表2 3種算法的旅游產(chǎn)品推薦成交情況

從表2中可以看出,基于改進K-means聚類算法的旅游電商平臺的推薦流量轉(zhuǎn)化率為2.93%,優(yōu)于Apriori算法的2.58%和User-based CF算法的2.36%,推薦轉(zhuǎn)化比例分別增加了0.35%和0.57%。在改進K-means聚類算法個性化推薦下,平臺用戶瀏覽行為中的推薦瀏覽率為28.21%,相較于Apriori算法和User-based CF算法分別提升了4.58%和7.74%,平臺用戶購買行為中的推薦旅游產(chǎn)品購買率為15.37%,相較于Apriori算法和User-based CF算法分別提升了1.93%和2.42%。利用改進K-means聚類算法構(gòu)建旅游電商平臺,為用戶差異化地推薦符合其購買意向的旅游產(chǎn)品,能有效提高電商平臺的旅游產(chǎn)品成交量,提升旅游企業(yè)的經(jīng)濟效益。

3 結(jié)論

隨著電子商務(wù)行業(yè)的興起,旅游產(chǎn)品銷售方式發(fā)生變化,在線旅游產(chǎn)品預(yù)定方式成了一種趨勢。為了提升旅游電子商務(wù)服務(wù)水平,基于K-means聚類算法構(gòu)建旅游電子商務(wù)平臺,并采用隨機梯度下降算法、自適應(yīng)梯度優(yōu)化算法和密度法對K-means聚類算法進行優(yōu)化改進,提升K-means聚類算法的收斂速度和運行性能。實驗結(jié)果表明,改進K-means聚類算法的平均響應(yīng)時間為0.498 s,系統(tǒng)響應(yīng)速度相較于傳統(tǒng)算法提升了31.2%,具有優(yōu)化性?;诟倪MK-means聚類算法的旅游電子商務(wù)平臺的推薦流量轉(zhuǎn)化率為2.93%,平臺用戶瀏覽行為中的推薦瀏覽率為28.21%,平臺用戶購買行為中的推薦旅游產(chǎn)品購買率為15.37%,優(yōu)于Apriori算法和User-based CF算法,能為平臺用戶提供個性化的旅游產(chǎn)品推薦,有效提升了旅游產(chǎn)品的購買成交量,具有較強的實用性和可行性,

猜你喜歡
中心點梯度聚類
一個改進的WYL型三項共軛梯度法
Scratch 3.9更新了什么?
電腦報(2020年12期)2020-06-30 19:56:42
一種自適應(yīng)Dai-Liao共軛梯度法
如何設(shè)置造型中心點?
電腦報(2019年4期)2019-09-10 07:22:44
一類扭積形式的梯度近Ricci孤立子
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
漢字藝術(shù)結(jié)構(gòu)解析(二)中心點處筆畫應(yīng)緊奏
基于改進的遺傳算法的模糊聚類算法
尋找視覺中心點
大眾攝影(2015年9期)2015-09-06 17:05:41
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
万安县| 普定县| 晋城| 赞皇县| 西城区| 思南县| 泽库县| 弋阳县| 清徐县| 仙游县| 平凉市| 乌拉特前旗| 南宁市| 盐池县| 清苑县| 绍兴县| 巢湖市| 清水河县| 奇台县| 定安县| 凤山县| 定南县| 桦南县| 平泉县| 宜兰县| 晋宁县| 浦城县| 荣昌县| 呼和浩特市| 甘肃省| 吉水县| 司法| 沁阳市| 于田县| 饶河县| 柘城县| 丹江口市| 罗田县| 沅江市| 开化县| 鸡泽县|