龍睿
摘? 要: 針對(duì)當(dāng)前電商大數(shù)據(jù)背景下的數(shù)據(jù)分類與挖掘中存在遞歸效率低、周期頻繁、冗余度高等問題,文中提出一種基于人工智能的大數(shù)據(jù)分類和挖掘算法。該算法采用快速Spark架構(gòu),在將獲取到的電商大數(shù)據(jù)進(jìn)行智能Spark分類的基礎(chǔ)上,通過設(shè)置根據(jù)數(shù)據(jù)管轄維度進(jìn)行控制的縱向序列,可以在較大程度上提高數(shù)據(jù)挖掘的效率。在數(shù)據(jù)挖掘的過程中構(gòu)建各類數(shù)據(jù)所對(duì)應(yīng)的挖掘模式,從而能夠在最短的時(shí)間內(nèi)生成用戶行為樹,降低數(shù)據(jù)挖掘中的冗余度。在數(shù)據(jù)分類時(shí),將用戶行為樹及其數(shù)據(jù)的集合進(jìn)行依次映射,從而解決因頻繁搜索導(dǎo)致的周期收斂困難的問題。使用旅游業(yè)電商數(shù)據(jù)對(duì)所提算法進(jìn)行仿真驗(yàn)證,結(jié)果表明,該算法在數(shù)據(jù)挖掘中消耗時(shí)間短、準(zhǔn)確度高。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 數(shù)據(jù)分類; 電商大數(shù)據(jù); 人工智能; Spark架構(gòu); 仿真驗(yàn)證
中圖分類號(hào): TN911?34? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)14?0170?03
E?commerce big data classification and mining algorithm based on artificial intelligence
LONG Rui
(Shanghai Normal University, Shanghai 200233, China)
Abstract: In allusion to the inefficient recursion, frequent cycle and high redundancy in the data classification and mining under the background of e?commerce big data, a large data classification and mining algorithm based on artificial intelligence is proposed. On the basis of intelligent Spark classification of the obtained e?commerce big data, the fast Spark architecture is used in the algorithm to improve the efficiency of data mining to a large extent by setting the longitudinal sequence controlled by something according to the data jurisdiction dimension. In the process of data mining, the mining patterns corresponding to various data are constructed, so that the user behavior tree can generate in the shortest time and the redundancy in data mining is reduced. In the data classification, the user behavior tree and its data set are mapped successively to improve the difficult periodic convergence caused by frequent searches. The simulation verification of the proposed algorithm is performed by using the tourism e?commerce data. The results show that the proposed algorithm can consume less time and has higher accuracy in the data mining.
Keywords: data mining; data classification; e?commerce big data; artificial intelligence; Spark architecture; simulation verification
0? 引? 言
近年來(lái),國(guó)內(nèi)旅游人數(shù)呈爆發(fā)式增長(zhǎng),超過50%的游客在出行時(shí)選擇如攜程、藝龍等電商進(jìn)行門票、酒店等消費(fèi)。消費(fèi)者在這些電商平臺(tái)的消費(fèi)中積累了海量的數(shù)據(jù),這些數(shù)據(jù)包括消費(fèi)者的常住地、性別、年齡、出行習(xí)慣、口味、個(gè)人愛好等。而這些數(shù)據(jù)可以幫助電商平臺(tái)更優(yōu)地對(duì)游客行為進(jìn)行分析及預(yù)測(cè),基于此開展相應(yīng)的精準(zhǔn)營(yíng)銷和信息推送。
當(dāng)前大數(shù)據(jù)挖掘主要集中于云網(wǎng)絡(luò)中,文獻(xiàn)[1]針對(duì)關(guān)聯(lián)數(shù)據(jù)提出了一種分布式評(píng)估機(jī)制,從而實(shí)現(xiàn)對(duì)稀疏數(shù)據(jù)的精確挖掘,但該算法在網(wǎng)絡(luò)規(guī)模大、數(shù)據(jù)較多時(shí)效率較低;文獻(xiàn)[2]使用維度參數(shù)作為數(shù)據(jù)挖掘的重要參數(shù)進(jìn)行算法建模,其能夠?qū)崿F(xiàn)復(fù)雜網(wǎng)絡(luò)下高效率的數(shù)據(jù)挖掘,但當(dāng)數(shù)據(jù)內(nèi)容相似性較高時(shí),其數(shù)據(jù)挖掘效率、準(zhǔn)確度等明顯下降;文獻(xiàn)[3]首先對(duì)用戶數(shù)據(jù)進(jìn)行建模,然后進(jìn)行數(shù)據(jù)挖掘,使其挖掘過程中的抗干擾性有所增強(qiáng)、更穩(wěn)定,但其實(shí)際應(yīng)用領(lǐng)域較為受限。
本文針對(duì)當(dāng)前電商需要對(duì)數(shù)據(jù)進(jìn)行快速分類、處理等問題,利用Spark機(jī)制及維度控制機(jī)制,提高數(shù)據(jù)挖掘的穩(wěn)定性、準(zhǔn)確性。利用KNN算法對(duì)挖掘后的數(shù)據(jù)進(jìn)行進(jìn)一步的分類,為旅游電商的精準(zhǔn)營(yíng)銷提供了新的方法與思路。同時(shí),本文所提出的算法在復(fù)雜環(huán)境中保持了較高的準(zhǔn)確性,具有較高的適用性。
1? 數(shù)據(jù)挖掘算法
由于旅游電商的數(shù)據(jù)來(lái)源較廣且較為復(fù)雜,因此本文采用兩步法進(jìn)行旅游電商大數(shù)據(jù)的數(shù)據(jù)挖掘。首先通過維度控制機(jī)制,對(duì)所獲得的節(jié)點(diǎn)數(shù)據(jù)信息進(jìn)行分割,使這些數(shù)據(jù)變?yōu)殡x散分布,以便于實(shí)現(xiàn)高維度的數(shù)據(jù)挖掘;其次,通過Spark機(jī)制,較快地形成對(duì)應(yīng)的數(shù)據(jù)挖掘的數(shù)據(jù)集合。同時(shí)降低數(shù)據(jù)挖掘過程中數(shù)據(jù)信息冗余的問題,提高數(shù)據(jù)挖掘的準(zhǔn)確性。
1.1? 維度控制機(jī)制
1.1.1? 構(gòu)建數(shù)據(jù)模型樹
首先對(duì)全網(wǎng)的所有數(shù)據(jù)進(jìn)行全面的掃描,進(jìn)而獲取到各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的數(shù)據(jù)集合[J<1,2,…,n>],然后從其中選取出數(shù)據(jù)量最大的節(jié)點(diǎn)[i],作為初始的數(shù)據(jù)挖掘節(jié)點(diǎn),最后對(duì)剩余的數(shù)據(jù)節(jié)點(diǎn)進(jìn)行重排序。每個(gè)排序周期僅對(duì)數(shù)據(jù)量最大的節(jié)點(diǎn)進(jìn)行數(shù)據(jù)挖掘操作。構(gòu)建的數(shù)據(jù)模型樹如圖1所示。
1.1.2? 構(gòu)建用戶行為挖掘樹
為了幫助電商達(dá)到精準(zhǔn)營(yíng)銷的目的,消費(fèi)者的消費(fèi)行為與當(dāng)前節(jié)點(diǎn)的關(guān)系較為密切[4]。而當(dāng)前數(shù)據(jù)的形成與用戶的行為并未有一個(gè)正向波動(dòng)的關(guān)系,因此需要對(duì)圖1所構(gòu)建的數(shù)據(jù)模型樹根據(jù)消費(fèi)者相應(yīng)的消費(fèi)、查看等行為進(jìn)行相應(yīng)的更改,根據(jù)周期對(duì)其用戶行為進(jìn)行排序。同時(shí)將用戶行為發(fā)生最多的節(jié)點(diǎn)與相應(yīng)的數(shù)據(jù)總量最大的節(jié)點(diǎn)進(jìn)行排列,從而形成圖2所示的用戶行為挖掘樹。需要注意的是,此處使用二叉樹的方式進(jìn)行數(shù)據(jù)的排列。
1.2? Spark機(jī)制
通過維度控制機(jī)制可以得到數(shù)據(jù)模型樹和用戶行為挖掘樹兩種數(shù)據(jù)模型,然后通過Spark機(jī)制,增強(qiáng)這兩種數(shù)據(jù)模型之間的關(guān)聯(lián)度,從而形成規(guī)?;臄?shù)據(jù)挖掘效應(yīng)。其詳細(xì)流程如圖3所示。
相應(yīng)的詳細(xì)操作步驟如下:
1) 對(duì)上述的數(shù)據(jù)總量集合[J<1,2,…,n>]以列的方式進(jìn)行排序,對(duì)排列后的數(shù)據(jù)進(jìn)行傅里葉變換[5],并將前文得到的兩種數(shù)據(jù)模式進(jìn)行耦合操作,從而得到序列:[U1,U2,…,Un]。其中,Spark映射的方式為:
[FHTs,t=βstan1Msx+πMdsβtωt1Mty+πMdt]
(1)
2) 使用隨機(jī)序列變換[6]的方式,將式(1)得到的序列[U1,U2,…,Un]進(jìn)行隨機(jī)變換,形成隨機(jī)變換序列[F1,F(xiàn)2,…,F(xiàn)n];
3) 使用RSO機(jī)制[7],對(duì)步驟2)中得到的序列進(jìn)行結(jié)構(gòu)化的混淆操作,同時(shí)結(jié)合步驟1)中形成的序列,進(jìn)行RSO操作。整個(gè)網(wǎng)絡(luò)中全部節(jié)點(diǎn)結(jié)束后,得到RSO混淆操作序列[H1,H2,…,Hn];
4) 對(duì)步驟3)中得到的序列,再次進(jìn)行結(jié)構(gòu)混淆RSO機(jī)制操作,得到最終的序列U。
2? 數(shù)據(jù)分類
在進(jìn)行數(shù)據(jù)挖掘后,對(duì)挖掘到的數(shù)據(jù)進(jìn)行相應(yīng)的清洗,然后使用相應(yīng)的人工智能算法對(duì)上述挖掘、清洗后的數(shù)據(jù)進(jìn)行處理[8?10],找到數(shù)據(jù)中所包含的規(guī)律,從而得到相應(yīng)的模型,并可以將這些模型應(yīng)用到相應(yīng)的數(shù)據(jù)分析及預(yù)測(cè)中。本文使用KNN算法進(jìn)行數(shù)據(jù)分類,其分類流程如圖4所示。
2.1? 數(shù)據(jù)預(yù)處理
將通過數(shù)據(jù)挖掘方式得到的數(shù)據(jù)序列U,根據(jù)消費(fèi)者相應(yīng)的消費(fèi)意向、常住地、出行習(xí)慣、口味、個(gè)人愛好建立對(duì)應(yīng)的關(guān)系,從而可以從多個(gè)維度進(jìn)行數(shù)據(jù)的分類。同時(shí),根據(jù)實(shí)際的消費(fèi)情況,由于70歲以上及10歲以下人群并無(wú)準(zhǔn)確的消費(fèi)意向,為了避免其影響預(yù)測(cè)的準(zhǔn)確度,在數(shù)據(jù)集中去除70歲以上及10歲以下人群的數(shù)據(jù)。
2.2? 數(shù)據(jù)特征編碼
本文使用漢明碼距離,對(duì)各個(gè)樣本數(shù)據(jù)之間的距離進(jìn)行相應(yīng)的度量。本文從以下幾個(gè)方面進(jìn)行特征編碼:
1) 性別。根據(jù)旅游局的統(tǒng)計(jì)結(jié)果得知,當(dāng)前旅游市場(chǎng)中女性更占有主導(dǎo)地位,因此將女性特征編碼為1,男性為0。
2) 常住地。本設(shè)計(jì)中使用省份表示常住地,因此需要用5位數(shù)字來(lái)表示常住地信息,并根據(jù)省份的旅游熱度進(jìn)行相應(yīng)的特征編碼。
3) 近期出行次數(shù)。調(diào)查顯示,近期出行次數(shù)能夠較好地反應(yīng)其出行的意愿及再次出行的可能性。因此,使用三位獨(dú)熱碼的形式對(duì)其進(jìn)行相應(yīng)的編碼描述。
2.3? KNN分類算法應(yīng)用
通過數(shù)據(jù)的訓(xùn)練可以得到相應(yīng)的K值,不同用戶之間漢明距離在K值以內(nèi)的用戶可以分為同一組用戶,在精準(zhǔn)營(yíng)銷中能夠?yàn)檫@部分用戶投放相應(yīng)的內(nèi)容,從而實(shí)現(xiàn)成本降低。
3? 仿真測(cè)試
為了對(duì)本文提出的基于人工智能的電商大數(shù)據(jù)分類與挖掘算法的性能進(jìn)行評(píng)估,使用Matlab進(jìn)行仿真測(cè)試,并采用當(dāng)前數(shù)據(jù)挖掘中最常用的SCM及SGM算法作為對(duì)照。仿真參數(shù)如表1所示。
圖5為不同挖掘強(qiáng)度下,本文所提出的算法與SCM,SGM兩種算法在挖掘時(shí)間上的對(duì)比。由圖5可知,在同等挖掘強(qiáng)度下,本文所提出的算法挖掘時(shí)間遠(yuǎn)小于其他兩種算法;隨著挖掘強(qiáng)度的增加,本文算法的挖掘時(shí)間的增長(zhǎng)較為平緩。這是由于本文提出的算法在用戶挖掘過程中,結(jié)合用戶的行為,整合節(jié)點(diǎn)的資源,從而實(shí)現(xiàn)多維度的數(shù)據(jù)挖掘。
圖6為在不同的挖掘強(qiáng)度下,本文所提出的算法與SCM,SGM算法在挖掘錯(cuò)誤方面的對(duì)比。
由圖6可知,在同等的挖掘強(qiáng)度下,本文提出的算法產(chǎn)生錯(cuò)誤的概率小于其他兩種算法;隨著挖掘強(qiáng)度的增加,文中算法錯(cuò)誤概率的增加較為平緩。表明本文所提出的算法能夠在復(fù)雜的環(huán)境中進(jìn)行較為準(zhǔn)確的數(shù)據(jù)挖掘操作,進(jìn)一步改善當(dāng)前數(shù)據(jù)挖掘算法準(zhǔn)確度低的問題。
4? 結(jié)? 語(yǔ)
本文針對(duì)當(dāng)下對(duì)于大數(shù)據(jù)的分類與挖掘算法研究中存在的周期頻繁、遞歸效率低下、待挖掘信息冗余程度高等問題,針對(duì)旅游電商的應(yīng)用場(chǎng)景,提出一種基于人工智能的電商大數(shù)據(jù)分類與挖掘算法。
該算法通過將待挖掘數(shù)據(jù)離散化,并將獲取的數(shù)據(jù)進(jìn)行智能Spark分類,有效地解決了傳統(tǒng)數(shù)據(jù)挖掘算法中的問題。通過相應(yīng)的仿真測(cè)試實(shí)驗(yàn)表明,本文所提的數(shù)據(jù)挖掘算法,在降低挖掘時(shí)間的同時(shí),能夠大幅度降低錯(cuò)誤挖掘的概率,可以在實(shí)際應(yīng)用中進(jìn)行推廣使用。同時(shí)配合KNN數(shù)據(jù)分類算法,能夠?yàn)槁糜坞娚痰木珳?zhǔn)營(yíng)銷提供相應(yīng)的技術(shù)支持。
參考文獻(xiàn)
[1] DONG X J, WANG Z, ZUO K. A novel block encryption scheme based on chaos and an S?box for wireless sensor networks [J]. Chinese physics B, 2012(2): 175?186.
[2] LIANG M, YANG L. Public key encryption and authentication of quantum information [J]. Science China, 2012, 55(9): 1618?1629.
[3] HUANG Q, WANG S. Generic certificateless encryption secure against malicious?but?passive KGC attacks in the standard model [J]. Journal of computer science and technology, 2010(4): 807?826.
[4] LI J, LI J, CHEN H, et al. A data transmission scheduling algorithm for rapid response earth observing operations [J]. Chinese journal of aeronautics, 2014, 27(2): 349?364.
[5] JIANG H B, JIN S D, WANG C G. Prediction or not? an energy?efficient framework for clustering?based data collection in wireless sensor networks [J]. IEEE transactions on parallel and distributed systems, 2011, 22(6): 1064?1071.
[6] ZENG L, LI X, JIANG H. Cross layer adaptive resource allocation algorithm with diverse QoS requirements for single cell OFDMA systems [J]. Journal of Harbin Institute of Technology, 2015(1): 15?22.
[7] AHMED A, ABU B K, CHAN N M. A survey on trust based detection and isolation of malicious nodes in ad?hoc and sensor networks [J]. Frontiers of computer science, 2015, 12(7): 280?296.
[8] 邱文珍.在線旅游平臺(tái)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[D].武漢:華中科技大學(xué),2015.
[9] 黃玲.在電子商務(wù)中應(yīng)用Web數(shù)據(jù)挖掘的研究[D].長(zhǎng)沙:湖南大學(xué),2014.
[10] 張華.基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)旅游線路推薦系統(tǒng)[J].軟件,2013,34(3):57?58.