焦會英 辛存生 劉俊艷
摘? 要: 數(shù)據(jù)即價值,依托于國網(wǎng)電商數(shù)據(jù)平臺,整合居民用戶與企業(yè)用戶數(shù)據(jù)資源,利用大數(shù)據(jù)進一步提高國網(wǎng)電商平臺的智能化建設(shè),實現(xiàn)更高效、盈利、信息共享、互惠共贏的國網(wǎng)電子商務(wù)平臺。大數(shù)據(jù)技術(shù)通過收集居民用戶和企業(yè)用戶在電商平臺上的行為信息、用電信息、繳費信息等信息,結(jié)合神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)與機器學(xué)習(xí)算法,實現(xiàn)用戶畫像分析、精準(zhǔn)營銷、個性化服務(wù)、互聯(lián)網(wǎng)金融、信用評價、提升用戶體驗和業(yè)務(wù)流程全方位管理。除此之外,本文提出將依靠大數(shù)據(jù)分析的訂閱式電商模式應(yīng)用于國網(wǎng)電商平臺,助力國網(wǎng)電商平臺經(jīng)營新模式。
關(guān)鍵詞: 電子商務(wù);大數(shù)據(jù);數(shù)據(jù)挖掘
中圖分類號: TP311.52? ? 文獻標(biāo)識碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.01.017
【Abstract】: Data is value. Relying on the e-commerce data platform of state grid, it integrates the data resources of residents and enterprises, further improves the intelligent construction of the e-commerce platform of state grid by using big data, and realizes the e-commerce platform of state grid that is more efficient, profitable, information sharing and win-win. Technology of data collected from residents users and enterprise users in the behavior of the electric business platform, electricity information, payment information, such as information, combined with the depth of learning and machine learning algorithms, such as neural networks for user picture analysis, accurate marketing, personalized services, Inter-net finance, credit evaluation, improving the user experience and business process management. In addition, this paper proposes to apply the subscription e-commerce model based on big data analysis to the state grid e-commerce platform to help the state grid e-commerce platform operate.
【Key words】: Electronic Commerce; Big data; Data mining
0? 引言
隨著移動設(shè)備、無線傳感器等每秒產(chǎn)生的大量數(shù)據(jù),以及互聯(lián)網(wǎng)、物聯(lián)網(wǎng)對信息的大量收集和快速傳播,互聯(lián)網(wǎng)服務(wù)時時刻刻都在進行巨量的數(shù)據(jù)處理和信息交互。及數(shù)據(jù)即價值,研究表明每當(dāng)數(shù)據(jù)利用率調(diào)高10%,便可使電網(wǎng)提高20%~49%的利潤,企業(yè)的核心開發(fā)模式正由應(yīng)用驅(qū)動模式轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動模式。大數(shù)據(jù)已成為各行業(yè)中研究和應(yīng)用的熱點課題,在智能電網(wǎng)以及電商平臺的建設(shè)和應(yīng)用中也發(fā)揮著越來越重要的作用。截止2017年,電子商務(wù)市場已經(jīng)從基于消費者數(shù)量的時代進入基于大數(shù)據(jù)的時代。
大數(shù)據(jù)概念綜合包含了技術(shù)和商業(yè)兩個層面。一方面在技術(shù)層面上,結(jié)合Hadoop集群的分布式存儲和計算系統(tǒng)使得數(shù)據(jù)存儲和計算能力能夠匹配高量級數(shù)據(jù)的處理;另一方面在商業(yè)層面上,利用數(shù)據(jù)挖掘、數(shù)據(jù)分析等技術(shù)手段分析電子商務(wù)產(chǎn)生的高量級的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),從而幫助電商企業(yè)做系統(tǒng)性的決策,實現(xiàn)精準(zhǔn)營銷、個性化服務(wù)、提升用戶體驗和業(yè)務(wù)流程全方位管理,助力國網(wǎng)電商平臺企業(yè)盈利模式。
1? 數(shù)據(jù)挖掘技術(shù)
大數(shù)據(jù)應(yīng)用不單單是對高量級數(shù)據(jù)的計算,其真正的核心在于挖掘數(shù)據(jù)中蘊藏的情報價值。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘出有指導(dǎo)意義的有趣模式和知識的過程。數(shù)據(jù)挖掘過程中使用的數(shù)據(jù)源一般是數(shù)據(jù)庫、web、數(shù)據(jù)倉庫等。數(shù)據(jù)倉庫是數(shù)據(jù)挖掘技術(shù)中獨有的內(nèi)容,其本質(zhì)是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,從而支持管理者的決策過程[1]??傮w上說數(shù)據(jù)庫系統(tǒng)可以分為兩類,聯(lián)機數(shù)據(jù)處理(Online Transaction Processing,OLTP)系統(tǒng)和聯(lián)機分析處理(Online Analytical Processing,OLAP)系統(tǒng)。兩個系統(tǒng)的對比如下表1所示。其中數(shù)據(jù)庫屬于OLTP系統(tǒng),數(shù)據(jù)倉庫屬于OLAP系統(tǒng)。
1.1? 數(shù)據(jù)挖掘一般過程
數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)現(xiàn)有趣模式的過程。通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換和數(shù)據(jù)離散化[2]、模式發(fā)現(xiàn)、模式評估和知識表示,如下圖1所示。
其中,數(shù)據(jù)清洗是為了清除噪音和刪除不一致的地方;數(shù)據(jù)集成的過程將多種數(shù)據(jù)源的數(shù)據(jù)組合在一起;數(shù)據(jù)選擇操作從數(shù)據(jù)庫中提取出相關(guān)的數(shù)據(jù);數(shù)據(jù)變換和數(shù)據(jù)離散化的目的是通過匯總或聚集操作,對數(shù)據(jù)進行規(guī)范化和離散化操作,把數(shù)據(jù)統(tǒng)一成適合挖掘的格式。通常采用最大最小[3]、z-score[3]、小數(shù)定標(biāo)[3]等方法對數(shù)據(jù)進行規(guī)范化操作,接著使用分箱、直方圖、概念分層等方法對數(shù)據(jù)進行離散化處理。模式發(fā)現(xiàn)一般是用數(shù)據(jù)分析算法對數(shù)據(jù)進行挖掘分析,得到數(shù)據(jù)間的關(guān)系模式。常有的模式可分為頻繁模式、關(guān)聯(lián)和相關(guān)性挖掘、分類與回歸、聚類分析、離群點分析。模式評估是將發(fā)現(xiàn)的模式應(yīng)用到實際數(shù)據(jù)中,驗證模式推理的正確性。最后,通過模式評估驗證后得到知識。
1.2? 數(shù)據(jù)分析方法
數(shù)據(jù)挖掘過程的最核心部分是模式發(fā)現(xiàn)的過程,針對不同的模式要適當(dāng)?shù)倪x取不同的數(shù)據(jù)分析算法。最經(jīng)典的數(shù)據(jù)挖掘模式是頻繁模式、關(guān)聯(lián)和相關(guān)性挖掘(數(shù)據(jù)中頻繁出現(xiàn)的數(shù)據(jù)集合或數(shù)據(jù)序列,如牛奶和面包常被一起購買,顧客傾向于先購買便攜機,再購買數(shù)碼相機,然后在購買內(nèi)存卡),在此模式中最常用的典型算法為Apriori算法[4]。分類與回歸模式是在已知數(shù)據(jù)分類的訓(xùn)練數(shù)據(jù)集中找出區(qū)分?jǐn)?shù)據(jù)類型的模型(函數(shù)),使得此模型(函數(shù))能夠預(yù)測未知數(shù)據(jù)對象的類型。常用的分類規(guī)則有決策樹(包括了由Quinlan提出的ID3[5]與C4.5[6],Breiman等提出的CART[7])、樹剪枝等,分類算法有樸素貝葉斯[8]、K-最近鄰[9]算法、支持向量機(SVM)算法[10]、遺傳算法[11]、神經(jīng)網(wǎng)絡(luò)等。聚類分析模式中所分析的數(shù)據(jù)對象,開始并不存在其所屬的分類標(biāo)記,其后通過聚類算法產(chǎn)生數(shù)據(jù)的分組。分組或聚類的數(shù)據(jù)遵循類內(nèi)相似性最大化,類間相似性最小化的原則進行分組或者聚類。如圖2所示,表示了聚類的概念,以兩點的歐式距離為聚類規(guī)范,將類內(nèi)間距小和類間間距大的點自動分為了3類。
2? 大數(shù)據(jù)結(jié)合國網(wǎng)電商平臺的應(yīng)用
主在云計算、物聯(lián)網(wǎng)支持與保障下,大數(shù)據(jù)在電商平臺的應(yīng)用場景越來越多,電商企業(yè)的增長模式已經(jīng)不僅僅由原來的靠產(chǎn)品種類、產(chǎn)品數(shù)量、顧客基數(shù)所推動,數(shù)據(jù)驅(qū)動已成為其盈利增長的重要方面。大數(shù)據(jù)在電商領(lǐng)域的應(yīng)用一般為用戶畫像分析、精準(zhǔn)營銷、個性化服務(wù)、互聯(lián)網(wǎng)金融、信用評價、提升用戶體驗和業(yè)務(wù)流程全方位管理。基于國網(wǎng)電商平臺的應(yīng)用主要體現(xiàn)在以下方面:
(1)用戶畫像分析、個性化服務(wù)。用戶畫像分析是電商平臺面向顧客最核心和最基礎(chǔ)的數(shù)據(jù)分析應(yīng)用,典型的畫像分析案例包括:用戶消費行為與需求畫像、用戶偏好畫像、用戶地理畫像。在國網(wǎng)電商平臺中,可以通過對用戶和企業(yè)填寫的基本信息、用電量、繳費記錄、產(chǎn)品購買記錄、歷史瀏覽記錄、地理信息、銀行賬戶信息等對用戶進行畫像分析,并根據(jù)用戶信息提供個性化服務(wù)方案。如對年齡在40-50歲,且購買力較強的顧客,結(jié)合其具體信息可以推薦個性化的金融產(chǎn)品,如基金、保險等。
(2)信用評價與客戶管理。運用大數(shù)據(jù)分析的優(yōu)勢,根據(jù)用戶畫像分析,將用戶群進行分組,劃分普通用戶群以及核心用戶群,并建立信譽度級別。通過對客戶的管理為消費者提供可持續(xù)的產(chǎn)品和服務(wù)。如購買基金產(chǎn)品的客戶通常會有極大可能購買保險產(chǎn)品,根據(jù)對客戶信息的分析管理制定個性化產(chǎn)品方案。
(3)助力光伏云網(wǎng)。光伏發(fā)電作為新能源,清潔能源的代表性能源已接入電網(wǎng),實現(xiàn)光伏云網(wǎng)“科技+服務(wù)+金融”綜合服務(wù)云平臺。使用大數(shù)據(jù)技術(shù)對光伏入網(wǎng)客戶的信息(用電量、發(fā)電量、每個時間段對電網(wǎng)的供電量等)進行存儲和分析,對用電量與發(fā)電量進行預(yù)測,推薦適合的光伏發(fā)電用電方案,統(tǒng)籌光伏電網(wǎng)數(shù)據(jù),提供戰(zhàn)略性決策支持。
(4)結(jié)合智能終端設(shè)備,推薦個性化用電方案。物聯(lián)網(wǎng)與智能家居不僅擴大了用戶的用電范圍,也為大數(shù)據(jù)平臺提供了更多的用戶信息,如各類智能電器的用電量、用電時間,智能電表記錄的家庭實時用電數(shù)據(jù)、用電總量。這些用戶信息都可以接入到大數(shù)據(jù)平臺,進行數(shù)據(jù)共享,應(yīng)用于電費計算、用戶畫像分析,根據(jù)用戶用電習(xí)慣推薦適合的購電方案,引導(dǎo)用戶避開高峰用電,緩解供電壓力。此外,移動終端、專用設(shè)備、智能電表也可使客戶與公司,客戶與客戶之間完成實時高效的數(shù)據(jù)交換。
3? 總結(jié)與展望
大數(shù)據(jù)是一個目的性驅(qū)動很強的技術(shù),有著巨大的社會和商業(yè)價值。但是在其應(yīng)用中仍然存在一定的問題:(一)低效率問題。各個電商企業(yè)間數(shù)據(jù)閉環(huán),難以在技術(shù)與業(yè)務(wù)的安全范圍內(nèi)實現(xiàn)信息與技術(shù)的互聯(lián)互通操作,信息資源的低水平重復(fù)開發(fā)利用在一定程度上抑制了電商行業(yè)的協(xié)同發(fā)展。(二)數(shù)據(jù)安全和個人隱私問題。一方面,大量的數(shù)據(jù)匯集,其中包含大量的企業(yè)運營數(shù)據(jù)、客戶信息、個人隱私和各種行為細(xì)節(jié)記錄面臨的數(shù)據(jù)泄露風(fēng)險將會增大。另一方面,一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)還沒有明確的界定,很多基于大數(shù)據(jù)的分析都尚未考慮到其中涉及的個體隱私問題[13]。(三)相關(guān)管理政策尚不明確。大數(shù)據(jù)時代下,云計算必將成為電商企業(yè)選擇的業(yè)務(wù)模式,其本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)即價值,云技術(shù)為數(shù)據(jù)資產(chǎn)提供了存儲、訪問、計算的場所和渠道。云計算提供的服務(wù)既包括軟件服務(wù)和應(yīng)用平臺服務(wù),又包括基礎(chǔ)設(shè)施服務(wù),但目前針對云計算的管理政策和技術(shù)標(biāo)準(zhǔn)尚不明確。
電商大數(shù)據(jù)作為一個擁有龐大數(shù)據(jù)規(guī)模的產(chǎn)業(yè)平臺,數(shù)據(jù)交易與相關(guān)記錄必將會為相關(guān)服務(wù)和產(chǎn)業(yè)帶來新的利益增長,未來大數(shù)據(jù)的深入應(yīng)用也會為企業(yè)帶來質(zhì)的飛躍。在利用大數(shù)據(jù)技術(shù)為企業(yè)和客戶實現(xiàn)雙贏的過程中,更應(yīng)該注重企業(yè)和客戶的信息安全,規(guī)范安全操作意識與行為,防患信息泄露,勇于承擔(dān)起電商平臺對企業(yè)與客戶的責(zé)任,實現(xiàn)安全高效的信息管理。
參考文獻
王光宏, 蔣平. 數(shù)據(jù)挖掘綜述[J]. 同濟大學(xué)學(xué)報(自然科學(xué)版), 2004, 32(2): 246-252.
劉永. 數(shù)字檔案管理中的知識發(fā)現(xiàn)與知識服務(wù)[J]. 檔案學(xué)研究, 2008(5): 51-53.
蔡維玲, 陳東霞. 數(shù)據(jù)規(guī)范化方法對K近鄰分類器的影響[J]. 計算機工程, 2010, 36(22): 175-177.
陸麗娜, 陳亞萍, 魏恒義, 等. 挖掘關(guān)聯(lián)規(guī)則中Apriori算法的研究[J]. 小型微型計算機系統(tǒng), 2000, 21(9): 940-943.
王永梅, 胡學(xué)鋼. 決策樹中ID3算法的研究[J]. 安徽大學(xué)學(xué)報:自然科學(xué)版, 2011(3): 71-75.
李楠, 段隆振, 陳萌. 決策樹C4.5算法在數(shù)據(jù)挖掘中的分析及其應(yīng)用[J]. 計算機與現(xiàn)代化, 2008, 2008(12): 160-163.
李治, 李國琳. C4.5和CART算法在醫(yī)學(xué)數(shù)據(jù)挖掘中的對比研究[J]. 電子技術(shù)與軟件工程, 2013(10): 47-48.
趙文濤, 孟令軍, 趙好好, 等. 樸素貝葉斯算法的改進與應(yīng)用[J]. 測控技術(shù), 2016, 35(2): 143-147.
劉松華, 張軍英, 許進, 等. Kernel-kNN:基于信息能度量的核k-最近鄰算法[J]. 自動化學(xué)報, 2010, 36(12): 1681-1688.
薛寧靜. 多類支持向量機分類器對比研究[J]. 計算機工程與設(shè)計, 2011, 32(5): 1792-1795.
張鈴, 張鈸. 遺傳算法機理的研究[J]. 軟件學(xué)報, 2000, 11(7): 000945-952.
王美玲, 王念平, 李曉. BP神經(jīng)網(wǎng)絡(luò)算法的改進及應(yīng)用[J]. 計算機工程與應(yīng)用, 2009, 45(35): 47-48.
馮杰, 屈志毅, 李志輝. 基于分類稀疏表示的人臉表情識別[J]. 軟件, 2013, 34(11): 59-61.
馮偉. 大數(shù)據(jù)時代面臨的信息安全機遇和挑戰(zhàn)[J]. 中國科技投資, 2012(34): 49-53.