国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

互聯(lián)網(wǎng)應(yīng)用的數(shù)據(jù)采集處理一體化方案

2019-05-08 03:01李映范瀅
科學(xué)與技術(shù) 2019年19期
關(guān)鍵詞:移動互聯(lián)網(wǎng)大數(shù)據(jù)

李映 范瀅

摘要:各類移動應(yīng)用需采集與處理用戶在使用期間的行為與業(yè)務(wù)等數(shù)據(jù),以提供定制化的優(yōu)質(zhì)服務(wù)。本文詳細(xì)分析了業(yè)界已有方案的特點與不足,基于江蘇移動掌上營業(yè)廳實際應(yīng)用情況,提出了一種針對移動互聯(lián)網(wǎng)應(yīng)用的數(shù)據(jù)采集與處理一體化方案,并對此方案的各個模塊進(jìn)行了詳細(xì)分析與闡述。

關(guān)鍵詞:移動互聯(lián)網(wǎng);數(shù)據(jù)采集與處理;大數(shù)據(jù)

一、引言

移動互聯(lián)網(wǎng)的快速發(fā)展極大地方便了人們的生活,也給企業(yè)帶來新的挑戰(zhàn)和機(jī)遇。如何全面且準(zhǔn)確地把握用戶在移動應(yīng)用上的行為與業(yè)務(wù)特征,向用戶提供優(yōu)質(zhì)的個性化服務(wù)成為各移動應(yīng)用亟待解決的問題。

江蘇移動擁有掌上營業(yè)廳客戶端這樣作為國內(nèi)運營商月活用戶數(shù)首個破三千萬的熱門互聯(lián)網(wǎng)應(yīng)用,針對以上數(shù)據(jù)采集與處理的問題進(jìn)行了深入研究并實現(xiàn)了一體化方案,在實際運營中加以應(yīng)用,取得了優(yōu)異的效果。

二、業(yè)界現(xiàn)狀

在應(yīng)用上用戶行為與業(yè)務(wù)的數(shù)據(jù)采集處理方面,目前業(yè)內(nèi)主要有以下兩類方案:

1.傳統(tǒng)方案

對用戶在客戶端與在服務(wù)器端產(chǎn)生的Server Logs、Error Logs、Cookie Logs等類型的日志文件進(jìn)行采集,然后通過Oracle、SPSS、SAS等傳統(tǒng)數(shù)據(jù)挖掘工具對采集到的數(shù)據(jù)進(jìn)行分析處理等工作。

此類方案存在以下問題:

(1)僅采集客戶端和服務(wù)器端的傳統(tǒng)日志,對用戶行為軌跡和業(yè)務(wù)軌跡均記載不夠完整。

(2)數(shù)據(jù)挖掘工具不具備海量大數(shù)據(jù)的處理能力,且只能在單臺服務(wù)器上部署和工作,數(shù)據(jù)處理能力弱。

2.網(wǎng)站分析方案

以Webtrends為代表的業(yè)界網(wǎng)站和應(yīng)用商業(yè)分析解決方案是目前網(wǎng)站分析采取的主流方案。

此類方案的特點有:

(1)對頁面進(jìn)行埋點插碼以采集用戶的行為數(shù)據(jù)。

(2)通過離線分析報告的形式對數(shù)據(jù)分析結(jié)果進(jìn)行展示。

也存在以下不足:

(1)因不涉及各應(yīng)用的后臺系統(tǒng),只能采集用戶的瀏覽、點擊等行為數(shù)據(jù),對用戶業(yè)務(wù)辦理等數(shù)據(jù)無法進(jìn)行采集與整合。

(2)離線分析報告一般在次日給出,無法滿足互聯(lián)網(wǎng)應(yīng)用的實時精確營銷等場景。

綜上所述,傳統(tǒng)方案與網(wǎng)站分析方案均不能滿足移動互聯(lián)網(wǎng)應(yīng)用對用戶行為與業(yè)務(wù)數(shù)據(jù)進(jìn)行采集與分析的需求。

三、新的系統(tǒng)方案ECBData

結(jié)合業(yè)界數(shù)據(jù)采集與處理方案的各種不足,針對以江蘇移動掌上營業(yè)廳APP為代表的互聯(lián)網(wǎng)應(yīng)用對用戶行為與業(yè)務(wù)數(shù)據(jù)采集、處理、應(yīng)用的采集完整性、處理實時性、展現(xiàn)多樣性等要求,本文設(shè)計了完整的一體化方案ECBData,方案架構(gòu)如下:

從數(shù)據(jù)的流向出發(fā),可分為數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用三個主要模塊:

(一)數(shù)據(jù)采集

創(chuàng)建遠(yuǎn)程控制插碼方案,能夠?qū)ndroid、IOS原生應(yīng)用和H5網(wǎng)頁迅速進(jìn)行埋點插碼,對用戶在互聯(lián)網(wǎng)上行為信息和業(yè)務(wù)數(shù)據(jù)進(jìn)行實時采集并向服務(wù)器傳輸。

日志采集是指通過在客戶端和服務(wù)器端插入部分腳本或代碼,從而捕捉完整的用戶行為和業(yè)務(wù)過程發(fā)生的各種信息,并進(jìn)行采集記錄和上傳到特定服務(wù)器,并生成相應(yīng)的用戶行為日志和業(yè)務(wù)日志的過程。

針對不同的數(shù)據(jù)源采取不同的技術(shù)手段進(jìn)行采集:

●Web網(wǎng)頁用戶行為:通過自研的網(wǎng)頁插碼技術(shù),對用戶在網(wǎng)頁上操作的行為等信息進(jìn)行完整采集。

●手機(jī)App用戶行為:在App中嵌入定制化SDK,把用戶在APP中的操作熱點事件都記錄在緩存中,在WiFi環(huán)境下,采集到的信息被整合為JSON格式發(fā)送至服務(wù)端。

●業(yè)務(wù)日志數(shù)據(jù):對用戶在客戶端與在服務(wù)器端產(chǎn)生的業(yè)務(wù)日志進(jìn)行特定規(guī)范以進(jìn)行采集。

(二)數(shù)據(jù)處理

?此部分主要進(jìn)行數(shù)據(jù)預(yù)處理、數(shù)據(jù)中間存儲、數(shù)據(jù)分析等操作。

1.數(shù)據(jù)預(yù)處理:此過程是對采集到的原始數(shù)據(jù)進(jìn)行清洗,去除無效的信息,篩選出有效內(nèi)容,并對這些內(nèi)容做基本的格式轉(zhuǎn)換和整理。此過程是通過在Flume-NG的source中編程實現(xiàn)。

2. 數(shù)據(jù)中間存儲:原始數(shù)據(jù)經(jīng)過預(yù)處理后已經(jīng)變得有序化,在進(jìn)一步分析之前需根據(jù)數(shù)據(jù)的實時性要求對數(shù)據(jù)進(jìn)行不同方式的存儲,采用兩個存儲方案:

(1)非實時存儲:采用HDFS文件系統(tǒng)對非實時數(shù)據(jù)進(jìn)行存儲,由于HDFS本身保存多個副本的容錯機(jī)制,從節(jié)省空間的角度,服務(wù)器不做磁盤RAID。通過Flume-NG預(yù)處理過的非實時數(shù)據(jù)信息將會被直接存儲在HDFS文件系統(tǒng)中。

(2)實時存儲:采用分布式消息隊列對實時數(shù)據(jù)進(jìn)行存儲,由于數(shù)據(jù)的實時性要求高、數(shù)據(jù)量大、因此采用Kafka+Zookeeper構(gòu)成的消息隊列集群將數(shù)據(jù)緩存在內(nèi)存中。

3.數(shù)據(jù)分析

本階段通過在大數(shù)據(jù)分析工具中自定義分析算法,建立應(yīng)用場景模型,從存儲的復(fù)雜海量數(shù)據(jù)中獲取關(guān)鍵數(shù)據(jù),供前端不同應(yīng)用場景使用。

(1)非實時分析:從HDFS文件系統(tǒng)中將數(shù)據(jù)進(jìn)行進(jìn)一步的規(guī)約,將其結(jié)構(gòu)化到Hive中,然后通過SparkSQL從Hive中讀取數(shù)據(jù)進(jìn)行分析,將分析結(jié)果存儲到關(guān)系型數(shù)據(jù)庫中供后續(xù)展現(xiàn)或者使用。

(2)實時分析:從Kafka中獲得數(shù)據(jù),通過Spark Streaming對數(shù)據(jù)進(jìn)行流式處理,分析結(jié)果數(shù)據(jù)將采用Redis、Coherence等緩存行存儲或者直接通過數(shù)據(jù)流傳輸給前端應(yīng)用。

(三)數(shù)據(jù)應(yīng)用

本階段將數(shù)據(jù)的分析處理結(jié)果通過報表、分析報告、實時營銷推薦等形式在以下各種場景進(jìn)行應(yīng)用,全面提升運營效率。

1.非實時類場景:運營分析、安全稽核

2.實時類場景:實時安全防護(hù)、實時營銷推送、大屏數(shù)據(jù)看板

四、總結(jié)

本文通過對應(yīng)用在江蘇移動掌上營業(yè)廳客戶端的營銷運營系統(tǒng)中數(shù)據(jù)采集、存儲和分析與應(yīng)用等模塊的詳細(xì)分析,闡述了一種基于大數(shù)據(jù)的移動應(yīng)用用戶行為和業(yè)務(wù)數(shù)據(jù)的采集處理系統(tǒng)方案。本方案在應(yīng)用中取得了很好的效果。

參考文獻(xiàn)

[1]劉暢.大數(shù)據(jù)分析技術(shù)在采集運維業(yè)務(wù)中的應(yīng)用[J]科技資訊,2017(30).

[2]邊紅軍.數(shù)據(jù)挖掘技術(shù)在信用卡業(yè)務(wù)中的分析研究[J]無線互聯(lián)科技,2015(1).

[3]劉光榕.數(shù)據(jù)倉庫及OLAP技術(shù)在電信業(yè)務(wù)分析中的應(yīng)用探討[J]電腦編程技巧與維護(hù),2011(4).

[4]季文天,郭清菊,馬杰.基于模型驅(qū)動的框架技術(shù)在數(shù)據(jù)采集平臺中的分析與應(yīng)用[J]軟件,2014(35).

[5]溫向慧.大數(shù)據(jù)處理平臺Spark研究[J]數(shù)碼世界,2017(2).

[6]王珣.基于Spark平臺的大數(shù)據(jù)挖掘技術(shù)研究[J]微型電腦應(yīng)用,2017(6).

猜你喜歡
移動互聯(lián)網(wǎng)大數(shù)據(jù)
微美學(xué)
智能手機(jī)在大學(xué)生移動學(xué)習(xí)中的應(yīng)用研究
基于Android的一鍵智能報警系統(tǒng)設(shè)計與實現(xiàn) 
O2O電子商務(wù)模式發(fā)展問題及對策研究
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
基于移動互聯(lián)網(wǎng)的心理健康教育初探
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
泸州市| 阿鲁科尔沁旗| 湖南省| 英山县| 临海市| 遵化市| 新兴县| 锡林浩特市| 宣武区| 牡丹江市| 海南省| 永吉县| 南丹县| 紫云| 林州市| 梅州市| 海南省| 思茅市| 水城县| 桂林市| 兰西县| 灵寿县| 柞水县| 石首市| 秭归县| 芜湖市| 崇礼县| 牟定县| 莱西市| 鄂伦春自治旗| 葫芦岛市| 班玛县| 绥芬河市| 红河县| 东城区| 大关县| 长治县| 宜丰县| 嘉善县| 江山市| 涞源县|