国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)和人工智能的用戶行為分析

2021-11-19 21:06:00潘惠蘋
現(xiàn)代計算機(jī) 2021年2期
關(guān)鍵詞:海量日志人工智能

潘惠蘋

(廣東工商職業(yè)技術(shù)大學(xué)計算機(jī)學(xué)院,肇慶526000)

得益于大數(shù)據(jù)技術(shù)的支持,互聯(lián)網(wǎng)逐步朝著物聯(lián)網(wǎng)擴(kuò)展,并進(jìn)一步升級為體驗(yàn)更佳的人工智能,基于大數(shù)據(jù)和人工智能的用戶行為分析成為可能。以大數(shù)據(jù)和人工智能的關(guān)系為入手點(diǎn),簡要闡述基于大數(shù)據(jù)和人工智能的用戶行為分析平臺、內(nèi)容及流程,并對基于大數(shù)據(jù)和人工智能的用戶行為分析面臨的問題及解決思路進(jìn)行進(jìn)一步探究。

大數(shù)據(jù);人工智能;用戶行為分析

0 引言

在大數(shù)據(jù)和人工智能應(yīng)用范圍不斷拓展的背景下,基于大數(shù)據(jù)和人工智能的用戶行為分析獲得了社會各界的關(guān)注?;诖髷?shù)據(jù)和人工智能的用戶行為分析,可以對海量用戶行為數(shù)據(jù)進(jìn)行深層次分析挖掘,促使數(shù)據(jù)挖掘成果應(yīng)用到商業(yè)營銷、廣告投放中,實(shí)現(xiàn)精準(zhǔn)競價管理,控制商業(yè)成本。基于此,對大數(shù)據(jù)和人工智能在用戶行為分析中的應(yīng)用進(jìn)行適當(dāng)探討具有至關(guān)重要的意義。

1 大數(shù)據(jù)和人工智能關(guān)系

大數(shù)據(jù)主要指海量數(shù)據(jù),而大數(shù)據(jù)挖掘則是通過選擇、交換、分析、整合等一系列手段,對海量數(shù)據(jù)進(jìn)行處理,發(fā)現(xiàn)新的知識,促使海量數(shù)據(jù)最大化、多頭性、集約性的運(yùn)用于社會各個方面,創(chuàng)造新的價值[1]。進(jìn)而帶來“大發(fā)展”、“大利潤”、“大科技”和“大知識”。而人工智能中的“深度學(xué)習(xí)”、“對抗學(xué)習(xí)”、“增強(qiáng)學(xué)習(xí)”及其對應(yīng)的“對抗神經(jīng)網(wǎng)絡(luò)”“卷積神經(jīng)網(wǎng)絡(luò)”均與大數(shù)據(jù)挖掘具有緊密聯(lián)系。特別是人工智能中的“深度學(xué)習(xí)”,可以促使搜集大數(shù)據(jù)成為可能,并為用戶行為分析提供足夠的樣本數(shù)據(jù)。

2 基于大數(shù)據(jù)和人工智能的用戶行為分析

2.1 基于大數(shù)據(jù)和人工智能的用戶行為分析平臺

在基于大數(shù)據(jù)和人工智能的用戶行為分析平臺運(yùn)行過程中,常用的平臺為基于Google有關(guān)大數(shù)據(jù)論文實(shí)現(xiàn)的開源項(xiàng)目——Hadoop,其主要由Apache維護(hù)。自2015年Doug Cutting首次提出Hadoop框架以來,Hadoop系統(tǒng)已形成了一個匯集數(shù)據(jù)存儲、數(shù)據(jù)剖析、數(shù)據(jù)管控的大數(shù)據(jù)+AI生態(tài)系統(tǒng),也具備了獨(dú)立完成多種用戶行為剖析子項(xiàng)目的能力。該生態(tài)系統(tǒng)以MapRe?duce(Hadoop的分析式并行處理框架)為核心,可以對HDFS(Hadoop上一個分布式文件系統(tǒng))上海量數(shù)據(jù)進(jìn)行批量分析[2]。同時在海量通用計算單位的支持下,通過價格較低的商業(yè)硬件運(yùn)作,高校執(zhí)行高吞吐量批次并行核算,并將核算結(jié)果分類存儲。

雖然Hadoop具有高可靠性的按位數(shù)據(jù)處理存儲能力、自動備份及自動失敗任務(wù)重啟的高度容錯性及管理數(shù)以千計的并行計算、儲存節(jié)點(diǎn)能力,但是其實(shí)際性能仍然與硬件的理論性能存在差距,單一的管理文件系統(tǒng)的命名空間容量和性能有限,且受集群“管理者”——Jobtracker(整個MapReduce計算框架中的主服務(wù))的設(shè)計嚴(yán)重制約,使得Hadoop集群的節(jié)點(diǎn)數(shù)量被限制到2000個左右。基于此,可以在x86集群水平的基礎(chǔ)上,以消除Hadoop單點(diǎn)故障、改進(jìn)MapReduce、完善數(shù)據(jù)管理和數(shù)據(jù)源整合為目標(biāo),對基于大數(shù)據(jù)和人工智能的用戶行為分析平臺進(jìn)行進(jìn)一步完善。如榮之聯(lián)就在Hadoop框架基礎(chǔ)上,推出了可消除單點(diǎn)故障制約的智慧商業(yè)情報大數(shù)據(jù)平臺。其不僅可以對社交媒體、新聞、工商信息、法律訴訟信息及著作權(quán)專利信息等企業(yè)數(shù)據(jù)進(jìn)行監(jiān)測,而且在傳統(tǒng)數(shù)據(jù)檢索式監(jiān)控功能上增設(shè)了智能推薦、用戶畫像分析、算法預(yù)測等功能,充分滿足了市場、商務(wù)運(yùn)營業(yè)務(wù)需求,為用戶行為分析服務(wù)落地提供了保障。

2.2 基于大數(shù)據(jù)和人工智能的用戶行為分析內(nèi)容

用戶行為通常指用戶通過中間資源進(jìn)行某種商品或服務(wù)使用、購買、評價的記錄,以及用戶自身基礎(chǔ)信息[3]。{屬性1,屬性2,…,屬性N}這一屬性組合是用戶行為的主要表示方式,基于大數(shù)據(jù)和人工智能的用戶行為分析主要是在這一屬性組合方式的指導(dǎo)下,搜集更加詳細(xì)的目標(biāo)用戶行為屬性數(shù)據(jù),其大多來自于用戶日志信息(注冊信息、網(wǎng)絡(luò)購物、消費(fèi)記錄、活動軌跡、社交互動等)、外界環(huán)境信息(手機(jī)上網(wǎng)用戶增長、移動互聯(lián)網(wǎng)流量、自費(fèi)套餐等)、用戶主體信息(姓名、性別、名稱、受教育程度、興趣愛好、住址等)。

根據(jù)目標(biāo)用戶行為屬性組合特征,基于大數(shù)據(jù)和人工智能的用戶行為分析可以經(jīng)特定渠道,全方位搜集、剖析評估用戶在線上行為數(shù)據(jù)。其中用戶日志信息還包括網(wǎng)站日志、用戶瀏覽日志、搜索引擎日志等內(nèi)容。網(wǎng)站日志、用戶瀏覽日志主要是目標(biāo)用戶在某一網(wǎng)站的一系列瀏覽行為數(shù)據(jù);搜索引擎日志主要指引擎日志系統(tǒng)所記錄的用戶行為信息。根據(jù)上述數(shù)據(jù),在Hadoop開源框架中構(gòu)建用戶行為數(shù)據(jù)計算模型和情感交換計算模型。隨后從海量數(shù)據(jù)中,通過人工智能技術(shù),預(yù)測用戶行為發(fā)生概率,達(dá)到用戶畫像與企業(yè)營銷業(yè)務(wù)的深層次結(jié)合,打通企業(yè)內(nèi)外部數(shù)據(jù)壁壘,促使大數(shù)據(jù)和人工智能為企業(yè)賦能。

需要注意的是,由于基于大數(shù)據(jù)和人工智能的用戶行為數(shù)據(jù)分析對象為海量數(shù)據(jù),存在較多噪音,特別是用戶日志信息,其涉及了較多的目標(biāo)用戶隱私數(shù)據(jù)?;诖耍瑸楸苊獯髷?shù)據(jù)和人工智能工具對用戶個人隱私侵害,相關(guān)日志工具在內(nèi)部設(shè)置了加密模塊,將部分用戶行為細(xì)節(jié)進(jìn)行了模糊化或隱蔽處理,導(dǎo)致基于大數(shù)據(jù)和人工智能的用戶行為實(shí)時分析、準(zhǔn)實(shí)時分析或離線分析結(jié)論經(jīng)常存在較大的不可靠性。

2.3 基于大數(shù)據(jù)和人工智能的用戶行為分析流程

現(xiàn)階段基于大數(shù)據(jù)和人工智能的用戶行為分析已經(jīng)憑借強(qiáng)大算法引擎與大數(shù)據(jù)處理能力打通了“從數(shù)據(jù)到模型,從模型到場景化應(yīng)用”的全流程,全面貫徹了“智建模、易應(yīng)用”的全新設(shè)計理念,為人工智能時代用戶行為分析高效、精準(zhǔn)開展提供了有效支撐[4]。

基于大數(shù)據(jù)和人工智能的用戶行為分析主要包括數(shù)據(jù)接入、數(shù)據(jù)處理、模型構(gòu)建、模型評估、模型管理、用戶行為分析場景設(shè)計及應(yīng)用幾個環(huán)節(jié)。其中數(shù)據(jù)接入主要指接入MPP數(shù)據(jù)庫、文本文件、關(guān)系型數(shù)據(jù)庫、流數(shù)據(jù)、接口數(shù)據(jù)等多種類型數(shù)據(jù)源,實(shí)現(xiàn)不同類型統(tǒng)一接入管理,為用戶行為數(shù)據(jù)分析奠定堅實(shí)數(shù)據(jù)基礎(chǔ);而數(shù)據(jù)處理則是從多個節(jié)點(diǎn)入手,綜合利用平衡、異常值檢測、抽樣、缺失值處理、平衡、轉(zhuǎn)換、孤立點(diǎn)分析等數(shù)據(jù)處理手段,對海量復(fù)雜用戶行為數(shù)據(jù)進(jìn)行快速處理。同時綜合利用數(shù)據(jù)追加、數(shù)據(jù)拆分、數(shù)據(jù)連接、數(shù)據(jù)分解、數(shù)據(jù)差集等數(shù)據(jù)融合手段,在短時間內(nèi)進(jìn)行用戶行為數(shù)據(jù)表級處理。在這個基礎(chǔ)上,利用特征工程方法,如主成分分析、變量選擇、自動特征、WOE編碼、變量選擇、分箱等,快速明確用戶行為數(shù)據(jù)特征。并將SQL、Java、R、Python、Scala等腳本語言無縫集成,為用戶行為分析模型構(gòu)建及人工智能靈活擴(kuò)展奠定基礎(chǔ)。

在基于大數(shù)據(jù)和人工智能的用戶行為分析模型構(gòu)建過程中,主要利用推薦、關(guān)聯(lián)、回歸、聚類、時間序列、分類、綜合評價等幾種類型機(jī)器學(xué)習(xí)算法,對海量用戶行為文本數(shù)據(jù)的主旨話題、觀點(diǎn)情感進(jìn)行分析,或者提取關(guān)鍵詞信息,進(jìn)行自然語言分析。同時嵌入自動學(xué)習(xí)、深度學(xué)習(xí)、集成學(xué)習(xí)等多種類型人工智能分析算法,保證用戶行為分析更加智能高效。在基于大數(shù)據(jù)和人工智能的用戶行為分析數(shù)據(jù)構(gòu)建完畢之后,可以根據(jù)特定行業(yè)情景,制定模型評價指標(biāo),在交叉驗(yàn)證的模型評估方法支持下確定用戶行為分析模型泛化能力。并對用戶行為分析模型建立整個過程每一個環(huán)節(jié)進(jìn)行詳細(xì)解讀,從多模型中選擇最優(yōu)模型。在這個基礎(chǔ)上,依據(jù)簡便快捷原則,綜合里一共模型倉庫、模型在線監(jiān)控、模型在線部署工具,對用戶行為分析模型進(jìn)行利用、讀取、輸出,構(gòu)建閉環(huán)模型管理網(wǎng)絡(luò)。

場景設(shè)計及實(shí)現(xiàn)是基于大數(shù)據(jù)和人工智能的用戶行為分析關(guān)鍵環(huán)節(jié),一般需要在線完成基于模型結(jié)果的業(yè)務(wù)場景設(shè)計,促使用戶行為分析落地,實(shí)現(xiàn)端點(diǎn)到端點(diǎn)的用戶行為分析數(shù)據(jù)應(yīng)用。如在基于用戶畫像的精準(zhǔn)化廣告投放與推薦場景中,可以依據(jù)競價機(jī)制,構(gòu)建基于大數(shù)據(jù)和人工智能的程序化廣告交易平臺,其可以通過實(shí)時計算解決廣告流量售賣中利潤最大化問題,并在智能電視終端收集海量用戶行為數(shù)據(jù),對用戶行為進(jìn)行深度分析、多維度挖掘,尋找用戶潛在行為規(guī)律,細(xì)分廣告領(lǐng)域上偏好及新增特定場景需求。同時作為單獨(dú)廣告場景進(jìn)行廣告用戶群劃分,為精準(zhǔn)化廣告投放提供依據(jù);而在車企行業(yè)管理模型,可以利用基于大數(shù)據(jù)和人工智能的用戶行為模型,將網(wǎng)絡(luò)數(shù)據(jù)與車企內(nèi)部數(shù)據(jù)打通,對車企自身擁有脫敏用戶行為數(shù)據(jù)進(jìn)行實(shí)時動態(tài)更新,為周邊活動智能推薦、二手車買賣推薦、汽車養(yǎng)護(hù)信息推送提供依據(jù)。

3 基于大數(shù)據(jù)和人工智能的用戶行為分析面臨問題及解決思路

基于大數(shù)據(jù)和人工智能的用戶行為分析平臺面臨著目標(biāo)用戶行為數(shù)據(jù)處理量大、目標(biāo)用戶行為分析過程成本高等多個方面的技術(shù)挑戰(zhàn)[5]。

3.1 目標(biāo)用戶行為數(shù)據(jù)處理量大

互聯(lián)網(wǎng)、物聯(lián)網(wǎng)時代,每一個用戶都涉及了TB甚至PB級行為數(shù)據(jù),傳統(tǒng)大數(shù)據(jù)和人工智能分析模式雖然可以滿足目標(biāo)用戶行為數(shù)據(jù)分析要求。但是無法滿足OLAP(聯(lián)機(jī)分析處理)高效運(yùn)行需求。針對上述問題,可以將NoSQL數(shù)據(jù)庫引入到大數(shù)據(jù)和人工智能分析過程中,在擴(kuò)展大數(shù)據(jù)和人工智能分析空間的同時,經(jīng)水平擴(kuò)展讀寫負(fù)載,促使基于大數(shù)據(jù)和人工智能分析的用戶行為信息分析訪問性能提升,最終實(shí)現(xiàn)可擴(kuò)展的數(shù)據(jù)存儲、靈活快捷的數(shù)據(jù)訪問。

3.2 目標(biāo)用戶行為分析過程成本高

以往大數(shù)據(jù)和人工智能分析在進(jìn)行目標(biāo)用戶行為分析時進(jìn)行高額度軟件授權(quán)許可費(fèi)用支付,導(dǎo)致基于大數(shù)據(jù)和人工智能的用戶行為數(shù)據(jù)分析平臺建成運(yùn)營成本較高?;诖耍梢赃M(jìn)一步挖掘Hadoop開源框架優(yōu)勢,設(shè)置經(jīng)濟(jì)性更加突出的用戶行為數(shù)據(jù)分析方法,實(shí)現(xiàn)系統(tǒng)的低成本、高效率運(yùn)營。

4 結(jié)語

綜上所述,基于大數(shù)據(jù)和人工智能的用戶行為數(shù)據(jù)分析已成為剛需,對于行業(yè)發(fā)展的重要性日益突出。因此,在基于大數(shù)據(jù)和人工智能的用戶行為分析過程中,應(yīng)根據(jù)現(xiàn)有大數(shù)據(jù)挖掘算法及人工智能技術(shù)應(yīng)用情況,對數(shù)據(jù)挖掘模型庫進(jìn)行優(yōu)化改進(jìn)。優(yōu)先應(yīng)用Hadoop并行計算框架,充分發(fā)揮數(shù)據(jù)資產(chǎn)隱形優(yōu)勢,為精準(zhǔn)營銷、精準(zhǔn)服務(wù)的實(shí)現(xiàn)提供保障。

猜你喜歡
海量日志人工智能
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
一名老黨員的工作日志
華人時刊(2021年13期)2021-11-27 09:19:02
扶貧日志
心聲歌刊(2020年4期)2020-09-07 06:37:14
海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
游學(xué)日志
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
一個圖形所蘊(yùn)含的“海量”巧題
下一幕,人工智能!
龙江县| 登封市| 年辖:市辖区| 黑龙江省| 静乐县| 达日县| 星子县| 乐亭县| 宣汉县| 安达市| 陆川县| 高雄县| 海盐县| 石门县| 冷水江市| 台东县| 伊吾县| 西盟| 阜新| 澎湖县| 两当县| 汉源县| 襄城县| 大渡口区| 平塘县| 马龙县| 南江县| 枞阳县| 麟游县| 祁门县| 永仁县| 丽水市| 昆明市| 乌兰浩特市| 贡觉县| 鹤岗市| 大渡口区| 卢龙县| 桃园市| 鹤庆县| 马山县|