国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于搜索詞條的用戶畫像研究與實(shí)現(xiàn)

2020-12-28 02:10彭梅胡必波章家寶
電腦知識(shí)與技術(shù) 2020年33期
關(guān)鍵詞:用戶畫像分詞模型

彭梅 胡必波 章家寶

摘要:隨著大數(shù)據(jù)時(shí)代的到來(lái),其應(yīng)有價(jià)值也越來(lái)越廣泛,特別在“互聯(lián)網(wǎng)+”商業(yè)推廣中的“精準(zhǔn)營(yíng)銷”更是發(fā)揮著重要的意義。該文利用用戶的搜索記錄文本為數(shù)據(jù),進(jìn)行分詞處理、建模,采用SparkSql與hive進(jìn)行整合(spark on hive)。首先,采用SparkSql對(duì)表中的元數(shù)據(jù)進(jìn)行讀取,再使用Spark引擎進(jìn)行底層數(shù)據(jù)的分析處理達(dá)到高效為有搜索記錄的用戶建立標(biāo)簽從而構(gòu)建用戶畫像的,達(dá)到構(gòu)建智能推薦目的。最后,利用幾種常用的分詞工具對(duì)本文測(cè)試,并使用Bayes模型比較了它們?cè)陧?xiàng)目中的效果。

關(guān)鍵詞:搜索記錄;分詞;用戶畫像;模型

中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)33-0014-03

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

1 構(gòu)建用戶畫像的概述

1.1 構(gòu)建用戶畫像的意義

隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)在互聯(lián)網(wǎng)產(chǎn)業(yè)中得到廣泛應(yīng)用,特別是電商、廣告、服務(wù)搜索等方面的個(gè)性化和智能化的水平得到很大的提高,近年來(lái)大數(shù)據(jù)技術(shù)加快了對(duì)傳統(tǒng)行業(yè)應(yīng)用的滲透,驅(qū)動(dòng)生產(chǎn)方式和管理模式進(jìn)行變革,推動(dòng)各行各業(yè)向網(wǎng)絡(luò)化數(shù)字化、智能化發(fā)展,使得在“互聯(lián)網(wǎng)+”這樣一個(gè)宏觀市場(chǎng)背景下,大數(shù)據(jù)技術(shù)對(duì)經(jīng)濟(jì)發(fā)展趨勢(shì)的影響愈發(fā)舉足輕重。

用戶畫像分析是指利用大數(shù)據(jù)技術(shù)的算法根據(jù)用戶在互聯(lián)網(wǎng)中行為推斷用戶特征的過程、手段和方法,同時(shí)也是對(duì)個(gè)體進(jìn)行精確定位的手段,最后利用網(wǎng)聯(lián)網(wǎng)web、手機(jī)應(yīng)用等工具進(jìn)行個(gè)性化推薦,個(gè)性化的搜索,在互聯(lián)網(wǎng)+商業(yè)推廣中的“精準(zhǔn)營(yíng)銷”更是發(fā)揮著重要的意義。比如,你在某電商平臺(tái)瀏覽或購(gòu)買商品的行為發(fā)生時(shí),就足夠使得該網(wǎng)絡(luò)商家掌握了你在該電商平臺(tái)搜索記錄等數(shù)據(jù),他就可以利用大數(shù)據(jù)技術(shù)開發(fā)的第三方應(yīng)用軟件根據(jù)你購(gòu)買商品的偏好和瀏覽軌跡進(jìn)行同類產(chǎn)品精準(zhǔn)推薦,這也說(shuō)明了利用用戶畫像可以做到“精準(zhǔn)營(yíng)銷”,是有非常有商業(yè)價(jià)值的。

1.2 用戶畫像的具體作用

1)精準(zhǔn)營(yíng)銷,分析根據(jù)用戶的行為,提取用戶喜好標(biāo)簽,然后利用互聯(lián)網(wǎng)等方式進(jìn)行營(yíng)銷。

2)用戶統(tǒng)計(jì),根據(jù)高頻用戶行為分析全國(guó)高薪職業(yè)Top10。

3)數(shù)據(jù)挖掘,利用大數(shù)據(jù)技術(shù)構(gòu)建智能推薦算法,利用關(guān)聯(lián)規(guī)則計(jì)算,喜歡二次元的用戶通常喜歡什么風(fēng)格品牌,再使用大數(shù)據(jù)的聚類算法分析出喜歡二次元群體年齡段分布情況。

4)將傳統(tǒng)的用戶和市場(chǎng)的調(diào)研,利用大數(shù)據(jù)技術(shù)分析定位服務(wù)群體,完善產(chǎn)品運(yùn)營(yíng),提供高水平的服務(wù)。

5)個(gè)性化服務(wù),利用大數(shù)據(jù)技術(shù)通過用戶畫像進(jìn)行分析,發(fā)現(xiàn)形象、價(jià)格區(qū)間偏好比重最大,那么就給新產(chǎn)品提供了非??陀^有效的決策依據(jù)。

6)企業(yè)發(fā)展戰(zhàn)略,利用大數(shù)據(jù)進(jìn)行業(yè)務(wù)經(jīng)營(yíng)分析以及競(jìng)爭(zhēng)分析可以及時(shí)調(diào)整企業(yè)發(fā)展戰(zhàn)略。

1.3基于查詢記錄的用戶畫像難點(diǎn)

1)數(shù)據(jù)源,用戶畫像需要有大量的數(shù)據(jù)支持,并且需要較為全面的數(shù)據(jù),基于查詢記錄的用戶畫像正是依靠非常多的用戶查詢記錄來(lái)進(jìn)行用戶畫像,用戶繁多的查詢記錄可以給用戶進(jìn)行較為全面的畫像。

2)業(yè)務(wù)結(jié)合,對(duì)于用戶畫像不能只存在于理論階段,需要筆者團(tuán)隊(duì)根據(jù)實(shí)際的業(yè)務(wù)跟理論基礎(chǔ)結(jié)合起來(lái)。

3)動(dòng)態(tài)更新,因?yàn)椴樵儤I(yè)務(wù)是實(shí)時(shí)更新的用戶數(shù)據(jù),因此需要根據(jù)用戶實(shí)時(shí)的查詢數(shù)據(jù)來(lái)對(duì)于用戶的畫像結(jié)果進(jìn)行實(shí)時(shí)更新,實(shí)現(xiàn)精準(zhǔn)推薦。

4)用戶畫像中的處理細(xì)節(jié)展示。

5)大家知道,用SparkSql整合hive來(lái)進(jìn)行電商用戶畫像,即使用Hive將hql語(yǔ)句轉(zhuǎn)化為MapReduce來(lái)計(jì)算的設(shè)計(jì)方案很好,但因?yàn)镠ive原因是基于MapReduce的,它會(huì)生成MapRe-duce Job,從而查詢提交到結(jié)果返回需要查詢時(shí)間非常長(zhǎng),我們可以利用Spark生成Spark Job的快速執(zhí)行能力來(lái)縮短HiveHQL的響應(yīng)時(shí)間。

6)本項(xiàng)目是利用用戶的搜索記錄文本為數(shù)據(jù),進(jìn)行分詞處理、建模,采用SparkSql與hive進(jìn)行整合(spark on hive)。首先,采用SparkSql對(duì)表中的元數(shù)據(jù)進(jìn)行讀取,再使用Spark引擎進(jìn)行底層數(shù)據(jù)的分析處理達(dá)到高效為有搜索記錄的用戶建立標(biāo)簽從而構(gòu)建用戶畫像的,達(dá)到構(gòu)建智能推薦目的。最后,利用幾種常用的分詞工具對(duì)本文測(cè)試,并使用Baves模型比較了它們?cè)陧?xiàng)目中的效果。

2 數(shù)據(jù)處理

2.1 停用詞處理

在實(shí)際的自然語(yǔ)言中,有很多的非實(shí)意詞語(yǔ)或者其他并沒有實(shí)際作用的詞語(yǔ),這些詞語(yǔ)我們必須在分詞環(huán)節(jié)后進(jìn)行過濾處理即停用詞處理。停用詞處理的關(guān)鍵在于停用詞的認(rèn)定,我們可以通過使用停用詞表,對(duì)停用詞進(jìn)行單獨(dú)處理可以大大加快詞語(yǔ)切分速度以及后續(xù)的句法分析歸約速度,因此在進(jìn)行分詞處理及使用的NLP技術(shù),如BOW,Count Vectorizer或F-IDF(詞頻和逆文檔頻率)特征計(jì)算的過程中,均保留了空格、標(biāo)點(diǎn)以及停用詞這些信息。

2.2 分詞處理

分詞就是將句子、段落、文章這種長(zhǎng)文本,分解為以字詞為單位的數(shù)據(jù)結(jié)構(gòu),方便后續(xù)的處理分析工作。由于詞是信息載體的最小單位,所以分詞處理是關(guān)鍵,分詞目前已經(jīng)有很多開源工具可以使用,比如中科大的ICTCIAS.IKanalyzer. hanlp等等。很多分詞原理是用的CRF,即條件隨機(jī)場(chǎng),通過對(duì)詞語(yǔ)的位置標(biāo)注和詞性等特征來(lái)進(jìn)行分詞。

3 系統(tǒng)設(shè)計(jì)

本項(xiàng)目中的文本為用戶的搜索詞條記錄,這些詞條長(zhǎng)度通常短,使得對(duì)樣本進(jìn)行分詞效果便顯得較為重要。本文測(cè)試了幾種常用的分詞工具,并使用Bayes模型比較了它們?cè)陧?xiàng)目中的效果。

在本系統(tǒng)中,筆者團(tuán)隊(duì)根據(jù)數(shù)據(jù)所產(chǎn)生的誤差對(duì)于數(shù)據(jù)進(jìn)行后置處理也就是分析法中常說(shuō)的錯(cuò)誤分析,根據(jù)用戶的查詢記錄以及筆者團(tuán)隊(duì)的算法得出了一些錯(cuò)誤的樣本,做錯(cuò)誤樣本分析的好處在于錯(cuò)誤樣本分析可以給模型優(yōu)化指引方向。在進(jìn)行錯(cuò)誤樣本分析的過程中,我們也找到了一些規(guī)律:對(duì)于屬性值存在空缺的樣本,我們首先使用屬性值已知的樣本作為訓(xùn)練樣本,使用LR模型訓(xùn)練分類器,再對(duì)這部分屬性空缺樣本進(jìn)行預(yù)測(cè),從而補(bǔ)全空缺值。但我們發(fā)現(xiàn)在最終的兩級(jí)多模型融合得到的結(jié)果中,對(duì)于教育屬性空缺的樣例,它們的年齡和性別預(yù)測(cè)準(zhǔn)確率很低;對(duì)于年齡屬性空缺的樣例,教育預(yù)測(cè)準(zhǔn)確率很低;對(duì)于性別屬性空缺的樣例,教育預(yù)測(cè)準(zhǔn)確率很低。

3.1 用戶畫像建模

根據(jù)互聯(lián)網(wǎng)上個(gè)人用戶所填寫資料信息如:性別,年齡,喜好等等,我們利用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)處理,主要包括數(shù)據(jù)預(yù)處理,降維,分類,回歸,聚類,模型選擇等去掉不用的屬性保留有用的數(shù)據(jù)信息,推算出用戶標(biāo)簽,進(jìn)行精準(zhǔn)用戶畫像。比如大數(shù)據(jù)精準(zhǔn)營(yíng)銷,涵蓋用戶的忠誠(chéng)度可以分為忠誠(chéng)型用戶(會(huì)購(gòu)買,并且不會(huì)對(duì)比其他家)、偶爾型用戶(有優(yōu)惠才會(huì)購(gòu)買)、投資型用戶、游覽型用戶、系統(tǒng)未能識(shí)別用戶。本項(xiàng)目用戶畫像基本表如表1所示。

3.3 系統(tǒng)分析流程

系統(tǒng)分析流程如圖2所示。

特征構(gòu)造方式:多角度、多粒度、多維度。

優(yōu)秀的特征群構(gòu)建體系:特征表達(dá)能力強(qiáng)、自動(dòng)化程度高、泛化能力強(qiáng)。

3.4 系統(tǒng)所用到的技術(shù)

系統(tǒng)用到的技術(shù)有:scala、hhase、hive、hadoop、spark、flume、sparksql、python、storm、kafka、mysql等,這里需要用到Sparksql+hive。

Spark SQL主要目的是使得用戶可以在Spark上使用SQL,其數(shù)據(jù)源既可以是彈性分布式數(shù)據(jù)集或者文本、Hive、Json等外部的數(shù)據(jù)源。Spark on Hive是Spark SQL的其中一個(gè)分支也是使用Hive中HQL的解析、邏輯執(zhí)行計(jì)劃翻譯、執(zhí)行計(jì)劃優(yōu)化等邏輯,將物理執(zhí)行計(jì)劃從MR作業(yè)替換成Spark作業(yè)。Spark-Sql整合hive就是獲取hive表中的元數(shù)據(jù)信息,然后通過Spark-Sql來(lái)操作數(shù)據(jù)。

具體的整合步驟為:

1)先將hive-site.xml文件拷貝到Spark的conf目錄下,系統(tǒng)配置文件就能找到Hive的元數(shù)據(jù)以及數(shù)據(jù)存放位置。

2)準(zhǔn)備Mysql相關(guān)驅(qū)動(dòng),比如:mysql-connectoI-java-5.1.49.jar。

3)進(jìn)行整合成功測(cè)試,先啟動(dòng)hadoop集群,再啟動(dòng)spark集群確保啟動(dòng)成功之后執(zhí)行命令:/var/local/spark/bin/spark-sql-master spark://itcast01:7077 -executoI-memory lg -total-exec-utor-coreS。

4)如果可以進(jìn)入到命令行里面說(shuō)明可以運(yùn)行成功了。

4 具體實(shí)現(xiàn)

1) SecondSession該類主要是先讀取到元數(shù)據(jù),然后切分可用數(shù)據(jù),讀取到表的結(jié)構(gòu),創(chuàng)建一個(gè)視圖,把需要的數(shù)據(jù)寫入到視圖里面去。首先先獲取到SparkSession類的實(shí)例化,需要傳人配置文件的信息,也就是如下代碼段所示:val spark= Spark-Session. builder(). appName(”FirstSessionAnalysis”). config(”spark.testing.memory”,2147480000”).master(”local[*]).getOrCreate0然后我們需要?jiǎng)?chuàng)建一個(gè)rdd來(lái)讀取元數(shù)據(jù)。井且創(chuàng)建表結(jié)構(gòu)valschemas=”cookie,event,ispaid, data_date, time”.split(”,”).map(fp=> StructField(fp,StringType》獲取到schemas然后運(yùn)用前面創(chuàng)建的sparksession的實(shí)例化對(duì)象創(chuàng)建視圖,寫入關(guān)鍵信息即可。系統(tǒng)所用到的工具類:此類為該項(xiàng)目所用到的時(shí)間工具類,該類的第一個(gè)方法timeDiff主要是計(jì)算時(shí)間差,返回值為long類型。第二個(gè)方法為一個(gè)主方法,主要是測(cè)試timeDiff方法是否正確。并且打印出時(shí)間差。具體代碼實(shí)現(xiàn)為:val df= new Sim-pleDateFormat(”yyyy-MM-dd HH:mm:ss”) val st= df.parse(start.toString) val et= df.parse(end.toString) val diff= et.getTime -st.getTime diffSec= diff/1000

2)Hive以及hbase的sc ala類,類描述:運(yùn)用scala語(yǔ)言來(lái)編寫hive以及hbase,首先定義一個(gè)判斷字符串是否為空的方法,也就是def nuIIHandle(str: String):String,返回值為string,然后再創(chuàng)建一個(gè)主方法。不需要返回值。需要傳人一個(gè)字符數(shù)組,然后判斷字符數(shù)組的長(zhǎng)度,如果不滿足條件那么就會(huì)報(bào)錯(cuò),打印出錯(cuò)誤的內(nèi)容。如果滿足條件,那么久創(chuàng)建一個(gè)SparkSession,需要傳人一些配置文件的信息。然后再用spark sql查詢,查詢之后對(duì)于map的結(jié)構(gòu)進(jìn)行轉(zhuǎn)換,再依次傳人到hbase中。(要保證行鍵,列族,列名的整體有序,必須先排序后處理,防止數(shù)據(jù)異常過濾)將rdd轉(zhuǎn)換成HFile需要的格式,Hfile的key是Immu-tableBytesWritable,那么我們定義的RDD也是要以Immutable-BytesWritable的實(shí)例為key,然后保存到hdfs上面。

5 運(yùn)行及系統(tǒng)測(cè)試

各模型的結(jié)果f1值如表所示。

6 小結(jié)

國(guó)家“十三五”規(guī)劃綱要里明確提出來(lái)要實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,為我國(guó)在大數(shù)據(jù)領(lǐng)域的未來(lái)發(fā)展繪制了宏偉的藍(lán)圖,開啟了我國(guó)大數(shù)據(jù)發(fā)展的新時(shí)代。隨著大數(shù)據(jù)及人工智能的到來(lái),利用大數(shù)據(jù)+人工智能技術(shù)進(jìn)行數(shù)據(jù)收集和分析,并根據(jù)需求建立模型,從而進(jìn)行商業(yè)的數(shù)據(jù)分析與運(yùn)營(yíng)將獲取更多商用價(jià)值。

參考文獻(xiàn):

[1]馬超.基于主題模型的社交網(wǎng)絡(luò)用戶畫像分析方法[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2017.

[2]席巖,張乃光,王磊,等.結(jié)合大數(shù)據(jù)技術(shù)的用戶畫像推薦方法研究[J].有線電視技術(shù),2018,25(5):16-18.

[3]劉蓓琳,張琪.基于購(gòu)買決策過程的電子商務(wù)用戶畫像應(yīng)用研究[J].商業(yè)經(jīng)濟(jì)研究,2017(24):49-51.

[4]李錦銳,章家寶,彭梅.基于大數(shù)據(jù)技術(shù)的求職用戶畫像系統(tǒng) 研究與設(shè)計(jì)[J].產(chǎn)業(yè)與科技論壇,2019,18(4):75-76.

[5]電商用戶畫像環(huán)境搭建一我是楠楠-5ICTO博客https://blog.5lcto.com/14473726/2439624.

【通聯(lián)編輯:代影】

作者簡(jiǎn)介:彭梅(1975-),女,湖南保靖人,副教授,在職碩士研究生,主要研究方向:大數(shù)據(jù)與人工智能應(yīng)用開發(fā);胡必波(1979-),男,廣東廣州人,講師,在職碩士研究生,主要研究方向:大數(shù)據(jù)與人工智能應(yīng)用開發(fā);章家寶(1998-),男,廣東揭陽(yáng)人,在讀本科,主要研究方向:大數(shù)據(jù)數(shù)據(jù)分析以及Javaweb系統(tǒng)編寫。

猜你喜歡
用戶畫像分詞模型
分詞在英語(yǔ)教學(xué)中的妙用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承