国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于搜索數(shù)據(jù)的用戶基本屬性混合預(yù)測(cè)模型研究

2018-08-14 09:55:14權(quán)甜甜王虎
現(xiàn)代商貿(mào)工業(yè) 2018年16期
關(guān)鍵詞:特征提取準(zhǔn)確率預(yù)測(cè)

權(quán)甜甜 王虎

摘 要:大數(shù)據(jù)時(shí)代必然會(huì)導(dǎo)致“信息過載(information overload)”現(xiàn)象,企業(yè)如何在海量的用戶行為數(shù)據(jù)中準(zhǔn)確判斷用戶屬性,是精準(zhǔn)營銷等領(lǐng)域值得思考的問題。特別是在搜索領(lǐng)域,搜索公司幾乎無法獲得用戶的真實(shí)屬性信息,但用戶的基本屬性很大程度上可以影響到用戶查看不同廣告的可能性?;诒尘?,利用Doc2Vec、TF-IDF算法對(duì)搜索數(shù)據(jù)進(jìn)行特征提取,并借助機(jī)器學(xué)習(xí)算法、XGBoost算法構(gòu)建了用戶基本屬性混合預(yù)測(cè)模型,并對(duì)模型的準(zhǔn)確性進(jìn)行了檢驗(yàn)。

關(guān)鍵詞:搜索數(shù)據(jù);Doc2Vec;TF-IDF;機(jī)器學(xué)習(xí)算法;用戶基本屬性混合預(yù)測(cè)模型

中圖分類號(hào):TB 文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2018.16.099

1 引言

據(jù)CNNIC最新數(shù)據(jù)顯示,截至2017年6月,我國網(wǎng)民規(guī)模達(dá)到7.51億,半年共計(jì)新增網(wǎng)民1992萬人,半年增長率為2.7%。互聯(lián)網(wǎng)給我們帶來便利的同時(shí),也帶了很多安全隱患。2016年12月10日,京東一個(gè)12G的數(shù)據(jù)包被流傳到網(wǎng)上,其中包括京東注冊(cè)用戶的姓名、密碼、郵箱、QQ號(hào)、電話號(hào)碼、身份證等多個(gè)維度的數(shù)據(jù),數(shù)據(jù)量達(dá)到了千萬條。2017年國內(nèi)外網(wǎng)絡(luò)信息安全泄露事件主要有58同城全國簡(jiǎn)歷泄露、國外巨頭Dun%Bradstreet 52G數(shù)據(jù)庫遭泄露、印度麥當(dāng)勞220W用戶收據(jù)遭泄露等。隨著近年來信息泄密事件的頻繁發(fā)生,用戶越來越不愿意將自己的真實(shí)屬性及其他信息透漏給第三方平臺(tái)。

對(duì)于搜索企業(yè),其主要的收入來源于廣告。艾瑞咨詢發(fā)布的《2017年中國網(wǎng)絡(luò)廣告市場(chǎng)年度監(jiān)測(cè)報(bào)告》中顯示,2016年,互聯(lián)網(wǎng)廣告的市場(chǎng)份額為2902.7億元。報(bào)告中指出2016年電商廣告的市場(chǎng)份額已經(jīng)超過搜索廣告,并且有逐漸增長的趨勢(shì)。愛奇藝通過預(yù)測(cè)用戶性別屬性,進(jìn)行個(gè)性化廣告投放,廣告營收方面增加了數(shù)十億元。用戶性別、年齡和教育水平均會(huì)對(duì)搜索企業(yè)廣告投放效果產(chǎn)生影響。目前基于搜索數(shù)據(jù)的用戶基本屬性預(yù)測(cè)研究仍是空白。本研究通過對(duì)搜狗公司2016年20w用戶搜索詞進(jìn)行分析,從Doc2Vec特征、TF-IDF特征兩個(gè)維度進(jìn)行用戶搜索詞特征的度量,并通過機(jī)器學(xué)習(xí)等相關(guān)算法對(duì)模型進(jìn)行訓(xùn)練和融合,得到最終的基本屬性混合預(yù)測(cè)模型性。

2 國內(nèi)外研究現(xiàn)狀

2.1 短文本分析

在文本分析方面,Salton(1973)在1973年提出了TF-IDF算法,衡量了不同詞對(duì)于文章的重要性。Blei等(2003)提出了的LDA(Latent Dirichlet Allocation)算法。目前,被廣泛使用的Word2Vec詞向量計(jì)算模型是由Google的Tomas Mikolv團(tuán)隊(duì)提出的。Mikolov(2014)提出了Doc2Vec文檔向量表示方式,可以獲得句子或文檔的向量表示。龔才春(2008)提出了短文本網(wǎng)絡(luò)的概念,并提出了兩類短文本網(wǎng)絡(luò)的構(gòu)建方法。潘博等(2018)用文本深度表示模型Doc2Vec,證明了該方法能更深入地表示出文本的語義特征。

2.2 用戶基本屬性預(yù)測(cè)

夏勇(2015)基于手機(jī)應(yīng)用日志數(shù)據(jù),采用常用的四種分類預(yù)測(cè)算法作為基礎(chǔ)算法,實(shí)現(xiàn)對(duì)用戶基礎(chǔ)屬性分類預(yù)測(cè)。陶建容(2017)通過從智能手機(jī)的應(yīng)用中挖掘性別、年齡等個(gè)人信息以及用戶的興趣愛好和生活習(xí)慣屬性,對(duì)比了不同手機(jī)應(yīng)用的用戶屬性挖掘能力。王斯盾(2017)等將基本屬性作為特征訓(xùn)練集成分類器中的各個(gè)基分類器,并引入隨機(jī)森林中的帶外樣本準(zhǔn)確率作為基分類器的權(quán)重,通過實(shí)證研究證明了該方法可以提高用戶屬性預(yù)測(cè)的效果。

目前國內(nèi)外在本文本分析方面,主要使用的是LDA、Word2Vec、TF-IDF、Doc2Vec等算法進(jìn)行文本特征提取,本文考慮到搜索詞數(shù)據(jù)的特征性,最終選擇從Doc2Vec、TF-IDF兩個(gè)維度刻畫用戶搜索數(shù)據(jù)的特征,并將獲得的特征作為機(jī)器學(xué)習(xí)算法的輸入,通過模型訓(xùn)練和融合構(gòu)建用戶基本屬性混合預(yù)測(cè)模型。本研究不僅填充了基于搜索數(shù)據(jù)用戶基本屬性的預(yù)測(cè)研究的空白,也可以將其擴(kuò)充到其他領(lǐng)域。

3 基于搜索數(shù)據(jù)的用戶特征提取

3.1 數(shù)據(jù)預(yù)處理

3.1.1 數(shù)據(jù)介紹

本研究的數(shù)據(jù)來源于2016年CCF大數(shù)據(jù)與計(jì)算智能大賽。數(shù)據(jù)提供了搜狗用戶歷史一個(gè)月的查詢?cè)~與用戶的人口屬性標(biāo)簽。該數(shù)據(jù)源提供了10w條帶標(biāo)注的訓(xùn)練數(shù)據(jù)和10w條測(cè)試數(shù)據(jù)。帶標(biāo)簽的數(shù)據(jù)一共有5個(gè)字段,分別為id、年齡、性別、教育水平和搜索詞列表;無標(biāo)簽的數(shù)據(jù)一共有2個(gè)字段,分別為id和搜索詞列表。字段說明如表1所示,原始樣本如表2所示。

3.1.2 JIEBA分詞

本研究在對(duì)比了JIEBA、THULC、NLPIR三種分詞工具的分詞效果后,最終選擇了JIEBA分詞工具進(jìn)行分詞。分詞效果如表3所示。本研究考慮到停用詞無法反應(yīng)用戶的搜索需求,因此,本研究使用哈工大停用詞詞庫對(duì)用戶搜索詞中的停用詞進(jìn)行了過濾。

3.2 基于Doc2Vec的特征提取

本研究分別使用了Doc2Vec的DM模型和DBOW模型進(jìn)行用戶搜索數(shù)據(jù)的文檔特征提取。主要參數(shù)size文檔維度設(shè)置為100,min_count設(shè)置為3,當(dāng)詞出現(xiàn)的次數(shù)小于3時(shí),會(huì)被舍棄,dm設(shè)置為1代表使用DM模型,使用DBOW模型進(jìn)行文檔特征提取時(shí),只需將dm參數(shù)改為0即可。本研究在此僅展示由DM模型訓(xùn)練出來的部分文檔特征,如表4所示。

3.3 基于TF-IDF的特征提取

本研究將分詞結(jié)果作為輸入,將min_df設(shè)置為3,將max_df設(shè)置為0.95會(huì)過濾詞數(shù)出現(xiàn)在少于3個(gè)或出現(xiàn)在多于95%的詞,可以減少一些無用的信息。觀察最終的結(jié)果,發(fā)現(xiàn)每個(gè)向量會(huì)存在稀疏性問題。部分TF-IDF特征值的輸出結(jié)果整理后如表5所示。

如果某個(gè)詞在某個(gè)文檔中沒有出現(xiàn),則評(píng)分為0。對(duì)于表5中所列出來的5個(gè)詞,可以分析出,“中國”這個(gè)詞在第1個(gè)和最后一個(gè)用戶的搜索詞中沒有出現(xiàn)過,在第2個(gè)、第3個(gè)和第4個(gè)用戶的搜索詞中出現(xiàn)過,所以,它的權(quán)重較高。

4 基于搜索數(shù)據(jù)的用戶基本屬性混合預(yù)測(cè)模型

4.1 基于Doc2Vec的基本屬性預(yù)測(cè)模型

對(duì)Doc2Vec特征進(jìn)行處理時(shí),本研究分別嘗試了LR和BPNN兩種算法進(jìn)行對(duì)比,同一組特征在兩種不同算法下的準(zhǔn)確率對(duì)比結(jié)果如表6所示。

從圖1中可以更加直觀的看出基于DBOW模型的預(yù)測(cè)準(zhǔn)確率比基于DM模型的準(zhǔn)確率高。BPNN的效果在各個(gè)屬性的表現(xiàn)上都要優(yōu)于LR算法。因此,本研究最終了使用DBOW模型進(jìn)行用戶搜索數(shù)據(jù)的文檔特征提取,并給予BPNN算法進(jìn)行預(yù)測(cè)模型的訓(xùn)練。

4.2 基于TF-IDF的基本屬性預(yù)測(cè)模型

對(duì)TF-IDF特征進(jìn)行建模時(shí),本研究嘗試了LR和SVM兩種算法,對(duì)同一批特征下,兩個(gè)模型的準(zhǔn)確率如表7所示。TF-IDF_SVM模型下教育水平屬性的準(zhǔn)確率為60.09%,年齡屬性的準(zhǔn)確率為59.37%,性別屬性的準(zhǔn)確率為68.12%。

從圖2中可以更直觀的看出,在對(duì)用戶的性別、年齡進(jìn)行預(yù)測(cè)時(shí),SVM的效果較佳,但對(duì)教育水平屬性進(jìn)行預(yù)測(cè)時(shí),LR的效果較佳。本研究綜合考慮了LR和SVM模型的準(zhǔn)確率對(duì)比,在對(duì)TF-IDF特征進(jìn)行建模時(shí),本研究根據(jù)平均成績最終選擇了SVM模型。

4.3 基于XGBoost的模型融合

使用XGBoost進(jìn)行模型融合時(shí),本研究的具體操作如下,利用Gradient Boosting為用戶每個(gè)基本屬性特征,性別、年齡、教育水平分別建立一個(gè)ensemble模型,該模型會(huì)對(duì)基于TD-IDF、Doc2Vec兩類特征的模型輸出進(jìn)行融合。融合后的模型準(zhǔn)確率如表8所示。

4.4 模型修正

本研究獲得的TF-IDF特征矩陣具有較強(qiáng)的稀疏性,在這方面Word2Vec的算法就做得很好。而且Word2Vec可以做到降維,解決TF-IDF的稀疏性問題。本文基于改進(jìn)后的TF-IDF特征和過濾掉缺失標(biāo)簽樣本的數(shù)據(jù),再次使用LR算法和SVM算法,對(duì)模型的準(zhǔn)確性進(jìn)行了評(píng)估。結(jié)果如表9所示。對(duì)比表7模型在各個(gè)屬性的準(zhǔn)確率上都有較大的改進(jìn)。

4.5 模型效果

本文將改進(jìn)后的基于TF-IDF特征的預(yù)測(cè)模型與基于Doc2Vec的預(yù)測(cè)模型,再次進(jìn)行融合,使用同一批特征數(shù)據(jù),基于改進(jìn)后的用戶基本屬性混合預(yù)測(cè)模型的準(zhǔn)確率如表10所示。對(duì)比融合之前的結(jié)果,模型在各個(gè)屬性維度上的預(yù)測(cè)準(zhǔn)確性均有一定的特征,證明了模型修正和模型融合的有效性。

本研究為了直觀的展示研究結(jié)果,使用了TSNE降維可視化工具對(duì)結(jié)果進(jìn)行展示。使用TSNE降維的效果分別如圖3、圖4、圖5所示。

5 模型驗(yàn)證

5.1 數(shù)據(jù)描述

本研究的驗(yàn)證數(shù)據(jù)來源于2016年CCF大數(shù)據(jù)與計(jì)算智能大賽提供的10w條無屬性標(biāo)簽的數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)主要由兩部分組成,一部分是用戶id,一部分是用戶搜索詞列表。本文在此展示前5名用戶的部分搜索詞數(shù)據(jù),如表11所示。

5.2 特征提取

將10w條實(shí)驗(yàn)數(shù)據(jù)作為用戶基本屬性混合預(yù)測(cè)模型的輸入,在模型訓(xùn)練時(shí),首先會(huì)對(duì)用戶搜索詞進(jìn)行分詞,將分詞后的結(jié)果,分別計(jì)算出Doc2Vec-DBOW文檔特征和TF-IDF特征值。前5名用的部分Doc2Vec -DBOW特征如表12所示,部分TF-IDF特征如表13所示。根據(jù)表13中TF-IDF值的大小,可以推測(cè)出第3號(hào)用戶的搜索詞中比較頻繁的出現(xiàn)“那么”兩個(gè)字,所以TF-IDF值較小。

5.3 用戶基本屬性混合預(yù)測(cè)模型的應(yīng)用

模型的輸出結(jié)果如表14所示,可以看出,用戶基本屬性混合預(yù)測(cè)模型認(rèn)為第一位用戶的年齡為19-23歲,性別為女,教育水平為高中。觀察第一位用戶的搜索詞,用戶的搜索詞中多次出現(xiàn)“陳學(xué)冬”等詞。根據(jù)常識(shí),可以推測(cè)第一位用戶比較年輕,性別為女的可能性很大。搜索詞中出現(xiàn)了“中南大學(xué)”等詞,可以推測(cè)出用戶是一名學(xué)生的可能性較大。用戶基本屬性混合預(yù)測(cè)模型輸出出來的結(jié)果和對(duì)第一位用戶搜索詞的分析結(jié)果一致,說明了該模型具有一定的有效性。

5.4 結(jié)果分析

本研究統(tǒng)計(jì)了10w條實(shí)驗(yàn)數(shù)據(jù)的基本屬性預(yù)測(cè)結(jié)果,對(duì)比原始數(shù)據(jù)中帶標(biāo)簽的10w條用戶的基本屬性分布情況,如圖6、圖7、圖8所示,兩者的用戶屬性的數(shù)據(jù)分布基本一致,說明了實(shí)驗(yàn)數(shù)據(jù)的有效性和最終模型的科學(xué)性。

6 總結(jié)

本研究借助搜狗用戶搜索詞數(shù)據(jù),建立了用戶基本屬性混合預(yù)測(cè)模型,并通過實(shí)證分析,證明了模型的有效性。本研究提出的基于搜索數(shù)據(jù)的用戶畫像基本屬性混合預(yù)測(cè)模型,既可以解決大數(shù)據(jù)背景下搜索領(lǐng)域短文本數(shù)據(jù)的特征提取問題,又可以解決搜索用戶基本屬性的預(yù)測(cè)問題,也可以將其推廣到與搜索詞相關(guān)的短文本語義預(yù)測(cè)領(lǐng)域。

參考文獻(xiàn)

[1]張芃.搜索引擎廣告效果影響因素研究[D].濟(jì)南:山東大學(xué), 2010.

[2]Salton G, Yu C T.On the construction of effective vocabularies for information retrieval[J].Acm Sigplan Notices, 1973, 10(1):48-60.

[3]Blei D M, Ng A Y, Jordan M I.Latent dirichlet allocation[J].J Machine Learning Research Archive, 2003, (3):993-1022.

[4]Mikolov T, Chen K, Corrado G, et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science, 2013.

[5]Le Q V, Mikolov T.Distributed Representations of Sentences and Documents[J].2014, (4):II-1188.

[6]潘博,張青川,于重重,曹帥.Doc2vec在薪水預(yù)測(cè)中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究,2018,35(01):155-157.

[7]龔才春.短文本語言計(jì)算的關(guān)鍵技術(shù)研究[D].北京:中國科學(xué)院研究生院(計(jì)算技術(shù)研究所),2008.

[8]夏勇.基于手機(jī)應(yīng)用日志的用戶基礎(chǔ)屬性預(yù)測(cè)[D].成都:電子科技大學(xué),2015.

[9]陶建容.基于智能手機(jī)應(yīng)用數(shù)據(jù)的用戶屬性挖掘[D].杭州:浙江大學(xué),2017.

[10]王斯盾,琚生根,周剛,劉玉嬌.基于集成分類器的用戶屬性預(yù)測(cè)研究[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,54(06):1195-1201.

[11]唐明, 朱磊, 鄒顯春.基于Word2Vec的一種文檔向量表示[J].計(jì)算機(jī)科學(xué), 2016, 43(6):214-217.

猜你喜歡
特征提取準(zhǔn)確率預(yù)測(cè)
無可預(yù)測(cè)
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
不必預(yù)測(cè)未來,只需把握現(xiàn)在
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
汝南县| 仁怀市| 惠安县| 武威市| 平果县| 丰都县| 宜宾县| 堆龙德庆县| 北安市| 安国市| 泰州市| 牙克石市| 阿克| 东山县| 雷山县| 涪陵区| 宁陕县| 双辽市| 驻马店市| 增城市| 元朗区| 彩票| 桦南县| 民县| 合山市| 鹿泉市| 晋城| 彩票| 新田县| 洛阳市| 襄城县| 葫芦岛市| 河间市| 古交市| 潼关县| 出国| 扶风县| 海兴县| 盐池县| 包头市| 黎城县|