張 舒,莫 贊,柳建華,楊培琛,劉洪偉
(廣東工業(yè)大學(xué) 管理學(xué)院,廣東 廣州 510520)
作為重要的社交媒體平臺(tái),微博一直是業(yè)界和學(xué)界中眾多研究人員關(guān)注的焦點(diǎn)。截至2018年6月,新浪微博月活躍用戶(hù)超過(guò)4億,日活躍用戶(hù)超過(guò)1.65億[1],伴隨如此龐大的微博活躍用戶(hù)規(guī)模,每天都會(huì)產(chǎn)生數(shù)以?xún)|計(jì)的用戶(hù)數(shù)據(jù)。用戶(hù)畫(huà)像(User Portrait)則是一種在海量數(shù)據(jù)基礎(chǔ)上獲取用戶(hù)信息而構(gòu)成的用戶(hù)需求、個(gè)性化偏好以及用戶(hù)興趣的結(jié)構(gòu)化表示方法[2]。由于在用戶(hù)畫(huà)像領(lǐng)域存在多種維度的畫(huà)像描述,本文將以微博數(shù)據(jù)為基礎(chǔ),通過(guò)一級(jí)標(biāo)簽?zāi)P秃投?jí)標(biāo)簽?zāi)P头謩e構(gòu)建粗粒度和細(xì)粒度的微博用戶(hù)興趣畫(huà)像,由此更加全面地把握用戶(hù)興趣偏好,改善用戶(hù)體驗(yàn)、實(shí)現(xiàn)更加精準(zhǔn)的個(gè)性化推薦等[3]。
目前在該領(lǐng)域的研究中,仍存在著諸多亟待解決的問(wèn)題。微博文本的特殊性則是首要之一,其主要體現(xiàn)在以下幾個(gè)方面:首先,微博文本具有鮮明的非正式性,其主要表現(xiàn)在大量網(wǎng)絡(luò)用語(yǔ)的使用,非結(jié)構(gòu)化表情、錯(cuò)別字和省略等的充斥,例如:“倍感鴨力,但也要沖鴨 ······[笑cry][笑cry][笑cry]”,其中的“鴨力”和“沖鴨”分別是“壓力”和“沖呀”的網(wǎng)絡(luò)表達(dá)方式,而“[笑cry]”則是連續(xù)出現(xiàn)的3個(gè)表情。這就使得現(xiàn)有的分詞系統(tǒng)無(wú)法對(duì)博文進(jìn)行準(zhǔn)確分詞,造成語(yǔ)義曲解,因而在以文本特征為基礎(chǔ)的用戶(hù)興趣畫(huà)像研究中,添加新詞詞典從而獲得準(zhǔn)確的分詞則變得十分必要。事實(shí)上在這一領(lǐng)域,研究人員從點(diǎn)互信息(Pointwise Mutual Information, PMI)和左右熵的角度已經(jīng)取得大量研究成果,如雷一鳴等[4]和劉偉童等[5]分別在此基礎(chǔ)上通過(guò)引入外部統(tǒng)計(jì)量和采取不切詞的策略在微博語(yǔ)料上進(jìn)行新詞識(shí)別。Li等[6]則通過(guò)提出特定領(lǐng)域新詞檢測(cè)(Domain-Specific New Words Detection, DW)系統(tǒng)用于發(fā)掘語(yǔ)料中的未登陸詞。這些研究為構(gòu)建新詞詞典提供了有益參考,然而卻普遍存在復(fù)雜度較高和擴(kuò)展性較差的問(wèn)題,本文針對(duì)上述局限,研究如何從支持度視角來(lái)提高NWD算法在新詞發(fā)現(xiàn)上的效果及其對(duì)用戶(hù)興趣畫(huà)像的促進(jìn)作用。
其次,微博平臺(tái)上的“信息過(guò)載”[7]現(xiàn)象嚴(yán)重,其主要指的是微博平臺(tái)上存在著自動(dòng)生成且海量投放的廣告、轉(zhuǎn)發(fā)推廣等等。在小樣本條件下,通常這一特性對(duì)微博用戶(hù)的興趣畫(huà)像效果影響較小,所以研究者多關(guān)注模型本身,如林燕霞等[8]提出結(jié)合社會(huì)認(rèn)同理論的文檔主題生成模型(Latent Dirichlet Allocation, LDA)對(duì)微博用戶(hù)進(jìn)行了群體興趣畫(huà)像描述,Kuzma等[9]則利用融合了神經(jīng)網(wǎng)絡(luò)與心理學(xué)模型的方法對(duì)微博用戶(hù)進(jìn)行興趣畫(huà)像。而對(duì)于大樣本數(shù)據(jù)集,嚴(yán)重的“信息過(guò)載”現(xiàn)象會(huì)對(duì)訓(xùn)練數(shù)據(jù)造成過(guò)多的噪聲污染,所以?xún)H關(guān)注模型本身不再適用于大樣本下的微博用戶(hù)興趣畫(huà)像,更準(zhǔn)確的興趣畫(huà)像需要對(duì)數(shù)據(jù)進(jìn)行降噪處理。
最后,簡(jiǎn)潔性作為微博文本的另一特性,其主要體現(xiàn)在大多數(shù)博文只有一個(gè)句子甚至一個(gè)短語(yǔ),這一特性使得微博文本在構(gòu)造特征時(shí)極易造成嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題[10]。從國(guó)內(nèi)外研究現(xiàn)狀來(lái)看,研究者大都利用微博文本的統(tǒng)計(jì)特征來(lái)對(duì)用戶(hù)進(jìn)行興趣畫(huà)像且多為無(wú)監(jiān)督模型,其可控性和可移植性都存在較大局限[11]。如Tu等[12]通過(guò)集成詞頻?逆文檔頻率(Term Frequency-Inverse Document Frequency, TFIDF)因子與TextRank算法對(duì)微博用戶(hù)進(jìn)行了興趣畫(huà)像研究,文獻(xiàn)[7, 13]都提出了不同的改進(jìn)LDA文本主題模型對(duì)微博用戶(hù)進(jìn)行興趣畫(huà)像。不同于上述研究,本文聚焦于微博文本的語(yǔ)義特征,研究使用監(jiān)督式模型Bi-LSTM[14]和XGBoost[15]對(duì)微博用戶(hù)進(jìn)行興趣畫(huà)像。
綜上所述,本文提出一種綜合考慮微博文本特殊性的集成算法NWD-Bi-LSTM-XGBoost,用以有效構(gòu)建多粒度微博用戶(hù)興趣畫(huà)像。首先,不同于PMI和左右熵,提出一種基于支持度視角的新詞發(fā)現(xiàn)算法,在分詞過(guò)程中準(zhǔn)確識(shí)別出新出現(xiàn)的網(wǎng)絡(luò)用語(yǔ),從而在訓(xùn)練詞向量(Word Embedding)時(shí)能更加有效地捕捉博文語(yǔ)義特征。其次,引入Simhash算法[16]對(duì)數(shù)據(jù)集進(jìn)行去重操作,將大量存在的廣告、轉(zhuǎn)發(fā)推廣等重復(fù)內(nèi)容去除,由此在最大程度上降低由于“信息過(guò)載”現(xiàn)象而導(dǎo)致的負(fù)面作用。在此基礎(chǔ)上,采用Bi-LSTM[14]提取博文語(yǔ)義特征[17],從而避開(kāi)由于微博文本的簡(jiǎn)潔性而造成的特征稀疏問(wèn)題,并同時(shí)構(gòu)建粗粒度用戶(hù)興趣畫(huà)像。最后,將博文語(yǔ)義特征與用戶(hù)靜態(tài)特征融合作為XGBoost算法[15]的輸入,由此構(gòu)建細(xì)粒度用戶(hù)興趣畫(huà)像。實(shí)驗(yàn)結(jié)果表明,本文方法能有效構(gòu)建多粒度微博用戶(hù)興趣畫(huà)像,同時(shí)也驗(yàn)證了NWD算法相對(duì)于傳統(tǒng)新詞發(fā)現(xiàn)方法的優(yōu)越性和其對(duì)構(gòu)建多粒度微博用戶(hù)興趣畫(huà)像時(shí)所起到的積極作用。
Simhash算法[16]是一種改進(jìn)的hash算法,因其能解決表面相似度較高的文本數(shù)據(jù)去重問(wèn)題而被廣泛應(yīng)用于自然語(yǔ)言處理的各項(xiàng)任務(wù)中。其主要包含以下2個(gè)步驟:
(1) 計(jì)算hash值。首先初始化一篇文檔為一個(gè)f 維0向量作為其簽名S ,同時(shí)初始化一個(gè) f維0向量V。然后對(duì)文檔進(jìn)行分詞并過(guò)濾掉一些語(yǔ)氣詞、助詞、干擾符號(hào)后將其轉(zhuǎn)換成一組特征詞,每個(gè)特征詞都有一個(gè)相應(yīng)的權(quán)重,該權(quán)重可以是特征詞在文檔中出現(xiàn)的總次數(shù)。再將所有的特征詞都使用相同的hash函數(shù)映射成一個(gè) f位的二進(jìn)制哈希值h, 遍歷h 的每一位,如果第i 位為1 (0 ?i ?f),V 的第i位加上該特征詞的權(quán)重,否則減去。最后遍歷 V ,若 V 的第i位值大于0,則將第 i位置為1,否則置為0。最終生成的簽名就是該文檔對(duì)應(yīng)的Simhash簽名。
(2) 給定閾值?,計(jì)算不同文檔之間Simhash值的海明距離d ,若d ,則判定為相似,否則判定為不相似。
在本研究中,由于數(shù)據(jù)集中的“信息過(guò)載”現(xiàn)象十分嚴(yán)重,因此,本文引入Simhash算法對(duì)數(shù)據(jù)集進(jìn)行降噪處理,從而為微博用戶(hù)興趣畫(huà)像模型的構(gòu)建提供良好的數(shù)據(jù)基礎(chǔ)。
雙向長(zhǎng)短期記憶網(wǎng)絡(luò)Bi-LSTM[14]是長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-term Memory, LSTM)[18]的改進(jìn)版,均屬于監(jiān)督式循環(huán)神經(jīng)網(wǎng)絡(luò)模型。Bi-LSTM主要解決了LSTM在處理序列化文本數(shù)據(jù)時(shí)只能考慮上文信息而無(wú)法同時(shí)兼顧下文信息的問(wèn)題,因而其具備更加優(yōu)良的文本分類(lèi)和語(yǔ)義特征提取能力。Bi-LSTM由一個(gè)前向LSTM模型和一個(gè)后向LSTM模型組成,如圖1所示。
圖 1 Bi-LSTM模型結(jié)構(gòu)示意圖Fig.1 Bi-LSTM model structure diagram
前向LSTM模型用于捕獲當(dāng)前時(shí)刻的上文特征信息,而后向LSTM則用于捕獲當(dāng)前時(shí)刻的下文特征信息,二者共同決定當(dāng)前時(shí)刻的預(yù)測(cè)輸出。例如,圖1中t 時(shí)刻的預(yù)測(cè)輸出yt為
梯度提升算法XGBoost[15]由梯度提升決策樹(shù)(Gradient Boosting Decision Tree, GBDT)[19]改進(jìn)而來(lái),屬于監(jiān)督式樹(shù)模型。設(shè)有特征數(shù)量為m , 容量為n 的數(shù)據(jù)集D 為
所有弱學(xué)習(xí)器的集合記為:F={f(X)=wq(X)}(q:Rm→T,w ∈RT) ,其中,q 為樣本 X映射到相應(yīng)葉子節(jié)點(diǎn)的決策規(guī)則, T表示當(dāng)前CART樹(shù)的葉子節(jié)點(diǎn)數(shù)量, w表示葉子節(jié)點(diǎn)的權(quán)重, f表示CART樹(shù),包括樹(shù)結(jié)構(gòu) q和葉子節(jié)點(diǎn)權(quán)重w ?;赬GBoost算法對(duì)樣本 Xi的預(yù)測(cè)輸出為
其中,l (·,·)是誤差項(xiàng),描述真實(shí)值和預(yù)測(cè)值之間差異的損失, ?(·) 是模型復(fù)雜度的罰項(xiàng),γ 是模型復(fù)雜度參數(shù), λ是一個(gè)固定系數(shù),對(duì)于每一棵CART樹(shù)的生成,計(jì)算每個(gè)分裂特征的增益分?jǐn)?shù),增益分?jǐn)?shù)最大的特征為該節(jié)點(diǎn)的最優(yōu)分裂特征,其計(jì)算方式為
在常見(jiàn)的新詞發(fā)現(xiàn)算法中,大多都基于PMI和左右熵的角度來(lái)考慮改進(jìn),而受啟發(fā)于Apriori算法[20],本文所提出的NWD算法從支持度視角重新思考了這一問(wèn)題,下述即為該算法的具體闡述。
根據(jù)已構(gòu)建的頻繁 k 項(xiàng)集 Lk,對(duì)常用詞進(jìn)行過(guò)濾。定義 Lk中第i 個(gè)字符串在t時(shí) 期與? t (非t)時(shí)期的詞頻支持度為
AVGT() 即為衡量在前T 個(gè)時(shí)期中L是否為常用詞的指標(biāo),因此在給定閾值區(qū)間 [ξ1,ξ2]的條件下,則能過(guò)濾掉前 T個(gè)時(shí)期中長(zhǎng)度為k 的常用詞,得到新詞集Nk={,,···,}, 通常情況下,z 綜上所述,得到下述完整NWD算法: 輸入:帶有時(shí)間標(biāo)記的微博語(yǔ)料,最長(zhǎng)字符串長(zhǎng)度 K ,閾值ξ ,總時(shí)期數(shù)T ,閾值區(qū)間[ξ1,ξ2] (1) For k =2 to K (2) For k =K?1 to 2 得到頻繁 k 項(xiàng)集:Lk={,,···,},k=2,3,···,K?1,即Ck→Lk.(3) For t =1 to T 基于頻繁 k 項(xiàng)集 Lk,掃描t時(shí)期的微博語(yǔ)料,得到t時(shí)期的頻繁k 項(xiàng)集 Lk,t及T F(),i=1,2,···,n,記錄t時(shí)期的微博總數(shù)λt. (4) For k =2 to K?1 說(shuō)明:不考慮長(zhǎng)度為1的詞,候選頻繁 K項(xiàng)集僅作為計(jì)算頻繁K?1項(xiàng)集的輔助項(xiàng)集,因此結(jié)果集中對(duì)長(zhǎng)度為 K的詞也不予保留。 NWD-Bi-LSTM-XGBoost算法的整體流程框架如圖2所示,該算法主要由3部分構(gòu)成:NWD新詞發(fā)現(xiàn)算法、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)Bi-LSTM和梯度提升算法XGBoost,其中,NWD算法用于發(fā)掘微博語(yǔ)料中的新詞及網(wǎng)絡(luò)用語(yǔ),從而獲得更加精確的分詞和語(yǔ)義把握,Bi-LSTM用于提取博文語(yǔ)義特征和訓(xùn)練一級(jí)標(biāo)簽?zāi)P?,XGBoost則用于訓(xùn)練二級(jí)標(biāo)簽?zāi)P汀?/p> 圖 2 NWD-Bi-LSTM-XGBoost算法框架流程圖Fig.2 NWD-Bi-LSTM-XGBoost algorithm framework flow charts 其算法步驟如下: (3) 加入新詞集,使用pkuseg[21]對(duì)所有語(yǔ)料進(jìn)行分詞,并以此結(jié)果訓(xùn)練Word-Embedding,得到每個(gè)單詞的 f 維向量表示( x1,x2,···,xf)T。 (5) 融合微博語(yǔ)義特征和用戶(hù)靜態(tài)特征得到特征數(shù)量為m , 容量為n 的數(shù)據(jù)集D 為 目前,由于還沒(méi)有針對(duì)微博用戶(hù)興趣畫(huà)像的專(zhuān)用公開(kāi)數(shù)據(jù)集,因此,本文在研究時(shí)使用Python編寫(xiě)聚焦爬蟲(chóng),抓取新浪微博(https://s.weibo.com/)數(shù)據(jù)共2 000余萬(wàn)條,包含約11.6萬(wàn)個(gè)用戶(hù),包括用戶(hù)ID、用戶(hù)昵稱(chēng)、性別、年齡、微博內(nèi)容、發(fā)表時(shí)間、點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)、發(fā)博工具、位置坐標(biāo)、關(guān)注數(shù)和粉絲數(shù)共計(jì)13個(gè)特征字段,時(shí)間跨度為2018-02-17至2018-07-06。此外,與文獻(xiàn)[13, 22]中所述方法相似,本文也采用微博本身的hashtag作為博文的興趣標(biāo)簽,具有相似hashtag的微博視為同一類(lèi)興趣博文,并由此得到粗粒度一級(jí)興趣標(biāo)簽和細(xì)粒度二級(jí)興趣標(biāo)簽,按照一級(jí)興趣標(biāo)簽所包含的博文數(shù)量進(jìn)行排序,選取top n個(gè)一級(jí)興趣標(biāo)簽下的微博文本形成本文實(shí)驗(yàn)數(shù)據(jù)集。如表1所示,本文通過(guò)hashtag抽取了14個(gè)一級(jí)興趣標(biāo)簽和61個(gè)二級(jí)興趣標(biāo)簽。 由于每個(gè)一級(jí)標(biāo)簽下的數(shù)據(jù)樣本存在類(lèi)別不平衡的問(wèn)題(Simhash過(guò)后,不平衡程度已經(jīng)得到大幅降低),因此本文對(duì)每個(gè)一級(jí)標(biāo)簽下的數(shù)據(jù)樣本進(jìn)行了過(guò)采樣或欠采樣處理,使得每個(gè)一級(jí)標(biāo)簽的樣本容量保持在8 000左右,并隨機(jī)選取其中的80%作為訓(xùn)練集,10%作為開(kāi)發(fā)集,10%作為測(cè)試集。 在實(shí)驗(yàn)中,NWD算法采用Map/Reduce分布式集群處理技術(shù)進(jìn)行實(shí)現(xiàn),考慮到新詞的生命周期大都超過(guò)1個(gè)月,同時(shí)新詞字符串長(zhǎng)度一般小于6,因此在實(shí)驗(yàn)中 T 恒定為5, K 恒定為7。而ξ 和[ ξ1,ξ2]由實(shí)驗(yàn)搜索得到,其調(diào)優(yōu)范圍分別為:0.50~0.75,0.50~0.75,1.25~1.75。本文采用skip-gram算法訓(xùn)練詞向量,輸出維度為200。對(duì)于Bi-LSTM,其模型結(jié)構(gòu)由2層128單元Bi-LSTM、1層64單元Bi-LSTM和1層14單元全連接層構(gòu)成,使用Adam更新參數(shù),初始學(xué)習(xí)率設(shè)置為0.005,并根據(jù)開(kāi)發(fā)集上的性能來(lái)選擇最優(yōu)參數(shù)。本文將第3層Bi-LSTM的64維激活向量作為博文語(yǔ)義特征。而對(duì)于XGBoost,其超參數(shù)采用隨機(jī)搜索(Random Search)[23]的方式來(lái)確定,具體操作方式為給定搜索范圍,基于前一輪次的運(yùn)行結(jié)果來(lái)優(yōu)化下一輪次的超參組合,迭代得到最優(yōu)超參組合。本文超參搜索范圍分別為:學(xué)習(xí)率0.01~0.1,樹(shù)的最大深度3~10,樣本采樣比0.5~1,樣本屬性采樣比0.5~1,L2正則化權(quán)重1~5,迭代輪數(shù)100~1 500。 表 1 微博用戶(hù)興趣標(biāo)簽體系Table 1 Interest tag system for microblog users 本文運(yùn)行NWD算法的集群環(huán)境由8臺(tái)機(jī)器組成,其中單臺(tái)機(jī)器配置為CPU:Intel Xeon E5504 2.00 GHz,RAM:4G,Ubuntu 16.04,Hadoop 2.7.3,jdk 1.7。后續(xù)訓(xùn)練均由本地機(jī)器完成,機(jī)器配置為CPU:Intel i5 8500,RAM:16G,NVIDIA GTX 1050,Ubuntu 16.04,Python 2.7.15。 在新詞發(fā)現(xiàn)的相關(guān)研究中,由于文本數(shù)據(jù)量極大,很難人工標(biāo)注出所有的真實(shí)新詞,因此通常使用P@N[24](信息檢索領(lǐng)域常用的前N個(gè)結(jié)果的準(zhǔn)確率)來(lái)衡量方法的有效性。具體為對(duì)各個(gè)方法返回的前N個(gè)結(jié)果進(jìn)行人工判別,取“是新詞”的比率作為前N個(gè)結(jié)果的準(zhǔn)確率。N一般取值100,200,300等,分別表示為P@100,P@200,P@300,在實(shí)際應(yīng)用中,對(duì)于給定的N,通常會(huì)從結(jié)果集中隨機(jī)選擇N個(gè)來(lái)計(jì)算新詞的P@N值,重復(fù)做10次取平均作為該方法的準(zhǔn)確率。 在微博用戶(hù)興趣畫(huà)像的相關(guān)研究中,宏平均F1值(Macro-average F1 score, mF1)和受試者工作特征曲線下面積(Area Under ROC Crave, AUC)是公認(rèn)的較為全面的評(píng)價(jià)標(biāo)準(zhǔn)[25]。mF1值定義為 3.4.1 NWD算法結(jié)果與分析 基于本文數(shù)據(jù)集,圖3給出了在不同參數(shù)條件下NWD算法的準(zhǔn)確率變化趨勢(shì)。從圖3(a)和圖3(b)中可見(jiàn),當(dāng)ξ 取0.65,[ ξ1,ξ2]取[0.65,1.55]時(shí),NWD算法的準(zhǔn)確率,即P@100,P@200,P@300均達(dá)到最高,分別為0.46,0.39,0.35。由此得到最優(yōu)超參組合 ξ=0.65,[ξ1,ξ2]=[0.65,1.55]。 在最優(yōu)超參組合下,NWD算法共發(fā)掘新詞5 589個(gè),其中衰減型新詞2 920個(gè),增長(zhǎng)型新詞2 669個(gè),其部分運(yùn)行結(jié)果如表2所示。 隨著字符串長(zhǎng)度k 的增加,其獨(dú)立成詞的能力不斷減弱,即用于發(fā)掘新詞的基數(shù) Lk會(huì)不斷減少,因此表2中的新詞數(shù)量呈現(xiàn)一種遞減的趨勢(shì)。對(duì)于所發(fā)掘的衰減型新詞,大部分2017年甚至2016年出現(xiàn)的網(wǎng)絡(luò)流行語(yǔ)都能被準(zhǔn)確發(fā)現(xiàn),如“尬聊”、“藍(lán)瘦”、“一臉懵逼”、“打call”等。而受語(yǔ)料規(guī)模和時(shí)間跨度的限制,其中也有少數(shù)新晉網(wǎng)絡(luò)流行語(yǔ)被識(shí)別為衰減型新詞,如“扛精”、“北鼻”等。隨著春節(jié)檔和冬奧會(huì)的到來(lái),“紅包”、“春晚”、“喜迎新春”等春節(jié)相關(guān)的詞,“唐仁”、“捉妖記2”、“一路繁花相送”等影視劇相關(guān)的詞以及“北京八分鐘”等冬奧會(huì)相關(guān)的詞,陡增又驟降且都出現(xiàn)在第一個(gè)時(shí)期,因此其中大部分也被識(shí)別為衰減型新詞。對(duì)于所發(fā)掘的增長(zhǎng)型新詞,“佛系”、“皮一下”、“C位出道”、“肥宅快樂(lè)水”等大多數(shù)新出現(xiàn)的網(wǎng)絡(luò)熱詞都能被有效發(fā)現(xiàn);與衰減型新詞類(lèi)似,由于相關(guān)綜藝及影視劇的播出,NBA季后賽及世界杯的來(lái)臨,“菊外人”、“創(chuàng)造101”、“鎮(zhèn)魂女孩”“詹姆斯”、“姆巴佩”等也在增長(zhǎng)型新詞集中大量出現(xiàn)。 圖 3 不同參數(shù)條件下NWD算法的準(zhǔn)確率Fig.3 Accuracy of NWD algorithm under different parameters 表 2 NWD算法部分運(yùn)行結(jié)果展示Table 2 Part of the NWD algorithm running results show 為了進(jìn)一步驗(yàn)證NWD算法的性能,本文分別選取了基于詞語(yǔ)互信息和外部統(tǒng)計(jì)量的新詞發(fā)現(xiàn)方法以及基于互信息和鄰接熵的新詞發(fā)現(xiàn)方法[4-5]與NWD算法在相同環(huán)境下進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表3所示。 表 3 不同方法的準(zhǔn)確率對(duì)比Table 3 Comparison of accuracy of different methods 從表3中可見(jiàn),NWD算法的準(zhǔn)確率P@100,P@200,P@300均高于文獻(xiàn)[4]和文獻(xiàn)[5]所提方法,其主要原因是由于文獻(xiàn)[4]所提方法直接使用現(xiàn)有分詞工具進(jìn)行切詞處理,本身就會(huì)使得大量新詞切分錯(cuò)誤,從而導(dǎo)致新詞識(shí)別的準(zhǔn)確率較低,而文獻(xiàn)[5]所提方法雖未使用分詞系統(tǒng),但由于方法中詞頻閾值的設(shè)定,使得在一些低頻新詞的發(fā)現(xiàn)上收效甚微。而NWD算法未進(jìn)行分詞,也不需要設(shè)定詞頻閾值,從實(shí)驗(yàn)結(jié)果上來(lái)看,新詞被錯(cuò)誤拆分的情況鮮有發(fā)生,而且在“芯愿”(37次)、“智熄”(28次)等這樣的低頻新詞發(fā)掘上也效果顯著。但是,在未建立全時(shí)段常用詞典的情況下,NWD算法受時(shí)段和語(yǔ)料特征的影響較大,無(wú)法將所有常用詞都準(zhǔn)確剔除,而且當(dāng)同一句式大量出現(xiàn)時(shí),會(huì)出現(xiàn)諸如“我pick了”類(lèi)似的截?cái)嘈托略~,從而對(duì)算法的準(zhǔn)確率造成一定影響。 3.4.2 微博用戶(hù)興趣畫(huà)像結(jié)果與分析 經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),一級(jí)標(biāo)簽?zāi)P偷螖?shù)為200時(shí)效果最優(yōu),此時(shí)的超參數(shù)分別為學(xué)習(xí)率0.005,優(yōu)化器Adam,小批量樣本數(shù)64。而二級(jí)標(biāo)簽?zāi)P驮趯?shí)驗(yàn)過(guò)程中通過(guò)隨機(jī)搜索的方式得到以下一組最優(yōu)超參組合,分別為學(xué)習(xí)率0.05,樹(shù)的最大深度6,樣本采樣比0.75,樣本屬性采樣比0.8,L2正則化權(quán)重1,迭代輪數(shù)1 200。 在以上超參條件下,一級(jí)標(biāo)簽?zāi)P?NWD-Bi-L S T M)和二級(jí)標(biāo)簽?zāi)P?N W D-B i-L S T MXGBoost)的mF1值和AUC值變化趨勢(shì)如圖4和圖5所示。為了驗(yàn)證算法的優(yōu)越性,本文分別引入了Bi-LSTM,文獻(xiàn)[4]-Bi-LSTM,文獻(xiàn)[5]-Bi-LSTM和Bi-LSTM-XGBoost,文獻(xiàn)[4]-Bi-LSTM-XGBoost,文獻(xiàn)[5]-Bi-LSTM-XGBoost共6個(gè)基準(zhǔn)模型。其中文獻(xiàn)[4]和文獻(xiàn)[5]分別表示文獻(xiàn)[4]和文獻(xiàn)[5]所提出的新詞發(fā)現(xiàn)方法。由圖4和圖5可見(jiàn),一級(jí)標(biāo)簽?zāi)P秃投?jí)標(biāo)簽?zāi)P偷膍F1值和AUC值均能收斂到較高水平,而且相對(duì)于基準(zhǔn)模型,在集成新詞發(fā)現(xiàn)算法后,相應(yīng)模型的mF1值和AUC值均有所提高。 圖 4 不同模型的mF1值和AUC值在測(cè)試集中的變化趨勢(shì)(一級(jí)標(biāo)簽?zāi)P?Fig.4 The trend of mF1 value and AUC value for different models in the test set(the primary tag model) 圖 5 不同模型的mF1值和AUC值在測(cè)試集中的變化趨勢(shì)(二級(jí)標(biāo)簽?zāi)P?Fig.5 The trend of mF1 value and AUC value of different models in the test set(the secondary tag model) 為了更加直觀和定量地反映NWD-Bi-LSTMXGBoost算法在多粒度微博用戶(hù)興趣畫(huà)像構(gòu)建上的效果,一級(jí)標(biāo)簽?zāi)P?、二?jí)標(biāo)簽?zāi)P图跋嚓P(guān)基準(zhǔn)模型在測(cè)試集中的最終mF1值和AUC值如表4和表5所示。 表 4 不同模型的mF1值和AUC值(一級(jí)標(biāo)簽?zāi)P?Table 4 The mF1 and AUC for different models(the primary tag model) 表 5 不同模型的mF1值和AUC值(二級(jí)標(biāo)簽?zāi)P?Table 5 The mF1 and AUC for different models (the secondary tag model) 從表4和表5中可見(jiàn),NWD-Bi-LSTM模型在測(cè)試集上的mF1值和AUC值分別為0.836和0.797,NWDBi-LSTM-XGBoost模型在測(cè)試集上的mF1值和AUC值分別為0.704和0.636,這說(shuō)明兩個(gè)模型能有效對(duì)微博用戶(hù)進(jìn)行多粒度興趣標(biāo)簽識(shí)別。而相對(duì)于基準(zhǔn)模型Bi-LSTM和Bi-LSTM-XGBoost,在加入NWD算法后,模型的mF1值和AUC值分別提高了0.032,0.041和0.033,0.047,表明NWD算法的集成使得模型在構(gòu)建多粒度微博用戶(hù)興趣畫(huà)像時(shí)效果更優(yōu)。相對(duì)于文獻(xiàn)[4]-Bi-LSTM、文獻(xiàn)[5]-Bi-LSTM和文獻(xiàn)[4]-Bi-LSTM-XGBoost、文獻(xiàn)[5]-Bi-LSTMXGBoost這4個(gè)基準(zhǔn)模型,集成NWD算法的一級(jí)標(biāo)簽?zāi)P秃投?jí)標(biāo)簽?zāi)P偷膍F1值和AUC值分別高出其0.018,0.021,0.019,0.014和0.023,0.016,0.028,0.022,進(jìn)一步說(shuō)明了NWD算法相對(duì)于傳統(tǒng)新詞發(fā)現(xiàn)算法的優(yōu)越性能。 本文在實(shí)驗(yàn)數(shù)據(jù)集外隨機(jī)抽取了一個(gè)微博用戶(hù)的相關(guān)數(shù)據(jù),通過(guò)一級(jí)標(biāo)簽?zāi)P蚇WD-Bi-LSTM和二級(jí)標(biāo)簽?zāi)P蚇WD-Bi-LSTM-XGBoost構(gòu)建該用戶(hù)的多粒度興趣畫(huà)像,其可視化展示如圖6,用戶(hù)的原博文如下(ID為脫敏處理后的ID):5510793657:“美圖T9顏值就和我的小王子[愛(ài)你]{愛(ài)你}一樣高,用它拍照片,我也能擁有小王子一樣的美貌”。“爬出鉆石的坑王者還會(huì)遠(yuǎn)嗎@王者榮耀”。“『姆巴佩美圖』2018世界杯,下場(chǎng)對(duì)陣丹麥繼續(xù)進(jìn)球幫助球隊(duì)全勝[色][色][色]法國(guó)隊(duì)姆巴佩俄羅斯世界杯”?!皵y手同心,求酒吞,有閻魔11,青行燈5,荒川10[傳記未解],還有幾片茨木,人換嗎[允悲]”。 圖 6 樣例可視化展示Fig.6 Visualization of a sample 本文首先提出了一種基于支持度視角的NWD算法,在此基礎(chǔ)上,進(jìn)一步提出集成算法NWD-Bi-LSTM-XGBoost用于構(gòu)建多粒度微博用戶(hù)興趣畫(huà)像。該算法首先通過(guò)NWD-Bi-LSTM模型對(duì)微博用戶(hù)進(jìn)行粗粒度興趣標(biāo)簽識(shí)別并提取博文語(yǔ)義特征,將其與用戶(hù)靜態(tài)特征融合通過(guò)XGBoost算法對(duì)微博用戶(hù)進(jìn)行細(xì)粒度興趣標(biāo)簽識(shí)別。實(shí)驗(yàn)結(jié)果表明,NWD-Bi-LSTM-XGBoost算法能有效對(duì)微博用戶(hù)進(jìn)行多粒度興趣畫(huà)像構(gòu)建。同時(shí),本文所提出的NWD算法也能對(duì)網(wǎng)絡(luò)中出現(xiàn)的新詞進(jìn)行準(zhǔn)確發(fā)掘并在對(duì)微博用戶(hù)進(jìn)行多粒度興趣畫(huà)像構(gòu)建時(shí)起到積極的促進(jìn)作用,也豐富了新詞發(fā)現(xiàn)領(lǐng)域的相關(guān)理論。 未來(lái)的研究工作中,我們將聚焦于以下兩個(gè)方面:(1) 建立全時(shí)段常用詞典并探索更加有效的新詞發(fā)現(xiàn)算法來(lái)提高新詞發(fā)現(xiàn)的準(zhǔn)確性,從而實(shí)現(xiàn)更加精確的分詞和語(yǔ)義把握;(2) 建立更加豐富和完善的微博用戶(hù)興趣動(dòng)態(tài)標(biāo)簽知識(shí)庫(kù),以期能實(shí)現(xiàn)對(duì)微博用戶(hù)的多角度全時(shí)段興趣畫(huà)像。2.2 多粒度微博用戶(hù)興趣畫(huà)像模型NWD-Bi-LSTM-XGBoost
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
3.2 超參數(shù)與機(jī)器配置
3.3 評(píng)價(jià)標(biāo)準(zhǔn)
3.4 實(shí)驗(yàn)結(jié)果與分析
3.5 樣例可視化展示
4 結(jié)語(yǔ)