国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題情感聯(lián)合分析的游客畫(huà)像研究

2022-06-16 05:25李少波
計(jì)算機(jī)工程 2022年6期
關(guān)鍵詞:按摩水療蒸汽

李 琴,李少波,胡 杰

(1.貴州財(cái)經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計(jì)學(xué)院,貴陽(yáng) 550000;2.貴州大學(xué) 機(jī)械工程學(xué)院,貴陽(yáng) 550000)

0 概述

游客畫(huà)像是對(duì)游客屬性標(biāo)簽化的過(guò)程,主要應(yīng)用于旅游目的地的精準(zhǔn)營(yíng)銷(xiāo)、個(gè)性化服務(wù)、游客行為分析、輿情治理等方面,是實(shí)現(xiàn)智能化旅游的關(guān)鍵。酒店作為旅游經(jīng)濟(jì)過(guò)程中的重要因素,與旅游經(jīng)濟(jì)起著相互促進(jìn)的作用。酒店是否符合現(xiàn)階段游客的需求成為游客衡量旅游目的地的重要因素之一。通過(guò)挖掘分析獲取不同群體的需求或喜好特點(diǎn)繼而推薦符合不同群體需求的酒店,是提升游客體驗(yàn)和酒店運(yùn)營(yíng)的有效手段?,F(xiàn)代旅游過(guò)程以社會(huì)互動(dòng)和旅游信息交換為特征,其產(chǎn)物——游客生成文本,能夠反映游客的喜好、感知和需求信息,通過(guò)對(duì)游客生成文本進(jìn)行分析,準(zhǔn)確獲取不同群體的情感喜好等信息對(duì)旅游酒店推薦具有重要意義。

隨著深度學(xué)習(xí)的發(fā)展,以文本數(shù)據(jù)為主的自然語(yǔ)言處理技術(shù)異軍突起[1],在主題挖掘和情感分析等領(lǐng)域取得重大進(jìn)展[2]。在大多數(shù)情況下,文本的主題和情感仍被割裂開(kāi)來(lái)分析,然而在實(shí)際情況中,通常要求主題和情感具有相互指向性,例如“美麗的”指向具體對(duì)象如“花園”或“花園”指向情感要素如“美麗的”。如何進(jìn)行主題和情感的聯(lián)合分析成為研究熱點(diǎn)。大量無(wú)監(jiān)督主題情感分析模型應(yīng)運(yùn)而生,如JST 模型[3]、ASUM 模型[4]、JMTS[5]等。這類(lèi)無(wú)監(jiān)督主題情感模型認(rèn)為詞的生成與主題和情感都相關(guān),通過(guò)對(duì)每個(gè)句子或每個(gè)詞進(jìn)行情感標(biāo)簽和主題標(biāo)簽采樣,以生成句子的主題和情感對(duì)。另一類(lèi)無(wú)監(jiān)督主題情感模型(如WLDA[6]、TSLDA[7]、JST-RR[8]等)通過(guò)引入先驗(yàn)知識(shí)(如互信息、主觀(guān)性詞典、主題意見(jiàn)詞對(duì)、文本情感等),在獲取主題的同時(shí)提升情感檢測(cè)率。這類(lèi)模型并不是完全無(wú)監(jiān)督,其利用先驗(yàn)知識(shí)誘導(dǎo)先驗(yàn),從而增強(qiáng)主題模型的稀疏性。這2 類(lèi)模型均以隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)為基礎(chǔ)模型,具有較強(qiáng)的挖掘能力。LDA 作為一種貝葉斯生成模型,主要依賴(lài)于關(guān)鍵詞詞頻信息。但是LDA 模型缺乏先驗(yàn)信息的指導(dǎo)且僅適用于長(zhǎng)文本的分析,采用吉布斯采樣進(jìn)行后驗(yàn)分布計(jì)算,當(dāng)文檔數(shù)量多而主題個(gè)數(shù)較少時(shí),LDA 模型的訓(xùn)練速度相對(duì)較慢,并且需要在數(shù)學(xué)上重新推導(dǎo)新的推理算法進(jìn)行更改。LDA 作為一種無(wú)監(jiān)督模型,缺乏標(biāo)簽的約束,其訓(xùn)練得到的主題通常表達(dá)解釋能力較差。有監(jiān)督學(xué)習(xí)利用標(biāo)簽數(shù)據(jù)的正向回饋,其準(zhǔn)確率優(yōu)于無(wú)監(jiān)督學(xué)習(xí)[9]。SLDA 模型[10]將元數(shù)據(jù)作為標(biāo)簽(如情感評(píng)分等),以輔助推斷和預(yù)測(cè)標(biāo)簽相關(guān)的主題,相對(duì)無(wú)監(jiān)督的LDA,該模型具有更優(yōu)的預(yù)測(cè)能力。

LDA 作為概率主題模型中簡(jiǎn)單且經(jīng)典的模型,為主題模型提供了一個(gè)標(biāo)準(zhǔn)框架,在學(xué)術(shù)界和工業(yè)界具有廣泛的研究和應(yīng)用價(jià)值,但其自身的局限性卻不容忽視。隨著變分自編碼(Variational Auto-Encoders,VAEs)模型的提出,使用變分自編碼深度學(xué)習(xí)在特征提取方面(如情感、主題等)取得巨大的成 功[11-12]。VAEs 是一種深度生成模型,又稱(chēng)為AEVB 算法,該模型基于變分的貝葉斯理論,將編碼器和解碼器設(shè)置為神經(jīng)網(wǎng)絡(luò),通過(guò)迭代優(yōu)化過(guò)程學(xué)習(xí)最佳的編碼-解碼方案。結(jié)果表明[13],相比使用吉布斯采樣的LDA 主題模型,VAEs 在主題模型上的應(yīng)用能夠有效挖掘主題,且更易擴(kuò)展。此外,重參數(shù)化技巧RT(Reparameterization Trick)及SGVB 估計(jì)算法建立AEVB 算法的梯度反向傳播機(jī)制。RT 在技術(shù)方面的提高使得更多的分布能被應(yīng)用在VAEs中,同時(shí)為VAEs 近似復(fù)雜概率模型提供更多的可能性。

研究工作表明[14-15],先驗(yàn)分布的復(fù)雜度及超參數(shù)的選擇對(duì)于深度生成模型或貝葉斯神經(jīng)網(wǎng)絡(luò)的性能具有重要意義。本文提出基于變分自編碼的有監(jiān)督主題情感聯(lián)合分析模型SJST-VAE。通過(guò)先驗(yàn)知識(shí)和情感標(biāo)簽輔助主題的訓(xùn)練和生成,利用截?cái)喔咚鼓P妥兎謪?shù)構(gòu)造適合主題挖掘過(guò)程的神經(jīng)變分推斷形式,采用主題分布下的情感分類(lèi)預(yù)測(cè)實(shí)現(xiàn)主題情感的聯(lián)合分析。

1 相關(guān)工作

變分自編碼在主題概率模型中得到廣泛應(yīng)用[16]。LDA 的任何變體都需派生自定義推理算法,然而變分自編碼具有較強(qiáng)適應(yīng)數(shù)據(jù)特征的能力,其推理方法為隱藏變量建模提供強(qiáng)大的架構(gòu),具有更強(qiáng)的可擴(kuò)展性。AVITM(Autoencoding Variational Inference for Topic Models)模型[13]通過(guò)構(gòu)建變分自編碼與主題模型的橋梁,降低Dirichlet 先驗(yàn)和組件坍塌(類(lèi)似于先驗(yàn)信任的局部最優(yōu))對(duì)AEVB 算法產(chǎn)生的影響。針對(duì)傳統(tǒng)主題模型在短文本上表現(xiàn)較差的問(wèn)題,文獻(xiàn)[17]利用詞向量和主題向量的點(diǎn)積構(gòu)建詞的主題分布,并定義了詞的上下文表征以區(qū)分一詞多義的現(xiàn)象,提出一種利用詞向量語(yǔ)義關(guān)系輔助主題挖掘的嵌套變分貝葉斯的主題模型。文獻(xiàn)[18]提出使用Gumbel-Softmax 模型和高斯混合模型建模變分自編碼主題類(lèi)別分布,解決局部最優(yōu)的問(wèn)題,并分析選擇不同分布模型對(duì)主題生成的影響。文獻(xiàn)[19]利用動(dòng)態(tài)因子圖模擬主題在時(shí)間上的動(dòng)態(tài)變化,基于變分自編碼構(gòu)建動(dòng)態(tài)的主題模型。針對(duì)傳統(tǒng)主題模型無(wú)法動(dòng)態(tài)確定主題數(shù)量的問(wèn)題,文獻(xiàn)[20]基于自編碼變分推斷的架構(gòu),提出一種循環(huán)神經(jīng)主題模型,以發(fā)現(xiàn)從概念上無(wú)界限的主題。這些模型雖然根據(jù)變分自編碼易擴(kuò)展的特性展現(xiàn)出在主題挖掘上的優(yōu)勢(shì),但是缺乏主題的情感指導(dǎo)或主題與情感的聯(lián)合分析。

主題情感的聯(lián)合分析是一種細(xì)粒度的意見(jiàn)挖掘,其目標(biāo)是從文本主觀(guān)評(píng)論中獲取情感傾向的觀(guān)點(diǎn)或情感要素。在旅游領(lǐng)域中具體的實(shí)際應(yīng)用尤其是旅游推薦具有重要意義。結(jié)合深度學(xué)習(xí)的思想,基于方面或目標(biāo)實(shí)體的情感分類(lèi)(TABSA)雖然在挖掘文本特征信息和對(duì)應(yīng)情感屬性上取得較大進(jìn)展,但是大多依賴(lài)于文本類(lèi)別、特征屬性及對(duì)應(yīng)情感類(lèi)別的標(biāo)注,使得實(shí)際工作面臨較大的困難。傳統(tǒng)的無(wú)監(jiān)督主題情感模型在一定程度上解決數(shù)據(jù)標(biāo)注缺乏的問(wèn)題,但因計(jì)算復(fù)雜度高且時(shí)間消耗久等問(wèn)題,導(dǎo)致模型難以擴(kuò)展。變分自編碼主題模型的實(shí)現(xiàn)成為解決該問(wèn)題的關(guān)鍵。文獻(xiàn)[18]基于傳統(tǒng)情感主題聯(lián)合模型JST,預(yù)先定義特征種子詞,通過(guò)對(duì)AVITM 模型進(jìn)行擴(kuò)展,實(shí)現(xiàn)變分自編碼的無(wú)監(jiān)督情感與主題的聯(lián)合分析。但是任何無(wú)監(jiān)督的模型都無(wú)法假設(shè)現(xiàn)實(shí)中的所有情況[10],其相較于有監(jiān)督模型的準(zhǔn)確率較低。根據(jù)當(dāng)前旅游社交網(wǎng)站中文本評(píng)論及情感評(píng)分易于獲取的特點(diǎn),本文基于A(yíng)VITM 模型,以邏輯或知識(shí)表示先驗(yàn)知識(shí),利用情感監(jiān)督主題的識(shí)別輔助預(yù)測(cè)情感分類(lèi),從而實(shí)現(xiàn)主題情感的聯(lián)合分析和酒店游客的特征畫(huà)像。

2 LDA 模型

LDA 模型由Dirichlet 先驗(yàn)的主題分布得名,Dirichlet 先驗(yàn)的選擇對(duì)于可解釋性主題的獲得具有重要作用。在LDA 模型中,主題被看作相關(guān)主題的詞匯分布,每個(gè)文檔被看作多個(gè)主題的分布。為生成文檔d,該過(guò)程會(huì)隨機(jī)選擇主題的分布θd,通過(guò)從主題分布中隨機(jī)選擇一個(gè)主題zd,n,從相應(yīng)主題或主題的詞匯分布βk隨機(jī)選擇一個(gè)詞來(lái)生成文檔中每個(gè)可觀(guān)測(cè)詞wd,n。因此,LDA 中文檔d的生成如下:

其中:α為Dirichlet 分布的超參數(shù)。在多項(xiàng)分布假設(shè)下,θ和β之間的耦合導(dǎo)致隱變量θ和z后驗(yàn)分布的推理難以計(jì)算,需要借助各種近似方法。LDA 模型采用吉布斯采樣方法,即一類(lèi)MCMC(Markov Chain Monte Carlo)算法,通過(guò)抽取大量樣本估計(jì)真實(shí)的后驗(yàn)分布,但該方法計(jì)算復(fù)雜度高且時(shí)間消耗量大。

3 變分自編碼框架下主題分布的參數(shù)化

針對(duì)LDA 模型中后驗(yàn)分布難以計(jì)算的問(wèn)題,研究人員提出變分推理方法,通過(guò)優(yōu)化過(guò)程尋求一種變分分布近似真實(shí)的后驗(yàn)分布。MFVI(Mean-Field Variational Inference)方法是一種比較經(jīng)典的變分推理方法,但是由于計(jì)算原因難以擴(kuò)展到新的模型。AEVB 算法旨在以一種“黑匣子”推理方法來(lái)解決該問(wèn)題,該算法利用推斷和學(xué)習(xí)使得簡(jiǎn)單的采樣就能進(jìn)行有效的近似推斷,不需要復(fù)雜的迭代推理方式(如MCMC)。

在LDA 模型中,隱變量z是離散變量,無(wú)法進(jìn)行重參數(shù)化處理,通過(guò)求和運(yùn)算折疊z變量,即將式(1)轉(zhuǎn)變?yōu)椋?/p>

其中:wn|β,θ~Multinomial(1,βθ)。

因此,后驗(yàn)分布難以計(jì)算的問(wèn)題轉(zhuǎn)化為評(píng)估θ和β的分布。VAE 使用自編碼學(xué)習(xí)θ和β的分布,同時(shí)通過(guò)拉普拉斯將原始Dirichlet 先驗(yàn)分布近似為變分分布。在LDA 主題模型中,主題變量的先驗(yàn)θ=(θ1,θ2,…,θK)(K為主題個(gè)數(shù))被定義為Dirichlet 分布,經(jīng)過(guò)變分推理,主題變量的Dirichlet 先驗(yàn)p(θ|α)通過(guò)拉普拉斯被近似為一個(gè)多元高斯分布。多元高斯分布由均值向量μ和對(duì)角協(xié)方差矩陣Σ定義,其中,所以p(θ|α)近似為q(θ)=LN(θ|μ,Σ),其中LN是邏輯正態(tài)分布。邏輯正態(tài)分布更能促進(jìn)主題一致性。

通過(guò)拉普拉斯近似計(jì)算得到多元高斯分布的均值向量μ和對(duì)角協(xié)方差矩陣Σ,如式(5)和式(6)所示:

在變分自編碼框架下,將觀(guān)測(cè)數(shù)據(jù)文檔w詞序列作為輸入,將2 個(gè)推斷網(wǎng)絡(luò)作為前向神經(jīng)網(wǎng)絡(luò),其中,δ為推斷網(wǎng)絡(luò)的參數(shù),即變分參數(shù),,從而估計(jì)的值,每個(gè)網(wǎng)絡(luò)的輸出均為K維向量。

變分分布的構(gòu)造有多種形式,高斯分布是其經(jīng)典的變分分布形式。在變量原始分布未知的情況下,高斯分布可以為噪聲和不確定性建模。通過(guò)高斯先驗(yàn)分布和RT 技術(shù)為變分分布建立無(wú)偏差或低方差的梯度估計(jì)器,如SGVB。

3.1 單高斯分布模型

θ服從單高斯分布模型(Gaussian SoftMax,GSM),即:

其中:W1為線(xiàn)性變換權(quán)重,偏差項(xiàng)做了省略處理。

3.2 截?cái)喔咚鼓P?/h3>

SB(Stick-Breaking)過(guò)程被用于主題變量Dirichlet過(guò)程的建設(shè)性定義,為其先驗(yàn)提供初始關(guān)聯(lián)權(quán)重。在截?cái)喔咚梗℅SB)模型構(gòu)建過(guò)程中,通過(guò)逐次分割單位為1的區(qū)間順序獲取高斯先驗(yàn),其中θk表示每個(gè)分量。SB 構(gòu)建過(guò)程如圖1 所示。

圖1 SB 構(gòu)建過(guò)程Fig.1 SB construction process

設(shè)第1個(gè)類(lèi)別的概率為分割比例η1,其余比例1-η1為后續(xù)的分割計(jì)算。高斯先驗(yàn)的每一維計(jì)算如式(8)所示:

不同的K值需滿(mǎn)足=1。多項(xiàng)式概率參數(shù)的建模被轉(zhuǎn)化為二項(xiàng)式概率參數(shù)的對(duì)數(shù)建模。

設(shè)高斯樣本x∈RK,W2∈RK×(K-1),則,其構(gòu)造過(guò)程如式(9)所示:

與Dirichlet 過(guò)程的SB 定義相比,高斯過(guò)程的SB為神經(jīng)變分推斷提供更合適的形式。在高斯先驗(yàn)的分配過(guò)程中,SB 構(gòu)建過(guò)程缺乏控制力,SB 先驗(yàn)可以更好地保留類(lèi)別邊界,為半監(jiān)督學(xué)習(xí)提供有效的正則化。同時(shí),SB 過(guò)程能夠降低模型對(duì)主題數(shù)量變化的敏感度,更具穩(wěn)定性。

4 本文模型

無(wú)監(jiān)督主題模型缺乏有效先驗(yàn)知識(shí)的指導(dǎo)或監(jiān)督學(xué)習(xí)中數(shù)據(jù)的標(biāo)注。針對(duì)該問(wèn)題,本文基于LDA模型,引入詞頻相對(duì)主題的權(quán)重,以影響主題的先驗(yàn)分布,從而指導(dǎo)主題的生成,同時(shí)通過(guò)情感標(biāo)簽監(jiān)督生成主題,利用主題特征預(yù)測(cè)情感分類(lèi),從而實(shí)現(xiàn)主題情感的聯(lián)合分析。本文模型SJST-VAE 以VAE 為主要架構(gòu),主要由先驗(yàn)知識(shí)的指導(dǎo)、情感標(biāo)簽的監(jiān)督、變分目標(biāo)損失函數(shù)的計(jì)算和主題情感的聯(lián)合分析這4 個(gè)部分組成。SJST-VAE 模型架構(gòu)如圖2所示。

圖2 SJST-VAE 模型架構(gòu)Fig.2 Framework of SJST-VAE model

4.1 先驗(yàn)知識(shí)的指導(dǎo)

VAE 架構(gòu)的優(yōu)勢(shì)是為編碼網(wǎng)絡(luò)提供一種可以引入先驗(yàn)信息的擴(kuò)展方法。本文模型SJST-VAE以詞的Bagof-words 表征作為輸入,通過(guò)變分自編碼網(wǎng)絡(luò)獲取文檔的特征。此外,針對(duì)文本中權(quán)重過(guò)高的詞大多不能進(jìn)行局部主題表示的問(wèn)題,如IMDB 語(yǔ)料庫(kù)中,單詞“film”或“movie”在主題模型學(xué)習(xí)中往往相對(duì)不重要,本文通過(guò)弱化詞頻過(guò)高的詞,設(shè)置背景術(shù)語(yǔ)從而獲取相對(duì)常見(jiàn)的詞,以此促進(jìn)主題的一致性。

假設(shè)語(yǔ)料由D個(gè)文檔組成,語(yǔ)料詞典大小為V,如圖2 所示,在變分自編碼網(wǎng)絡(luò)框架下,SJST-VAE 模型以文檔詞序列w作為輸入,通過(guò)2 個(gè)MLP 推斷網(wǎng)絡(luò)變分近似為具有對(duì)角正態(tài)先驗(yàn)的文本表征r,即,如式(10)所示:

從而獲得r的近似后驗(yàn)分布,如式(11)所示:

圖3 SB 映射過(guò)程Fig.3 SB mapping process

單純形θ如式(12)所示:

本文設(shè)置稀疏誘導(dǎo)先驗(yàn),即正態(tài)指數(shù)復(fù)合先驗(yàn),置于權(quán)重矩陣B∈RK×V(主題詞分布矩陣的初始化),使模型學(xué)習(xí)到詞頻相對(duì)主題的權(quán)重信息,同時(shí)定義背景術(shù)語(yǔ)d∈RV,表示詞頻中所有詞的詞頻對(duì)數(shù)值,旨在通過(guò)B與d的偏離程度將主題權(quán)重傾向于文檔中出現(xiàn)頻率大致相同的常見(jiàn)詞,而不是詞頻過(guò)高的詞。權(quán)重矩陣B的正態(tài)指數(shù)復(fù)合先驗(yàn)過(guò)程如式(13)和式(14)所示:

其中:ξ>0 為指數(shù)分布率參數(shù)。重構(gòu)文檔為:

整個(gè)神經(jīng)網(wǎng)絡(luò)的損失函數(shù)如式(16)所示:

4.2 情感標(biāo)簽的監(jiān)督

除了能有效推斷文本主題外,本文模型SJSTVAE 還能推斷文本的潛在表達(dá)及預(yù)測(cè)文本的情感傾向,利用情感標(biāo)簽對(duì)主題生成前后進(jìn)行監(jiān)督。生成主題后的監(jiān)督是在可觀(guān)測(cè)詞的條件下,完成主題模型的變分自編碼解碼的過(guò)程,利用多層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽的交叉熵作為損失函數(shù),從而實(shí)現(xiàn)情感標(biāo)簽的預(yù)測(cè)。情感預(yù)測(cè)標(biāo)簽的計(jì)算如式(17)所示:

其中:fy為多層神經(jīng)網(wǎng)絡(luò)。

在主題生成過(guò)程中,情感標(biāo)簽還用于監(jiān)督主題訓(xùn)練過(guò)程,以促進(jìn)局部主題的生成。SJST-VAE 模型在預(yù)測(cè)情感標(biāo)簽時(shí),利用one-hot 編碼表征文檔的情感標(biāo)簽ey,并對(duì)編碼器網(wǎng)絡(luò)進(jìn)行訓(xùn)練,情感標(biāo)簽ey被用于構(gòu)建文本表征的特征,如(18)和式(19)所示:

其中:fg為多層感知器;Wx和Wy為線(xiàn)性權(quán)重參數(shù)。

在訓(xùn)練過(guò)程中,情感類(lèi)別標(biāo)簽作為可觀(guān)測(cè)變量。在測(cè)試時(shí),本文模型考慮所有可能的情感標(biāo)簽向量,如正向或負(fù)向,使得文檔中所有詞概率對(duì)數(shù)和最大的標(biāo)簽為所預(yù)測(cè)標(biāo)簽,如式(20)所示:

其中:vi為詞典中的詞,i={1,2,…,V}。

4.3 變分目標(biāo)損失函數(shù)

與傳統(tǒng)變分推理類(lèi)似,SJST-VAE 模型構(gòu)造一個(gè)Dirichlet先驗(yàn)的拉普拉斯近似,使Dirichlet分布可以近似為邏輯正態(tài)分布。本文假設(shè)Dirichlet先驗(yàn)是對(duì)稱(chēng)的,即所有超參數(shù)α取相同值,由式(5)和式(6)可得:

在變分自編碼架構(gòu)下,本文設(shè)計(jì)高斯變分分布,以近似后驗(yàn)分布qδ(r|w,ey)。模型學(xué)習(xí)的目標(biāo)是使近似后驗(yàn)分布盡可能接近于真實(shí)后驗(yàn)分布p(r|α)。本文采用KL 散度進(jìn)行相似度計(jì)算,找到能使KL 散度盡可能小的變分參數(shù),如式(22)所示:

通過(guò)一系列計(jì)算推演,式(22)轉(zhuǎn)換為使變分下界ELBO 最大化,其變分下界如式(23)所示:

其中:KL 散度為正則項(xiàng);其他部分為重構(gòu)損失。KL散度如式(24)所示:

4.4 主題情感的聯(lián)合分析

SJST-VAE 模型通過(guò)變分自編碼網(wǎng)絡(luò)獲取各文檔的主題分布,并將其作為輸入,通過(guò)文檔的情感監(jiān)督對(duì)MLP 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)情感分類(lèi)的預(yù)測(cè)。

本文假設(shè)文檔數(shù)據(jù)集有K個(gè)主題,并將只包含第k個(gè)主題的文本主題分布tk定義為除第k個(gè)分量為1 外,其余各分量均為0 的向量。因此,為獲得第k個(gè)主題的情感分布,模型以tk作為輸入向量進(jìn)行情感預(yù)測(cè),其中k=1,2,…,K,以獲取各個(gè)主題下的情感概率分布。

5 實(shí)驗(yàn)結(jié)果與分析

5.1 數(shù)據(jù)集與參數(shù)設(shè)置

本文將IMDB 語(yǔ)料集作為評(píng)估SJST-VAE 模型的數(shù)據(jù)集,該數(shù)據(jù)集包含50 000 條電影評(píng)論,其中25 000 條負(fù)面評(píng)論和25 000 條正面評(píng)論,且訓(xùn)練集25 000 條和測(cè)試集25 000 條。在數(shù)據(jù)集中所有單詞通過(guò)預(yù)處理均被轉(zhuǎn)化為字母小寫(xiě)形式,并刪除了標(biāo)點(diǎn)符號(hào)、數(shù)字及小于3 個(gè)字符和停用詞表中的所有單詞。詞典由在大多數(shù)文檔中都出現(xiàn)的單詞組成,大小設(shè)為2 000。在模型訓(xùn)練過(guò)程中,本文使用softplus 激勵(lì)函數(shù)、Adam 優(yōu)化器(參數(shù)設(shè)為0.99),學(xué)習(xí)率設(shè)為0.002,批量大小設(shè)為200,?采樣數(shù)量設(shè)為1,訓(xùn)練迭代次數(shù)設(shè)為200。在測(cè)試文檔估計(jì)ELBO值時(shí),?采樣數(shù)量設(shè)為20。

5.2 評(píng)估標(biāo)準(zhǔn)

SJST-VAE 模型是基于情感監(jiān)督進(jìn)行主題情感聯(lián)合分析。研究人員給出不同的衡量標(biāo)準(zhǔn),如困惑度、相關(guān)性、稀疏度等,以客觀(guān)評(píng)價(jià)主題獲取的優(yōu)劣程度。困惑度表示文檔屬于哪個(gè)主題的不確定性,困惑度越低,聚類(lèi)效果越好,主題與主題的區(qū)分性越強(qiáng);相關(guān)性表示模型獲取主題的top-n個(gè)詞的語(yǔ)義一致性,一致性越高表示主題可解釋性越好;稀疏度在一定意義上表示模型的可解釋性,因?yàn)槊總€(gè)主題能夠接受被描繪的詞往往是有限的,主題的詞分布矩陣越稀疏(即稀疏度越大),可解釋性越強(qiáng)。雖然這3 種評(píng)估標(biāo)準(zhǔn)具有一定的有效性,但其不能完全作為評(píng)估標(biāo)準(zhǔn),有時(shí)需要直觀(guān)的主題表示進(jìn)行評(píng)估。模型主題困惑度如式(25)所示:

其中:C為測(cè)試語(yǔ)料且包含D篇文檔;Nd為每篇文檔包含詞的數(shù)量;p(wd)為文檔d中詞產(chǎn)生的概率。

本文采用NPMI(Normalized Pointwise Mutual Information)對(duì)文本語(yǔ)料主題相關(guān)性進(jìn)行評(píng)估。PMI主要用于度量一些詞的共現(xiàn),以此判定詞的相關(guān)性,PMI 如式(26)所示:

對(duì)于PMI 的正則化有多種選擇,如通過(guò)-lnp(w1)和-lnp(w2)的乘積或通過(guò)-lnp(w1,w2)正則化。本文以后者作為正則化選項(xiàng),該正則化過(guò)程規(guī)范了上限和下限,具有較優(yōu)的性能。因此,NPMI如式(27)所示:

5.3 模型評(píng)估與結(jié)果分析

本文研究先驗(yàn)知識(shí)和情感監(jiān)督對(duì)主題獲取的影響,因此,評(píng)估分析了模型在相同實(shí)驗(yàn)條件和參數(shù)設(shè)置條件下有先驗(yàn)知識(shí)和無(wú)先驗(yàn)知識(shí)的性能對(duì)比,以及有情感監(jiān)督和無(wú)情感監(jiān)督的性能對(duì)比,并驗(yàn)證了在GSM 和GSB 構(gòu)造下不同主題數(shù)目設(shè)置對(duì)主題分布性能的影響。為驗(yàn)證本文方法的有效性,本文將SJST-VAE 模型與其他3 種基準(zhǔn)主題模型進(jìn)行對(duì)比。這3 種基準(zhǔn)模型分別為L(zhǎng)DA、SAGE(Sparse Additive Generative Model)[19]、NVDM(Neural Variational Document Model)[20]。

IMDB 語(yǔ)料的平均主題分布如圖4所示。從圖4可以看出,在GSM 過(guò)程中獲得100 個(gè)主題的平均主題分布情況大致相同,而在GSB 過(guò)程中的平均主題分布值在接近第10 個(gè)主題位置后逐漸遞減,在大概第20 個(gè)主題后遞減速度尤為明顯,直至第40 個(gè)主題后幾乎沒(méi)有分布。這是因?yàn)镚SB 過(guò)程在建立混合模型時(shí),其SB 結(jié)構(gòu)隱含地假定了主題的順序,前一個(gè)主題獲得足夠的梯度來(lái)更新主題分布。同時(shí),SB 結(jié)構(gòu)的稀疏性使得尾部的主題被采樣的可能性較小,模型對(duì)于超參數(shù)(主題數(shù)目)的變化會(huì)變得不太敏感,當(dāng)主題設(shè)置數(shù)目遠(yuǎn)遠(yuǎn)超過(guò)模型需要的數(shù)目時(shí),GSB 過(guò)程的穩(wěn)定性更強(qiáng),而且更加有利于主題數(shù)目的設(shè)置。

圖4 IMDB 平均語(yǔ)料主題分布Fig.4 Average topics distribution of IMDB corpus

主題數(shù)為10~100 及100~500 時(shí)隨模型測(cè)試集困惑度的變化情況如圖5 所示。從圖5 可以看出,主題數(shù)從10~100 的變化過(guò)程中,GSB 過(guò)程的主題困惑度略?xún)?yōu)于GSM 過(guò)程,隨著主題數(shù)從100~500 逐漸增大,GSB 過(guò)程在主題困惑度上表現(xiàn)出的優(yōu)勢(shì)越來(lái)越明顯,說(shuō)明GSB 過(guò)程不會(huì)因主題數(shù)目變化而發(fā)生大幅波動(dòng),驗(yàn)證了GSB 過(guò)程的穩(wěn)定性。

圖5 主題困惑度隨主題數(shù)的變化趨勢(shì)Fig.5 Trend of topic perlexities with number of topics

現(xiàn)有的主題模型主要在數(shù)據(jù)集20newsgroups進(jìn)行訓(xùn)練,該數(shù)據(jù)集缺少情感標(biāo)簽數(shù)據(jù)。因此,本文以IMDB 數(shù)據(jù)集為對(duì)象,選擇具有代表性的基準(zhǔn)模型對(duì)主題挖掘性能進(jìn)行評(píng)估。LDA 是經(jīng)典的模型,幾乎所有模型都以此為基礎(chǔ);SAGE 模型引入恒定背景分布的對(duì)數(shù)頻率,以防止過(guò)度擬合,即通過(guò)稀疏誘導(dǎo)先驗(yàn)加強(qiáng)模型主題的稀疏性,具有較強(qiáng)的魯棒性;NVDM 模型首次將神經(jīng)變分框架的生成模型引入到文本建模中,旨在為每個(gè)文檔提取一個(gè)連續(xù)的語(yǔ)義潛在變量,并應(yīng)用于構(gòu)建主題分類(lèi)。

本文將主題數(shù)目設(shè)置為10 和50,不同基準(zhǔn)模型的主題困惑度、相關(guān)性和稀疏度的對(duì)比結(jié)果如表1 所示。

表1 不同模型的主題評(píng)估指標(biāo)Table 1 Topic evaluation indicators of different models

相比基準(zhǔn)模型,SJST-VAE 模型在主題困惑度上具有較強(qiáng)的優(yōu)勢(shì);SJST-VAE 模型的主題相關(guān)性低于LDA 和SAGE 模型,但優(yōu)于同是變分自編碼框架的NVDM 模型;SAGE 模型的主題稀疏性仍占有絕對(duì)優(yōu)勢(shì),SJST-VAE 模型相對(duì)于其他模型略有改進(jìn)。同時(shí),本文對(duì)比SJST-VAE 模型在背景術(shù)語(yǔ)缺失(SJSTVAE-bg)和情感監(jiān)督缺失(SJST-VAE-senti)以及GSM 和GSB 過(guò)程下的主題性能評(píng)估。在主題數(shù)目設(shè)置為10 和50 時(shí),GSB 過(guò)程中SJST-VAE 模型、SJST-VAE-bg 模型、SJST-VAE-senti 模型的主題困惑度均優(yōu)于GSM 過(guò)程中的SJST-VAE 模型,說(shuō)明GSB過(guò)程在主題困惑度的表現(xiàn)上具有絕對(duì)優(yōu)勢(shì)。當(dāng)主題數(shù)目設(shè)置為50 時(shí),SJST-VAE 模型的GSM 過(guò)程的相關(guān)性具有一定優(yōu)勢(shì)。GSB 過(guò)程的SJST-VAE 模型相對(duì)于SJST-VAE-bg 模型和SJST-VAE-senti 模型的稀疏性略有提高,說(shuō)明SJST-VAE 模型具有較強(qiáng)的主題可解釋性。由于高頻背景術(shù)語(yǔ)的缺失以及情感詞的加入使得模型在主題數(shù)目增多的情況下,發(fā)生主題一致性降低的情況。其原因?yàn)殡S著主題數(shù)目增多時(shí),無(wú)明顯意義主題詞出現(xiàn)的概率會(huì)增大,而主題一致性的計(jì)算基于詞的共現(xiàn),高頻詞的缺失和情感詞的加入導(dǎo)致詞共現(xiàn)率下降。

有情感聯(lián)合和無(wú)情感聯(lián)合這2 種主題樣例對(duì)比如表2 所示。本文在主題數(shù)目設(shè)置為5 的條件下以中文形式分別列舉這2 種方式主題的前8 個(gè)詞。

表2 IMDB 數(shù)據(jù)集主題樣例Table 2 Topic samples of IMDB dataset

從表2 可以看出,有情感聯(lián)合的主題表示樣例大致可以將電影語(yǔ)料的主題概括為色情、犯罪、紀(jì)錄、動(dòng)畫(huà)、恐怖5 種類(lèi)型,而無(wú)情感聯(lián)合則稍顯雜燴,較難概況其主題類(lèi)型。該過(guò)程說(shuō)明有情感聯(lián)合可以學(xué)習(xí)更稀疏、更有意義的表示,其表達(dá)的主題關(guān)聯(lián)強(qiáng),其他主題關(guān)聯(lián)弱的關(guān)鍵詞較少,具有較優(yōu)的表達(dá)主題語(yǔ)義的能力,主題解釋性更強(qiáng)。相比無(wú)情感聯(lián)合的主題表示,有情感聯(lián)合的主題表示包含更多的情感詞,有利于主題情感特征的獲取,具有重要的實(shí)際意義。由于引入背景術(shù)語(yǔ)先驗(yàn)知識(shí),這2 種主題表示樣例中均減少了大量的“movie”、“film”等高頻無(wú)顯著主題表達(dá)意義的詞的出現(xiàn)概率。

本文將構(gòu)建SJST-VAE 模型的文本語(yǔ)料的情感預(yù)測(cè)和主題的情感分布,利用生成的文檔主題表征進(jìn)行情感分類(lèi),通過(guò)單個(gè)主題的表征進(jìn)行情感分布預(yù)測(cè)。由于本文主要側(cè)重于挖掘主題的性能,因此不對(duì)情感分類(lèi)準(zhǔn)確率與其他模型進(jìn)行對(duì)比。本文分別對(duì)10~100 個(gè)主題數(shù)目進(jìn)行模型訓(xùn)練,獲得在不同主題數(shù)目設(shè)置條件下的情感分類(lèi)準(zhǔn)確率,并累計(jì)計(jì)算5 次情感預(yù)測(cè)準(zhǔn)確率總和并取平均值,SJST-VAE模型情感預(yù)測(cè)準(zhǔn)確率如圖6 所示。

圖6 SJST-VAE 模型情感預(yù)測(cè)準(zhǔn)確率Fig.6 Sentiment prediction accuracy of SJST-VAE model

SJST-VAE 模型在低維度文檔表達(dá)條件下,仍具有較高的情感分類(lèi)準(zhǔn)確率,情感分類(lèi)準(zhǔn)確率并未隨主題數(shù)增加而大幅波動(dòng),具有較強(qiáng)的穩(wěn)定性。由于電影評(píng)論涉及較多情節(jié)內(nèi)容,且其中包含的大量情感詞不具有明確的實(shí)際褒貶意義,因此本文將在第6 節(jié)的旅游具體應(yīng)用中重點(diǎn)分析主題的情感分布過(guò)程,以及其如何用于指導(dǎo)主題的情感特征。

6 基于SJST-VAE 模型的酒店用戶(hù)畫(huà)像構(gòu)建

本文選擇一組酒店評(píng)論文本集作為分析數(shù)據(jù)集[21],為驗(yàn)證SJST-VAE 模型在旅游推薦或游客群體畫(huà)像中的實(shí)用性。該數(shù)據(jù)集中所有評(píng)論均來(lái)源于TripAdvisor.com 的英國(guó)用戶(hù)評(píng)價(jià)且每個(gè)評(píng)論文本均標(biāo)注了情感極性,并區(qū)分了不同酒店級(jí)別和男女性別。據(jù)調(diào)查顯示[22],在較高星級(jí)酒店的選擇上,男性和女性群體分別表現(xiàn)出不同的情感偏好和特征。通過(guò)挖掘分析獲取不同群體的需求或喜好特點(diǎn),進(jìn)而推薦符合不同群體需求的酒店,成為提升游客體驗(yàn)和酒店運(yùn)營(yíng)的一個(gè)有效手段。

本文選取三星和四星這2 種不同類(lèi)型的酒店評(píng)論各6 400 條,每種類(lèi)型酒店均包含男女性評(píng)論各3 200 條,并以此作為分析對(duì)象。整個(gè)數(shù)據(jù)集被劃分為4 個(gè)不同的特征數(shù)據(jù)集,如圖7 所示。同時(shí),本文將各數(shù)據(jù)集的80%作為訓(xùn)練集和20%作為測(cè)試集(正負(fù)評(píng)論數(shù)量均衡)。在訓(xùn)練過(guò)程中,本文設(shè)置詞典大小為1 000,批量大小設(shè)為50。主題個(gè)數(shù)設(shè)為10,既符合旅游酒店屬性先驗(yàn)知識(shí),也便于更細(xì)粒度了解用戶(hù)需求和情感。

圖7 不同特征數(shù)據(jù)集的劃分Fig.7 Division of different feature datasets

本文針對(duì)4 種不同屬性的酒店評(píng)論數(shù)據(jù)集分別進(jìn)行主題情感的聯(lián)合分析。SJST-VAE 模型在4 種不同屬性的酒店評(píng)論數(shù)據(jù)集中情感預(yù)測(cè)準(zhǔn)確率對(duì)比如圖8 所示。SJST-VAE 模型在訓(xùn)練集和測(cè)試集的情感預(yù)測(cè)準(zhǔn)確率均在90%以上,具有較高的準(zhǔn)確率,驗(yàn)證了SJST-VAE 模型在挖掘酒店用戶(hù)評(píng)論特征進(jìn)而獲取情感預(yù)測(cè)的可行性。

圖8 在不同數(shù)據(jù)集上SJST-VAE 模型的情感預(yù)測(cè)準(zhǔn)確率對(duì)比Fig.8 Sentiment prediction accuracy comparison of SJST-VAE model on different datasets

SJST-VAE 模型分別對(duì)英國(guó)三星酒店男性和女性評(píng)論提取特征對(duì)比如表3、表4 所示。

表3 三星酒店男性評(píng)論特征Table 3 Feature of male reviews in Samsung hotels %

表4 三星酒店女性評(píng)論特征Table 4 Feature of female reviews in Samsung hotels %

男性用戶(hù)和女性用戶(hù)均在房間噪音、內(nèi)飾環(huán)境、餐飲、服務(wù)質(zhì)量(包括入住辦理、客房服務(wù))上表現(xiàn)出負(fù)面傾向,如在內(nèi)飾環(huán)境上的情感特征有“骯臟的”“發(fā)霉的”等,在服務(wù)質(zhì)量上的情感特征有“羞恥的”“粗魯?shù)摹薄傲钊苏痼@的”等。在交通區(qū)位、休閑娛樂(lè)上,男性和女性均表現(xiàn)出一定的正面傾向,如交通區(qū)位上的情感特征有“便捷的”,休閑娛樂(lè)上的情感特征有“精彩的”“享受的”“謝謝”等。

女性的負(fù)面主題(7 個(gè))多于男性的負(fù)面主題(6 個(gè)),可以推斷女性在三星酒店消費(fèi)中可能比男性更為苛刻。相較于男性,女性更加注重細(xì)節(jié),如房間內(nèi)飾環(huán)境關(guān)鍵詞上,女性增加了窗簾、家具的關(guān)注,在交通區(qū)位關(guān)鍵詞上,女性增加了步行、停車(chē)、出租車(chē)、購(gòu)物的關(guān)注,而男性則只是多了餐館的關(guān)注。另外,在酒店休閑娛樂(lè)選擇上,男女性也表現(xiàn)出不同的特點(diǎn),如男性的休閑娛樂(lè)相關(guān)詞有高爾夫等,女性的休閑娛樂(lè)相關(guān)詞有水療、游泳池、花園等。

SJST-VAE 模型對(duì)英國(guó)四星酒店男性用戶(hù)和女性用戶(hù)評(píng)論提取的特征如表5、表6 所示。

表5 四星酒店男性評(píng)論特征Table 5 Feature of male reviews in four stars hotels %

表6 四星酒店女性評(píng)論特征Table 6 Feature of female reviews in four stars hotels %

與三星酒店類(lèi)似,男女性用戶(hù)同樣在房間噪音、內(nèi)飾環(huán)境、餐飲、服務(wù)質(zhì)量上表現(xiàn)出負(fù)面傾向,如在房間噪音上的情感特征有“打擾”“噪音”等,在內(nèi)飾環(huán)境上的情感特征有“磨損的”“潮濕的”“破碎的”“臟的”等,在服務(wù)質(zhì)量上的情感特征有“封閉的”“慢”“差”等。在交通區(qū)位、休閑娛樂(lè)、配套服務(wù)(如婚禮)上,男性女性均表現(xiàn)出一定的正面傾向,如交通區(qū)位上的情感特征有“便捷的”,休閑娛樂(lè)上的情感特征有“享受的”“宜人的”“精彩的”“喜歡”等。

男性關(guān)注的負(fù)面主題(7 個(gè))多于女性的負(fù)面(4 個(gè)),可以推測(cè)四星酒店男性用戶(hù)較三星酒店男性用戶(hù)要求有所提高。在餐飲關(guān)鍵詞上,男性多關(guān)注雞肉、牛排,而女性更偏向于甜點(diǎn)如蛋糕、奶油和茶等。在房間內(nèi)飾環(huán)境關(guān)鍵詞上,男女性用戶(hù)都關(guān)注了地毯、墻,男性相較于女性多了天花板、窗簾、衣柜、廁所的關(guān)注,女性則多了床墊的關(guān)注。在交通區(qū)位關(guān)鍵詞上,男女性都關(guān)注了購(gòu)物,男性較女性多了酒吧的關(guān)注,女性較男性則多了步行的關(guān)注。在休閑娛樂(lè)上,男性用戶(hù)評(píng)論的關(guān)鍵詞有海灘、海、美味、桑拿、游泳池等,女性用戶(hù)評(píng)論的關(guān)鍵詞有護(hù)理、蒸汽、水療、按摩、海、花園等。

通過(guò)以上分析,酒店運(yùn)營(yíng)者可以從男性和女性用戶(hù)在不同星級(jí)酒店消費(fèi)過(guò)程中所關(guān)注的內(nèi)容和相應(yīng)感受,獲取男性女性用戶(hù)的不同特征,進(jìn)而有針對(duì)性地從客戶(hù)偏好層次上進(jìn)行酒店或房間的推薦。通過(guò)對(duì)男性女性用戶(hù)所表現(xiàn)出的負(fù)面主題和情感特點(diǎn)進(jìn)行分析,以促使酒店管理者發(fā)現(xiàn)內(nèi)部不足進(jìn)而提出改進(jìn)措施。相對(duì)主題和情感的割裂分析,針對(duì)主題情感分布的挖掘更具有實(shí)際應(yīng)用價(jià)值。

SJST-VAE 模型是基于正負(fù)分布均衡的酒店評(píng)論數(shù)據(jù)集,但是表3~表6 所呈現(xiàn)出的用戶(hù)負(fù)面主題卻明顯大于正面主題,這或許是由于用戶(hù)的表達(dá)習(xí)慣所決定的。在評(píng)價(jià)事物時(shí),負(fù)面信息的可診斷性要強(qiáng)于正面信息,消費(fèi)者會(huì)賦予負(fù)面信息更高的權(quán)重或注意力。對(duì)于用戶(hù)是否習(xí)慣于在負(fù)面主題的表達(dá)更加具象,而在正面主題的表達(dá)更加籠統(tǒng)如“太美了、太舒服了、非常享受等”,從而導(dǎo)致模型挖掘到的負(fù)面主題方面多于正面,還需要后續(xù)大量的實(shí)驗(yàn)進(jìn)行佐證。

7 結(jié)束語(yǔ)

為充分捕捉用戶(hù)細(xì)粒度的意見(jiàn),本文構(gòu)建基于變分自編碼的神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型SJST-VAE。利用先驗(yàn)知識(shí)和情感標(biāo)簽輔助主題的訓(xùn)練和生成,基于截?cái)喔咚鼓P?,?gòu)造更適合Dirichlet 過(guò)程的神經(jīng)變分推斷形式,其中截?cái)喔咚鼓P椭械慕財(cái)嘟Y(jié)構(gòu)能夠有效地捕獲離散數(shù)據(jù)中的相關(guān)性,適用于主題分類(lèi)數(shù)據(jù)的分析。實(shí)驗(yàn)結(jié)果證明,SJST-VAE 模型能夠利用主題分布實(shí)現(xiàn)情感分類(lèi)的預(yù)測(cè)。酒店運(yùn)營(yíng)者通過(guò)SJST-VAE 模型獲取用戶(hù)群體的情感偏好或輿情報(bào)告,有助于制定詳實(shí)可靠的改進(jìn)措施。下一步將把本文模型應(yīng)用在旅游領(lǐng)域的精準(zhǔn)推薦系統(tǒng)中,以實(shí)現(xiàn)在不同應(yīng)用場(chǎng)景下信息的融合與擴(kuò)展。

猜你喜歡
按摩水療蒸汽
車(chē)壇往事3:蒸汽時(shí)代步入正軌!
水療在美國(guó)日漸流行
魁北克Str?m Nordic水療中心
一種新型蒸汽發(fā)生器結(jié)構(gòu)設(shè)計(jì)
蒸汽閃爆
蒸汽變戲法
廈門(mén)朗豪酒店「川」水療中心獲最佳酒店水療獎(jiǎng)項(xiàng)
按摩配合電動(dòng)吸乳器治療產(chǎn)后乳房脹痛的療效研究
牽引、按摩治療神經(jīng)根型頸椎病的臨床分析
浮梁县| 齐齐哈尔市| 营口市| 云梦县| 德安县| 稷山县| 盐边县| 广州市| 怀仁县| 新田县| 那曲县| 汉中市| 紫阳县| 漳浦县| 恩施市| 揭西县| 龙门县| 驻马店市| 阳春市| 石台县| 睢宁县| 屯留县| 察哈| 陇川县| 荆州市| 穆棱市| 汨罗市| 呼和浩特市| 朔州市| 台山市| 车致| 来凤县| 合水县| 饶河县| 鲁山县| 定日县| 如东县| 滕州市| 西峡县| 瑞昌市| 射阳县|