国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)LDA的細(xì)粒度主題建模方法研究①

2022-11-22 10:50李慧宗
關(guān)鍵詞:細(xì)粒度語(yǔ)料庫(kù)建模

邰 悅, 葛 斌 , 李慧宗

(1.安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001; 2.南陽(yáng)師范學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 南陽(yáng) 473061)

0 引 言

隨著互聯(lián)網(wǎng)與信息技術(shù)的快速發(fā)展,新浪微博、亞馬遜等互聯(lián)網(wǎng)平臺(tái)的快速普及,各類(lèi)各樣的網(wǎng)絡(luò)數(shù)據(jù)出現(xiàn)爆炸式增長(zhǎng),其中社會(huì)化標(biāo)簽的用戶(hù)評(píng)論數(shù)據(jù)是這些網(wǎng)絡(luò)數(shù)據(jù)中的重要組成部分。對(duì)于電商平臺(tái)而言,社會(huì)化標(biāo)簽數(shù)據(jù)具有自發(fā)性,這些數(shù)據(jù)源于用戶(hù)對(duì)自己購(gòu)買(mǎi)過(guò)或者感興趣的物品進(jìn)行評(píng)價(jià)、標(biāo)簽(tag)或者總結(jié)[1]。電商平臺(tái)也會(huì)根據(jù)商品種類(lèi)或者用戶(hù)評(píng)論類(lèi)別進(jìn)行標(biāo)記(label)和分類(lèi),對(duì)于這些數(shù)據(jù)信息進(jìn)行主題識(shí)別具有重要意義。目前處理這類(lèi)數(shù)據(jù)有一些傳統(tǒng)方法,如LSA[2],PLSA[3],LDA[4]等。LDA的提出得到了廣泛應(yīng)用,在無(wú)監(jiān)督主題模型中具有重要意義,許多研究人員在LDA基礎(chǔ)上進(jìn)行了改進(jìn)和應(yīng)用[5-6]。Ekinci等[7]提出一種Concept-LDA主題模型,可以有效針對(duì)評(píng)論系統(tǒng)進(jìn)行情感分析。Wu等[8]提出SKP-LDA的短文本聚類(lèi)算法。由于微博中短文被賦予了情感性,通過(guò)對(duì)情感詞共現(xiàn)和知識(shí)對(duì)特征提取,并插入LDA中獲得語(yǔ)義信息,最終采用K-Means獲得聚類(lèi)。但是這些方法無(wú)法有效利用數(shù)據(jù)標(biāo)記(label)進(jìn)行主題建模,依舊以無(wú)監(jiān)督學(xué)習(xí)方式去實(shí)現(xiàn)主題識(shí)別,無(wú)法有效判斷該語(yǔ)料庫(kù)屬于哪一個(gè)模塊或者場(chǎng)景,從而造成生成的主題分布存在不相關(guān)主題詞等主題語(yǔ)義混亂問(wèn)題,在主題粒度上更為粗糙。針對(duì)該類(lèi)問(wèn)題,對(duì)LDA模型進(jìn)行以下改進(jìn):(1)引入TextCNN深度學(xué)習(xí)方法并進(jìn)行改進(jìn),有效利用標(biāo)記數(shù)據(jù),實(shí)現(xiàn)語(yǔ)料庫(kù)的分類(lèi);(2)將改進(jìn)的分類(lèi)方法與傳統(tǒng)LDA結(jié)合形成有監(jiān)督學(xué)習(xí),實(shí)現(xiàn)細(xì)粒度主題建模。

1 基于深度學(xué)習(xí)的主題建模

1.1 文本分類(lèi)模型

TextCNN[9]是卷積神經(jīng)網(wǎng)絡(luò)在文本分類(lèi)問(wèn)題上的變形,如圖1所示。通過(guò)設(shè)置不同的卷積核大小,實(shí)現(xiàn)對(duì)不同大小的局部區(qū)域特征提取,使得神經(jīng)網(wǎng)絡(luò)提取到的特征向量和權(quán)重具有多樣性和代表性。與傳統(tǒng)CNN一樣,由卷積層、池化層、特征融合層和全鏈接層組成。

1.2 主題模型

PLSA模型在兩層概率分布的基礎(chǔ)上對(duì)整個(gè)樣本空間建模,可以有效的提取“主題-詞”這一關(guān)系,但是PLSA容易存在著過(guò)擬合以及在大批次數(shù)據(jù)集上存在運(yùn)算速度慢的缺陷。在PLSA的基礎(chǔ)上LDA(Latent Dirichlet Allocation)隨之被提出,如圖2所示。

在LDA模型中,主題分布和詞分布是由狄利克雷先驗(yàn)生成。在采樣過(guò)程中通過(guò)吉布斯采樣方法生成出對(duì)應(yīng)的主題和詞,該模型也成為了目前主流的產(chǎn)生式概率模型。

2 基于改進(jìn)TextCNN的細(xì)粒度主題識(shí)別方法

2.1 改進(jìn)的文本分類(lèi)方法

通過(guò)引入注意力機(jī)制思想,提出一種基于注意力的文本卷積神經(jīng)網(wǎng)絡(luò) (Attention-TextCNN, ATT-TCNN),ATT-TCNN模型如圖3所示。具體方式如下:

通過(guò)相連操作之后,特征信息通過(guò)全局平均池化方法,特征向量轉(zhuǎn)變?yōu)橥ǖ赖南蛄浚⑶疫M(jìn)行均值化,全局平均池化方法匯總了空間通道信息,對(duì)傳入的上一層輸出,賦予空間特點(diǎn)通道特點(diǎn),同時(shí)全局平均池化方法作為一個(gè)結(jié)構(gòu)化的正則器,緩解了訓(xùn)練過(guò)程中的過(guò)擬合問(wèn)題。使用Sigmoid激活函數(shù),對(duì)模型學(xué)習(xí)和非線(xiàn)性函數(shù)有重要的作用,引入非線(xiàn)性因素,把當(dāng)前特征空間通過(guò)一定的線(xiàn)性映射轉(zhuǎn)換到另一個(gè)空間,Sigmoid函數(shù)能夠映射到(0,1)區(qū)間,使模型具有非線(xiàn)性的映射能力。最后將主分支和側(cè)分支的特征向量進(jìn)行相乘操作,賦予原先的主分支空間通道信息,加強(qiáng)了網(wǎng)絡(luò)的特征信息識(shí)別和傳播能力,并且將Relu6作為激活函數(shù)作用于ATT-TCNN。

2.2 ATT-TCNN-LDA主題模型

神經(jīng)網(wǎng)絡(luò)模型在文本分類(lèi)上具有較好的分類(lèi)效果且具有較高的分類(lèi)精度。通過(guò)將有監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)無(wú)監(jiān)督的LDA模型進(jìn)行融合,在ATT-TCNN作為分類(lèi)器的基礎(chǔ)上,提出一種基于ATT-TCNN的LDA(ATT-TCNN-LDA)有監(jiān)督主題模型。

ATT-TCNN-LDA通過(guò)融合ATT-TCNN文本分類(lèi)模型和LDA主題模型用于細(xì)粒度主題識(shí)別,ATT-TCNN-LDA模型如圖4所示。具體建模方法如下:

將帶有標(biāo)記的文本語(yǔ)料庫(kù)作為ATT-TCNN的文本輸入,通過(guò)ATT-TCNN的迭代學(xué)習(xí)獲得帶有標(biāo)記的分類(lèi)語(yǔ)料庫(kù);針對(duì)每個(gè)分類(lèi)語(yǔ)料庫(kù),引入LDA主題模型進(jìn)行主題識(shí)別,分別形成對(duì)應(yīng)的主題簇。

對(duì)于第i個(gè)分類(lèi)簇LDA模型,根據(jù)詞分布和主題分布進(jìn)行Gibbs采樣,其中詞分布和主題分布為:

(1)

(2)

(3)

(4)

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)價(jià)方法

為驗(yàn)證提出的ATT-TCNN-LDA模型有效性,在Amazon公開(kāi)數(shù)據(jù)集下的Books,Digital Music,Baby三個(gè)類(lèi)別上進(jìn)行實(shí)驗(yàn),在Books,Digital Music上驗(yàn)證二分類(lèi)建模效果,記為Amazon-2C。在Books,Digital Music,Baby上驗(yàn)證多分類(lèi)效果,記為Amazon-3C數(shù)據(jù)集。Amazon-2C實(shí)驗(yàn)數(shù)量為18000條,Amazon-3C為27000條。

ATT-TCNN-LDA分為兩個(gè)模塊,分別是基于ATT-TCNN的文本分類(lèi)模塊和基于ATT-TCNN-LDA的主題識(shí)別模塊,采用兩種評(píng)價(jià)方法進(jìn)行實(shí)驗(yàn)。在分類(lèi)器模塊中與TextCNN進(jìn)行對(duì)比,在主題識(shí)別模塊中與LDA進(jìn)行對(duì)比。分類(lèi)器的準(zhǔn)確率效果直接影響到ATT-TCNN-LDA的細(xì)粒度識(shí)別效果,分類(lèi)器模塊以準(zhǔn)確率(Accuracy,Acc)為評(píng)價(jià)標(biāo)準(zhǔn),針對(duì)文本分類(lèi)模型ATT-TCNN采用Acc為評(píng)價(jià)指標(biāo),其計(jì)算方法如式(5):

(5)

對(duì)于主題識(shí)別模塊采用主題間平均相似度作為評(píng)價(jià)指標(biāo)[10],在本文中主題間相似度越高說(shuō)明主題相似性越強(qiáng),主題之間的粒度更細(xì),主題觀點(diǎn)和語(yǔ)義更明顯則效果越好。為了獲得有效且有意義的主題,取100個(gè)最相關(guān)的主題詞作為生成主題詞,則采用的主題間平均相似度(Avg_ Similarity)計(jì)算方法如(6),(7):

(6)

其中

(7)

K為主題數(shù),V表示生成主題詞數(shù)。

3.2 參數(shù)設(shè)定與結(jié)果分析

每個(gè)模塊都需要進(jìn)行參數(shù)設(shè)定,在文本分類(lèi)模塊中批量大小為128;學(xué)習(xí)率為0.001;交叉熵函數(shù)作為損失函數(shù);一個(gè)周期(Epoch)為1次正向和反向傳播,Epoch設(shè)定為500,優(yōu)化器為Adam;訓(xùn)練集和驗(yàn)證集比例為2:1。

在主題識(shí)別模塊實(shí)驗(yàn)中,先驗(yàn)超參數(shù)α=50/K,β=0.01。ATT-TCNN-LDA每個(gè)主題簇設(shè)定主題數(shù)集合K在區(qū)間[10,100]中每次按10個(gè)主題遞增。為了體現(xiàn)不同條件下的實(shí)驗(yàn)效果,分為不同主題簇與LDA的對(duì)比,LDA主題數(shù)設(shè)為K,以及全部主題簇與LDA的對(duì)比,LDA主題數(shù)則為nK,例如采用三分類(lèi)來(lái)驗(yàn)證多分類(lèi)情況,則n=3。

圖5(a)-(b)分別為在Amazon-2C和Amazon-3C進(jìn)行TextCNN和ATT-TCNN的準(zhǔn)確率對(duì)比情況。圖5可以看出無(wú)論在二分類(lèi)還是多分類(lèi)上ATT-TCNN都具有較好效果,在二分類(lèi)上相對(duì)于TextCNN平均提升0.31%,在多分類(lèi)上最優(yōu)情況下ATT-TCNN相對(duì)于TextCNN提升約0.39%,平均提升約0.35%。體現(xiàn)了ATT-TCNN在多分類(lèi)上相對(duì)于TextCNN依舊具有優(yōu)勢(shì)。

圖6和圖7分別是ATT-TCNN-LDA和LDA在不同條件下的主題間平均相似度對(duì)比。圖6(a),6 (b)分別為各模型在二分類(lèi)和多分類(lèi)下,ATT-TCNN-LDA各個(gè)主題簇平均相似度與LDA的對(duì)比。可以看出ATT-TCNN-LDA各個(gè)簇在K=60和K=90達(dá)到最優(yōu)聚類(lèi)主題數(shù),平均相似度分別優(yōu)于LDA約36%和29%。圖7(a), 7 (b)分別是各模型在二分類(lèi)和多分類(lèi)下,ATT-TCNN-LDA和LDA生成的所有主題平均相似度對(duì)比。可以看出,無(wú)論在二分類(lèi)還是多分類(lèi)上都具有明顯優(yōu)勢(shì)。

4 結(jié) 語(yǔ)

對(duì)于傳統(tǒng)主題模型而言,大多數(shù)都是基于無(wú)監(jiān)督學(xué)習(xí)的模型,無(wú)法有效利用其標(biāo)記信息,在建模過(guò)程中數(shù)據(jù)具有獨(dú)立性和復(fù)雜性,導(dǎo)致生成的主題語(yǔ)義混亂、復(fù)雜、不清晰以及主題不夠鮮明。提出一種改進(jìn)的LDA細(xì)粒度主題識(shí)別方法,通過(guò)結(jié)合深度學(xué)習(xí)方法形成有監(jiān)督主題模型,可以有效提升生成的主題粒度,主題語(yǔ)義更為鮮明,表達(dá)更為直觀。經(jīng)過(guò)實(shí)驗(yàn)表明,方法在文本分類(lèi)效果和最終生成的主題語(yǔ)義效果上與其他模型相比都具有提升效果。但是方法存在和深度學(xué)習(xí)其他領(lǐng)域中相似度的問(wèn)題,對(duì)于新的未知標(biāo)記數(shù)據(jù)的處理,這也是下一步的研究重點(diǎn)。

猜你喜歡
細(xì)粒度語(yǔ)料庫(kù)建模
基于FLUENT的下?lián)舯┝魅S風(fēng)場(chǎng)建模
基于語(yǔ)料庫(kù)的清末民初日源外來(lái)詞漢化研究
《符號(hào)建模論》評(píng)介
聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
求距求值方程建模
《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
在線(xiàn)評(píng)論情感分析研究綜述
基于型號(hào)裝備?角色的IETM訪問(wèn)控制研究
基于web粒度可配的編輯鎖設(shè)計(jì)
基于文本挖掘的微博文本情緒分析技術(shù)研究
嘉义县| 汝州市| 阿拉尔市| 泰来县| 密云县| 巴南区| 建平县| 东乡| 沁阳市| 综艺| 铜山县| 册亨县| 黄大仙区| 东宁县| 安义县| 自治县| 福建省| 凌云县| 宣威市| 波密县| 晋宁县| 禄丰县| 祁东县| 平舆县| 合川市| 屏南县| 祁门县| 吉木萨尔县| 浑源县| 商都县| 万源市| 衡水市| 淳安县| 新竹市| 龙游县| 晴隆县| 保定市| 乌拉特中旗| 永修县| 邵东县| 正阳县|