葉又銘 蔣杰
【摘 要】目前高中生填報(bào)高考專業(yè)具有很大的盲目性,導(dǎo)致對(duì)未來(lái)的職業(yè)發(fā)展和人才培養(yǎng)質(zhì)量產(chǎn)生不良影響。為解決該問(wèn)題,本文基于一個(gè)主題情感混合最大熵LDA模型,對(duì)高校專業(yè)在線評(píng)論進(jìn)行細(xì)粒度觀點(diǎn)挖掘,獲取相關(guān)主題(專業(yè))的情感極性,生成細(xì)粒度的主題情感摘要,為高中生的專業(yè)選擇提供有價(jià)值的指導(dǎo)信息,實(shí)驗(yàn)驗(yàn)證了本文所提出理論的有效性。
【關(guān)鍵詞】LDA模型 細(xì)粒度觀點(diǎn)挖掘 專業(yè)選擇 情感摘要
高中畢業(yè)生填報(bào)高考專業(yè)志愿的過(guò)程是對(duì)未來(lái)職業(yè)生涯發(fā)展規(guī)劃做出重要職業(yè)決策的過(guò)程,它關(guān)系到學(xué)生個(gè)人的發(fā)展,也關(guān)系到社會(huì)對(duì)專業(yè)人才的需求。另外,每個(gè)大學(xué)都有自己的辦學(xué)特色和優(yōu)勢(shì)專業(yè),能否恰當(dāng)選擇心儀學(xué)校的特色專業(yè)會(huì)影響考生未來(lái)的職業(yè)發(fā)展前途,同時(shí)也會(huì)對(duì)高校招生生源素質(zhì)及培養(yǎng)人才質(zhì)量產(chǎn)生影響[1]。
每年高考成績(jī)公布與志愿填報(bào)之間的時(shí)間非常短,高中畢業(yè)生需要在短短的幾天內(nèi)對(duì)自己的專業(yè)填報(bào)做出決策[2]。而此時(shí)高中生正處于從少年階段向青年階段過(guò)渡的時(shí)候,自我認(rèn)知不明,在面臨高考專業(yè)選擇這種重大決策時(shí),容易盲目和無(wú)所適從,進(jìn)而做出倉(cāng)促選擇,很多學(xué)生選擇了心儀學(xué)校的不滿意專業(yè),這樣可能會(huì)導(dǎo)致在進(jìn)入大學(xué)后出現(xiàn)對(duì)所選專業(yè)感到后悔并產(chǎn)生厭學(xué)情緒[3]。
一項(xiàng)北京某高校的調(diào)查顯示,在接受調(diào)查的840名大學(xué)生中,有42.1%的學(xué)生對(duì)所學(xué)專業(yè)不滿意,如果可以重新選擇專業(yè),有65.5%的學(xué)生表示將另選專業(yè);有研究表明,大約50%的美國(guó)大學(xué)生最終都調(diào)整了他們的專業(yè)方向[2]。產(chǎn)生這種現(xiàn)象的主要原因有兩個(gè):(1)大學(xué)生的心理發(fā)育比中學(xué)時(shí)期更加成熟和穩(wěn)定,自我認(rèn)知更加清晰;(2)在大學(xué)特定的生活和學(xué)習(xí)環(huán)境下,大學(xué)生的獨(dú)立個(gè)性和認(rèn)知水平得到發(fā)展,會(huì)對(duì)先前盲目做出的專業(yè)選擇進(jìn)行重新思考。
因此,與高中生相比,高校學(xué)生對(duì)專業(yè)結(jié)構(gòu)和學(xué)校特色有著更深刻的認(rèn)識(shí),從他們那里獲取高考專業(yè)選擇的相關(guān)觀點(diǎn)會(huì)對(duì)高考志愿填報(bào)產(chǎn)生積極的影響[4],因此對(duì)高校學(xué)生關(guān)于專業(yè)選擇的在線評(píng)論進(jìn)行觀點(diǎn)挖掘和分析具有一定的研究意義。
網(wǎng)絡(luò)在線評(píng)論中,評(píng)價(jià)者通常會(huì)對(duì)學(xué)校不同專業(yè)持有不同的情感傾向,而參考者更希望獲取每個(gè)學(xué)校具體專業(yè)方面有價(jià)值的評(píng)價(jià),只有使用細(xì)粒度的觀點(diǎn)挖掘方法和模型進(jìn)行分析,從詞語(yǔ)級(jí)別進(jìn)行更細(xì)化的情感分類[5],才能挖掘更深層次的觀點(diǎn)來(lái)滿足高考專業(yè)選擇的實(shí)際應(yīng)用需求。
近年來(lái),很多學(xué)者將LDA(Latent Dirichlet Allocation)模型應(yīng)用到觀點(diǎn)挖掘領(lǐng)域,標(biāo)準(zhǔn)LDA模型要加以改進(jìn)后才能用于細(xì)粒度觀點(diǎn)挖掘[6]。文獻(xiàn)[5]在綜合以上模型優(yōu)點(diǎn)的基礎(chǔ)上提出主題情感混合最大熵LDA模型,通過(guò)在傳統(tǒng)LDA模型中加入最大熵組件來(lái)區(qū)分背景詞、特征詞和觀點(diǎn)詞,并對(duì)特征詞和觀點(diǎn)詞進(jìn)行局部和全局的劃分,在主題層和單詞層之間加入情感層,實(shí)現(xiàn)詞語(yǔ)級(jí)別的細(xì)粒度情感分析,獲取每個(gè)主題的情感極性。該模型克服了標(biāo)準(zhǔn)LDA詞袋模型的不足,充分利用了詞的位置和語(yǔ)義信息,將主題和情感分析細(xì)化到詞語(yǔ)級(jí)別,提高了觀點(diǎn)挖掘的精確度,可以為參考者提供更有實(shí)用價(jià)值的反饋信息。
本文擬采用TSH MaxEnt-LDA模型對(duì)高校關(guān)于專業(yè)的在線評(píng)論進(jìn)行細(xì)粒度觀點(diǎn)挖掘,為高考畢業(yè)生的專業(yè)選擇提供有價(jià)值的指導(dǎo)信息,幫助他們對(duì)未來(lái)職業(yè)發(fā)展規(guī)劃做出更準(zhǔn)確的決策。
1 模型描述
TSH MaxEnt-LDA模型的生成過(guò)程描述如下[5]:
1.1 對(duì)一個(gè)語(yǔ)料庫(kù)
(1)得出單詞分布Φ~ Dir(β)(背景詞:ΦB,全局特征詞:ΦA(chǔ),g,全局觀點(diǎn)詞:ΦO,g,局部特征詞:{ΦA(chǔ),t,s}, 局部觀點(diǎn)詞:{ΦO,t,s}(s=0,1 t=1,.....,T),
(2)得出詞型分布ρ ~ Beta(η);
1.2 對(duì)語(yǔ)料庫(kù)中每一篇文檔d
(1)得出文檔的主題分布θd ~Dir(α),
(2)對(duì)文檔中每個(gè)主題z,得出對(duì)應(yīng)情感分布πd,z~Beta(γ);
1.3 對(duì)文檔d中每個(gè)句子m
(1)選擇對(duì)應(yīng)主題zd,m,其中zd,m~ Multinomial(θd),
(2)對(duì)給定主題zd,m,選擇其對(duì)應(yīng)情感sd,m,z,其中sd,m,z~Bernoulli(πd,z);
1.4 對(duì)句子m 中每個(gè)詞n (wd,m,n)
(1)得出單詞wd,m,n 對(duì)應(yīng)的主題zd,m和情感sd,m,z,它與所在句子具有相同的主題和情感,
(2)選擇對(duì)應(yīng)詞型ud,m,n,其中ud,m,n~ Bernoulli(ρ),
(3)選擇對(duì)應(yīng)詞類yd,m,n,其中yd,m,n~ Multinomial(xd,m,n),
(4)wd,m,n 的對(duì)應(yīng)分布如下:
。
TSH MaxEnt-LDA模型的假設(shè)前提為:1.每個(gè)句子只屬于一種主題和情感,每個(gè)單詞和所在句子有著相同的主題和情感;2.在情感分類中只考慮正向和負(fù)向兩種情感極性,通過(guò)計(jì)算取概率值大的那個(gè)極性值。TSH MaxEnt-LDA模型是在詞語(yǔ)級(jí)別產(chǎn)生情感和主題標(biāo)簽,粒度更細(xì),進(jìn)而獲取每個(gè)主題的情感極性,生成細(xì)粒度主題情感摘要,它采用Gibbs采樣來(lái)估計(jì)模型中的相關(guān)參數(shù)ρ, θ, π and Φ,進(jìn)而計(jì)算得到第d篇文檔中每個(gè)詞的主題和情感標(biāo)簽[5]。
本文在熱點(diǎn)貼吧和高校論壇上采集了關(guān)于學(xué)校專業(yè)的評(píng)論作為研究的語(yǔ)料庫(kù),基于TSH MaxEnt-LDA模型,關(guān)于專業(yè)選擇的在線評(píng)論對(duì)應(yīng)術(shù)語(yǔ)描述如下:
語(yǔ)料庫(kù)中的所有評(píng)論涉及到的專業(yè)總數(shù)為T(mén),對(duì)應(yīng)于模型中的主題;語(yǔ)料庫(kù)中每一篇文檔d∈D,它都是關(guān)于某個(gè)高校相關(guān)專業(yè)的評(píng)論,是由T個(gè)主題(專業(yè))按照一定比例混合而成。在評(píng)論中對(duì)每個(gè)主題(專業(yè))都具有一定的情感傾向。
對(duì)本文中所研究的高校專業(yè)評(píng)論語(yǔ)料庫(kù),對(duì)任一文檔d∈D,TSH MaxEnt-LDA模型下相關(guān)的Gibbs采樣過(guò)程如圖1所示,通過(guò)文獻(xiàn)[5]中相關(guān)采樣估計(jì)和條件概率公式,可以得到本語(yǔ)料庫(kù)所有文檔中詞的主題和情感標(biāo)簽,在此基礎(chǔ)上獲取每個(gè)主題(專業(yè))的情感極性,生成細(xì)粒度主題情感摘要。
2 實(shí)驗(yàn)
本文實(shí)驗(yàn)采用的語(yǔ)料數(shù)據(jù)來(lái)自百度貼吧、校園BBS、考研論壇等信息門(mén)戶中對(duì)華中師范大學(xué)專業(yè)學(xué)科的在線評(píng)論,其中大部分為心理學(xué)、教育學(xué)、計(jì)算機(jī)科學(xué)等學(xué)科的評(píng)價(jià)內(nèi)容。實(shí)驗(yàn)中手動(dòng)整理了273篇評(píng)論,約1470條句子,采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所提供的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS進(jìn)行分詞。實(shí)驗(yàn)中Gibbs采樣參數(shù)設(shè)置如下:迭代次數(shù)=500,α=30/T,β=0.1,γ=1,η=0.5,τ=1,主題數(shù)目T設(shè)置為7。
實(shí)驗(yàn)過(guò)程如下:首先對(duì)詞性和詞類進(jìn)行分析,區(qū)分出全局和局部的特征詞與情感詞,在此基礎(chǔ)上進(jìn)行主題與情感極性分析,最后生成細(xì)粒度主題情感摘要,并將聚類結(jié)果歸為三個(gè)主題:心理學(xué),教育學(xué),計(jì)算機(jī)科學(xué),按照情感的正負(fù)極性,列出每一主題下出現(xiàn)頻率最高且十分具有代表性的局部特征詞與情感詞,其中P代表正向情感,N代表負(fù)向情感,實(shí)驗(yàn)結(jié)果如表1所示。
由表1可知,每個(gè)主題(專業(yè))下的局部特征詞都非常具有代表性,對(duì)應(yīng)的局部觀點(diǎn)詞也是專門(mén)用來(lái)形容相應(yīng)主題的情感評(píng)價(jià)詞,從表中數(shù)據(jù)可以得出:高校熱議專業(yè)相關(guān)熱門(mén)話題的關(guān)鍵詞和相應(yīng)觀點(diǎn)、專業(yè)就業(yè)的難易程度與前景也都是評(píng)論者所關(guān)心的問(wèn)題,與實(shí)際情況相符,語(yǔ)料庫(kù)中高校在讀學(xué)生的在線評(píng)論數(shù)據(jù),在使用TSH MaxEnt-LDA模型進(jìn)行細(xì)粒度觀點(diǎn)挖掘后,能夠?yàn)楦呖籍厴I(yè)生的專業(yè)選擇提供有價(jià)值的指導(dǎo)信息,減少報(bào)考志愿的盲目性。
參考文獻(xiàn):
[1]王勤,童腮軍.高考學(xué)生專業(yè)選擇與專業(yè)興趣相符性研究.黑龍江高教研究,2004年第9期總第125期:20-22.
[2]徐芃,葉浩生,陸財(cái)深.專業(yè)志愿選擇影響職業(yè)決策的統(tǒng)計(jì)模型分析.華中師范大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2014年7月,第53卷第4期:171-176.
[3]曹明樂(lè).高考志愿填報(bào)專業(yè)選擇行為探析.2009年12月號(hào)中旬刊:121-123.
[4]羅丹.生源減縮背景下高考學(xué)生專業(yè)志愿選報(bào)研究.教育與考試,2013年第3期:5-9.
[5]馬長(zhǎng)林,謝羅迪,王夢(mèng),司琪.基于主題情感混合模型的細(xì)粒度觀點(diǎn)挖掘.華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015年10月,v43(sI):66-70.
[6]Brody S,Elhadad N.An unsuper-vised.aspect-sentiment.model.for.online.reviews[C] //In.Proceedings.of.Human.Language.Technologies:The.Annual.Conference.of.the North.American.Chapter.of.the.Association.for.Computational.Linguistics,2010: 804-812.
[7]Yohan.J,Alice.HO.Aspect.and.sentiment.unification.model,for.online.review.analysis[C] //Proceedings.of.the.fourth ACM international.conference.on.Websearch and data mining.(2011).ACM,2011:815-824.