国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于泛在網(wǎng)絡(luò)的大學(xué)生情緒語(yǔ)料庫(kù)的構(gòu)建

2020-02-06 03:50王佳張子杰羅海吉劉英豪陳煒
大學(xué)教育 2020年1期
關(guān)鍵詞:大學(xué)生

王佳 張子杰 羅海吉 劉英豪 陳煒

[摘 要]隨著信息分享、交流、傳播等各種網(wǎng)絡(luò)社交行為的經(jīng)?;?,對(duì)泛在網(wǎng)絡(luò)中的大學(xué)生情緒信息進(jìn)行分析及研究,有利于開(kāi)展大學(xué)生群體的實(shí)時(shí)情緒監(jiān)測(cè)、輿情發(fā)現(xiàn)、輿論引導(dǎo)等工作。使用集搜客網(wǎng)絡(luò)爬蟲(chóng)軟件挖掘2017年7月至2018年7月百度貼吧中的高校貼吧的文本信息,獲得289萬(wàn)份語(yǔ)料文本,經(jīng)去噪、去重后獲得114萬(wàn)份文本,基于基本情緒及大學(xué)生特有情緒分為“悲傷、痛苦、憤怒、害怕、驚奇、高興”6類(lèi)大學(xué)生情緒類(lèi)別,基于詞頻統(tǒng)計(jì)數(shù)據(jù)確定各情緒類(lèi)別核心詞,并使用基于Word2vec工具進(jìn)行訓(xùn)練,構(gòu)建基于泛在網(wǎng)絡(luò)的大學(xué)生情緒語(yǔ)料庫(kù),為大學(xué)生領(lǐng)域的情緒聚類(lèi)研究提供支撐。

[關(guān)鍵詞]泛在網(wǎng)絡(luò);大學(xué)生;情緒語(yǔ)料庫(kù)

[中圖分類(lèi)號(hào)] G645 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2095-3437(2020)01-0189-03

隨著學(xué)業(yè)壓力、就業(yè)壓力的增大,大學(xué)生心理問(wèn)題凸顯,各大高校紛紛尋求對(duì)策,圍繞心理健康教育、第二課堂活動(dòng)、心理狀況篩查等方面開(kāi)展了大量的工作,并取得了不少成績(jī)。可是目前大學(xué)生的心理健康測(cè)試普遍存在主觀(guān)性強(qiáng)、隱藏性強(qiáng)、準(zhǔn)確性不夠的特點(diǎn),這給心理危機(jī)事件的預(yù)防和處理帶來(lái)了困難。

新媒體環(huán)境下,泛在網(wǎng)絡(luò)已日益成為反映大學(xué)生學(xué)習(xí)、生活真實(shí)情緒的平臺(tái)。大學(xué)生不只能夠在各種網(wǎng)絡(luò)社交平臺(tái)中自由分享實(shí)時(shí)心情、動(dòng)態(tài)等個(gè)人信息,還可以及時(shí)對(duì)他人提供的信息進(jìn)行反饋和評(píng)論。泛在網(wǎng)絡(luò)中海量文本數(shù)據(jù)真實(shí)、全面、實(shí)時(shí)、互動(dòng)的特點(diǎn),為分析大學(xué)生群體的情緒提供了便利條件。

一、研究現(xiàn)狀

為了加強(qiáng)對(duì)文本的情感挖掘,國(guó)內(nèi)學(xué)者先后研發(fā)了知網(wǎng)Hownet情感詞典、清華大學(xué)李軍中文褒貶義詞詞典、大連理工大學(xué)情感詞匯本體詞典等,并基于微博,通過(guò)計(jì)算情感詞的情緒權(quán)值[1]、反饋“異常情感”[2]、無(wú)監(jiān)督情感分類(lèi)、判斷情感傾向類(lèi)別[3]進(jìn)行了文本情緒挖掘的優(yōu)化,將深度學(xué)習(xí)的方法引入文本情感識(shí)別工作中,用句法依賴(lài)規(guī)則和詞性特征[4]、Word2vec[5]、HMM[6-8]、卷積神經(jīng)網(wǎng)絡(luò)[9]構(gòu)建模型,預(yù)測(cè)情感強(qiáng)度。

相較于情感的內(nèi)隱性、持續(xù)性等特點(diǎn),情緒在第一時(shí)間產(chǎn)生,往往是伴隨著生理喚醒和外部表現(xiàn)的主觀(guān)體驗(yàn)[10]。大學(xué)生情緒具有體驗(yàn)豐富、波動(dòng)強(qiáng)烈、反應(yīng)敏感等特點(diǎn),并隨著學(xué)業(yè)、就業(yè)等壓力的增大而日益凸顯。對(duì)大學(xué)生的實(shí)時(shí)情緒進(jìn)行動(dòng)態(tài)挖掘和分析,對(duì)于大學(xué)生心理健康教育有著非常重要的意義。

本文擬通過(guò)自然語(yǔ)言處理方法,對(duì)泛在網(wǎng)絡(luò)環(huán)境中的大學(xué)生文本進(jìn)行情緒詞語(yǔ)采集和挖掘,并通過(guò)深度學(xué)習(xí)的工具方法,按照情緒類(lèi)別和權(quán)值等性質(zhì)排序,初步建立大學(xué)生情緒語(yǔ)料庫(kù)。

二、WEB文本數(shù)據(jù)采集

隨著互聯(lián)網(wǎng)的普及,大學(xué)生在泛在網(wǎng)絡(luò)環(huán)境中不斷發(fā)生大量的檢索、瀏覽、下載等行為,并在互聯(lián)網(wǎng)社交平臺(tái)中留下大量的數(shù)據(jù)痕跡[11]。相較于QQ、微信的隱私性以及微博用戶(hù)的不確定性,全球最大的中文社區(qū)、注冊(cè)用戶(hù)量已達(dá)到10億的百度貼吧具有明確的高校主題、準(zhǔn)確的社區(qū)分類(lèi)以及深度互動(dòng)等特點(diǎn),為大學(xué)生情緒文本的采集提供了便利條件。

2017年7月至2018年7月,課題組通過(guò)網(wǎng)絡(luò)爬蟲(chóng)工具即集搜客,以“百度貼吧 高校”為關(guān)鍵詞進(jìn)行搜索,連續(xù)采集600個(gè)高校貼吧中的主題帖以及跟帖數(shù)據(jù),獲取共計(jì)289萬(wàn)份貼吧文本數(shù)據(jù),經(jīng)去噪、去重處理后獲得114萬(wàn)份文本數(shù)據(jù)。

三、文本預(yù)處理

大學(xué)生的網(wǎng)絡(luò)文本具有文本量大、文本長(zhǎng)度短、表達(dá)不規(guī)范[12]等特點(diǎn),這給情緒的準(zhǔn)確識(shí)別帶來(lái)很大的困難。課題組基于以上特征,結(jié)合現(xiàn)有的分詞軟件功能,設(shè)立分詞預(yù)處理比較原則如下:①文本提取的完整性,文本保留得越完整越好。②按照最少切分原則,比較詞元個(gè)數(shù),數(shù)量越少越好。③比較詞長(zhǎng)平均長(zhǎng)度,長(zhǎng)度越平均越好。

課題組在百度貼吧中隨機(jī)抽取一份大學(xué)生文本,其原文如下:“畢設(shè)讓我要瘋了:有沒(méi)有哪位大神會(huì)m序列的特性分析用C語(yǔ)言編出來(lái),我要瘋了,這都是什么鬼,完全是毫無(wú)頭緒。”課題組基于天據(jù)英眼、ROSTCM、IKAnalyzer、Paoding、jieba這5種常用的開(kāi)源分詞工具對(duì)此進(jìn)行分詞處理,結(jié)果如表1。

按照以上原則來(lái)分析會(huì)發(fā)現(xiàn),IKAnalyzer、Paoding、jieba5都存在自定義擴(kuò)展詞,天據(jù)英眼、IKAnalyzer的分詞結(jié)果中詞數(shù)量相對(duì)較多,ROSTCM6在文本完整性、詞元數(shù)量、詞平均長(zhǎng)度方面均具有較好的效果,故將該工具作為文中大學(xué)生文本的預(yù)處理工具。

課題組將114萬(wàn)份貼吧文本數(shù)據(jù)進(jìn)行分詞、去噪,剔除12770項(xiàng)重復(fù)詞語(yǔ),刪除出現(xiàn)頻率低于2的詞匯,確定42833個(gè)詞語(yǔ)作為大學(xué)生基本詞匯。

四、情緒分類(lèi)及核心詞的確定

20世紀(jì)中葉,學(xué)者們基于面部表情等身體體征對(duì)情緒進(jìn)行了界定和分類(lèi),取得了不少成果。隨著互聯(lián)網(wǎng)的發(fā)展,海量互聯(lián)網(wǎng)文本信息的有效獲取以及數(shù)據(jù)挖掘技術(shù)和分析技術(shù)的不斷提升,學(xué)者們逐步轉(zhuǎn)向?qū)φZ(yǔ)言的情緒分類(lèi)研究。

通過(guò)比較現(xiàn)有文本情緒分類(lèi)的基本情緒分類(lèi),尤其是針對(duì)網(wǎng)絡(luò)微博的情緒分類(lèi),確定“高興、憤怒、悲傷、害怕、驚奇”5種文本基本情緒類(lèi)別。結(jié)合大學(xué)生學(xué)習(xí)、經(jīng)濟(jì)、就業(yè)、人際交往等應(yīng)激源元素以及引發(fā)自殺的直接原因即心理痛苦[13],添加“痛苦”類(lèi)情緒,建立“悲傷、痛苦、憤怒、害怕、驚奇、高興”6類(lèi)大學(xué)生情緒類(lèi)別。借助武漢大學(xué)開(kāi)源的ROSTCM6軟件對(duì)42833個(gè)詞語(yǔ)進(jìn)行大學(xué)生基本詞匯詞頻統(tǒng)計(jì)和人工分類(lèi)后,將各類(lèi)情緒類(lèi)別高頻詞按照數(shù)量高低統(tǒng)計(jì)如表3所示。

按照以上統(tǒng)計(jì)數(shù)據(jù),確定詞頻數(shù)最大的高頻詞為該類(lèi)情緒的核心詞。

五、語(yǔ)料訓(xùn)練

(一)Word2vec模型選擇

Word2vec是google公司2013年推出的一款用于自然語(yǔ)言處理中詞向量訓(xùn)練的開(kāi)源軟件工具,通過(guò)計(jì)算機(jī)訓(xùn)練給定文本的輸入和輸出,并不斷修正這個(gè)神經(jīng)網(wǎng)絡(luò)中的參數(shù),得到詞向量。

Word2vec有2種訓(xùn)練框架: ①在給定上下文的情況下,詞 w的概率CBOW(continuous bag-of-words),其特點(diǎn)是訓(xùn)練速度快,但窗口范圍外的詞匯關(guān)系難以正確被模型所捕獲。②在給定詞w的情況下,其上下文概率的 Skip-gram (continuous skip-gram) ,其特點(diǎn)是低頻詞的訓(xùn)練效果較好[14]??紤]到泛在網(wǎng)絡(luò)論壇文本中新詞及低頻詞大量存在,因此選擇Skip-gram模型進(jìn)行訓(xùn)練。

(二)Word2vec的工程目錄

Word2vec項(xiàng)目中與訓(xùn)練詞向量相關(guān)的語(yǔ)言文件主要是Learn.java、Word2vec.Java 2個(gè)文件,其中,Learn.java文件中包含了特征的訓(xùn)練、訓(xùn)練的模型、詞頻統(tǒng)計(jì)的實(shí)現(xiàn),Word2vec.java包含了模型的加載以及相似度的計(jì)算。

(三)訓(xùn)練參數(shù)比較

1.相同詞匯在不同數(shù)據(jù)量的相關(guān)性數(shù)據(jù)比較

相同詞匯在不同的數(shù)據(jù)量下,數(shù)據(jù)量的增大以及首次出現(xiàn)的新詞,導(dǎo)致相同詞匯與種子詞之間相關(guān)性的非線(xiàn)性變化,其結(jié)果如表4所示。

2.相同詞匯在不同窗口條件下的相關(guān)性數(shù)據(jù)比較

經(jīng)過(guò)對(duì)去噪、去重等處理后的114萬(wàn)份語(yǔ)料文本進(jìn)行實(shí)驗(yàn)后,在相同詞匯下的不同窗口中可以看出,在窗口大小為10的時(shí)候其相似度更大,而且在人工挑選時(shí)通過(guò)去噪、去重處理的無(wú)意義詞匯最少,其結(jié)果如表5所示。

獲取適用于大學(xué)生情緒詞特征提取的方法:在窗口大小為10的情況下選擇大樣本分析。

(四)實(shí)驗(yàn)結(jié)果

114萬(wàn)份語(yǔ)料文本經(jīng)Word2vec訓(xùn)練后,以“悲傷”為悲傷情緒的核心詞得到情緒詞362個(gè),以“哭”為痛苦情緒的核心詞得到情緒詞272個(gè),以“罵”為憤怒情緒的核心詞得到情緒詞304個(gè),以“打”為恐懼情緒的核心詞得到情緒詞338個(gè),以“酷”為驚奇情緒的核心詞得到情緒詞322個(gè),以“好”為高興情緒的核心詞得到情緒詞302個(gè)。

通過(guò)各詞語(yǔ)與各類(lèi)情緒核心詞的相似度計(jì)算,建立大學(xué)生情緒詞典語(yǔ)料庫(kù)如表6所示。

六、展望

本文通過(guò)挖掘百度貼吧中的高校大學(xué)生文本,并基于Word2vec方法初步建立具有針對(duì)性的大學(xué)生情緒語(yǔ)料庫(kù)。接下來(lái),課題組將拓展泛在網(wǎng)絡(luò)中的大學(xué)生文本數(shù)據(jù)來(lái)源,繼續(xù)挖掘文本數(shù)據(jù),并通過(guò)驗(yàn)證和實(shí)驗(yàn)進(jìn)一步提升分詞效率,增強(qiáng)情緒值的準(zhǔn)確性,不斷完善和更新語(yǔ)料庫(kù),為更有效地開(kāi)展大學(xué)生情緒聚類(lèi)分析提供支撐和便利,從而為大學(xué)生心理健康教育和管理提供有效借鑒。

[ 參 考 文 獻(xiàn) ]

[1] 陽(yáng)愛(ài)民,林江豪,周詠梅.中文文本情感詞典構(gòu)建方法[J].計(jì)算機(jī)科學(xué)與探索,2013(11):1033-1039.

[2] 孫波,陳玖冰,劉永娜.大數(shù)據(jù)背景下的學(xué)生情感詞典構(gòu)建方法[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(4):358-361.

[3] 柳位平,朱艷輝,栗春亮,等.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用,2009(10):2875-2877.

[4] 鄧淑卿,李玩?zhèn)?,徐?基于句法依賴(lài)規(guī)則和詞性特征的情感詞識(shí)別研究[J].情報(bào)理論與實(shí)踐,2018(5):137-142.

[5] 楊小平,張中夏,王良,等.基于Word2Vec的情感詞典自動(dòng)構(gòu)建與優(yōu)化[J].計(jì)算機(jī)科學(xué),2017(1):42-47+74.

[6] 谷學(xué)靜.基于人工心理的HMM情感建模方法及虛擬人技術(shù)研究[D].北京:北京科技大學(xué),2003.

[7] 張謙,高章敏,劉嘉勇.基于word2vec的微博短文本分類(lèi)研究[J].信息網(wǎng)絡(luò)安全,2017(1):57-62.

[8] 李銳,張謙,劉嘉勇.基于加權(quán) word2vec的微博情感分析[J].通信技術(shù),2017(3):502-506.

[9] 張志華.基于深度學(xué)習(xí)的情感詞向量及文本情感分析的研究[D].上海:華東師范大學(xué),2016.

[10] 傅小蘭.情緒心理學(xué)[M].上海:華東師范大學(xué)出版社,2016:5.

[11] 劉林.面向論壇文本的大學(xué)生情緒識(shí)別研究[D].武漢:華中師范大學(xué),2016.

[12] 楊佳能,陽(yáng)愛(ài)民,周詠梅.基于語(yǔ)義分析的中文微博情感分類(lèi)方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014(11):14-21+30.

[13] SHNEIDMAN E S. Commentary: Suicide as Psychache[J].Journal of Nervous & Mental Disease, 1993(3): 145-147.

[14] 王仁武,陳川寶,孟現(xiàn)茹.基于詞向量擴(kuò)展的學(xué)術(shù)資源語(yǔ)義檢索技術(shù)[J].圖書(shū)情報(bào)工作,2018(19):111-119.

[責(zé)任編輯:龐丹丹]

猜你喜歡
大學(xué)生
微信使用對(duì)大學(xué)生親子關(guān)系的影響
淺議大學(xué)生國(guó)家認(rèn)同的培養(yǎng)路徑
淺析大學(xué)生校園兼職
暑期近萬(wàn)名大學(xué)生兼職送外賣(mài)
第29屆世界大學(xué)生 冬季運(yùn)動(dòng)會(huì)精彩掠影
大學(xué)生就業(yè)趨勢(shì)
大學(xué)生“雙創(chuàng)”進(jìn)行時(shí)
暑假調(diào)查 45%的大學(xué)生僅給自己放十天假
成立首個(gè)村級(jí)大學(xué)生創(chuàng)業(yè)園
第十二屆“中國(guó)大學(xué)生年度人物”揭曉