邱均平,孫月瑞,b(杭州電子科技大學(xué).中國科教評(píng)價(jià)研究院,b.管理學(xué)院)
自20世紀(jì)90年代我國逐步引進(jìn)國際科技期刊的評(píng)價(jià)體系以來,我國科研能力迎來了巨大的提升,作為培養(yǎng)優(yōu)秀高等人才的高等院校,科研素養(yǎng)和學(xué)術(shù)成果成為評(píng)價(jià)一所大學(xué)的核心標(biāo)準(zhǔn)。但近些年一些部門對(duì)該標(biāo)準(zhǔn)的過度依賴,大學(xué)評(píng)價(jià)在實(shí)踐應(yīng)用中逐漸趨向單一化。
大數(shù)據(jù)時(shí)代的來臨促使數(shù)據(jù)挖掘技術(shù)日益成熟,合理利用機(jī)器學(xué)習(xí)等手段能夠較為準(zhǔn)確、快速地發(fā)現(xiàn)知識(shí)、總結(jié)規(guī)律。其中,文本挖掘作為數(shù)據(jù)挖掘的一個(gè)重要分支,近些年來獲得了巨大發(fā)展。目前,對(duì)網(wǎng)絡(luò)評(píng)論的文本挖掘研究主要集中于商品評(píng)論、網(wǎng)絡(luò)輿情這兩個(gè)方向,而對(duì)學(xué)校環(huán)境的在線評(píng)論研究關(guān)注不足。微博、知乎等社交媒體已經(jīng)成為大學(xué)生了解信息、相互討論、表達(dá)訴求的主要渠道[1],本研究以浙江工業(yè)大學(xué)、杭州電子科技大學(xué)和浙江師范大學(xué)為例,通過收集評(píng)價(jià)大學(xué)的在線評(píng)論數(shù)據(jù),利用文本挖掘技術(shù)對(duì)評(píng)論進(jìn)行文本拆分,對(duì)生成的各評(píng)論語句集進(jìn)行情感分類,探尋產(chǎn)生消極評(píng)論的主要問題,并對(duì)教學(xué)的非消極評(píng)論進(jìn)行詞頻統(tǒng)計(jì),所獲得的實(shí)驗(yàn)結(jié)果可以洞悉大學(xué)生對(duì)所在學(xué)校的生活服務(wù)、學(xué)習(xí)體驗(yàn)的集中情感,把握學(xué)校的熱門專業(yè)和學(xué)科特色。
目前,我國對(duì)于高校的評(píng)價(jià)以學(xué)術(shù)評(píng)價(jià)為主。占侃[2]對(duì)我國高校主要評(píng)價(jià)體系做了對(duì)比分析,發(fā)現(xiàn)各機(jī)構(gòu)單位都重點(diǎn)考量高校的創(chuàng)新能力,但由于評(píng)價(jià)的實(shí)體指標(biāo)各有側(cè)重,高校評(píng)價(jià)結(jié)果往往并不相同。大數(shù)據(jù)時(shí)代,很多學(xué)者提出了對(duì)大學(xué)評(píng)價(jià)體系的質(zhì)疑和改進(jìn)措施,如湯建民等對(duì)高??蒲袠I(yè)績?cè)u(píng)價(jià)是否科學(xué)、如何改進(jìn)提出了意見[3],唐曉波等[4]構(gòu)建了依托大數(shù)據(jù)技術(shù)的信息云平臺(tái)和智能服務(wù)框架。在學(xué)校的內(nèi)部評(píng)價(jià)中,很多研究工作轉(zhuǎn)向于學(xué)生教學(xué)評(píng)價(jià)文本,如范宇辰等[5]利用詞典匹配法與情感詞庫統(tǒng)計(jì)中文教評(píng)文本的情感得分,劉毓等[6]結(jié)合Word2Vec與支持向量機(jī)方法實(shí)現(xiàn)對(duì)科教短文本數(shù)據(jù)的情感分類。
隨著互聯(lián)網(wǎng)的高速發(fā)展,人們能夠在虛擬的網(wǎng)絡(luò)中暢所欲言,將凝聚個(gè)人情感的評(píng)價(jià)信息發(fā)布于網(wǎng)絡(luò),形成了許多以某一對(duì)象為中心的海量的、富有內(nèi)涵的評(píng)論集,如何從中挖掘出有價(jià)值的知識(shí)成為學(xué)者研究的熱點(diǎn)問題。陸泉等[7]利用樸素貝葉斯分類和“密度—距離”快速搜索聚類實(shí)現(xiàn)了專業(yè)領(lǐng)域稀疏環(huán)境下微博評(píng)論的熱點(diǎn)主題挖掘;李金海等[8]從百度貼吧中收集本校的言辭信息,探索高校輿情形成的原因和影響;楊單等[9]從兩所高校的網(wǎng)絡(luò)輿情熱點(diǎn)出發(fā),利用Rost、Gooseeker等工具進(jìn)行情感分析,合理地判斷了網(wǎng)絡(luò)輿情的走勢。但是,除了上述研究方向外,對(duì)于網(wǎng)絡(luò)用戶(特別是正在就讀或曾就讀過的學(xué)生)對(duì)大學(xué)環(huán)境的在線評(píng)論的研究卻少有開展。
本研究從各網(wǎng)站中收集網(wǎng)絡(luò)用戶對(duì)浙江工業(yè)大學(xué)、杭州電子科技大學(xué)、浙江師范大學(xué)這三所院校的在線評(píng)論,主要以“某某大學(xué)怎么樣”的提問方式收集評(píng)論,獲取信息的主要平臺(tái)有百度知道、中國教育在線、知乎和職朋校友圈,發(fā)表評(píng)論的時(shí)間跨度定為2016年1月1日至2021年1月1日。通過剔除重復(fù)評(píng)論,最終獲得5,889條評(píng)論,其中浙江工業(yè)大學(xué)1,771條、杭州電子科技大學(xué)2,441條、浙江師范大學(xué)1,677條。所獲得的評(píng)論樣例見表1。
表1 學(xué)校評(píng)論樣例
本研究最初收集到的評(píng)論大都是對(duì)院校的綜合評(píng)價(jià),為了更合理地對(duì)評(píng)論文本進(jìn)行分類分析,筆者對(duì)評(píng)論進(jìn)行拆分。在細(xì)粒度文本抽取上,康月等[10]利用句法特征對(duì)評(píng)論的實(shí)體、屬性、情感進(jìn)行標(biāo)注,形成訓(xùn)練集后對(duì)BERT詞嵌入的BILSTM-CRF注意力機(jī)制模型進(jìn)行訓(xùn)練,取得了良好的效果。周清清等利用評(píng)論中高頻名詞作為候選屬性詞,利用word2vec模型詞向量表示并進(jìn)行AP聚類,通過降噪等處理,較好地實(shí)現(xiàn)了細(xì)粒度屬性抽?。?1]。
本研究獲得的大部分在線評(píng)論的內(nèi)容跨度非常大。通過觀察,筆者發(fā)現(xiàn)這些評(píng)論主要圍繞吃、住、景、學(xué)習(xí)這四個(gè)主題展開。為了解決評(píng)論內(nèi)部細(xì)分問題,筆者利用StanfordNLP工具對(duì)其進(jìn)行詞性標(biāo)注,提取評(píng)論中的名詞,再結(jié)合word2vec模型,形成名詞的詞向量形式,通過AP聚類形成初始類簇,達(dá)到詞語詞義相近則相聚的效果。接下來,筆者對(duì)分類的各詞集進(jìn)行評(píng)論語句重現(xiàn),將其作為輔助參考,對(duì)形成的各個(gè)類簇進(jìn)行人工分類,最終構(gòu)成以“飲食”“景色”“教學(xué)”“住宿”“其他”為類別的評(píng)論語句集。
對(duì)三所院校的評(píng)論數(shù)據(jù)進(jìn)行變換。具體地,對(duì)各院校的評(píng)論進(jìn)行切分,以逗號(hào)、句號(hào)、問號(hào)等有句間停頓意義的符號(hào)作為分割點(diǎn),形成新的評(píng)論語句集,再利用StanfordNLP工具對(duì)評(píng)論集進(jìn)行詞性標(biāo)注,抽取名詞(帶有“NN”和“NR”標(biāo)注的詞語)并刪除代詞后,生成關(guān)鍵詞,最終得到6,779個(gè)關(guān)鍵詞。
本研究借助word2vec模型對(duì)關(guān)鍵詞進(jìn)行詞向量表示。word2vec是Mikolov等提出的,這種詞向量表示方式名為“Distributed Representation”,能有效避免“One-hot Representation”維度高、詞間相似難以比較等問題[12-13]。利用語料庫對(duì)word2vec進(jìn)行訓(xùn)練,可以表示詞語的詞向量,并且意思越相近的詞語在向量空間上的位置越接近。word2vec有兩個(gè)訓(xùn)練模式,分別為Skip-Gram和CBOW,前者以輸入詞來預(yù)測上下文,后者是以輸入上下文來預(yù)測當(dāng)前詞。本研究采用的訓(xùn)練模式為Skip-Gram,該模式的模型是一個(gè)三層神經(jīng)網(wǎng)絡(luò),選擇5作為上下文窗口參數(shù),250作為詞向量維度。筆者以維基百科、微信公眾號(hào)文章的海量文本集作為語料庫,對(duì)word2vec模型進(jìn)行訓(xùn)練,在訓(xùn)練好的word2vec模型中輸入去重后的關(guān)鍵詞,表示出關(guān)鍵詞的詞向量形式。
聚類指將許多實(shí)在或者抽象的對(duì)象按自身某些屬性或動(dòng)作之間的相似情況進(jìn)行劃分,形成不同類別的集合。本文對(duì)關(guān)鍵性名詞的詞向量進(jìn)行AP聚類。AP(Affinity Propagation)聚類算法由Frey[14]等提出,該算法將所有樣本當(dāng)作潛在的聚類中心看待,定義樣本對(duì)每一個(gè)其他樣本具有兩個(gè)屬性,分別為吸引值(responsibility)和歸屬值(availability)。在聚類過程中,不斷更新樣本對(duì)每一個(gè)其他樣本的屬性值,直至兩值(吸引值和歸屬值)穩(wěn)定或達(dá)到最大迭代次數(shù),兩值相加后得到最大的、相對(duì)應(yīng)的樣本對(duì)象作為該樣本的聚類中心。AP聚類無須設(shè)置初始聚類數(shù)目,聚類過程依托于樣本之間的相似度,適合多維度的數(shù)據(jù)集。相似度量方法有余弦系數(shù)、曼哈頓距離、負(fù)歐式距離等多種,本研究采用負(fù)歐氏距離和余弦系數(shù)進(jìn)行聚類并對(duì)結(jié)果進(jìn)行對(duì)比。負(fù)歐氏距離公式和余弦系數(shù)公式分別如公式(1)和公式(2)所示。
其中,x與y分別代表兩個(gè)樣本,xi與yi分別代表這兩個(gè)樣本在i維特征的數(shù)值,m代表詞向量的總維數(shù),dxy和cos(x,y)代表兩個(gè)樣本間的相似度。
筆者以距離中值為參考度,阻尼系數(shù)為0.5,對(duì)關(guān)鍵詞分別進(jìn)行聚類,得出的部分聚類結(jié)果見表2。
表2 部分聚類結(jié)果樣例
通過對(duì)比分析,以負(fù)歐氏距離為相似度量的方法表現(xiàn)更優(yōu),更有利于接下來的人工分類。因此,本研究使用負(fù)歐氏距離作為聚類的距離計(jì)算方式,聚類最終形成439個(gè)簇。筆者對(duì)含有聚類詞語的原有評(píng)論語句進(jìn)行還原、重現(xiàn),重點(diǎn)參考每個(gè)聚類的聚類中心,以簇為單位進(jìn)行人工區(qū)分,以“飲食”“景色”“教學(xué)”“住宿”“其他”進(jìn)行分類。由三位經(jīng)過培訓(xùn)的志愿者進(jìn)行分類,對(duì)分類結(jié)果進(jìn)行一致性檢驗(yàn),Cohen's kappa系數(shù)[15]分別為0.826(標(biāo)準(zhǔn)誤差為0.025)、0.843(標(biāo)準(zhǔn)誤差為0.024)、0.97(標(biāo)準(zhǔn)誤差為0.11),P小于0.001,可見上述三人的分類結(jié)果具有較強(qiáng)的一致性,分類效果具有高信度。按分類結(jié)果對(duì)各評(píng)論進(jìn)行不同地標(biāo)號(hào),同時(shí)附上學(xué)校代號(hào),得到五類評(píng)論語句集(見表3)。
表3 五類詞語集和評(píng)論語句集樣例
為了解網(wǎng)絡(luò)用戶對(duì)不同院校的情感傾向,本研究對(duì)分類后新的評(píng)論語句集進(jìn)行情感判斷。在情感分析上,朱軍等[16]通過判斷評(píng)論是否含情感詞,如果有則利用情感詞典和樸素貝葉斯分類進(jìn)行情感判斷,沒有則利用支持向量機(jī)進(jìn)行判斷,在酒店評(píng)論集上取得了良好效果。陳玉嬋等[17]利用情感詞典和SnowNLP工具相結(jié)合的方法對(duì)學(xué)生的評(píng)教文本進(jìn)行情感分析,在測試集上取得了不錯(cuò)的分類效果。近年來,典型的深度學(xué)習(xí)方法如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等在文本分類上取得了良好效果,其中預(yù)訓(xùn)練語言模型的方法效果十分出色。BERT模型[18]是Google提供的預(yù)訓(xùn)練語言模型,它利用雙向Transformer網(wǎng)絡(luò)結(jié)構(gòu)來獲取文本語義信息,它具有遷移學(xué)習(xí)的能力,針對(duì)文本分類、實(shí)體識(shí)別、語言翻譯等不同下游處理任務(wù)時(shí),在外接輸出層下利用該預(yù)訓(xùn)練模型進(jìn)行參數(shù)微調(diào)訓(xùn)練,就可滿足任務(wù)需要。ERNIE模型是BERT的中文改進(jìn)增強(qiáng)模型,由百度提供,在掩碼語言模型訓(xùn)練階段上,增加了短語級(jí)與實(shí)體級(jí)掩碼,即將掩碼層次從字提升到了詞。
本研究利用ERNIE預(yù)訓(xùn)練模型外接線性分類器的方式進(jìn)行情感分類,直接使用已經(jīng)發(fā)布的ERNIE預(yù)訓(xùn)練模型,進(jìn)行參數(shù)微調(diào)訓(xùn)練。從SnowNLP工具包中獲取帶有情感標(biāo)注的訓(xùn)練集,將它作為ERNIE模型微調(diào)所需的主要訓(xùn)練語料。同時(shí)將許多事實(shí)性語句,如學(xué)校簡介、景點(diǎn)介紹、食品說明等,標(biāo)為非消極類別,歸入到訓(xùn)練集中。
為了考察該情感分類方法是否對(duì)本次評(píng)論語句集有效、是否能準(zhǔn)確識(shí)別出消極評(píng)論,筆者從評(píng)論語句集中隨機(jī)抽取200個(gè)評(píng)論進(jìn)行人工標(biāo)注。由于其中消極評(píng)論較少,所以從網(wǎng)絡(luò)中搜索了90份酒店消極評(píng)論和90份教學(xué)消極評(píng)價(jià)進(jìn)行補(bǔ)充,形成測試集。
SnowNLP的情感分類器是基于貝葉斯模型生成的,來源于Python的第三方庫。筆者將情感詞典和SnowNLP相結(jié)合的情感分類方法作為本次驗(yàn)證效果的對(duì)照組方法,總體流程見圖1,其中SnowNLP分類器以本次訓(xùn)練集進(jìn)行過二次訓(xùn)練。
圖1 基本流程
本研究使用精確率(precision)、召回率(recall)與F1值(F1 measure)進(jìn)行效果驗(yàn)證(見表4)。精確率指正確預(yù)測某一類別數(shù)目跟全部預(yù)測為該類別數(shù)目之間的比,召回率指正確預(yù)測某一類別數(shù)目跟實(shí)際上是這一類別的全部數(shù)目之間的比,F(xiàn)1值指精確率與召回率的調(diào)和平均數(shù)。需要注意的是,在情感詞典和SnowNLP相結(jié)合的方法中,分詞使用了Jieba工具,停用詞參考了百度資料,情感詞典大部分來自知網(wǎng)中文情感詞典和大連理工大學(xué)的中文情感詞匯本體庫[19];在利用ERNIE模型的方法進(jìn)行訓(xùn)練時(shí),Learning rate為1e-5,epoch為3。
表4 評(píng)估指標(biāo)得分
可見,在精準(zhǔn)率、召回率、F1值這三個(gè)指標(biāo)上,不論是消極類別還是非消極類別,基于ERNIE模型的情感分類方法都能很好地實(shí)現(xiàn)分類效果,且效果優(yōu)于通過情感詞典和SnowNLP相結(jié)合的方法。
筆者對(duì)以“飲食”“景色”“教學(xué)”“住宿”為類別的四種新評(píng)論語句集進(jìn)行情感分類,得出不同類別下不同院校的情感分布(見圖2)。
圖2 不同類別下不同院校的情感分布
由圖2可得:縱向比較上,三所院校在飲食、景色、教學(xué)、住宿上均以非消極評(píng)價(jià)居多;橫向比較上,三所院校在各類別上的消極程度各有差異,但并不明顯。為了探究學(xué)校在各類別上產(chǎn)生消極評(píng)論的主要原因,本研究對(duì)消極評(píng)論做來源統(tǒng)計(jì)分析,使用公式(3)得出圖3,使用公式(4)得出圖4。
圖3 消極評(píng)論來源分布
圖4 消極評(píng)論在來源評(píng)論中的占比
由圖3、圖4可知,在所有類別評(píng)論語句集中,來源于知乎的消極評(píng)論占比最高且在來源于知乎的評(píng)論中發(fā)現(xiàn)消極評(píng)論的可能性最高,因此本次重點(diǎn)分析各類別中來源于知乎的消極評(píng)論。這也表明,知乎作為互聯(lián)網(wǎng)問答社區(qū),可以作為學(xué)??疾熳陨砉芾硎欠翊嬖诓蛔愕挠行緩健?/p>
考慮到消極評(píng)論的真實(shí)性和可信度,筆者分別統(tǒng)計(jì)知乎各類別消極評(píng)論中所反映各個(gè)問題的次數(shù)(以所來源的評(píng)論用戶為統(tǒng)計(jì)單位),并主要統(tǒng)計(jì)2019年后的評(píng)論內(nèi)容(見表5)。
表5 多類別問題
通過評(píng)論細(xì)分、情感分類和來源分析可以較好地洞悉網(wǎng)絡(luò)用戶對(duì)院校各方面的評(píng)價(jià)及院校管理服務(wù)上的遺漏,對(duì)學(xué)校改善學(xué)校服務(wù)水平具有極大的現(xiàn)實(shí)意義。
為了深入分析三所院校在教學(xué)特色方面的差異,尋找出能使社會(huì)公眾(特別是學(xué)生家長、企業(yè)招聘單位、外部評(píng)價(jià)機(jī)構(gòu))了解院校教育優(yōu)勢所在的方法,本研究對(duì)非消極的教學(xué)評(píng)論語句集進(jìn)行了詞頻分析。
具體地,對(duì)三所院校的非消極教學(xué)評(píng)論語句集以評(píng)論用戶為單位進(jìn)行合并,在對(duì)新的評(píng)論集進(jìn)行去除表情符號(hào)、學(xué)校的名稱與俗稱、數(shù)字、字母與標(biāo)點(diǎn)符號(hào)等處理后,再對(duì)其進(jìn)行分詞、去停用詞和去重,構(gòu)造出每個(gè)評(píng)論對(duì)應(yīng)的詞語集合,然后以每個(gè)詞語集合所對(duì)應(yīng)的院校進(jìn)行分類,分別匯集成有關(guān)Y、Z、F三所院校的詞語列表,并對(duì)詞語進(jìn)行頻率統(tǒng)計(jì),將每個(gè)列表最靠前的五個(gè)專業(yè)視為熱門專業(yè)(見表6)。
表6 高頻專業(yè)
由于詞語列表中有關(guān)三所院校的相同高頻詞語(如大學(xué)、學(xué)校、浙江省等)較多,使一些真正有價(jià)值的詞語不容易察覺。為了解決這一問題,筆者將Y、Z、F院校所涉及的詞匯視為元素,分別組成Y、Z、F集合,制作韋恩圖(見圖5)。其中,DG、EG、FG區(qū)域分別表示Y集合與Z集合的詞匯交集、Y集合與F集合的詞匯交集、F集合與Z集合的詞匯交集(這里的交集指多個(gè)集合中相同的詞語并且該詞語在原有列表中的頻率相除不超過2且不低于0.5),G區(qū)域表示Y、Z、F三者集合的詞匯交集,A、B、C區(qū)域分別表示Y、F、Z集合中除了上述交集詞匯外的特有詞匯。將韋恩圖中的詞匯繼續(xù)繪制成詞云圖(見圖6),詞語頻數(shù)參考原有詞語列表中的頻率,交集區(qū)域中的詞語頻率為該詞語在含有該詞語的多個(gè)詞語列表中的頻率平均值。
圖5 集合樣式
圖6 三所院校的集合詞云
由表6及圖6可知,有關(guān)這三所院校的非消極教學(xué)評(píng)價(jià)各有側(cè)重點(diǎn),三所院校在學(xué)科特色方面具有較大差異。在涉及Y院校的高頻專業(yè)名稱中,化工、機(jī)械、制藥、化學(xué)被高頻提及,結(jié)合圖6表明Y院校在工科教學(xué)方面的能力較為突出;在涉及Z院校的高頻專業(yè)名稱中,計(jì)算機(jī)、電子信息、通信工程、自動(dòng)化這些學(xué)科被高頻提及,結(jié)合圖6表明Z院校在信息處理領(lǐng)域的教學(xué)能力較為突出,同時(shí)會(huì)計(jì)作為經(jīng)濟(jì)管理類專業(yè)也出現(xiàn)在了表格上,表明該專業(yè)受到網(wǎng)絡(luò)用戶的重點(diǎn)推薦;在涉及F院校的高頻專業(yè)名稱中,漢語言、英語、體育、數(shù)學(xué)被高頻提及,結(jié)合圖6表明F院校在教育相關(guān)專業(yè)的教學(xué)能力較為突出,受到了評(píng)論用戶的普遍認(rèn)可。同時(shí),計(jì)算機(jī)專業(yè)均出現(xiàn)在這三所院校的高頻專業(yè)里,說明三者有關(guān)計(jì)算機(jī)的專業(yè)實(shí)力得到了網(wǎng)絡(luò)用戶的普遍認(rèn)可。
總體上,該研究結(jié)果有利于學(xué)校加強(qiáng)自身管理,達(dá)到改善學(xué)生體驗(yàn)的效果,同時(shí),本研究所涉及的評(píng)論研究方法有利于外部評(píng)價(jià)機(jī)構(gòu)更加多方位評(píng)價(jià)一所院校,給出合適結(jié)論。當(dāng)然,該研究過程中還存在不足:如在評(píng)論拆分上,是通過句間停頓進(jìn)行句子切分,在極少部分評(píng)論中,后句是前句的補(bǔ)充,并且不含名詞,可能會(huì)被遺棄而丟失重要的評(píng)價(jià)信息;在情感分類上,精確率和召回率雖然分值很高,但在消極評(píng)論上仍存在誤判,在情感分類的效果上還有較大的提升空間。