国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

在線課程評論的情感傾向識別與話題挖掘技術

2018-03-22 01:31:40楊麗
電子技術與軟件工程 2018年1期

伴隨信息技術的快速發(fā)展,為各行業(yè)領域注入新鮮的活力。以教育領域為例,較多互動學習平臺逐漸被引入其中,特別其中包含的學習者評論數(shù)據(jù),均可為教學質(zhì)量改善、用戶選課以及平臺支持提供參考,然而現(xiàn)有的平臺運行中并未充分利用這些反饋信息,需行之有效的完善策略。本次研究將對情感傾向識別與話題挖掘技術做簡單介紹,在此基礎上提出在線課程評論樣本處理與特征提取方法、情感傾向識別算法以及在線課程評論話題挖掘技術等。

【關鍵詞】在線課程評論 情感傾向識別 話題挖掘技術

信息化時代背景下,學習資源共享、平臺共享已成為大多學習者青睞的主要內(nèi)容,也因此有較多學習行為數(shù)據(jù)生成,如何對這些數(shù)據(jù)充分利用成為當前需考慮的主要問題。值得注意的是,當前許多數(shù)據(jù)提取、教學系統(tǒng)設計并不能滿足數(shù)據(jù)挖掘需求,更無從談及利用所獲取的數(shù)據(jù)為教學實踐進行指導,要求引入有效的數(shù)據(jù)提取、情感傾向識別以及話題挖掘技術。因此,本本文對在線課程評論的情感傾向識別與話題挖掘技術研究,具有十分重要的意義。

1 情感傾向識別與話題挖掘技術介紹

關于情感傾向識別、話題挖掘技術的概念,首先可從教育大數(shù)據(jù)進行分析,近年來在線學習中較多學習平臺逐漸引入,使海量未結構化數(shù)據(jù)生成,這些數(shù)據(jù)區(qū)別于傳統(tǒng)結構化數(shù)據(jù)如考勤記錄、考試成績等,有數(shù)據(jù)動態(tài)變化、數(shù)據(jù)規(guī)?;约邦愋投鄻踊忍攸c,而滿足這些特征的在線學習數(shù)據(jù)均推動教育大數(shù)據(jù)的形成。而在此基礎上提出的情感傾向識別,Web2.0時代下,大眾在瀏覽事物信息中,更注重對以往相關評論內(nèi)容關注,或?qū)⒆陨淼南敕?、意見與心情表達出來。大數(shù)據(jù)環(huán)境下,便強調(diào)數(shù)據(jù)挖掘中能夠?qū)Υ蟊姷钠骄鶅?nèi)容做情感分析,該過程被稱之為情感傾向識別。另外,在話題挖掘技術方面,由于很多情感傾向信息并非針對一個整體評論對象,而是對其中某一部分的傾向表現(xiàn),而這些部分便可被叫做話題。實際進行海量文本瀏覽中,便要求引入話題自動提取技術,保證信息檢索與處理效率,以此達到話題挖掘的目的。

2 在線課程評論樣本處理與特征提取

2.1 在線課程評論數(shù)據(jù)樣本處理

本次研究中,主要針對在線課程學習網(wǎng)站中的點評區(qū)分析,具體做樣本數(shù)據(jù)出去中,相關的要求主要包括:

(1)對點評區(qū)網(wǎng)頁結構信息充分了解,這些存儲于后臺數(shù)據(jù)庫內(nèi)的半結構化形式文本數(shù)據(jù),向用戶展示中,將通過HTML頁面以相應的格式顯示,因網(wǎng)頁引入的通訊技術有一定差異,所以在采集數(shù)據(jù)中有多種方式,如利用HTML表單形式,或借助HTML結構樹抽取;

(2)為使服務器訪問壓力、系統(tǒng)資源減少,一般設計中也考慮引入加載方式,以JavaScript為例,通過腳本動態(tài)導入數(shù)據(jù)。實際做數(shù)據(jù)采集中,可設定相應的方案流程,整個流程強調(diào)首先對JS腳本內(nèi)有無提取信息判斷,若加載過程需借助JS動態(tài)實現(xiàn),取中間代理方法,對JavaScript Object Notation頁面探測,進行格式解吸,然后將評論數(shù)據(jù)相關信息提取出來并存儲。假若加載方式選擇HTML靜態(tài)加載,轉(zhuǎn)換的目標體現(xiàn)在文本對象模型DOM上,在此基礎上做定位解析,將其中信息提取出來并存儲在數(shù)據(jù)庫內(nèi)。

2.2 特征提取

所謂文本特征,主要指被識別對象的特征,具體進行文本情感識別中,通常也需由這些特征著手。值得注意的是,在評論信息中,不同學習者在表達細致程度上有一定差異,其直接導致課程評論文本長度不同,部分評論中有豐富的文字內(nèi)容,傳遞的信息較多,而部分評論僅有幾個字,其意味文本特征分布有稀疏性、不均衡性特點。對此,實際進行文本特征提取中,本次研究考慮引入細粒度特征生成法,如N-gram語言模型,所有文本內(nèi)容,均以字符單元形式呈現(xiàn),有長度為N的字符片段序列形成,其中各片段均被叫做gram。同時,既往研究資料中,也對稀疏文本特征提取問題提出較多優(yōu)化方式,如多空間微粒群優(yōu)化,這一方式側重于取訓練集,細化為不同交叉訓練子集,通過檢驗各子集,提取其中的特征信息,達到文本特征提取目標。

3 在線課程評論情感傾向識別算法研究

情感傾向識別的實現(xiàn),主要強調(diào)通過對在線課程評論的分析,了解情感傾向。本次研究中,考慮引入自適應多視圖選擇方法,其亦被稱之為AMVS,識別中采用半監(jiān)督情感識別方法,其區(qū)別于傳統(tǒng)RSS方法,更注重做情感強度的計算,能夠優(yōu)先選取鑒別型高的特征。需注意該方法應用下,選擇視圖中,要求結合特征維度、訓練精度兩者關系,進行維度分布的構建,保證各視圖維度均較為合適,這樣僅需保證特征采樣覆蓋率適宜,便可進行視圖生成量的確定。盡管該算法應用下無需考慮視圖劃分、視圖維度等影響因素,且自適應性強,但在無標記樣本規(guī)模影響下,識別精度可能無法保證。

4 在線課程評論話題挖掘技術分析

情感識別的基礎上,便要求做話題挖掘。本文在研究中對于評論話題挖掘方法的選擇,主要結合既往研究成果,如話題情感模型的構建,DEI-TM,這一模型強調(diào)對情感表達尋找相應的話題,融入以往LDA模型話題挖掘機制,即通過語句間關聯(lián)信息的利用,過濾出正面、負面情感樣本,以分而治之理論為指導,實現(xiàn)不同情感類別話題信息的提取。實踐研究發(fā)現(xiàn),DEI-TM模型運用下,提取后的話題無較高相似度,在泛化能力上較強,可充分展示話題內(nèi)單詞,極大程度上提高話題挖掘效果。

5 結論

情感傾向識別及其話題挖掘是當前在線課程評論數(shù)據(jù)被充分利用的關鍵性保證。實際識別評論信息情感信息、挖掘話題內(nèi)容過程中,應充分認識其基本內(nèi)涵,選擇針對性的技術方式,如多視圖半監(jiān)督學習文本情感識別、DEI-TM模型等,確保將這些技術具體用于評論信息數(shù)據(jù)挖掘與分析中,以此保證評論數(shù)據(jù)能夠用于實踐指導中。

參考文獻

[1]張耀之.網(wǎng)絡輿情語義識別的技術分析及識別流程構建[D].吉林大學,2016.

[2]劉智.課程評論的情感傾向識別與話題挖掘技術研究[D].華中師范大學,2014.

[3]鄧鐳.面向微博新媒體的公共事件及其社會輿論分析技術研究[D].國防科學技術大學,2013.

作者簡介

楊麗(1985-),女,山西省潞城市人。博士學歷。講師。研究情感分析方向,大數(shù)據(jù)、智能方法等。

作者單位

湖北大學 湖北省武漢市 430062

搜索| 怀仁县| 保定市| 绥化市| 泸州市| 宜黄县| 台中市| 龙川县| 张家港市| 临沧市| 和平区| 庆安县| 吉林市| 龙川县| 万山特区| 扶风县| 维西| 宽甸| 壶关县| 江源县| 临猗县| 玉龙| 靖西县| 郸城县| 宁明县| 平湖市| 抚远县| 扶风县| 宁化县| 姚安县| 郧西县| 乌兰察布市| 屯留县| 保靖县| 深水埗区| 将乐县| 宜阳县| 水富县| 崇左市| 宜春市| 萍乡市|