国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA模型的教育技術(shù)學(xué)研究主題挖掘及演化趨勢分析

2023-06-25 20:59:50陶勝陽許新華余亞烽葉伊陳蘇娜
現(xiàn)代信息科技 2023年6期
關(guān)鍵詞:教育技術(shù)學(xué)

陶勝陽 許新華 余亞烽 葉伊 陳蘇娜

摘? 要:利用LDA模型對教育技術(shù)學(xué)領(lǐng)域核心期刊進行主題挖掘和演化趨勢分析。結(jié)果顯示:在2012—2021年間,教育技術(shù)學(xué)領(lǐng)域共有26個研究主題,其中有在線學(xué)習(xí)等8個熱點主題;在線學(xué)習(xí)等10個主題呈上升趨勢,遠程教育等5個主題呈下降趨勢,智慧教室、教學(xué)模式等11個主題演化趨勢較為曲折。由此可見,將LDA模型引入到教育技術(shù)學(xué)領(lǐng)域中進行主題挖掘是行之有效的,希望能對后續(xù)研究者提供幫助和借鑒。

關(guān)鍵詞:教育技術(shù)學(xué);LDA模型;主題挖掘;演化趨勢

中圖分類號:TP391 文獻標識碼:A 文章編號:2096-4706(2023)06-0176-06

Topic Mining and Evolution Trend Analysis of Educational Technology Research Based on LDA Model

TAO Shengyang, XU Xinhua, YU Yafeng, YE Yi, CHEN Suna

(School of Computer and Information Engineering, Hubei Normal University, Huangshi? 435002, China)

Abstract: The topic mining and evolution trend analysis of core journals in the field of educational technology are carried out by using LDA model. The results show that from 2012 to 2021, there were 26 research topics in the field of educational technology, including 8 hot topics such as online learning. Ten themes such as online learning showed an upward trend, five themes such as distance education showed a downward trend, eleven themes such as smart classroom and teaching mode showed a tortuous evolution trend. It can be seen that it is effective to introduce the LDA model into the field of educational technology for topic mining, and it is hoped to provide help and reference for subsequent researchers.

Keywords: educational technology; LDA model; topic mining; evolution trend

0? 引? 言

2018年《教育信息化2.0行動計劃》的印發(fā),標志著我國將全面推進教育信息化事業(yè)建設(shè),開啟智能教育時代。在此背景下,我國教育技術(shù)學(xué)蓬勃發(fā)展,開設(shè)教育技術(shù)學(xué)專業(yè)的院校數(shù)量以及教育技術(shù)學(xué)專業(yè)的學(xué)生數(shù)量不斷增加,教育技術(shù)學(xué)的研究內(nèi)容越來越廣泛,研究成果也越來越多。

期刊文獻是研究成果的重要載體,尤其是核心期刊文獻[1]。核心期刊文獻是某個領(lǐng)域的研究精華,既代表著文獻本身的研究主題和質(zhì)量,也可以反映出該領(lǐng)域研究的熱點以及發(fā)展趨勢,具有較高的學(xué)術(shù)價值。近年來,國內(nèi)學(xué)者紛紛采用文獻計量法[2]、關(guān)鍵詞共現(xiàn)[3]、共詞分析法[4]、因子分析法[5]、內(nèi)容分析法[6]、關(guān)鍵詞共現(xiàn)分析[7]等方法對教育技術(shù)學(xué)研究熱點主題和趨勢進行分析。這些傳統(tǒng)的方法一般是利用關(guān)鍵詞作為核心數(shù)據(jù)進行主題挖掘,由于關(guān)鍵詞的“共生現(xiàn)象”以及沒有涉及文本的語義信息,所產(chǎn)出的研究結(jié)果往往存在全面性不足、研究層次不夠深入的現(xiàn)象[8]。LDA主題模型能夠?qū)ξ谋緮?shù)據(jù)進行語義層面的分析和研究,得到比傳統(tǒng)方法更加細致的主題信息。它將整個文檔集看作是主題的概率分布,把每個主題看作是詞語的概率分布,降低了維度以及解決問題的難度,已經(jīng)廣泛應(yīng)用于文本分類、信息檢索、情感分析、話題挖掘等領(lǐng)域。LDA主題模型由文檔層、主題層、詞語層三層貝葉斯結(jié)構(gòu)組成,如圖1所示。

因此,本文將在前人研究的基礎(chǔ)上,利用LDA模型對近十年教育技術(shù)學(xué)領(lǐng)域的中文核心期刊進行主題挖掘和演化趨勢分析,揭示研究的熱點及主題在時間維度上的發(fā)展變化過程,以厘清教育技術(shù)學(xué)的發(fā)展脈絡(luò)、學(xué)術(shù)熱點以及研究趨勢,幫助教育技術(shù)學(xué)專業(yè)的研究人員了解已有的研究基礎(chǔ)、明確當前的研究熱點,為其確定研究方向、研究內(nèi)容和研究課題提供一定的參考。

1? 關(guān)鍵技術(shù)

1.1? LDA模型

2003年,Blei等人[9]在PLSI主題模型的基礎(chǔ)上提出了LDA主題模型。2004年,Griffiths等人[10]又對該模型進行了改進,如圖2所示。

圖2中,節(jié)點表示隨機變量,箭頭表示概率依存關(guān)系,矩形表示對里面的內(nèi)容進行迭代[8]。LDA模型圖中所使用的字符含義如表1所示。

LDA模型生成文檔的流程如下所示:

(1)α隨機生成文檔對應(yīng)主題的多項式分布θ。

(2)θ隨機生成一個主題z。

(3)β隨機生成主題對應(yīng)詞語的多項式分布φ。

(4)綜合主題z和主題對詞語分布情況φ生成詞語w。

(5)如此循環(huán),生成一個文檔,包含M個詞語。

(6)最終生成K個主題下的N篇文檔。

1.2? 主題演化趨勢分析

主題演化趨勢分析是指在主題模型中引入文本語料的時間信息,研究主題在時間維度上演化的動態(tài)性、發(fā)展性以及差異性。根據(jù)引入時間方式的不同,目前有三種不同的基于LDA模型的主題演化趨勢分析方法:第一種方法是Joint方法;第二種方法是后離散分析;第三種是先離散分析法[11]。下面依次對上述三種方法進行闡述。

(1)Joint方法是將文本及其時間信息作為實驗數(shù)據(jù)來進行主題建模,探究主題在時間上的演化趨勢。Topic Over Time(簡稱TOT)模型是這種方法的代表模型[12]。

(2)后離散分析法是對整個文本數(shù)據(jù)進行建模,得到主題分布之后,確定LDA模型的參數(shù),讀取文本的時間信息并劃分時間窗口,將主題離散到各個時間窗口上,再根據(jù)主題強度進行主題演化趨勢分析。主題強度是判斷主題是否熱門的關(guān)鍵性指標,主題強度計算公式為:

(1)

表示主題k在時間窗口t上的主題強度,Dt表示時間窗口t上的文檔數(shù)目, 表示文檔d中主題k的后驗概率分布。通過公式計算出主題k在不同時間窗口t上的主題強度,并依次畫出各個主題隨時間演化的折線圖,即可分析主題在時間上的演化趨勢。

另一關(guān)鍵性指標是主題閾值,在計算出各個主題的主題強度之后,我們需要設(shè)定一個主題閾值來選取熱門主題進行分析,高于主題強度閾值的主題即可被確定為熱點主題[13]。主題閾值的計算公式為:

(2)

K表示主題數(shù)目,D表示文檔的個數(shù),T表示主題強度閾值,其他符號含義與式(1)相同。

(3)先離散分析是先將文本數(shù)據(jù)離散到各個時間窗口上,再分別對各個時間窗口上的文本進行LDA主題建模,由于存在主題不對齊的問題,所以要利用主題相似度等方法,對各時間窗口上的主題進行關(guān)聯(lián)對齊,進而實現(xiàn)主題在時間上的演化。

2? 實驗過程

本文采用LDA模型對教育技術(shù)學(xué)領(lǐng)域的期刊文獻進行主題挖掘及演化趨勢研究,研究流程如圖3所示。

2.1? 數(shù)據(jù)采集及預(yù)處理

本文以中國知網(wǎng)數(shù)據(jù)庫為數(shù)據(jù)來源,以教育技術(shù)學(xué)領(lǐng)域的八種核心期刊為研究對象,期刊來源如圖4所示,抽取上述期刊于2012—2021年間刊載的文獻共12 847篇,剔除會議通知、摘要缺失等無關(guān)文獻后,得到12 240篇。

關(guān)鵬等[12]發(fā)現(xiàn)利用摘要構(gòu)建語料庫進行LDA主題建模時,其生成的結(jié)果比關(guān)鍵詞更具代表性。因此,提取文獻的時間、摘要作為LDA模型的實驗語料,如表2所示,并以年為單位劃分為10個時間窗口并存檔,如表3所示。

jieba分詞工具是目前研究人員應(yīng)用較為廣泛的一種Python中文分詞組件,并且支持自定義詞典以及過濾停用詞。因此,本文采用jieba分詞工具對實驗語料進行分詞和去除停用詞,獲得所需語料庫。

2.2? LDA建模

采用Python中的Scikit-learn庫進行主題建模,采用主題困惑度[14]來確定最佳主題數(shù)目,主題困惑度是衡量主題模型好壞的指標,主題困惑度越低,模型泛化能力越好。主題困惑度計算代碼如圖5所示,代碼運行結(jié)果如圖6所示。由圖6可知,當主題數(shù)目為26時,主題困惑度較小,且逐漸趨向穩(wěn)定,因此可設(shè)定最優(yōu)主題數(shù)目K=26。LDA模型運行后會輸出兩個分布文件,分別是文檔-主題分布和主題-主題詞分布,生成文檔-主題分布的代碼如圖7所示,生成主題-主題詞分布的代碼如圖8所示。根據(jù)模型生成的主題-主題詞分布文件,取每個主題下前10個主題詞作為主題的代表詞,并結(jié)合專業(yè)知識對每個主題的內(nèi)容進行標注,結(jié)果如表4所示。

2.3? 熱點主題識別

通過第二章中的式(1)和式(2),我們可以計算出這26個主題在整個文本集上面的主題強度及主題閾值,具體的結(jié)果如圖9所示。

其中,Topic 1、Topic 6、Topic 8、Topic 9、Topic 11、Topic 16、Topic 20、Topic 24均高于主題強度閾值,被確定為熱點主題,即在線學(xué)習(xí)、教育人工智能、教師教育體系、在線教育、教學(xué)設(shè)計、協(xié)作學(xué)習(xí)、網(wǎng)絡(luò)學(xué)習(xí)、高等教育課程體系。

2.4? 主題演化趨勢分析

基于LDA模型的主題演化主要有三種方法,根據(jù)研究內(nèi)容,本文選取后離散分析對主題進行演化趨勢分析,將26個主題分散到10個時間窗口上面,根據(jù)模型生成的文檔-主題概率分布計算主題各個時間窗口上的主題強度,并用python畫出主題強度隨時間演化的折線圖,如圖10所示。

由于主題數(shù)較多,在同一個圖里面呈現(xiàn)出來顯得比較混亂,難以發(fā)現(xiàn)各個主題的演化趨勢,故根據(jù)主題演化曲線圖,將具有相同演化趨勢的主題進行分組,把26個主題分為4組,分別為上升型、下降型和曲折型,并依次畫圖進行闡述。

2.4.1? 上升型

圖11展示了近十年間呈上升趨勢的主題,主要有在線學(xué)習(xí)、慕課、教育人工智能、計算思維、在線教育、教學(xué)設(shè)計、協(xié)作學(xué)習(xí)、教學(xué)評價、教師專業(yè)發(fā)展、教育信息化。

2.4.2? 下降型

圖12展示了近十年間呈下降趨勢的主題,主要有遠程教育、信息化教學(xué)、網(wǎng)絡(luò)學(xué)習(xí)、多媒體學(xué)習(xí)以及智慧學(xué)習(xí)環(huán)境。

2.4.3? 曲折型

圖13展示了近十年間呈曲折趨勢的主題,主要有泛在學(xué)習(xí)、終身學(xué)習(xí)、智慧教室、教育游戲、個性化教學(xué)、知識建構(gòu)、高等教育課程體系、教學(xué)模式、教師教育體系、翻轉(zhuǎn)課堂以及教育公平。

3? 結(jié)? 論

本文采用LDA主題模型,對教育技術(shù)學(xué)領(lǐng)域2012—2021年間的核心期刊文獻進行主題挖掘和演化趨勢分析,得到了教育技術(shù)學(xué)領(lǐng)域2012—2021年間的26個研究主題,如在線學(xué)習(xí)、泛在學(xué)習(xí)、慕課等;通過設(shè)定主題閾值來進行熱點主題識別,確定了在線學(xué)習(xí)、教育人工智能、教師教育體系、在線教育、教學(xué)設(shè)計、協(xié)作學(xué)習(xí)、網(wǎng)絡(luò)學(xué)習(xí)、高等教育課程體系為教育技術(shù)學(xué)領(lǐng)域10年來的熱點主題;在主題演化趨勢分析上,運用后離散分析法,對26個研究主題進行演化趨勢分析,確定了上升型、下降型和曲折型3種演化趨勢。其中,上升型主題有在線學(xué)習(xí)、慕課、教育人工智能、計算思維、在線教育、教學(xué)設(shè)計、協(xié)作學(xué)習(xí)、教學(xué)評價、教師專業(yè)發(fā)展和教育信息化,下降型主題有遠程教育、信息化教學(xué)、網(wǎng)絡(luò)學(xué)習(xí)、多媒體教學(xué)以及智慧學(xué)習(xí)環(huán)境,曲折型主題有泛在學(xué)習(xí)、終身學(xué)習(xí)、智慧教室、教育游戲、個性化教學(xué)、知識建構(gòu)、高等教育課程體系、教學(xué)模式、教師教育體系、翻轉(zhuǎn)課堂以及教育公平。

本研究將文本挖掘中的LDA主題模型引入到教育技術(shù)學(xué)領(lǐng)域中,對核心期刊進行主題挖掘,屬于應(yīng)用創(chuàng)新;研究結(jié)果證明,這種方法對于教育技術(shù)學(xué)領(lǐng)域內(nèi)研究的主題分析是有效的,希望能對后續(xù)研究者提供一些借鑒和建議。

參考文獻:

[1] 譚春輝,熊夢媛.基于LDA模型的國內(nèi)外數(shù)據(jù)挖掘研究熱點主題演化對比分析 [J].情報科學(xué),2021,39(4):174-185.

[2] 黃瓊珍.2000—2013年教育信息資源研究的熱點領(lǐng)域和前沿主題分析——基于八種教育技術(shù)學(xué)期刊刊載文獻關(guān)鍵詞共詞分析視角 [J].電化教育研究,2014,35(8):17-24.

[3] 劉勝男,張細呈,徐曉雄.近五年我國教育技術(shù)領(lǐng)域研究熱點及趨勢——基于國內(nèi)八種教育技術(shù)類核心期刊的文獻分析 [J].寧波大學(xué)學(xué)報:教育科學(xué)版,2016,38(1):73-77.

[4] 趙呈領(lǐng),阮玉嬌,梁云真.21世紀以來我國教育技術(shù)學(xué)研究的熱點和趨勢 [J].現(xiàn)代教育技術(shù),2017,27(3):49-55.

[5] 陳巧云,李藝.中國教育技術(shù)學(xué)三十年研究熱點與趨勢——基于共詞分析和文獻計量方法 [J].開放教育研究,2013,19(5):87-95.

[6] 楊麗霞.我國教育技術(shù)學(xué)研究生學(xué)位論文的研究方向與研究熱點 [J].現(xiàn)代教育技術(shù),2007(9):41-45+58.

[7] 田林,武濱,陳嬋.國際教育技術(shù)近十年研究熱點和趨勢分析——基于共詞分析法 [J].現(xiàn)代教育技術(shù),2018,28(2):26-32.

[8] 吳查科,王樹義.基于LDA的國內(nèi)圖書館學(xué)研究主題發(fā)現(xiàn)及演化研究 [J].新世紀圖書館,2019(7):90-96.

[9] BLEI D M,NG A Y,JORDAN M I. Latent dirichlet allocation [J].The Journal of Machine Learning Research,2003,3:993–1022.

[10] GRIFFITHS T L,STEYVERS M. Finding scientific topics [J].Proc Natl Acad Sci U S A,2004:5228-5235.

[11] 單斌,李芳.基于LDA話題演化研究方法綜述 [J].中文信息學(xué)報,2010,24(6):43-49+68.

[12] 關(guān)鵬,王曰芬,傅柱.不同語料下基于LDA主題模型的科學(xué)文獻主題抽取效果分析[J].圖書情報工作,2016,60(2):112-121.

[13] WANG X,MCCALLUM A. Topic over time:Anon-mark-ov continuous-time model of topical trends [C]/Proceedings of the 12th ACMSIGKDD International Conference on Knowledge Discovery and Data Mining.Philadelphia:ACM,2006:424-433.

[14] ARUN R,SURESH V,MADHAVAN C E V,et al. On finding the natural number of topics with latent dirichlet allocation:some observations [C]//PAKDD'10:Proceedings of the 14th Pacific-Asia conference on Advances in Knowledge Discovery and Data Mining.Hyderabad:Springer-Verlag,2010:391-402.

作者簡介:陶勝陽(1998—),男,漢族,湖北黃岡人,碩士研究生,研究方向:教育大數(shù)據(jù);許新華(1968—),男,漢族,湖北孝感人,教授,研究方向:教育大數(shù)據(jù)、學(xué)習(xí)/教學(xué)模式研究、課程與教學(xué)論、計算機科學(xué)與技術(shù);余亞烽(1995—),女,漢族,湖北黃石人,碩士研究生,研究方向:教育大數(shù)據(jù);葉伊(1997—),女,漢族,湖北武漢人,碩士研究生,研究方向:教育大數(shù)據(jù);陳蘇娜(1999—),女,漢族,湖北十堰人,碩士研究生,研究方向:教育大數(shù)據(jù)。

收稿日期:2022-11-05

基金項目:湖北師范大學(xué)2022年度研究生科研創(chuàng)新項目(20220550)

猜你喜歡
教育技術(shù)學(xué)
教育技術(shù)學(xué)專業(yè)在偏遠地區(qū)的發(fā)展現(xiàn)狀及對策研究
未來英才(2016年11期)2017-02-17 15:01:06
地方本科院校教育技術(shù)學(xué)專業(yè)畢業(yè)生就業(yè)情況調(diào)查研究
網(wǎng)絡(luò)平臺支持《教育技術(shù)學(xué)》公共課實驗教學(xué)模式構(gòu)建
教育技術(shù)學(xué)本科生就業(yè)問題調(diào)查研究
成才之路(2016年28期)2016-10-31 18:19:34
基于教育技術(shù)學(xué)的教學(xué)APP現(xiàn)狀及其發(fā)展
教育技術(shù)學(xué)視野下的未來課堂研究
考試周刊(2016年74期)2016-10-08 18:19:20
國內(nèi)教育技術(shù)學(xué)核心網(wǎng)站測定實證研究
南國農(nóng)先生電化教育理論中系統(tǒng)思想研究
教育技術(shù)學(xué)歷史研究方法與學(xué)科發(fā)展的多視角分析
提高大學(xué)生就業(yè)能力的工科院校教育技術(shù)學(xué)專業(yè)人才培養(yǎng)模式研究
临湘市| 康马县| 广饶县| 龙山县| 青冈县| 庆城县| 花垣县| 共和县| 漳平市| 武穴市| 屏山县| 特克斯县| 汉川市| 沧源| 文安县| 彰武县| 宁明县| 隆尧县| 嘉祥县| 吉水县| 沙坪坝区| 霍城县| 康定县| 湖南省| 海伦市| 开远市| 宁化县| 汪清县| 大厂| 日照市| 达尔| 利辛县| 丹凤县| 红安县| 察雅县| 罗定市| 右玉县| 长宁区| 肇州县| 垣曲县| 临漳县|