国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本挖掘的教學(xué)設(shè)計(jì)能力需求研究

2019-12-30 09:37郭杰譽(yù)
中國教育信息化·高教職教 2019年12期
關(guān)鍵詞:文本挖掘教學(xué)設(shè)計(jì)

郭杰譽(yù)

摘? ?要:教育改革、在線教育、STEM教育的不斷發(fā)展,對(duì)教育工作者的教學(xué)設(shè)計(jì)能力提出了新的要求,如何識(shí)別這些要求,成為教學(xué)設(shè)計(jì)領(lǐng)域不可忽視的問題。該研究從市場(chǎng)真實(shí)數(shù)據(jù)入手,采用文本挖掘技術(shù)分析教學(xué)設(shè)計(jì)能力需求,包括:根據(jù)現(xiàn)有研究提出教學(xué)設(shè)計(jì)能力分析框架;使用爬蟲技術(shù)獲取北上廣深一線城市與“教學(xué)設(shè)計(jì)”相關(guān)的崗位數(shù)據(jù),進(jìn)行分組、分詞等文本預(yù)處理,并使用分類器驗(yàn)證分類合理;依據(jù)教學(xué)設(shè)計(jì)分析能力框架和分詞結(jié)果構(gòu)建教學(xué)設(shè)計(jì)能力指標(biāo)體系與詞袋模型;建立能力分析雷達(dá)圖,呈現(xiàn)每類崗位能力需求的具體情況;并根據(jù)研究結(jié)果提出提供靈活的課程體系以滿足教學(xué)設(shè)計(jì)能力需求的模塊組合、豐富前沿領(lǐng)域的教學(xué)實(shí)踐以培養(yǎng)實(shí)戰(zhàn)能力等建議。

關(guān)鍵詞:文本挖掘;教學(xué)設(shè)計(jì);能力指標(biāo);詞袋模型

中圖分類號(hào):G420 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2019)23-0067-07

一、引言

杜華分析1982-2012年間與“教學(xué)設(shè)計(jì)”相關(guān)的國內(nèi)外文獻(xiàn),指出國內(nèi)教學(xué)設(shè)計(jì)在應(yīng)用上僅限于學(xué)校范疇。[1]然而,教學(xué)設(shè)計(jì)的實(shí)際需求并不僅限于學(xué)校范疇,不論是一直存在的企業(yè)培訓(xùn)領(lǐng)域,還是已興起的在線教育、STEM教育領(lǐng)域,都體現(xiàn)出對(duì)教學(xué)設(shè)計(jì)的強(qiáng)烈需求,本研究使用的數(shù)千條與“教學(xué)設(shè)計(jì)”相關(guān)的崗位信息就是最有力的證據(jù)。本文以這些崗位信息為研究對(duì)象,綜合應(yīng)用教學(xué)設(shè)計(jì)能力和文本挖掘技術(shù)兩大領(lǐng)域的理論知識(shí),挖掘當(dāng)下校外范疇的教學(xué)設(shè)計(jì)能力需求,對(duì)相關(guān)領(lǐng)域的學(xué)術(shù)研究及人才培養(yǎng)具有一定的指導(dǎo)意義。

二、理論依據(jù)與研究框架

1.教學(xué)設(shè)計(jì)能力

教學(xué)設(shè)計(jì)是連接教與學(xué)的理論與教學(xué)實(shí)踐的橋梁學(xué)科,試圖運(yùn)用系統(tǒng)方法尋找解決教學(xué)問題的最佳方案;[2]教學(xué)設(shè)計(jì)是一個(gè)系統(tǒng)過程,即把教與學(xué)的原理轉(zhuǎn)化到教學(xué)材料、教學(xué)計(jì)劃、教學(xué)過程等計(jì)劃方案中的過程。[3]上述兩個(gè)定義反映出教學(xué)設(shè)計(jì)的功能和宏觀研究對(duì)象,即連接教與學(xué)的理論和教學(xué)實(shí)踐的橋梁功能,涉及教與學(xué)理論、系統(tǒng)方法、計(jì)劃與過程等研究對(duì)象。為合理運(yùn)用各種理論、經(jīng)驗(yàn),有效實(shí)現(xiàn)教學(xué)設(shè)計(jì)的功能,自然對(duì)相關(guān)從業(yè)者的教學(xué)設(shè)計(jì)能力提出了要求。

能力是完成一項(xiàng)目標(biāo)或者任務(wù)所體現(xiàn)出來的綜合素質(zhì),從職業(yè)能力開發(fā)視角看,能力是知識(shí)、技能和態(tài)度與具體的職位或工作情境的結(jié)合。[4]因此,本研究認(rèn)為教學(xué)設(shè)計(jì)能力是相關(guān)從業(yè)者能夠依據(jù)相關(guān)理論或經(jīng)驗(yàn),分析教學(xué)問題、組織教學(xué)資源、設(shè)計(jì)教學(xué)方案并進(jìn)行實(shí)施與改進(jìn),最終解決教學(xué)問題所具備的知識(shí)、技能和態(tài)度的總和。

具體來說,知識(shí)方面,不僅包括學(xué)科專業(yè)知識(shí),也包括教學(xué)理論、方法等內(nèi)容;技能方面,按照教學(xué)設(shè)計(jì)的流程可以分為分析能力、設(shè)計(jì)能力和評(píng)價(jià)能力,但從操作層面看,會(huì)涉及辦公軟件的使用、圖形處理、編程等具體技能;[5]態(tài)度方面,劉美鳳等將教學(xué)設(shè)計(jì)能力的態(tài)度方面分為重要性認(rèn)識(shí)、應(yīng)用意識(shí)、評(píng)價(jià)與反思意識(shí)以及終身學(xué)習(xí)意識(shí)四個(gè)維度,而態(tài)度包含認(rèn)知、情感和行為傾向三種成分,上述四個(gè)維度僅闡述了態(tài)度的認(rèn)知成分和行為傾向成分,因此需要添加情感成分(如喜歡、熱愛等)。[5]綜上,本研究依據(jù)的教學(xué)設(shè)計(jì)能力分析框架如圖1所示,后續(xù)將結(jié)合所使用的文本信息,依據(jù)知識(shí)、技能和態(tài)度三個(gè)維度及其子維度,提出具體的詞匯分類指標(biāo)。

2.文本挖掘技術(shù)

文本挖掘也稱文本數(shù)據(jù)挖掘,其主要目的是采用數(shù)據(jù)挖掘技術(shù),從非結(jié)構(gòu)化或半結(jié)構(gòu)化的語言文本中提取出潛在有價(jià)值的、新穎的、可被理解的、重要的模式和知識(shí)。[6]文本挖掘的一般過程如2圖所示。本研究在文本分類驗(yàn)證研究、根據(jù)詞袋模型建立能力分析雷達(dá)圖的過程中均不同程度地運(yùn)用到圖2所示的研究步驟,不同之處主要體現(xiàn)在特定處理模式環(huán)節(jié)。

3.研究框架

本研究的框架如圖3所示。從網(wǎng)頁獲取的1450條職位信息作為文檔集,首先依據(jù)職位名稱分成三類,分別是教師/講師類、研發(fā)設(shè)計(jì)類以及職能類。為了驗(yàn)證分類是否合理,分別使用kNN、樸素貝葉斯、TF-IDF·樸素貝葉斯三種分類器進(jìn)行檢驗(yàn),最終發(fā)現(xiàn)使用了樸素貝葉斯原理的分類器錯(cuò)誤率穩(wěn)定,純樸素貝葉斯分類器的錯(cuò)誤率最低,說明上述分類的每類文本呈現(xiàn)一定特征,分類可取。

接著,依據(jù)上述教學(xué)設(shè)計(jì)能力分析框架(見圖1),并結(jié)合具體高頻詞匯,提出知識(shí)儲(chǔ)備、設(shè)計(jì)分析能力、教學(xué)能力、溝通能力、管理能力、辦公軟件能力、計(jì)算機(jī)語言能力、圖形處理與設(shè)計(jì)、情感態(tài)度與個(gè)人素質(zhì)等9個(gè)指標(biāo),每個(gè)指標(biāo)由若干詞匯構(gòu)成的詞袋模型表示。最后依據(jù)“能力指標(biāo)-詞袋模型”挖掘三類職位在9個(gè)指標(biāo)上的分布情況,并進(jìn)行解讀。

三、研究?jī)?nèi)容

研究?jī)?nèi)容具體包括文本預(yù)處理、分類器驗(yàn)證、建立能力指標(biāo)及詞袋模型、建立能力分析雷達(dá)圖等部分。

1.文本預(yù)處理

文本預(yù)處理包括數(shù)據(jù)準(zhǔn)備、文本清洗、分詞、特征選擇等過程。本研究使用的樸素貝葉斯分類器、TF-IDF·樸素貝葉斯分類器、kNN分類器,以及能力指標(biāo)-詞袋模型和能力分析雷達(dá)圖的建立均基于相同的文本獲取與預(yù)處理過程,現(xiàn)闡述如下。

(1)文本獲取與異常值處理

本研究在智聯(lián)招聘平臺(tái)上,以“教學(xué)設(shè)計(jì)”為關(guān)鍵詞,搜索得到北京、上海、廣州、深圳四個(gè)城市的崗位信息,借助Python爬蟲代碼將崗位信息獲取下來,每條數(shù)據(jù)包括崗位名稱、崗位職責(zé)/職位描述,以及該崗位的URL鏈接等信息。

異常值包括缺失值和重復(fù)值。由于部分網(wǎng)頁的結(jié)構(gòu)略有不同,直接獲取的數(shù)據(jù)中有30條左右的崗位職責(zé)/職位描述信息缺失,考慮到空缺信息量不大,且均是重要信息,就根據(jù)URL鏈接定位到具體的網(wǎng)頁,重新獲取相關(guān)信息。重復(fù)的數(shù)據(jù)有兩類,一類是內(nèi)容一樣,但URL鏈接不一樣,研究發(fā)現(xiàn)是同一家公司或機(jī)構(gòu)連續(xù)發(fā)布了幾條相同的招聘信息;另一類是內(nèi)容和URL均一樣,這可能是由于網(wǎng)頁更新引起的,這兩種情況均去掉重復(fù)的,保留一條,最終獲得1450條數(shù)據(jù),其中崗位職責(zé)/職位描述等文本信息是本文的重點(diǎn)研究對(duì)象。

(2)文本清洗

(3)自定義詞典與分詞

本研究使用jieba分詞模塊,該分詞算法結(jié)合了基于規(guī)則和基于統(tǒng)計(jì)的分詞方法,同時(shí)還可以添加自定義詞典,適用性強(qiáng)。[7]研究特定領(lǐng)域的信息時(shí),將該領(lǐng)域的專業(yè)詞匯識(shí)別出來至關(guān)重要,為了達(dá)到較好的分詞效果,需要建立自定義詞典,如將“教學(xué)設(shè)計(jì)”、“教育心理學(xué)”、“課程開發(fā)”、“教師資格證”等體現(xiàn)領(lǐng)域特色的詞匯加入自定義詞典,分詞結(jié)果就會(huì)呈現(xiàn)出這些詞匯,避免詞匯意義過度稀釋。

(4)停用詞表與特征選擇

停用詞表包含眾多語氣助詞、虛詞、特殊符號(hào),以及眾多無意義的詞匯,如“的”、“用于”、“至于”等,使用停用詞表可以在分詞的基礎(chǔ)上去掉這些無意義的詞匯。同時(shí),多次觀察分詞結(jié)果,可將更多與研究主題無關(guān)的詞匯添加到停用詞表中,如“薪資”、“周末”、“地點(diǎn)”等,以利于特征詞匯呈現(xiàn),減小特征向量的長度。

最終分詞后得到8188個(gè)不同詞匯,這些詞匯構(gòu)成詞匯列表V=[v1,v2,…,v8188],同時(shí)用一個(gè)長度為1450的列表CL存儲(chǔ)各文檔的類型標(biāo)簽,若三類職位分別標(biāo)注為A、B、C,則CL[ci] (ci∈(A,B,C),i=1,2,…,1450)。

2.使用分類算法檢驗(yàn)分類可行性

為了更有針對(duì)性地分析能力需求,根據(jù)職位名稱將與教學(xué)設(shè)計(jì)相關(guān)的崗位信息分成了“教師/講師類”、“研發(fā)設(shè)計(jì)類”以及“職能類”三種,為了驗(yàn)證這種類型是否合理,使用監(jiān)督型分類器進(jìn)行驗(yàn)證,即通過學(xué)習(xí)訓(xùn)練集中的數(shù)據(jù),建立一定模型,再用該模型對(duì)測(cè)試集中的數(shù)據(jù)進(jìn)行分類,如果錯(cuò)誤率較低且穩(wěn)定,就說明各類型的文檔呈現(xiàn)一定特征,分類可取,各類型的具體特征有挖掘的價(jià)值。筆者試驗(yàn)了多種分類器,最終發(fā)現(xiàn)使用了貝葉斯原理的分類器滿足要求。

對(duì)于第i個(gè)文檔di,根據(jù)詞匯列表V統(tǒng)計(jì)該文檔中出現(xiàn)相應(yīng)詞匯的出現(xiàn)次數(shù),存入一個(gè)新的列表Wi,作為該文檔的特征向量,即Wi=[wi,k] (k=1,2,…,8188),稱Wi為文檔di的基于詞匯頻數(shù)的特征向量。1450個(gè)文檔構(gòu)成一個(gè)1450×8188的矩陣,用M0表示,即M0=[Wi]=[[wi,k]] (i=1,2,…,1450;k=1,2,…,8188)。分類器將矩陣M0的數(shù)據(jù)按一定比例隨機(jī)分成訓(xùn)練集和測(cè)試集,并結(jié)合類標(biāo)簽列表CL[ci]建立相應(yīng)模型。

(1)kNN分類器

k-近鄰算法(kNN)采用測(cè)量不同特征值之間的距離方法進(jìn)行分類,即計(jì)算出待分類數(shù)據(jù)與每個(gè)訓(xùn)練數(shù)據(jù)的距離,從中選出k個(gè)最小的距離所對(duì)應(yīng)的樣本數(shù)據(jù),統(tǒng)計(jì)這k個(gè)樣本數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類,就作為待分類數(shù)據(jù)的分類,本研究有三個(gè)類別,所以k取4。[8]

數(shù)據(jù)之間的距離可以采用兩個(gè)向量的余弦相似度表示,對(duì)于文檔di和dj,其詞向量是Wi=[wi,k] (k=1,2,…,8188),Wj=[wj,k]? (k=1,2,…,8188),其余弦相似度公式如式(1)所示:

Sim(di,dj)==(1)

其中Wi·Wj表示兩個(gè)向量的點(diǎn)乘,|Wi|·|Wj|表示向量的模的乘積。余弦相似度越高,即Sim(di,dj)的值越接近1,表示兩個(gè)向量更有可能屬于同一類。

歐式距離公式如式(2)所示:

dis(di,dj)=|Wi-Wj|=(2)

其中Wi-Wj是向量對(duì)應(yīng)項(xiàng)相減的結(jié)果,也是一個(gè)向量。本研究在矩陣M0的基礎(chǔ)上分別使用上述兩種距離公式進(jìn)行了kNN分類驗(yàn)證,理論上兩種kNN分類器的效果等價(jià)。

(2)樸素貝葉斯分類器

樸素貝葉斯分類器是基于條件概率的分類方法,該算法假設(shè)各特征之間相互獨(dú)立。根據(jù)貝葉斯準(zhǔn)則,可以交換條件概率的條件和結(jié)論,從而達(dá)到用先驗(yàn)概率和條件概率計(jì)算后驗(yàn)概率的目的。對(duì)于待分類文檔W,其屬于類型ci的后驗(yàn)概率如式(3)所示:

P(ci│W)=(3)

其中P(ci)是類型為ci的先驗(yàn)概率,P(W│ci)是類型ci發(fā)生的條件下,文檔W發(fā)生的條件概率,根據(jù)這個(gè)公式計(jì)算出文檔W屬于各個(gè)類型的后驗(yàn)概率,取后驗(yàn)概率最大的類型為判斷結(jié)果。在實(shí)際應(yīng)用中,用訓(xùn)練集中的數(shù)據(jù)訓(xùn)練出每個(gè)條件概率P(W│ci)和先驗(yàn)概率P(ci),據(jù)此再對(duì)訓(xùn)練集中的數(shù)據(jù)進(jìn)行分類。

(3)TF-IDF·樸素貝葉斯分類器

為了尋找更理想的分類器,筆者將TF-IDF理論與樸素貝葉斯理論結(jié)合起來構(gòu)建了新的分類器,與上述純樸素貝葉斯算法的不同之處在于,每個(gè)文檔的特征向量采用TF-IDF表示,而不是詞匯頻數(shù)。其中,TF(Term Frequency,特征項(xiàng)詞頻)是詞語在文檔中的詞頻,即詞匯在某一文檔中出現(xiàn)的頻數(shù)與該文檔總詞匯數(shù)的比值,TF的作用主要是抵消文本長度不一(過長或過短)帶來的影響,使詞匯在同等條件下進(jìn)行對(duì)比。IDF(Inverse Document Frequency,逆文檔頻率)表示為文檔總數(shù)目與該詞匯出現(xiàn)的文檔數(shù)目的比值取對(duì)數(shù)。[9]IDF的主要思想是,如果一個(gè)詞匯在一個(gè)文本中出現(xiàn)頻率很高,而在其他文本中出現(xiàn)頻率很低,該詞匯就具有較高的類別區(qū)分能力,應(yīng)給予更高權(quán)重。[10]

對(duì)于文檔di的第k個(gè)詞匯vk,其特征值wdi,k用TF-IDF計(jì)算的公式如式(4)所示:

wdi,k=tfdi,k·log

=·log

(4)

其中wdi,k是特征項(xiàng)的權(quán)重,tfdi,k=是詞匯vk在文本di中出現(xiàn)的頻率,即文檔di中該詞匯的頻數(shù)wi,k與該文檔所有詞匯數(shù)的比值,N=1450是總文檔數(shù),nk是包含詞匯vk的文檔數(shù)。由wdi,k(k=1,2,…,8188)構(gòu)成新的特征向量Wdi=[Wdi,k ](k=1,2,…,8188),進(jìn)而形成新的特征矩陣M1=[Wdi]=[[wdi,k]](i=1,2,…,1450;j=1,2,…,8188),在M1的基礎(chǔ)上繼續(xù)使用樸素貝葉斯分類算法即可。

3.建立能力指標(biāo)體系及詞袋模型

(1)建立教學(xué)設(shè)計(jì)能力指標(biāo)體系

從教學(xué)設(shè)計(jì)能力的知識(shí)、態(tài)度和情感三個(gè)一級(jí)維度,以及七個(gè)二級(jí)維度(見圖1)出發(fā)考察詞匯列表V=[v1,v2,…,v8188]中的詞匯,提煉出9個(gè)能力指標(biāo)——知識(shí)儲(chǔ)備、設(shè)計(jì)分析能力、教學(xué)能力、溝通能力、辦公類軟件能力、計(jì)算機(jī)語言能力、圖形處理與設(shè)計(jì)、管理能力、情感態(tài)度與個(gè)人素質(zhì)。9個(gè)指標(biāo)的分布如圖4所示。

對(duì)比圖1的能力分析框架,能力指標(biāo)體系對(duì)維度1(知識(shí))和維度3(態(tài)度)分別設(shè)置了一個(gè)指標(biāo),而維度2(技能)根據(jù)其子維度衍生出了5個(gè)指標(biāo)。如此設(shè)置主要有以下三點(diǎn)考慮:①知識(shí)維度包含學(xué)科專業(yè)知識(shí)和教學(xué)理論方法兩個(gè)子維度,理想情況下每個(gè)子維度就可對(duì)應(yīng)一個(gè)指標(biāo),但實(shí)際上屬于“教學(xué)理論方法”的詞匯偏少,因此沒有必要單獨(dú)設(shè)置指標(biāo),可以直接從一級(jí)維度引申出指標(biāo)1“知識(shí)儲(chǔ)備”;②分詞損失了語境信息,漢語詞匯本身又可能具備多種詞性,這使對(duì)詞匯的從屬判斷有很強(qiáng)的主觀性,如態(tài)度維度下的“認(rèn)知”和“行為傾向”類詞匯就很難選擇,相對(duì)而言,反映態(tài)度的詞匯很容易甄別出來,且數(shù)量可觀,因此就用指標(biāo)9“情感態(tài)度與個(gè)人素質(zhì)”來反映態(tài)度維度;③對(duì)于職位信息來說,職業(yè)技能是重點(diǎn)考察對(duì)象,因此這方面的詞匯確實(shí)更加豐富,類型也比較明顯,因此依次根據(jù)“專業(yè)技能”衍生出指標(biāo)2“分析設(shè)計(jì)能力”、指標(biāo)3“教學(xué)能力”、指標(biāo)4“溝通能力”和指標(biāo)5“管理能力”,根據(jù)“計(jì)算機(jī)技能”衍生出指標(biāo)6“辦公軟件能力”、指標(biāo)7“計(jì)算機(jī)語言能力”以及指標(biāo)8“圖形處理與設(shè)計(jì)”。

(2)建立能力指標(biāo)的詞袋模型

詞袋模型不考慮文本的詞序、語言、句法等信息,而將文本簡(jiǎn)單地看成詞匯的集合,且每個(gè)詞匯相互獨(dú)立,這一模型在文本挖掘領(lǐng)域廣泛使用。[11]詞匯列表中有眾多低頻詞匯是沒有必要考察的,因此本研究將詞匯按照詞匯總頻數(shù)排序后,從排名10%以內(nèi)的高頻詞匯,即前818個(gè)詞匯中選取適合的詞匯構(gòu)建能力指標(biāo)的詞袋模型,詞袋模型展示如表1所示(因篇幅所限,有的指標(biāo)只呈現(xiàn)部分詞匯)。為了可視化職位能力在不同指標(biāo)上的分布情況,需要建立能力指標(biāo)向量,能力指標(biāo)向量就是基于表1所述詞袋模型,對(duì)各類文檔的詞匯進(jìn)行統(tǒng)計(jì)和一定計(jì)算的結(jié)果。

4.三種指標(biāo)向量與雷達(dá)圖設(shè)計(jì)

(1)計(jì)算各類文檔的三種能力指標(biāo)向量

用雷達(dá)圖呈現(xiàn)每類職位在各能力指標(biāo)上的分布情況,需要計(jì)算每類職位在各能力指標(biāo)上的特征值,9個(gè)能力指標(biāo)對(duì)應(yīng)9個(gè)特征值,9個(gè)特征值就構(gòu)成該類職位的指標(biāo)向量。基于上述能力指標(biāo)的詞袋模型,本研究提出了三種指標(biāo)向量的計(jì)算方法,以ci類文檔為例:

①基于詞頻數(shù)的指標(biāo)向量R0

ci=[r0,1

ci,r0,2

ci,…,r0,9

ci]

基于詞頻數(shù),即各指標(biāo)的特征值是相應(yīng)詞袋中的詞匯在該類文檔中出現(xiàn)的總次數(shù)。比如對(duì)于指標(biāo)1,其特征值r0,1

ci是其相應(yīng)詞袋模型中“專業(yè)知識(shí)”、“師范類”等詞匯在ci類文檔出現(xiàn)的總次數(shù),同理得到r0,2

ci,…,r0,9

ci。

②基于詞匯權(quán)重的指標(biāo)向量R1

ci=[r1,1

ci,r1,2

ci,…,r1,9

ci]

對(duì)基于詞頻數(shù)的指標(biāo)向量R0

ci進(jìn)行歸一化就得到了基于詞匯權(quán)重的指標(biāo)向量R1

ci,即R1

ci=。對(duì)每個(gè)特征項(xiàng)而言,r1,1

ci=,r1,2

ci=,…,r1,9

ci=,其中Sum(R0

ci)是對(duì)R0

ci各項(xiàng)求和,因此r1,1

ci,r1,2

ci,…,r1,9

ci均是小于1的浮點(diǎn)數(shù)。

③基于平均水平的指標(biāo)向量R2

ci=[r2,1

ci,r2,2

ci,…,r2,9

ci]

在所有的職位信息中,教師/講師類文檔有681個(gè),占總文檔數(shù)的46.97%;研發(fā)設(shè)計(jì)類有380個(gè)文檔,占26.20%;職能類有389個(gè)文檔,占26.83%。由于各類文檔數(shù)量不一致,統(tǒng)計(jì)各指標(biāo)下的詞匯數(shù)量肯定有差異,為了消除文本數(shù)量引起的差異,可以將該類文檔的各指標(biāo)下的詞匯數(shù)量(R0

ci)與該類文檔數(shù)(nci)的比值作為新的指標(biāo)向量,即R2

ci=R0

ci/nci。該比值的含義是該類文檔每個(gè)指標(biāo)的平均水平。

(2)兩種能力分析雷達(dá)圖的設(shè)計(jì)

如上所述,基于詞匯權(quán)重的指標(biāo)向量R1

ci,與基于平均水平的指標(biāo)向量R2

ci都是在基于詞頻數(shù)的指標(biāo)向量R0

ci的基礎(chǔ)上建立的。能力分析雷達(dá)圖只能使用R1

ci或R2

ci進(jìn)行構(gòu)建,而不能直接使用R0

ci進(jìn)行構(gòu)建,因?yàn)镽0

ci沒有消除各類文檔數(shù)目不同帶來的影響;基于R1

ci(權(quán)重)構(gòu)建雷達(dá)圖,反映的是同類文檔9個(gè)能力指標(biāo)之間的差異;基于R2

ci(平均值)構(gòu)建的雷達(dá)圖,可反映各能力指標(biāo)下,不同類文檔之間的差異。換句話說,前者反映的是同類文檔的內(nèi)部差異,即該類文檔對(duì)各能力指標(biāo)的需求差異;而后者反映的是文檔之間的外部差異,即各類文檔對(duì)特定能力指標(biāo)的需求差異。

四、研究結(jié)果與解讀

1.分類器驗(yàn)證結(jié)果展示與解讀

分類器通過學(xué)習(xí)訓(xùn)練集中的數(shù)據(jù)建立相應(yīng)模型,然后根據(jù)模型對(duì)測(cè)試集中的數(shù)據(jù)進(jìn)行分類,理想情況下訓(xùn)練集的數(shù)據(jù)越大,訓(xùn)練的模型越準(zhǔn)確。本研究將總數(shù)據(jù)分別按照0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.2、0.3、0.4、0.5的比例隨機(jī)抽取出數(shù)據(jù)組成測(cè)試集,剩下的數(shù)據(jù)組成訓(xùn)練集,進(jìn)行測(cè)試并輸出錯(cuò)誤率。每種情況測(cè)試10次取平均值作為該情況下的錯(cuò)誤率,各分類器的錯(cuò)誤率如圖5所示。

從圖5可以看出基于歐式距離與基于余弦相似度的kNN算法效果幾乎等價(jià),這在意料之中,兩者錯(cuò)誤率均圍繞在75%上下,比使用了貝葉斯原理的算法高得多,筆者認(rèn)為產(chǎn)生這種情況的原因在于,特征項(xiàng)數(shù)目眾多(8188),并非所有特征項(xiàng)都具有很好的區(qū)分度,將每個(gè)特征項(xiàng)的差異“累加”起來的算法,誤差會(huì)比較大。若還要使用kNN算法對(duì)文本進(jìn)行分類,可以考慮采取一些聚類措施,降低特征向量的維度。本研究使用分類器的目的不是改進(jìn)分類算法,而是找到合適的分類模型證明對(duì)職位進(jìn)行的三種分類是合理的,因此不再深入闡述算法。

再觀察使用貝葉斯原理的兩種分類算法,純樸素貝葉斯分類器錯(cuò)誤率圍繞在20%左右,TF-IDF·樸素貝葉斯分類器錯(cuò)誤率維持在30%左右,使用的TF-IDF原理的分類器比純樸素貝葉斯分類器的錯(cuò)誤率稍高,根據(jù)TF-IDF的原理,筆者認(rèn)為原因在于:①本研究使用的每條數(shù)據(jù)的長度基本相同,所以使用TF的意義不大;②盡管按照職位名稱分成了三類,但其工作極可能是圍繞相同的對(duì)象展開不同方面的工作,所以職位信息中呈現(xiàn)出來的詞匯有一定的相似度,因此IDF(逆文檔頻率)的作用發(fā)揮有限,所以錯(cuò)誤率反而比純樸素貝葉斯分類器的稍高。但整體來說,這兩個(gè)分類器錯(cuò)誤率比較低且穩(wěn)定,說明分類可取,每類職位具有一定特征,具有深度挖掘的價(jià)值。

從實(shí)際的角度出發(fā),教學(xué)設(shè)計(jì)工作圍繞“教學(xué)”這個(gè)核心工作展開,也離不開技術(shù)支持以及應(yīng)運(yùn)而生的管理工作;從理論的角度出發(fā),IBSTPI國際教學(xué)設(shè)計(jì)標(biāo)準(zhǔn)最新版(2013年)將教學(xué)設(shè)計(jì)領(lǐng)域細(xì)化為教學(xué)設(shè)計(jì)專家、分析師或評(píng)估員、教學(xué)管理者以及教育技術(shù)專家四類人員參與,將該標(biāo)準(zhǔn)與本研究進(jìn)行對(duì)比,可以發(fā)現(xiàn)教師/講師類可以對(duì)應(yīng)教學(xué)設(shè)計(jì)專家,研發(fā)設(shè)計(jì)類對(duì)應(yīng)教育技術(shù)專家,職能類對(duì)應(yīng)教學(xué)管理者,而分析師或評(píng)論員的能力在三種職位中均有不同程度的體現(xiàn);[12]再結(jié)合分類器的驗(yàn)證結(jié)果,可見將與教學(xué)設(shè)計(jì)相關(guān)的職位劃分為教師/講師類、研發(fā)設(shè)計(jì)類以及職能類是合理的,這啟示我們可以從這三個(gè)角度出發(fā),理解教學(xué)設(shè)計(jì)能力所包含的能力屬性。

2.能力分析雷達(dá)圖與能力指標(biāo)解讀

(1)基于R1

ci的能力分析雷達(dá)圖

對(duì)每類職位,用R1

ci(基于權(quán)重的指標(biāo)向量)構(gòu)建的指標(biāo)矩陣結(jié)果如表2所示:

用表2生成的能力分析雷達(dá)圖如圖6所示。

從圖6可以看出,在9個(gè)能力指標(biāo)中,教師/講師類崗位對(duì)“情感態(tài)度和個(gè)人素質(zhì)”和“教學(xué)能力”的需求很突出,其次是“管理能力”、“分析設(shè)計(jì)能力”與“溝通能力”,對(duì)計(jì)算機(jī)能力的要求不高;研發(fā)設(shè)計(jì)類對(duì)“分析設(shè)計(jì)”能力的需求最突出,其次是“計(jì)算機(jī)語言能力”和“管理能力”;職能類崗位對(duì)“管理能力”的需求最為突出,其次是“分析設(shè)計(jì)能力”以及“教學(xué)能力”。

整體來看,三類崗位的“知識(shí)儲(chǔ)備”與計(jì)算機(jī)類的能力并沒有十分突出,而實(shí)際上這三種指標(biāo)是非常重要的能力,筆者認(rèn)為出現(xiàn)這種情況的原因是:①崗位招聘類的信息重點(diǎn)在于實(shí)用的技能上,“知識(shí)儲(chǔ)備”的詞匯不容易反映出來,所以整體上數(shù)量偏小,但這并不能說明知識(shí)儲(chǔ)備不重要,畢竟“實(shí)用的技能”是建立在“知識(shí)儲(chǔ)備”的基礎(chǔ)上,因此該詞袋模型有改進(jìn)的空間,可以考慮建立“知識(shí)儲(chǔ)備”與實(shí)用技能間的關(guān)聯(lián)性,進(jìn)而提高“知識(shí)儲(chǔ)備”類詞匯的表現(xiàn)力;②計(jì)算機(jī)類能力的詞袋規(guī)模相對(duì)較小,比如“辦公軟件能力”的詞袋只有“ppt、辦公軟件、office、word、excel”這5個(gè)詞匯,實(shí)際上每個(gè)詞匯出現(xiàn)的次數(shù)還是比較多的,但累加起來還是比不過詞袋中詞匯本身就多的能力指標(biāo),如指標(biāo)5“管理能力”和指標(biāo)9“情感態(tài)度與個(gè)人素質(zhì)”,但這個(gè)影響在基于R2

ci的能力分析雷達(dá)圖中已經(jīng)得到改善,詳見下述分析。

(2)基于R2

ci的能力分析雷達(dá)圖

對(duì)每類職位,用R2

ci(基于平均水平的指標(biāo)向量)構(gòu)建的指標(biāo)矩陣結(jié)果如表3所示。

用表3生成的能力分析雷達(dá)圖如圖7所示。

從圖7可以看出,在9個(gè)能力指標(biāo)中,教師/講師類排第一名的有“知識(shí)儲(chǔ)備”、“教學(xué)能力”、“溝通能力”、“情感態(tài)度與個(gè)人素質(zhì)”,這符合對(duì)教師的一般認(rèn)知;研發(fā)設(shè)計(jì)類排第一名的有“設(shè)計(jì)分析能力”、“辦公軟件能力”、“計(jì)算機(jī)語言能力”以及“圖形處理與設(shè)計(jì)能力”,其中“計(jì)算機(jī)語言能力”主要指的是編程能力,“圖形處理與設(shè)計(jì)”屬于界面設(shè)計(jì)領(lǐng)域,這反映出與教育軟件、教育應(yīng)用程序(APP)、教育動(dòng)畫與課件等教學(xué)產(chǎn)品息息相關(guān);職能類崗位的“管理能力”位列第一,可以認(rèn)為教育產(chǎn)品的開發(fā)、教學(xué)工作的展開離不開優(yōu)秀的管理能力,IBSTPI新標(biāo)準(zhǔn)把管理能力單獨(dú)設(shè)為一個(gè)領(lǐng)域,這意味著管理能力在教學(xué)設(shè)計(jì)的發(fā)展中日趨重要。[12]總之,該雷達(dá)圖的呈現(xiàn)結(jié)果是很理想的,正好反映出了各類職位能力需求的特點(diǎn)。

IBSTPI教學(xué)設(shè)計(jì)能力新標(biāo)準(zhǔn)有五個(gè)能力領(lǐng)域——“專業(yè)基礎(chǔ)領(lǐng)域”、“計(jì)劃與分析領(lǐng)域”、“設(shè)計(jì)與開發(fā)領(lǐng)域”、“評(píng)價(jià)與實(shí)施領(lǐng)域”以及“管理領(lǐng)域”,并在每個(gè)領(lǐng)域中將能力標(biāo)準(zhǔn)又分為教學(xué)設(shè)計(jì)時(shí)必須掌握的基本能力、高水平或?qū)<倚偷母呒?jí)能力,以及作為設(shè)計(jì)或教學(xué)項(xiàng)目所需掌握的管理能力,這三級(jí)能力有不同程度的交叉、滲透,這與上述研究結(jié)果有異曲同工之妙。[12]本研究提出的9個(gè)指標(biāo)雖不及IBSTPI教學(xué)設(shè)計(jì)能力新標(biāo)準(zhǔn)(包含5大領(lǐng)域、22項(xiàng)標(biāo)準(zhǔn)及105個(gè)子條目)的內(nèi)容豐富,但卻是實(shí)際應(yīng)用中有了迫切需求的具體能力,不僅不同程度地反映了各能力領(lǐng)域的要求,比起龐大的新標(biāo)準(zhǔn)體系,也具有靈活性、實(shí)用性和指導(dǎo)性。[12]整體而言,這9個(gè)能力指標(biāo)反映出當(dāng)前教學(xué)設(shè)計(jì)實(shí)踐領(lǐng)域的復(fù)雜性,一個(gè)人要全面掌握這些能力似乎比較勉強(qiáng),但可據(jù)此準(zhǔn)確定位自己的發(fā)展方向,對(duì)相關(guān)能力進(jìn)行專項(xiàng)培養(yǎng)。

五、總結(jié)與展望

本研究首先依據(jù)相關(guān)研究提出教學(xué)設(shè)計(jì)能力分析框架,再對(duì)數(shù)千條崗位信息進(jìn)行分類,并在用貝葉斯分類器證明分類合理的情況下,建立能力指標(biāo)體系和詞袋模型,深度挖掘各類崗位的能力需求,最終以雷達(dá)圖的形式進(jìn)行可視化呈現(xiàn)與解讀,為教學(xué)設(shè)計(jì)能力的研究提供一定新思路,也對(duì)相關(guān)專業(yè)的人才培養(yǎng)有一定的啟發(fā):①提供靈活的課程體系,以滿足教學(xué)設(shè)計(jì)能力需求的模塊組合。具體而言,既包括教學(xué)設(shè)計(jì)、教育心理學(xué)等培養(yǎng)教學(xué)能力的基礎(chǔ)專業(yè)課程,也包括將相關(guān)的信息技術(shù)運(yùn)用到教學(xué)或教學(xué)管理的應(yīng)用型課程,以及與教育管理相關(guān)的課程。這些課程又可以劃分為必修課程和選修課程,學(xué)生在學(xué)習(xí)基礎(chǔ)課程、培養(yǎng)基本的教學(xué)素質(zhì)的基礎(chǔ)上,可以根據(jù)自己的興趣和特長選擇研發(fā)技術(shù)類或管理類的課程,進(jìn)一步培養(yǎng)專業(yè)素質(zhì),提高競(jìng)爭(zhēng)力。②豐富前沿領(lǐng)域的教學(xué)實(shí)踐,培養(yǎng)實(shí)戰(zhàn)能力??膳c中小學(xué)或企業(yè)合作,建立創(chuàng)客、STEM、人工智能等前沿領(lǐng)域教學(xué)項(xiàng)目,讓學(xué)生參與教案/學(xué)案設(shè)計(jì)、授課、教學(xué)產(chǎn)品研發(fā)、項(xiàng)目管理與運(yùn)營等工作,有針對(duì)性地培養(yǎng)各方面的能力。

另外,本研究也有繼續(xù)改進(jìn)的空間:①分詞技術(shù)損失了語法、語境等信息,使很多詞匯變得沒有意義,后續(xù)研究可以關(guān)注如何減弱這種損失;②關(guān)于能力指標(biāo)與詞袋模型,可以挖掘不同能力指標(biāo)之間的關(guān)聯(lián)程度,如上述“知識(shí)儲(chǔ)備”與實(shí)用技能之間的關(guān)聯(lián)性,進(jìn)而構(gòu)建更加合理的能力指標(biāo)-詞袋模型。

參考文獻(xiàn):

[1]杜華.國際教學(xué)設(shè)計(jì)研究三十年[J].開放教育研究,2013(5):79-86.

[2]Kemp Jerrold E.The instructional design process.New York,Haper and Row,1985.

[3]Patricia L.Smith,Tillman J.Ragan.Instructional Design.3rd Edition, Hoboken,John Wiley & Sons,2004.

[4]吳曉義,杜曉穎.能力概念的多維透視[J].吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2006(4):1-5.

[5]劉美鳳,康翠,董麗麗.教學(xué)設(shè)計(jì)研究:學(xué)科的視角[M].北京:北京師范大學(xué)出版社,2018:13,12.

[6]Mashechkin I. V. ,Petrovskiy M. I. ,Popov D. S. ,et al.Applying text mining methods for data loss prevention[J].Programming and Computer Software,2015, 41(1):23-30.

[7]李夢(mèng)杰,劉建國,郭強(qiáng),李仁德,湯曉雷.基于文本挖掘的互聯(lián)網(wǎng)教育課程主題發(fā)現(xiàn)與聚類研究[J].上海理工大學(xué)學(xué)報(bào),2018(3):259-266.

[8]Harrington P.著,李銳等譯.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].北京:人民郵電出版社,2013.6:15.

[9]葉雪梅,毛雪岷,夏錦春,王波.文本分類TF-IDF算法的改進(jìn)研究[J].計(jì)算機(jī)工程與應(yīng)用,2019(2):104-109,161.

[10]陳朔鷹,金鎮(zhèn)晟.基于改進(jìn)的TF-IDF算法的微博話題檢測(cè)[J].科技導(dǎo)報(bào),2016(2):282-286.

[11]袁桂霞,周先春.基于多媒體信息檢索的有監(jiān)督詞袋模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2018(9):2873-2878.

[12]方向,盛群力.IBSTPI國際教學(xué)設(shè)計(jì)能力新標(biāo)準(zhǔn)述要——教學(xué)設(shè)計(jì)師專業(yè)化發(fā)展的一種圖景[J].遠(yuǎn)程教育雜志,2015(3):82-87.

(編輯:王天鵬)

猜你喜歡
文本挖掘教學(xué)設(shè)計(jì)
《電氣工程畢業(yè)設(shè)計(jì)》 課程的教學(xué)設(shè)計(jì)
高中數(shù)學(xué)一元二次含參不等式的解法探討
“仿真物理實(shí)驗(yàn)室” 在微課制作中的應(yīng)用
翻轉(zhuǎn)課堂在高職公共英語教學(xué)中的應(yīng)用現(xiàn)狀分析及改善建議
馬克思主義基本原理概論課案例教學(xué)的幾點(diǎn)思考
慧眼識(shí)璞玉,妙手煉渾金
团风县| 隆化县| 罗田县| 晋宁县| 济源市| 岳西县| 兰州市| 平度市| 波密县| 灵石县| 鲁甸县| 鄂托克前旗| 娱乐| 镇赉县| 望城县| 岐山县| 石嘴山市| 济南市| 宜春市| 武平县| 德清县| 调兵山市| 彭水| 囊谦县| 西乌珠穆沁旗| 柳林县| 梁河县| 罗山县| 黄山市| 平安县| 荣成市| 泾源县| 成武县| 乐至县| 临西县| 清丰县| 青川县| 玛纳斯县| 昌平区| 嘉定区| 鹤壁市|