国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Apriori算法的師范生計算機問卷調(diào)查分析

2021-09-16 10:22
關(guān)鍵詞:項集置信度師范生

楊 超

(遼寧民族師范高等專科學(xué)校 民族文化與職業(yè)教育系,遼寧 沈陽 110032)

信息技術(shù)能力是師范生需要掌握的重要職業(yè)技能,如何提高師范生信息技術(shù)能力一直是計算機教師不斷探索的課題.為此,以調(diào)查問卷的方式對師范生計算機相關(guān)課程內(nèi)容的調(diào)研,客觀地分析調(diào)查問卷數(shù)據(jù)不僅為計算機課程優(yōu)化提供參考,更可為某項重點改革提供導(dǎo)向依據(jù)[1].因此,采用科學(xué)的計算方法對計算機調(diào)查問卷進行數(shù)據(jù)分析有著重要意義.

1 Apriori算法

Apriori算法指關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法,旨在從大量數(shù)據(jù)集中發(fā)現(xiàn)隱藏數(shù)據(jù)之間的聯(lián)系[2].這種聯(lián)系有兩種形式:一是頻繁項集,指經(jīng)常在一起出現(xiàn)的元素;二是關(guān)聯(lián)規(guī)則,暗示兩種元素間可能存在很強的聯(lián)系.通常用支持度、置信度和提升度來描述對形式的判斷及對關(guān)聯(lián)性強度的分析.

1.1 支持度

支持度是一個項集或規(guī)則在所有事務(wù)中出現(xiàn)的概率,用支持度計數(shù)/總事務(wù)數(shù)表示該規(guī)則在全部記錄中出現(xiàn)的概率.支持度是確定強關(guān)聯(lián)規(guī)則的第一個重要門檻,衡量了所考查的關(guān)聯(lián)規(guī)則在“量”上的多少,并且子集的支持度大于項集的支持度[2].支持度表達式為:

其中:s(X→Y)表示規(guī)則X→Y的支持度=(X和Y一起出現(xiàn)的項集支持度計數(shù))/總事務(wù)數(shù).

1.2 置信度

置信度表示在先決條件X發(fā)生的前提下關(guān)聯(lián)項目Y發(fā)生的概率,即指在項集Y確定的條件中包含X的事務(wù)出現(xiàn)的頻率.置信度是通過規(guī)則進行推理的,因此具有可靠性,也就是說,對于給定的規(guī)則X→Y,置信度越高則在項集Y中出現(xiàn)項集X的概率越大,即P(Y|X)越大.置信度表達式為:

1.3 提升度

提升度表示在含有X的前提下同時含有Y的可能性與無此前提條件下項集中含有Y的可能性之比,即假如X→Y的提升度是1.15,表明“選擇X后再選擇Y的可能性”是“沒有選擇X但選擇Y的可能性”的1.15倍,也就是說選擇X對選擇Y起到一定的提升作用.一般地,提升度lift>1就說規(guī)則X→Y是有效強關(guān)聯(lián)規(guī)則,提升度lift=1就說規(guī)則X與Y相互獨立,提升度lift<1就說規(guī)則X→Y是無效強關(guān)聯(lián)規(guī)則.提升度表達式為:

2 基于R語言的Apriori算法數(shù)據(jù)分析

本文數(shù)據(jù)來源于省內(nèi)某高職師范院校師范生計算機調(diào)查問卷.問卷內(nèi)容主要調(diào)查當(dāng)前師范生對計算機基礎(chǔ)課程的感受情況,共涉及18道題73個選項.應(yīng)用R語言中的Apriori算法對調(diào)查問卷數(shù)據(jù)進行分析[3],進而為計算機基礎(chǔ)課程改革提供更為客觀的依據(jù).

2.1 建立矩陣,轉(zhuǎn)換數(shù)據(jù)集

在默認生成的調(diào)查問卷中,數(shù)據(jù)內(nèi)的行、列分別由參與者、選題選項構(gòu)成,這種文字形式的數(shù)據(jù)在算法中不能直接進行計算,需轉(zhuǎn)成“0”“1”形式的數(shù)據(jù)矩陣和特定的數(shù)據(jù)類型.本文設(shè)定選擇選項即為“1”,沒有選擇即為“0”,對18道題中涉及的所有選項進行數(shù)據(jù)清洗,同時對空項或無意義數(shù)據(jù)進行處理,生成可導(dǎo)入數(shù)據(jù)的xlsx、csv或txt類型文件,再通過表1中的代碼可將數(shù)據(jù)文件導(dǎo)入R語言中,導(dǎo)入的數(shù)據(jù)文件以數(shù)據(jù)框類型存在.

表1 數(shù)據(jù)集代碼表

2.2 數(shù)據(jù)概況與導(dǎo)向策略

數(shù)據(jù)概況為結(jié)果分析、導(dǎo)向策略制定提供重要參考.通過R語言中summary()方法可對數(shù)據(jù)集進行頻率查看,結(jié)果如表2所示.從表2結(jié)果可看出,數(shù)據(jù)集是項矩陣以稀疏的形式生成413行73項數(shù)據(jù),并且依據(jù)頻率大小進行排序,其中第29選項被選擇了358次,占86.68%,說明絕大多數(shù)學(xué)生認為Office辦公軟件在計算機基礎(chǔ)課程中尤為重要.這種以直接方式顯示出的數(shù)據(jù)信息便于決策者從高頻率項與高頻率項、高頻率項與低頻率項之間尋找隱藏的信息[4],為下一步的導(dǎo)向分析提供重要參考.另外,項集長度也間接反映出參與者對調(diào)查問卷填寫的考慮,如表3結(jié)果中顯示有48人選擇17個選項,16人選擇18個選項,后面以此類推,說明大部分參與者在填寫問卷時對選項涉及的內(nèi)容有多方面的考慮,對待一些特定的選項存在多選情況.因此,后續(xù)的導(dǎo)向分析中應(yīng)多作綜合考慮.

表2 頻率結(jié)果

表3 選項選擇人數(shù)

2.3 利用Apriori構(gòu)建數(shù)學(xué)模型

基于建立的數(shù)據(jù)集矩陣,利用R語言中Apriori算法對數(shù)據(jù)集進行深入分析.由于數(shù)據(jù)分析結(jié)果共111個,限于文章篇幅,這里只展示前10條數(shù)據(jù)并進行說明,代碼及生成的數(shù)學(xué)模型如表4所示.通過表4發(fā)現(xiàn),數(shù)學(xué)模型條件規(guī)則是以支持度為0.2、置信度為1、最小項集所包含元素的個數(shù)為2建立的,說明滿足條件規(guī)則的項集均與29號選項有關(guān)聯(lián),并且在選擇lhs中的項集元素時就一定會選擇rhs項集中的元素.在眾多參與者中,至少100人存在表4中的選擇關(guān)聯(lián),選擇lhs項集中元素的概率均大于24%,提升度大于1,這體現(xiàn)了lhs項集中元素與rhs項集中的元素有關(guān)聯(lián).

表4 Apriori算法代碼及數(shù)學(xué)模型

2.4 模型優(yōu)化與數(shù)據(jù)分析

在Apriori算法數(shù)學(xué)模型中共有111條關(guān)聯(lián)規(guī)則,但從表4可以看到,選擇選項30、31、41就一定會選擇選項29,支持度為0.2687,提升度為1.15,而選擇選項28、30、31、41也同樣會選擇選項29,支持度為0.2615,提升度為1.15,符合第四個結(jié)果中的lhs和rhs包含于第二個結(jié)果中的lhs和rhs,并且第四個結(jié)果中的提升度與第二個結(jié)果的提升度相同,說明第四個結(jié)果是第二個結(jié)果的冗余規(guī)則,因此需對模型進行冗余規(guī)則優(yōu)化,代碼、生成數(shù)據(jù)結(jié)果及選項說明如表5、表6所示.經(jīng)優(yōu)化后共生成48條關(guān)聯(lián)規(guī)則,因生成規(guī)則數(shù)據(jù)過多,這里只針對支持度排序前五的數(shù)據(jù)進行說明.通過優(yōu)化的數(shù)學(xué)模型可以了解,無論是認為計算機基礎(chǔ)知識重要、計算機網(wǎng)絡(luò)知識重要的師范生,還是認為計算機系統(tǒng)操作重要的師范生,都認為Office辦公軟件重要.表5的結(jié)果也說明,接觸過相關(guān)計算機基礎(chǔ)課程或經(jīng)常使用計算機的師范生均認為Office辦公軟件尤為重要,說明師范生對Office重要性的認知可能根據(jù)應(yīng)用需求判定而來[5].在認識到計算機基礎(chǔ)課程重要性的同時,師范生認為課程中Office辦公軟件的操作講解需要加強,說明目前Office辦公軟件的操作講解可能不能滿足師范生的學(xué)習(xí)需求,需要提出具有針對性的策略.通過圖1中的Graph模型可以看出,在特定條件下師范生計算機基礎(chǔ)課程調(diào)查問卷各選項均與Office辦公軟件重要性有關(guān)聯(lián),因此在后續(xù)的計算機基礎(chǔ)課程改革中,應(yīng)重點考慮多安排有關(guān)Office辦公軟件的教學(xué)內(nèi)容.

表5 數(shù)學(xué)模型序號含義及優(yōu)化代碼

表6 序號含義及頻率

3 結(jié)語

本文運用Apriori算法對師范生計算機調(diào)查問卷進行數(shù)據(jù)分析,通過對數(shù)據(jù)模型優(yōu)化、圖形構(gòu)建及數(shù)據(jù)分析,在支持度、置信度、提升度等屬性顯示中大多數(shù)項集元素與Office辦公軟件重要性相關(guān)聯(lián),為后續(xù)計算機基礎(chǔ)課程改革提供重要參考.

猜你喜歡
項集置信度師范生
基于數(shù)據(jù)置信度衰減的多傳感器區(qū)間估計融合方法
一種基于定位置信度預(yù)測的二階段目標檢測方法
基于共現(xiàn)結(jié)構(gòu)的頻繁高效用項集挖掘算法
“尋訪身邊的好老師”
構(gòu)建“兩翼三維四能”師范生培養(yǎng)模式
2018年公費師范生招生專業(yè)及計劃數(shù)
不確定數(shù)據(jù)頻繁項集挖掘算法研究
基于矩陣相乘的Apriori改進算法
正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
論師范生教育實踐能力培養(yǎng)下的課程整合探析