国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Apriori算法在衛(wèi)生標(biāo)準(zhǔn)問卷調(diào)查數(shù)據(jù)挖掘中的應(yīng)用及R語言實現(xiàn)

2022-12-02 06:34:32劉拓俞鋮航黃烈雨
關(guān)鍵詞:項集置信度數(shù)據(jù)挖掘

劉拓 俞鋮航 黃烈雨

問卷調(diào)查是開展衛(wèi)生健康標(biāo)準(zhǔn)研究的主要方法之一。既往衛(wèi)生健康標(biāo)準(zhǔn)研究中,問卷調(diào)查數(shù)據(jù)的統(tǒng)計分析多采用描述性統(tǒng)計分析,對于調(diào)查對象選擇問卷中各題目選項之間的關(guān)聯(lián)關(guān)系關(guān)注較少。既往研究表明,關(guān)聯(lián)規(guī)則(association rules)可以從大量數(shù)據(jù)中挖掘各屬性指標(biāo)或指標(biāo)組合之間的隱藏關(guān)聯(lián)關(guān)系,從而為優(yōu)化管理提供技術(shù)線索;而Apriori算法是其中最為常用的算法之一[1-5]。R語言作為一種免費的開源性數(shù)據(jù)分析工具,已有大量優(yōu)秀的包(package),可以適用于多種場景和統(tǒng)計功能,且更加適合當(dāng)前知識產(chǎn)權(quán)保護意識及軟件正版化逐漸增強科研環(huán)境[6]。本研究擬以某次職業(yè)病診斷標(biāo)準(zhǔn)應(yīng)用情況調(diào)查數(shù)據(jù)為例,歸納Apriori算法在衛(wèi)生健康標(biāo)準(zhǔn)問卷調(diào)查數(shù)據(jù)中的應(yīng)用方法、注意事項及R語言實現(xiàn)方法,為進一步完善衛(wèi)生健康標(biāo)準(zhǔn)問卷調(diào)查數(shù)據(jù)挖掘方法體系提供參考。

1 資料與方法

1.1 數(shù)據(jù)來源

以課題組利用自制問卷,于2019年5—9月在全國范圍開展的職業(yè)病診斷標(biāo)準(zhǔn)應(yīng)用情況調(diào)查數(shù)據(jù)為例。該數(shù)據(jù)共有有效問卷92份,調(diào)查92名對象,涉及11個省、自治區(qū)的37個機構(gòu),涵蓋疾控中心、職防院所、醫(yī)療衛(wèi)生、用人單位等機構(gòu)從事職業(yè)病診斷工作的人員。調(diào)查對象對115項職業(yè)病診斷標(biāo)準(zhǔn)的科學(xué)性、可操作性、實施效果、滿足需要等4個方面進行評價,采用Likert 5級計分法,以1分為完全不符合(最差),5分為完全符合(最好)。

1.2 原理簡介

1.2.1 關(guān)鍵規(guī)則的原理 關(guān)鍵規(guī)則是一種挖掘復(fù)雜事物中兩個或多個變量之間頻繁規(guī)律和關(guān)聯(lián)特征的方法。關(guān)聯(lián)規(guī)則是表達(dá)形式為X→Y,其中項集X為先決條件,即前項;項集Y為對應(yīng)關(guān)聯(lián)結(jié)果,即后項。項集X與項集Y均為項集I的真子集,并且X與Y無交集,項集I為事務(wù)數(shù)據(jù)庫D的項集。有3個指標(biāo)用于描述關(guān)聯(lián)規(guī)則的關(guān)聯(lián)強度,即支持度(support)、置信度(confidence)、提升度(lift),分別度量關(guān)聯(lián)規(guī)則的普遍性、有效性和前項出現(xiàn)對后項出現(xiàn)的影響程度。一般以支持度>最小支持度且置信度>最小置信度為強關(guān)聯(lián)規(guī)則,詳見表1。

表1 關(guān)聯(lián)規(guī)則統(tǒng)計指標(biāo)計算公式表

1.2.2 Apriori算法原理 作為一種逐層搜索的迭代方法,Apriori是關(guān)聯(lián)規(guī)則計算中最常用的的算法之一,其主要利用最小支持度和最小置信度2個參數(shù)進行控制,利用“任一頻繁項集的所有非空子集均為頻繁項集”的性質(zhì)進行計算,算法流程詳見圖1。

圖1 Apriori算法流程圖

1.3 統(tǒng)計學(xué)方法

將調(diào)查數(shù)據(jù)用Excel 2013整理后導(dǎo)入Rstudio(版本號:3.5.3),利用arules包(版本號:1.6-4)的Apriori函數(shù)進行關(guān)聯(lián)規(guī)則計算,設(shè)定最小支持度和最小置信度分別為0.3和0.8,以提升度排名前10名的規(guī)則作為有效強關(guān)聯(lián)規(guī)則。

2 結(jié)果

2.1 數(shù)據(jù)整理

將問卷調(diào)查數(shù)據(jù)整理成如表2的形式,其中ID問卷編號,共計92份有效問卷。為了方便Rstudio進行數(shù)據(jù)分析,設(shè)標(biāo)準(zhǔn)用S表示,S1表示編號為1號的標(biāo)準(zhǔn),S2表示編號為2號的標(biāo)準(zhǔn),以此類推,共計115項標(biāo)準(zhǔn);科學(xué)性、可操作性、實施效果、滿足需要分別用V1、V2、V3、V4表示;分值分別用A、B、C、D、E表示Likert得分為5、4、3、2、1分。則S1_V1表示編號為1號的標(biāo)準(zhǔn)的科學(xué)性,如其取值為S1_V1=A,則代表編號為1號的標(biāo)準(zhǔn)的科學(xué)性的Likert得分為5分。

表2 關(guān)聯(lián)規(guī)則數(shù)據(jù)導(dǎo)入樣表

2.2 程序介紹

如果所有的package都默認(rèn)已經(jīng)安裝。如未提前安裝,可直接通過菜單→Tools→Install Packages來安裝,或者利用install.packages()命令來進行安裝。

2.2.1 數(shù)據(jù)導(dǎo)入 將整理好的Excel文件命名為“import172”,地址為“E:/Ranalysis”。打開RStudio,輸入library()命令調(diào)用readxl包,并導(dǎo)入數(shù)據(jù)。代碼及其注釋如下:

library(readxl)# 調(diào)用 readxl包

import172<-read_excel("E:/Ranalysis/import172.xlsx")# 導(dǎo)入Excel文件并命名為import172

View(import172)#查看導(dǎo)入的數(shù)據(jù)

trans172<-as(import172,"transactions")#將導(dǎo)入數(shù)據(jù)轉(zhuǎn)為關(guān)聯(lián)規(guī)則可以分析的形式

View(trans172)#查看轉(zhuǎn)化后的數(shù)據(jù)

如轉(zhuǎn)化后的數(shù)據(jù)無問題,則可以進入下一步的分析中。

2.2.2 計算關(guān)聯(lián)規(guī)則 輸入library()命令調(diào)用arules包,將設(shè)定最小支持度和最小置信度分別為0.3和0.8,挖掘出的關(guān)聯(lián)規(guī)則命名為res172。代碼及其注釋如下:

2.3 結(jié)果解讀

本次挖掘共產(chǎn)生28條強關(guān)聯(lián)規(guī)則,取提升度排名前10名的強規(guī)則作為有效強關(guān)聯(lián)規(guī)則。則有效強關(guān)聯(lián)規(guī)則支持度、置信度和提升度的最小值分別是0.373 6、0.871 8和2.063 5,最大值分別是0.439 6、1和2.166 7,詳見表3。

表3 衛(wèi)生健康標(biāo)準(zhǔn)問卷調(diào)查數(shù)據(jù)關(guān)聯(lián)規(guī)則表(按提升度排序)

通過關(guān)聯(lián)規(guī)則挖掘可知,有效強關(guān)聯(lián)規(guī)則的均涉及編號為91號的標(biāo)準(zhǔn)(以下簡稱S91標(biāo)準(zhǔn)),其在科學(xué)性、可操作性、實施效果、滿足需要4個維度上得分為5分(即S91_V1=A、S91_V2=A、S91_V3=A和S91_V4=A)之間出現(xiàn)較為頻繁,提示S91標(biāo)準(zhǔn)綜合可能評價較高。頻數(shù)統(tǒng)計發(fā)現(xiàn),分別有54、51、51、50名調(diào)查對象對S91標(biāo)準(zhǔn)的科學(xué)性、可操作性、實施效果、滿足需要4個維度(即S91_V1、S91_V2、S91_V3和S91_V4)進行打分,分別占調(diào)查對象總數(shù)的58.7%、55.43%、55.43%、54.35%。其中有45、42、42、38名調(diào)查對象對科學(xué)性、可操作性、實施效果、滿足需要4個維度給出了5分,即S91_V1=A、S91_V2=A、S91_V3=A、S91_V4=A分別有45、42、42、38名,占對S91標(biāo)準(zhǔn)打分調(diào)查對象的83.33%、82.35%、82.35%、76.00%。綜上基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘的結(jié)果與頻數(shù)統(tǒng)計結(jié)果基本相符。

2.4 數(shù)據(jù)可視化

輸入library()命令調(diào)用arulesViz包及其依賴的grid包。如挖掘出的關(guān)聯(lián)規(guī)則過多,不宜直接繪制散點圖,可以采用隨機抽樣的方式抽取一部分?jǐn)?shù)據(jù)繪制散點圖,散點圖以支持度和置信度為橫軸和縱軸,以提升度為三點顏色,顏色越深提升度越高,詳見圖2。代碼及其注釋如下。

library(grid)#調(diào)用arulesViz包依賴的grid包

library(arulesViz)# 調(diào)用 arulesViz包

set.seed(123)#設(shè)置隨機抽樣的種子

res172_smpl<-sample(res172,size=10,replace=FALSE)# 在產(chǎn)生的關(guān)聯(lián)規(guī)則中進行抽樣,抽樣的樣本量為10,抽樣后產(chǎn)生的數(shù)據(jù)集為res172_smpl

plot(res172_smpl,measure=c("support","confidence"),shading="lift")#繪制關(guān)聯(lián)規(guī)則的散點圖

2.5 關(guān)聯(lián)規(guī)則交互探索

除了直接運行代碼進行關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘之外,還可以利用shinythemes包進行交互式關(guān)聯(lián)規(guī)則挖掘。在交互界面,可以通過鼠標(biāo)拖動,設(shè)定最小支持度、置信度、提升度和規(guī)則長度等參數(shù),實現(xiàn)自動挖掘關(guān)聯(lián)規(guī)則。代碼及其注釋如下。

library(shinythemes)# 調(diào)用 shinythemes包

ruleExplorer(res172)#啟動交互界面

3 討論

3.1 關(guān)鍵規(guī)則中Apriori算法可為衛(wèi)生標(biāo)準(zhǔn)問卷調(diào)查提供新的分析思路

調(diào)查問卷在衛(wèi)生健康標(biāo)準(zhǔn)領(lǐng)域其多用于標(biāo)準(zhǔn)需求調(diào)研、實施效果評估等,具有應(yīng)用范圍廣、編制靈活、操作簡單的優(yōu)點,調(diào)查數(shù)據(jù)結(jié)果多為以二維表的形式呈現(xiàn)離散型數(shù)據(jù)。既往衛(wèi)生健康標(biāo)準(zhǔn)研究多數(shù)據(jù)研究中,多將問卷調(diào)查數(shù)據(jù)中不同的題目之間視為成相互獨立的指標(biāo),統(tǒng)計方法以描述性統(tǒng)計分析為主,多采用概貌分析策略和差異性分析策略,前者主要是統(tǒng)計調(diào)查對象選擇問卷中各題目選項的頻數(shù)或頻率,以獲取調(diào)查數(shù)據(jù)的概貌特征;后者主要是根據(jù)調(diào)查對象的不同特征(如專業(yè)背景、地域分布、行業(yè)來源)等進行分組并構(gòu)建交叉表,利用卡方檢驗等統(tǒng)計方法分析某一指標(biāo)不同分組之間的分布差異是否具有統(tǒng)計學(xué)意義。概貌分析策略和差異性分析策略忽略了不同題目的之間關(guān)聯(lián)信息,可能存在對數(shù)據(jù)分析不充分的問題。隨著我國社會經(jīng)濟快速發(fā)展,標(biāo)準(zhǔn)在社會管理事務(wù)中發(fā)揮的作用越來越大,也越來越受到社會各界的重視[7],Apriori算法作為關(guān)聯(lián)規(guī)則最為經(jīng)典的算法,可以有效從衛(wèi)生健康標(biāo)準(zhǔn)相關(guān)調(diào)查問卷數(shù)據(jù)中挖掘各項目之間隱藏的關(guān)聯(lián)知識,提煉具有潛在價值的特定信息,為完善標(biāo)準(zhǔn)體系提供技術(shù)線索。

3.2 關(guān)鍵規(guī)則中Apriori算法耗時較長,影響其在大規(guī)模問卷調(diào)查數(shù)據(jù)挖掘中的應(yīng)用

Apriori算法作為關(guān)聯(lián)規(guī)則最經(jīng)典算法,其存在著兩個主要缺陷,其一運算過程中會產(chǎn)生大量候選項集,其二是需要多次遍歷掃描數(shù)據(jù)庫,兩個缺陷會影響算法效率,導(dǎo)致算法適應(yīng)面偏窄[8]。特別是對于數(shù)據(jù)量較大的問卷調(diào)查數(shù)據(jù),運算時間可能較長,甚至出現(xiàn)內(nèi)存不足導(dǎo)致運算中斷的情況。針對Apriori算法的缺陷,既往學(xué)者進一步開發(fā)了FP-growth算法、Relim算法和DHP算法用于提高算法效率。FP-growth算法通過構(gòu)造頻繁模式樹(FP-tree)以避免反復(fù)掃描數(shù)據(jù)庫,提高算法效率;Relim算法是對FP-growth算法進一步改進,其摒棄了構(gòu)建構(gòu)建頻繁模式樹的方法,而是通過構(gòu)造一個事務(wù)鏈表組來獲取挖掘結(jié)果;DHP算法主要通過哈希技術(shù)縮小候選項集的數(shù)量來提高算法效率[1]。

3.3 衛(wèi)生健康標(biāo)準(zhǔn)管理人員亟需重視數(shù)據(jù)挖掘?qū)?biāo)準(zhǔn)工作的輔助作用

隨著網(wǎng)絡(luò)在線調(diào)查技術(shù)的普及,開展標(biāo)準(zhǔn)相關(guān)調(diào)查成本越來越低,相關(guān)調(diào)查數(shù)據(jù)也在快速積累中[9-14]。衛(wèi)生健康標(biāo)準(zhǔn)管理人員如何充分運用關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘技術(shù),從問卷調(diào)查數(shù)據(jù)中提取關(guān)聯(lián)知識,提供標(biāo)準(zhǔn)管理線索,實現(xiàn)標(biāo)準(zhǔn)管理從經(jīng)驗驅(qū)動到數(shù)據(jù)驅(qū)動的躍遷,成為亟待解決的問題。關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘?qū)儆谛畔W(xué)、統(tǒng)計學(xué)和衛(wèi)生健康標(biāo)準(zhǔn)專業(yè)知識的多領(lǐng)域交叉學(xué)科,而在既往衛(wèi)生健康標(biāo)準(zhǔn)研究中,應(yīng)用關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘技術(shù)的研究相對較少。建議在未來可以著重培養(yǎng)具備多領(lǐng)域復(fù)合型標(biāo)準(zhǔn)研究團隊,充分發(fā)揮信息學(xué)、統(tǒng)計學(xué)和標(biāo)準(zhǔn)相關(guān)專業(yè)領(lǐng)域的優(yōu)勢,為快速挖掘獲取有用的信息,提取管理線索打下堅實基礎(chǔ)。

3.4 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的局限性

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘結(jié)果受到其參數(shù)設(shè)定的影響較大,參數(shù)設(shè)置過高或過低均會對結(jié)果產(chǎn)生不良影響,且關(guān)聯(lián)規(guī)則得出的規(guī)則是否具有指導(dǎo)實踐意義,需要經(jīng)過專業(yè)判斷和管理實踐證實,而不能單純只看數(shù)據(jù)挖掘結(jié)果。

本研究歸納了Apriori算法在衛(wèi)生標(biāo)準(zhǔn)問卷調(diào)查數(shù)據(jù)挖掘中的應(yīng)用方法、注意事項及R語言實現(xiàn)方法,其挖掘的關(guān)聯(lián)信息可以為完善標(biāo)準(zhǔn)管理提供技術(shù)線索,但是也存在算法效率偏低,不適用于數(shù)據(jù)量較大的問卷調(diào)查數(shù)據(jù)。

猜你喜歡
項集置信度數(shù)據(jù)挖掘
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項集的快速挖掘算法
計算機工程(2014年6期)2014-02-28 01:26:12
基于GPGPU的離散數(shù)據(jù)挖掘研究
多假設(shè)用于同一結(jié)論時綜合置信度計算的新方法?
萝北县| 新乐市| 汉阴县| 山西省| 新和县| 陇西县| 姚安县| 丰顺县| 金秀| 桐梓县| 枞阳县| 江孜县| 兴安盟| 洛宁县| 武川县| 图们市| 安远县| 南宁市| 清涧县| 吉木萨尔县| 泉州市| 龙海市| 长春市| 迁安市| 萨迦县| 翁源县| 化德县| 伊宁市| 兴文县| 汝州市| 安庆市| 洪雅县| 富阳市| 花莲市| 钦州市| 阿勒泰市| 靖西县| 达孜县| 富蕴县| 囊谦县| 贵德县|