国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)的Aprioir算法在獨(dú)立學(xué)院招生中的應(yīng)用研究

2019-05-23 10:44:40孫潔黃承寧
電腦知識(shí)與技術(shù) 2019年5期
關(guān)鍵詞:Apriori算法數(shù)據(jù)挖掘

孫潔 黃承寧

摘要:數(shù)據(jù)挖掘是指通過算法從大量數(shù)據(jù)中挖掘隱藏值和信息的過程。Aprioir算法是數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中的經(jīng)典算法。它已廣泛應(yīng)用于網(wǎng)絡(luò)安全、商業(yè)、教育等領(lǐng)域。該文研究并改進(jìn)了Aprioir算法,并將改進(jìn)后的算法應(yīng)用于招生信息的數(shù)據(jù)挖掘。通過對(duì)高校招生數(shù)據(jù)的深入和詳細(xì)的分析和挖掘,發(fā)現(xiàn)高校招生數(shù)據(jù)間的關(guān)聯(lián)性,這對(duì)招生工作起到指導(dǎo)作用。

關(guān)鍵詞:數(shù)據(jù)挖掘;Apriori算法;招生數(shù)據(jù)

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)05-0084-02

隨著高等院校招生規(guī)模的增加、高考生源數(shù)量的逐年減少以及二本和三本變?yōu)橥慌握猩?,這些都給獨(dú)立學(xué)院招生帶來了巨大的壓力。

因?yàn)檎猩鷽Q策數(shù)據(jù)量大、涉及面廣,采用基于經(jīng)驗(yàn)的招生方法,無法保證招生工作的高效性。因此,數(shù)據(jù)挖掘技術(shù)可以用來挖掘和分析過去積累的大量招生數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)間關(guān)聯(lián)關(guān)系,獲取有價(jià)值的信息,降低招生宣傳的經(jīng)濟(jì)成本,提高招生質(zhì)量,提高了獨(dú)立學(xué)院的新生入學(xué)率。

1 Aprioir算法及算法改進(jìn)

1.1 Aprioir算法

Apriori算法是基于兩階段頻集思想的遞推算法,是最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法之一。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則[1]。

1.2 Apriori算法的改進(jìn)

經(jīng)過使用和分析,Apriori算法存在以下問題:

1)在每一步產(chǎn)生候選項(xiàng)目集時(shí),迭代產(chǎn)生的組合過多,不應(yīng)該參與組合的元素沒有被排除,而迭代過程的候選頻繁項(xiàng)集是在計(jì)算機(jī)內(nèi)存中產(chǎn)生、存儲(chǔ)和處理的,這使得算法適應(yīng)能力較差[2]。

2)每次計(jì)算項(xiàng)目集的支持度時(shí),都會(huì)掃描和比較數(shù)據(jù)庫(kù)中的所有行。當(dāng)數(shù)據(jù)量較大時(shí),這種掃描會(huì)大大增加計(jì)算機(jī)系統(tǒng)的輸入\輸出開銷。而這種開銷是隨著數(shù)據(jù)庫(kù)的行的増加呈現(xiàn)出幾何級(jí)數(shù)的増加。

基于Apriori算法存在的問題,下節(jié)將對(duì)該算法的改進(jìn)行闡述。

1.2.1 Apriori改進(jìn)算法---數(shù)據(jù)規(guī)模劃分

改進(jìn)算法的主要思想是將數(shù)據(jù)挖掘的數(shù)據(jù)分為N個(gè)規(guī)模大致相同的部分,對(duì)每個(gè)子部分分別進(jìn)行數(shù)據(jù)挖掘,最后進(jìn)行合并。

該算法按照以下步驟完成:

第一步:將數(shù)據(jù)庫(kù)劃分為N個(gè)部分,每個(gè)部門數(shù)據(jù)大致相同;

第二步:毎個(gè)子部分將分別產(chǎn)生一組潛在頻繁項(xiàng)目集;

第三步:將這些頻繁項(xiàng)目集合并成一個(gè)候選頻繁項(xiàng)目集;

第四步:計(jì)算每個(gè)候選頻繁項(xiàng)目的支持度,以確定最終頻繁項(xiàng)集[3]。

1.2.2 Apriori改進(jìn)算法---增加屬性列

將數(shù)據(jù)庫(kù)劃分為N個(gè)規(guī)模大致相同的子部分后,對(duì)每個(gè)子部分進(jìn)行數(shù)據(jù)挖掘。在前一節(jié)中改進(jìn)算法的第二步中,為每個(gè)事務(wù)添加一個(gè)指定事務(wù)包含的項(xiàng)個(gè)數(shù)的屬性列。

進(jìn)一步改進(jìn)的Apriori算法,其算法思想如下:

第一步:將數(shù)據(jù)庫(kù)劃分為N個(gè)部分,每個(gè)部門數(shù)據(jù)大致相同;

第二步:毎個(gè)子部分將分別產(chǎn)生一組潛在頻繁項(xiàng)目集:

1)為事務(wù)添加一個(gè)指定事務(wù)包含的項(xiàng)個(gè)數(shù)的屬性列。

2)如果事務(wù)包含的項(xiàng)個(gè)數(shù)大于或等于N,則計(jì)算頻繁N項(xiàng)集;否則將其刪除。

第三步:對(duì)單個(gè)項(xiàng)目集進(jìn)行整理和合并,可以得到全部候選頻繁項(xiàng)集。

第四步:計(jì)算每個(gè)候選頻繁項(xiàng)目的支持度,以確定最終頻繁項(xiàng)集[3]。

在生成頻繁N項(xiàng)集時(shí),Apriori算法需要全部事務(wù)來驗(yàn)證候選N項(xiàng)集,而事務(wù)長(zhǎng)度大于或等于N的事務(wù)才屬于頻繁N項(xiàng)集,反之則不屬于[4]。改進(jìn)的Apriori算法只保留事務(wù)長(zhǎng)度大于或等于N的事務(wù),并在這些事務(wù)中搜索頻繁N項(xiàng)集[5]。

2 數(shù)據(jù)準(zhǔn)備

2.1 數(shù)據(jù)分析

改進(jìn)算法后,基于院校的需求,對(duì)招生數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)挖掘,下面對(duì)部分?jǐn)?shù)據(jù)做簡(jiǎn)要描述:

1)考生基本情況表:主要包括考生號(hào)、姓名、性別、出生年月、考生類別、考生戶口所在地區(qū)、考試類別等內(nèi)容。

2)成績(jī)與志愿信息表:主要包括高考成績(jī)、投檔成績(jī)、填報(bào)專業(yè)、退檔原因、錄取專業(yè)等內(nèi)容。

3)專業(yè)計(jì)劃庫(kù)代碼對(duì)照表:主要包括批次、科類代碼、投檔單位、專業(yè)代號(hào)、專業(yè)名稱、專業(yè)種類、計(jì)劃人數(shù)、計(jì)劃執(zhí)行數(shù)等內(nèi)容。

4)考生類別代碼對(duì)照表:主要類別包括:農(nóng)村應(yīng)屆、農(nóng)村往屆、城鎮(zhèn)應(yīng)屆和城鎮(zhèn)往屆。

5)考生報(bào)到情況表:主要包括考生號(hào)、姓名、報(bào)到情況代碼、報(bào)到情況等內(nèi)容。

2.2 數(shù)據(jù)清洗

針對(duì)招生信息,主要從以下幾個(gè)方面對(duì)數(shù)據(jù)進(jìn)行清洗:

1)有效性檢驗(yàn)。檢驗(yàn)數(shù)據(jù)是否在合理的有效范圍。例如性別只能為“男”或者“女”等。

2)刪除字段。例如視力、健康狀況等字段雖說很重要,但如果作為數(shù)據(jù)挖掘的數(shù)據(jù)源,卻不合適,而且還要浪費(fèi)資源,對(duì)于這樣的數(shù)據(jù)應(yīng)該刪除。

3)轉(zhuǎn)換字段。比如各省的高考成績(jī)組成不同,使用成績(jī)來表示高或者低是不合理的,可對(duì)其分區(qū)間,例如在不同范圍內(nèi)認(rèn)為是成績(jī)差,成績(jī)中,成績(jī)良和成績(jī)優(yōu)。再比如考生生源地,可采用編號(hào)來代替字符描述,例如01表示云南省,02表示四川省等等。

4)統(tǒng)一數(shù)據(jù)。因?yàn)椴煌貐^(qū)的考生數(shù)據(jù)有不一致的情況,需要將類似的字段進(jìn)行統(tǒng)一。

3 招生信息數(shù)據(jù)挖掘

3.1 數(shù)據(jù)挖掘步驟

改進(jìn)后的Apriori算法應(yīng)用到招生信息數(shù)據(jù)挖掘中分四個(gè)步驟:

1)將原始數(shù)據(jù)進(jìn)行清洗。

2)將清洗好的數(shù)據(jù)輸入數(shù)據(jù)挖掘系統(tǒng),設(shè)定最小支持度。

3)使用改進(jìn)的Apriori算法對(duì)清洗好的招生信息進(jìn)行挖掘,保存計(jì)算得到的頻繁項(xiàng)集。

4)分析數(shù)據(jù)挖掘的結(jié)果。

3.2 數(shù)據(jù)挖掘結(jié)果分析

1)高考成績(jī)與報(bào)到率的聯(lián)系

分析結(jié)果顯示:2018年該學(xué)院錄取的考生中以某省為例,報(bào)到率較高分?jǐn)?shù)集中在最低檔(將高考成績(jī)按照分?jǐn)?shù)分為四檔,分別是最低檔、中等檔、良好檔和優(yōu)秀檔)。

2)專業(yè)與報(bào)到率的聯(lián)系

分析結(jié)果顯示:2018年該學(xué)院錄取的43個(gè)專業(yè)中,計(jì)算機(jī)科學(xué)與技術(shù)、財(cái)務(wù)管理、軟件工程、機(jī)械工程、土木工程等專業(yè)報(bào)到率較高,均達(dá)到96%以上。

3)考生生源與報(bào)到率的聯(lián)系

分析結(jié)果顯示,2018年該學(xué)院共在23個(gè)省投放置招生計(jì)劃,其中省份編號(hào)為19、20、21、22、23的考生報(bào)到率較高,均在97%以上。

綜上所述,通過以上的數(shù)據(jù)挖掘結(jié)果,對(duì)獨(dú)立院校招生錄取工作提出幾點(diǎn)建議:

1)高考分?jǐn)?shù)偏低的生源報(bào)到率反而較高,針對(duì)這一現(xiàn)象,學(xué)院應(yīng)該采取一些鼓勵(lì)高分學(xué)生的措施,例如,高分可保證第一志愿錄取等,以降低優(yōu)質(zhì)生源的流失率,從而提高在校學(xué)生的整體素質(zhì)。與此同時(shí)學(xué)校在錄取時(shí),在給分?jǐn)?shù)偏低的學(xué)生退檔時(shí)要慎重選擇,否則會(huì)影響學(xué)校的報(bào)到率。

2)生源地不同,報(bào)到率也不同,報(bào)到率偏低的幾個(gè)省份大多都是生源大省,每年高考高分的學(xué)生也較多,學(xué)校應(yīng)該加強(qiáng)對(duì)這些省份的招生宣傳力度,讓更多的考生了解學(xué)校的特色和優(yōu)勢(shì),愿意報(bào)考學(xué)校,減少優(yōu)質(zhì)生源的流失。

3)學(xué)校錄取專業(yè)中經(jīng)濟(jì)學(xué)和管理學(xué)等專業(yè)的報(bào)到率稍偏低,工學(xué)的學(xué)生報(bào)到率較高,學(xué)校應(yīng)依據(jù)市場(chǎng)需求和考生需求對(duì)專業(yè)設(shè)置和招生人數(shù)做動(dòng)態(tài)調(diào)整,從而降低學(xué)生的流失率。

4)學(xué)校要關(guān)注高考低分段但被錄取為工學(xué)專業(yè)或報(bào)到率高的生源地學(xué)生,要穩(wěn)定這部分報(bào)到率較高的生源,防止其流失。

參考文獻(xiàn):

[1] 姜鑫.數(shù)據(jù)挖掘技術(shù)在水電廠主設(shè)備狀態(tài)檢修中的應(yīng)用研究[J].水電廠自動(dòng)化,2014(4).

[2] 陳立寧. 一種用于預(yù)估MOCVD工藝結(jié)果的改進(jìn)方法[J]. 電子工業(yè)專用設(shè)備,2015(8):10-14.

[3] 李橋.數(shù)據(jù)挖掘在教學(xué)質(zhì)量評(píng)價(jià)中的應(yīng)用研究[D]. 長(zhǎng)沙:中南大學(xué),2010.

【通聯(lián)編輯:光文玲】

猜你喜歡
Apriori算法數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于Hadoop平臺(tái)的并行DHP數(shù)據(jù)分析方法
基于Apriori算法的高校學(xué)生成績(jī)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
基于云平臺(tái)MapReduce的Apriori算法研究
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
基于RFID的汽車零件銷售策略支持模型
關(guān)聯(lián)規(guī)則在高校評(píng)教系統(tǒng)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
吕梁市| 固镇县| 当雄县| 余江县| 合水县| 高要市| 电白县| 兰考县| 大同市| 阳朔县| 和林格尔县| 商都县| 蕲春县| 周口市| 巩留县| 青阳县| 西林县| 琼中| 乌鲁木齐市| 鄂伦春自治旗| 肥城市| 石渠县| 崇信县| 甘谷县| 镇平县| 阳城县| 会同县| 韶山市| 乐陵市| 崇文区| 桐梓县| 湖口县| 陵川县| 商丘市| 芦山县| 开原市| 来安县| 大余县| 邹城市| 色达县| 嘉鱼县|