吳漢卿,吳緩緩,楊瑩瑩,紀(jì) 霞,2
(1.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601;2.安徽大學(xué) 計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230039)
基于粗糙集的大學(xué)生學(xué)習(xí)與就業(yè)關(guān)系分析
吳漢卿1,吳緩緩1,楊瑩瑩1,紀(jì) 霞1,2
(1.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601;2.安徽大學(xué) 計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230039)
隨著社會(huì)經(jīng)濟(jì)的高速發(fā)展,人才需求的多元化,國(guó)內(nèi)的教育事業(yè)進(jìn)入了大眾化的新時(shí)期,畢業(yè)生數(shù)量逐年增加,導(dǎo)致了高校畢業(yè)生就業(yè)形勢(shì)越來越嚴(yán)峻,學(xué)生就業(yè)難已成為當(dāng)前社會(huì)的熱點(diǎn)問題。大學(xué)生在校學(xué)習(xí)成績(jī)作為學(xué)生智力、學(xué)習(xí)態(tài)度等因素的直觀結(jié)果,較為準(zhǔn)確地反映了學(xué)生的整體水平,也與學(xué)生就業(yè)有著緊密的聯(lián)系。為了幫助高校學(xué)生合理利用在校學(xué)習(xí)時(shí)間,有導(dǎo)向的進(jìn)行學(xué)習(xí),采集了已畢業(yè)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)學(xué)生在校學(xué)習(xí)成績(jī)和就業(yè)信息數(shù)據(jù),利用鄰域粗糙集的基本理論,對(duì)預(yù)處理后的學(xué)生成績(jī)就業(yè)信息表中的課程屬性進(jìn)行約簡(jiǎn),并對(duì)得出的屬性約簡(jiǎn)子集進(jìn)行了詳細(xì)分析,將學(xué)習(xí)與就業(yè)之間的比較準(zhǔn)確的內(nèi)在聯(lián)系提供給在校學(xué)生,幫助學(xué)生找到心儀合適的工作。
鄰域粗糙集;屬性約簡(jiǎn);學(xué)習(xí)成績(jī);就業(yè)情況
一直以來大學(xué)生學(xué)習(xí)與就業(yè)都是熱點(diǎn)話題,尤其近年來高校擴(kuò)招,畢業(yè)生數(shù)量大幅提升,導(dǎo)致就業(yè)壓力逐年增加。而且,在就業(yè)過程中由于對(duì)就業(yè)準(zhǔn)備不充分、缺乏有力的指導(dǎo)以及就業(yè)信息不完整,也使在校大學(xué)生錯(cuò)失了大量的就業(yè)機(jī)會(huì)。
粗糙集理論[1-3]是Pawlak教授于1982年提出的一種能夠處理模糊和不確定知識(shí)的數(shù)學(xué)工具。粗糙集理論可以在保持決策能力不變的條件下,對(duì)屬性進(jìn)行約簡(jiǎn),從而發(fā)現(xiàn)潛在的知識(shí)和規(guī)律。該理論最顯著的優(yōu)勢(shì)在于,在處理不確定和不精確問題時(shí),無需提供其他先驗(yàn)信息。其基本思想是通過關(guān)系數(shù)據(jù)庫分類歸納形成概念和規(guī)則,通過等價(jià)關(guān)系的分類以及分類對(duì)于目標(biāo)的近似實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)[4]。
為了幫助高校學(xué)生合理利用在校學(xué)習(xí)時(shí)間,找到合適的工作,首先收集了已畢業(yè)學(xué)生的在校學(xué)習(xí)成績(jī)及就業(yè)信息,并進(jìn)行了相應(yīng)的預(yù)處理。然后利用鄰域粗糙集[5-6]的基本屬性約簡(jiǎn)算法進(jìn)行屬性約簡(jiǎn),挖掘?qū)W生就業(yè)與在校學(xué)習(xí)成績(jī)之間的內(nèi)在聯(lián)系。實(shí)驗(yàn)結(jié)果表明,學(xué)生應(yīng)該著重掌握專業(yè)所開設(shè)的主干課程,對(duì)主干課程的熟練掌握有助于提高學(xué)生的綜合素質(zhì),有利于學(xué)生就業(yè)[7-9]。
1.1 基本概念
定義1:給定一個(gè)非空集合U={x1,x2,…,xn},存在一個(gè)距離度量函數(shù)滿足:
(1)非負(fù)性:f(xi,xj)≥0,如果xi=xj,則f(xi,xj)=0。
(2)對(duì)稱性:f(xi,xj)=f(xj,xi)。
(3)三角不等關(guān)系:f(xi,xj)≤f(xi,xk)+f(xk,xj)。
定義2:假設(shè)是一個(gè)容忍空間,?xi∈U,θ≥0,有θ(xi)={x|f(xi,x)≤θ,x∈U},即θ(xi)是xi的θ鄰域集。
定義3:在鄰域決策系統(tǒng)NDS=中,B是C的一個(gè)子集,對(duì)于任意的X?U,X在B上的下近似和上近似可分別表示為:
其中θ(xi)定義如下:
θ(xi)={x|f(B(xi),B(x))≤θ,x∈U}
B(x)是一個(gè)萃取函數(shù),用于提取記錄中相應(yīng)屬性的值。
定義4:在領(lǐng)域決策系統(tǒng)NDS=中,D1,D2,…,Dn是相應(yīng)決策值的子集。決策屬性D關(guān)于條件屬性B的下近似和上近似分別為:
決策屬性的下近似又被稱為決策屬性的正域,記為POSB(D)。
定義5:在領(lǐng)域決策系統(tǒng)NDS=中,B是C的一個(gè)子集,D對(duì)B的依賴度記為:
顯然,依賴度的大小γB(D)∈[0,1]。
定義6:在領(lǐng)域決策系統(tǒng)NDS=中,B屬于C,B是一個(gè)相對(duì)約簡(jiǎn),當(dāng)
(1)γB(D)=γC(D);
(2)?a∈B,γB-a<γB(D)。
1.2 屬性約簡(jiǎn)算法
根據(jù)屬性重要度指標(biāo),可以構(gòu)造貪心式屬性約簡(jiǎn)算法[10]。初始化屬性約簡(jiǎn)子集為空,循環(huán)計(jì)算剩余屬性的重要度,選擇重要度最大的屬性加入約簡(jiǎn)子集中,直至所有剩余屬性的重要度為0,約簡(jiǎn)算法終止[11]。
(1)改進(jìn)的快速正域求解算法。
輸入:U,P,D,θ;
輸出:F={F1,F2,…,F}。
Step1:將F中的每個(gè)元素置為0。
Step2:將U劃分到對(duì)應(yīng)的桶中。
Step3:對(duì)于U中每個(gè)記錄xi(xi∈Bk),判斷集合Bk-1∪Bk∪Bk+1中的每個(gè)記錄xi是否存在f(P(xi),P(xj))≤θandDecision(xi)≠Decision(xj)。若存在,則xi不屬于當(dāng)前所求正域;若否,則xi屬于當(dāng)前所有正域,并將對(duì)應(yīng)的Fi置為1。
(2)快速屬性約簡(jiǎn)算法。
根據(jù)NOS量表對(duì)所納入研究評(píng)分,結(jié)果分布在6~9分,均為中等質(zhì)量及高質(zhì)量研究。隊(duì)列研究的質(zhì)量評(píng)價(jià)結(jié)果見表2,病例對(duì)照研究的質(zhì)量評(píng)價(jià)結(jié)果見表3。
輸入:U,C,D,θ;
輸出:reduce(屬性約簡(jiǎn)結(jié)果)。
Step1:reduce置空。
Step2:當(dāng)U不為空,則執(zhí)行Step3,否則執(zhí)行Step4。
Step3:對(duì)于C-reduce中的每個(gè)屬性a,求解reduce∪{a}的正域大小,并選取使正域集合最大的a及其對(duì)應(yīng)的正域集合。若得到的最大正域集合不為空,則reduce=reduce∪{a},并且從記錄集U中刪除最大正域集合中對(duì)應(yīng)的記錄。繼續(xù)執(zhí)行Step3。
Step4:結(jié)束。
實(shí)驗(yàn)共收集了某大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)192名大學(xué)生的成績(jī),共分為12種就業(yè)類型(見表1)。由于學(xué)校對(duì)素質(zhì)教育較為重視,對(duì)于在校學(xué)生,除本專業(yè)必修、選修課程之外,還需選修相應(yīng)學(xué)分的素質(zhì)課程和跨專業(yè)課程,導(dǎo)致所收集到的數(shù)據(jù)在某些屬性(成績(jī))上較為稀疏。在實(shí)驗(yàn)之前,對(duì)數(shù)據(jù)進(jìn)行如下處理:
Step1:依次選取每一屬性。
表1 就業(yè)類型
Step2:判斷在當(dāng)前屬性上非空記錄的個(gè)數(shù)是否大于總記錄的一半。
Step3:若是,則保留該屬性,并將空記錄設(shè)置為當(dāng)前屬性的平均值。
Step4:若否,去除該屬性。
依據(jù)以上思路,共保留75個(gè)條件屬性(課程成績(jī)),1個(gè)決策屬性(就業(yè)類型)。
預(yù)處理前后學(xué)生成績(jī)就業(yè)信息表分別見表2和表3。
2.2 鄰域半徑選取
鄰域粗糙集中,鄰域的大小θ作為關(guān)鍵參數(shù),它的選取將直接影響屬性約簡(jiǎn)的結(jié)果。文獻(xiàn)[5]中使用固定θ值(θ=0.125)作為所有數(shù)據(jù)集上屬性約簡(jiǎn)的鄰域半徑。文獻(xiàn)[13]中使用標(biāo)準(zhǔn)差作為θ值,即將每一列的屬性值做標(biāo)準(zhǔn)差之后,再將這些標(biāo)準(zhǔn)差取標(biāo)準(zhǔn)差作為鄰域半徑θ。之所以采用文獻(xiàn)[13]提出的鄰域半徑選取方法,有兩點(diǎn)原因。其一,不同數(shù)據(jù)集描述的物體不同,不存在某一固定的θ值作為鄰域半徑,若采用文獻(xiàn)[5]中θ值對(duì)成績(jī)就業(yè)數(shù)據(jù)進(jìn)行屬性約簡(jiǎn),極易產(chǎn)生誤差。其二,標(biāo)準(zhǔn)差的方法能夠反映數(shù)據(jù)在平均值上波動(dòng)的大小。
表2 預(yù)處理前學(xué)生成績(jī)就業(yè)信息表(部分)
表3 預(yù)處理后學(xué)生成績(jī)就業(yè)信息表(部分)
根據(jù)文獻(xiàn)[12]中提出的快速屬性約簡(jiǎn)算法,對(duì)成績(jī)就業(yè)數(shù)據(jù)進(jìn)行屬性約簡(jiǎn),得出屬性約簡(jiǎn)子集對(duì)應(yīng)的課程分別為:數(shù)據(jù)庫原理、高等數(shù)學(xué)(一)、電路原理、操作系統(tǒng)、大學(xué)英語(一)。
從約簡(jiǎn)結(jié)果來看,數(shù)據(jù)庫原理課程對(duì)于就業(yè)的影響最為重要,這有兩點(diǎn)原因:首先,數(shù)據(jù)庫原理是計(jì)算機(jī)專業(yè)課程體系中的高階課程,課程的學(xué)習(xí)需要大量其他專業(yè)課程的理論基礎(chǔ)。其次,這也是對(duì)工程應(yīng)用的真實(shí)反映,因?yàn)榇蠖鄶?shù)的軟件都應(yīng)用了各種各樣的數(shù)據(jù)庫,熟練掌握數(shù)據(jù)庫理論及應(yīng)用已成為工程技術(shù)人員的必備技能。電路原理作為專業(yè)基礎(chǔ)課程,是學(xué)習(xí)計(jì)算機(jī)組成原理的先修課程。操作系統(tǒng)作為計(jì)算機(jī)專業(yè)的核心課程,其先修課程包括高級(jí)語言程序設(shè)計(jì)、數(shù)據(jù)結(jié)構(gòu)、計(jì)算機(jī)組成原理等,所以操作系統(tǒng)的課程成績(jī)不僅是對(duì)本課程學(xué)習(xí)情況的概括,也反映了其先修課程的學(xué)習(xí)情況,而且也是編譯原理、數(shù)據(jù)庫原理等課程的重要基礎(chǔ)。從計(jì)算機(jī)專業(yè)課程體系來講,電路原理、操作系統(tǒng)、數(shù)據(jù)庫原理分別作為計(jì)算機(jī)專業(yè)的基礎(chǔ)課程、中階課程和高階課程[14],三門課程的成績(jī)是其他課程學(xué)習(xí)情況的綜合反映,是對(duì)學(xué)生專業(yè)知識(shí)學(xué)習(xí)水平的高度概括。而高等數(shù)學(xué)、英語作為公共基礎(chǔ)課程,為計(jì)算機(jī)專業(yè)課程的學(xué)習(xí)奠定了基礎(chǔ),對(duì)學(xué)生的整體水平有很大的提升。
為了幫助高校學(xué)生有導(dǎo)向的進(jìn)行學(xué)習(xí),打好扎實(shí)的就業(yè)基礎(chǔ),采用了鄰域粗糙集上的一種快速屬性約簡(jiǎn)算法,對(duì)預(yù)處理后的成績(jī)就業(yè)數(shù)據(jù)進(jìn)行屬性約簡(jiǎn),得出了學(xué)生在校學(xué)習(xí)情況與就業(yè)的內(nèi)在聯(lián)系,即學(xué)生應(yīng)該著重掌握本專業(yè)的基礎(chǔ)課程、中階課程和高階課程,對(duì)于當(dāng)前數(shù)據(jù)集而言,分別對(duì)應(yīng)著電路原理、操作系統(tǒng)、數(shù)據(jù)庫原理三門課程,同時(shí)公共基礎(chǔ)課程也要進(jìn)行全面的學(xué)習(xí)。屬性約簡(jiǎn)的結(jié)果可以提供給在校學(xué)生作為參考,為自己的就業(yè)目標(biāo)有選擇地進(jìn)行學(xué)習(xí)與訓(xùn)練。受制于數(shù)據(jù)量的影響,得出的結(jié)論暫時(shí)不能泛化推廣,但是對(duì)于在校學(xué)生還是有理論上的指導(dǎo)意義。對(duì)于目前存在的問題,將擴(kuò)大現(xiàn)有數(shù)據(jù)集,并做進(jìn)一步的研究。
[1]PawlakZ.Roughsets[J].InternationalJournalofComputer&InformationSciences,1982,11(5):341-356.
[2]PawlakZ.Roughsets:theoreticalaspectsofreasoningaboutdata[M].Dordrecht:KluwerAcademicPublishers,1991.
[3]PawlakZ,SlowinskiR.Routhsetapproachtomulti-attributedecisionanalysis,invitedreview[J].EuropeanJournalofOperationalResearch,1994,72(3):443-459.
[4] 王國(guó)胤,姚一豫,于 洪.粗糙集理論與應(yīng)用研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2009,32(7):1229-1246.
[5] 胡清華,于達(dá)仁,謝宗霞.基于鄰域?;痛植诩平臄?shù)值屬性約簡(jiǎn)[J].軟件學(xué)報(bào),2008,19(3):640-649.
[6] 胡清華,趙 輝,于達(dá)仁.基于鄰域粗糙集的符號(hào)與數(shù)值屬性快速約簡(jiǎn)算法[J].模式識(shí)別與人工智能,2008,21(6):732-738.
[7] 李 墨.粗糙集屬性約簡(jiǎn)算法研究及其在大學(xué)生就業(yè)系統(tǒng)中的應(yīng)用[D].廣州:華南理工大學(xué),2014.
[8] 計(jì)文軍,蔣 超,王艷華,等.粗糙集在大學(xué)生就業(yè)問題中的應(yīng)用[J].內(nèi)江師范學(xué)院學(xué)報(bào),2008,23:232-234.
[9] 李彩虹.基于粗糙集理論的大學(xué)生創(chuàng)業(yè)影響因素研究[J].技術(shù)與創(chuàng)新管理,2016,37(1):110-113.
[10] 葉東毅,黃翠微,趙 斌.粗糙集中屬性約簡(jiǎn)的一個(gè)貪心算法[J].系統(tǒng)工程與電子技術(shù),2000,22(9):63-65.
[11] 崔建國(guó),宋博翰,董世良,等.基于鄰域粗糙集的航空發(fā)電機(jī)健康診斷方法[J].數(shù)據(jù)采集與處理,2012,27(1):80-84.
[12]LiuYong,HuangWenliang,JiangYunliang,etal.Quickattributealgorithmforneighborhoodroughsetmodel[J].InformationScience,2014,271(7):65-81.
[13] 婁 暢,劉遵仁,郭功振.基于塊集的鄰域粗糙集的快速約簡(jiǎn)算法[J].計(jì)算機(jī)科學(xué),2014,41(11A):337-339.
[14] 賀超波,陳啟買.高校課程相關(guān)性粗糙集分析模型及應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(27):233-235.
Relationship Analysis of Undergraduate Students’ School Records versus Employment Based on Rough Set
WU Han-qing1,WU Huan-huan1,YANG Ying-ying1,JI Xia1,2
(1.College of Computer Science and Technology,Anhui University,Heifei 230601,China;2.Key Lab of IC&SP of Ministry of Education,Anhui University,Heifei 230039,China)
With the rapid development of social economy,the diversification of demand for talent,the domestic education has entered a new era of popularization.The number of graduates has increased year by year,resulting in increasingly severe employment situation of college graduates,therefore the student employment has become a hot issue of society.As an intuitive result of students’ intelligence,learning attitude and other factors,students’ academic performance more accurately reflects the overall level of the students,and also has a close relationship with employment.In order to help college students make reasonable use of their time for guiding learning,the achievement and employment data of the graduate majored in computer science and technology have been collected with basic theory of neighborhood rough set to reduce the grade attribute of student learning-employment table that has been preprocessed.Analysis on attribute reduction subset obtained has been carried out which could provide a more accurately intrinsic link between learning and employment to help undergraduate students find a favorite job.
neighborhood rough set;attribute reduction;academic record;employment situation
2016-05-09
2016-08-17 網(wǎng)絡(luò)出版時(shí)間:2017-03-13
國(guó)家自然科學(xué)基金資助項(xiàng)目(61402005);安徽省自然科學(xué)基金項(xiàng)目(1508085MF127,1308085QF114);安徽大學(xué)創(chuàng)新訓(xùn)練項(xiàng)目(201510357190);計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室課題項(xiàng)目
吳漢卿(1994-),男,研究方向?yàn)檐浖こ蹋患o(jì) 霞,博士,講師,研究方向?yàn)椴痪_信息處理、粗糙集理論等。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170313.1545.006.html
TP39
A
1673-629X(2017)05-0188-04
10.3969/j.issn.1673-629X.2017.05.039