国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘在高校招生信息化中的運(yùn)用

2016-03-22 13:27:21鄧有林
電腦知識(shí)與技術(shù) 2016年1期
關(guān)鍵詞:數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)挖掘運(yùn)用

鄧有林

摘要:數(shù)據(jù)挖掘是一門交叉性學(xué)科,它注重潛在能量,我們可以從廣博的數(shù)據(jù)庫(kù)中,找到大量有價(jià)值的知識(shí)、圖片、文字等重要信息內(nèi)容。數(shù)據(jù)庫(kù)技術(shù)、網(wǎng)絡(luò)技術(shù)以及計(jì)算機(jī)硬件,是時(shí)代發(fā)展的科技結(jié)晶,它在貯存大量數(shù)據(jù)的同時(shí),也擴(kuò)大了人們采集數(shù)據(jù)的范圍。經(jīng)過(guò)多年的發(fā)展,數(shù)據(jù)挖掘已經(jīng)在商業(yè)、金融、醫(yī)療等各個(gè)領(lǐng)域得到了廣泛的應(yīng)用。本文從數(shù)據(jù)挖掘的含義、功能出發(fā),探究了數(shù)據(jù)挖掘的種類和內(nèi)容,以及在高校招生信息化中的運(yùn)用。

關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫(kù)技術(shù);信息化;運(yùn)用

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)01-0001-02

數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是指從很泛很雜且朦朧的數(shù)據(jù)提取,同時(shí)數(shù)據(jù)提取又是非常隱秘的,人們無(wú)法預(yù)知的,但是它又真實(shí)的潛藏在,有價(jià)值的信息傳播過(guò)程中。

1 數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘是由統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)庫(kù)、可視化技術(shù)等,與當(dāng)代科技相融而成的,一門交叉性學(xué)科,是發(fā)現(xiàn)知識(shí)的重要工具。計(jì)算機(jī)硬件與數(shù)據(jù)庫(kù)技術(shù)的持續(xù)增長(zhǎng),在一定程度上帶動(dòng)了,數(shù)據(jù)信息的發(fā)展,但與此同時(shí),保存在數(shù)據(jù)庫(kù)之中以及計(jì)算機(jī)磁盤里的容量信息,卻在一步一步銳減。數(shù)據(jù)信息的肆意增長(zhǎng),漸漸蒙蔽了人們的雙眼。然而,數(shù)據(jù)挖掘技術(shù)的出現(xiàn),卻妥善的消除了信息弊端,使人們?cè)诰W(wǎng)絡(luò)信息數(shù)據(jù)庫(kù)中,找到了真正有實(shí)用價(jià)值的資源。

2 數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘的具體功能主要分為以下幾個(gè)方面:

概念描述可以分為兩種,一是特征性描述,二是區(qū)別性描述,概念描述的真實(shí)含義,就是對(duì)指定對(duì)象的內(nèi)在心理,進(jìn)行語(yǔ)言描述,并說(shuō)明這類對(duì)象的主要特點(diǎn)。特征性描述的是同一種事物的共性,區(qū)別性描述的是同一類事物的差異。描述數(shù)據(jù)的存在形式,可以是多樣化的、朦朧式的,它的主要功能,就是用戶的數(shù)據(jù)考察。

1)關(guān)聯(lián)分析

數(shù)據(jù)之間的關(guān)聯(lián)性,是數(shù)據(jù)庫(kù)中存在的一種十分重要的,容易被人挖掘的信息資源。如果多個(gè)變量的取值之間,存在著強(qiáng)烈的邏輯性,那么它就被稱為關(guān)聯(lián)。關(guān)聯(lián)通常會(huì)被分為三種,一是簡(jiǎn)單關(guān)聯(lián)、二是時(shí)序關(guān)聯(lián)、三是因果關(guān)聯(lián)。關(guān)聯(lián)分析是從大量的數(shù)據(jù)中,集結(jié)而來(lái)的微妙關(guān)系,也分為前后關(guān)系和因果關(guān)系,相互牽連。

2)分類與預(yù)測(cè)

分類數(shù)據(jù)的探究和摸索,是一項(xiàng)任重而道遠(yuǎn)的任務(wù)。分類的原因是受系統(tǒng)中的,分類函數(shù)和分類模型的影響。這種模型可以把數(shù)據(jù)資料庫(kù)中的,數(shù)據(jù)項(xiàng)目傳送到定類數(shù)據(jù)中,從而構(gòu)成分類器,但要完成傳輸任務(wù),系統(tǒng)這時(shí)就需要有一個(gè)模型樣本數(shù)據(jù)集,作為傳輸工具。

預(yù)測(cè)是系統(tǒng)利用歷史數(shù)據(jù)而設(shè)置的一個(gè)初步模型,再運(yùn)用新的數(shù)據(jù)作為輸入值,這樣就可以得出未來(lái)的數(shù)據(jù)傾向值,或是結(jié)合評(píng)估和樣本模型,才能獲取具體的屬性值或是值數(shù)的范圍。

3)聚類

聚類的含義是指,同一種相似類型的數(shù)據(jù),相互之間存在的差異性,依照數(shù)據(jù)的不同特點(diǎn),通常意義上,要將他們歸納為不同的數(shù)據(jù)種類。其目的是在距離上縮小,同一種類型的數(shù)據(jù)差異,同時(shí)在另一個(gè)角度,要拉大不同數(shù)據(jù)種類之間的距離。聚類與分類的區(qū)別主要體現(xiàn)在:分類需要提前給數(shù)據(jù)一個(gè)定義類別和模型樣本;而聚類分析就只有一個(gè)方向,那就是數(shù)據(jù)根源,不需要提前預(yù)定數(shù)據(jù)類別,也不需要模型樣本,所有的傳輸記錄,都會(huì)根據(jù)事物的相似性,匯集成同類數(shù)據(jù) 。

4)偏差分析

偏差分析又名為比較分析,是對(duì)差異性和特殊個(gè)體的描述,揭示了個(gè)體區(qū)別于其他事物的反?,F(xiàn)象,其根本思想就是,尋找到觀測(cè)結(jié)果與參照值之間的具體差別性。偏差包含了分類中的反常事物、不符合事實(shí)的特例以及觀測(cè)結(jié)果,甚至于對(duì)模型預(yù)測(cè)的差異性、數(shù)量值隨時(shí)間的變化等。

3 數(shù)據(jù)挖掘處理過(guò)程

數(shù)據(jù)挖掘的過(guò)程是多樣化的,需要細(xì)心分析,它大致可以分為問題定義、數(shù)據(jù)收集和預(yù)處理、數(shù)據(jù)挖掘,以及結(jié)果表達(dá)和解釋等。

1)問題定義

數(shù)據(jù)挖掘的主要任務(wù),就是要從大量信息數(shù)據(jù)庫(kù)中,尋找到可使用的信息資源。知識(shí)應(yīng)是數(shù)據(jù)挖掘的一個(gè)重要步驟,在問題定義階段中,數(shù)據(jù)挖掘人員一定要,與相關(guān)知識(shí)的專家聯(lián)合,確定挖掘目標(biāo),以及對(duì)數(shù)據(jù)統(tǒng)計(jì)的具體要求,最后通過(guò)不同的計(jì)算法則,選出最適合的計(jì)算方式。

2)數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備可以簡(jiǎn)單地分為三個(gè)步驟,一是數(shù)據(jù)選取、二是數(shù)據(jù)預(yù)處理、三是數(shù)據(jù)變換。數(shù)據(jù)選取的含義是,根據(jù)已有信息數(shù)據(jù),從最初的原始數(shù)據(jù)庫(kù)中,查找出適合數(shù)據(jù)挖掘的信息資源。數(shù)據(jù)預(yù)處理是對(duì),數(shù)據(jù)信息貯存的再分類,這其中包含了數(shù)據(jù)檢查的整體性,數(shù)據(jù)信息的統(tǒng)一性,以及數(shù)據(jù)內(nèi)部結(jié)構(gòu),消除雜音、彌補(bǔ)數(shù)據(jù)遺失、刪除過(guò)期數(shù)據(jù)等程序。數(shù)據(jù)變換的主要用途是,在一定范圍內(nèi),消除和減少數(shù)據(jù)維數(shù),其方法就是,從數(shù)據(jù)的最初特點(diǎn)中,尋找到可以使用的數(shù)據(jù)特點(diǎn),使數(shù)據(jù)在挖掘過(guò)程中,最大額度的減少特征的變化和變量個(gè)性,盡量減少特征的變化和變量個(gè)性。

3)挖掘的主要種類

決策樹包含著不同的種類,它大致可以分為以下幾種。

決策樹中的每一個(gè)非終結(jié)點(diǎn)在不同階段,都預(yù)示著不同字體測(cè)試和不同選擇。任何一個(gè)確定的分支,最終都取決于測(cè)試結(jié)果。它可以使用信息論中的信息增益,以獲得數(shù)據(jù)庫(kù)中最多的信息字體,然后建立一個(gè)決策樹的節(jié)點(diǎn),再結(jié)合不同字體取得建立樹分支中的一個(gè)值;于每一個(gè)分支集體中,陸續(xù)建設(shè)下層節(jié)點(diǎn)和分支,最后可實(shí)現(xiàn)一個(gè)決策樹的建立。決策樹在使用上的最大優(yōu)勢(shì)就是直觀、快速,缺陷也是相對(duì)的,隨著數(shù)據(jù)多樣性的提高,每一個(gè)分支點(diǎn)都在增加,管理的難度也會(huì)越來(lái)越高。

4)神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)系統(tǒng)的創(chuàng)立,最初是來(lái)源于,對(duì)人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)理解,以及對(duì)一些工作機(jī)制的模型仿照。這種類型的計(jì)算機(jī)模型有一個(gè)特殊之處,它可以同時(shí)集結(jié)大量的計(jì)算單元,也叫神經(jīng)元,連成大片網(wǎng)絡(luò)區(qū)域,進(jìn)行大規(guī)模計(jì)算。神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)原理,就是利用、變革神經(jīng)元之間的連接強(qiáng)度,能對(duì)復(fù)雜問題進(jìn)行精確的預(yù)測(cè),但也存在相對(duì)的缺陷,一是神經(jīng)網(wǎng)絡(luò)難以琢磨、二是神經(jīng)網(wǎng)絡(luò)受到負(fù)面訓(xùn)練的影響。

5)粗糙集方法

粗糙集方法是由波蘭邏輯家,所構(gòu)思的一種數(shù)據(jù)分析法,主要運(yùn)用于機(jī)器制造和 KDD 等領(lǐng)域,粗糙集方法在信息領(lǐng)域的主要功能,就是解決,信息存儲(chǔ)當(dāng)中的不穩(wěn)定性和不真實(shí)性等信息問題。它的工作原理就是等價(jià)類思想,等價(jià)類中的微元素在粗糙集里是密不可分的,基本操作方法就是,用粗糙集近似的方法,把信息數(shù)據(jù)中的屬性值進(jìn)行相互分離,然后將每一個(gè)系統(tǒng)屬性,歸納為等價(jià)類,再使用集合的等價(jià)關(guān)系,把信息內(nèi)容進(jìn)行簡(jiǎn)約化處理,得到一個(gè)最小決策關(guān)系,從而便于獲得規(guī)則。

4 數(shù)據(jù)挖掘技術(shù)在高校招生工作中的應(yīng)用

1)定義挖掘問題

學(xué)校在高考統(tǒng)招期間,需要單獨(dú)查詢,考生的個(gè)人信息和成績(jī)數(shù)據(jù),選用不同的方法,對(duì)學(xué)生的入學(xué)信息、生源信息及個(gè)人素質(zhì)等,進(jìn)行匯總分析,進(jìn)而得出數(shù)據(jù)背后隱藏的寶貴信息。

2)數(shù)據(jù)系統(tǒng)

數(shù)據(jù)系統(tǒng)的建立,首先需要用到,多個(gè)子集數(shù)據(jù)庫(kù)和源數(shù)據(jù)庫(kù),進(jìn)行整合編排;其次尋找相關(guān)的數(shù)據(jù)資料,并從中篩選出,適合用于數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù);最后,要把之前所收集的所有數(shù)據(jù)進(jìn)行調(diào)換,調(diào)換之后的數(shù)據(jù),一方面要契合原數(shù)據(jù)的信息內(nèi)容,另一方面又要符合挖掘算法的需求。在整個(gè)數(shù)據(jù)預(yù)處理過(guò)程中,調(diào)換工作就成為了一個(gè)重點(diǎn)難題,需要使用者,在系統(tǒng)建設(shè)中,不斷總結(jié)、不斷尋找、反復(fù)修改,最終完成數(shù)據(jù)調(diào)換的工作,并同時(shí)解決數(shù)據(jù)質(zhì)量問題。

3)學(xué)生入學(xué)信息的預(yù)處理

姓名、 性別、 民族…是新生入學(xué)的基本信息數(shù)據(jù),為了便于日后的信息查詢,需要對(duì)個(gè)人資料進(jìn)行總結(jié)、轉(zhuǎn)化等預(yù)處理操作。然而在所有字段中,最難以操作的信息內(nèi)容,就是學(xué)生的總成績(jī)和生源地等信息。因?yàn)椴煌貐^(qū)的,不同成績(jī),以及不同地區(qū)的考試內(nèi)容,學(xué)校在各省的錄取分?jǐn)?shù)線也有一定的差異,所以學(xué)生的素質(zhì)也不盡相同,不能僅僅通過(guò)總分?jǐn)?shù)去衡量一個(gè)學(xué)生,只能轉(zhuǎn)化標(biāo)準(zhǔn)分?jǐn)?shù)。比如可以對(duì)不同學(xué)生的生源地信息,進(jìn)行整體歸納。例如:按省份劃分將同一省份的學(xué)生歸為同一類;或是按照,生源城市劃分為市區(qū)、城鎮(zhèn)等,其中還包含了,學(xué)生的成績(jī)、獲獎(jiǎng)等內(nèi)容信息。

4)關(guān)聯(lián)規(guī)則挖掘

數(shù)據(jù)關(guān)聯(lián)和差異性指的是,信息對(duì)象在不同階段的發(fā)展現(xiàn)狀和發(fā)展結(jié)果,例如同一系別、同一年級(jí)、不同成績(jī)的學(xué)生現(xiàn)狀,這就是數(shù)據(jù)信息的關(guān)聯(lián)性,然而在經(jīng)過(guò),大學(xué)的培訓(xùn)教育之后,所得到的不同教育成果,就是信息的差異性。

然后,學(xué)校可以根據(jù),信息的關(guān)聯(lián)性和差異性,總結(jié)、分析出,學(xué)生的發(fā)展?jié)撡|(zhì)和綜合技能,從而得到新的教育理念,為學(xué)校的招生工作,提供參考依據(jù)。

5 結(jié)語(yǔ)

隨著數(shù)據(jù)挖掘技術(shù)的不斷完善、不斷發(fā)展,數(shù)據(jù)挖掘已經(jīng)在多個(gè)領(lǐng)域,被人們所使用,在教學(xué)領(lǐng)域中,數(shù)據(jù)挖掘的范圍,已經(jīng)逐漸延伸到,學(xué)校的信息招生中,它的獨(dú)特功能以及,快速處理信息的手段,總能有效的解決各種信息困擾,以前人們總是盲目跟風(fēng),使用別人的信息資源和信息技術(shù),最后導(dǎo)致了信息管理的混亂,然而數(shù)據(jù)挖掘工具能夠,有效的、快速的查找出,招生工作中的規(guī)律,為招生決策者提供重要依據(jù)。

參考文獻(xiàn):

[1]劉同明.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].北京:國(guó)防工業(yè)出版,2001.

[2]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國(guó)水利水電出版社,2003.

[3]陳京民.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].北京:電子工業(yè)出版社,2002.

[4] 王志浩,數(shù)據(jù)挖掘在招生管理系統(tǒng)中的應(yīng)用研究[D].山東師范大學(xué),2007,

[5] 李升林,烏蘭木其. 基于數(shù)據(jù)挖掘的需求分析研究[J].中國(guó)機(jī)械工程,2003,14(5).

猜你喜歡
數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)挖掘運(yùn)用
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù)在信息管理中的運(yùn)用
數(shù)據(jù)庫(kù)技術(shù)在云計(jì)算背景下的應(yīng)用
新形勢(shì)下數(shù)據(jù)庫(kù)原理的雙語(yǔ)教學(xué)
數(shù)據(jù)庫(kù)課程微課設(shè)計(jì)及應(yīng)用
“贊賞發(fā)現(xiàn)”在高中語(yǔ)文教學(xué)中的運(yùn)用
探析集約化管理在企業(yè)人力資源管理中的運(yùn)用
游戲教學(xué)法在小學(xué)英語(yǔ)課堂教學(xué)中的運(yùn)用
考試周刊(2016年76期)2016-10-09 09:26:45
巧用插圖,注入課堂活力
浦东新区| 兴文县| 崇仁县| 都安| 昌乐县| 涟源市| 卓资县| 黄浦区| 富川| 南安市| 澎湖县| 东乌珠穆沁旗| 兴业县| 邯郸县| 新乡市| 广安市| 香格里拉县| 铁岭市| 龙门县| 崇州市| 炉霍县| 丰县| 澎湖县| 亚东县| 革吉县| 沾化县| 深圳市| 土默特右旗| 阜阳市| 泰兴市| 临洮县| 平原县| 永靖县| 汾阳市| 金华市| 什邡市| 辽源市| 诸城市| 永州市| 安多县| 澄迈县|