徐勇+楊佳梅+段妮歌+弋改珍
摘要:隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)分析技術(shù)已經(jīng)在各行各業(yè)得到了應(yīng)用和發(fā)展。研究了數(shù)據(jù)分析技術(shù)中主成分分析方法的原理和數(shù)據(jù)建模方法。以咸陽(yáng)師范學(xué)院大學(xué)生上網(wǎng)行為數(shù)據(jù)為數(shù)據(jù)源,借助SAS軟件中的數(shù)據(jù)庫(kù)和分析模塊,對(duì)數(shù)據(jù)源進(jìn)行采集、整理、清洗,建立分析指標(biāo),對(duì)預(yù)處理后的數(shù)據(jù)從購(gòu)物、社交、科技等網(wǎng)址類別指標(biāo)進(jìn)行主成分分析,得到大學(xué)生上網(wǎng)的高峰期和不同類別對(duì)大學(xué)生上網(wǎng)情況的影響。最后,根據(jù)對(duì)大學(xué)生上網(wǎng)情況的分析提出合理的規(guī)劃與建議。
關(guān)鍵詞:大數(shù)據(jù);主成分分析;大學(xué)生上網(wǎng)行為數(shù)據(jù)
中圖分類號(hào):G202 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)33-0018-03
Abstract: With the advent of the era of big data, big data analysis technology has been applied and developed in all walks of life. The principle of principal component analysis and data modeling methods are studied. Using the students online behavior data for data source in XianYang Normal University, using database and analysis module in SAS software, the data source collection, sorting, cleaning and set up the index, and the pre processed data from shopping, social, science and technology. The types of indicators for principal component analysis, University students' in Internet the peak and different categories of Internet influence on students, finally put forward the planning and reasonable suggestions for college students.
Key words: big data; principal component analysis; university students' Internet behavior data
隨著互聯(lián)網(wǎng)的飛速發(fā)展,生活在信息時(shí)代下的大學(xué)生們,自然少不了對(duì)于網(wǎng)絡(luò)的使用。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布報(bào)告中的數(shù)據(jù),表明網(wǎng)民的規(guī)模在迅速增大[1]。為了研究網(wǎng)絡(luò)對(duì)大學(xué)生的影響,利用主成分分析方法對(duì)大學(xué)生上網(wǎng)行為數(shù)據(jù)進(jìn)行分析。
主成分分析方法先是由K.皮爾森針對(duì)非隨機(jī)變量引入的,爾后H.霍特林將此方法推廣到隨機(jī)向量的情形,其實(shí)際應(yīng)用十分廣泛,比如人口統(tǒng)計(jì)學(xué)、數(shù)學(xué)建模、數(shù)理分析等學(xué)科中,是一種常用的多變量分析方法[2]。SAS作為統(tǒng)計(jì)分析的標(biāo)準(zhǔn)軟件,被廣泛應(yīng)用于科研,教育,生產(chǎn)和金融等不同的領(lǐng)域,并且發(fā)揮著越來(lái)越重要的作用[3]。
本文通過(guò)研究主成分分析方法的原理和數(shù)據(jù)建模方法,以我校大學(xué)生上網(wǎng)行為數(shù)據(jù)為數(shù)據(jù)源,借助SAS軟件中的數(shù)據(jù)庫(kù)和分析模塊,對(duì)數(shù)據(jù)源進(jìn)行采集、整理、清洗,建立分析指標(biāo)。并對(duì)預(yù)處理后的數(shù)據(jù)在一定時(shí)間段的上網(wǎng)人數(shù),從購(gòu)物、軍事、科技、旅游、社交、體育、新聞、學(xué)習(xí)、音樂(lè)、影像、游戲、工具、其他等13個(gè)不同類別的網(wǎng)址指標(biāo)進(jìn)行主成分分析。通過(guò)數(shù)據(jù)分析得到大學(xué)生上網(wǎng)的高峰期以及不同類別對(duì)大學(xué)生上網(wǎng)情況的影響,最終針對(duì)大學(xué)生上網(wǎng)情況提出合理的規(guī)劃與建議。
1 主成分分析方法的數(shù)學(xué)原理
在實(shí)際問(wèn)題的研究中,往往需要考慮很多因素,由于每個(gè)變量彼此之間都存在一定的相關(guān)性,導(dǎo)致所得到的觀測(cè)值所反映的信息在內(nèi)容上存在重疊,而研究者往往希望變量越少越好,少量的變量所反映的信息量越多越好,主成分分析[4]正是解決了這類問(wèn)題,是將多個(gè)指標(biāo)化為少數(shù)互相無(wú)關(guān)的綜合指標(biāo)的一種多元統(tǒng)計(jì)分析方法。
2 數(shù)據(jù)預(yù)處理
利用主成分分析的降維思想,選取每天24小時(shí)作為變量,用主成分分析方法來(lái)處理一周中每天的時(shí)間段的數(shù)據(jù),其分析結(jié)果將會(huì)為我們找到包含大部分信息的時(shí)間段,這樣有助于進(jìn)一步的分析。
2.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)源來(lái)源于我校大學(xué)生上網(wǎng)行為數(shù)據(jù),由于原始數(shù)據(jù)是日志文件,不是數(shù)據(jù)分析需要的結(jié)構(gòu)化數(shù)據(jù)。在數(shù)據(jù)分析之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,即數(shù)據(jù)的整理與清洗。數(shù)據(jù)源選取時(shí)間為4月11號(hào)~4月16號(hào)一個(gè)星期的上網(wǎng)數(shù)據(jù)。數(shù)據(jù)的觀測(cè)是按時(shí)間進(jìn)行排序的,指標(biāo)有日期、學(xué)號(hào)、網(wǎng)址等。
在運(yùn)用主成分分析的分析方法進(jìn)行分析大學(xué)生上網(wǎng)數(shù)據(jù)分析之前,要將數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理主要分為以下幾個(gè)步驟:
① 數(shù)據(jù)的合并及導(dǎo)入
原始數(shù)據(jù)是每小時(shí)的數(shù)據(jù),要利用(copy *.log 合并文件.txt)進(jìn)行每小時(shí)數(shù)據(jù)的合并,合并成為一天的數(shù)據(jù)。接下來(lái)在SAS中利用IMPORT過(guò)程將一天的數(shù)據(jù)導(dǎo)入。
② 數(shù)據(jù)的整理
為了通過(guò)主成分分析上網(wǎng)高峰期,先選取學(xué)生作為指標(biāo),利用PROC SQL過(guò)程查找有效學(xué)號(hào)信息,并進(jìn)行記錄。通過(guò)SAS中DROP VARIABLE-LIST過(guò)程過(guò)濾掉缺省值,比如無(wú)效學(xué)號(hào)、教職工信息、網(wǎng)址等。
③ 數(shù)據(jù)的清洗
利用SAS中nodupkey函數(shù)對(duì)不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的觀測(cè)進(jìn)行清洗。
2.2 建立指標(biāo)
選取每一類網(wǎng)址([n])的每天作為樣本指標(biāo)([p]),分別用符號(hào)X0,X1,X2,X3,X4,X5,X6,X7來(lái)表示。其表示矩陣為[Mij] ([i=1,2,…,n;j=1,2,…,p])。
3 主成分分析法在大學(xué)生上網(wǎng)行為數(shù)據(jù)中的應(yīng)用
1)計(jì)算指標(biāo)的相關(guān)系數(shù)矩陣
利用SAS中的主成分分析函數(shù),計(jì)算出2.2中建立的指標(biāo)的相關(guān)系數(shù)矩陣,如圖1所示。從系數(shù)矩陣中分析部分?jǐn)?shù)據(jù)可知網(wǎng)址之間相關(guān)性都比較高,說(shuō)明每個(gè)網(wǎng)址分類之間存在著的一定的相關(guān)性,他們內(nèi)部有一定的關(guān)聯(lián)。
2)計(jì)算相關(guān)系數(shù)陣的特征值,特征向量及碎石圖
結(jié)合上節(jié)中的主成分分析的原理,利用SAS中主成分分析函數(shù),計(jì)算相關(guān)系數(shù)矩陣的特征值、特征向量及碎石圖,如圖2所示。一周上網(wǎng)數(shù)據(jù)的特征值結(jié)果可以看出前5個(gè)特征值的累計(jì)貢獻(xiàn)率達(dá)98.91%。前3個(gè)特征值的累計(jì)貢獻(xiàn)率達(dá)91.06%,說(shuō)明前3個(gè)主要成分基本包含了全部指標(biāo),則取前三個(gè)特征值,并計(jì)算出相應(yīng)的特征向量,特征向量的結(jié)果如圖3所示。從圖3可以看出第一主成分的表達(dá)式中,各個(gè)指標(biāo)系數(shù)之間有一定差距,其中x0,x8,x10,x11的系數(shù)均大于0.3,說(shuō)明可以把第一主成分看成是工具,學(xué)習(xí),影像,游戲的綜合指標(biāo)。第二主成分表達(dá)式中,x5,x9的指標(biāo)系數(shù)大,故起主要作用,說(shuō)明第二主成分可以看作音樂(lè)和社交的綜合指標(biāo)。第三主成分表達(dá)式中,x2,x6,x7的指標(biāo)系數(shù)大,故可以看作軍事,體育,新聞的綜合指標(biāo)。一周的和一天的主成分分析還是有一點(diǎn)差距的,從其差距中看出同學(xué)們對(duì)軍事,體育,新聞還是有一定的愛(ài)好的。
圖4是碎石圖,前3個(gè)主成分占了全部的主成分的91%以上,也可以說(shuō),在主成分3左右出現(xiàn)一個(gè)拐點(diǎn),在這個(gè)拐點(diǎn)之后,曲線變得平滑,所以可以用3個(gè)主成分來(lái)表示原有樣本數(shù)據(jù)信息。
4 分析結(jié)果
通過(guò)分析我們發(fā)現(xiàn),有一部分人經(jīng)常熬夜上網(wǎng),并且絕大多數(shù)人每天的上網(wǎng)時(shí)長(zhǎng)都在兩三個(gè)小時(shí)以上,而針對(duì)他們上網(wǎng)的類別,分析其特征值可看出影像,學(xué)習(xí),社交,購(gòu)物的影響比較大。其次游戲和使用工具的人數(shù)也占不少的比例。在科技、旅游、軍事、體育、新聞等方面,也有不少學(xué)生進(jìn)行瀏覽,說(shuō)明這是一個(gè)健康的上網(wǎng)數(shù)據(jù),但對(duì)于當(dāng)代大學(xué)生來(lái)說(shuō),這些方面所占比例較少。
針對(duì)這些問(wèn)題,我們提出以下建議:
1)大學(xué)生應(yīng)減少上網(wǎng)時(shí)長(zhǎng),做到用電腦兩個(gè)小時(shí)后休息一小時(shí)。培養(yǎng)良好的上網(wǎng)習(xí)慣。
2)大學(xué)生應(yīng)多關(guān)注新聞,科技,軍事等相關(guān)資訊,及時(shí)了解時(shí)事新聞,獲取各種最新的知識(shí)和信息。
3)大學(xué)生應(yīng)減少在購(gòu)物以及娛樂(lè)上所花的時(shí)間,將其投入到學(xué)習(xí)中去,充實(shí)自己的知識(shí)。
4)學(xué)校應(yīng)開(kāi)設(shè)網(wǎng)絡(luò)素質(zhì)教育課程,培養(yǎng)學(xué)生良好的上網(wǎng)習(xí)慣。宣傳正確的上網(wǎng)心態(tài)。
5 結(jié)束語(yǔ)
通過(guò)研究主成分分析方法,更加了解了數(shù)據(jù)分析的重要性,而主成分分析方法不僅消除了各變量之間的共線性,減少了變量的個(gè)數(shù),還減少了指標(biāo)選擇的工作量,使后續(xù)分析在指標(biāo)的選擇上相對(duì)容易,在用主成分分析法作綜合評(píng)估時(shí),由于選擇的是累計(jì)貢獻(xiàn)率大于等于85%的成分,這樣就不會(huì)因?yàn)楣?jié)省了工作量,而把關(guān)鍵指標(biāo)遺漏掉,從而在一定程度上影響了評(píng)估的結(jié)果。但當(dāng)主成分的因子的符號(hào)有正有負(fù)時(shí),綜合評(píng)估的意義就不明確了,這也是主成分分析的缺點(diǎn)。
參考文獻(xiàn):
[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心. 第37次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R]. 2016.
[2] 何曉群. 現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用[M] .北京:中國(guó)人民大學(xué)出版社, 2003 .
[3] 胡小平, 王長(zhǎng)發(fā). SAS基礎(chǔ)統(tǒng)計(jì)實(shí)例教程[M]. 西安: 西安地圖出版社, 2001.
[4] 謝龍漢, 尚濤. SAS統(tǒng)計(jì)分析方法與數(shù)據(jù)挖掘[M]. 北京: 電子工業(yè)出版社, 2012.
[5] 許淑娜, 李長(zhǎng)坡. 對(duì)主成分分析法三個(gè)問(wèn)題的剖析[J]. 數(shù)學(xué)理論與應(yīng)用, 2011, 31(4): 116-121.