陳芷萱 申艷玲 程小黎
摘要:隨著大數(shù)據(jù)時(shí)代的日益發(fā)展,python語言的使用率呈線性增長(zhǎng),其中在數(shù)據(jù)分析與處理上更是應(yīng)用廣泛。本文利用matplotlib庫、pandas庫等第三方庫對(duì)本校青年大學(xué)習(xí)的數(shù)據(jù)進(jìn)行可視化分析,并利用WordCloud庫對(duì)大家學(xué)習(xí)的感受以詞圖云的方式展示,為分析青年大學(xué)習(xí)給大學(xué)生帶來的影響提供依據(jù),并對(duì)學(xué)院學(xué)習(xí)的情況做一個(gè)真實(shí)的反饋,方便各個(gè)班級(jí)及時(shí)調(diào)整學(xué)習(xí)方式,引起對(duì)青年大學(xué)習(xí)的關(guān)注。
關(guān)鍵詞:數(shù)據(jù)分析;可視化;DataFrame;WordCloud
引言
青年大學(xué)習(xí)是共青團(tuán)中央為把組織引導(dǎo)廣大青年深入學(xué)習(xí)宣傳貫徹習(xí)近平新時(shí)代中國特色社會(huì)主義思想和黨的十九大精神持續(xù)引向深入而組織的青年學(xué)習(xí)行動(dòng)。目的是為了引導(dǎo)廣大青年“不忘初心、牢記使命”,堅(jiān)定不移聽黨話、跟黨走。但是如何才能知道學(xué)生對(duì)于大學(xué)習(xí)之后的感想以及學(xué)習(xí)率的波動(dòng)狀態(tài),是很多大學(xué)習(xí)負(fù)責(zé)人想解決的問題。本文利用python語言以及多個(gè)庫的使用,對(duì)本院青年大學(xué)習(xí)數(shù)據(jù)進(jìn)行多維度的分析,并通過可視化圖形進(jìn)行清晰地展示,為班級(jí)負(fù)責(zé)人及領(lǐng)導(dǎo)提供學(xué)習(xí)情況反饋,以引起大學(xué)生對(duì)于青年大學(xué)習(xí)的廣泛關(guān)注。
2.基于python的數(shù)據(jù)導(dǎo)入與處理
2.1 pandas庫中DataFrame的運(yùn)用
數(shù)據(jù)導(dǎo)入需要在Anaconda Prompt 中安裝pandas庫,pandas庫為python語言提供了高性能、易于使用的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具表, DataFrame對(duì)象是Pandas庫中最主要的數(shù)據(jù)結(jié)構(gòu)之一,安裝好Pandas庫后利用DataFrame對(duì)象導(dǎo)入數(shù)據(jù)(2021年2019級(jí)管理學(xué)院青年大學(xué)習(xí)情況表.xlsx),關(guān)鍵代碼如下:
import pandas as pd #引入pandas庫
import matplotlib.pyplot as plt ?#引入matplotlib庫,后續(xù)做圖像處理
import matplotlib
df=pd.read_excel(r'D:\2021年2019級(jí)管理學(xué)院青年大學(xué)習(xí)情況表.xlsx') #利用DataFrame導(dǎo)入數(shù)據(jù)
2.2 數(shù)據(jù)清洗與處理
導(dǎo)入的數(shù)據(jù)可能原始數(shù)據(jù)會(huì)出現(xiàn)一些問題,為了方便制圖和分析可以對(duì)數(shù)據(jù)進(jìn)行清洗和處理。利用DataFrame對(duì)象對(duì)平均學(xué)習(xí)率進(jìn)行排名。關(guān)鍵代碼如下:
group=df.groupby('專業(yè)') #以‘專業(yè)分組
avg=group.mean() #求平均值
df1=avg['平均學(xué)習(xí)率'].round(2) #保留兩位小數(shù)
df1=avg.sort_values(by=['平均學(xué)習(xí)率']) #以‘平均學(xué)習(xí)率排序
df1['排名']=list(range(1,13)) #增加‘排名列
3.青年大學(xué)習(xí)學(xué)習(xí)情況可視化分析
3.1 用折線圖呈現(xiàn)學(xué)習(xí)情況
Matplotlib庫是Python的第三方庫,有著非常多的可視化繪圖類,內(nèi)部結(jié)構(gòu)復(fù)雜,這里利用matplotlib中非常便捷的繪圖子模塊pyplot來進(jìn)行圖形繪制和分析。然后觀察取平均學(xué)習(xí)率前6名繪制折線圖,折線圖可以清晰地反映2021年第一學(xué)期該學(xué)院的學(xué)習(xí)波動(dòng)情況,是否平穩(wěn)可以間接的反映各個(gè)專業(yè)的認(rèn)真程度。
關(guān)鍵代碼如下:
matplotlib.rcParams['font.family']='Kaiti' #為了在繪制圖表中支持中文顯示,設(shè)置字體為黑體
avg.loc['2019級(jí)研究生'].plot(kind='line',color='green',title='各專業(yè)學(xué)習(xí)情況',marker='*') #篩選‘2019級(jí)研究生行,設(shè)為線性,綠色,標(biāo)題為‘各專業(yè)學(xué)習(xí)情況,數(shù)據(jù)標(biāo)記為‘*
…
plt.ylim(0,1) #設(shè)置y軸區(qū)間
plt.xlim(0,9) #設(shè)置x軸區(qū)間
plt.legend(["2019級(jí)研究生","2019級(jí)會(huì)計(jì)學(xué)(ACCA)","2019級(jí)市場(chǎng)營(yíng)銷","2019級(jí)會(huì)計(jì)學(xué)","2019級(jí)物流管理","","2019級(jí)物流工程"])#添加圖例
3.2 用詞云圖分析大學(xué)生對(duì)青年大學(xué)習(xí)的學(xué)習(xí)狀態(tài)
青年大學(xué)習(xí)對(duì)于大學(xué)生的影響情況以及學(xué)習(xí)的真實(shí)反饋對(duì)每個(gè)院校甚至共青團(tuán)中央都有價(jià)值,在這里運(yùn)用Python語言中WordCloud庫呈現(xiàn)青年大學(xué)習(xí)評(píng)論中頻率較高的“關(guān)鍵詞”。這里用WordCloud文本生成的方法,主要步驟:下載和安裝WordCloud庫的安裝包,準(zhǔn)備評(píng)論文本以及想生成詞云的形狀(喜歡的圖片),引入WordCloud庫,定義一個(gè)新的函數(shù),最后設(shè)置變量就可以呈現(xiàn)詞云。
從圖形上看, “太棒了”、“自強(qiáng)”等詞匯非常顯眼,說明大部分人從青年大學(xué)習(xí)中學(xué)習(xí)新思想有非常正面的引導(dǎo),青年大學(xué)習(xí)是可以提高政治覺悟和理論修養(yǎng)的。詞云圖的關(guān)鍵代碼如下:
def get_cloud(word_counts,i): #定義函數(shù)
img = Image.open(r'./tree3.jfif')
img_array = np.array(img) ?#將圖片變?yōu)閿?shù)組
wc = WordCloud(
background_color = 'white', # 背景顏色
mask = img_array, ?#遮罩圖片
font_path = 'msyh.ttc' ?#字體樣式
)
wc.generate_from_frequencies(word_counts) ?#生成詞云圖
fig = plt.figure(1)
plt.imshow(wc) ?# 顯示詞云
plt.subplots_adjust(top=0.99, bottom=0.01, right=0.99, left=0.01, hspace=0, wspace=0) #調(diào)整邊框
plt.savefig(r'./movie{0}.jpg'.format(i),dpi = 500) ? ?#保存圖片
words = []
with open('./word.txt','r',encoding='utf-8') ?as f:
…
總結(jié)
本文利用Python語言以及第三方庫對(duì)院校青年大學(xué)習(xí)學(xué)習(xí)情況進(jìn)行分析,對(duì)數(shù)據(jù)進(jìn)行清洗和整理,使用圖表和詞云圖等對(duì)數(shù)據(jù)進(jìn)行可視化呈現(xiàn),于此為青年大學(xué)習(xí)負(fù)責(zé)人以及大學(xué)生提供更加直觀的信息,學(xué)習(xí)反饋有助于解讀大學(xué)生真實(shí)的思想狀況。這樣的數(shù)據(jù)分析可用于多數(shù)具有數(shù)據(jù)表格和評(píng)價(jià)體系的事物上,多維度解讀數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)的規(guī)律和特征。下一步,可以對(duì)每一種分析建立相應(yīng)的程序,使之更加便捷的處理數(shù)據(jù),為各種需要通過數(shù)據(jù)分析的平臺(tái)提供更大的幫助。
參考文獻(xiàn)
[1]趙璐,孫冰,蔡源,陳東 Python語言程序設(shè)計(jì)教程
[2]徐勤亞,網(wǎng)頁設(shè)計(jì)在平面設(shè)計(jì)中的應(yīng)用[J].安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院
[3]胡非,韓永輝,許超,周巧妮,基于 Python 的可視化工具研究與應(yīng)用 [J]. 工程技術(shù)研究,2018(13):25-26
[4]賈檸瑜.基于 python 爬蟲的崗位數(shù)據(jù)分析--以拉勾網(wǎng)為例[J].信息技術(shù)與信息化,20 1 9,4:6 4-6 6
作者簡(jiǎn)介:1陳芷萱(出生年份—2001),女,藏族,四川平武,學(xué)生,本科,西華大學(xué),工業(yè)工程專業(yè),研究方向:大數(shù)據(jù)分析
2申艷玲(出生年份—2000年),單位:西華大學(xué),人力資源專業(yè)
3程小黎 (出生年份—2000) ?西華大學(xué) 工業(yè)工程專業(yè)