四川信息職業(yè)技術(shù)學(xué)院軟件學(xué)院 周建儒
應(yīng)用大數(shù)據(jù)技術(shù)從知名招聘網(wǎng)站采集軟件技術(shù)人才的招聘信息,然后針對具體專業(yè)技術(shù)領(lǐng)域,分析目前人才市場需求的技術(shù)熱點、人員需求量、工作經(jīng)驗等信息,并根據(jù)這些數(shù)據(jù),設(shè)計不同專業(yè)方向的專業(yè)課程體系和核心課程中應(yīng)含有的關(guān)鍵技術(shù)。這樣能使人才培養(yǎng)與行業(yè)發(fā)展和企業(yè)實際人才需求緊密銜接。實踐證明,用大數(shù)據(jù)技術(shù)輔助專業(yè)人才培養(yǎng)方案的設(shè)計是科學(xué)而有效的方法。
人才培養(yǎng)方案是高職院校實施專業(yè)人才培養(yǎng)的基本依據(jù),發(fā)揮著至關(guān)重要的作用。2019年教育部發(fā)布的《關(guān)于職業(yè)院校專業(yè)人才培養(yǎng)方案制訂與實施工作的指導(dǎo)意見》明確指出,職業(yè)院校要緊跟產(chǎn)業(yè)發(fā)展趨勢和行業(yè)人才需求,建立健全行業(yè)企業(yè)、第三方評價機(jī)構(gòu)等多方參與的專業(yè)人才培養(yǎng)方案動態(tài)調(diào)整機(jī)制。人才培養(yǎng)方案要與行業(yè)發(fā)展相契合。四川信息職業(yè)技術(shù)學(xué)院(以下簡稱我院)每年要召開專業(yè)建設(shè)研討會,邀請企業(yè)的專業(yè)技術(shù)人員、行業(yè)專家參加人才培養(yǎng)方案的研討和修訂工作,聽取專家的意見,并確定專業(yè)核心課程及關(guān)鍵技術(shù)。但是,這個過程中也存在一些問題。第一,由于專家自身對專業(yè)領(lǐng)域了解的不夠全面,所以,提出的意見也有片面性。第二,由于專家從事技術(shù)領(lǐng)域不同,有時會針對同一個問題提出相互矛盾的意見。第三,人才培養(yǎng)方案的制訂受主觀因素影響較大,而且缺乏科學(xué)論證。要使人才培養(yǎng)方案更加科學(xué)并具有前瞻性,就必須有大量的實際數(shù)據(jù)做支撐,這些數(shù)據(jù)可以從知名招聘網(wǎng)站上爬取,比如前程無憂、智聯(lián)招聘、拉鉤網(wǎng)等。爬取的數(shù)據(jù)包括,崗位名稱、公司名稱、工作地點、學(xué)歷要求、經(jīng)驗要求、薪資、職位描述、公司行業(yè)等。將爬取的數(shù)據(jù)存儲在數(shù)據(jù)庫中,然后進(jìn)行數(shù)據(jù)預(yù)處理,最后分析數(shù)據(jù),得出與工作崗位相對應(yīng)且需求廣泛的專業(yè)技術(shù)、專業(yè)知識、專業(yè)課程。這些具體的技術(shù)需求,就是修訂人才培養(yǎng)方案中專業(yè)課程體系的依據(jù)。這樣做的目地是使學(xué)校傳授的專業(yè)知識與企業(yè)實際需求相銜接。
軟件人才需求分析系統(tǒng)是使用python語言,基于Scrapy框架編寫完成。系統(tǒng)有四個模塊,分別是數(shù)據(jù)爬蟲模塊,數(shù)據(jù)存儲模塊,數(shù)據(jù)預(yù)處理模塊,數(shù)據(jù)分析模塊。
Scrapy是一個開源爬蟲框架,它是為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。它已經(jīng)為用戶實現(xiàn)了基礎(chǔ)的必要功能,用戶可以在框架的基礎(chǔ)上根據(jù)自己的需求進(jìn)行快速開發(fā),實現(xiàn)具體的應(yīng)用需求。該框架由引擎、調(diào)度器、下載器、Spiders、Item Pipelines、下載器中間件、Spider中間件構(gòu)成,每個組件有不同的分工與功能。
Scrapy Engine:引擎是框架的核心,負(fù)責(zé)控制數(shù)據(jù)流在系統(tǒng)的所有組件中流動,并在相應(yīng)動作發(fā)生時觸發(fā)事件。Scheduler:調(diào)度器主要作用是存儲待爬取的網(wǎng)址,并確定這些網(wǎng)址的下載優(yōu)先級。Downloader:下載器是對網(wǎng)絡(luò)中要爬取的頁面資源進(jìn)行下載,然后將這些數(shù)據(jù)傳輸給引擎,再由引擎?zhèn)鬟f給對應(yīng)的爬取器進(jìn)行處理。Spiders:爬取器是用戶編寫的用于分析Response并提取Item或額外跟進(jìn)的URL的類。每個爬取器負(fù)責(zé)處理一個特定網(wǎng)站,用戶可以根據(jù)自己的實際需求增加特定的爬取器。
在知名招聘網(wǎng)站上主要針對6個技術(shù)領(lǐng)域(Java、PHP、Python、HTML5、web前端、運維工程師)采集數(shù)據(jù)。數(shù)據(jù)包括公司名稱、公司行業(yè)、公司規(guī)模、學(xué)歷要求、工作經(jīng)驗、職位描述、薪資等。為了采集這些數(shù)據(jù),首先要分析目標(biāo)網(wǎng)站的網(wǎng)頁層次結(jié)構(gòu)和頁面地址的命名規(guī)律,以便進(jìn)行連續(xù)多個頁面的數(shù)據(jù)爬取;然后分析網(wǎng)頁源代碼,定制爬取規(guī)則,并使用Xpath或者Beautiful Soup準(zhǔn)確定位網(wǎng)頁源碼中的數(shù)據(jù)元素;最后是從調(diào)度器中取出每個URL交給引擎,爬取需要的數(shù)據(jù)。
使用Scrapy框架編寫的爬蟲程序從招聘網(wǎng)站采集到的數(shù)據(jù)大多是非結(jié)構(gòu)性的數(shù)據(jù),Scrapy將解析的結(jié)果以字典的形式返回,但是python中字典缺少結(jié)構(gòu),在爬蟲系統(tǒng)中使用不方便。可以使用Scrapy.Item類,Item提供了類似于字典的API,可以聲明字段,保存結(jié)構(gòu)化的數(shù)據(jù)。爬取的數(shù)據(jù)通過Item文件對數(shù)據(jù)進(jìn)行格式化處理后,保存在MySQL數(shù)據(jù)庫中。
數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理的第一步,是提高數(shù)據(jù)質(zhì)量的有效方法。數(shù)據(jù)清洗的主要任務(wù)是提高數(shù)據(jù)的可用性,去除噪聲、無關(guān)數(shù)據(jù)以及空值等。
數(shù)據(jù)清洗的基本規(guī)則:第一,去掉關(guān)鍵數(shù)據(jù)中的缺失值;第二,在一個區(qū)間內(nèi)取值的數(shù)據(jù)用平均值替換,例如工作經(jīng)驗1-3年,就用浮點數(shù)2.0替換;第三,薪資轉(zhuǎn)換為浮點數(shù);第四,用jieba庫對“崗位描述”進(jìn)行分詞,取出專業(yè)技術(shù)的關(guān)鍵詞,例如Python、Redis、MongoDB等。將數(shù)據(jù)保存到Pandas庫的DataFrame里,并按照清洗規(guī)則進(jìn)行數(shù)據(jù)清洗。
將清洗后的數(shù)據(jù)逐條取出并構(gòu)造出多個列表,例如公司列表、職位描述列表、薪資列表、工作經(jīng)驗列表、招聘人數(shù)列表等。然后,遍歷每個列表,并通過定位或者包含字段或者正則表達(dá)式等方法,可以統(tǒng)計出需要的關(guān)鍵數(shù)據(jù)。
將不同招聘網(wǎng)站的數(shù)據(jù)進(jìn)行處理,轉(zhuǎn)換成統(tǒng)一格式之后,可以使用Spark、Mapreduce等框架對數(shù)據(jù)進(jìn)行統(tǒng)計和分析。Apache Spark是一個適合大規(guī)模數(shù)據(jù)處理,快速通用的計算引擎,它是一種基于內(nèi)存分布數(shù)據(jù)集的開源集群計算環(huán)境,不僅提供交互式查詢,還可以優(yōu)化迭代工作負(fù)載。Mapreduce是面向大數(shù)據(jù)并行處理的計算模型。在本系統(tǒng)中分析統(tǒng)計的數(shù)據(jù)有公司列表數(shù)據(jù)、職位描述列表數(shù)據(jù)、薪資列表數(shù)據(jù)、工作經(jīng)驗列表數(shù)據(jù)、招聘人數(shù)列表數(shù)據(jù)等。其中核心是分析職位描述列表數(shù)據(jù),包括專業(yè)技術(shù)要求、崗位職責(zé)、學(xué)歷條件、招聘人數(shù)、工作地點等。通過數(shù)據(jù)分析獲得每個專業(yè)方向目前市場需要的熱點技術(shù)是哪些、需求量、區(qū)域分布、薪資水平、工作經(jīng)驗、公司規(guī)模及從事行業(yè)等詳細(xì)信息。這些數(shù)據(jù)將為專業(yè)人才培養(yǎng)方案的設(shè)計提供有力的數(shù)據(jù)支撐。
軟件人才需求分析系統(tǒng)從招聘網(wǎng)站采集軟件技術(shù)專業(yè)多個技術(shù)領(lǐng)域的人才需求數(shù)據(jù),包括公司名稱、公司行業(yè)、工作經(jīng)驗、招聘人數(shù)、職位描述等。將采集到的數(shù)據(jù)保存在數(shù)據(jù)庫中,然后進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理,對數(shù)據(jù)進(jìn)行分析。主要是針對每個技術(shù)領(lǐng)域分析該領(lǐng)域內(nèi)企業(yè)需要掌握哪種技術(shù)的人才,需求量是多少,以及從事該崗位工作的基本條件和要求。例如工作經(jīng)驗、職業(yè)素養(yǎng)、學(xué)歷條件等。通過分析這些數(shù)據(jù)就能掌握目前該技術(shù)領(lǐng)域的技術(shù)熱點、市場需求情況、經(jīng)驗要求等情況。根據(jù)這些情況確定每個專業(yè)方向的辦學(xué)規(guī)模,以及應(yīng)該開設(shè)的專業(yè)技術(shù)核心課程、職業(yè)素質(zhì)拓展類課程等。從而為專業(yè)人才培養(yǎng)方案的制訂提供必要的數(shù)據(jù)支撐。這樣可以有效的避免目前在人才培養(yǎng)方案設(shè)計過程中存在的行業(yè)信息來源比較局限,來自企業(yè)的專家由于各自從事技術(shù)領(lǐng)域不同而意見不一致等問題。用大數(shù)據(jù)分析技術(shù)輔助專業(yè)人才培養(yǎng)方案的調(diào)研和設(shè)計過程,從而科學(xué)有效地解決了以上問題,提高了人才培養(yǎng)方案設(shè)計的科學(xué)性,使人才培養(yǎng)方案與企業(yè)的實際需求緊密融合,使專業(yè)人才培養(yǎng)緊跟產(chǎn)業(yè)發(fā)展趨勢和行業(yè)人才需求。
使用Scrapy框架和MySQL數(shù)據(jù)庫設(shè)計了軟件人才需求分析系統(tǒng),該系統(tǒng)具有數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析等功能,主要是從知名招聘網(wǎng)站采集軟件技術(shù)專業(yè)多個技術(shù)領(lǐng)域的企業(yè)招聘信息,分析這些信息中的關(guān)鍵數(shù)據(jù),為我院軟件技術(shù)專業(yè)群各個專業(yè)方向人才培養(yǎng)方案的制訂(修訂)提供科學(xué)分析和方向指導(dǎo),其目的是使專業(yè)人才培養(yǎng)緊跟行業(yè)發(fā)展趨勢,專業(yè)技術(shù)要點以及專業(yè)課程體系與目前企業(yè)技術(shù)人才需求緊密結(jié)合,進(jìn)而達(dá)到學(xué)校傳授的技術(shù)更加有用、適用,提高學(xué)生的就業(yè)質(zhì)量。該系統(tǒng)目前已經(jīng)應(yīng)用在軟件技術(shù)群專業(yè)2019級人才培養(yǎng)方案的設(shè)計中,目前2019級的部分學(xué)生已經(jīng)進(jìn)入企業(yè)實習(xí),2021年12月份將進(jìn)行頂崗實習(xí),目前軟件專業(yè)97%的同學(xué)已經(jīng)找到合適的企業(yè)進(jìn)入專業(yè)實習(xí),從企業(yè)的反饋信息分析,實習(xí)效果良好。這也說明了該系統(tǒng)在人才培養(yǎng)方案設(shè)計方面發(fā)揮了積極作用。同時也驗證了將大數(shù)據(jù)技術(shù)應(yīng)用在專業(yè)人才培養(yǎng)方案設(shè)計的方法是科學(xué)有效的,值得推廣。