国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)崗位分析推薦系統(tǒng)

2021-09-27 08:15程棟檜高琪琪
智能城市 2021年16期
關(guān)鍵詞:關(guān)系數(shù)據(jù)庫爬蟲職位

劉 飄 程棟檜 高琪琪 魯 琛

(無錫職業(yè)技術(shù)學(xué)院,江蘇 無錫 214121)

在數(shù)據(jù)量快速增長的時代,大數(shù)據(jù)正迅速成為許多組織的社會需求和標(biāo)準(zhǔn)結(jié)構(gòu)。通過人們整理、分析、提取和集成大量數(shù)據(jù),能夠發(fā)現(xiàn)新的數(shù)據(jù),并可以創(chuàng)造出新的價值,讓標(biāo)準(zhǔn)化的認(rèn)知、判斷、思維方式、服務(wù)模式和產(chǎn)品形式形成嶄新的外觀和發(fā)展方向。隨著互聯(lián)網(wǎng)崗位需求增加,人們需要從大量職位信息中尋找出適合自己的崗位。以往人們需要從許多職位信息中對比、分析這個職業(yè)在當(dāng)前社會的需求和前景。但這樣煩瑣的方式已難以滿足當(dāng)前人們的需求,使得大數(shù)據(jù)分析快速發(fā)展。通過大數(shù)據(jù)崗位分析系統(tǒng)幫助高校學(xué)生透析職位市場需求變化,預(yù)測就業(yè)前景,給出現(xiàn)階段符合自己條件的崗位。

1 大數(shù)據(jù)崗位分析推薦系統(tǒng)環(huán)境需求

本系統(tǒng)采用B/S體系架構(gòu),設(shè)計開發(fā)采用Linux開發(fā)模式,先在Windows上進(jìn)行系統(tǒng)和前端的編碼實(shí)現(xiàn),再在Linux上進(jìn)行測試部署大數(shù)據(jù)集群環(huán)境。

1.1 數(shù)據(jù)分布式抓爬蟲

使用Python開源爬蟲框架Scrapy并結(jié)合redis數(shù)據(jù)庫,實(shí)現(xiàn)從招聘網(wǎng)站分布式爬取職位信息數(shù)據(jù),大幅度提高爬蟲的效率。使用Scrapyd提供的Scrapyd JSON API請求管理爬蟲任務(wù),再結(jié)合Gerapy可視化管理工具調(diào)用Scrapyd提供api,實(shí)現(xiàn)對爬蟲任務(wù)的打包部署、刪除、停止、監(jiān)控、日志分析等功能的可視化管理。

1.2 大數(shù)據(jù)平臺環(huán)境

搭建分布式Hadoop集群系統(tǒng),在此基礎(chǔ)上建立HBase非關(guān)系數(shù)據(jù)庫,對爬取的職位信息進(jìn)行存儲,以便后續(xù)進(jìn)行數(shù)據(jù)分析。

1.3 數(shù)據(jù)分析挖掘Spark

搭建Spark計算引擎,并采用Yarn進(jìn)行資源分配,進(jìn)行數(shù)據(jù)轉(zhuǎn)移的分布式計算,以升高程序運(yùn)算的速度,并把職位信息的分析結(jié)果存儲到Mongodb非關(guān)系數(shù)據(jù)庫中。

1.4 Web端的應(yīng)用

用戶訪問網(wǎng)頁并發(fā)送http響應(yīng)請求,由Python開源框架Django進(jìn)行相應(yīng)響應(yīng),如用戶發(fā)送數(shù)據(jù)可視化請求,使用Django調(diào)用Mogodb數(shù)據(jù)庫調(diào)用數(shù)據(jù),并將其結(jié)果進(jìn)行響應(yīng)返回。

2 大數(shù)據(jù)崗位分析推薦系統(tǒng)實(shí)現(xiàn)功能需求

隨著當(dāng)代互聯(lián)網(wǎng)蓬勃發(fā)展,大量的工作崗位在網(wǎng)上發(fā)布,學(xué)生或求職人員需要從大量的數(shù)據(jù)中分析和了解當(dāng)前行業(yè)的技能要求、薪酬、崗位地區(qū)分布、學(xué)歷要求、工作經(jīng)驗(yàn)、職位發(fā)布數(shù)量等信息,較為困難。亟須一套能夠幫助學(xué)生和求職人員分析崗位信息,將處理好的數(shù)據(jù)直觀地展示給人們的軟件程序。本系統(tǒng)基于近期行業(yè)對人才需求信息進(jìn)行分析,主要實(shí)現(xiàn)了對職位信息分布式爬取、對信息分析處理、對處理完的信息可視化展示、用戶給出需求經(jīng)行崗位推薦。

3 大數(shù)據(jù)崗位分析推薦系統(tǒng)特點(diǎn)

當(dāng)前,大多數(shù)國內(nèi)招聘網(wǎng)站使用基于內(nèi)容的協(xié)同過濾算法來對用戶進(jìn)行推薦。基于用戶的篩選和基于職業(yè)的篩選顯著提高了推薦的質(zhì)量,但是用戶通常受到特定職位要求的限制或?qū)π袠I(yè)或環(huán)境的了解不清,因此無法更好地選擇職位。

(1)使用大數(shù)據(jù)技術(shù)進(jìn)行分析,采用大數(shù)據(jù)分析算法,對工作行業(yè)分布、城市分布、工資分布、學(xué)歷信息、各個地區(qū)的用戶等數(shù)據(jù)進(jìn)行分析,讓用戶對行業(yè)和企業(yè)工資有清晰了解。系統(tǒng)可以幫助求職者選擇自己的職業(yè),以便求職者可以更好地了解自己的環(huán)境。

(2)利用Spark算法庫對職位信息內(nèi)容進(jìn)行特征抽取分詞,并轉(zhuǎn)換為哈希成特征向量。使用關(guān)鍵詞提取的方法對職位所需的具體技能進(jìn)行提取,通過Spark機(jī)器學(xué)習(xí)將相同職位所需要掌握的技能,使用貝葉斯算法進(jìn)行分類建立模型,再使用建立的模型為求職者進(jìn)行智能推薦。

4 大數(shù)據(jù)崗位分析推薦系統(tǒng)模塊功能介紹與設(shè)計

4.1 運(yùn)行的基礎(chǔ)平臺

大數(shù)據(jù)基礎(chǔ)平臺采用三臺服務(wù)器搭建,一臺作為主節(jié)點(diǎn),另外兩臺服務(wù)器為從節(jié)點(diǎn)。大數(shù)據(jù)集群主要搭建和使用Hadoop大數(shù)據(jù)平臺、Zookeeper分布式協(xié)調(diào)服務(wù)、Spark計算引擎、Hbase數(shù)據(jù)庫和Mongodb數(shù)據(jù)庫等。

4.2 數(shù)據(jù)爬取

使用三臺服務(wù)器對python開源框架Scrapy結(jié)合redis數(shù)據(jù)庫的分布式爬蟲,在主節(jié)點(diǎn)上對需要招聘信息的url地址經(jīng)行爬蟲,并將其存入redis數(shù)據(jù)庫中。另外兩臺從節(jié)點(diǎn)從redis數(shù)據(jù)庫中調(diào)用url進(jìn)行對招聘網(wǎng)站上職位信息的爬取,并將爬取的職位信息數(shù)據(jù)存在Hbase數(shù)據(jù)庫中,再結(jié)合使用Scrapyd和Gerapy可視化管理爬蟲集群。

Scrapy是一套純Python語言開發(fā)的、用于爬取網(wǎng)頁內(nèi)容或各種圖片并提取結(jié)構(gòu)化數(shù)據(jù)的開源網(wǎng)絡(luò)爬蟲框架,可以應(yīng)用于數(shù)據(jù)挖掘、信息處理或存儲數(shù)據(jù)等一系列操作中,是目前Python中使用最受歡迎和最廣泛的爬蟲框架。

Redis是遵循鍵值存儲原理的非關(guān)系數(shù)據(jù)庫,內(nèi)存中鍵/值存儲主要作為一個應(yīng)用程序的高速緩存或快速響應(yīng)數(shù)據(jù)庫。Redis將數(shù)據(jù)存儲在內(nèi)存中,不存儲在磁盤或固態(tài)驅(qū)動器(SSD)上,Redis提供了速度、可靠性和性能。

Scrapyd是一個應(yīng)用程序,可以在服務(wù)器上部署爬蟲并計劃爬網(wǎng)作業(yè),并提供對爬蟲項目的API管理。

Gerapy用于Scrapyd集群可視化管理,對Scrapy日志分析、自動打包和部署、啟動和停止服務(wù)、在線修改代碼、監(jiān)控和警報以及Web應(yīng)用程序。

4.3 數(shù)據(jù)存儲

系統(tǒng)數(shù)據(jù)的存儲分為分布式HBase存儲和Mongodb存儲。

HBase是一個基于在HDFS上開發(fā)的分布式數(shù)據(jù)庫,不同于常見的關(guān)系數(shù)據(jù)庫,其非常合適鍵/值對數(shù)據(jù)存儲的數(shù)據(jù)庫,主要用以存儲龐大的結(jié)構(gòu)化數(shù)據(jù)。邏輯上,HBase存儲用于表、行和列的數(shù)據(jù)。與Hadoop類似,HBase可以針對企業(yè)進(jìn)行水平擴(kuò)展,通過增加廉價商業(yè)服務(wù)器的發(fā)展,提高學(xué)生計算和存儲管理能力。

HBase是面向列的NoSQL數(shù)據(jù)庫,雖然類似于包含行和列的關(guān)系數(shù)據(jù)庫,但不是關(guān)系數(shù)據(jù)庫。關(guān)系數(shù)據(jù)庫面向行,HBase面向列。

在此系統(tǒng)中需要處理和分析大量半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),在線分析處理大量數(shù)據(jù),并進(jìn)行挖掘與分析,采用HBase這種非關(guān)系數(shù)據(jù)庫存儲大量數(shù)據(jù)比關(guān)系數(shù)據(jù)庫更具有優(yōu)勢。

MongoDB是一種分布式非關(guān)系數(shù)據(jù)庫,MongoDB數(shù)據(jù)結(jié)構(gòu)如鍵值對構(gòu)成,類似一個JSON文檔。Mongodb可以儲存更多的復(fù)雜的數(shù)據(jù)結(jié)構(gòu),查詢語言系統(tǒng)強(qiáng)大,語法結(jié)構(gòu)相似于高級語言的查詢方式,如java語言面向?qū)ο蟮姆绞讲樵?。此外,還可以實(shí)現(xiàn)類似關(guān)系數(shù)據(jù)庫的查詢功能單表,提供對數(shù)據(jù)索引的最大支持。

MongoDB的非結(jié)構(gòu)數(shù)據(jù)都存儲在類似于JSON的文檔中,使數(shù)據(jù)的持久性和合并更容易。應(yīng)用程序的代碼對象已被推送到文檔模型中,可以簡單使用數(shù)據(jù),架構(gòu)的管理、數(shù)據(jù)的訪問和各種復(fù)雜豐富的功能不會受到任何影響,且沒有停機(jī)時間,可以動態(tài)更改架構(gòu),具有較好的操作靈活性。

系統(tǒng)需要對數(shù)據(jù)進(jìn)行分析和可視化處理,對數(shù)據(jù)管道、數(shù)據(jù)搜索、圖形處理以及數(shù)據(jù)的可靠性、靈活性和安全性需求較大,采用Mongodb數(shù)據(jù)庫更具有效性和實(shí)用性。

4.4 數(shù)據(jù)分析

使用Python編程語言調(diào)用Spark API,實(shí)現(xiàn)對HBase數(shù)據(jù)庫中的大量非結(jié)構(gòu)化職位信息數(shù)據(jù)進(jìn)行快速分析和處理,可以進(jìn)行行業(yè)的學(xué)歷統(tǒng)計、行業(yè)職業(yè)崗位統(tǒng)計、行業(yè)需求技能統(tǒng)計、行業(yè)薪酬統(tǒng)計、職位發(fā)布日期統(tǒng)計以及行業(yè)工作經(jīng)驗(yàn)統(tǒng)計以及行業(yè)工作地點(diǎn)統(tǒng)計的數(shù)據(jù)處理工作,并將分析結(jié)果存儲到Mongodb數(shù)據(jù)庫中。

Spark是一種快速發(fā)展的新開源技術(shù),可在計算機(jī)節(jié)點(diǎn)群集上工作。速度是Apache Spark的標(biāo)志之一,在這種環(huán)境下工作的開發(fā)人員可以獲得基于RDD(彈性分布式數(shù)據(jù)集)框架的應(yīng)用程序編程接口。RDD可以將節(jié)點(diǎn)分離到群集上的較小分區(qū)中,以便獨(dú)立處理數(shù)據(jù)。

4.5 信息展示

使用web網(wǎng)頁方式展示信息,使用python開源框架Django。為了給用戶可視化直觀展示采用了Apache的ECharts開源可視化圖表庫,提供更直觀、交互豐富、可高度進(jìn)行個性化定制的數(shù)據(jù)信息可視化圖表。

4.6 系統(tǒng)采用的推薦算法

利用Spark MLlib機(jī)器學(xué)習(xí)的樸素貝葉斯算法對職位信息進(jìn)行建模,學(xué)生或求職者需要推薦合適職位時,可以通過提交表單對web法出請求,程序?qū)ζ渥龀鲰憫?yīng),并調(diào)用推薦算法程序進(jìn)行分析,再將結(jié)果返回給用戶。

Spark機(jī)器學(xué)習(xí)庫(MLlib)建立在Spark上,并在分類、回歸、決策樹,聚類等領(lǐng)域提供了大量算法。Spark在內(nèi)存中運(yùn)行,性能較好,可以與其他模塊結(jié)合使用,以執(zhí)行特征轉(zhuǎn)換、提取和選擇。

Spark MLlib支持迭代計算,優(yōu)化性能和結(jié)果質(zhì)量,提供了許多ML算法的分布式實(shí)現(xiàn)。算法具有低級基元和實(shí)用程序,可用于優(yōu)化、特征提取和線性代數(shù)。

系統(tǒng)整體架構(gòu)如圖1所示。

圖1 系統(tǒng)整體架構(gòu)

5 結(jié)語

本文介紹了大數(shù)據(jù)崗位分析系統(tǒng)功能的實(shí)現(xiàn)與系統(tǒng)的運(yùn)用。通過對系統(tǒng)設(shè)計和系統(tǒng)的實(shí)現(xiàn)做了比較詳細(xì)的介紹,并介紹了系統(tǒng)所依賴的各種環(huán)境并對其分析和比較其他工具的優(yōu)勢,如Spark計算框和數(shù)據(jù)庫的選擇。通過大數(shù)據(jù)崗位分析系統(tǒng)幫助高校學(xué)生透析職位市場需求變化,預(yù)測就業(yè)前景,并給出現(xiàn)階段符合自己條件的崗位。

猜你喜歡
關(guān)系數(shù)據(jù)庫爬蟲職位
領(lǐng)導(dǎo)職位≠領(lǐng)導(dǎo)力
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
關(guān)系數(shù)據(jù)庫在高爐數(shù)據(jù)采集系統(tǒng)中的應(yīng)用
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
職位之謎與負(fù)謗之痛:柳治徵在東南大學(xué)的進(jìn)退(1916—1925)
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
基于索引結(jié)構(gòu)的關(guān)系數(shù)據(jù)庫關(guān)鍵詞檢索
基于Heritrix的主題爬蟲在互聯(lián)網(wǎng)輿情系統(tǒng)中應(yīng)用
美最高就業(yè)率地鐵圈
收入性別歧視的職位差異