国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于認(rèn)知計算的就業(yè)咨詢智慧服務(wù)系統(tǒng)

2017-11-20 11:07唐新晨
計算機技術(shù)與發(fā)展 2017年11期
關(guān)鍵詞:特征向量貝葉斯類別

唐新晨

(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210000)

基于認(rèn)知計算的就業(yè)咨詢智慧服務(wù)系統(tǒng)

唐新晨

(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210000)

隨著智慧服務(wù)系統(tǒng)的發(fā)展和大數(shù)據(jù)時代的到來,如何實現(xiàn)類似人腦的認(rèn)知與判決為應(yīng)屆生求職方向做出正確的決策,顯得尤為重要。智慧服務(wù)系統(tǒng)由四部分組成,數(shù)據(jù)采集單元使用Scrapy爬蟲框架獲取信息,能夠?qū)崟r從各大招聘網(wǎng)站采集招聘信息;數(shù)據(jù)計算平臺使用隨機森林、SVM和樸素貝葉斯等基于認(rèn)知計算的相關(guān)算法進行文本識別、特征提取以及文本分類等工作,能夠正確實現(xiàn)特征采樣和數(shù)據(jù)分類;數(shù)據(jù)存儲單元搭建MongoDB數(shù)據(jù)庫集群完成數(shù)據(jù)存儲工作,具備海量數(shù)據(jù)儲量能力和高容錯性;用戶服務(wù)平臺由Web應(yīng)用框架構(gòu)建,具備多用戶業(yè)務(wù)服務(wù)能力。因此其能夠有效采集和分類招聘信息,準(zhǔn)確定位學(xué)生能力,從而高效地為院校學(xué)生的就業(yè)崗位選擇提供咨詢與幫助。

認(rèn)知計算;Scrapy爬蟲;機器學(xué)習(xí);Web應(yīng)用;服務(wù)系統(tǒng)

0 引 言

IBM在2013年宣布成立“認(rèn)知計算研究聯(lián)合會”。國內(nèi)于2013年10月11日在北京舉辦了以“從大數(shù)據(jù)到認(rèn)知計算”為主題的認(rèn)知計算研討會,達(dá)成“我們已經(jīng)進入了認(rèn)知計算的新時代”的共識。經(jīng)過長期調(diào)研發(fā)現(xiàn)應(yīng)屆生就業(yè)面臨如下問題:就業(yè)信息挖掘不足、應(yīng)屆生對自身實力定位不當(dāng)而造成就業(yè)困難等。因此應(yīng)當(dāng)構(gòu)建基于認(rèn)知計算的就業(yè)咨詢智慧服務(wù)系統(tǒng),有效為院校學(xué)生就業(yè)崗位的選擇提供咨詢與幫助。該系統(tǒng)能夠?qū)崿F(xiàn)招聘信息的采集和分類、學(xué)生實力的準(zhǔn)確定位、信息的定向推送等功能。其主要由數(shù)據(jù)采集單元、數(shù)據(jù)計算平臺、用戶服務(wù)平臺和數(shù)據(jù)存儲單元四個部分組成。下面將從系統(tǒng)設(shè)計、技術(shù)選擇、系統(tǒng)實現(xiàn)以及結(jié)果展示這四個角度重點闡述其工作原理[1]。

1 系統(tǒng)設(shè)計

該項目的技術(shù)方案設(shè)計包括四部分:

(1)設(shè)計并搭建數(shù)據(jù)采集單元。

通過問卷調(diào)查、聯(lián)合社團與院校合作等方式選取近年來南京郵電大學(xué)高質(zhì)量的研究生簡歷以及最終就業(yè)單位、崗位信息。通過Scrapy爬蟲框架,爬取各大就業(yè)信息網(wǎng)(南京郵電大學(xué)招生就業(yè)創(chuàng)業(yè)網(wǎng)、南大小百合BBS等)的就業(yè)信息,并進行數(shù)據(jù)預(yù)處理。

(2)設(shè)計并搭建數(shù)據(jù)計算平臺。

使用多類別支持向量機、樸素貝葉斯算法,構(gòu)造“就業(yè)崗位智慧分類模型”,對提取的就業(yè)信息進行數(shù)據(jù)分類;采用隨機森林算法對用戶簡歷信息進行數(shù)據(jù)分析,構(gòu)造“就業(yè)智慧決策樹模型”,洞察簡歷信息與就業(yè)崗位的內(nèi)在聯(lián)系,完成用戶崗位信息的預(yù)測判決。

(3)設(shè)計并搭建用戶服務(wù)平臺。

使用SSH框架完成人機交互服務(wù)與業(yè)務(wù)邏輯設(shè)計、數(shù)據(jù)展示等。

(4)搭建數(shù)據(jù)存儲單元。

采用MongoDB數(shù)據(jù)庫完成數(shù)據(jù)存儲,并配置用戶登陸、副本集等功能,保障數(shù)據(jù)安全和冗余備份。

具體業(yè)務(wù)流程如圖1所示。

圖1 系統(tǒng)框架及業(yè)務(wù)流程

2 Scrapy框架結(jié)構(gòu)

Scrapy是一個快速,高層次的屏幕抓取和Web抓取框架,用于抓取Web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy可用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試,并且是開源框架最新版本,提供了Web2.0爬蟲的支持。

Scrapy框架的主要構(gòu)件是引擎,調(diào)度器,下載器,蜘蛛,管道項目,下載器中間件,蜘蛛中間件以及調(diào)度中間件[2]。

3 數(shù)據(jù)計算平臺算法設(shè)計

3.1樸素貝葉斯算法的應(yīng)用

樸素貝葉斯是貝葉斯分類器的一個擴展,是用于文檔分類的常用算法。它在數(shù)據(jù)較少的情況下仍然有效,并且可以處理多類別問題[3]。

根據(jù)貝葉斯定理,對于一個分類問題給定樣本特征X,樣本屬于類別Y的概率為:

P(y|x)=P(x|y)P(y)/P(x)

(1)

其中,x為一個特征向量。假設(shè)x的維度為M。因為樸素的假設(shè),即特征條件獨立,根據(jù)全概率公式展開,式(1)可以表達(dá)為:

(2)

這里只要分別估計出特征xi在每一類的條件概率即可。類別y的先驗概率可以通過訓(xùn)練集計算出,同樣通過訓(xùn)練集上的統(tǒng)計,可以得出對應(yīng)每一類上條件獨立的特征對應(yīng)的條件概率向量[4]。

從獲得的數(shù)據(jù)中,通過學(xué)習(xí)得到樸素貝葉斯分類模型。具體做法如下:

(3)

其中,I(x)為指示函數(shù),若括號內(nèi)成立,則計1,否則計0。

接下來計算分子中的條件概率。設(shè)M維特征的第j維有L個取值,則某維特征的某個取值ajl,在給定某分類Ck下的條件概率為:

(4)

經(jīng)過上述步驟,就得到了模型的基本概率,也就完成模型構(gòu)建的任務(wù)。

之后當(dāng)給定未分類新實例x時,就可通過上述概率進行計算,得到該實例屬于各類的后驗概率P(y=ck|x)。因為對所有的類別來說,式(2)中分母的值都相同,所以只計算分子部分即可,具體步驟如下:

計算該實例屬于y=ck類的概率:

(5)

得到該實例所屬的分類y:

(6)

3.2支持向量機算法的應(yīng)用

支持向量機(Support Vector Machine,SVM)是一種通過尋求結(jié)構(gòu)化風(fēng)險最小來提高學(xué)習(xí)機泛化能力的分類算法,實現(xiàn)經(jīng)驗風(fēng)險和置信范圍的最小化,從而達(dá)到在統(tǒng)計樣本量較少的情況下,亦能獲得良好統(tǒng)計規(guī)律的目的[5]。

求解SVM就是求解該表達(dá)式的最優(yōu)解問題。

3.3隨機森林算法的應(yīng)用

隨機森林算法在機器學(xué)習(xí)、計算機視覺等領(lǐng)域內(nèi)應(yīng)用極為廣泛,可以用來做分類和回歸。隨機森林由多個決策樹構(gòu)成,相比于單個決策樹算法,分類、預(yù)測的效果更好,不容易出現(xiàn)過度擬合的情況[7]。

隨機森林是由多個決策樹構(gòu)成的森林,算法分類結(jié)果由這些決策樹投票得到。當(dāng)基于某些屬性對一個新的對象進行分類判別時,隨機森林中的每一棵樹都會給出自己的分類選擇,并由此進行“投票”,森林整體的輸出結(jié)果將會是票數(shù)最多的分類選項;而在回歸問題中,隨機森林的輸出將會是所有決策樹輸出的平均值。決策樹在生成過程中分別在行方向和列方向上添加隨機過程。行方向上構(gòu)建決策樹時采用放回抽樣得到訓(xùn)練數(shù)據(jù),列方向上采用無放回隨機抽樣得到特征子集,并據(jù)此得到其最優(yōu)切分點。

3.4特征向量提取

特征向量提取的最終目標(biāo)是使得選出的特征向量在多個類別之間具有一定的類別區(qū)分度。由于分詞后得到大量的詞語,通過選擇降維技術(shù)能很好地減少計算量,并維持分類的精度。這里介紹卡方統(tǒng)計量和TD-IDF兩種特征向量提取算法。

計算卡方統(tǒng)計的公式如下:

χ2(t,c)=

(7)

其中,N為訓(xùn)練數(shù)據(jù)集文檔總數(shù);A為在一個類別中包含某個詞的文檔數(shù)量;B為在一個類別中排除該類別后,其他類別包含某個詞的文檔數(shù)量;C為在一個類別中不包含某個詞的文檔數(shù)量;D為在一個類別中不包含某個詞,也不在該類別中的文檔數(shù)量

TF-IDF(Term Frequency-Inverse Document Frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率(TF)高并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。計算TD-IDF的公式如下:

(8)

4 系統(tǒng)結(jié)構(gòu)設(shè)計

Struts2和SpringMVC是目前比較流行的MVC Web后臺框架,都規(guī)范封裝了Servlet的開發(fā),大大提升了Web后臺的開發(fā)效率[8]。Hibernate是一個開放源代碼的對象關(guān)系映射框架,對JDBC進行了輕量級的封裝,使得Java程序員可以隨心所欲地使用對象編程的思維來操縱數(shù)據(jù)庫,并且它提供了對常用數(shù)據(jù)庫的基本操作[9]。Spring是一個輕量級Java開發(fā)框架,是輕量級的IoC和AOP的容器框架。主要功能是提供了對象之間的解耦,簡化開發(fā),以及AOP編程,聲明式事務(wù)的支持等功能[10]。

MongDB是一種非關(guān)系型數(shù)據(jù)庫,與關(guān)系型數(shù)據(jù)庫相比,具有弱一致性、基于內(nèi)存存儲方式、支持大容量存儲、更快速獲取數(shù)據(jù)、內(nèi)置Sharding提供數(shù)據(jù)分段存儲等特點[11]。

5 系統(tǒng)關(guān)鍵模塊設(shè)計與結(jié)果展示

5.1數(shù)據(jù)采集單元

采用Scrapy完成招聘數(shù)據(jù)的大量采集,采集的目標(biāo)網(wǎng)站為南京郵電大學(xué)就業(yè)創(chuàng)業(yè)網(wǎng)等四家高校的招生就業(yè)信息專欄。圖2展示了Scrapy爬蟲獲取的信息經(jīng)過處理后得到的文本文件截圖,可見數(shù)據(jù)采集單元具備就業(yè)數(shù)據(jù)采集能力。

圖2 經(jīng)過Scrapy采集得到的文本文件截圖

5.2數(shù)據(jù)計算平臺

數(shù)據(jù)平臺的設(shè)計使用樸素貝葉斯算法、多類別SVM算法、隨機森林算法。使用樸素貝葉斯算法完成崗位信息的技術(shù)與非技術(shù)分類;使用多類別SVM算法完成與技術(shù)相關(guān)的開發(fā)、測試、技術(shù)支持和其他的分類;使用隨機森林算法完成職位預(yù)測功能。具體介紹多類別SVM的實現(xiàn)。工作大致分為以下幾個步驟:

(1)選擇文本訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集:訓(xùn)練集和測試集都是類標(biāo)簽已知的,都是由Scrapy從網(wǎng)上爬取的各大招生就業(yè)信息,經(jīng)過樸素貝葉斯分類后形成的所有技術(shù)相關(guān)的就業(yè)信息。

(2)訓(xùn)練集文本預(yù)處理:包括分詞、去停用詞、建立詞袋模型(倒排表)。系統(tǒng)使用了MMAnalyzer完成分詞的操作,使用停用詞字典完成停用詞去除,并將字典保存于vocab變量中。

(3)選擇文本分類使用的特征向量(詞向量):使用卡方統(tǒng)計量和TD-IDF提取特征向量??ǚ浇y(tǒng)計具體代碼如下:

common.FeatureMap.java完成整個過程的調(diào)度;

其中public Map processOneLabel(int label)函數(shù)提供了計算卡方統(tǒng)計量的函數(shù)。

int N=item.get(label).size()+Left_Label(label).size();

;

intA=docCountContainingWordInLabel;

intB=docCountContainingWordNotInLabel;

intC=docCountNotContainingWordInLabel;

IntD=docCountNotContainingWordNotInLabel;

Int temp=(A*D-B*C);

double chi=(double)N*temp*temp/((A+C)*(A+B)*(B+D)*(C+D));

word_frequency.put(word,chi);

PublicMapsortmap(Map word_frequency)

函數(shù)將Map的值按照CHI進行排序;

public Map topN(Map sortedMap,Double n)函數(shù)依據(jù)chi從排序好的map中選取N個word作為該label的特征值。

利用TD-IDF進行進一步提取,代碼如下:

DifferentSchoolAnalyzer中會調(diào)用component.DocumentTFIDFComputation.java文件的compute完成TF-IDF的計算

private double multiple(int word_in_one_document,int word_showtimes_in_one_document

intword_showtimes_in_one_document,intword_showtimes_in_alldocuments,int all_documents_num){

double tf=(double)word_showtimes_in_one_docu

ment/(double)word_in_one_document;

double idf=Math.log10((double)all_documents_n

um/word_showtimes_in_alldocuments);

return tf*idf;}

最終產(chǎn)生的特征向量編號如圖3所示。

圖3 選取出的特征向量

各個特征向量對應(yīng)的TF-IDF如圖4所示。

圖4 各特征向量對應(yīng)的TF-IDF值

(4)輸出LIBSVM支持的量化的訓(xùn)練樣本集文件,并基于類別和特征向量來量化文本訓(xùn)練集,使其能夠滿足使用LIBSVM訓(xùn)練所需要的數(shù)據(jù)格式。

調(diào)用LIBSVM的接口函數(shù)如下所示:

public class ClassPrediction {

//對原始樣本進行歸一化

public void svmscale(int lower, int upper,String save_filename, String restore_filename)

//訓(xùn)練數(shù)據(jù)集生成模型文件

public voidsvmtrain(String[]

options,String training_set_file, String model_file);

//根據(jù)模型,對測試數(shù)據(jù)進行預(yù)測

public voidsvmpredict (String[] options ,String test_file, String model_file,String output_file);

(5)測試數(shù)據(jù)集預(yù)處理:同樣包括分詞(需要和訓(xùn)練過程中使用的分詞器一致)、去停用詞、建立詞袋模型(倒排表),但是這時需要加載訓(xùn)練過程中生成的特征向量,用特征向量排除多余的不在特征向量中的詞。

(6)輸出LIBSVM支持的量化的測試樣本集文件:格式和訓(xùn)練數(shù)據(jù)集的預(yù)處理階段的輸出相同。

(7)使用LIBSVM訓(xùn)練文本分類器:使用訓(xùn)練集預(yù)處理階段輸出的量化的數(shù)據(jù)集文件,最終輸出分類模型文件。

(8)使用LIBSVM驗證分類模型的精度:使用測試集預(yù)處理階段輸出的量化的數(shù)據(jù)集文件和分類模型文件來驗證分類精度。

在主要參數(shù)設(shè)置上,采用C_SVC類型、RBF核函數(shù)、多項式核中degree值為3,懲罰系數(shù)為1,損失函數(shù)中e為0.1,交叉驗證次數(shù)為10。

5.3用戶服務(wù)平臺

用戶服務(wù)平臺采用SSH框架[12],調(diào)用數(shù)據(jù)采集單元和數(shù)據(jù)計算平臺接口,完成自動化數(shù)據(jù)采集和分類過程[13-14]。分類結(jié)果如圖5所示。

圖5 數(shù)據(jù)分類結(jié)果展示

當(dāng)點擊“Data Collection”和“Date Presentation”按鍵之后,招聘信息會經(jīng)過采集、存儲、分類等操作,在前端頁面進行展示。圖中所示為點擊“TEST”按鍵后的結(jié)果展示,都是與測試工程師相關(guān)的工作崗位[14],可見其能夠完成數(shù)據(jù)的特征采集和招聘信息分類的功能。

5.4數(shù)據(jù)存儲單元

數(shù)據(jù)存儲單元搭建MongoDB副本集并實現(xiàn)了讀寫分離功能。對副本集的集群設(shè)計如圖6所示。

圖6 MongoDB副本集設(shè)計

實驗環(huán)境中主服務(wù)器選用一臺性能卓越的機架式服務(wù)器,id=1。從服務(wù)器為兩臺PC,id值分別為2和3。

因為在主服務(wù)器上進行寫操作,為防止數(shù)據(jù)因為誤刪等人工原因造成數(shù)據(jù)丟失,配置id為3的從服務(wù)器(slaveDelay:0)實時同步于主服務(wù)器,id為2的從服務(wù)器(slaveDelay:3 600)每隔3 600 s同步于主服務(wù)器。

為了保證數(shù)據(jù)的安全性,設(shè)計id為3的從服務(wù)器(hidden:true),從而不能被外界程序訪問,并且設(shè)置(prority:0)表示當(dāng)主服務(wù)器宕機后,該從服務(wù)器將不參與新的主服務(wù)器的選舉。

當(dāng)服務(wù)器發(fā)生宕機等突發(fā)事件時,數(shù)據(jù)訪問端會依次按照優(yōu)先級順序切換到備份服務(wù)器上,從而使得數(shù)據(jù)訪問具備高容錯性和實時性。

6 結(jié)束語

在如今的大數(shù)據(jù)時代,就業(yè)咨詢智慧服務(wù)系統(tǒng)旨在通過分析海量數(shù)據(jù)為應(yīng)屆生求職方向提供正確的決策建議。Scrapy框架完成數(shù)據(jù)采集,認(rèn)知計算相關(guān)算法完成數(shù)據(jù)分類,MongoDB集群用于海量數(shù)據(jù)存儲。系統(tǒng)具備海量數(shù)據(jù)計算能力,能夠有效進行特征采集和招聘信息分類的工作,能對學(xué)生能力進行準(zhǔn)確定位,可有效為院校學(xué)生求職崗位的選擇提供智能化的輔助咨詢服務(wù)。

[1] 馬 旭.探究Tomcat虛擬路徑功能應(yīng)用[J].中國新通信,2016(2):67.

[2] Kouzis-Loukas D.Learning scrapy[M].Birmingham,UK:Packt Publishing Ltd,2016.

[3] 阿培丁.機器學(xué)習(xí)導(dǎo)論[M].北京:機械工業(yè)出版社,2009.

[4] Liu Chaoping,Li Feng.The design and implementation of exquisite course website[C]//International symposium on information technology in medicine & education.[s.l.]:[s.n.],2012:341-344.

[5] 鄧珍榮,唐興興,黃文明,等.一種Web服務(wù)器集群負(fù)載均衡調(diào)度算法[J].計算機應(yīng)用與軟件,2013,30(10):53-56.

[6] Harrington P.Machine learning in action[M].Greenwich,CT:Manning,2012.

[7] Zrelli S,Ishida A,Okabe N,et al.ENM:a service oriented architecture for ontology-driven network management in heterogeneous network infrastructures[C]//Network operations and management symposium.[s.l.]:IEEE,2012:1096-1103.

[8] 劉石忠.云計算在智能化城市體系中的應(yīng)用[J].無線互聯(lián)科技,2012(11):32.

[9] Sebastiani F.Machine learning in automated text categorization[J].Journal of ACM Computing Surveys,2002,34(1):1-47.

[10] 霍福華,尹宇孚.基于J2EE架構(gòu)的五層Web開發(fā)模型研究[J].通訊世界,2017(1):225-226.

[11] 霍多羅夫,迪洛爾夫.MongoDB權(quán)威指南[M].程顯峰,譯.北京:人民郵電出版社,2013.

[12] Kim H,Howland P,Park H,et al.Dimension reduction in text classification with support vector machines[J].Journal of Machine Learning Research,2005,6(1):37-53.

[13] 聞劍峰,石屹嶸.以分布式計算實現(xiàn)電信數(shù)據(jù)分析業(yè)務(wù)加速的研究[J].電信科學(xué),2012,28(2):22-26.

[14] Zhao Wei,Li Ming,Liu Jinhua,et al.Design and implementation of national meteorological computing resource management system based on grid[C]//International conference on information science and engineering.[s.l.]:[s.n.],2012:182-185.

EmploymentConsultationIntelligentServiceSystemBasedonCognitiveComputation

TANG Xin-chen

(School of Telecommunications and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210000,China)

Currently,with the development of the intelligence service system and the arrival of the big data era,how to use the computer to help graduates make right decisions of job hunting like human is particularly important.Employment consultation intelligent service system with cognitive computation consists of four parts.Data collection unit uses the Scrapy framework for massive employee information from the various employee network in real-time.Data computing platform carries out the text recognition,feature extraction and text classification by several algorithms based on cognitive computing like random forest,SVM and Naive Bayes,which can correctly realize the feature sampling and data classification.Data storage unit builds the MongoDB cluster to complete the data storage with large memory capacity and high fault tolerance.User service platform integrates the Web framework and has multiple user services.Therefore,it can collect and classify effectively the employee information and evaluate students’ ability accurately,which can provide students for effective help on choosing the right and good job.

cognitive computing;Scrapy;machine learning;Web application;service system

2016-05-19

2016-08-17 < class="emphasis_bold">網(wǎng)絡(luò)出版時間

時間:2017-08-01

全國3S杯大學(xué)生物聯(lián)網(wǎng)技術(shù)與應(yīng)用“三創(chuàng)大賽”組委會項目支持(16B049)

唐新晨(1992-),男,碩士研究生,研究方向為網(wǎng)絡(luò)技術(shù)應(yīng)用。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170801.1548.002.html

TP302

A

1673-629X(2017)11-0166-05

10.3969/j.issn.1673-629X.2017.11.036

猜你喜歡
特征向量貝葉斯類別
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
論陶瓷刻劃花藝術(shù)類別與特征
基于貝葉斯定理的證據(jù)推理研究
基于貝葉斯解釋回應(yīng)被告人講述的故事
一起去圖書館吧
三個高階微分方程的解法研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)