国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)技術(shù)的AI崗位需求分析研究*

2021-09-22 14:32:10徐正麗文博奚謝梅英
廣西科學(xué) 2021年3期
關(guān)鍵詞:模式識別程序設(shè)計名稱

徐正麗,文博奚,謝梅英,蔡 翔**

(1.桂林電子科技大學(xué),廣西桂林 541004;2.廣西建設(shè)職業(yè)技術(shù)學(xué)院,廣西南寧 530007; 3.南京信息工程大學(xué),江蘇南京 210044)

0 引言

近年來,我國人才市場出現(xiàn)供需失配的結(jié)構(gòu)性矛盾,尤其是在人工智能領(lǐng)域。準(zhǔn)確感知并描述勞動力市場的需求是解決該問題的重要手段。人工智能(AI)技術(shù)已成為全球新一輪科技革命和產(chǎn)業(yè)變革的著力點,對于推動產(chǎn)業(yè)轉(zhuǎn)型升級至關(guān)重要,越來越多的公司把AI視為競爭力的關(guān)鍵要素[1]。根據(jù)2017年Gartner的統(tǒng)計顯示,到2021年,AI預(yù)計將創(chuàng)造230萬以上相關(guān)崗位,但人才缺口卻非常嚴(yán)重[2]。由于AI是應(yīng)用領(lǐng)域非常廣泛和快速發(fā)展的新技術(shù)[3],人力資源管理部門對AI領(lǐng)域的專業(yè)認(rèn)知更新卻比較緩慢,對AI崗位職責(zé)及所需技能的認(rèn)知往往是模糊、主觀和過于簡化的理解[4],甚至?xí)ⅰ癆I”與“大數(shù)據(jù)”“機(jī)器學(xué)習(xí)”“深度學(xué)習(xí)”等概念混為一談[5]。AI崗位內(nèi)容的廣泛性及所需工作技能的復(fù)雜多樣性[6,7]給準(zhǔn)確把握AI崗位的需求帶來很大的挑戰(zhàn)。

為準(zhǔn)確感知并描述勞動力市場對AI的需求,本研究采用大數(shù)據(jù)分析手段,對AI崗位簇的工作角色及所需技能進(jìn)行類型學(xué)研究,為基于大數(shù)據(jù)分析AI崗位簇的角色及其所需技能需求提供了一個結(jié)構(gòu)化框架,可有效提升人力資源管理部門的科學(xué)決策水平,同時促進(jìn)高校提高AI人才培養(yǎng)的針對性。

1 算法框架

本算法主要包括4個部分:第一步,使用網(wǎng)絡(luò)爬蟲技術(shù)從招聘網(wǎng)站爬取AI相關(guān)崗位的招聘信息,然后實施數(shù)據(jù)清洗;第二步,利用K-means聚類與專家判斷相結(jié)合的方法,分析AI的崗位簇;第三步,利用概率主題模型(Latent Dirichlet Allocation,LDA)與專家判斷相結(jié)合的方法,分析AI相關(guān)領(lǐng)域的技能集;第四步,通過構(gòu)建崗位簇與各技能集之間的需求矩陣,評估工作技能集對工作崗位簇的重要性,從而更準(zhǔn)確地把握工作AI各崗位簇對工作技能的需求程度(圖1)。

圖1 算法步驟

2 數(shù)據(jù)來源及清洗

2.1 數(shù)據(jù)來源

選擇智聯(lián)招聘作為數(shù)據(jù)來源。相比其他招聘網(wǎng)站,智聯(lián)招聘的招聘崗位頁面HTML結(jié)構(gòu)的標(biāo)準(zhǔn)化程度高,數(shù)據(jù)可獲取性較好,Web抓取可行性更高[8]。在2019年3月-2019年5月期間,采用WebCollector爬蟲框架對智聯(lián)招聘網(wǎng)站在2018年全年的招聘崗位標(biāo)題、崗位描述或崗位要求中包含關(guān)鍵詞“AI”的崗位信息進(jìn)行抓取,最終獲得10 656條與AI相關(guān)的招聘信息。獲取的招聘信息包括招聘信息ID、公司名稱、招聘崗位名稱、崗位要求、薪酬、工作地點、工作年限要求、學(xué)歷要求、信息公布時間等內(nèi)容。

從需求時間看,2018年AI崗位人才需求旺盛,呈現(xiàn)爆發(fā)式增長態(tài)勢,盡管7月份達(dá)到最高峰(正值我國應(yīng)屆畢業(yè)生的畢業(yè)時間),但是下半年對AI的需求是上半年的5.29倍(圖2)。從需求地域看,2018年AI專業(yè)人才需求主要集中在一線城市(北京、上海、廣州、深圳)以及15個新一線城市(成都、杭州、武漢、南京、長沙、天津等)。這些經(jīng)濟(jì)發(fā)達(dá)城市AI產(chǎn)業(yè)發(fā)展迅速(圖3)。從學(xué)歷要求看,2018年AI領(lǐng)域?qū)Ρ究茖W(xué)歷的需求最大,一定程度上表明了企業(yè)對AI應(yīng)用開發(fā)的需求旺盛,而對AI研發(fā)人才的需求要小(圖4)。

圖2 2018年智聯(lián)招聘發(fā)布的AI崗位招聘數(shù)

圖3 2018年AI崗位工作地點分布

2.2 數(shù)據(jù)清洗

數(shù)據(jù)清洗按以下步驟進(jìn)行:第一,使用網(wǎng)絡(luò)爬蟲獲取的10656條招聘信息中,有小部分為同一企業(yè)在不同時間點發(fā)布的對同一崗位的招聘信息,因此需要去掉這部分重復(fù)信息。第二,一些企業(yè)在互聯(lián)網(wǎng)上發(fā)布招聘信息并不規(guī)范,例如招聘崗位名稱中填寫“博士”一詞。這類招聘崗位名稱屬于無效值,不能作為崗位名稱進(jìn)行分析,需要視為無效數(shù)據(jù)予以剔除。如果某個崗位的招聘崗位名稱中的技能詞與AI崗位無關(guān),那么這條招聘信息也屬于無效數(shù)據(jù)而予以剔除。第三,鑒于中文的書寫方式與英文不同,詞匯之間缺少明顯間隔,需要對中文文本采取“jieba中文分詞”處理,使計算機(jī)能準(zhǔn)確地識別中英文詞匯,分詞之后需要對去除分詞結(jié)果中的停用詞和無效詞(如“和”“或”“與”等),以消除停用詞和無效詞對數(shù)據(jù)分析的不利影響。然后,利用這些詞構(gòu)建崗位名稱詞典。崗位名稱詞典的構(gòu)建還可以采取機(jī)器學(xué)習(xí)的方法[9],考慮到算法的成熟度,本文采用“jieba中文分詞”工具。

圖4 2018年AI崗位的學(xué)歷要求分布

在對招聘崗位名稱進(jìn)行分詞和去停用詞處理后,進(jìn)一步選取在結(jié)果中出現(xiàn)次數(shù)超過5次的194個名詞構(gòu)成崗位名稱詞典,將招聘崗位名稱中不包含崗位名稱詞典中詞匯的招聘信息標(biāo)記為無效數(shù)據(jù)予以剔除。圖5展示了出現(xiàn)次數(shù)最多的前50個崗位名稱名詞的可視化詞云圖。每個名詞的字體大小與每個名詞出現(xiàn)的次數(shù)成正比。

圖5 AI崗位名稱中重復(fù)出現(xiàn)的前50個單詞

對崗位要求進(jìn)行預(yù)處理時,參考IT職業(yè)技能圖譜,預(yù)先選擇了與AI領(lǐng)域相關(guān)的232個技能詞,將各個招聘崗位的崗位要求描述轉(zhuǎn)化成技能詞的集合。在前面處理的基礎(chǔ)上,將崗位要求中不包含AI領(lǐng)域技能詞的招聘信息標(biāo)記為無效數(shù)據(jù)予以剔除。表1顯示了崗位要求中詞頻最高的前50個技能詞。

表1 頻率前50的崗位要求技能詞

續(xù)表1

通過去重和兩次清洗剔除重復(fù)數(shù)據(jù)和無效數(shù)據(jù),最終保留6 705條數(shù)據(jù)作為有效樣本數(shù)據(jù)。據(jù)此,可以對崗位名稱進(jìn)行K-means聚類分析獲取崗位簇,并對崗位要求進(jìn)行LDA分析獲取技能集。

3 數(shù)據(jù)分析

3.1 崗位簇識別

目前尚未有明確的AI崗位類別劃分。因此,本研究使用AI招聘崗位名稱作為輸入,通過K-means聚類算法將獲取的崗位名稱進(jìn)行聚類,從而識別出AI崗位簇[10]。為實現(xiàn)崗位簇的提取,需要將所有的崗位名稱向量化,通過詞袋模型,利用數(shù)據(jù)預(yù)處理時得到的崗位名稱詞典,將各個崗位名稱分別轉(zhuǎn)化為一個194維的0-1向量(崗位名稱中出現(xiàn)詞典中的單詞記為1,未出現(xiàn)記為0)。將崗位名稱向量化之后,再使用K-means聚類算法對所有崗位名稱進(jìn)行聚類。

K-means聚類需事前確定聚類數(shù)量,因此本研究利用肘部法則(圖6)確定聚類數(shù)量為4。然后統(tǒng)計各簇中詞對的出現(xiàn)頻次。表2展示了各簇中出現(xiàn)頻次最高的15項。這里需要特別指出的是,由于某些崗位名稱書寫不規(guī)范,致使通過分詞和去停用詞后該名稱只剩一個名詞。通過專家分析,將4類AI崗位簇分別命名為產(chǎn)品架構(gòu)師、算法工程師、產(chǎn)品經(jīng)理和軟件工程師。

圖6 K-means聚類肘部法則分析圖

表2 K-means聚類分析得出的4個崗位簇

續(xù)表2

3.2 技能集識別

按照“能崗匹配”和“勝任力”理論,同一類型崗位所需的技能也應(yīng)該是相似的[11]。反過來,相似的技能更有可能出現(xiàn)在同一份崗位說明書中。為分析崗位簇所對應(yīng)的技能集,繼續(xù)使用聚類分析方法對崗位簇所需的技能詞進(jìn)行聚類。為了識別工作崗位中的技能集,采用LDA進(jìn)行聚類[12-14]。

LDA的輸入是招聘信息中的招聘崗位要求和需要識別的主題數(shù)量。為得到合適的主題數(shù)量,首先計算了主題數(shù)量k分別為2-10時的多個結(jié)果,然后組織專家對這些結(jié)果進(jìn)行評估,最終得出主題數(shù)量k為5最合適,因此將技能集劃分為5類最合理。表3顯示了通過LDA分析出來的5個技能集,以及每個技能集中出現(xiàn)頻次最高的15個技能詞。組織專家對技能詞所涉及的工作內(nèi)容進(jìn)行綜合研判,確定將這5個技能詞集合分別命名為數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、模式識別、大數(shù)據(jù)和程序設(shè)計。

表3 基于LDA的技能集分析

3.3 需求矩陣設(shè)計

在使用LDA分析技能集時,會輸出每個崗位任職要求屬于每個主題(技能集)的概率。每一項崗位任職要求代表一個工作崗位,因此該結(jié)果可理解為每個崗位對于每個主題(技能集)的需求程度。

為了得到各崗位簇對每個技能集的需求情況,首先選取位于同一個崗位簇中所有崗位對每一個技能集需求程度的平均值,將其作為該崗位簇對每一個技能集的需求程度,從而得到4個崗位簇對于5個技能集的需求矩陣C。然后,將需求矩陣C的每一列除以其平均值來歸一化矩陣C,得到矩陣T(表4)。由于分析的工作崗位都是AI相關(guān),同時崗位要求分析中用到的詞都是和AI相關(guān)的詞匯,因此不同崗位簇對技能集的需求程度區(qū)別不大。其中,元素Ti,j表示崗位簇i對特定技能集j的需求程度。為了更清楚地描述崗位簇對各個技能集需求的重要程度,采用以下方法予以簡化處理,得到表5。

表4 AI崗位簇對所需技能集的需求矩陣(Ti,j)

表5 崗位簇對所需技能集的需求評估

—T_(i,j)≥1.00:技能集j對崗位簇i特別重要;

—T_(i,j)<1.00:技能集j對崗位簇i不是特別重要。

4 結(jié)果可視化與分析

根據(jù)上述方法,可畫出崗位簇映射技能集的沖擊圖,如圖7所示。在圖7中,對每一個AI崗位簇設(shè)置了識別標(biāo)簽,對崗位簇與所需技能集的映射關(guān)系進(jìn)行了可視化處理,更為直觀地描述了崗位簇對技能集的需求程度。其中,左側(cè)是4類崗位簇,右側(cè)是5類技能集,中間連接線的寬度表示各崗位簇對每個技能集的需求程度或相關(guān)度。

4.1 軟件工程師

軟件工程師的主要角色是從事AI軟件開發(fā)相關(guān)工作。具體來說,AI軟件工程師主要負(fù)責(zé)AI產(chǎn)品軟件設(shè)計與構(gòu)架、編寫項目的核心代碼、解決在產(chǎn)品的研發(fā)過程中遇到的技術(shù)難點、協(xié)調(diào)項目組成員之間的合作并參與代碼開發(fā)規(guī)范編制。為此,AI軟件工程師既要熟練掌握程序設(shè)計,又要了解模式識別[15]。根據(jù)圖7可發(fā)現(xiàn),程序設(shè)計對于AI軟件工程師最為重要,其次是數(shù)據(jù)庫和模式識別。該崗位簇的招聘信息中也多次提到對于程序設(shè)計(精通C#或Java語言,精通面向?qū)ο蠓治龊驮O(shè)計技術(shù),有足夠的.net或Java開發(fā)經(jīng)驗)、模式識別(熟悉深度學(xué)習(xí)、AI、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等技術(shù)在圖像處理領(lǐng)域的應(yīng)用)以及數(shù)據(jù)庫(熟練掌握MySQL、Oracle等數(shù)據(jù)庫,有SQL性能調(diào)優(yōu)經(jīng)驗優(yōu)先)等技能要求。

圖7 崗位簇映射技能集的沖擊圖

4.2 算法工程師

算法工程師是AI領(lǐng)域的稀缺核心崗位,其主要角色是通過模式識別等算法來完成不同的邏輯運算和優(yōu)化業(yè)務(wù)。算法工程師的工作職責(zé)主要包括利用模式識別相關(guān)的手段分析大數(shù)據(jù),然后將算法用偽代碼描述出來,交由軟件工程師實現(xiàn)[16]。根據(jù)圖7可發(fā)現(xiàn),模式識別對算法工程師最重要,其次是程序設(shè)計和大數(shù)據(jù)。該崗位簇的招聘信息中多次提到對模式識別(有圖像處理、模式識別等項目經(jīng)驗優(yōu)先)、程序設(shè)計(熟悉UI、.net和云計算、android和C#/C++等編程語言)和大數(shù)據(jù)(熟悉數(shù)據(jù)挖掘、spark、Hadoop和分布式存儲)等技能要求。

4.3 產(chǎn)品經(jīng)理

產(chǎn)品經(jīng)理是需要將AI技術(shù)和行業(yè)知識相結(jié)合,并通過AI產(chǎn)品和項目的落地,最終實現(xiàn)企業(yè)商業(yè)目標(biāo)的復(fù)合型崗位,需對AI產(chǎn)品進(jìn)行規(guī)劃設(shè)計、提煉使用場景、推動用戶交互使用體驗、推進(jìn)產(chǎn)品上線。為此,AI產(chǎn)品經(jīng)理既要掌握AI技術(shù),同時又要熟悉商業(yè)分析和產(chǎn)品開發(fā)管理,在工作中需要與產(chǎn)品構(gòu)架師、算法工程師和軟件工程師等充分溝通協(xié)作,保證產(chǎn)品功能落地[17]。根據(jù)圖7可發(fā)現(xiàn),除了行業(yè)市場知識、項目管理技能外,產(chǎn)品經(jīng)理崗位對數(shù)據(jù)庫、機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)等有較強(qiáng)的技能需求。該崗位簇的招聘信息中多次提到對數(shù)據(jù)庫(熟悉MySQL、Oracle等數(shù)據(jù)庫)、機(jī)器學(xué)習(xí)(對TensorFlow、Caffe等算法有初步了解)和大數(shù)據(jù)(熟悉Hadoop底層文件系統(tǒng),對大規(guī)模數(shù)據(jù)并行計算傳輸處理等有豐富的經(jīng)驗)這些領(lǐng)域的技能需求。

4.4 產(chǎn)品架構(gòu)師

產(chǎn)品架構(gòu)師是將AI落地解決問題的執(zhí)行者、不同業(yè)務(wù)場景下的技術(shù)統(tǒng)籌人,主要著眼于AI系統(tǒng)的技術(shù)實現(xiàn),需對產(chǎn)品全局掌控并能夠及時洞悉局部技術(shù)瓶頸,并依據(jù)具體的AI業(yè)務(wù)場景給出解決方案。其主要職責(zé)是負(fù)責(zé)AI系統(tǒng)架構(gòu)設(shè)計和技術(shù)架構(gòu)選型,主導(dǎo)功能模塊設(shè)計、數(shù)據(jù)結(jié)構(gòu)設(shè)計、對外接口設(shè)計,針對行業(yè)客戶設(shè)計場景化的解決方案,承擔(dān)系統(tǒng)核心功能的研發(fā)工作和系統(tǒng)優(yōu)化,負(fù)責(zé)制定AI業(yè)務(wù)規(guī)劃等。為此,產(chǎn)品架構(gòu)師必須能夠熟練地與軟件工程師、算法工程師以及AI產(chǎn)品經(jīng)理溝通,充分了解AI的前沿理論與技術(shù)動態(tài)[18]。根據(jù)圖7可發(fā)現(xiàn),深度學(xué)習(xí)的理論與技術(shù)對產(chǎn)品架構(gòu)師最重要,其次是大數(shù)據(jù)和程序設(shè)計能力。該崗位簇的招聘信息中多次提到對機(jī)器學(xué)習(xí)(深度學(xué)習(xí)、計算機(jī)視覺等領(lǐng)域工作經(jīng)驗,熟悉TensorFlow/Caffe框架)、大數(shù)據(jù)(豐富的Hadoop實戰(zhàn)經(jīng)驗,熟悉Hadoop底層文件系統(tǒng)及分布式計算框架)和程序設(shè)計(熟悉.net、WCF、WPF等相關(guān)技術(shù)開發(fā)優(yōu)先)等技術(shù)領(lǐng)域有要求。

5 結(jié)論

與發(fā)展迅猛的AI技術(shù)領(lǐng)域比較,AI領(lǐng)域的人力資源實踐和研究均明顯落后太多,人力資源管理實務(wù)界和學(xué)術(shù)界均迫切需要對AI崗位及所需具體技能有一個清晰的完整性理解。本研究基于WebCollector爬蟲框架抓取了10 656條AI崗位的網(wǎng)絡(luò)招聘數(shù)據(jù),采用文本挖掘、K-means聚類分析、主題模型構(gòu)建、專家判斷的半自動分析模型等方法,對AI崗位的崗位簇和技能集進(jìn)行了類型學(xué)分析,得出如下結(jié)論:①AI崗位可分為軟件工程師、算法工程師、產(chǎn)品架構(gòu)師和產(chǎn)品經(jīng)理等4個崗位簇,以及數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、模式識別、大數(shù)據(jù)和程序設(shè)計等5個所需的技能集。②基于崗位簇對每個技能集的需求矩陣和基于沖擊圖的映射關(guān)系可視化結(jié)果顯示,程序設(shè)計對于AI軟件工程師最為重要,其次是數(shù)據(jù)庫和模式識別;模式識別對算法工程師最重要,其次是程序設(shè)計和大數(shù)據(jù);產(chǎn)品經(jīng)理崗位對數(shù)據(jù)庫、機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)等有較強(qiáng)的技能需求;機(jī)器學(xué)習(xí)對產(chǎn)品架構(gòu)師最重要,其次是大數(shù)據(jù)和程序設(shè)計能力。

本研究結(jié)果為精準(zhǔn)感知勞動力市場對AI人才的需求提供了可能,對AI崗位詞典編撰有一定貢獻(xiàn),有助于人力資源管理學(xué)術(shù)界和實務(wù)界對AI崗位及所需具體技能有一個清晰的完整性理解;從實踐指導(dǎo)上可以幫助人力資源管理部門制定更精準(zhǔn)的崗位管理、招聘遴選、培訓(xùn)開發(fā)方案,完善績效管理等流程;高等學(xué)校也可根據(jù)本研究結(jié)果完善AI專業(yè)培養(yǎng)方案和課程體系建設(shè),培養(yǎng)符合企業(yè)AI崗位所需專業(yè)人才,緩和AI領(lǐng)域的人才供需失配的問題。

由于本研究僅對智聯(lián)招聘網(wǎng)站上的AI招聘崗位數(shù)據(jù)進(jìn)行爬取,且未能考慮到歐美和日本、韓國等AI產(chǎn)業(yè)發(fā)展較好的其他地區(qū)和國家的情況,如何進(jìn)一步高效拓展數(shù)據(jù)的爬取范圍,將是下一步的工作重點。

猜你喜歡
模式識別程序設(shè)計名稱
基于Visual Studio Code的C語言程序設(shè)計實踐教學(xué)探索
從細(xì)節(jié)入手,談PLC程序設(shè)計技巧
電子制作(2019年9期)2019-05-30 09:42:04
淺談模式識別在圖像識別中的應(yīng)用
電子測試(2017年23期)2017-04-04 05:06:50
第四屆亞洲模式識別會議
高職高專院校C語言程序設(shè)計教學(xué)改革探索
滬港通一周成交概況
滬港通一周成交概況
滬港通一周成交概況
滬港通一周成交概況
PLC梯形圖程序設(shè)計技巧及應(yīng)用
垣曲县| 德庆县| 秀山| 抚远县| 锦州市| 文安县| 南丹县| 固安县| 茶陵县| 饶阳县| 抚州市| 景泰县| 宣城市| 建始县| 黔西县| 申扎县| 兴和县| 灯塔市| 正镶白旗| 莱芜市| 昌邑市| 和平县| 株洲市| 胶南市| 法库县| 清苑县| 扎囊县| 肇庆市| 九台市| 上蔡县| 峨边| 禹城市| 泸西县| 佳木斯市| 弥勒县| 栾城县| 宁国市| 政和县| 邵阳市| 内乡县| 抚松县|