国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于互聯(lián)網(wǎng)語料的人才政策分析方法

2020-05-15 07:45:16
科技創(chuàng)業(yè)月刊 2020年2期
關(guān)鍵詞:省份文檔廣東省

崔 焱

(1.中國社會科學(xué)院大學(xué)(研究生院) 人口與勞動經(jīng)濟(jì)研究所,北京 100028; 2.中化環(huán)境控股有限公司,北京 100070)

0 引言

人才在社會發(fā)展中發(fā)揮著重要作用。研究人才政策有助于了解各地人才政策趨勢,分析人才政策與社會發(fā)展之間的關(guān)系,并考慮人才政策的得失,從而制定更加合理的人才政策。

人才政策研究需要獲取大量人才政策文件,以對人才政策進(jìn)行綜合分析和評價[1-5]。這種研究方法的問題在于,它需要獲取盡可能多的人才政策文件,并且需要大量的人工分析工作,工作量大,主觀性強(qiáng)。為避免上述問題,大量的人才政策文獻(xiàn)重點(diǎn)考慮多省份人才政策[2-6],或者研究單一省份人才政策的特點(diǎn)[[7-12],或者比較多個省份人才政策的差異[4-11]。

對于人才政策的研究方法,一般采用總結(jié)法[1-3],該方法需要研究人員對人才政策文件進(jìn)行總結(jié),存在分析復(fù)雜度高、主觀性強(qiáng)的缺點(diǎn);少量文獻(xiàn)采用數(shù)學(xué)分析的研究方法[7-8],這種方法對預(yù)處理后的人才政策文件,使用統(tǒng)計(jì)等數(shù)學(xué)方法分析人才政策數(shù)據(jù),這種方法客觀性好,但仍需要人工對人才數(shù)據(jù)進(jìn)行預(yù)處理和總結(jié)。

本文提出了一種基于互聯(lián)網(wǎng)語料的人才政策分析方法。本方法首先使用計(jì)算機(jī)爬蟲程序,獲取盡可能多的發(fā)布在互聯(lián)網(wǎng)上的人才政策文件,然后通過關(guān)鍵詞分割,提取人才政策中的關(guān)鍵詞,最后通過TF-IDF等技術(shù),對人才政策的關(guān)鍵詞進(jìn)行分析。本方法盡量避免研究人員對政策文件的處理和總結(jié),從而避免人為性傾向帶來的主觀性問題。本方法具有較好的計(jì)算機(jī)處理能力,可自動更新人才政策文件數(shù)據(jù),快速輸出分析結(jié)果,具有時效性高、分析地域廣、客觀性強(qiáng)的優(yōu)勢。

1 人才政策數(shù)據(jù)分析方法

1.1 人才政策文件獲取

人才政策文件的獲取方式是計(jì)算機(jī)爬蟲程序。首先確定爬蟲程序需要采集的數(shù)據(jù)源,數(shù)據(jù)源由人工確定。數(shù)據(jù)源為全國不同省市的人才政策網(wǎng)站,或者發(fā)布人才政策的網(wǎng)站板塊,人工將這些網(wǎng)站或者網(wǎng)站板塊記錄下來,整理為合適的數(shù)據(jù)格式后作為數(shù)據(jù)源。然后設(shè)計(jì)爬蟲程序,爬蟲程序需要讀取數(shù)據(jù)源,對數(shù)據(jù)源的網(wǎng)站或網(wǎng)站模塊中的人才政策文件進(jìn)行持續(xù)抓取和定期更新。爬蟲程序使用Python語言實(shí)現(xiàn),可在1小時內(nèi)完成全部人才政策文件的抓取,并可根據(jù)需求定期更新。

爬蟲程序除了抓取人才政策文件的標(biāo)題和正文,還可記錄其發(fā)布時間和發(fā)布地點(diǎn)。發(fā)布時間和發(fā)布地點(diǎn)分別可以從時間和空間維度上分析人才政策,綜合使用各種維度參數(shù)可更加深入解析人才政策文件,本文主要分析人才政策文件的標(biāo)題和正文。

1.2 人才政策文件處理

人才政策文件包含標(biāo)題、正文、發(fā)布時間、發(fā)布地點(diǎn)等參數(shù),發(fā)布時間和發(fā)布省份可以直接使用,而標(biāo)題和正文則需要理解其內(nèi)容含義。為了更加深入分析人才政策文件內(nèi)容,需要對人才政策標(biāo)題和正文進(jìn)行解析。

首先通過分詞工具,將人才政策文件正文切割為一個個有實(shí)際含義的詞語。具體過程為,使用分詞工具Jieba,對人才政策文件正文分詞,分詞后可以得到對應(yīng)的詞語及其詞性。詞性表示一個詞語在句子中是名詞、動詞等,本文重點(diǎn)考慮名詞和部分動詞,其他詞性的詞語被排除掉。

經(jīng)過詞性過濾得到的詞語中,仍然包含大量與人才政策無關(guān)的詞語,比如“文件”“公告”,這些詞語中一部分詞語的出現(xiàn)頻度非常高,對人才政策文件的分析帶來很大干擾。對這些詞語,可通過設(shè)置停用詞在分詞階段去掉,也可以在分詞完成后人工剔除,本文使用的后一種方法。

1.3 基于TF-IDF的關(guān)鍵詞權(quán)重計(jì)算

本文使用TF-IDF(Term Frequency-Inverse Document Frequency)提取關(guān)鍵詞。TF-IDF是信息檢索中常用的關(guān)鍵詞加權(quán)算法,是提取文本關(guān)鍵詞的常用方法。TF-IDF算法實(shí)現(xiàn)簡單,計(jì)算復(fù)雜度低。

顧名思義,TF-IDF是兩部分概念的疊加。TF表示詞頻,表示詞在給定文檔中的出現(xiàn)次數(shù),這里的文檔指的是計(jì)算TF時的目標(biāo)文檔集合,可能是一個文檔,也可能是多個文檔。IDF表示逆文檔頻率。TF-IDF是詞頻TF和逆文檔頻率IDF的乘積。一般來說,詞語在文檔中的TF-IDF值越大,則詞語在文檔中的重要性越高。因此,計(jì)算文檔中每個詞的TF-IDF值,將詞按照TF-IDF值從大到小排序,可得到文檔的關(guān)鍵詞。下面詳細(xì)說明詞頻TF和逆文檔頻率IDF的定義及其計(jì)算過程。

計(jì)算詞頻TF。用TF(w, d)表示詞w在文檔d中出現(xiàn)的次數(shù)。TF(w, d)值越大,說明詞w在文檔d中的出現(xiàn)次數(shù)越高。但考慮到不同文檔或文檔集合的大小和總詞數(shù)不同,在需要跨文檔和文檔集合使用TF值時,一般將其歸一化,見公式(1)。本文計(jì)算單一省份人才政策文件中詞的TF值時,未進(jìn)行歸一化,這是因?yàn)槎鄠€省份數(shù)據(jù)比較時,本文比較的是關(guān)鍵詞的排序,而非TF-IDF值,兩者排序是一致的。

(1)

計(jì)算逆文檔頻率IDF。用IDF(w)表示詞w的逆文檔頻率,逆文檔頻率表示詞在不同文檔中的出現(xiàn)程度。詞在不同文檔中的出現(xiàn)次數(shù)越多,則該詞的IDF值越低,該詞在語料庫中的重要性也越低。語料庫為文檔的語句基礎(chǔ),是大量文檔的集合。需要注意的是,一個詞反復(fù)出現(xiàn)時,一般認(rèn)為其重要性高,這與IDF含義并不矛盾,IDF表示的是詞在整個語料庫而非單一文檔中的重要性,如果詞在語料中的不同文檔中均出現(xiàn),則該詞被認(rèn)為是一個通用詞,難以凸顯其在特定文檔中的作用。本文計(jì)算IDF使用的語料庫是爬蟲程序抓取的全部人才政策文件,文件數(shù)量為9359個。逆文檔頻率IDF的計(jì)算公式如下:

(2)

如果一個詞在不同文檔中越常見,則公式(2)的分母就越大,逆文檔頻率IDF值就越小。為避免所有文檔均不包含詞w導(dǎo)致的分母為0,公式中給分母加1。log函數(shù)表示對得到的值取對數(shù)。計(jì)算TF-IDF。TF-IDF的計(jì)算見公式(3):

TF-IDF(w,d)=TF(w,d)*IDF(w)

(3)

由公式可知,TF-IDF與一個詞在文檔中的出現(xiàn)次數(shù)正相關(guān),與該詞在語料庫不同文檔中的出現(xiàn)次數(shù)負(fù)相關(guān)。提取人才政策文件中的關(guān)鍵詞就是計(jì)算出文檔中過濾后詞的TF-IDF值,然后將詞按照TF-IDF降序排列,取排序靠前的詞即可。

1.4 數(shù)據(jù)分析

本文從以下角度對人才政策文件進(jìn)行研究。不同省份人才政策文件數(shù)量和該省份GDP之間的關(guān)系;廣東省人才政策特點(diǎn);人才政策文件標(biāo)題關(guān)鍵詞詳細(xì)分析,對人才政策文件的標(biāo)題,提取關(guān)鍵詞,計(jì)算TF-IDF,分析不同省份人才政策文件關(guān)鍵詞的差異;人才政策文件內(nèi)容關(guān)鍵詞簡要分析。

2 人才政策數(shù)據(jù)分析

2.1 不同省份人才政策文件數(shù)量和GDP之間的關(guān)系

計(jì)算不同省份的人才政策文件數(shù)量,結(jié)合國家統(tǒng)計(jì)局公布的2019年全國GDP數(shù)據(jù),匯總得到不同省份人才政策文件數(shù)量和GDP關(guān)系表,見表1。需要說明的是,表1沒有吉林、甘肅等多個省份的數(shù)據(jù),這是因?yàn)檫@些省份的人才政策文件數(shù)據(jù)源未進(jìn)行配置,本文后續(xù)數(shù)據(jù)分析均不涉及這些省份。

對比表1中不同省份的人才政策文件數(shù)量和2019年GDP排名的關(guān)系,得到圖1關(guān)系圖,橫軸為省份2019年GDP排名,縱軸為GDP排名對應(yīng)省份的人才政策文件數(shù)量。由圖1可以看出,不同省份的人才政策文件數(shù)量和GDP排名整體呈正相關(guān),這說明GDP越高的省份,其人才政策文件數(shù)量越多,一定程度上說明經(jīng)濟(jì)越發(fā)達(dá)的省份,越重視人才政策,可以推測良好且廣泛的人才政策,對經(jīng)濟(jì)長遠(yuǎn)發(fā)展有利。需要注意的是,山東省GDP全國排名靠前,但人才政策文件數(shù)量偏少,一方面是因?yàn)榕渲玫娜瞬耪呶募?shù)據(jù)源存在一定程度的缺失,另一方面是因?yàn)樯綎|省政務(wù)信息化相對GDP前幾名的省份可能存在一定不足,導(dǎo)致發(fā)布到互聯(lián)網(wǎng)上的人才政策文件偏少。

表1 不同省份人才政策文件數(shù)量和2019年GDP關(guān)系

圖1 人才政策文件數(shù)量與2019年GDP排名關(guān)系

圖1中,橫軸為2019年省份GDP排名,縱軸為GDP排名對應(yīng)的省份的政策文件數(shù)量。

不同省份人才政策文件數(shù)量和2019年GDP值的關(guān)系,得到圖2的關(guān)系圖,橫軸為GDP值(單位:萬億),縱軸GDP值對應(yīng)的省份的人才政策文件數(shù)量。由圖2也可看出,不同省份GDP值和人才政策文件數(shù)量基本上呈現(xiàn)正相關(guān)。

圖2 不同省份人才政策文件數(shù)量與GDP關(guān)系

綜上分析,人才政策與經(jīng)濟(jì)發(fā)展整體呈正相關(guān)。經(jīng)濟(jì)越發(fā)達(dá)的省份,越需要大量人才保持其經(jīng)濟(jì)長久穩(wěn)定發(fā)展,因此也越需要良好且廣泛的人才政策來穩(wěn)定人才隊(duì)伍和吸引新人才。

2.2 廣東省人才政策特點(diǎn)

廣東省人才政策文件數(shù)量和2019年GDP均全國排名第一,具有良好的典型性,本節(jié)分析廣東省的人才政策文件關(guān)鍵詞特點(diǎn)。

分析廣東省政策文件的標(biāo)題關(guān)鍵詞,人工過濾不相關(guān)的關(guān)鍵詞后,TF-IDF值排名前20的關(guān)鍵詞分別是就業(yè)、社會保障、高層次、技能、改革、衛(wèi)生、創(chuàng)業(yè)、科學(xué)技術(shù)、醫(yī)藥、鄉(xiāng)村、公立醫(yī)院、博士后、博士、體育、醫(yī)院、領(lǐng)軍、畢業(yè)生、軍人、創(chuàng)新、制造業(yè)。在前20個關(guān)鍵詞中,與醫(yī)療衛(wèi)生相關(guān)的詞有4個,分別是衛(wèi)生、醫(yī)藥、公立醫(yī)院、醫(yī)院,一定程度說明廣東省較多的人才政策與醫(yī)藥衛(wèi)生相關(guān),對醫(yī)藥衛(wèi)生方面的人才尤其重視。體現(xiàn)高技能人才的關(guān)鍵詞有高層次、博士后、博士、領(lǐng)軍,一定程序上說明廣東省有較多的人才政策與高層次人才相關(guān),符合廣東省高科技產(chǎn)業(yè)發(fā)展良好的情況。

分析廣東省政策文件的正文關(guān)鍵詞,人工過濾不相關(guān)的關(guān)鍵詞后,TF-IDF值排名前20的關(guān)鍵詞是衛(wèi)生、醫(yī)院、醫(yī)療、體育、公立醫(yī)院、教師、技能、中醫(yī)、創(chuàng)業(yè)、科技、藥品、社會保障、學(xué)校、健康、商務(wù)、安全、文化、農(nóng)業(yè)、教育、鄉(xiāng)村。前20個關(guān)鍵詞中,與醫(yī)療衛(wèi)生相關(guān)的詞有7個,分別是衛(wèi)生、醫(yī)院、醫(yī)療、公立醫(yī)院、中醫(yī)、藥品、健康,說明廣東省人才政策文件內(nèi)容較多內(nèi)容的涉及醫(yī)療衛(wèi)生方面。

2.3 人才政策文件標(biāo)題關(guān)鍵詞分析

關(guān)鍵詞詞頻TF分析。對全部人才政策文件的標(biāo)題進(jìn)行分詞,計(jì)算詞頻TF,人工挑選高頻且與人才政策相關(guān)性較高的關(guān)鍵詞。最終確定關(guān)鍵詞如下(按照詞頻TF從高到低排序):人才、創(chuàng)新、創(chuàng)業(yè)、引進(jìn)、高層次、改革、規(guī)劃、科技、技術(shù)、人力資源、社會保障、經(jīng)濟(jì)、教育、畢業(yè)生、質(zhì)量、高校、獎勵、健康、人才培養(yǎng)、優(yōu)秀、人才隊(duì)伍、補(bǔ)貼、領(lǐng)軍、高技能、文化、醫(yī)療、英才、高新、選拔、醫(yī)藥、科學(xué)、住房、大學(xué)、職業(yè)技能、資助、互聯(lián)網(wǎng)、電子、激勵、金融、電子商務(wù)、轉(zhuǎn)型、升級、引進(jìn)人才、優(yōu)惠、基地、博士、專家、振興、評選、海外、新型、優(yōu)秀人才、科學(xué)技術(shù)、高端、博士后、科研、補(bǔ)助、評價、知識、高新技術(shù)、成果、優(yōu)化、投資、拔尖、留學(xué)、戶口、居住。

關(guān)鍵詞TF-IDF分析。通過TF-IDF計(jì)算關(guān)鍵詞權(quán)重,最終得到排名前15的關(guān)鍵詞為:高層次,創(chuàng)業(yè),規(guī)劃,改革,引進(jìn),英才,畢業(yè)生,社會保障,人力資源,高技能,創(chuàng)新,人才,科技,選拔,人才隊(duì)伍,關(guān)鍵詞TF-IDF的計(jì)算過程如表2所示。排名第一的關(guān)鍵詞是高層次,與人才政策相關(guān)性很高。關(guān)鍵詞人才的出現(xiàn)次數(shù)雖然最高,但其IDF值非常低,最終導(dǎo)致其排名相對靠后。

表2 人才政策文件標(biāo)題的前15個關(guān)鍵詞

不同省份人才政策標(biāo)題關(guān)鍵詞對比。首先對比廣東省和江蘇省的人才政策標(biāo)題的前10個關(guān)鍵詞,廣東省人才政策關(guān)鍵詞TF-IDF計(jì)算過程見表3,江蘇省人才政策關(guān)鍵詞TF-IDF計(jì)算過程見表4。對比可知,高技能和高層次這兩個關(guān)鍵詞在兩省的重要性都非常高,說明這兩個經(jīng)濟(jì)發(fā)展較好的省份,均重視高技能和高層次人才,這與其產(chǎn)業(yè)發(fā)展密切相關(guān)。廣東省的社會保障關(guān)鍵詞排名第2,體現(xiàn)了廣東省對人才保障政策的關(guān)注。

對比黑龍江(見表5)和廣東(見表6)、江蘇(見表4)的人才政策關(guān)鍵詞,黑龍江省的創(chuàng)業(yè)、大學(xué)、畢業(yè)生等關(guān)鍵詞的TF-IDF值非常高,這與廣東和江蘇區(qū)別明顯,說明黑龍江省在高校畢業(yè)生上有較多政策,體現(xiàn)了其對高校畢業(yè)生的重視。

表3 廣東省人才政策文件標(biāo)題的前10個關(guān)鍵詞

表4 江蘇省人才政策文件標(biāo)題的前10個關(guān)鍵詞

表5 黑龍江省人才政策文件標(biāo)題的前10個關(guān)鍵詞

表6 廣東省人才政策文件內(nèi)容的前10個關(guān)鍵詞

整體來看,不同省份人才政策標(biāo)題有明顯不同,但難以直接總結(jié)其區(qū)別。

2.4 人才政策文件內(nèi)容關(guān)鍵詞簡要分析

本部分簡要說明不同省份人才政策文件正文的關(guān)鍵詞。分析廣東省政策文件的正文關(guān)鍵詞,人工過濾不相關(guān)的關(guān)鍵詞后,TF-IDF值排名前10的關(guān)鍵詞是醫(yī)療、創(chuàng)業(yè)、科技、補(bǔ)貼、人力資源、社會保障、健康、文化、教育、改革。在前10個關(guān)鍵詞中,與醫(yī)療衛(wèi)生相關(guān)的詞有2個,分別是醫(yī)療、健康,進(jìn)一步說明廣東省對醫(yī)療衛(wèi)生人才關(guān)注度較高。與人才保障相關(guān)的關(guān)鍵詞有3個,分別是補(bǔ)貼、社會保障、健康,一定程度體現(xiàn)了廣東省在人才保障方面投入較多的政策支持。

3 總結(jié)與展望

針對人才政策研究,本文提出了一種基于互聯(lián)網(wǎng)語料的人才政策分析方法。該方法使用計(jì)算機(jī)爬蟲程序自動獲取互聯(lián)網(wǎng)上各省市人才政策文件,然后對獲取到的人才政策文件的標(biāo)題和正文,使用中文分詞和自然語言處理技術(shù)分析其關(guān)鍵詞,進(jìn)而客觀分析區(qū)域人才政策文件的主題。本文使用該方法,分析了全國人才政策的特點(diǎn),詳細(xì)分析了以廣東省為代表多個省份的人才政策數(shù)量和特點(diǎn),并比較了不同省份人才政策數(shù)量和內(nèi)容上的差異。研究結(jié)果表明,不同省份人才政策與當(dāng)?shù)亟?jīng)濟(jì)發(fā)展之間存在一定的相關(guān)性。本方法具有時效性高、分析地域廣、客觀性強(qiáng)的優(yōu)點(diǎn)。

人才政策文件包含發(fā)布時間這一參數(shù),發(fā)布時間可用于分析人才政策的變化,結(jié)合地域參數(shù)還可分析不同省份人才政策變遷情況,后續(xù)將進(jìn)行相關(guān)研究。

猜你喜歡
省份文檔廣東省
有人一聲不吭向你扔了個文檔
誰說小龍蝦不賺錢?跨越四省份,暴走萬里路,只為尋找最會養(yǎng)蝦的您
廣東省海域使用統(tǒng)計(jì)分析
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
因地制宜地穩(wěn)妥推進(jìn)留地安置——基于對10余省份留地安置的調(diào)研
1萬億美元——廣東省預(yù)計(jì)2013年GDP
法人(2014年2期)2014-02-27 10:41:35
廣東省10年將投1187億治水
廣東省今后5年將投7226億建高速公路
不讓他人隨意下載Google文檔
電腦迷(2012年4期)2012-04-29 06:12:13
洞口县| 泗水县| 延川县| 千阳县| 成武县| 历史| 靖安县| 大石桥市| 牟定县| 兴和县| 镇江市| 郁南县| 镇安县| 图木舒克市| 寻甸| 兴和县| 寿阳县| 铜陵市| 岑溪市| 灵宝市| 乌拉特后旗| 固镇县| 宁蒗| 平山县| 新竹市| 崇信县| 琼中| 莒南县| 东海县| 阿合奇县| 萨嘎县| 临城县| 孟津县| 南涧| 黑龙江省| 邻水| 天津市| 吕梁市| 汽车| 永德县| 龙门县|