国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樸素貝葉斯算法的電網(wǎng)建設(shè)資源自動化分類模型研究

2021-01-07 13:36:16夏常明
粘接 2021年12期
關(guān)鍵詞:電網(wǎng)建設(shè)

夏常明

摘 要:提出基于樸素貝葉斯算法的電網(wǎng)建設(shè)人力資源自動化分類模型研究。通過網(wǎng)絡(luò)爬蟲技術(shù),采集電網(wǎng)建設(shè)資源,在采集的資源信息中提取資源特征,并應(yīng)用隨機森林算法在特征項中選取合適的特征項,生成特征子集。采用樸素貝葉斯算法,構(gòu)建基于屬性相關(guān)性度量的分類模型,實現(xiàn)電網(wǎng)建設(shè)人力資源自動化分類。結(jié)果表明,在兩分類和多分類條件下,文中提出的分類模型的平均適應(yīng)度值分別為89.78和97.47,該分類模型能夠獲取準(zhǔn)確的自動化分類結(jié)果,提高模型的適應(yīng)度值,滿足電網(wǎng)建設(shè)需求。

關(guān)鍵詞:樸素貝葉斯算法;電網(wǎng)建設(shè);自動化分類模型;特征屬性

中圖分類號:TP301 文獻(xiàn)標(biāo)識碼:A ? ? 文章編號:1001-5922(2021)12-0093-05

Research on Automatic Classification Model of Power Grid Construction Resources based on Naive Bayes Algorithm

Xia Changming

(State Grid Gansu Electric Power Company, Lanzhou 730030, China)

Abstract:The automatic classification model of power grid construction resources based on naive Bayesian algorithm is proposed. The network crawler technology is used to collect the power grid construction resources, and the resource features are extracted from the collected resource information. In addition, the random forest algorithm is applied to select the appropriate feature items, which are used to generate the feature subset. The naive Bayes algorithm is adopted to construct a classification model based on attribute correlation measurement. Thus the automatic classification of human resources in power grid construction is realize. The results show that under two classification and multiple classification conditions, the average fitness of the proposed classification model is 89.78 and 97.47, respectively. The classification model can obtain accurate automatic classification results, improve the fitness of the model, and meet the requirements of power grid construction.

Key words:Naive Bayes algorithm; Power grid construction; Automatic classification model; Feature attributes

0 引言

考慮到電網(wǎng)建設(shè)的復(fù)雜性,施工過程中需要大量工作人員進(jìn)行配合,電網(wǎng)建設(shè)資源中人力資源分類管理成為研究重點問題。其中,不同類型的工作人員需要在不同的施工階段進(jìn)行有效配合,根據(jù)人力資源分類結(jié)果,明確人員經(jīng)驗和熟練程度,將其分配至合理崗位,保證電網(wǎng)建設(shè)項目的高效開展,并且有利于成本控制[1-2]。

目前相關(guān)領(lǐng)域?qū)W者針對電網(wǎng)建設(shè)資源管理中的分類模型進(jìn)行了研究,并取得了一定的研究成果。文獻(xiàn)[3]利用強化學(xué)習(xí)技術(shù)中的Q學(xué)習(xí)算法,建立增量分類模型。通過對樣本增量序列的有效選取,將分類數(shù)據(jù)中包含的噪聲影響降低,完成高精度的樣本自主標(biāo)記。結(jié)合批量增量計算方法,保證分類模型計算復(fù)雜度的降低,但該模型的分類精度較低。文獻(xiàn)[4]以CNN網(wǎng)絡(luò)為核心,構(gòu)建分類模型。在卷積網(wǎng)絡(luò)的作用下,將資源信息的局部特征提取出來,融合雙向門控循環(huán)單元獲取篩選后的特征屬性。利用多頭注意力機制計算特征權(quán)重,基于權(quán)重加高的特征進(jìn)行分類處理。但是,該模型的適應(yīng)度值較低。針對上述問題,提出基于樸素貝葉斯算法的電網(wǎng)建設(shè)資源自動化分類模型。文中針對電網(wǎng)建設(shè)資源中人力資源管理的特點和需求,利用網(wǎng)絡(luò)爬蟲技術(shù)采集電網(wǎng)建設(shè)資源,采用隨機森林算法獲取資源特征。結(jié)合樸素貝葉斯算法,構(gòu)建新的自動化分類模型,能夠獲取準(zhǔn)確的自動化分類結(jié)果。

1 模型研究背景

1.1 采集電網(wǎng)建設(shè)資源

由于文中設(shè)計的分類模型,主要針對電網(wǎng)建設(shè)資源中的人力資源展開設(shè)計[5-6]。所以,在電網(wǎng)建設(shè)資源采集過程中,選擇網(wǎng)絡(luò)爬蟲技術(shù),在內(nèi)部網(wǎng)站中獲取人力資源信息[7]。并按照網(wǎng)頁鏈接不斷查找,將查找的資源信息進(jìn)行自動下載。網(wǎng)絡(luò)爬蟲的工作原理如圖1所示。

由圖1可知,網(wǎng)絡(luò)爬蟲技術(shù)采集電網(wǎng)建設(shè)資源,包括選擇界面、核查URL、提取鏈接以及文本下載等多個步驟。所以,該技術(shù)的主體模塊由網(wǎng)頁解析器和網(wǎng)頁下載器構(gòu)成。

在實際應(yīng)用中,需要按照實際采集需要,獲取主題爬行范圍保證采集信息符合電網(wǎng)建設(shè)資源中人力資源信息采集要求[8]。本文應(yīng)用Shark-Search算法作為判斷引擎,在向量空間模型的作用下計算采集電網(wǎng)建設(shè)資源與人力資源信息之間的相關(guān)度。將相關(guān)度的取值范圍限定在0-1之間,越靠近1則表明采集信息越符合要求;反之則需要重新采集資源信息。信息采集過程中,子節(jié)點的主題相關(guān)性完全取決于父節(jié)點的相關(guān)度,則URL列表的相關(guān)度得分計算公式為:

式中,x表示子節(jié)點;P表示得分;Y 表示系數(shù);λ表示遺傳算子;xa表示相鄰節(jié)點??紤]到父節(jié)點遺傳作用,得出:

式中,F(xiàn)表示相關(guān)性得分;Sim表示相似度;t表示預(yù)定義主題;c表示父節(jié)點;δ表示衰減因子; 表示相似度判定閾值;if表示計算函數(shù)。由于鄰近鏈接的相關(guān)性得分很大程度上取決于錨文本、鏈接附近文本,則鄰近鏈接的主題相關(guān)性計算公式為

式中,β表示預(yù)定義常量;v表示鏈接上下文文本;b表示錨文本。通過上述計算,確保網(wǎng)絡(luò)爬蟲采集的電網(wǎng)建設(shè)資源信息,屬于人力資源信息,將其作為后續(xù)分類操作的數(shù)據(jù)支撐。

1.2 提取和選擇電網(wǎng)建設(shè)資源特征

資源自動化分類需要以資源特征為依據(jù),考慮到電網(wǎng)建設(shè)人力資源信息文本中所包含的詞匯較多[9],為了降低模型計算復(fù)雜度,文中利用機器學(xué)習(xí)方法提取特征項。根據(jù)資源信息中不同詞匯與主題的關(guān)系進(jìn)行分析,在特征提取時需要將貢獻(xiàn)較小和無貢獻(xiàn)的詞匯剔除,將貢獻(xiàn)較大的詞匯作為特征提取出來[10]。文中采用詞頻統(tǒng)計的方法明確停用詞,將其從資源內(nèi)去除后,按照TF.IDF方法計算詞匯的權(quán)重,將權(quán)重計算結(jié)果較高的詞匯充當(dāng)特征項。

式中,s表示隨機選取文本;r表示特征項;w表示特征權(quán)重;A表示文本中特征項出現(xiàn)頻率;N表示為文本集個數(shù);n表示含有特征項的文本數(shù)。由于上述計算提取出來的特征項較多,為了保證模型分類結(jié)果的準(zhǔn)確性和實時性,應(yīng)用隨機森林方法選擇合適的特征項構(gòu)成特征子集,隨機森林的基本思想如圖2所示。

利用隨機森林模型對原始樣本集進(jìn)行迭代訓(xùn)練,并在訓(xùn)練開始前在樣本集中隨機抽取多個樣本,構(gòu)成全新的訓(xùn)練樣本集[11]。通過上述方法生成多個訓(xùn)練樣本集,將每個訓(xùn)練樣本集生成的決策樹組合而成隨機森林。最后,利用投票結(jié)果對特征項進(jìn)行分類。針對每一類型的特征數(shù)據(jù),計算最小袋外數(shù)據(jù)誤差率,根據(jù)誤差率計算結(jié)果選擇合適的特征,保證分類精度。在隨機森林構(gòu)建過程中,定義樣本集S:

式中,a、m表示子樣本,通過抽樣計算獲取袋外樣本集,并利用自助樣本集生成相應(yīng)的分類器,獲取以下分類結(jié)果:

式中,i表示任意樣本;C 表示組合分類器;σ表示示性函數(shù);K 表示樣本抽取次數(shù);表示樣本分類結(jié)果。應(yīng)用隨機森林算法選擇電網(wǎng)建設(shè)資源特征,實際上是分析某個特征中影響RF準(zhǔn)確率的關(guān)鍵因素,計算單個特征重要性[12]。目標(biāo)特征子集構(gòu)建過程中應(yīng)用RF選擇特征,本質(zhì)上是基于Wrapper法選取特征如圖3所示。

根據(jù)隨機森林算法得出特征重要性度量值,將不符合計算要求的特征從特征空間中去除,生成新的特征子集。并重復(fù)計算OOB誤差率,直到僅剩兩個特征子集,獲取最終特征。

1.3 樸素貝葉斯算法的電網(wǎng)建設(shè)資源自動化分類模型

基于上述電網(wǎng)建設(shè)人力資源特征選取結(jié)果,設(shè)計基于樸素貝葉斯算法的分類模型[13],樸素貝葉斯分類模型結(jié)構(gòu)示意圖如圖4所示。

在圖4中,A1,A2,…Aε表示特征屬性變量,對變量集按照屬性進(jìn)行類變量劃分。將類變量作為唯一父節(jié)點,根據(jù)屬性變量的差異,生成樸素貝葉斯分類模型[14]。以屬性為基礎(chǔ)進(jìn)行樸素貝葉斯分類時,需要計算不同人力資源信息變量的相關(guān)性,針對兩個基本屬性R、E,應(yīng)用o2統(tǒng)計量計算方式,獲取行列變量的相關(guān)性:

式中,o表示統(tǒng)計量;l、p表示屬性值;f 表示樣本容量;flp表示兩個基本屬性同時出現(xiàn)的頻度。根據(jù)統(tǒng)計量計算結(jié)果,將數(shù)據(jù)列表中行列變量屬性相關(guān)性計算公式表示為:

式中,Ψ 表示屬性相關(guān)性度量值;u表示屬性頻度列表行數(shù);z 表示屬性頻度列表列數(shù)。屬性相關(guān)性度量值越大表明電網(wǎng)資源信息之間的屬性相關(guān)性更強[15]。為了加強資源分類的可伸縮性和正確性,文中采用屬性約簡的方法進(jìn)行預(yù)處理。通過屬性約簡過程,將最優(yōu)屬性從電網(wǎng)建設(shè)資源屬性集合中提取出來。電網(wǎng)建設(shè)人力資源集合在屬性約簡后需要達(dá)到兩個目的:其一,確保決策屬性與條件屬性具有較大相關(guān)性;其二,保證各個條件屬性之間相關(guān)性極小。

兩項屬性約簡目的之間存在一定的矛盾性,倘若某一個屬性與相鄰屬性之間存在較強關(guān)聯(lián),表明該屬性與其他屬性之間關(guān)聯(lián)度不會太弱[16]。所以,參考該屬性與決策屬性之間的關(guān)聯(lián)程度衡量與其他屬性的相關(guān)性。之后,利用第一個屬性約簡目的,進(jìn)行相關(guān)屬性的取舍。

電網(wǎng)建設(shè)人力資源類型較多,對某一個未知的數(shù)據(jù)樣本,利用樸素貝葉斯分類算法對數(shù)據(jù)樣本進(jìn)行分配,將樸素貝葉斯分類定義為V,獲取如下所示計算公式:

式中,μ表示未知數(shù)據(jù)樣本;ω表示樣本類型;表示泛化函數(shù);V 表示樸素貝葉斯分類;η表示常數(shù)。由于所有類常數(shù)保持一致,計算過程中僅需要獲取最大值,η(ω)計算公式為:

式中,ζ 表示訓(xùn)練樣本總數(shù);ζj 表示某一類中的訓(xùn)練樣本數(shù)量。通過上述計算,獲取電網(wǎng)建設(shè)資源自動化分類結(jié)果,實現(xiàn)基于樸素貝葉斯算法的電網(wǎng)建設(shè)資源自動化分類。

2 實驗分析

為了驗證基于樸素貝葉斯算法的電網(wǎng)建設(shè)資源自動化分類模型的有效性,以及在電網(wǎng)建設(shè)資源管理中的應(yīng)用效果,在文中提出的自動化分類模型設(shè)計完成后,在實際環(huán)境中展開實驗,驗證模型的應(yīng)用性能。

2.1 實驗環(huán)境分析

為了符合模型應(yīng)用環(huán)境,文中針對某市電網(wǎng)項目應(yīng)用設(shè)計模型,對電網(wǎng)建設(shè)資源進(jìn)行自動化分類。當(dāng)前某市電網(wǎng)存在較為嚴(yán)重的設(shè)備重過載問題,該電網(wǎng)中各電壓等級設(shè)備運行狀況如表1所示。

由表1可知,某市電網(wǎng)運行狀態(tài)已經(jīng)對居民生活用電產(chǎn)生負(fù)面影響。為了提升電網(wǎng)運行穩(wěn)定性,需要對電網(wǎng)進(jìn)行重新建設(shè)。通過分析可知,該電網(wǎng)建設(shè)擴建項目內(nèi)有43項改造工程,包括220 kV線路擴建,110 kV配網(wǎng)出線改造以及220、110 kV配電站保護(hù)及綜自改造等多項擴建工程。文中在上述電網(wǎng)建設(shè)工程中選取一段建設(shè)區(qū)域,應(yīng)用文中設(shè)計的基于樸素貝葉斯算法的電網(wǎng)建設(shè)資源自動化分類模型,對項目相關(guān)人力資源進(jìn)行分類管理。

2.2 選取分類特征

文中設(shè)計的電網(wǎng)建設(shè)資源分類模型在實際應(yīng)用中,需要以資源特征采集為核心。針對采集匯總的項目人力資源信息提取特征信息,并在資源特征中選取經(jīng)驗、學(xué)歷、技能職稱等合適的特征屬性項,作為資源分類的依據(jù),獲取特征屬性重要性度量值如圖5所示。

由圖5可知,Mean Decrease Gini表示特征屬性重要性度量值,按照重要程度從大到小的順序,對10個特征屬性進(jìn)行排列。之后,設(shè)定特征子集為排序靠前的多個特征項,并將其作為后續(xù)分類處理的基礎(chǔ)。為了保證特征選取數(shù)量符合計算要求,實驗過程中采用10折交叉驗證法,計算OOB誤差率,得到RF特征選擇如圖6所示。

按照最小誤差率準(zhǔn)則,選取符合要求的特征子集,該集合中包括經(jīng)驗、學(xué)歷、技能職稱、管理能力和溝通能力五項特征。以此為依據(jù),應(yīng)用文中設(shè)計的自動化分類模型,獲取電網(wǎng)建設(shè)資源中人力資源分類結(jié)果。

2.3 模型性能分析

為了有效評價文中設(shè)計模型的實際分類效果,選用文獻(xiàn)[3]、文獻(xiàn)[4]提出的分類模型,針對該項目的電網(wǎng)建設(shè)人力資源進(jìn)行分類,將文獻(xiàn)[3]、文獻(xiàn)[4]提出的模型應(yīng)用效果與文中設(shè)計模型的應(yīng)用效果進(jìn)行對比,進(jìn)一步驗證基于樸素貝葉斯算法的自動化分類模型的性能。首先,按照技術(shù)人員和管理人員兩個類別,劃分電網(wǎng)建設(shè)人力資源,兩分類條件下不同模型適應(yīng)度值對比曲線如圖7所示。

由圖7可知,在兩分類條件下,隨著樣本數(shù)量的增長,不同模型適應(yīng)度值隨之增大。其中,文中提出的分類模型的適應(yīng)度值在初始狀態(tài)下始終高于文獻(xiàn)[3]、文獻(xiàn)[4]模型的。文中提出的設(shè)計模型的平均適應(yīng)度值為89.78,相比文獻(xiàn)[3]、文獻(xiàn)[4]模型提升了10.52、12.63。應(yīng)用3種模型對電網(wǎng)建設(shè)資源進(jìn)行細(xì)化多分類操作,獲取多分類條件下不同模型適應(yīng)度值對比如圖8所示。

由圖8可知,在多分類條件下,文中設(shè)計模型、文獻(xiàn)[3]和文獻(xiàn)[4]提出的模型的平均適應(yīng)度值分別為97.47、84.18和83.64。文中設(shè)計模型使得分類結(jié)果的平均適應(yīng)度值提升了13.29、13.83。

綜上所述,文中提出的基于樸素貝葉斯算法的自動化分類模型,應(yīng)用于電網(wǎng)建設(shè)人力資源內(nèi),展現(xiàn)了較大的適應(yīng)度值。因此,在實際應(yīng)用中,該模型的應(yīng)用可以更好地平衡樣本特征子集與分類正確率,面對多種分類問題時,均可以得到更加準(zhǔn)確的分類結(jié)果。

3 結(jié)語

電網(wǎng)建設(shè)過程中,工程質(zhì)量與建設(shè)速度在很大程度上取決于人力資源配置管理情況。因此,文中對電網(wǎng)建設(shè)資源進(jìn)行研究,以其中的人力資源管理為重點,結(jié)合樸素貝葉斯算法設(shè)計一種新的分類模型。通過實驗結(jié)果可知,文中設(shè)計的模型在實際應(yīng)用中展現(xiàn)出了極好的性能,使得模型適應(yīng)度值有所提升,即使面對不同的分類要求,也能夠獲取準(zhǔn)確的自動化分類結(jié)果。

參考文獻(xiàn)

[1]胡玉琦,李 婧,常艷鵬,等. 引入注意力機制的BiGRU-CNN情感分類模型[J]. 小型微型計算機系統(tǒng),2020,41(08):1 602-1 607.

[2]張小莉,程 光,張慰慈. 基于改進(jìn)深度卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量分類方法[J]. 中國科學(xué):信息科學(xué),2021,51(01):56-74.

[3]劉凌云,錢 輝,邢紅杰,等. 一種基于Q-學(xué)習(xí)算法的增量分類模型[J]. 計算機科學(xué),2020,47(08):171-177.

[4]馬建紅,劉亞培,劉言東,等. CGGA:一種CNN與并行門控機制混合的文本分類模型[J]. 小型微型計算機系統(tǒng),2021,42(03):516-521.

[5]佘 維,楊曉宇,田 釗,等. 基于用戶偏好的電力資源去中心化配置方法[J]. 電力系統(tǒng)自動化,2019,43(13):98-104+138.

[6]翁夢娟,姚長青,韓紅旗,等. 不均衡數(shù)據(jù)集下基于CNN的中圖分類標(biāo)引方法[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(07):87-95.

[7]邱寧佳,賀金彪,薛麗嬌,等. 融合語義特征的加權(quán)樸素貝葉斯分類算法[J]. 計算機工程與設(shè)計,2020,41(09):2523-2529.

[8]方炯焜,陳平華,廖文雄. 結(jié)合GloVe和GRU的文本分類模型[J]. 計算機工程與應(yīng)用,2020,56(20):98-103.

[9]潘東行,袁景凌,李 琳,等. 一種融合上下文特征的中文隱式情感分類模型[J]. 計算機工程與科學(xué),2020,42(02):341-350.

[10]張 柳,王晰巍,黃 博,等. 基于字詞向量的多尺度卷積神經(jīng)網(wǎng)絡(luò)微博評論的情感分類模型及實驗研究[J]. 圖書情報工作,2019,63(18):99-108.

[11]葛繼科,陳 棟,王文和,等. 基于改進(jìn)樸素貝葉斯分類算法的火災(zāi)分類[J]. 安全與環(huán)境學(xué)報,2019,19(04):1122-1127.

[12]崔良中,郭福亮,宋建新. 基于Map/Reduce的樸素貝葉斯數(shù)據(jù)分類算法研究[J]. 海軍工程大學(xué)學(xué)報,2019,31(04):7-10.

[13]趙博文,王靈矯,郭 華. 基于泊松分布的加權(quán)樸素貝葉斯文本分類算法[J]. 計算機工程,2020,46(04):91-96.

猜你喜歡
電網(wǎng)建設(shè)
如何做好電網(wǎng)工程建設(shè)的安全控制工作
配變臺架標(biāo)準(zhǔn)設(shè)計研究
城鄉(xiāng)一體化布局下的農(nóng)網(wǎng)智能化建設(shè)研究
電網(wǎng)建設(shè)項目檔案全過程管理創(chuàng)新分析
風(fēng)電場無功控制中SVC和風(fēng)力發(fā)電機的綜合利用策略探析
供電局電網(wǎng)建設(shè)項目安全管理分析
電網(wǎng)建設(shè)項目的竣工結(jié)算數(shù)據(jù)挖掘技術(shù)應(yīng)用
淺析變電站規(guī)劃建設(shè)法律手續(xù)辦理常見問題
電力工程造價影響因素及造價控制措施探究
可持續(xù)電網(wǎng)建設(shè)中光伏新能源應(yīng)用監(jiān)管探討
兴宁市| 溆浦县| 普定县| 长治市| 克山县| 屯门区| 黄梅县| 肇州县| 南充市| 吉木萨尔县| 台中市| 定远县| 兴安县| 沙河市| 磐石市| 茌平县| 冕宁县| 太保市| 鄂尔多斯市| 台山市| 远安县| 来凤县| 保康县| 凉城县| 奉化市| 满洲里市| 黎川县| 华安县| 房产| 炎陵县| 德阳市| 若尔盖县| 永泰县| 河间市| 壶关县| 林州市| 台北市| 七台河市| 宁阳县| 东阿县| 黄山市|