袁志聰
摘? 要:文章深入簡出的介紹了隨機森林體系這一比較常用的人工智能算法,分別從其算法原理進行介紹,列舉其決策樹的運用技巧以及應用場景。對隨機森林技術目前存在的優(yōu)點以及缺點和現今主流的算法進行對比分析,并著重介紹了其未來應用的構思以及改進空間。同時將隨機森林技術運用到電力稽查中的表現,詳細分析了其在電力稽查中的運用成果,隨機森林體系在電力稽查規(guī)則識別以及歸類異常問題中有比較突出的表現成果。
關鍵詞:隨機森林;決策樹;訓練樣本
中圖分類號:TP18? ? ? ? 文獻標志碼:A? ? ? ? ?文章編號:2095-2945(2020)06-0151-02
Abstract: This paper gives an in-depth and brief introduction of the random forest system, which is a commonly used artificial intelligence algorithm, introduces its algorithm principle respectively, and enumerates the application skills and application scenarios of its decision tree. This paper makes a comparative analysis of the advantages and disadvantages of random forest technology and the current mainstream algorithms, and focuses on the conception of its future application and the space for improvement. At the same time, the random forest technology is applied to electric power inspection, and its application results in electric power inspection are analyzed in detail. Random forest system has more outstanding results in electric power inspection rule identification and classification abnormal problems.
Keywords: random forest; decision tree; training sample
1 概述
隨機森林決策樹結構是一種用算法進行建模,并且利用枝葉之前的投票進行決策分析。樹上每個節(jié)點代表一個輸入變量(x)與一個基于該變量的分離點(假定這個變量是數字)。葉節(jié)點包含了用于預測的輸出變量(y)。預測是通過遍歷樹的分離點開始,直到抵達每一個葉節(jié)點,并輸出該葉節(jié)點的分類值。
決策樹算法學習起來很快,預測速度也很快。決策樹對于各種各樣的問題都能做出準確的預測,并且無需對數據做任何特殊的預處理。
2 算法原理
它的應用原理是根據決策樹的算法,然后通過擬合算法,將分散的決策樹進行整合,每棵樹都是建立在獨立抽取樣本上的,隨機森林中樹的類別分布具有共同性,類別的區(qū)分來自于單體數的類別區(qū)分能力和與之配合的相關性。特征區(qū)分用到的算法基礎為隨機的節(jié)點自由組合。單一樹的個體能力很小,與隨機不規(guī)則的大量樹體進行融合后,能夠通過分類結果進行統(tǒng)計后的運算。隨機森林的機器模型運用決策樹的隨機組合來達到算法目的。決策樹是一個分層選擇的類型結構。每個點面節(jié)點所描述的特征與點邊所描述的特征有不同差異。每個點邊分類特征代表其在這個區(qū)域坐標上的貢獻值,每個點邊為一個根目錄。隨機森林算法的運用和決策的流程從根目錄開始進行運算,匹配每個子目錄的運算值,直到每一個子目錄的點值都能夠作為最后的變量輸出結果。
3 隨機森林模型的優(yōu)缺點
隨機森林的優(yōu)點有:(1)隨機森林模型的學習速度是非常迅速的。(2)隨機森林模型在產生一定誤差時,可以繼續(xù)根據內部調整完成不偏差的結果輸出。(3)可以檢測variable interactions。(4)在分類類別時,能夠出色的完成歸類選擇。(5)運用模型中的決策樹結構能夠計算親進度,對圖像識別,視角識別,殘差分析有關鍵作用。(6)隨機森林模型能夠運用在檢測普通基準誤差模型上。
缺點:(1)隨機森林模型被證明在某些誤差較大,識別不明顯的分類或者問題上會產生過擬行為。(2)對于分類類別超出閾值,而且明細劃分并不明顯的數據,隨機森林模型并不能夠快速分辨出值的對錯。
隨機森林算法擁有廣泛的應用前景,從市場營銷到醫(yī)療保健保險,既可以用來做市場營銷模擬的建模,統(tǒng)計客戶來源,保留和流失,也可用來預測疾病的風險和病患者的易感性。那么隨之而來有幾個問題是需要明確的:
(1)為什么要隨機抽樣訓練集?如果不進行隨機抽樣,每棵樹的訓練集都一樣,那么最終訓練出的樹分類結果也是完全一樣的,這樣的話完全沒有bagging的必要;
(2)為什么要有放回地抽樣?按照目前的大部分數據顯示:舉個例子,如果不是這種形式的放回抽樣,根據我們過往的實踐經驗,這樣是毫無意義的,這樣每棵樹都是“有偏的”,都是絕對“片面的”,也就是說每棵樹訓練出來都是有很大的差異的;而隨機森林最后分類取決于多棵樹(弱分類器)的投票表決,這種表決應該是“求同”,因此使用完全不同的訓練集來訓練每棵樹對最終分類結果是沒有幫助的,這樣無異于是“盲人摸象”。
如果每個樣本的特征維度為M,指定一個常數m< 每棵樹都有自己的生長周期,并且沒有能夠進行分割的樹枝一開始我們提到的隨機森林中的“隨機”就是指的這里的兩個隨機性。兩個隨機性的引入對隨機森林的分類性能至關重要。由于它們的引入,使得隨機森林不容易陷入過擬合,并且具有很好的抗噪能力(比如:對缺省值不敏感)。 4 隨機森林在電力稽查中的應用 4.1 隨機森林模型電力特征分析 (1)群組1(聚類號為0)特征分析 由圖1可以看出,對于群組1,平均異常數主要集中在0~40左右,反映該類異常出現次數較小;平均異常斜率集中在-5~-1,反映異常數逐漸下降,管理水平在提升;異常頻度集中在0.01%~0.03%之間,反映該類異常出現幾率很小。 該類異常在不同用電類別的分布情況如下: 由圖1,說明該類異常主要集中在商業(yè),約占65%。從圖1可以看出,主要異常點集中在商業(yè),說明商業(yè)用電這部分異常內容具有非正常性,并且明顯具有不正常的異常特征基因。 (2)群組2(聚類號為1)特征分析 三個特征變量的頻率密度圖如下: 由圖2可以看出,對于群組2,平均異常數主要集中在20~60左右,反映該類異常出現次數較高;平均異常斜率集中在2~6,反映異常數逐漸上升,管理不力;異常頻度集中在6%~12%之間,反映該類異常出現幾率很高。 (3)群組2(聚類號為1)特征分析 (4)群組3(聚類號為2)特征分析 (5)群組4(聚類號為3)特征分析 (6)群組5(聚類號為4)特征分析 4.2 隨機森林模型專家系統(tǒng) 專家系統(tǒng)是一個智能計算機程序系統(tǒng),通過大量獲取數據端采集數據,然后根據機器學習模型,不斷升級優(yōu)化系統(tǒng)所具有的模型,通過學習模型累計不同端的算法操作以及人工經驗,不斷更新模型,達到擬人化的操作知識水平。 所以這方面的應用就可以利用到隨機森林決策樹方面的決策能力,把有需求的知識進行決策樹分辨,分類成不同的根目錄,它應用人工智能技術和計算機技術,根據某領域一個或多個專家提供的知識和經驗,進行推理和判斷,模擬人類專家的決策過程,以便解決那些需要人類專家處理的復雜問題,簡而言之,專家系統(tǒng)是一種模擬人類專家解決領域問題的計算機程序系統(tǒng)。 4.3 隨機森林模型與知識圖譜結合的運用 運用隨機森林模型具有的決策樹功能,與知識圖譜相結合,產生新的智能稽查模式,在現有稽查創(chuàng)新的探索基礎上進行深化應用,將稽查線索采用知識圖譜的技術構建稽查知識圖譜庫,通過圖譜方式對稽查樣本的多發(fā)問題進行全息展現,深度擴線分組,進行對多發(fā)問題的根源分析,從而建立起稽查專業(yè)的第一個專業(yè)知識圖譜,實現智能精準稽查。并且運用不斷優(yōu)化的模型系統(tǒng),全息展示知識圖譜的關聯(lián)構造。 在現有稽查創(chuàng)新的探索基礎上進行深化應用,將稽查線索運用隨機森林模型進行識別分類,然后通過決策樹結構進行深層次的取樣識別驗證,采用知識圖譜的技術構建稽查知識圖譜庫,通過圖譜方式對稽查樣本的多發(fā)問題進行全息展現,深度擴線分組,進行對多發(fā)問題的根源分析,從而建立起稽查專業(yè)的第一個專業(yè)知識圖譜,實現智能精準稽查。 5 結束語 隨機森林作為一種快捷有效的機器學習方法,在回歸和決策方面起到了強大的作用。其對噪聲不敏感,具有較好的容噪能力的特點能夠在目前機器學習的數據識別中有很好的引用效果,但它的缺點同樣明顯,需要我們在不斷的實踐中進行技術改進以及難題功課,隨機森林的機器學習方法會在未來人工智能領域創(chuàng)造其用處。 參考文獻: [1]孫明喆,畢瑤家,孫馳.改進隨機森林算法綜述[J].現代信息科技,2019,3(20):28-30. [2]吳青衡.基于大數據時代視角下人工智能實踐[J].電子技術與軟件工程,2019(01):243. [3]何曉露.大數據時代的人工智能范式探討[J].通訊世界,2018(10):14.