国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

ID3決策樹在預測電解槽出鋁量中的研究與實現

2021-09-27 01:08孫長好姜海超
輕金屬 2021年8期
關鍵詞:鋁電解電解槽子集

孫長好,王 健,楊 飛,姜海超

(內蒙古霍煤鴻駿鋁電有限責任公司,內蒙古 霍林郭勒 029200)

現代大型鋁電解槽一種多相-多場交互作用下的復雜電化學反應器[1],具有非線性、大時變、大時滯和多輸入多輸出的特點[2],且不能建立精確的數學模型[3]。電解槽的各種工藝參數的調整往往憑借專業(yè)管理者的主觀經驗,依賴人工進行槽況判斷、趨勢分析和運行操作決策,其經驗水平往往決定了策略的正確性。傳統(tǒng)的人工控制決策方式已經難以適應現代鋁電解生產要求[4],知識自動化是鋁電解槽實現尋優(yōu)決策的必由之路,應用機器學習技術,建設工業(yè)大數據分析平臺,充分挖掘數據潛在價值,將鋁電解數據庫中包含的專家知識和經驗進行知識表示和自動推理,模擬管理者的決策過程,本文將ID3決策樹應用于鋁電解槽出鋁量預測,對于輔助工藝管理人員做出科學的決策,提高生產智能管理水平具有現實意義。

1 ID3決策樹分類算法的基本思想

1.1 ID3算法的基本思想及實現

Ross Quinlan在CLS學習算法的基礎上,提出ID3決策樹概念。作為一種機器學習方法,ID3算法著眼于從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則。采用自頂向下遞歸的貪婪算法構造。從根結點開始,以樣本集的最大信息增益屬性作為啟發(fā)搜索條件,將數據樣本劃分成不同的樣本子集,每個樣本集構成新生分裂節(jié)點,對該分裂結點繼續(xù)向下遍歷屬性,不斷遞歸調用,僅當下列條件之一成立時返回:

(1) 節(jié)點上的樣本集屬于同一類;

(2)沒有用來進一步劃分樣本的屬性。

生成決策樹的每個葉子即對應一個決策分類, 因此,從根到葉節(jié)點的一條路徑就對應著一條合取規(guī)則,整棵決策樹就對應著一組析取表達式規(guī)則。生成決策樹實現流程如圖1所示。

圖1 ID3決策樹算法流程圖

1.2 信息增益標準

Ross Quinlan提出以信息熵的最速下降作為選擇測試屬性的方法,該屬性能反映出分類樣本中的信息量最小,具有最小的隨機性,這使得對一個對象分類所需的期望測試數目達到最小,并確保找到一棵簡單的決策樹。

設S是s個訓練樣本的集合,包含m個不同的屬性,從而定義了m個不同的類Ci(i=1,...,m),si是S中屬于類Ci的樣本個數。以熵的概念來定義樣本集的信息量:

其中,pi是樣本屬于類Ci的概率,并用si/s估算。

設屬性A具有v個不同值{a1,a2,...,av},可以把S劃分成v個子集{s1,s2,...,s},如果A被選為測試屬性,則這些子集對應于包含集合S的節(jié)點上生長出來的分枝。設sij表示在子集sj中類ci的樣本數,那么,根據屬性A分類的子集的熵為:

使用屬性A對樣本集S進行分類所獲得的信息增益計算方法是:

Gain(A)=1(s1+...+sj)-E(A)

用樣本集的總信息熵減去屬性A的每個分支的信息熵與權重的乘積,通常,信息增益越大,意味著用屬性A進行劃分所獲得的決策確定性越大。

眾多學者對ID3決策樹做了深入改進研究,文獻[5]將粗糙集理論用于決策樹算法的屬性選擇標準,文獻[6]、[7]針對靜態(tài)分類規(guī)則的缺陷,展開動態(tài)數據樣本集決策樹研究,文獻[8]提出了一種加權的決策樹算法,通過引入屬性權值參數?,強化重要屬性。

Gain(A)=1(s1+...+sj)-?E(A)

文獻[8]中作者對權值的設定并沒有具體的依據,只是根據假設來人為的設定權值。結合電解鋁的生產工藝,提出一種改進的ID3算法,應用回歸分析計算各條件屬性影響出鋁量的權重W1,W2,...,Ws(s表示條件屬性的個數),然后通過Wi來求解各?i。

使用Python語言實現算法如下:

# 計算信息熵

def calcEntropy(sampleSet):

numSample = len(sampleSet)

PropCounts = {}

# 樣本遍歷

for sample in sampleSet:

currentProp = sample[-1]

if currentProp not in PropCounts.keys():

PropCounts[currentProp]= 0

PropCounts[currentProp]+=1

entropy = 0.0

for key in PropCounts: # 計算信息熵

probability = float(PropCounts[key]) / numSample

entropy = entropy - probability * log(probability, 2)

return entropy

2 數據預處理

表1的鋁電解原始數據無法直接應用于ID3算法,需要首先進行數據的規(guī)范化處理,主要包括數據校正和離散化過程。

表1 3031#電解槽原始數據

2.1 數據校正

鋁電解控制系統(tǒng)在進行采樣時,由于網絡堵塞丟幀或者人工輸入時失誤導致數據序列出現異常值,處理辦法主要有二種,一是采用過濾的方法,將含有異常數據的記錄丟棄,該種方法處理簡單,但會失去部分信息;二是使用插值算法,其思想是:鋁電解過程是一個緩慢的變化過程,可根據系統(tǒng)運行的慣性,參考空值前后的數據進行分析填補。

2.2 數據離散化

在鋁電解生產工藝中,影響出鋁量的主要因素有:日平均電壓(AvgVol)、分子比(Ratio)、電解質水平(Bath_H)、鋁水平(Metal_H),電解質溫度(Temp)等,這些原始數據是連續(xù)的,無法直接應用于ID3算法,因此,有必要將其轉換成適合數據挖掘的形式,本文采用直方圖的策略進行數據離散化。

直方圖是一種直觀的數據歸約形式。將屬性數據分布劃分為不相交的子集,該子集的高度或面積代表屬性值的平均頻率,一般地,確定屬性值的劃分有以下幾種方法:

等高:在等高的直方圖中,每個子集的頻率區(qū)間是一個常數,即臨近數據樣本個數相同。

等寬:在等寬的直方圖中,每個子集的寬度區(qū)間是一個常數,通常,數據離散化處理后會得到一些空數據區(qū)間,生成決策樹的過程中會丟失一定的規(guī)則,因此,應當對這些空數據區(qū)間進行前后合并,表2是經等寬離散化處理后所生成電解槽序列化數據。

表2 3031#電解槽離散化數據

3 產生決策樹

對某工區(qū)31臺電解槽近半年的數據預處理,選擇日平均電壓(AvgVol)、分子比(Ratio)、電解質水平(Bath_H)、鋁水平(Metal_H),電解質溫度(Temp)作為影響出鋁量(Metal_Mass)的5個條件屬性,分別進行粒度為98 mV,0.08,21 mm,22 mm,6 ℃和53 kG的等寬離散化處理,生成序列化數據表示,經ID3算法評判后構造出鋁量決策樹,如圖2所示,由于生成的出鋁量決策樹規(guī)模較大,圖中僅繪制出溫度序列為7和2的出鋁量決策分枝。

圖2 出鋁量決策樹

圖中分枝Temp(7) -> Metal_H(7) -> AvgVol(2) -> Bath_H(6) -> 26表示:當電解質溫度在[991,997] ℃,鋁水平在[322,344] mm,日平均電壓在[3953,4051] mV,電解質水平在[200,220] mm時,出鋁量決策范圍應為[3018,3071] kG。

從該決策樹中可見,在某些情況下,5個條件屬性并非都對出鋁量產生決定影響,甚至其中的2個條件屬性就可以決策出鋁量,如Temp(2) -> Ratio(3) ->32表示:當電解質溫度在[961,967] ℃,分子比在[2.41,2.49]時,出鋁量決策范圍應為[2859,2912] kG,出現這種情況的原因在于數據樣本的不完備性,從而出現決策的近似表達,隨著電解槽數據的日積月累,數據樣本趨于完備,機器學習的廣度和深度逐步加深,決策的表達會趨于精確。

4 結 語

利用ID3算法對鋁電解數據庫中包含的專家知識和經驗進行知識表示和自動推理,從而生成出鋁量決策規(guī)則,對于輔助工藝管理人員做出科學判斷提供決策支持,同理,也可應用于電解槽管理其它方面,以提高生產智能管理水平。

猜你喜歡
鋁電解電解槽子集
不同離子膜在不同型號電解槽上的運行測試
拓撲空間中緊致子集的性質研究
關于奇數階二元子集的分離序列
鋁電解電容器技術現狀及未來發(fā)展趨勢
提高鋁電解電容器合格率的多元化工藝技術
400KA電解槽槽殼變形的原因分析
提高鋁電解電容器合格率的多元化工藝技術
鋁電解陽極效應裝置的問題及技術改進
每一次愛情都只是愛情的子集
一種鋁電解槽的使用方法
景洪市| 双柏县| 涿州市| 南开区| 辰溪县| 白城市| 中牟县| 任丘市| 永定县| 信宜市| 金寨县| 长沙县| 嵩明县| 朝阳区| 怀安县| 滦南县| 乌拉特中旗| 普定县| 嵩明县| 夹江县| 肇庆市| 响水县| 山丹县| 察隅县| 班戈县| 双牌县| 长阳| 电白县| 临江市| 莎车县| 巴东县| 舒兰市| 涪陵区| 竹北市| 乌拉特前旗| 永川市| 大同市| 泰来县| 和林格尔县| 太康县| 灌阳县|