蔣雄
(九江天賜高新材料股份有限公司,江西九江,332599)
隨著精細化工行業(yè)競爭加劇,企業(yè)開始使用連續(xù)反應器替代間歇反應器[1]。使用反應動力學數(shù)據(jù)設計連續(xù)反應器能有效避免間歇反應器直接轉化連續(xù)反應器時因濃度分布及停留時間分布不同帶來的放大效應[2]。不同化學反應的反應動力學千差萬別,而影響反應速率方程的因素眾多,因此根據(jù)不同化學反應本身特點進行預判隨后選擇不同的測試方法和測試環(huán)境符合企業(yè)需求[3,4]。
常用的反應動力學的分析方法有積分法、微分法、半衰期法、作圖法、孤立法[5]。常見的動力學測試體系使用間歇釜作為容器,微通道反應器[6]及量熱儀[7]因其等溫環(huán)境而被作為新型的測試容器。在研發(fā)人員開展的實際工作中,經(jīng)常出現(xiàn)反應動力學測試誤差大、數(shù)據(jù)不可信等問題。因此,在方案設計前確定好最佳的反應動力學測試方法和實驗設計成為研發(fā)人員關注的方向[8]。
當前,關于化學反應動力數(shù)據(jù)處理的軟件研究較多[9,10],但涉及反應動力學方案設計階段的處理軟件鮮有報道。當下,基于機器學習開發(fā)的各種機器學習算法正在各行各業(yè)鋪展開來,其中,決策樹[11]、聚類[12]、樸素貝葉斯[13]、支持向量機[14]、隨機森林[15]等算法已經(jīng)基本達到商業(yè)化要求和特定場景的商業(yè)化水平。其中,決策樹算法尤其適合結論多特征多分類問題,將化學反應動力學需要考慮的因素與機器算法結合起來,形成一套基于機器學習開發(fā)的動力學反應測試建議系統(tǒng),在用戶進行化學反應動力學測試前,基于已知反應條件推薦最合理的動力學測試方法,這樣,既可以減少化工領域研發(fā)人員的學習成本,也可以提升企業(yè)研發(fā)及工藝改進的效率。
反應動力學涉及反應的本征性質,與一些表觀現(xiàn)象之間沒有強相關性。先對反應動力學進行拆解,細化成多個不同的維度進行表征,再按照多個維度的表述與動力學分析方法固有的偏差產(chǎn)生點進行比較,可得到具體的化學反應不能運用的動力學分析方法及測試環(huán)境;隨后,可通過排除法建立起反應本征性質與動力學測試方法和測試環(huán)境之間的聯(lián)系。對于少量的特征與反應動力學分析方法之間產(chǎn)生的數(shù)據(jù)對,可以直接記憶或者使用excel 等表格進行匹配,但是對于大量的反應特征與動力學分析方法之間產(chǎn)生的數(shù)據(jù),則無法通過人工的方法獲取,借助計算機學習算法是一條可行的路徑。
如下圖1 所示,基于反應動力測試系統(tǒng)的運作邏輯,本文設計了一套軟件界面用于用戶輸入關于反應的基本信息,從反應的方程式入手繪制反應網(wǎng)絡,以作為反應機理研究的判據(jù)。對于復雜反應,反應物網(wǎng)絡是否完整直接決定了進行動力學測試時是否會產(chǎn)生不可控因素。
圖1 動力學推薦系統(tǒng)界面
隨后,在界面內(nèi)強調(diào)有14 個關于反應信息的基礎問題,并對每個問題預設2~4 個答案,這樣就會產(chǎn)生大量不同的組合選項以應對實際情況下的使用需求。在界面中間的圖層是反應物網(wǎng)絡繪圖區(qū)和反應能級圖,從反應物網(wǎng)絡圖中可以清晰地表達反應網(wǎng)絡和反應復雜程度,而從能級圖中可以看出主反應路線出現(xiàn)的能量變化和反應活化能之間的關系,用以對反應建立基礎的印象,選擇適合的熱量管理/時間管理規(guī)則。
在界面右側,集成了兩個表和一個結論區(qū),圖表區(qū)內(nèi)清晰表達了在這種情況下建議使用的數(shù)據(jù)處理方法和使用的動力學測試方法。下方的結論區(qū)針對反應的機理,反應的控制規(guī)律,反應中控難度,反應使用的數(shù)據(jù)處理方法及動力學測試方法的具體使用限制進行了文字說明,能指導測試人員了解動力學測試規(guī)律。
如圖2 所示,簡單反應需要研究反應速率,反應受溫度、壓力、催化劑、中控的影響及表觀的反應時間、放熱、速率快慢、分離要求以確定反應需要的測試方案和數(shù)據(jù)處理方法。復雜反應需要考慮反應機理,先明確反應存在競爭、連串、可逆或者組合形式,再將復雜反應轉化為簡單反應以確定具體的數(shù)據(jù)處理方案和測試方法。只有競爭反應時需分別測試兩反應的動力學過程,了解反應的溫度/濃度條件,以及在不同條件下能否控制為一個特定產(chǎn)物。如果通過反應溫度/濃度控制可以有效控制,即可轉化為簡單反應處理,反之需按表觀反應動力學進行處理。
圖2 動力學測試軟件工作程序
對于串級反應,需明確反應是需要中間體還是產(chǎn)物。對于需要中間體的反應判斷指標是中間體能否穩(wěn)定存在;對于需要產(chǎn)物的反應判斷標準為是否有中間體殘留。如果反應需要中間體,且表觀現(xiàn)象中間體能穩(wěn)定存在,則一般決速步驟就是中間體繼續(xù)反應步驟,整個反應只需要進行原料到中間體的簡單反應考慮,并遵照上面簡單反應的流程來詢問并給出建議;如果反應需要產(chǎn)物,中間體有殘留,則反應決速步驟是第二步。判斷標準是中間體到產(chǎn)物這一段反應為簡單反應或對其進行表觀動力學測試。
最后,對既有連串又有平行反應的結構來說,需要關注產(chǎn)物所在的主要路線,先研究主要路線上存在的是競爭反應還是連串反應,再按照上面說的連串反應或競爭反應進行分析。在對其他副產(chǎn)物所在的其他反應進行分析時,按照簡單反應進行研究。
企業(yè)在做反應時的普遍做法是一鍋法,先合成產(chǎn)物再進行分離,盡可能獲得更高的原料轉化率,但該種方法在連續(xù)化反應器中并不適合。因此,需要收集實驗中的表觀實驗現(xiàn)象進行動力學方案設計。
本文設計了14 個問題,見表1,每個問題預設2~4 個選項,用于收集反應信息,具體預設方案如下:
表1 預設問題一覽表
通過1,2,3,4 問題對反應的復雜程度進行分析,定義競爭、連串、酸堿、可逆反應。對復雜反應而言,研究反應機理是優(yōu)化反應路線、減少反應安全風險和三廢產(chǎn)量的關鍵。復雜反應需要將反應中的主要反應和副反應都表達清晰,然后將繪制反應物網(wǎng)絡作為研究反應機理的重要手段。通過對5,6,7,8,9,10,11,12,13,14 問題進行分析,主要探究反應過程規(guī)律,按照反應規(guī)律匹配適合的測試體系和數(shù)據(jù)分析方法。
本文共設計14 個問題,每個問題又分別設置2~4 個不同選項,共計產(chǎn)生995329 項組合,根據(jù)初始數(shù)據(jù)和特定的決策依據(jù)形成3072 種結論。對于如此龐大的問題組合,如何在各個問題之間做出權衡并找到最佳的動力學測試方法或者其他的建議,必須依靠機器算法來完成。
本文使用機器迭代算法,生成上述14 個問題995329 行,25 列的初始數(shù)據(jù)庫,通過判斷14 個問題的答案選項,組合成后續(xù)結論項種機理/過程規(guī)律/分析能力/數(shù)據(jù)處理方法/使用測試儀器的標準選項。通過機器學習算法,對產(chǎn)生的數(shù)據(jù)進行學習,在用戶界面返回正確的結論。本文采用數(shù)字化方法替代文字進行運算,默認0 代表任意14 個問題中的第一個選項,1 代表第二個選項,2 代表第三個選項,3 代表第四個選項。按照反應機理明確與否,反應規(guī)律和中控方法選擇動力學數(shù)據(jù)處理方法。動力學處理方法決定了實驗設計方案。如下表2、表3 所示。
表2 五種分析方法算法規(guī)律
表3 三種測試方法算法規(guī)律
按照反應實際情況,根據(jù)機理/規(guī)律/中控/熱量/時間規(guī)律/催化綜合考慮適合的測試儀器,作為實驗儀器選擇依據(jù)。
以上結論在確定了使用數(shù)據(jù)分析方法和測試儀器之后,由軟件輸出對應的文字信息提示操作者最可能的動力學測試方案。
本文預設多個問題并給出選項,然后根據(jù)選項的結果進行判斷,形成大量的數(shù)據(jù)行。就此類機器學習語言的選擇而言,常見的做法是決策樹/樸素貝葉斯算法/隨機森林算法等。本文中數(shù)據(jù)集按照特定規(guī)則產(chǎn)生,結論按照選項進行判斷后填充,結論和選項之間存在相關性,不存在過多異常值和噪聲,三種方法在此情況下都可以解決問題。本文對三種常見方法進行模擬測試,結果如表4 所示。
表4 三種算法模擬結論對比表
表5 隨機測試輸入數(shù)據(jù)結論對比表
本文使用三種算法對同一個數(shù)據(jù)集進行計算,分別評測三種算法的耗時和準確度。模型使用預訓練(30%),將多模型多分類方法作為默認條件。從表4結果可以看出,決策樹在準確度和耗時上是最佳的選擇,能保持100%準確度和149s 的分析時間;樸素貝葉斯不適合本類問題的求算,出現(xiàn)0.54 的準確度,精度不夠;隨機森林算法在準確度上完成較好,但耗時較長。
本文根據(jù)6 組不同情況對模型結果進行實測,用以驗證動力學測試建議系統(tǒng)功能的完整性。從下表可以看出,隨機抽取6 組不同組合,機器模型均給出相應的測試建議和結果,結果與預期結果對照,準確度為1.0,符合向研發(fā)人員推薦動力學測試的要求。
本文通過機器設計一套動力學測試分析建議系統(tǒng),對常見的反應問題進行預設,對其中問題進行定義并與最終動力學測試的數(shù)據(jù)處理方法和測試容器進行關聯(lián),產(chǎn)生90 余萬條原始數(shù)據(jù)。通過反應方程的輸入,能夠自動生成反應物網(wǎng)絡和可能的主反應能級圖,以直觀呈現(xiàn)反應復雜程度和反應受熱力學控制程度,從而幫助人員確定反應規(guī)律。
通過對比機器學習決策樹/樸素貝葉斯/隨機森林的算法時間和準確度,確定使用決策樹作為機器學習的算法,并使用二維數(shù)組處理90 余萬條數(shù)據(jù),決策樹運行時間縮減為4s,整體軟件運行時間少于1min。此外,通過隨機進行6 組預設問題檢測,可以獲取準確度為1.0 的結果,從而證明該算法能夠穩(wěn)定運行,基本滿足企業(yè)動力學初步方案設計需求。