張海明,張昊春
(哈爾濱工業(yè)大學(xué) 核科學(xué)與技術(shù)研究所, 哈爾濱 150001)
反應(yīng)堆堆芯參數(shù)的計(jì)算對(duì)核能系統(tǒng)的設(shè)計(jì)開(kāi)發(fā)和安全驗(yàn)證有重要作用。在反應(yīng)堆物理計(jì)算中,常采用數(shù)值方法對(duì)中子擴(kuò)散方程進(jìn)行近似求解,主要是用一組確定的數(shù)學(xué)物理方程,建立起描述實(shí)際問(wèn)題的數(shù)學(xué)模型,并采用數(shù)值離散方法求出這些方程的近似解[1]。隨著反應(yīng)堆工程技術(shù)的發(fā)展,對(duì)反應(yīng)堆物理計(jì)算的要求不斷提高,傳統(tǒng)的中子擴(kuò)散方程求解方法存在計(jì)算時(shí)間長(zhǎng)及所需存儲(chǔ)空間較大等問(wèn)題[2]。因此,對(duì)如何快速、準(zhǔn)確求解擴(kuò)散方程方面的相關(guān)研究十分必要。
目前,許多傳統(tǒng)機(jī)器學(xué)習(xí)模型已應(yīng)用于核領(lǐng)域。深度學(xué)習(xí)作為人工智能的一個(gè)高級(jí)領(lǐng)域,近年來(lái)已廣泛應(yīng)用于堆芯換料參數(shù)的快速預(yù)測(cè)[3]、核素含量預(yù)測(cè)[4]和堆芯功率預(yù)測(cè)[5]等問(wèn)題。但以往的研究普遍基于傳統(tǒng)的全連接神經(jīng)網(wǎng)絡(luò),存在學(xué)習(xí)參數(shù)多,組件編碼的大小和形式顯著影響神經(jīng)網(wǎng)絡(luò)的訓(xùn)練及預(yù)測(cè)精度,組件類型較多時(shí)編碼形式將變得異常復(fù)雜等問(wèn)題。同時(shí),全連接神經(jīng)網(wǎng)絡(luò)還存在參數(shù)冗余和忽略位置信息等缺陷[6]。卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)作為一種可處理類網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的模型[7],有效地解決了全連接神經(jīng)網(wǎng)絡(luò)的缺點(diǎn),廣泛應(yīng)用于圖像識(shí)別、文檔分析和語(yǔ)言檢測(cè)等領(lǐng)域[8-9]。
本文提出基于CNN的深度學(xué)習(xí)模型進(jìn)行預(yù)測(cè)有效增殖因數(shù)的方法。通過(guò)核反應(yīng)堆堆芯數(shù)值模擬程序,計(jì)算不同組件截面參數(shù)對(duì)應(yīng)的有效增殖因數(shù),將這些數(shù)據(jù)作為原始數(shù)據(jù)用于建立深度學(xué)習(xí)模型。將1/4堆芯組件截面參數(shù)按照組件裝載位置整合到一個(gè)信息矩陣中,將得到的原始數(shù)據(jù)進(jìn)行歸一化后采用CNN模型進(jìn)行訓(xùn)練,最后得到替代數(shù)值計(jì)算方法的深度學(xué)習(xí)模型,用于預(yù)測(cè)具體堆型的堆芯有效增殖因數(shù)。
在反應(yīng)堆堆芯物理計(jì)算中采用 “中子數(shù)守恒”或“中子數(shù)平衡”原理[1],以雙群擴(kuò)散理論為例,各參數(shù)滿足方程
(1)
其中:D1、D2分別為快群和熱群的擴(kuò)散系數(shù), cm;φ1、φ2分別為快群和熱群的中子注量率, cm-2·s-1; ∑R1、 ∑R2分別為快群和熱群的消失截面, cm-1;χ1和χ2為快群和熱群裂變能譜;k為有效增殖因數(shù),S為源項(xiàng); ∑S,1→2為快群到熱群的散射截面, cm-1。
本文研究對(duì)象是一個(gè)簡(jiǎn)化的2群壓水反應(yīng)堆(pressurized water reactor, PWR)問(wèn)題,堆芯共有177盒燃料組件,組件的幾何尺寸為20 cm×20 cm,堆芯呈1/4對(duì)稱分布。圖1為堆芯結(jié)構(gòu)示意圖。其中,堆芯布置了3種不同富集度的燃料組件,所有組件均采用等效均勻化的參數(shù),通過(guò)有限差分方法編制Python堆芯數(shù)值模擬程序計(jì)算堆芯參數(shù)。
CNN一般指帶有卷積運(yùn)算的深度神經(jīng)網(wǎng)絡(luò)[10]。常用的卷積運(yùn)算有1維、2維和3維等形式。圖2為本文所采用的CNN結(jié)構(gòu),包括輸入層、卷積層、池化層、全連接層及輸出層。一個(gè)完整的CNN一般會(huì)采取多個(gè)卷積層與池化層交替設(shè)置,即一個(gè)卷積層連接一個(gè)池化層,池化層后再連接一個(gè)卷積層,依此類推。
卷積層由多個(gè)特征面(feature map)組成,每個(gè)特征面由多個(gè)神經(jīng)元組成,每個(gè)神經(jīng)元通過(guò)卷積核與上一層特征面的局部區(qū)域相連。卷積核是一個(gè)權(quán)值矩陣[11-12]。CNN的卷積層通過(guò)卷積操作提取輸入的不同特征,池化層緊跟在卷積層之后,同樣由多個(gè)特征面組成,每一個(gè)特征面與上一層的一個(gè)特征面唯一對(duì)應(yīng),不會(huì)改變特征面的個(gè)數(shù)。
池化層起到二次提取輸入值特征的作用,它的每個(gè)神經(jīng)元對(duì)局部接受域進(jìn)行池化操作[13]。經(jīng)多個(gè)卷積層和池化層后,連接全連接層。全連接層由1個(gè)或多個(gè)隱藏層組成,隱藏層中的每個(gè)神經(jīng)元與前一層的所有神經(jīng)元進(jìn)行全連接。全連接層可整合卷積層或池化層中具有類別區(qū)分性的局部信息。為提升CNN性能,全連接層每個(gè)神經(jīng)元的激勵(lì)函數(shù)一般采用ReLU函數(shù)。最后一層全連接層的輸出值被傳遞給一個(gè)輸出層[14]。
CNN具有局部連接、權(quán)值共享、池化操作及多層結(jié)構(gòu)的特點(diǎn)[15],能通過(guò)多層非線性變換,從數(shù)據(jù)中自動(dòng)學(xué)習(xí)其特征,從而代替手工設(shè)計(jì)的特征,且深層的結(jié)構(gòu)使它具有很強(qiáng)的表達(dá)能力和學(xué)習(xí)能力。
在堆芯物理參數(shù)計(jì)算中,組件截面參數(shù)包括熱群及快群的平均裂變中子數(shù)、散射系數(shù)、移出截面、裂變截面、反照率、快群到熱群的轉(zhuǎn)移截面及裂變能譜7個(gè)參數(shù)。
本文選取這7個(gè)特征參數(shù)作為CNN輸入物理量,有效增殖因數(shù)作為輸出物理量。通過(guò)Python堆芯數(shù)值模擬程序隨機(jī)生成2 000個(gè)獨(dú)立的方案,獲得數(shù)據(jù)集K={S1,S2,…,S2 000}。以其中1個(gè)方案Sn為例,CNN模型所用的數(shù)據(jù)預(yù)處理過(guò)程,如圖3所示。由圖3可見(jiàn),為保留堆芯組件位置信息,按照1/4堆芯橫截面的形狀將組件截面參數(shù)放入8×8的矩陣方格內(nèi),每個(gè)方格為3×4的矩陣,填入每個(gè)組件的12個(gè)參數(shù),無(wú)數(shù)據(jù)的空白處均設(shè)置為0,最終將Sn整合為一個(gè)24×32的特征矩陣,作為CNN模型的一組輸入值,特征矩陣對(duì)應(yīng)的有效增殖因數(shù)作為該組數(shù)據(jù)的輸出值。按照4∶1的比例將2 000組數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集。其中,訓(xùn)練集用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,測(cè)試集用于模型泛化能力的評(píng)估。
原始數(shù)據(jù)集中存在量綱因素的影響,為加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練及優(yōu)化模型擬合,需對(duì)所有數(shù)據(jù)做歸一化處理[16]。數(shù)據(jù)歸一化處理只對(duì)數(shù)據(jù)的數(shù)值進(jìn)行變換,數(shù)據(jù)的輸入格式保持不變,原始數(shù)據(jù)歸一化后的取值公式為
(2)
其中:x為原值;xmax為特征最大值;xmin為特征最小值。
在整個(gè)CNN模型建立過(guò)程中,為避免在特征學(xué)習(xí)過(guò)程中出現(xiàn)梯度消失及神經(jīng)元飽和的狀況,將所有激活函數(shù)均設(shè)置為ReLU函數(shù)。原始數(shù)據(jù)經(jīng)卷積及池化操作后得到多個(gè)信息矩陣,然后把每個(gè)特征矩陣進(jìn)行扁平化處理,將得到的1維數(shù)據(jù)輸入到全連接層。全連接層含有3個(gè)隱含層,為使計(jì)算機(jī)充分利用資源,全連接層3個(gè)隱含層神經(jīng)元的個(gè)數(shù)分別為228,228,100,輸出層含有一個(gè)神經(jīng)元,用于實(shí)際值的回歸。
CNN網(wǎng)絡(luò)模型采用信號(hào)前向傳遞和偏差反向傳播的方式進(jìn)行訓(xùn)練,反向傳播中采用的損失函數(shù)為均方偏差,可表示為
(3)
其中:ypi和yri分別為第i個(gè)樣本的模型預(yù)測(cè)值和實(shí)驗(yàn)測(cè)定值;N為樣本個(gè)數(shù)。通過(guò)不斷調(diào)整每一層的權(quán)值和偏置值使σMSE值達(dá)到最小。采用Adam算法[17]對(duì)模型進(jìn)行優(yōu)化更新。Adam算法是一種自適應(yīng)學(xué)習(xí)速率的算法,通過(guò)計(jì)算梯度的1階矩和2階矩估計(jì)來(lái)控制模型更新的方向和學(xué)習(xí)速率。
將歸一化處理的數(shù)據(jù)導(dǎo)入CNN模型中,可得到CNN模型的訓(xùn)練曲線,如圖4所示。由圖4可見(jiàn),學(xué)習(xí)曲線在最初下降十分迅速,之后隨著訓(xùn)練次數(shù)的不斷增加,學(xué)習(xí)曲線逐漸趨于平穩(wěn),在200次訓(xùn)練后,模型達(dá)到最佳狀態(tài)。
在CNN模型中,卷積層層數(shù)、訓(xùn)練批次B及學(xué)習(xí)率ε均能影響模型預(yù)測(cè)性能。本文分2種情況討論這些因素對(duì)模型預(yù)測(cè)性能的影響。
(1) 在使用相同數(shù)據(jù)進(jìn)行建模的情況下,分別采用3種不同卷積層數(shù)的CNN模型進(jìn)行訓(xùn)練,訓(xùn)練曲線如圖5所示。由圖5可見(jiàn),3種層數(shù)的模型在預(yù)測(cè)速度方面無(wú)明顯差異,但3層卷積層的CNN模型比其他2種模型學(xué)習(xí)曲線更平滑,因此,本文選用具有3層卷積層的CNN模型對(duì)樣本進(jìn)行訓(xùn)練學(xué)習(xí)。
(2) 在確定卷積層數(shù)的情況下,不同ε與B的CNN預(yù)測(cè)模型的σMSE與平均絕對(duì)偏差σMAE,如表1所列。σMSE和σMAE是衡量模型的預(yù)測(cè)精度的參數(shù),σMSE與σMAE越小,說(shuō)明預(yù)測(cè)模型的性能越好,反之則越差。由表1可知,在CNN預(yù)測(cè)模型中,訓(xùn)練批次B=32,學(xué)習(xí)率ε=10-3時(shí),預(yù)測(cè)模型的σMSE為2.48×10-4,σMAE為1.25×10-2,模型的預(yù)測(cè)效果最好。
表1 不同ε與B的CNN預(yù)測(cè)模型的參數(shù)Tab.1 CNN prediction model parameters with different ε and B
根據(jù)以上對(duì)于CNN模型卷積層數(shù)、B大小及ε的分析,最終得到一套最優(yōu)的CNN模型結(jié)構(gòu)參數(shù),如表2所列。采用Tensorflow2.0框架和Python編程語(yǔ)言建立CNN預(yù)測(cè)模型,并進(jìn)行CNN預(yù)測(cè)模型的訓(xùn)練。
表2 模型結(jié)構(gòu)參數(shù)Tab.2 Model structure parameters
本文將2 000個(gè)有效數(shù)據(jù)樣本按照4∶1的比例劃分為訓(xùn)練集和測(cè)試集,按具有相似的統(tǒng)計(jì)特性的規(guī)則,將數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集和測(cè)試集。訓(xùn)練集中的1 600個(gè)樣本數(shù)據(jù)用于建立CNN預(yù)測(cè)模型,交叉驗(yàn)證也包含在其中;測(cè)試集中400個(gè)樣本數(shù)據(jù)用于檢驗(yàn)?zāi)P偷念A(yù)測(cè)性能。為驗(yàn)證CNN預(yù)測(cè)模型的預(yù)測(cè)性能,采用反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network, BPNN )模型對(duì)數(shù)據(jù)集進(jìn)行了訓(xùn)練與測(cè)試。BPNN與CNN預(yù)測(cè)模型分別將這些樣本數(shù)據(jù)進(jìn)行了5次重復(fù)訓(xùn)練與測(cè)試并取平均值。
BPNN與CNN預(yù)測(cè)模型預(yù)測(cè)精度對(duì)比,如表3所列。由表3可知,CNN模型的σMSE和σMAE明顯小于BPNN模型,這表明CNN預(yù)測(cè)模型在預(yù)測(cè)本文建立的數(shù)據(jù)樣本時(shí)的性能要明顯優(yōu)于BPNN模型。
表3 BPNN與CNN預(yù)測(cè)模型預(yù)測(cè)精度對(duì)比Tab.3 Comparison of prediction accuracy betweenBPNN and CNN prediction models
圖6為CNN預(yù)測(cè)模型的訓(xùn)練曲線。由圖6可見(jiàn),在訓(xùn)練次數(shù)小于50時(shí),測(cè)試集數(shù)據(jù)的σMSE稍高于訓(xùn)練集數(shù)據(jù)的σMSE,隨著訓(xùn)練次數(shù)的增加測(cè)試集與訓(xùn)練集的σMSE趨于穩(wěn)定并重合。這表明,模型不存在過(guò)擬合及欠擬合情況,模型對(duì)數(shù)據(jù)的擬合程度較好。
圖7為CNN預(yù)測(cè)模型對(duì)測(cè)試集樣本有效增殖因數(shù)進(jìn)行預(yù)測(cè)時(shí),預(yù)測(cè)值與真實(shí)值相對(duì)偏差統(tǒng)計(jì)分布。
由圖7可見(jiàn),在CNN預(yù)測(cè)模型的預(yù)測(cè)結(jié)果中,幾乎所有樣本預(yù)測(cè)值的相對(duì)偏差都小于1%;90%樣本預(yù)測(cè)值的相對(duì)偏差小于0.6%;50%樣本預(yù)測(cè)值的相對(duì)偏差小于0.2%;測(cè)試集樣本預(yù)測(cè)值的平均相對(duì)偏差為0.251%。因此,CNN預(yù)測(cè)模型對(duì)堆芯參數(shù)的預(yù)測(cè)具有較高的預(yù)測(cè)精度,預(yù)測(cè)可靠性較好。
本文針對(duì)簡(jiǎn)化的2群PWR問(wèn)題,建立了組件截面數(shù)據(jù)庫(kù),開(kāi)發(fā)了基于CNN的預(yù)測(cè)模型。在經(jīng)過(guò)訓(xùn)練的CNN預(yù)測(cè)模型中,輸入燃料組件截面參數(shù)可快速預(yù)測(cè)有效增殖因數(shù)。通過(guò)BPNN與CNN預(yù)測(cè)模型預(yù)測(cè)結(jié)果的對(duì)比發(fā)現(xiàn),CNN預(yù)測(cè)模型性能要明顯優(yōu)于BPNN模型。CNN預(yù)測(cè)模型預(yù)測(cè)結(jié)果平均相對(duì)偏差為0.251%,表明CNN預(yù)測(cè)模型預(yù)測(cè)精度高,可靠性好。本文在2維雙群擴(kuò)散方程求解的應(yīng)用方面證實(shí)了CNN預(yù)測(cè)模型的可行性,可為傳統(tǒng)堆芯物理分析問(wèn)題提供新的求解理念。