侯少華,張宏帥,姜寶柱,朱賓賓,田增國
(1.鄭州大學機械與動力工程學院,鄭州 450001;2.鄭州大學物理(微電子)學院,鄭州 450001; 3.麥斯克電子材料股份有限公司,洛陽 471000)
直拉(Czochralski, Cz)法是生產單晶硅的重要方法之一,其生長過程可分為五個階段:引晶、縮頸、放肩、等徑、收尾。其中等徑生長是單晶硅生長過程中最關鍵的階段,該階段拉制的直徑相等部分是單晶硅的主要價值部分。然而,在單晶硅的復雜拉制過程中存在多物理場耦合現象,這導致整個單晶硅的生長過程具有非線性、大時滯、時變等特性,從而使單晶硅出現缺陷的概率增加。位錯是晶體拉制過程中的主要缺陷,在等徑階段主要表現為掉苞,掉苞現象是指晶棒四周扁平棱線發(fā)生斷裂,即硅棒由單晶體變?yōu)槎嗑w的過程,而位錯出現的具體原因[1-3]一直是單晶硅生長研究的熱點。目前,識別掉苞的方法仍舊是目測法,即通過觀察晶棒上的棱線來判斷晶體生長是否正常。但是該法的準確性嚴重依賴工人經驗,且時效性難以保證。為了簡捷地識別出單晶硅是否將要掉苞,及時發(fā)出生產預警,有必要對單晶硅等徑階段的掉苞現象進行預測研究。
目前對于單晶硅拉制過程的研究方法大致可分為三種:(1)多物理場耦合的機理模型[4-7];(2)機理與數據驅動相結合的混合模型[8-9];(3)數據驅動模型。從多物理場耦合的角度出發(fā)來構建機理模型,雖可以明確參數的物理意義和解釋變量參數之間的動態(tài)行為關系,但是由于涉及知識較多、范圍廣,導致機理模型過于復雜,在實踐中難以實現;混合模型雖使用數據驅動模型來描述部分復雜的機理但本質上還是要以機理模型為主,其模型復雜度依然很高[10];而把數據驅動的方法應用在復雜工業(yè)過程的建模中,可以簡捷地檢測和預測出單晶硅拉制的狀態(tài)。采用數據驅動的方法來研究單晶硅的拉制過程雖剛剛起步, 仍然取得了一些成果。例如:杜佳晨[11]針對單晶硅等徑生長過程“掉苞”的預測,構建的隨機森林集成模型預測準確率為94%;Zhang等[12]針對單晶硅等徑生長過程中位錯模式的復雜性,提出一種基于深度學習的位錯檢測方法及跟蹤策略,檢測準確率為97.33%;翟曉彤等[13]基于最大互信息的特征選擇方法建立了一套對于單晶硅放肩斷棱現象預測精度較高的數據驅動模型,預測準確率為93.70%;李欣鴿[14]基于NARX神經網絡建立了加熱器溫度-晶體直徑模型,實現了對單晶硅晶體直徑的預測,均方誤差為0.000 047。相比其他的方法,基于數據驅動模型的機器學習方法不依賴直拉單晶硅生長機理,可以通過不斷地訓練來提高預測精度,這是使用數據構建模型的主要優(yōu)勢。另外,對于單晶硅參數之間的相關性和原始數據的特點,大多數文獻只是簡單涉及了相關性的研究,而對原始數據特點的研究并未明確指出。兩者都是影響機器學習模型的因素,清楚原始數據特點和參數相關性對于模型的訓練具有指導意義。
目前,有關分類預測的機器學習方法種類很多,其應用也十分廣泛。例如:黃亮等[15]針對燃料電池的故障診斷問題,構建了基于差分優(yōu)化算法的支持向量機模型,預測準確率達到95%;劉鑫等[16]針對白酒品牌的分類預測問題,構建了基于遺傳算法優(yōu)化的支持向量機模型,預測準確率可以達到97.83%;吳貴軍等[17]針對乳腺癌治療藥物的分類預測問題,通過對比K近鄰算法、決策樹算法、支持向量機算法、貝葉斯算法以及人工神經網絡算法得出決策樹模型為最優(yōu)模型的結論,預測準確率90%;高旭旭[18]針對點擊率預測中多字段分類數據的問題,提出了基于注意力機制的FM&ResNet深度學習模型,預測準確率為97.86%。由以上列舉文獻可知,不同的問題背景所得到結論也不同,最優(yōu)模型是相對而言的。在單晶硅發(fā)生掉苞的問題背景下,仍然可以嘗試使用不同的機器學習方法,確保問題得到良好的解決。
因此,本文秉著高效率、低成本、模型結構簡單的原則,針對利用Cz方法生產的單晶硅在等徑階段的掉苞現象,提出使用基于支持向量機的方法來構建有關單晶硅掉苞預測的數據驅動模型。
斯皮爾曼(Spearman)秩相關系數對原始數據的分布類型、數據選取等沒有嚴格限制,通用性、穩(wěn)健性較好[19]。經檢驗,單晶硅等徑過程原始數據并非連續(xù)等距,且不服從高斯分布,因此采用斯皮爾曼較為合適。
斯皮爾曼相關系數是一種等級變量之間的皮爾遜相關系數。假設有n個隨機變量,任意選取其中兩個隨機變量X、Y。對X、Y中的元素進行排序,得到排序后的次序R和S。Spearman計算公式為:
(1)
式中:Ri、Si為變量在順序排列樣本中的次序。在給定顯著性水平α下,相關性系數|ρ|越接近1,兩個變量間的相關性越大。
最大互信息系數(maximal information coefficient, MIC)是一種不需要對數據分布有任何假設的評估變量間函數關系和統計關系的相關性算法[20],可以解決兩變量非線性相關性分析問題。MIC值取值范圍是[0,1],值越接近1相關性程度就越強。
針對斯皮爾曼剔除過的原始數據,需要進一步檢驗關鍵參數之間是否存在非線性的相關性以及非線性相關性強弱問題,因此有必要采用MIC做進一步的探索。
對于任意分布的兩個變量x、y,MIC具體計算步驟是:
(1)劃分網格G:nx行ny列,計算出不同網格劃分下的互信息值。
(2)
式中:D是依據最大信息系數選出的最佳特征集;X、Y分別是變量x、y的集合;p(x)和p(y)是變量x、y的邊緣密度函數。
(2)獲得最大互信息值I*(D,nx,ny)。
I*(D,nx,ny)=max{I(D|G)}
(3)
(3)歸一化最大互信息值M(D)。
(4)
(4)劃分不同網格,選擇最大互信息值得最大值為MIC值。
(5)
式中:B(n)=nα,n為樣本數據個數,常數α(0<α<1)的取值根據經驗設置。
等度量映射(isometric mapping, ISOMAP)是一種基于特征提取的降維處理算法,改造于多維縮放算法(multi dimensional scaling, MDS),其核心思想是使用“測地線”距離代替MDS中的“歐式距離”計算樣本點之間的距離。MDS多應用于線性樣本數據,ISOMAP多應用于非線性的樣本數據[21]。因此,針對關鍵參數可能會具有非線性的特點,采用ISOMAP的特征提取效果會更好,即以較小數據量的輸入,最大化保留原始數據的有效信息。對于樣本集D={x1,x2,…,xm},ISOMAP算法主要流程為:
(1)求解D中樣本點xi的k近鄰;
(2)將xi與k近鄰點之間的距離設置為歐式距離,與其他點的距離設置為無窮大,然后調用最短路徑算法計算任意兩樣本點之間的距離dist(xi,xj);
(3)將dist(xi,xj)作為MDS算法的輸入,此時,MDS算法的輸出(MDS算法不再贅述)即是ISOMAP的輸出。
支持向量機(support vector machine, SVM)是一類按監(jiān)督學習方式對數據進行二元分類的經典分類器,源自統計理論,廣泛應用于數據的分類和預測。因此針對單晶硅在等徑階段是否掉苞的預測問題,采用SVM作為分類器是合適的。
通常情況使用的是“軟間隔支持向量機”,即對于線性不可分問題,允許支持向量機在對少數樣本劃分時可以存在不準確的現象,對于任意數據D={x1,x2,…,xm},其構造表達式為:
ζi≥0,i=1,2,…,m
(6)
式中:ω=(ω1,ω2,…,ωd)為法向量;b為位移項;xi為樣本點;yi為標簽值;C(C>0)為懲罰系數,當C趨于無窮時迫使所有樣本均滿足約束,C取有限值時允許所有樣本不滿足約束;ξi為“松弛變量”,表達樣本不滿足約束的程度。
對于單晶硅數據可能存在非線性的情況,SVM的性能十分依賴核函數的選擇,采用合適的核函數對模型預測的結果有直接影響,當情況不明時優(yōu)先選用高斯核。高斯核函數具有參數少、性能穩(wěn)定等優(yōu)點,其數學表達式為:
(7)
式中:x表示空間中心點;需要注意的是高斯核函數自帶的一個參數γ,通過改變支持向量的數量來影響SVM的泛化性能,有如下關系:
(8)
式中:σ為高斯核的帶寬,即函數作用范圍隨σ的增大而減弱。
SVM高斯核函數的性能主要取決于超參數C和γ,雖然可以給定經驗值,但實際效果往往并不理想。因此需要進行參數尋優(yōu),盡可能提高模型的預測準確度和泛化能力。一般較為常用、效果良好的優(yōu)化算法有差分優(yōu)化算法(difference evolution, DE)和遺傳算法(genetic algorithm, GA)。差分優(yōu)化算法是研究人員在遺傳算法的基礎上提出來的,本質上是一種多目標的優(yōu)化算法,常用于求解高維特征空間中整體最優(yōu)解,具有收斂快、不早熟、較強的魯棒性和全局搜索能力等特點[22-24]。
針對SVM的C和γ超參數,差分優(yōu)化算法以十折交叉驗證的精度得分作為待優(yōu)化目標的函數值,采用網格搜索法尋找最優(yōu)超參數。具體算法流程如圖1所示。
圖1 差分算法流程圖Fig.1 Flow chart of difference algorithm
本文數據處理、數據建模和數據分析均使用PyCharm Community Edition 2021.2.2環(huán)境下的Python 3.8及其自帶API。原始數據來源于EKZ2700單晶爐2021年6英寸硅棒拉制數據,該爐數據覆蓋晶體從引晶到收尾全生命周期,本文只選取等徑階段的原始數據進行研究。原始數據共有68個特征參數,假設Xi表示第i個參數,i=0,…,67,其中晶體拉制前設置的參數有17個,拉制時的監(jiān)測參數有51個。剔除30個方差很小的參數,剩余38個參數即Xi(i=0,…,37)。
將上節(jié)篩選出的參數Xi(i=0,…,37)的原始數據作為Spearman相關系數的輸入,得到它們之間的秩相關系數值。剔除ρ≥|0.75|的冗余特征參數,最后得到Xi(i=0,…,12),共13個關鍵特征參數,如表1所示,它們之間的Spearman秩相關系數值如圖2所示。
表1 關鍵參數Table 1 Key parameters
圖2 Spearman 熱度圖Fig.2 Spearman heat map
根據經驗,設置式(5)中常數α=0.6。將Xi(i=0, …,12)的原始數據作為MIC的輸入得到參數之間的最大互信息值,如圖3所示。
由圖3可知,參數之間的MIC值在0.5以內,即存在較弱的非線性相關性,但不存在較強的非線性相關性,因此不需要再對參數進行剔除。
圖3 MIC熱度圖Fig.3 MIC heat map
使用參數Xi(i=0,…,12)的原始數據構造樣本數據。為盡可能保持正負樣本數據量的平衡和保留數據的信息,樣本抽取方式為:正常拉晶數據每百條的均值和標準差,掉苞數據每十條的均值和標準差;得到樣本數據的正樣本與負樣本比例為3∶2,共構造10 047條、26維的樣本數據。記Xij是第i個參數的第j組數據,i=0,…,25,j=0,…,10 046;記Yj表示第j組數據的標簽,Yj={0,1};標簽“0”表示硅棒正常拉制,標簽“1”表示硅棒拉制中發(fā)生了掉苞。硅棒拉制中一旦發(fā)生掉苞,則整根棒的數據都標記為“1”,因為目前仍然無法判定硅棒掉苞的時刻。樣本數據Xij經過均值標準化方法處理[25]后,輸入給特征提取算法。為了更好地檢驗降維算法和模型的性能,設置ISOMAP和MDS算法輸出分別為3、5、7、9、11維的樣本數據,即d={3,5,7,9,11}的矩陣,共得到兩份樣本數據。
圖4是特征提取算法輸出為3維特征(d=3)時的2D可視化結果,由于無法很好地表達高維的輸出結果,便以此為例說明ISOMAP和MDS在本文中的性能差異。由圖4可知,ISOMAP的降維結果明顯優(yōu)于MDS。MDS并未很好地把正常數據和掉苞數據分開,而ISOMAP把樣本數據大致分為左右兩部分,基本符合分類要求。同時,驗證了單晶硅等徑階段數據具有非線性的特點,使用ISOMAP是合適的。
圖4 不同降維算法的處理結果Fig.4 Processing results of different dimensionality reduction algorithms
SVM模型算法架構來源于Python3.8的Geaty庫,優(yōu)化算法的定義為:模型參數為一般經驗值,設置種群規(guī)模為20,最大進化代數為30,進化停滯判斷閾值為10-6,C和γ變量采用固定步長的網格搜索策略,其范圍為[2-8,28]。在參數尋優(yōu)過程中,將十折交叉實驗精度得分作為模型訓練的評價標準即目標函數。SVM模型的輸入是矩陣,輸出是標簽“0”或“1”,訓練集與測試集比例為4∶1。
首先將上一節(jié)得到的兩份樣本數據分別隨機抽出五分之四作為GA-SVM和DE-SVM模型的輸入,得到如圖5所示4個訓練結果圖。在訓練結果中,SVM模型輸入為5維樣本數據時各個模型的表現較為典型,因此根據圖5進行分析與討論。如圖5所示,在模型訓練結束時,基于DE的SVM模型進化代數更少,收斂更為快速,基于GA的SVM收斂速度較慢且有發(fā)散跡象。此外,雖然兩種超參數優(yōu)化方式的最高精度得分幾乎相同,但是使用DE算法的模型平均準確率曲線更平滑、更具有可靠性。這是因為差分算法相較于遺傳算法具有收斂速度快、不早熟、不易陷入局部最優(yōu)的特點。另一方面,經過差分算法優(yōu)化的模型對于本文的樣本數據具有良好的適應性也是重要原因之一。
圖5 不同模型的訓練結果Fig.5 Training results for different models
圖6 測試集結果Fig.6 Test set results
然后調用訓練好的模型執(zhí)行對測試集數據的預測。測試集結果如圖6所示,隨著輸入維度的增加,使用經過ISOMAP算法降維處理的樣本數據模型預測準確率折線圖總體較為穩(wěn)定且平均準確率可以達到96%,相較于MDS算法,其平均準確率高出34%。然而,經過MDS算法降維處理的模型,隨著輸入維度的增加出現了過擬合現象,這導致模型準確率出現了下降的趨勢。其原因是數據具有高維、非線性的特點,模型對于樣本數據信息的學習過于混亂,無法分辨出單晶硅掉苞與正常兩個類別的特征參數值。由此可見,對于單晶硅的樣本數據,非線性方法提取出的樣本數據信息要優(yōu)于線性方法[26]。換言之,數據處理的好壞可以直接影響模型的預測結果,依據數據的非線性特點進行數據處理和建立模型是研究過程具有科學性的重要體現。最后,從模型的計算效率和準確度方面分析,ISOMAP輸出的5維樣本數據能夠較好地表征單晶硅等徑階段數據的信息,在實際應用時可以選用此時的超參數值,且[C,γ]取值為[123.338, 0.004]。
總結來說,本文中降維算法和參數優(yōu)化方法對于模型預測準確率都有一定的影響,其中降維算法的選取更為重要;另一方面,對于數據相關性的研究奠定了數據處理的基礎,這也是影響最終結果的因素之一。
本次測試使用EKZ2700直拉式單晶爐的2022年上半年6英寸硅棒數據進行驗證,與上一節(jié)使用的數據來源于同一臺單晶爐。在單晶硅棒進入等徑階段15 min后,預測系統開始運行。實驗流程如圖7所示,具體說明如下:
(1)對于所選規(guī)格的單晶硅棒等徑拉制過程,通過SCADA數據采集系統獲取等徑階段的實時數據;
(2)根據Z-score方法,設置距離均值3倍標準差的值為異常值閾值,超過閾值的參數值則以該類別參數均值替換;
(3)對(2)中獲取的原始數據進行縮放,具體方法為:每1 min內數據的均值和標準差組成一組數據;
(4)使用均值化方法對(3)中數據進行標準化處理即為樣本數據;
(5)調用SVM模型對樣本數據進行預測;
(6)對15組樣本數據的15個預測結果進行投票,當預測值為“1”的頻率大于60%時,可認為單晶棒硅即將出現掉苞,系統發(fā)出警告,否則預測系統判定該棒正常,重復以上步驟;
(7)最后與工人師傅記錄的隨工單進行對比。
隨機挑選23根正常硅棒數據,6根掉苞硅棒數據,共29根硅棒數據進行實驗驗證,得到預測結果的混淆矩陣如表2所示。由表2可知,在實驗測試中有少部分實際是正常的硅棒被錯誤地預測為掉苞;經過分析發(fā)現,標簽方法的缺陷是導致該錯誤結果的主要原因。此外,需要注意的是:該爐性能較為穩(wěn)定,掉苞發(fā)生率低,發(fā)生掉苞的硅棒數據較少,預測硅棒在實際情況下發(fā)生掉苞的準確率可能會有所浮動。另一方面,在實際應用中可以根據經驗調整報警閾值,以達到使用要求??傮w而言,該方法在工廠生產中可以大幅減輕工人的勞動強度,有一定的實際應用價值。
圖7 模型應用流程Fig.7 Process of model application
表2 單晶硅預測結果混淆矩陣Table 2 Confusion matrix of single crystal silicon prediction results
本文通過線性與非線性的相關性分析揭示了單晶硅等徑階段數據的特點;通過特征選擇和特征提取相結合的方法實現了對樣本數據的構造;通過差分算法實現了對支持向量機超參數C和γ的優(yōu)化;通過對比不同模型預測準確度,得出了如下結論:ISOMAP-DE-SVM是本文最優(yōu)模型以及單晶硅等徑階段數據具有非線性的特點。最后,通過對最優(yōu)模型的應用驗證,表明所述方法具有一定工程應用價值。綜上所述,對于單晶硅等徑階段的掉苞預測研究存在以下優(yōu)勢和不足:
(1)本文采用的特征選擇和特征提取結合的方法能有效地提取單晶硅等徑階段原始數據中的信息;
(2)本文采用的基于差分算法的支持向量機模型,在準確度、可靠性和收斂速度方面較于其他模型具有明顯優(yōu)勢;
(3)本文所提出的模型在實際應用中可以大幅減輕工人的勞動強度、提高硅棒的拉制成功率;
(4)本文沒有對打標簽的方法進行改善,對最終預測結果造成了一定程度的影響。