戴佳斌 張 潔 吳立輝
1.東華大學(xué)人工智能研究院,上海,201620 2.東華大學(xué)信息科學(xué)與技術(shù)學(xué)院,上海,201620 3.上海應(yīng)用技術(shù)大學(xué)機械工程學(xué)院,上海,201418
晶圓制造系統(tǒng)具有制造設(shè)備多、在制品規(guī)模大、工藝路線復(fù)雜、多層重入等特點,是典型的復(fù)雜制造系統(tǒng)[1]。晶圓加工周期是晶圓制造系統(tǒng)的關(guān)鍵生產(chǎn)指標(biāo),對晶圓加工周期進(jìn)行準(zhǔn)確預(yù)測有利于晶圓制造企業(yè)提前預(yù)估訂單完成時間、合理制定生產(chǎn)計劃、優(yōu)化生產(chǎn)排程,對提高晶圓準(zhǔn)時交貨率與客戶滿意度等具有重要意義[2]。
晶圓加工周期受大規(guī)模、復(fù)雜關(guān)聯(lián)的生產(chǎn)特征數(shù)據(jù)影響,準(zhǔn)確預(yù)測困難[3]。國內(nèi)外學(xué)者圍繞晶圓加工周期預(yù)測開展了大量研究。TAI等[4]、YANG等[5]采用統(tǒng)計分析方法估計晶圓加工周期的分布規(guī)律,構(gòu)建概率統(tǒng)計分布模型預(yù)測加工周期,但該方法對晶圓加工周期數(shù)據(jù)集高度敏感,預(yù)測模型的穩(wěn)定性與準(zhǔn)確性較差。YANG等[6]、HSIEH等[7]采用仿真分析方法構(gòu)建晶圓制造系統(tǒng)模型,通過仿真分析預(yù)測晶圓加工周期,然而該方法需要大量時間構(gòu)建生產(chǎn)仿真模型,預(yù)測結(jié)果的時效性不足,預(yù)測模型的適應(yīng)性不強。SCHELASIN[8]、CHUANG等[9]采用了排隊論或排隊網(wǎng)絡(luò)等數(shù)學(xué)分析方法對晶圓加工周期進(jìn)行建模預(yù)測,然而該方法的建模需大量時間,且預(yù)測精度較低。
近年來,隨著工業(yè)互聯(lián)網(wǎng)技術(shù)的發(fā)展,晶圓制造系統(tǒng)中與晶圓加工周期相關(guān)的設(shè)備狀態(tài)、工藝參數(shù)、物流搬運系統(tǒng)狀態(tài)、在制品等大規(guī)模生產(chǎn)特征數(shù)據(jù)被實時采集與存儲,構(gòu)建了良好的大數(shù)據(jù)基礎(chǔ)平臺。以各類神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的數(shù)據(jù)驅(qū)動方法逐漸用于晶圓加工周期的預(yù)測。WANG等[10]設(shè)計了一種雙邊長短期記憶的新型循環(huán)神經(jīng)網(wǎng)絡(luò),通過挖掘晶圓層與層之間的相似性,較準(zhǔn)確地預(yù)測了晶圓的單層加工周期。CHEN等[11]結(jié)合PCA、FCM和BPN構(gòu)建了一種模糊神經(jīng)網(wǎng)絡(luò)模型用于晶圓加工周期預(yù)測。CHIEN等[12]提出了基于高斯-牛頓回歸法與BPN的晶圓加工周期預(yù)測方法。TIRKEL[13]利用數(shù)據(jù)庫中發(fā)現(xiàn)的知識與BPN神經(jīng)網(wǎng)絡(luò)構(gòu)建了晶圓加工周期預(yù)測模型。WANG等[14]采用網(wǎng)絡(luò)反卷積去除晶圓特征間的間接相關(guān)性,建立了預(yù)測晶圓加工周期的BPN模型。
相較于傳統(tǒng)的統(tǒng)計分析、仿真分析、數(shù)學(xué)分析等方法,基于長短期記憶神經(jīng)網(wǎng)絡(luò)、BPN網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動方法具有較好的適應(yīng)性與預(yù)測穩(wěn)定性,然而這些數(shù)據(jù)驅(qū)動方法存在以下不足:①晶圓制造過程中,大量生產(chǎn)特征數(shù)據(jù)內(nèi)部及關(guān)鍵生產(chǎn)特征數(shù)據(jù)與晶圓加工周期之間具有復(fù)雜的相關(guān)性,現(xiàn)有的數(shù)據(jù)驅(qū)動預(yù)測模型設(shè)計未充分考慮上述復(fù)雜相關(guān)性的影響,難以有效保障晶圓加工周期的預(yù)測精度;②相同批次晶圓在加工過程中經(jīng)歷的加工設(shè)備及采用的加工工藝存在相似性,所獲得的晶圓生產(chǎn)特征數(shù)據(jù)樣本之間的時間相關(guān)性強,現(xiàn)有的數(shù)據(jù)驅(qū)動晶圓加工周期預(yù)測模型未考慮樣本的相關(guān)性因素,模型訓(xùn)練效率較低。
為此,本文提出一種融合雙重注意力機制與并行門控循環(huán)單元(dual attention mechanism and gated recurrent unit, DAM-GRU)的晶圓加工周期預(yù)測方法,在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,通過構(gòu)建并行GRU網(wǎng)絡(luò)挖掘生產(chǎn)特征數(shù)據(jù)樣本之間的時間相關(guān)性,設(shè)計DAM來學(xué)習(xí)關(guān)鍵生產(chǎn)特征的相關(guān)度信息,從而提高晶圓加工周期的預(yù)測精度與預(yù)測效率。
數(shù)據(jù)驅(qū)動的晶圓加工周期預(yù)測問題以晶圓制造過程中采集的生產(chǎn)特征數(shù)據(jù)集合X={x1,x2,…,xL}為輸入?yún)?shù),以預(yù)測的晶圓加工周期y為輸出指標(biāo)。生產(chǎn)特征數(shù)據(jù)包括設(shè)備負(fù)載率、各工序的加工時間、晶圓優(yōu)先級、物流搬運系統(tǒng)狀態(tài)、在制品數(shù)量。這些數(shù)據(jù)具有以下特點:
(1)大規(guī)模特性。晶圓制造需數(shù)十次重入氧化、外延、光刻、蝕刻等加工區(qū),加工工序多達(dá)300~1000道。每道工序需要專用設(shè)備加工,與加工周期相關(guān)的設(shè)備、工藝、物流、在制品等相關(guān)生產(chǎn)特征參數(shù)達(dá)數(shù)千個。
(2)生產(chǎn)特征數(shù)據(jù)關(guān)聯(lián)的復(fù)雜性。晶圓逐層加工,每一層電路的加工需重入各加工區(qū)內(nèi)的相同設(shè)備組 ,采用大量相似工藝,導(dǎo)致部分設(shè)備的狀態(tài)與工藝相關(guān)的生產(chǎn)特征數(shù)據(jù)存在強關(guān)聯(lián)性。由于加工過程中的工藝約束,工藝路線上下游設(shè)備間的耦合性強,導(dǎo)致晶圓制造過程中采集的生產(chǎn)特征數(shù)據(jù)強關(guān)聯(lián)。
(3)生產(chǎn)特征數(shù)據(jù)樣本相關(guān)性強。晶圓制造過程中,相同批次的晶圓lot通常同時進(jìn)入晶圓加工車間,因此采用的加工工藝、經(jīng)歷的加工設(shè)備、對應(yīng)的物流狀態(tài)、系統(tǒng)在制品狀態(tài)等具有強相似性,導(dǎo)致晶圓的生產(chǎn)特征數(shù)據(jù)樣本在時間上具有較強的相關(guān)性。
基于DAM-GRU的晶圓加工周期預(yù)測方法框架如圖1所示。數(shù)據(jù)預(yù)處理包括兩個環(huán)節(jié):特征提取與特征數(shù)據(jù)樣本集分類。特征提取基于Relief-F方法對生產(chǎn)特征數(shù)據(jù)集進(jìn)行降維處理,篩選與加工周期相關(guān)的關(guān)鍵特征子集,獲得關(guān)鍵特征的關(guān)聯(lián)矩陣W、特征與加工周期關(guān)聯(lián)的向量F。特征數(shù)據(jù)樣本通過模糊C均值(fuzzy C-means, FCM)算法實現(xiàn)基于工藝相似性的分類,將生產(chǎn)特征數(shù)據(jù)樣本集合分解為多個并行數(shù)據(jù)樣本子集合。
圖1 基于DAM-GRU的晶圓加工周期預(yù)測方法框架
通過樣本數(shù)據(jù)子集合構(gòu)建并行DAM-GRU預(yù)測模型,各DAM-GRU由輸入層、特征關(guān)聯(lián)層、注意力(Attention)層、預(yù)測輸出層構(gòu)成。輸入層主要從數(shù)據(jù)樣本子集合獲取輸入數(shù)據(jù)樣本,并對數(shù)據(jù)進(jìn)行最大-最小值[1]歸一化處理,消除特征量綱差異的影響。特征關(guān)聯(lián)層由并行GRU單元網(wǎng)絡(luò)構(gòu)成,并通過模擬同批次晶圓的加工過程與加工工藝相似性,挖掘晶圓生產(chǎn)特征數(shù)據(jù)樣本之間的時間相關(guān)性,提高預(yù)測模型的訓(xùn)練效率。注意力層通過設(shè)計關(guān)鍵生產(chǎn)特征間的相關(guān)注意力及特征與加工周期相關(guān)的注意力網(wǎng)絡(luò),強化關(guān)鍵生產(chǎn)特征對加工周期的貢獻(xiàn)差異,提高預(yù)測模型的精度。預(yù)測輸出層為全連接網(wǎng)絡(luò)層,通過對注意力層輸出的隱藏狀態(tài)向量進(jìn)行加權(quán)求和,實現(xiàn)對晶圓加工周期的預(yù)測輸出。
2.1.1基于Relief-F的特征選擇
晶圓制造生產(chǎn)特征數(shù)據(jù)的大規(guī)模、復(fù)雜關(guān)聯(lián)等特點導(dǎo)致預(yù)測模型訓(xùn)練效率低、預(yù)測精度差等問題,因此需對生產(chǎn)特征數(shù)據(jù)進(jìn)行降維去冗余處理。Relief-F算法的計算時間復(fù)雜度與生產(chǎn)特征數(shù)量線性正相關(guān),可量化關(guān)鍵生產(chǎn)特征間及特征與預(yù)測目標(biāo)間的復(fù)雜相關(guān)性,且特征子集能保留數(shù)據(jù)原始信息[15],適用于晶圓加工周期預(yù)測問題的生產(chǎn)特征提取?;赗elief-F的晶圓生產(chǎn)特征與加工周期關(guān)聯(lián)向量Fin=(F(x1),F(x2),…,F(xL))的計算公式為
(1)
(2)
式中,xi為第i個生產(chǎn)特征;F′(xi)為前一輪計算所得特征xi與晶圓加工周期的相關(guān)值;q為特征選取迭代次數(shù);R為每次隨機選取的生產(chǎn)特征數(shù)據(jù)樣本;Hj為與樣本R所屬子集相同的第j臨近樣本;B為與樣本R所屬集合不同的其他數(shù)據(jù)集合;Mj(B)為集合B中與樣本R第j臨近的樣本;k為與樣本R最臨近的樣本數(shù)量設(shè)定值;P(B)為集合B中的樣本個數(shù)占總樣本的數(shù)量比例;P(class(R))為R樣本所在集合class(R)中的樣本個數(shù)占總樣本的比例。
關(guān)聯(lián)向量Fin歸一化處理后,通過設(shè)定的閾值篩選出高相關(guān)性特征,形成關(guān)鍵生產(chǎn)特征與加工周期的關(guān)聯(lián)向量F=(F(x1),F(x2),…,F(xN)),其中,N為關(guān)鍵生產(chǎn)特征數(shù)量?;贔計算特征間關(guān)聯(lián)矩陣[Wi,j]:
(3)
其中,softmax(*)為歸一化指數(shù)函數(shù)。
2.1.2基于FCM的數(shù)據(jù)集聚類
由于晶圓制造系統(tǒng)加工產(chǎn)品的多樣性,晶圓生產(chǎn)特征數(shù)據(jù)樣本集合會因加工批次及加工工藝的差異而具有明顯的分類特性。本文從加工工藝相似性角度出發(fā),采用FCM算法[16]對生產(chǎn)特征數(shù)據(jù)樣本進(jìn)行工藝相似性聚類處理,為提高并行DAM-GRU預(yù)測模型的學(xué)習(xí)效果奠定數(shù)據(jù)基礎(chǔ)。
基于FCM的生產(chǎn)特征數(shù)據(jù)樣本聚類步驟如下:
(1)設(shè)定聚類中心的數(shù)量C與模糊系數(shù)k,隨機初始化隸屬度矩陣:
(4)
式中,up,q為樣本Xp屬于第q類的隸屬度,p=1,2,…,i;q=1,2,…,j。
(2)基于式(3)計算聚類中心:
(5)
式中,m為生產(chǎn)特征樣本數(shù);
(3)基于聚類中心cj更新隸屬度矩陣U1,更新后的隸屬度ui,j為
(6)
(4)重復(fù)步驟(2)、步驟(3),直至
(7)
2.2.1輸入層
輸入層主要從預(yù)測模型對應(yīng)的生產(chǎn)特征數(shù)據(jù)樣本聚類子集合中獲取輸入數(shù)據(jù)樣本X=(X1,X2,…,Xm)T,針對數(shù)據(jù)樣本Xm=(x1,m,x2,m,…,xN,m)各特征數(shù)據(jù)度量單位多、差異大的特點,采用最大-最小值方法[1]對其進(jìn)行歸一化處理以消除特征量綱差異性影響:
(8)
2.2.2特征關(guān)聯(lián)層
特征關(guān)聯(lián)層針對輸入層生產(chǎn)特征數(shù)據(jù)樣本對應(yīng)的晶圓加工工藝相似性及數(shù)據(jù)樣本之間的時間相關(guān)性,構(gòu)建基于并行GRU單元的特征關(guān)聯(lián)網(wǎng)絡(luò)。GRU是一種用于處理序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò),能保證預(yù)測精度和較高的計算效率[17]。并行GRU特征關(guān)聯(lián)網(wǎng)絡(luò)能模擬晶圓的加工工藝相似性,挖掘晶圓生產(chǎn)特征數(shù)據(jù)樣本之間的時間相關(guān)性,具有較高的模型訓(xùn)練效率。
圖2 GRU單元結(jié)構(gòu)
zt=σ(Wz[ht-1Xt])
(9)
rt=σ(Wr[ht-1Xt])
(10)
(11)
(12)
2.2.3注意力層
注意力層從特征關(guān)聯(lián)層獲得隱藏狀態(tài)向量,基于生產(chǎn)特征間關(guān)聯(lián)矩陣W構(gòu)建關(guān)鍵特征間相關(guān)Attention,通過特征間相關(guān)性實現(xiàn)對隱藏層信息的升維。利用升維后的信息生成Attention權(quán)重,實現(xiàn)特征間相關(guān)性作用下的第一次注意力分配。在此基礎(chǔ)上,通過基于關(guān)鍵生產(chǎn)特征與加工周期關(guān)聯(lián)向量F構(gòu)建特征與加工周期相關(guān)Attention,強化關(guān)鍵生產(chǎn)特征對加工周期的貢獻(xiàn)差異,完成全局信息下的生產(chǎn)特征第二次注意力分配,提高預(yù)測模型的精度。注意力層結(jié)構(gòu)設(shè)計如圖3所示,雙重注意力的具體實現(xiàn)步驟如下:
圖3 注意力層結(jié)構(gòu)圖
(1)將特征關(guān)聯(lián)層輸出的隱藏狀態(tài)向量ht與生產(chǎn)特征間關(guān)聯(lián)矩陣W進(jìn)行哈達(dá)瑪積相乘,獲得細(xì)粒度化后的隱藏狀態(tài)相關(guān)矩陣WH:
WH=Hadamard(W,ht)
(13)
(14)
(4)依次抽取WH的各個列向量,并重復(fù)步驟(2)、步驟(3),獲得各個特征相關(guān)性作用下的注意力分配矩陣。
(5)對各個特征相關(guān)性作用下的注意力分配矩陣進(jìn)行累加平均處理,獲得各個特征相關(guān)性作用下的注意力分配均值矩陣:
(15)
實現(xiàn)特征間相關(guān)性作用下的注意力分配。
(6)將WD進(jìn)行降維處理:
(16)
(7)將注意力分配均值向量Wd和特征與加工周期關(guān)聯(lián)向量F進(jìn)行哈達(dá)瑪積相乘,實現(xiàn)特征與加工周期間的相關(guān)性作用下的第二次注意力分配。形成的雙重注意力機制作用下的隱藏狀態(tài)向量h′t=Hadamard(F,Wd)可輸出至特征關(guān)聯(lián)層與全連接輸出層。
2.2.4預(yù)測輸出層
預(yù)測輸出層為全連接網(wǎng)絡(luò)層,它對注意力層輸出的隱含狀態(tài)向量h′t進(jìn)行加權(quán)求和處理,實現(xiàn)對晶圓加工周期yt的預(yù)測輸出。全連接層的計算公式為
yt=h′t·vt
式中,h′t為注意力層輸出;vt為全連接網(wǎng)絡(luò)權(quán)重;t為預(yù)測樣本的序號。
為驗證本文提出的晶圓加工周期預(yù)測方法的有效性,采用某晶圓制造企業(yè)的歷史生產(chǎn)數(shù)據(jù)進(jìn)行實驗分析。該歷史生產(chǎn)數(shù)據(jù)(共20000條)集包括晶圓在各設(shè)備中的等待與加工時間、晶圓的在制品數(shù)量、物料搬運系統(tǒng)的負(fù)載、晶圓優(yōu)先級等775個生產(chǎn)特征參數(shù),輸出為晶圓加工周期。
實驗驗證涉及的參數(shù)設(shè)置主要包含Relief-F閾值0.6、FCM設(shè)定參數(shù)(模糊系數(shù)2、迭代次數(shù)100、迭代終止設(shè)定值ε=10-8)、DAM-GRU神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)參數(shù)等。DAM-GRU神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)采用梯度下降法[3],學(xué)習(xí)參數(shù)設(shè)置如下:學(xué)習(xí)率為0.1,動量為0.9,動量抑制因子為0.5,權(quán)重衰減為0.01,迭代次數(shù)為200。評價指標(biāo)為均方根誤差、平均絕對誤差、平均絕對百分比誤差以及模型訓(xùn)練時間。
預(yù)處理晶圓制造的歷史生產(chǎn)數(shù)據(jù)集,基于Relief-F方法獲得46個關(guān)鍵生產(chǎn)特征;為驗證并行GRU網(wǎng)絡(luò)與DAM的有效性,分別從并行GRU預(yù)測模型與DAM這兩個功能模塊對DAM-GRU預(yù)測模型進(jìn)行消融實驗;為保證實驗結(jié)果的可靠性,采用10倍交叉驗證方法[10]選取訓(xùn)練數(shù)據(jù)集與驗證數(shù)據(jù)集。
3.2.1DAM的有效性驗證
利用DAM-GRU、Self-Attention-GRU和GRU分別構(gòu)建預(yù)測模型進(jìn)行消融試驗,實驗結(jié)果如圖4、表1所示。圖4表明,40個測試集樣本下,DAM-GRU的預(yù)測值更接近晶圓加工周期的真實值,DAM-GRU的預(yù)測模型具有更高的預(yù)測精度。表1中,DAM-GRU預(yù)測模型的訓(xùn)練時間為10.3 s,優(yōu)于Self-Attention-GRU預(yù)測模型的訓(xùn)練時間16.6 s。以上結(jié)果表明,雙重注意力機制能通過強化網(wǎng)絡(luò)計算過程中的特征相關(guān)性差異,提高加工周期的預(yù)測精度,且相較于自注意力機制,雙重注意力機制具有更高的訓(xùn)練效率。
表1 不同模型的訓(xùn)練時間
圖4 不同預(yù)測模型的結(jié)果
3.2.2GRU的有效性驗證
將DAM-GRU與DAM-LSTM進(jìn)行對比消融試驗,結(jié)果如圖5、表1所示。圖5表明,相較于DAM-LSTM,DAM-GRU在精度上有小幅提升。表1中,DAM-GRU的訓(xùn)練時間為10.3 s,相較于DAM-LSTM的14.4 s,訓(xùn)練效率提高約30%,這對提高晶圓加工車間動態(tài)調(diào)度的實時響應(yīng)能力具有重要意義。以上結(jié)果表明,GRU網(wǎng)絡(luò)通過模擬晶圓lot在時間相關(guān)性上的關(guān)聯(lián)與傳遞特性,挖掘樣本的關(guān)聯(lián)關(guān)系,能在保持晶圓加工周期預(yù)測精度的同時,提高預(yù)測模型訓(xùn)練效率,即本文設(shè)計的并行GRU網(wǎng)絡(luò)是有效的。
圖5 基于DAM-GRU和DAM-LSTM的預(yù)測模型結(jié)果
將DAM-GRU與基于BPN、PCA-BPN[11]、MLP[18]、RandomForest的晶圓加工周期預(yù)測方法進(jìn)行對比,驗證DAM-GRU方法在預(yù)測精度與預(yù)測效率的優(yōu)勢。其中,PCA-BPN將數(shù)據(jù)集特征降低到46個(與DAM-GRU相同),其余預(yù)測方法保留原有數(shù)據(jù)集的775個特征進(jìn)行模型的訓(xùn)練與測試,同樣采用10倍交叉驗證確保實驗結(jié)果的可靠性。對比結(jié)果如表2所示。
表2 DAM-GRU與傳統(tǒng)預(yù)測模型的結(jié)果
從表2中可知:①相較于PCA-BPN,DAM-GRU預(yù)測結(jié)果的均方根誤差從12.12 h降低到9.43 h,平均絕對誤差從8.96 h降低至7.45 h, 平均絕對百分比誤差從4.52%降低到3.71%,模型訓(xùn)練時間從13.41 s降低至10.27 s,這證明DAM-GRU較PCA-BPN具有更高的預(yù)測精度與預(yù)測模型訓(xùn)練效率;②RandomForest方法的均方根誤差、平均絕對誤差、平均絕對百分比誤差分別為10.98 h、7.89 h和3.98%,與DAM-GRU具有相近的預(yù)測精度,但模型訓(xùn)練效率遠(yuǎn)低于DAM-GRU;③DAM-GRU在預(yù)測精度及預(yù)測模型訓(xùn)練效率上明顯優(yōu)于MLP、Bagging、DecisionTree、SVM。以上對比分析結(jié)果表明,基于并行DAM-GRU的晶圓加工周期預(yù)測方法是有效的。
為提高晶圓加工周期的預(yù)測精度與預(yù)測效率,本文提出一種基于DAM-GRU的晶圓加工周期預(yù)測方法。該方法在對數(shù)據(jù)進(jìn)行預(yù)處理的基礎(chǔ)上,通過構(gòu)建并行GRU神經(jīng)網(wǎng)絡(luò)挖掘相鄰晶圓樣本之間的時間相關(guān)性,以提高模型預(yù)測效率;通過設(shè)計雙重注意力機制學(xué)習(xí)關(guān)鍵特征間及特征與加工周期的相關(guān)度信息,強化特征對加工周期的貢獻(xiàn)差異,提高模型預(yù)測精度。實例研究表明,DAM-GRU方法是有效的。下一步將繼續(xù)挖掘晶圓制造生產(chǎn)特征的關(guān)系及其在預(yù)測模型訓(xùn)練過程中的作用,以提高晶圓加工周期預(yù)測模型的預(yù)測精度及其魯棒性。