魏莎莎,李真
(1.中國電科芯片技術(shù)研究院,重慶 400060;2.中國電子科技集團(tuán)公司第二十四研究所,重慶 400060)
在全球一體化的大趨勢下,龐大的市場和參差不齊的產(chǎn)品質(zhì)量使得競爭越來越激烈,同時隨著我國軍工事業(yè)的快速發(fā)展,保證產(chǎn)品質(zhì)量才是提高核心競爭力的關(guān)鍵。電子元器件作為現(xiàn)在該領(lǐng)域研究的重點(diǎn),不僅決定了整個系統(tǒng)的質(zhì)量,還是我國軍工事業(yè)發(fā)展的基石,由此可見,提高電子元器件的質(zhì)量和可靠性研究至關(guān)重要。
在工程中,可靠性是指一個系統(tǒng)或電子元器件在規(guī)定的條件和規(guī)定的時間內(nèi)履行其所需功能的能力。因此,定量可靠性預(yù)測與評估的基本任務(wù)是考慮電子元器件設(shè)計(jì)和工作環(huán)境,確定系統(tǒng)的失效時間分布函數(shù)和相關(guān)的可靠性需求。一些輸出度量如平均失效時間(MTTF:Mean Time to Failure),失效率都可以由失效時間分布函數(shù)導(dǎo)出。一種有效的系統(tǒng)可靠性預(yù)測與評估方法不僅可以識別失效,還可以進(jìn)行靈敏度分析,定量確定不同部件對系統(tǒng)失效的影響。
鑒于目前及未來電子元器件的可靠性分析都是各個系統(tǒng)必不缺少的一步,而電子元器件的失效率給研究人員的可靠性分析帶來巨大的挑戰(zhàn),本文面向電子元器件質(zhì)量與可靠性發(fā)展進(jìn)行了綜述。
以前人們對質(zhì)量的認(rèn)知僅僅停留在質(zhì)量檢驗(yàn)上,通過有效的檢驗(yàn)方法能夠針對出廠之后的各項(xiàng)工序進(jìn)行質(zhì)量管理,不過隨著可靠性和產(chǎn)品質(zhì)量的發(fā)展、社會經(jīng)濟(jì)的發(fā)展,以及企業(yè)生產(chǎn)規(guī)模的擴(kuò)大,傳統(tǒng)的檢驗(yàn)技術(shù)已無法滿足產(chǎn)品可靠性的要求[1]。20 世紀(jì)50 年代后,美國提出質(zhì)量管理的理念和技術(shù),在產(chǎn)品研發(fā)和制作的過程中有效提高了產(chǎn)品的整體質(zhì)量,也保證了技術(shù)的可靠性。Choi 等[2]通過加速壽命試驗(yàn)(ALT:Accelerated Life Test)研究了瞬變電磁法的壽命分布和形狀參數(shù),并討論了如何通過失效物理來提高瞬變電磁法的壽命;Squiller 等[3]提出了基于POF 的系統(tǒng)級可靠性評估程序,該程序確定了3 個主要子系統(tǒng)的主要故障機(jī)制,即:電源模塊、直流鏈接電容器和控制電路等。
我國電子元器件可靠性技術(shù)的發(fā)展較晚,20世紀(jì)70 年代,才開始在電子工業(yè)和航空工業(yè)中初步形成體系,并應(yīng)用于軍工產(chǎn)品[4]。21 世紀(jì)前,我國在過程缺陷影響分析與控制的基礎(chǔ)上,研究了電子元器件PCM、REM 和SPC 的質(zhì)量控制與可靠性測試與評價技術(shù),使可靠性工程從測試階段上升到設(shè)計(jì)和生產(chǎn)階段,實(shí)現(xiàn)了從單純的測試與評價向?yàn)榭煽啃远O(shè)計(jì)和過程控制的發(fā)展。21 世紀(jì)以來,在HEMT 器件的退化機(jī)理及壽命評估、CMOS 電路ESD/EOS 加固設(shè)計(jì)和驗(yàn)證、標(biāo)準(zhǔn)VDSM 加工平臺的工藝可靠性評價、多層布線VISI 的故障診斷與缺陷定位、微電路抗輻射特性的測試與評價、KGD的可靠性保證、其他基于POF 的可靠性技術(shù)失效機(jī)理模擬、可靠性設(shè)計(jì)驗(yàn)證、加速應(yīng)力測試和故障定位,以及微缺陷分析等方面取得了重要進(jìn)展[4]。不僅如此,電子元器件、新材料、新工藝和軟件技術(shù)等各項(xiàng)新技術(shù)在裝備上的應(yīng)用越來越普及,裝備的可靠性技術(shù)也經(jīng)歷了跨越式的發(fā)展,從單一可靠性擴(kuò)展到 “六性” 的范疇,包括可靠性、維修性、保障性、安全性、測試性和環(huán)境適應(yīng)性。我國建立了電子元器件可靠性物理及其應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室、可靠性與環(huán)境工程技術(shù)國防科技重點(diǎn)實(shí)驗(yàn)室等國家級實(shí)驗(yàn)室,簡稱具備大型綜合環(huán)境試驗(yàn)?zāi)芰Φ脑囼?yàn)室,標(biāo)志著我國可靠性科研與應(yīng)用水平進(jìn)入了世界先進(jìn)行列[5]。
可靠性預(yù)測通常在產(chǎn)品開發(fā)生命周期的早期階段對采用特定的系統(tǒng)設(shè)計(jì)起著重要的作用。與競爭者相比,提供更高的可靠性是當(dāng)今電子產(chǎn)品行業(yè)取得成就的重要組成部分。可靠性問題的概念必須從設(shè)計(jì)過程的最早起點(diǎn)開始實(shí)施,以實(shí)現(xiàn)高項(xiàng)目可靠性。電子可靠性預(yù)測方法通常分兩個階段進(jìn)行[6]。
a)零件數(shù)量分析
需要系統(tǒng)的次要信息,通常在設(shè)計(jì)階段的初始階段使用,以獲得初步的可靠性估計(jì)。
b)零件應(yīng)力分析
需要對系統(tǒng)有充分的了解,從而提高可靠性預(yù)測的準(zhǔn)確性。選擇正確的可靠性預(yù)測方法是可靠性工程中的難題之一。
嚴(yán)格的分析是必須的,以確保系統(tǒng)的可靠性。在設(shè)計(jì)階段,系統(tǒng)設(shè)計(jì)者需要利用可靠性相關(guān)信息提前預(yù)測系統(tǒng)可靠性,以便在系統(tǒng)可靠性達(dá)不到目標(biāo)可靠性時采取糾正措施。可靠性預(yù)測方法的需求性質(zhì)根據(jù)系統(tǒng)開發(fā)生命周期的不同階段而不同,因此每個階段的預(yù)測方法也不同??煽啃灶A(yù)測的主要目的是:
a)檢驗(yàn)可靠性要求是否可行;
b)找出一個特定的設(shè)計(jì)是否符合其規(guī)格;
c)對系統(tǒng)的不同設(shè)計(jì)和相應(yīng)的可靠性評估進(jìn)行比較;
d)評估保修費(fèi)用和維修支持需求;
e)潛在危害評價;
f)為安全分析提供支持;
g)用于評估關(guān)鍵部件的保修期[7-8]。
2.1.1 自下而上的統(tǒng)計(jì)方法
自下而上的統(tǒng)計(jì)方法(BS:Bottom -up Statistical Methods)使用的預(yù)測模型來自于部件失效數(shù)據(jù)的統(tǒng)計(jì)曲線擬合,這些數(shù)據(jù)可能是在現(xiàn)場、實(shí)驗(yàn)室或制造商那里收集的。假設(shè)系統(tǒng)或設(shè)備的故障原因與故障相互獨(dú)立的部件有內(nèi)在聯(lián)系。BS 方法所采用的模型主要有零件計(jì)數(shù)分析模型和零件應(yīng)力分析模型兩類。零件數(shù)量分析模型假設(shè)零件在典型的工作條件下工作,而零件應(yīng)力分析模型需要輸入零件失效率模型λ 中包含的參數(shù)[9]微電路。BS方法使用的模型實(shí)例如式(1)~(4)所示。
a)零件計(jì)數(shù)分析模型
b)零件數(shù)量分析模型
式(1)~(4)中:
λG,λa——一般失效率或平均失效率,根據(jù)設(shè)備的復(fù)雜性和技術(shù)而定;
ΠO——質(zhì)量因素,取決于器件的質(zhì)量;
ΠL——器件因素,取決于器件的制造時間;
C1,C2——故障率常數(shù),取決于設(shè)備的復(fù)雜性(電路、技術(shù)、封裝和引腳數(shù));
ΠB——封裝工藝因素;
ΠT——工藝與功能因素;
ΠS——封裝引腳因素;
Πt——溫度加速因子(穩(wěn)態(tài)工作溫度);
ΠV——電壓應(yīng)力因子,取決于施加電壓與組件額定電壓的比值;
ΠE——環(huán)境因子,取決于對環(huán)境的表格描述。
BS 方法的另一個發(fā)展是使用PRISM 軟件[10],PRISM 包括了溫度循環(huán)和焊點(diǎn)的失效率。該方法還可以進(jìn)行簡單的相似度分析,利用現(xiàn)場經(jīng)驗(yàn)數(shù)據(jù)庫,用工藝分級因子對整體質(zhì)量因子進(jìn)行加權(quán)。這些因素取決于零部件、設(shè)計(jì)、制造、供應(yīng)鏈、機(jī)械疲勞、管理和分析工具。這是一種與自頂向下相似性分析方法(TD:Top-down Similarity Analysis Methods)相結(jié)合的方法。一旦計(jì)算出每個部件的失效率,就可以通過將所有λ 加起來計(jì)算出電路板的可靠性。
2.1.2 自頂向下的相似性分析方法
基于專有數(shù)據(jù)庫的TD,使用已知可靠性水平的以前的系統(tǒng)或子系統(tǒng)與新設(shè)計(jì)的系統(tǒng)之間進(jìn)行相似性分析。所有失效原因都要考慮,而不僅僅是部件的故障率,因此,失效原因分析是至關(guān)重要的。典型的TD 方法可概括為以下步驟[11-12]。
a)從字段中收集失效數(shù)據(jù)。
b)現(xiàn)場數(shù)據(jù)的評估(特別是設(shè)備/板失效原因,相關(guān)可靠性的計(jì)算)。
c)在電路卡組裝(CCA:Circuit Card Assembly)級別上,根據(jù)每個設(shè)備唯一CCA 的數(shù)量來確定失效率。
d)根據(jù)每個CCA 的零件和互連數(shù),確定零件和互連級別的失效率。
e)根據(jù)物理模型類別,使用所有之前的信息創(chuàng)建失效率數(shù)據(jù)庫。
f)將現(xiàn)有的設(shè)計(jì)與擬議的設(shè)計(jì)或相似過程進(jìn)行比較,步驟如下:
1)檢查可獲得現(xiàn)場數(shù)據(jù)的產(chǎn)品;
2)識別特征差異(例如設(shè)計(jì)、制造等);
3)量化特征差異對每個物理模型類別的影響;
4)合并現(xiàn)場數(shù)據(jù)(每個物理模型類別的百分比、整體終端項(xiàng)目或裝配失敗率);
5)計(jì)算新項(xiàng)目(單板、CCA 或設(shè)備)失效率:
式(5)中:λp——前一個項(xiàng)的字段失敗率;
Da——物理模型的分布百分比;
Fa——新項(xiàng)目和以前項(xiàng)目之間的差異因子;
n——物理模型類別的總數(shù)量。
2.1.3 自底向上物理失效分析方法
自底向上物理失效分析方法(BP:Bottom-up Physics-of-Failure Methods)需要對熱、機(jī)械、電氣和化學(xué)生命周期環(huán)境,以及導(dǎo)致現(xiàn)場失效的過程有全面的了解,以便應(yīng)用適當(dāng)?shù)氖P汀?/p>
一種方法是在部件級別使用制造商的可靠性數(shù)據(jù)測試結(jié)果(高度加速應(yīng)力測試、溫度濕度偏差和溫度循環(huán)等)。部件失效率是所有失效率(熱、濕度、電壓和熱循環(huán))的總和,單板失效率是所有部件失效率的總和[13]。最高級別的BP 方法(CALCE軟件)通過針對組件或裝配的各個位置最常見的失效機(jī)制來預(yù)測板或組件的失效時間,所需信息包括材料特性、幾何形狀、環(huán)境和操作負(fù)載。同樣,在組件級別也可以使用相同的方法。
2.1.4 預(yù)測方法總結(jié)
一般來說,數(shù)據(jù)來源和環(huán)境越一般越好。然而,每種方法考慮的環(huán)境不同。BS 方法根據(jù)失效模式使用環(huán)境和負(fù)載擬合因子(對于有存儲或沒有存儲的操作模式),而BP 方法使用負(fù)載剖面。這是因?yàn)锽S 方法的環(huán)境來自于失敗數(shù)據(jù)庫,可能會受到以下問題的阻礙:建立具有代表性的裝置需要大量的實(shí)驗(yàn)數(shù)據(jù);外在失效(如電氣過應(yīng)力(EOS:Electrical Over Stress))和內(nèi)在失效(如氧化弱)混合在一起,在沒有數(shù)學(xué)或物理論證的情況下被用來得到一個總體數(shù)據(jù)。
類似地,TD 方法需要定期更新他們的失效在役數(shù)據(jù)庫,這取決于公司的政策和投資。最終,需要分析所有的排除,跟蹤失效,并存儲每個級別(項(xiàng)目、設(shè)備、電路板和組件)的每個失效原因的失效率。
就BS 方法而言,PRISM 略有不同,允許進(jìn)行不同類型的進(jìn)一步輸入:可以在系統(tǒng)或子系統(tǒng)級別對設(shè)計(jì)、制造、供應(yīng)和測試過程進(jìn)行評估,以減輕總體結(jié)果(過程分級)。同樣,PRISM 也允許直接輸入環(huán)境和操作參數(shù)(溫度循環(huán)、沖擊、相對濕度和振動頻率)。然而,在大多數(shù)情況下,BS 方法的結(jié)果反映的是組件的可靠性,由于質(zhì)量的提高和系統(tǒng)復(fù)雜性的增加,組件不再是系統(tǒng)可靠性的主要貢獻(xiàn)者(系統(tǒng)級失效被忽略)。
TD 方法的結(jié)果可以通過大量的測試和現(xiàn)場數(shù)據(jù)來完善。像CALCE 軟件這樣的BP 方法需要詳細(xì)的信息知識,這些信息可能被制造商認(rèn)為是專有的。這些方法也需要大量的時間資源。為了選擇適合實(shí)際失效機(jī)制的模型,還需要預(yù)先了解失效產(chǎn)品的失效機(jī)制。同樣,也有大量的操作參數(shù)和環(huán)境參數(shù)的選擇,這也證明了定制方法的優(yōu)勢。
元器件可靠性分析是指用物理或化學(xué)手段,從結(jié)構(gòu)設(shè)計(jì)、原材料選用和制造工藝等方面對元器件進(jìn)行深層次的技術(shù)分析,從而為評價元器件可靠性提供客觀的證據(jù)。以下簡單列舉了幾種元器件可靠性分析方法[14]。
2.2.1 破壞物理分析
破壞物理分析(DPA:Destruction Physics Analysis)是對電子部件進(jìn)行拆卸、測試和檢查,以驗(yàn)證內(nèi)部設(shè)計(jì)、材料、結(jié)構(gòu)和工藝的過程。這一樣品檢驗(yàn)過程用于幫助確保電子元件的制造符合要求的標(biāo)準(zhǔn)。DPA 也被有效地用于發(fā)現(xiàn)生產(chǎn)批量問題的過程缺陷。在DPA 中,零件要檢查各種各樣的設(shè)計(jì)、工藝和加工問題,這些問題可能不會在部件制造商之前進(jìn)行的檢查、測試和篩選活動中顯示出來[15]。通過DPA 檢測到的異常和缺陷可能會在以后的某一天導(dǎo)致設(shè)備所使用的系統(tǒng)的退化或故障。DPA 是在從批次中隨機(jī)抽取的樣品上進(jìn)行的,根據(jù)組件和包裝的類型,包括一系列不同的測試和檢查。其中包括:外部目檢、X 射線檢查、檢漏、粒子沖擊噪聲檢測(PIND:Particle Impact Noise Detection)、內(nèi)部氣體成分分析、內(nèi)部目檢、掃描電子顯微鏡(SEM:Scanning Electron Microscope)、鍵合強(qiáng)度和芯片剪切強(qiáng)度等檢查項(xiàng)目。
從已做DPA 試驗(yàn)不合格項(xiàng)目統(tǒng)計(jì)中表明:可通過篩選淘汰的不合格品項(xiàng)目如外部目檢、PIND和檢漏所占比例為36.9%,而通過篩選不能剔除的缺陷,如內(nèi)部目檢、剪切強(qiáng)度和鍵合強(qiáng)度等比例達(dá)到63.1%,由此可見無法通過篩選剔除的數(shù)量更多,這也進(jìn)一步說明了開展DPA 的重要性[16]。
2.2.2 失效分析
失效分析是指進(jìn)行調(diào)查以確定失效的原因,其目的通常是采取糾正措施來解決問題和減少進(jìn)一步的失效。失效分析是在制造業(yè)的所有分支機(jī)構(gòu)進(jìn)行的,以防止未來的資產(chǎn)和產(chǎn)品失效,并保護(hù)人們和環(huán)境免受潛在的危險(xiǎn)風(fēng)險(xiǎn)。
失效分析是收集和分析數(shù)據(jù)以確定失效原因的過程,通常以確定糾正措施或責(zé)任為目標(biāo)。它在制造業(yè)的許多分支中都是一門重要的學(xué)科,例如:在電子工業(yè)領(lǐng)域,其是開發(fā)新產(chǎn)品和改進(jìn)現(xiàn)有產(chǎn)品的重要工具。失效分析過程依賴于收集失效成分,使用各種各樣的方法(特別是顯微鏡和光譜學(xué))以進(jìn)行后續(xù)的失效原因檢查。
失效率(FR:Failure Rate),也稱故障率,是一個工程系統(tǒng)或零件失效的頻率,它以每單位時間內(nèi)的失敗次數(shù)來表示,是可靠度工程中的重要參數(shù)。圖1 中展示了失效率曲線作為時間的函數(shù),也稱為浴缸曲線[17]。浴缸曲線在時間上分為3 個不同的區(qū)域,分別是:
圖1 浴缸曲線
a)失敗率下降的第一個區(qū)域稱為嬰兒死亡率或初期失??;
b)第二個區(qū)域,失效率相對不變,稱為有效壽命;
c)第三個也是最后一個區(qū)域,失效率增加,稱為磨損故障期。
然而實(shí)際上,報(bào)告中一般會使用平均失效間隔(MTBF:Mean Time between Failures)而不使用失效率來進(jìn)行元器件的失效分析。若是失效率假設(shè)是定值的話,此做法是有效的(定值失效率的假設(shè)一般常用在復(fù)雜元件/系統(tǒng),軍事或航天的一些可靠度標(biāo)準(zhǔn)中的也接受此假設(shè)),但是只有在浴缸曲線中平坦的部分(這也稱為可用生命期)才符合失效率是定值的情形,因此不適合將平均失效間隔去預(yù)估元件的生命期,因?yàn)闀龅皆「浊€的損耗階段,失效率會大幅提高,生命期會比失效率推算的時間要短。
首選使用MTBF 數(shù)字的原因是,使用較大的正數(shù)(如2 000 h)比非常小的數(shù)字(如0.000 5/h)更直觀、更容易記憶。在需要管理失效率的系統(tǒng)中,特別是在安全系統(tǒng)中,MTBF 是一個重要的系統(tǒng)參數(shù)。MTBF 經(jīng)常出現(xiàn)在工程設(shè)計(jì)要求中,并控制所需系統(tǒng)維護(hù)和檢查的頻率。在更新過程中,從失效中恢復(fù)的時間可以忽略,失效的可能性與時間保持恒定,失效率簡單地是MTBF 的乘逆。
5G、車載電子和消費(fèi)電子等模塊的快速興起,半導(dǎo)體和高可靠元器件市場需求迎來爆發(fā)式增長,不斷進(jìn)步的制程、材料和封裝導(dǎo)致元器件失效分析的難度大大增加,技術(shù)更加復(fù)雜多樣化。近幾年,國內(nèi)先進(jìn)制程晶圓代工廠的業(yè)務(wù)蓬勃發(fā)展,帶來了大量的失效分析需求。但由于目前國內(nèi)相關(guān)能力嚴(yán)重不足,晶圓級芯片失效分析業(yè)務(wù)需求大量外溢。再者,隨著電子元器件國產(chǎn)化的進(jìn)程的展開,其整體水平上落后于國外的產(chǎn)品,因此提高失效分析水平也是可靠性分析的重中之重。因此,在未來對電子元器件的可靠性分析除了需要對晶圓級芯片的失效定位和故障排查技術(shù),還包括幫助晶圓廠或設(shè)計(jì)公司確認(rèn)芯片設(shè)計(jì)、工藝和制造設(shè)備參數(shù)設(shè)置問題,以及IC 芯片實(shí)際使用過程中功能性缺陷(如ESD 能力、抗閂鎖能力等)[18]。
在研究可靠性設(shè)計(jì)與預(yù)測方法的同時,提高可靠性試驗(yàn)的能力也是我們當(dāng)下關(guān)注的重點(diǎn)??煽啃灶A(yù)測只能通過結(jié)合使用不同的方法來實(shí)現(xiàn),這取決于設(shè)計(jì)、開發(fā)或制造階段。對在給定的產(chǎn)品開發(fā)階段使用哪種方法的描述,使用這種方法的原因,以及在整個過程中與各種應(yīng)用方法相關(guān)聯(lián)的結(jié)果的交付,將確保滿足可靠性要求。進(jìn)一步地,我們需要開展可靠性試驗(yàn)[19],驗(yàn)證可靠性設(shè)計(jì)方案及可靠性預(yù)測,為不同的電子元器件的質(zhì)量與可靠性提供試驗(yàn)數(shù)據(jù)。當(dāng)下要全面推廣目前已經(jīng)成熟的仿真試驗(yàn)、強(qiáng)化試驗(yàn)、加速試驗(yàn)、安全性分析和工藝可靠性鑒定等相關(guān)工作;在未來,針對無人化和智能化等新型裝備,開展新技術(shù)在可靠性工作中的研究與應(yīng)用,如復(fù)雜環(huán)境適應(yīng)性驗(yàn)證技術(shù)、高可靠性指標(biāo)驗(yàn)證和臨近空間環(huán)境模擬與試驗(yàn)等[20]。
科技不斷發(fā)展,在智能集成化越來越普遍的趨勢下,電子元器件的使用場景是無處不在的,提高電子元器件的可靠性必是大勢所趨。近年我國建立的一系列的國家重點(diǎn)實(shí)驗(yàn)室使我國的科研和應(yīng)用水平處在世界前列,因此,我們要不斷增強(qiáng)電子元器件的質(zhì)量與可靠性技術(shù),在未來不斷提高試驗(yàn)水平、攻克技術(shù)難關(guān)。