關(guān)鍵詞:核磁共振波譜;人工智能;深度學(xué)習(xí);譜圖去噪;輕量級(jí)網(wǎng)絡(luò)
1 引言
核磁共振(NMR)波譜被認(rèn)為是探測(cè)分子結(jié)構(gòu)和提供定量信息的強(qiáng)有力的非侵入性檢測(cè)技術(shù)之一,因此在生命科學(xué)、化學(xué)、生物學(xué)等領(lǐng)域的應(yīng)用日益廣泛1–7。然而,由于固有的布居數(shù)分布,與其他表征方法8,9 (如:質(zhì)譜、紅外光譜和拉曼光譜)相比,NMR波譜天然表現(xiàn)出較低的靈敏度。特別是,與質(zhì)子(1H) NMR相比,這一困境對(duì)于異核NMR實(shí)驗(yàn)中那些具有低旋磁比和天然豐度的檢測(cè)核更為嚴(yán)重,因此限制了其更廣泛的應(yīng)用。
為解決這個(gè)問(wèn)題,幾十年來(lái)已經(jīng)做出了多種努力以抑制噪聲和提高信號(hào)強(qiáng)度。一種直接和常見(jiàn)的方法是增加實(shí)驗(yàn)掃描次數(shù)和累加采樣信號(hào),但這導(dǎo)致較長(zhǎng)的采集時(shí)間,尤其是對(duì)于二維(2D)或多維(mD)實(shí)驗(yàn)。另一種常規(guī)方法是使用配備超高場(chǎng)磁體10,11和低溫檢測(cè)系統(tǒng)12的更先進(jìn)儀器,但這需要昂貴的成本和較高的研究門檻。此外,多種先進(jìn)的脈沖序列技術(shù),例如,極化轉(zhuǎn)移增強(qiáng)不靈敏核(INEPT) 13、核Overhauser增強(qiáng)(NOE) 14等,也已經(jīng)被提出來(lái)實(shí)現(xiàn)NMR靈敏度增強(qiáng),特別是在探測(cè)不靈敏分子或原子核時(shí)。另外,旨在增強(qiáng)NMR信噪比(SNR)的超極化技術(shù)15,16,如動(dòng)態(tài)核極化(DNP) 17–20、自旋交換光泵浦(SEOP) 21,22、仲氫誘導(dǎo)超極化(PHIP) 23,24和自發(fā)極化轉(zhuǎn)移(SEBRE) 25等,已經(jīng)引起了NMR研究人員的廣泛關(guān)注。然而,無(wú)論是脈沖序列設(shè)計(jì)還是超極化技術(shù)都需要復(fù)雜的實(shí)驗(yàn)設(shè)置和熟練的實(shí)驗(yàn)操作人員。
數(shù)據(jù)后處理是減少噪聲和提高信噪比的一種簡(jiǎn)單且經(jīng)濟(jì)有效的替代方案。近來(lái),包括壓縮感知26、低秩Hankel 27以及統(tǒng)計(jì)學(xué)習(xí)28等經(jīng)典算法在液體NMR波譜去噪方面表現(xiàn)出良好的性能。此外,主成分分析(PCA)方法也通過(guò)提取主成分和譜圖分離信號(hào)與噪聲,應(yīng)用于固態(tài)NMR實(shí)驗(yàn)的噪聲降低29,30。然而,這些傳統(tǒng)算法的性能通常依賴于所使用的處理參數(shù),這些參數(shù)通常需要針對(duì)不同的譜圖重新優(yōu)化,限制了進(jìn)一步的應(yīng)用。相比之下,基于深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)(DL) 31在NMR領(lǐng)域引起了越來(lái)越多的關(guān)注,如RF脈沖設(shè)計(jì)32、代謝分析33、NMR采樣加速34–36、虛擬同核去耦37、Laplace變換38。最近,兩種DL算法39,40已被應(yīng)用于腦代謝物的磁共振譜圖去噪。需要注意的是,這兩種方法的訓(xùn)練過(guò)程都需要足夠的實(shí)際實(shí)驗(yàn)數(shù)據(jù),然而,由于NMR樣品和儀器時(shí)間的限制,很難獲取大量的真實(shí)實(shí)驗(yàn)NMR數(shù)據(jù),導(dǎo)致兩者僅關(guān)注腦代謝物分析,而無(wú)法用于不同化學(xué)樣品的各種NMR波譜去噪。此外,DN-Unet 41 (一種改進(jìn)于原始用于圖像分割的U-Net 42的網(wǎng)絡(luò))使用模擬數(shù)據(jù)而非真實(shí)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集來(lái)實(shí)現(xiàn)液體NMR波譜的信噪比增強(qiáng)。
在此,本研究使用一種輕量級(jí)深度神經(jīng)網(wǎng)絡(luò)(稱為L(zhǎng)D-Net,輕量級(jí)去噪網(wǎng)絡(luò))實(shí)現(xiàn)高質(zhì)量、可靠且非常快速的NMR波譜去噪。這種DL方案基于物理驅(qū)動(dòng)的合成NMR數(shù)據(jù)學(xué)習(xí)和端到端特征學(xué)習(xí),直接在頻域?qū)崿F(xiàn)噪聲和期望信號(hào)的分離。因此,它能夠準(zhǔn)確識(shí)別和快速恢復(fù)幾乎淹沒(méi)在嚴(yán)重噪聲中的實(shí)際微弱信號(hào),并能有效抑制噪聲和虛假峰,以及提供顯著的信噪比改善。此外,訓(xùn)練好的網(wǎng)絡(luò)模型適用于1D和高維NMR光譜,可用于各種樣品的波譜去噪。其性能已在仿真和實(shí)驗(yàn)NMR譜圖上得到充分評(píng)估。
2 方法和實(shí)驗(yàn)
輕量級(jí)深度神經(jīng)網(wǎng)絡(luò)LD-Net的主要架構(gòu)如圖1所示。LD-Net經(jīng)過(guò)訓(xùn)練,學(xué)習(xí)從含噪NMR譜圖到目標(biāo)無(wú)噪聲對(duì)應(yīng)譜圖的特征映射,并直接在頻域分離噪聲和期望的干凈信號(hào)。受之前關(guān)于音頻源分離43和語(yǔ)音增強(qiáng)44文獻(xiàn)的啟發(fā),該深度神經(jīng)網(wǎng)絡(luò)基于U-Net架構(gòu)的1D卷積改編而開(kāi)發(fā),由下采樣和上采樣模塊組成,構(gòu)成編碼-解碼結(jié)構(gòu),以利用不同層次的特征。更有意義的是,這里用線性抽取和插值替代了之前基于U-Net工作中用于特征下采樣和上采樣的跨步轉(zhuǎn)置卷積,以提供更好的偽影抑制性能。此外,大卷積核尺寸被選擇來(lái)處理這項(xiàng)任務(wù),因?yàn)閷?duì)于稀疏的NMR譜圖,小的卷積核尺寸可能導(dǎo)致大多數(shù)輸入到卷積層的信息幾乎不包含有用信息。在下采樣和上采樣模塊中使用非對(duì)稱而不是對(duì)稱的卷積核,且下采樣模塊使用比上采樣模塊更大的卷積核尺寸,以抑制輸出窗口邊界處可能出現(xiàn)的偽影。此外,在下采樣和上下采樣模塊中逐層通道數(shù)增加24。LD-Net的詳細(xì)信息在補(bǔ)充信息中給出,訓(xùn)練和驗(yàn)證損失曲線如圖S1所示。
本研究展示了僅使用由指數(shù)函數(shù)疊加生成的合成仿真數(shù)據(jù)成功訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(數(shù)據(jù)合成的詳細(xì)參數(shù)總結(jié)在補(bǔ)充材料的表S1中),從而繞過(guò)了對(duì)大量實(shí)際實(shí)驗(yàn)數(shù)據(jù)的需求,領(lǐng)先于大多數(shù)傳統(tǒng)DL方法。大量的包含含噪波譜X和相應(yīng)的目標(biāo)無(wú)噪聲標(biāo)簽L的合成數(shù)據(jù)對(duì),例如第k個(gè)數(shù)據(jù)對(duì)(Xk,Lk) (其中k是從1到訓(xùn)練數(shù)據(jù)集數(shù)量K的整數(shù)變量),被輸入神經(jīng)網(wǎng)絡(luò)以學(xué)習(xí)最優(yōu)網(wǎng)絡(luò)參數(shù)組θ,通過(guò)最小化模型輸出Yk (即Yk = F(Xk, θ))與相應(yīng)無(wú)噪聲標(biāo)簽Lk之間的歸一化均方誤差(NMSE)。由無(wú)噪聲指數(shù)函數(shù)疊加生成的無(wú)噪聲標(biāo)簽L通過(guò)監(jiān)督學(xué)習(xí)作為理想?yún)⒖?。?biāo)簽質(zhì)量對(duì)網(wǎng)絡(luò)性能有重要影響,在實(shí)際應(yīng)用中,通常需要根據(jù)神經(jīng)網(wǎng)絡(luò)的目的設(shè)計(jì)標(biāo)簽L。此外,引入了M-to-S策略,采用具有不同噪聲水平的多個(gè)含噪NMR譜圖對(duì)應(yīng)同一個(gè)無(wú)噪聲標(biāo)簽,即(Xk1, Xk2, ..., X km, Yk),其中上標(biāo)m是對(duì)應(yīng)相同標(biāo)簽的含噪輸入數(shù)量,以增強(qiáng)網(wǎng)絡(luò)性能。當(dāng)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練良好后,對(duì)于給定的含噪譜圖X,可以通過(guò)Y = F(X, θ)實(shí)現(xiàn)目標(biāo)去噪模型輸出Y,然后用于隨機(jī)化學(xué)樣品的NMR波譜去噪。它也適用于通過(guò)逐行重建的高維NMR,表明了良好的泛化性。此外,由于在頻域直接進(jìn)行譜圖去噪,訓(xùn)練好的1D模型幾乎不需要訓(xùn)練和測(cè)試數(shù)據(jù)集之間的采樣點(diǎn)數(shù)和譜寬匹配。
3 結(jié)果與討論
為了說(shuō)明輕量級(jí)神經(jīng)網(wǎng)絡(luò)在NMR波譜去噪方面的潛力,我們?cè)谀M和實(shí)驗(yàn)NMR譜圖上驗(yàn)證了其性能。如圖S2所示,在具有不同信噪比水平的模擬測(cè)試集上的去噪結(jié)果表明了LD-Net的良好性能。在一個(gè)具有挑戰(zhàn)性的案例中,即使微弱峰(在圖S2c中用黑色箭頭標(biāo)記)完全淹沒(méi)在嚴(yán)重噪聲中,LD-Net仍能準(zhǔn)確識(shí)別并快速恢復(fù)它(見(jiàn)圖S2c中的第3行),并實(shí)現(xiàn)有效的噪聲減少和信噪比增強(qiáng)。圖2展示了實(shí)驗(yàn)獲得的膽固醇1D異核NMR上的噪聲降低結(jié)果,其譜圖參數(shù)如表S2所示。由于13C的低天然豐度(約1.1%)和低旋磁比(與1H相比為1/4),通過(guò)少量掃描采集和累加的1D 13C譜圖(圖2a)表現(xiàn)出低信噪比性能,其中期望的峰和令人困擾的噪聲相互干擾,且出現(xiàn)假陽(yáng)性峰(用黑色箭頭標(biāo)記)。在這種情況下,與參考譜圖(圖2b)相比,LDNet方法(圖2c,d)能夠提取所有有用信號(hào),并識(shí)別和消除所有假陽(yáng)性峰,從而促進(jìn)波譜分析和信息提取。伴隨著有效的噪聲抑制,超過(guò)兩個(gè)數(shù)量級(jí)的信噪比增強(qiáng)被實(shí)現(xiàn),盡管單純的信噪比增強(qiáng)數(shù)值的意義并不大。相比之下,在DN-Unet去噪譜圖中仍然存在虛假峰(在圖2e中用藍(lán)色箭頭標(biāo)記)。
此外,與DN-Unet相比,LD-Net所需的計(jì)算時(shí)間加快了5–7倍。對(duì)于另一個(gè)臨床藥物阿奇霉素的樣品(圖S3),這種加速達(dá)到了10倍以上。這種優(yōu)勢(shì)在2D甚至mD NMR波譜去噪的情況下將進(jìn)一步擴(kuò)大和凸顯。更有意義的是,如表1所總結(jié)的,LDNet具有更短的模型訓(xùn)練時(shí)間、更小的模型大小、更少的參數(shù),優(yōu)于DN-Unet。特別是,具有較少下采樣和上采樣層(即L = 3)的LD-Net的模型大小約比DN-Unet小700倍,突出了其輕量級(jí)優(yōu)勢(shì)并促進(jìn)了在便攜設(shè)備上的潛在應(yīng)用。類似地,LD-Net在不含和含有額外噪聲的阿奇霉素1D 13C NMR上表現(xiàn)出令人滿意的去噪效果(圖S3和S4)。此外,通過(guò)計(jì)算相對(duì)于參考光譜的均方根偏差(RMSDs)來(lái)評(píng)估定量能力,RMSDs的范圍約為0.01–0.02,表明了良好的定量性能,詳細(xì)數(shù)值總結(jié)在表S3中。因此,輕量級(jí)神經(jīng)網(wǎng)絡(luò)LD-Net是NMR波譜去噪的一種有用工具。
另一個(gè)展示其適用性和強(qiáng)大性的例子是在一個(gè)具有挑戰(zhàn)性的含有奎寧和薄荷醇兩種成分的混合物上進(jìn)行的,這兩種成分的濃度存在很大差異。盡管在原始譜圖中低濃度組分的強(qiáng)度接近噪聲水平(圖3a),LD-Net (圖3c,d)提供了一個(gè)優(yōu)秀的去噪譜圖,幾乎恢復(fù)了所有有用的NMR信號(hào),且沒(méi)有引入虛假峰。相比之下,DN-Unet (圖3e)中幾個(gè)用紅色箭頭標(biāo)記的信號(hào)幾乎被忽略,并且在得到的譜圖中遺憾地出現(xiàn)了用藍(lán)色箭頭標(biāo)記的偽影。需要注意的是,用黑色箭頭標(biāo)記的峰既沒(méi)有被LDNet也沒(méi)有被DN-Unet恢復(fù),因?yàn)檫@個(gè)峰的強(qiáng)度可能低于儀器的檢測(cè)限并且完全淹沒(méi)在嚴(yán)重的噪聲中。此外,應(yīng)該注意到在這種情況下,包括LD-Net和DN-Unet在內(nèi)的深度學(xué)習(xí)方法對(duì)恢復(fù)不同強(qiáng)度的信號(hào)表現(xiàn)出不同的效果,因此導(dǎo)致弱峰強(qiáng)度的重建不夠理想。這種現(xiàn)象可能源于在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,較弱強(qiáng)度的譜峰對(duì)最小化網(wǎng)絡(luò)輸出Y和相應(yīng)標(biāo)簽L之間的差異的貢獻(xiàn)較小,后續(xù)研究通過(guò)調(diào)整不同強(qiáng)度譜峰對(duì)網(wǎng)絡(luò)損失的貢獻(xiàn)可能解決這個(gè)問(wèn)題。如圖4和圖5所示,LD-Net在2D乃至mD NMR波譜去噪方面展示了高潛力。如圖4c和圖S5所示,通過(guò)使用與1D NMR去噪相同的提出的1D模型進(jìn)行逐行去噪,LD-Net仍能保留所有峰值并在2DNMR上實(shí)現(xiàn)令人滿意的譜圖去噪。此外,在圖4b,e中,隨著噪聲的抑制,用黑色箭頭標(biāo)記的負(fù)峰也被消除。與DN-Unet (圖4d)相比,3層(圖S5)和12層(圖4c) LD-Net在2D NMR去噪方面分別實(shí)現(xiàn)了21倍和9倍的時(shí)間節(jié)省。圖5進(jìn)一步討論了在具有更復(fù)雜譜圖和不同噪聲水平的樣品上進(jìn)行2D NMR去噪的性能,以之前文獻(xiàn)45中報(bào)道的0.25 mmol?L–1蛋白質(zhì)樣品為例。在存在不同水平噪聲的情況下,LDNet(圖5)在區(qū)分噪聲和期望信號(hào)、消除假陽(yáng)性和假陰性峰以及提供干凈譜圖方面保持魯棒。更有意義的是,可以看到即使在存在大量噪聲的情況下,LD-Net (圖5i)成功恢復(fù)了在2D譜圖和1D軌跡中幾乎淹沒(méi)在嚴(yán)重噪聲中的微弱峰。
傳統(tǒng)數(shù)據(jù)后處理和深度學(xué)習(xí)方案構(gòu)成了波譜去噪的兩個(gè)主流方式。表1總結(jié)了幾種典型DL方法和一種常規(guī)算法之間的性能定量比較。與最近提出用于NMR和MRI去噪的非DL去噪算法CoSeM 26(具有無(wú)需網(wǎng)絡(luò)預(yù)訓(xùn)練和良好泛化性的優(yōu)勢(shì))相比,DL方案幾乎不需要耗時(shí)且主觀的參數(shù)優(yōu)化,并且受益于非迭代低復(fù)雜度神經(jīng)網(wǎng)絡(luò)映射而能實(shí)現(xiàn)快速去噪重建。雖然DN-Unet 41通常提供更大的信噪比增強(qiáng),但受限于更長(zhǎng)的模型訓(xùn)練時(shí)間、更大的模型大小和更多的模型參數(shù)。此外,經(jīng)典U-Net 42在模型所需訓(xùn)練時(shí)間方面具有一定優(yōu)勢(shì),但遺憾的是有較高的引入偽影的可能性。此外,與最近兩種專注于腦代謝物MRS去噪的DL方法39,40相比,LDNet擺脫了對(duì)大量實(shí)際實(shí)驗(yàn)數(shù)據(jù)的需求,并在各種化學(xué)樣品上保持穩(wěn)健,從而促進(jìn)了DL在NMR領(lǐng)域的應(yīng)用,例如在1D和mD純化學(xué)位移NMR 47–49上的潛在去噪。此外,所提出的LD-Net模型在不同采樣點(diǎn)數(shù)和被測(cè)譜圖的譜寬上提供了良好的兼容性,無(wú)需網(wǎng)絡(luò)重新訓(xùn)練,表明了良好的泛化性??傊?,LD-Net在NMR波譜去噪方面表現(xiàn)出一定的優(yōu)勢(shì)。
如前述示例所示,LD-Net方案使用端到端映射,在譜圖去噪和信噪比改善方面表現(xiàn)出良好性能,同時(shí)能夠有效恢復(fù)淹沒(méi)在噪聲中的期望弱峰并很好地抑制虛假峰。當(dāng)前LD-Net的局限性仍需要強(qiáng)調(diào):首先,與所有基于DL的方案一樣,模型訓(xùn)練是不可避免的,且訓(xùn)練數(shù)據(jù)集在一定程度上影響著最終模型的性能(圖S6)。然而,由于具有良好的泛化性,LD-Net模型可以預(yù)先使用充分考慮多種可能性的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,然后適用于一般化學(xué)樣品和NMR實(shí)驗(yàn)。其次,極低的信噪比仍然限制其性能。當(dāng)原始NMR信號(hào)低于儀器檢測(cè)限時(shí),DL方案可能無(wú)法處理。第三,大多數(shù)DL算法普遍缺乏足夠的可解釋性,不可避免地降低了其魯棒性。因此,我們也在積極探索可解釋的DL算法。
4 結(jié)論
總之,我們展示了使用輕量級(jí)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行NMR波譜降噪的概念驗(yàn)證示范。LD-Net基于物理驅(qū)動(dòng)的合成NMR波譜學(xué)習(xí),實(shí)現(xiàn)了直接且良好的去噪,且適用于各種化學(xué)樣品和NMR實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,LD-Net能夠有效抑制噪聲和虛假信號(hào),恢復(fù)期望的弱峰,并提供顯著的信噪比改善。此外,由于具有更短的模型訓(xùn)練時(shí)間、更小的模型大小、更少的網(wǎng)絡(luò)參數(shù)以及更快的計(jì)算效率等優(yōu)勢(shì),LD-Net優(yōu)于現(xiàn)有的基于DNN的去噪方法。因此,本研究為NMR去噪提供了一種有效的DL方法,并作為人工智能賦能化學(xué)研究的一個(gè)有前景的范例,從而促進(jìn)了深度學(xué)習(xí)方案在化學(xué)領(lǐng)域的廣泛應(yīng)用。