国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于放射組學(xué)的泌乳素腺瘤和生長(zhǎng)激素腺瘤分類研究

2021-05-13 07:16代湖明陳彥如袁平卓碧華
現(xiàn)代計(jì)算機(jī) 2021年8期
關(guān)鍵詞:組學(xué)腺瘤生長(zhǎng)激素

代湖明,陳彥如,袁平,卓碧華

(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.重慶市第二師范學(xué)院技術(shù)與信息工程學(xué)院,重慶400067;3.武警警官學(xué)院信息技術(shù)教研室,成都610213)

0 引言

垂體腺瘤是常見的良性神經(jīng)內(nèi)分泌腺瘤,起源于垂體前葉,主要存在于鞍區(qū),其在人群中的發(fā)病率大致為每年每10 萬人中有80-90 例,約占所有腦腫瘤中的15%[1-4]。

在腺垂體細(xì)胞的分化過程中,垂體轉(zhuǎn)錄因子決定著腺垂體祖細(xì)胞的分化方向。根據(jù)2017 版世界衛(wèi)生組織對(duì)垂體腫瘤的分類解讀,垂體轉(zhuǎn)錄因子主要包括t-box 垂體轉(zhuǎn)錄因子、表達(dá)垂體特異性POU-同源結(jié)構(gòu)域的轉(zhuǎn)錄因子(PIT-1)、T-PIT 轉(zhuǎn)錄因子和類固醇生成因子(SF-1)[5-6]。其中,泌乳素細(xì)胞和生長(zhǎng)激素細(xì)胞由表達(dá)PIT-1 轉(zhuǎn)錄因子的細(xì)胞分化而來,然而泌乳素腺瘤患者和生長(zhǎng)激素腺瘤患者在臨床上的治療有明顯的差異。大多數(shù)接受藥物治療的泌乳素腺瘤患者都有較好的效果[7],而生長(zhǎng)激素腺瘤患者則必須進(jìn)行手術(shù)切除,故對(duì)泌乳素腺瘤和生長(zhǎng)激素腺瘤的正確分類在臨床上具有重要的意義。

放射組學(xué)能夠把醫(yī)學(xué)影像數(shù)據(jù)轉(zhuǎn)換成大量的定量影像特征,目前已廣泛應(yīng)用于各種腫瘤特征的提取[8-10]。此研究通過提取泌乳素腺瘤和生長(zhǎng)激素腺瘤在核磁共振成像(Magnetic Resonance Imaging,MRI)上的放射組學(xué)信息,建立出一個(gè)基于放射組學(xué)信息的機(jī)器學(xué)習(xí)模型,然后對(duì)泌乳素腺瘤和生長(zhǎng)激素腺瘤進(jìn)行精準(zhǔn)分類。

1 數(shù)據(jù)獲取

1.1 圖像采集

本次研究搜集了2016 年1 月至2019 年2 月間確診的110 例垂體瘤患者的術(shù)前MRI 圖像(增強(qiáng)T1 加權(quán)成像),其中38 例為泌乳素腺瘤,72 例為生長(zhǎng)激素腺瘤。兩位經(jīng)驗(yàn)豐富的神經(jīng)外科醫(yī)生對(duì)所有診斷材料進(jìn)行了回顧,以獲得準(zhǔn)確的診斷結(jié)果。數(shù)據(jù)的納入標(biāo)準(zhǔn)如下:①所有患者均經(jīng)過組織學(xué)診斷為垂體瘤,并通過免疫組化染色對(duì)垂體瘤進(jìn)行了明確的分級(jí);②MRI 圖像質(zhì)量良好,無明顯偽影,所有MRI 圖像均在術(shù)前一周獲得。排除標(biāo)準(zhǔn)包括:①垂體瘤免疫組化染色不清楚;(②MRI 圖像質(zhì)量差,偽影明顯。從醫(yī)院的圖像檔案和通信系統(tǒng)中獲取所有患者的MRI 醫(yī)學(xué)數(shù)字成像(Digital Imaging and Communications in Medicine,DICOM)原圖,用于進(jìn)一步的定性和定量分析。

1.2 腫瘤手動(dòng)分割

首先將患者的每一張MRI 序列的DICOM 圖像切片載入到開源軟件ITK-SNAP(version 3.8.0, www.itksnap.org)中,然后由一名神經(jīng)外科醫(yī)生和一名神經(jīng)放射學(xué)家(分別有14 年和13 年的神經(jīng)腫瘤診斷經(jīng)驗(yàn))在每一張MRI 圖像中勾畫出腫瘤區(qū)域,根據(jù)勾畫出的腫瘤區(qū)域,ITK-SNAP 會(huì)為每一個(gè)患者的一系列DICOM 圖像切片生成一個(gè)NRRD 格式的圖像文件,最后的勾畫結(jié)果由另外兩名放射專家進(jìn)行回顧。

2 特征提取與處理

2.1 圖像預(yù)處理

提取放射組學(xué)特征的方法是基于1.2 小節(jié)中獲得的分割結(jié)果。首先對(duì)每個(gè)患者的原始DICOM 圖像進(jìn)行標(biāo)準(zhǔn)化處理,如公式(1)所示,然后再對(duì)標(biāo)準(zhǔn)化后的圖像進(jìn)行小波變換,得到8 張小波變換圖像。

公式(1)中x 表示圖像中的每一個(gè)像素點(diǎn),μx表示圖像的均值,σx是圖像的標(biāo)準(zhǔn)差。

2.2 提取放射組學(xué)特征

首先,把每個(gè)患者的一系列MRI 的DICOM 原圖合并成一張三維圖像,并把1.2 小節(jié)中提取到的分割圖像也合并成一張三維圖像,接著把兩張三維圖像輸入提取放射組學(xué)信息的開源軟件Pyradiomics(https://pyradiomics.readthedocs.io/)中提取放射組學(xué)特征。從原始圖像中提取出18 個(gè)一階統(tǒng)計(jì)特征、14 個(gè)形狀特征、22 個(gè)灰度共生矩陣(Gray Level Co-occurrence Matrix,GLCM)特征、16 個(gè)灰度行程矩陣特征(Gray Level Run Length Matrix,GLRLM)、16 個(gè)灰度區(qū)域大小矩陣(Gray Level Size Zone Matrix,GLSZM)以及14 個(gè)灰度相關(guān)矩陣(Gray Level Dependence Matrix,GLDM),總共從每個(gè)患者的MRI 原始圖像中提取100 個(gè)特征,從8 張小波變換圖像中提取出688 個(gè)相同類型的紋理特征(沒有提取形狀特征),所以總共從每個(gè)患者的MRI 序列圖像中提取出了788 個(gè)放射組學(xué)特征。所有特征的詳細(xì)描述信息可以從網(wǎng)站(http://www.radiomics.io/pyradiomics.html)中找到。對(duì)每個(gè)患者M(jìn)RI 圖像(增強(qiáng)T1 加權(quán)成像)均進(jìn)行上述的特征提取。

2.3 數(shù)據(jù)增強(qiáng)

從1.1 小節(jié)中可知,收集到的110 名垂體瘤患者中,有38 名患者為泌乳素腺瘤,72 名生長(zhǎng)激素腺瘤,數(shù)據(jù)存在嚴(yán)重的類別不平衡現(xiàn)象。通常而言,分類學(xué)習(xí)方法中都假設(shè)不同類別的訓(xùn)練樣例數(shù)目相同。如果某一類別的訓(xùn)練樣例數(shù)比其他類別的訓(xùn)練樣例數(shù)多,那么機(jī)器學(xué)習(xí)模型會(huì)更偏向于樣例數(shù)多的類別,這是由于機(jī)器學(xué)習(xí)模型只要將樣本的結(jié)果判定為樣例數(shù)多的類別,模型就能取得較高的精確率,但這樣的模型對(duì)于實(shí)際應(yīng)用而言是沒有意義的。為了解決數(shù)據(jù)中存在的類別不平衡現(xiàn)象,利用SMOTE(Synthetic Minority Oversampling Technique)算法對(duì)訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng)。

SMOTE 算法的目的在于生成新的少數(shù)類樣本,生成的策略如下:對(duì)樣本中的每個(gè)少數(shù)類樣本a,從它的最近鄰樣本中隨機(jī)選出一個(gè)樣本b,然后再樣本a、b 之間的連線上隨機(jī)選一個(gè)點(diǎn)生成新的少數(shù)類樣本,如圖1所示。

SMOTE 算法流程:

(1)從少數(shù)類中的樣本a,計(jì)算它到少數(shù)類樣本集中其他所有樣本的歐氏距離,得到k 個(gè)與樣本a 距離最近的點(diǎn)。

(2)計(jì)算樣本不平衡的比例,從而確定過采樣的倍率N,少數(shù)類中的每一個(gè)樣本a,從其k 個(gè)距離最近的樣本中隨機(jī)選擇N 個(gè)樣本,假設(shè)選擇的樣本為b。

(3)對(duì)于每一個(gè)隨機(jī)選出的樣本b,分別與樣本a按照公式(2)生成新的樣本c。

圖1 SMOTE算法

2.4 數(shù)據(jù)標(biāo)準(zhǔn)化

從每個(gè)病人的MRI 序列中提取到的788 個(gè)特征存在量綱上的差異,有的特征值并不是同一個(gè)數(shù)量級(jí),然而量綱上的差異并不能真實(shí)表達(dá)出特征的重要性。在模型學(xué)習(xí)的過程中,量綱大的特征對(duì)最終學(xué)習(xí)到的結(jié)果影響更大,會(huì)導(dǎo)致最終學(xué)到的模型不可信。為了解決這一問題,通過標(biāo)準(zhǔn)化可以使得不同的特征變量具有相同的尺度,那么在使用梯度下降法學(xué)習(xí)模型參數(shù)的時(shí)候,不同特征對(duì)參數(shù)的影響程度就一致了。同時(shí),通過將數(shù)據(jù)標(biāo)準(zhǔn)化,還可以加速損失函數(shù)的收斂速度。本文使用的標(biāo)準(zhǔn)化方法為z-score 標(biāo)準(zhǔn)化,如公式(3)所示。

其中μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。

2.5 數(shù)據(jù)降維

數(shù)據(jù)集特征維度太高會(huì)導(dǎo)致過擬合的現(xiàn)象,特別是當(dāng)數(shù)據(jù)樣本較少的時(shí)候。由2.2 小節(jié)可知,每個(gè)病人的MRI 序列可以提取出788 個(gè)特征,然而數(shù)據(jù)集中只有110 個(gè)樣本,由此可知目前的特征維度太高。為了增加機(jī)器學(xué)習(xí)模型的泛化能力,減少過擬合的現(xiàn)象,需要對(duì)當(dāng)前的數(shù)據(jù)集進(jìn)行降維。

主成分分析(Principal Component Analysis,PCA)是常用的數(shù)據(jù)降維方法,PCA 通過低維的特征去盡可能的表達(dá)原樣本中的高維特征空間,不僅可以將數(shù)據(jù)壓縮到低維,保留樣本的主要信息,同時(shí)還可以使降維之后的數(shù)據(jù)特征之間相互獨(dú)立。另外,PCA 將不重要的信息去掉,能起到一定的去噪效果。

3 實(shí)驗(yàn)

為了更好地評(píng)估模型的泛化能力,本文使用五折交叉驗(yàn)證對(duì)模型進(jìn)行訓(xùn)練與測(cè)試。首先將38 個(gè)泌乳素腺瘤樣本和72 個(gè)生長(zhǎng)激素腺瘤樣本按比例隨機(jī)的平均分成5 折,然后將其中四折的共88 個(gè)樣本數(shù)據(jù)作為訓(xùn)練集用于訓(xùn)練模型,剩余一折的樣本數(shù)據(jù)用于測(cè)試模型的泛化能力,循環(huán)測(cè)試5 輪。劃分好訓(xùn)練集與測(cè)試集之后,由于泌乳素腺瘤的樣本數(shù)比較少,使用sklearn(https://scikit-learn.org/stable/)的SMOTE 函數(shù)對(duì)訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng),得到增強(qiáng)后的訓(xùn)練集共116個(gè)樣本,新生成的樣本均為泌乳素腺瘤樣本。

圖2 五折交叉驗(yàn)證

對(duì)訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng)后,然后使用z-score 對(duì)訓(xùn)練集和測(cè)試集分別進(jìn)行標(biāo)準(zhǔn)化,最后再使用PCA 分別對(duì)訓(xùn)練集和測(cè)試集進(jìn)行數(shù)據(jù)降維。通過不斷測(cè)試,發(fā)現(xiàn)把數(shù)據(jù)降到44 維的時(shí)候,模型的泛化能力最好。

把降維后的訓(xùn)練集樣本輸入到邏輯回歸(Logistics Regression)中進(jìn)行訓(xùn)練,然后用測(cè)試集測(cè)試學(xué)習(xí)到的模型的效果,得到五折的正確率分別82.6%、91.3%、77.2%、80.95%、85.7%,平均正確率為83.5%。從測(cè)試結(jié)果可以看出,有幾折的正確率相差較大,這是由于測(cè)試集的樣本較少,少量的判斷錯(cuò)誤就會(huì)導(dǎo)致正確率有比較大的降低。

4 結(jié)語

本文提出了基于放射組學(xué)信息對(duì)泌乳素腺瘤和生長(zhǎng)激素腺瘤進(jìn)行精準(zhǔn)分類的機(jī)器學(xué)習(xí)模型,通過提取放射組學(xué)的專用軟件包Pyradiomics 提取出兩種腫瘤在MRI 圖片上的放射組學(xué)信息,再通過SMOTE 算法生成新樣本以平衡樣本數(shù)據(jù)集,然后再對(duì)平衡后的樣本數(shù)據(jù)集進(jìn)行z-score 標(biāo)準(zhǔn)化以去除特征間的量綱差異,并利用PCA 對(duì)樣本數(shù)據(jù)集進(jìn)行特征降維以增強(qiáng)機(jī)器學(xué)習(xí)模型的泛化能力,之后利用五折交叉驗(yàn)證對(duì)邏輯回歸模型進(jìn)行訓(xùn)練和測(cè)試,模型的平均正確率為83.5%,能精準(zhǔn)地對(duì)泌乳素腺瘤和生長(zhǎng)激素腺瘤進(jìn)行分類,具有較高的臨床實(shí)用價(jià)值。

猜你喜歡
組學(xué)腺瘤生長(zhǎng)激素
超聲檢查在甲狀腺腺瘤診斷中的應(yīng)用價(jià)值探析
生長(zhǎng)激素
Southern_Weekly_1928_2021_02_04_p28
甲狀腺腺瘤的類型有哪些?
“TransCon 生長(zhǎng)激素”在生長(zhǎng)激素缺乏癥兒童中進(jìn)行的全球三期臨床研究
填充型納流液相色譜長(zhǎng)柱的蛋白質(zhì)組學(xué)分析性能考察
親水作用色譜/質(zhì)譜聯(lián)用方法用于膀胱癌患者血清代謝組學(xué)研究
乳腺纖維腺瘤的那些事
學(xué)生學(xué)習(xí)方式創(chuàng)新談