国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

乳腺癌病理細胞圖像的識別研究

2021-08-06 08:27黎丹雨
現(xiàn)代計算機 2021年18期
關(guān)鍵詞:分類器乳腺癌分類

黎丹雨

(中山大學(xué)新華學(xué)院,信息科學(xué)學(xué)院,廣州510000)

0 引言

乳腺癌是導(dǎo)致世界范圍內(nèi)婦女死亡的重要病癥,每年全球罹患乳腺癌的女性人數(shù)高達130多萬,嚴重影響女性的健康。乳腺腫瘤浸潤性淋巴細胞比例具有潛在的治療效果評估和預(yù)后預(yù)測價值[1]。早期檢測可用于患者治療方案的評估和制定,提高治療的針對性、降低復(fù)發(fā)率、改善患者預(yù)后。因此,乳腺腫瘤浸潤性淋巴細胞有望成為預(yù)測新輔助化療療效的一個重要參數(shù)[2]。對乳腺癌病例圖像切片的分析,可以得到浸潤淋巴細胞的個數(shù)或者比例,但人工診斷耗時巨大,準確率也因人而異。隨著計算機、圖像識別、人工智能和模式識別等領(lǐng)域的快速發(fā)展,利用計算機輔助診斷,能有效提高診斷的效率和準確度。

計算乳腺癌病理圖像中浸潤淋巴細胞的個數(shù)或比例,實際上可歸結(jié)為圖像的分割和細胞的識別。目前國內(nèi)外對醫(yī)學(xué)圖像分割的研究有很多,但是針對乳腺癌中浸潤淋巴細胞的分割卻很少。本文旨在總結(jié)國內(nèi)外在醫(yī)學(xué)細胞圖像分割和識別中常用的算法,并在此基礎(chǔ)上提出乳腺癌細胞圖像識別的方法構(gòu)想。

1 細胞圖像預(yù)處理

由于外界因素的影響,例如光照不均、細胞染色不均,人工處理過程中的不定因素等,會造成圖像的區(qū)域過飽和和邊緣的模糊等情況,進而影響圖像的質(zhì)量。因此,要獲取組織細胞圖像的關(guān)鍵信息,得到較精確的輪廓線,需要對圖像進行預(yù)處理,常用的預(yù)處理方法如圖1所示,包括傳輸或存儲過程中的格式轉(zhuǎn)換、圖像去噪和圖像增強等。

圖1 細胞圖像預(yù)處理

在圖像處理中,最常用的顏色空間是RGB模型,常用于顏色顯示和圖像處理,三維坐標的模型形式,非常容易被理解。但用于人眼的直觀感受,往往在彩色圖像處理過程中,會把RGB圖像進行顏色空間轉(zhuǎn)換,以便更容易被處理。常用的彩色空間變換模型有HSV[3]、HIS[4]、HSL、HLC[5]、CMY、Lab等。幾何畸變校正是為了解決同一物體在成像時出現(xiàn)不同的結(jié)果,發(fā)生幾何畸變和歪斜變形的情況。通過空間坐標變換,是實際圖像與基準圖像進行像素點的匹配,然后進行灰度校正。

圖像去噪包括圖像平滑和濾波。圖像平滑增強圖像低頻分量,削弱高頻分量。平滑處理有空域法和頻域法,在頻率域,噪聲的頻率往往很高,可以通過低通濾波,消除高頻部分,從而達到去噪的效果。在空間域的平滑處理方法有很多,大致可分為兩類,點處理變換和模板處理。常用的空域平滑濾波算子有:線性平滑算子、非線性平滑算子、自適應(yīng)平滑算子。包括領(lǐng)域平均法、空間域低通濾波法、中值濾波等平滑算法。

圖像增強包括圖像銳化、灰度變換、二值化、彩色增強、幾何畸變校正等。圖像在去除噪聲后,還要進一步提高視覺效果,進行更深層次的處理。圖像銳化是經(jīng)過離散空間差分法、統(tǒng)計差值法或者空域高通濾波等方法,是圖像的邊緣更加地突出。灰度變換是把原始圖像m經(jīng)過一定的映射變換得到輸出圖像n,這樣,輸入圖像m的灰度值在映射之后變成圖像n的灰度值,擴大灰度n的范圍就能增加圖像的對比度。二值化是在設(shè)定灰度閾值后,將灰度圖像轉(zhuǎn)化成二值圖像。彩色增強是將一幅彩色圖像進行映射,以提高人眼對圖像的視覺分辨率的一種圖像增強方法。

2 圖像分割

組織切片細胞圖像的分割是對細胞進行信息提取、分析和研究的重要前提。對細胞圖像進行分割,找到感興趣的區(qū)域(ROI),細胞組織圖像經(jīng)過分割,就可以進一步進行計數(shù)、參數(shù)統(tǒng)計、面積形態(tài)分析計算等。分割效果的優(yōu)劣,直接影響后續(xù)圖像的識別和理解過程。

2.1 傳統(tǒng)的圖像分割方法

基于閾值的分割方法,其主要思想是:根據(jù)圖像的灰度特征,把每個像素的灰度值與閾值進行比較,以確定分類。該方法最關(guān)鍵的是找出某個準則函數(shù)來求解最佳灰度閾值。例如Otsu法。

基于邊緣的分割方法,通常也叫做邊緣檢測,可以使用微分算子進行邊緣檢測。常見的微分算子包括但不限于Sobel、Robert、Prewitt、Laplacian、Canny,具體實現(xiàn)方式是使用圖像與模板進行卷積。Yongsheng Pan等人[6]提出一種自然啟發(fā)式邊緣檢測算法BFED,更準確地分割細胞圖像。

基于區(qū)域的分割算法,此方法是將圖像按照相似或相同性準則,分成不同的區(qū)域,主要方法有:分水嶺法、種子區(qū)域生長法、區(qū)域分裂合并法等。陳文[7]基于胃癌病理切片區(qū)域分割任務(wù)中,提出了ResNet的半監(jiān)督癌變區(qū)域分割模型。黃琪[8]運用一種改進的分水嶺細胞分割算法,在胰腺神經(jīng)內(nèi)分泌瘤細胞圖像分割中取得了較高的精確率、準確率和Dice系數(shù)值,能夠較好地完成對細胞的分割。段鵬[9]在重疊宮頸細胞圖像分割中,應(yīng)用基于瓶頸檢測和分水嶺算法的圖像分割方法,在重疊區(qū)域的梯度圖像使用分水嶺算法得到內(nèi)部的邊界信息,最后與外輪廓進行疊加,得到重疊細胞的分割結(jié)果。Md.Habibur Rahman等人[10]提出使用基于改進的分水嶺自適應(yīng)分割彩色圖像。

基于圖論的分割方法,把圖像分割問題歸結(jié)為圖的最小割問題,本質(zhì)是依據(jù)最優(yōu)原則(劃分后的子圖之間相似性最小,子圖內(nèi)相似性最大)移除特定的邊,將圖劃分為若干個子圖?;趫D論的方法有GraphCut、GrabCut以及Random Walk等。

基于能量泛函的分割方法,主要是指活動輪廓模型及在其基礎(chǔ)上發(fā)展的算法。其思想是目標邊緣使用連續(xù)的曲線表達,并定義一個能量泛函使得其自變量包括邊緣曲線。在圖像的分割過程中,求解能量泛函的最小值,在能量最小的曲線位置就是匹配出的圖像輪廓所在的位置。該方法一般需要人工設(shè)置初始曲線,然后通過內(nèi)部能量(保持活動輪廓的光滑性和拓撲性)和外部能量(是活動輪廓向邊緣運動的動力)的共同作用,逐步變形、優(yōu)化,得到最佳邊緣曲線。目前基于活動輪廓的圖像分割方法主要有兩種:參數(shù)活動輪廓,例如Snake模型;幾何活動輪廓,例如水平集方法。傳統(tǒng)的Snake模型對噪聲非常敏感,分割精度不高。很多學(xué)者對Snake模型進行了改進,常用的局部優(yōu)化算法有動態(tài)規(guī)劃法、貪婪算法、有限元法等,這些局部優(yōu)化可能陷入能量函數(shù)的局部極小值,從而無法找出全局最小值。因此,遺傳算法和神經(jīng)網(wǎng)絡(luò)常用于全局優(yōu)化。劉麗[11]提出了一種基于分數(shù)階散射網(wǎng)絡(luò)的圖像分割算法。程廣斌等人[12]利用Gibbs距離圖Snake模型分割醫(yī)學(xué)圖像,克服醫(yī)學(xué)圖像噪聲和偽邊緣干擾?;谒郊膱D像分割算法可以算是Snake的進化版,它主要是更新整張圖的像素點到曲線的有向距離場來找出最佳邊緣曲線?;谒郊膱D像分割可以進行自動分裂合并,分割精度較Snake模型要高,但是運行速度慢。

2.2 基于特定理論的分割方法

卷積神經(jīng)網(wǎng)絡(luò)等在圖像分割方面應(yīng)用頗多,姜慶玲等人[13-14]利用細胞神經(jīng)網(wǎng)絡(luò)CNN模型對彩色圖像的邊緣進行檢測,克服了傳統(tǒng)的邊緣檢測方法針對灰度圖像的問題。對于喉癌上皮細胞染色圖像的分割研究有很多,可以使用模糊邏輯[15]卷積神經(jīng)網(wǎng)絡(luò)[16],精度可達到96.7%,非參數(shù)貝葉斯模型[17]、學(xué)習(xí)遷移與神經(jīng)網(wǎng)絡(luò)[18]、K均值聚類[19]等算法。在乳腺腫瘤組織病理學(xué)圖像分割領(lǐng)域,Lingraj Dora等人[20]介紹了一種新型專家系統(tǒng)(GNRBA)用于乳腺癌分類。Ajay Nagesh Basavan?hally等人[21]根據(jù)乳腺表型分子的變化,通過區(qū)域生長和馬爾科夫隨機場算法的組合,自動檢測分割出浸潤淋巴細胞,實現(xiàn)對細胞圖像的精確分割。Hussain Fa?takdawala等人[22]提出了一個新的基于期望最大化(EM)驅(qū)動活動輪廓的分割方案,應(yīng)用于自動檢測,分割乳腺癌淋巴細胞、基質(zhì)、癌細胞和背景等區(qū)域。但該方法使用局部信息,并未使用重要的先驗特征信息(如細胞核的尺寸和形狀等)。Hai Su、Fujun Liu[23]提出在對乳腺癌的自動區(qū)域分割時,使用快速掃描的深卷積神經(jīng)網(wǎng)絡(luò)(fCNN)分割像素區(qū)域。

雖然病理圖像分割算法有很多,但大多數(shù)是關(guān)于細胞和細胞核或者是組織之間的分割,而關(guān)于乳腺癌病理圖像中腫瘤區(qū)域與間質(zhì)的分割卻很少。Ching-Wei Wang[24]利用基于馬爾科夫隨機場的貝葉斯估計方法,實現(xiàn)了監(jiān)督的肺癌組織芯片圖像的分割。但是它受限于簡單的腫瘤紋理特征提取過程而出現(xiàn)過擬合。Shazia Akbar等人[25]提出一種自旋上下文(Spin-context)的分割算法,實現(xiàn)對浸潤性導(dǎo)管癌圖像中浸潤性腫瘤區(qū)域和非浸潤性腫瘤區(qū)域的分割。Adnan M.Khan等人[26]提出一種無監(jiān)督的混合幅度相位法對乳腺癌組織學(xué)圖像中腫瘤區(qū)域與細胞基質(zhì)區(qū)域的分割,然而無監(jiān)督的方法不能充分利用病理學(xué)家先前的知識進行引導(dǎo)。QU AiPing等人[27]提出基于像素級支持向量機分類算法的HE染色乳腺癌病理圖像分割,視分割為圖像中像素點的分類問題,實現(xiàn)對腫瘤巢與間質(zhì)的分割。闞賢響[28]在HE染色乳腺癌組織病理圖像的癌巢與間質(zhì)的分割中,對QU AiPing提出的算法進行改進,引入間隔采樣和閾值法。對圖像進行間隔采樣,并提取采樣點的特征,選出最佳特征組合,利用基于SVM的分類器,對像素點進行分類。在時間和準確率上達到了較好的效果。

2.3 粘連細胞的分割

細胞圖像中存在細胞粘連,在細胞粘連處的邊緣檢測和分割往往較為模糊。細胞圖像自動識別非常重要的一步就是粘連細胞的分割。常用于分割細胞圖像中粘連細胞的方法有:基于形態(tài)學(xué)的粘連細胞分割方法、基于分水嶺的粘連細胞分割方法和基于凹點搜索的粘連細胞分割方法等。

基于形態(tài)學(xué)的粘連細胞分割方法常見的有:腐蝕、膨脹、開啟和閉合,其算法原理簡單,運算速度較快,因為腐蝕和膨脹的過程是不可逆的,精度往往不高。

分水嶺分割常常用來處理細胞分割時的粘連問題,其算法精度高、速度快,但是其對噪聲非常敏感。王品等人[29]提出一種新的基于多尺度區(qū)域生長與去粘連模型的正常乳腺細胞的自動分割算法,首先結(jié)合小波分解和多尺度生長算法,分離出背景和目標區(qū)域,然后利用改進的數(shù)學(xué)形態(tài)學(xué)和基于曲率空間的角點檢測分割算法解決細胞粘連問題。劉宰豪[30]在對凹點檢測和橢圓形擬合粘連分割算法及凹點檢測及凹點匹配的粘連分割算法研究后,通過改進的重心提取算法修正凹點檢測進行粘連細胞的分割。楊輝華等人[31]提出基于水平集方法的邊緣輪廓提取和凹點區(qū)域檢測相結(jié)合的細胞圖像分割方法,能夠較準確地分割粘連細胞,但其精度不高,平均精度達到83%。陳名[32]提出基于種子點替代像素塊算法的粘連細胞分割方法。

基于凹點搜索的分割方法主要是提取輪廓上的凹點形態(tài)特點,用一定的方法篩選出需要分割的輪廓上的凹點,然后制定規(guī)則,連接配對的凹點,最終完成分割。近年來,有許多學(xué)者在細胞粘連問題上運用和改進了該算法,比較典型的有以下幾種。

(1)計算邊界點所成的夾角。這種算法主要思想是在物體輪廓上選擇某一個檢測點,然后設(shè)定一個閾值,在輪廓上求出與這個點等閾值距離的前繼點和后續(xù)點,最后計算這三個點之間的夾角。該方法易受噪聲影響。

(2)計算邊界點切線。這種算法的主要思想是由輪廓上的點的切線是否落在物體區(qū)域內(nèi)部來判斷該點是否是凹點。該方法的缺點是計算時間開銷大、易受噪聲影響。

(3)鏈碼差法。物體邊界點相對走向的編碼序列叫做鏈碼,鏈碼差計算相鄰兩個邊界的走向的改變,改變程度和物體在該點的凹陷程度成正比,從而找到可能的凹點。該方法可以很直觀找到粘連細胞的凹點,而且運算量小,速度快,但只適用于近圓形的顆粒圖像,局限性太大。

3 特征提取與選擇

原始圖像一般都具有高維的原始特征,這些高維的原始特征往往具有數(shù)據(jù)量大、數(shù)據(jù)信息冗余、樣本分布十分稀疏等缺點,這樣不利于細胞識別的分類器的設(shè)計。故我們需要對分割后的原始圖像信息進行特征提取和特征選擇。

3.1 特征提取

特征提取是用映射(或變換)的方法把原始特征變換為較少的新特征。目前,常見的用于臨床診斷的乳腺癌細胞特征參數(shù)大致可分為以下四類[33]:形態(tài)參數(shù)(包括輪廓指數(shù)、形狀因子、形狀不規(guī)則指數(shù)、圓度、長短軸比、圓球度、等效圓直徑、等效球表面積、等效球體積及曲度等),大小參數(shù)(包括面積、周長、最大徑、最小徑、體積、細胞核大小等),密度系統(tǒng)(包括體密度、面密度、比表面、數(shù)密度、長密度及面密度等),質(zhì)地參數(shù)(光密度等)。表1為選取的部分細胞特征參數(shù)。

表1 部分細胞特征參數(shù)

3.2 特征選擇

特征選擇是從原始特征中挑選出一些最有代表性、分類性能最好的特征。常用的特征選擇的方法有下列幾種。

特征組合法:Filter方法與Wrapper方法,前者是根據(jù)獨立于分類器的指標來評價所選擇的特征子集,然后在所有可能的特征子集中搜索出使得分類器指標最大的特征子集作為最優(yōu)特征子集(不考慮所使用的學(xué)習(xí)算法),后者將特征選擇和分類器結(jié)合在一起,即特征子集的好壞標準是由分類器決定的,在學(xué)習(xí)過程中表現(xiàn)優(yōu)異的特征子集會被選中。

遺傳算法:從生物進化論得到啟示,通過遺傳、變異、自然選擇等作用機制,使選擇的數(shù)據(jù)在競爭中不斷通過適應(yīng)度函數(shù)改進來求得最優(yōu)特征。適應(yīng)度函數(shù)選取原理是,對于每個個體xi的函數(shù)值fi,個體越好,fi越大。新一代群體對環(huán)境的平均適應(yīng)度比父代高。

Fisher線性判別準則:將高維空間中的特征映射到低維空間,使樣本的投影按分類盡可能地分開。通常會定義一個準則函數(shù),找到一組特征使準則函數(shù)最大化的最優(yōu)解,則這組特征被保留下來。

數(shù)學(xué)統(tǒng)計學(xué):常用的顯著性檢驗有卡方檢驗和t檢驗。先假設(shè)某特征對細胞分類無顯著性,然后驗證假設(shè),若結(jié)果拒絕假設(shè),則說明該特征對細胞分類具有顯著性,則保留該特征。

模擬退火法、順序前進法、順序后退法、流行學(xué)習(xí)算法等特征選擇方法在分類方面應(yīng)用也非常地廣泛。

4 細胞識別

細胞定量分析和自動識別的關(guān)鍵是使用分類器對細胞是否發(fā)生癌變進行判別和診斷。在對細胞圖像進行分割,找到感興趣的區(qū)域(ROI),對細胞進行特征提取和特征選擇之后,需要使用合適的分類器對細胞進行分類識別。細胞分類識別的主要方法有:

貝葉斯分類:貝葉斯分類器的分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。謝麗莉[34]在對胸片檢測中,利用貝葉斯分層混合模型提取圖像特征,實現(xiàn)圖像自動分割和識別,并取得較好的效果。

決策樹與隨機森林:決策樹是一種樹形結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別。決策樹是一種十分常用的監(jiān)督學(xué)習(xí)分類方法。隨機森林是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。李鮮[35]在鼻咽腫瘤的圖像識別中利用隨機森林的重要性度量進行特征選擇,并將特征選擇結(jié)果應(yīng)用在原始特征集,優(yōu)化特征子集,并構(gòu)建新的隨機森林分類器對圖像進行分割。

支持向量機:支持向量機(SVM)是與相關(guān)的學(xué)習(xí)算法有關(guān)的監(jiān)督學(xué)習(xí)模型,可以分析數(shù)據(jù),識別模式,用于分類和回歸分析。給定一組訓(xùn)練樣本,每個標記為屬于兩類,一個SVM訓(xùn)練算法建立了一個模型,分配新的實例為一類或其他類,使其成為非概率二元線性分類。王孝義等人[36]采用一種基于自適應(yīng)能量偏移場無邊緣主動輪廓模型,對弱對比度圖像提高分割精度,用于乳腺腫塊分割,得到感興趣區(qū)域;最后使用不同提取特征方法,結(jié)合支持向量機識別感興趣區(qū)域是否有腫塊。實驗結(jié)果顯示具有較好識別效果。王云濤[37]結(jié)合改進方向梯度直方圖(HOG)算法提取特征,并將特征用于支持向量機(SVM),從而完成腺癌病理圖像的分類檢測。

神經(jīng)網(wǎng)絡(luò):是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點之間相互連接的關(guān)系,從而達到處理信息的目的。王永軍等人[38]開發(fā)了一個基于多網(wǎng)絡(luò)特征融合和稀疏雙關(guān)系正則化學(xué)習(xí)分類模型。通過對子圖像裁剪和顏色增強預(yù)處理后,利用深度卷積神經(jīng)網(wǎng)絡(luò)提取特征,最后使用支持向量機進行分類。Tiia Ikonen,Harri Niska[39]提出一種新穎的特征提取方法,曲線空間距離變換的改進(DTOCS),用于乳腺癌癥圖像的分析和分類。Ben?zheng Weil[40]在對不同類型的乳腺癌病理圖像的分類時,使用一種被稱為BiCNN的模型,精度高達97%。Ziyue Xu[41]使用深度卷積神經(jīng)網(wǎng)絡(luò),實現(xiàn)對胸腹淋巴結(jié)檢測和間質(zhì)性肺病分類。

5 結(jié)語

在國內(nèi)外的醫(yī)學(xué)圖像和細胞識別的逐步深入研究中,多方位的分割和識別算法有不同的優(yōu)勢和適用范圍,今年來已有人開始研究乳腺癌腫瘤間質(zhì)浸潤淋巴細胞的分割和識別問題。獲取乳腺癌病理圖像中浸潤淋巴細胞的個數(shù)或比例,可先利用識別率較高的算法(例如神經(jīng)網(wǎng)絡(luò)、SVM、隨機森林等),識別出原位癌、浸潤癌和淋巴細胞。然后利用分割技術(shù),分割出浸潤區(qū)域和浸潤淋巴細胞區(qū)域(ROI),求其面積比?;蛘邔檯^(qū)域再利用分類算法,得出浸潤淋巴細胞的個數(shù)。未來針對該鄰域的研究可能會增多,并極大可能推動醫(yī)療行業(yè)的部署和實踐。本文難免會有疏漏之處,望相關(guān)領(lǐng)域?qū)<遗u指正。

猜你喜歡
分類器乳腺癌分類
少樣本條件下基于K-最近鄰及多分類器協(xié)同的樣本擴增分類
學(xué)貫中西(6):闡述ML分類器的工作流程
不開刀治療乳腺癌
別逗了,乳腺癌可不分男女老少!
男性也應(yīng)注意乳腺癌
按需分類
教你一招:數(shù)的分類
說說分類那些事
基于AdaBoost算法的在線連續(xù)極限學(xué)習(xí)機集成算法
太干凈的女性易患乳腺癌