秦傳波 馮寶 諶瑤
摘 ?要: 針對尿沉渣中的有形成分進行檢測和分析,提出結(jié)合主成分分析(PCA)和極限學習機(ELM)的識別和統(tǒng)計方法。該方法通過PCA對樣本進行特征提取和降維后輸入到ELM進行訓練,根據(jù)訓練得出的模型與未經(jīng)PCA處理的樣本訓練的模型進行檢測效果對比。實驗結(jié)果表明,使用PCA處理后的樣本訓練得出的模型具有更高的識別準確度和穩(wěn)定性,同時訓練時間大幅減少。
關(guān)鍵詞: 尿沉渣檢測; 尿沉渣成分分類; 極限學習機; 主成分分析; 圖像識別; 特征提取; 醫(yī)學顯微圖像
中圖分類號: TN911.73?34; TP183 ? ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)11?0045?05
Abstract: The recognition and statistics method combining principal component analysis (PCA) and extreme learning machine (ELM) is proposed to detect and analyze the visible components in urine sediment. The features of the sample are extracted by means of PCA and then input to extreme learning machine (ELM) for training after dimensionality reduction. The detection effects of the trained model got by training and sample training model without PCA processing are compared. The experimental result shows that the model obtained by sample training after PCA processing has higher recognition accuracy and stability, and its training time is greatly reduced.
Keywords: urine sediment detection; urine sediment component classification; extreme learning machine; principal component analysis; image recognition; feature extraction; medical microscopic image
0 ?引 ?言
尿沉渣檢測是對原尿經(jīng)過離心處理得到的有形成分進行分析,分析尿沉渣的成分對人體腎臟、泌尿系統(tǒng)疾病有重要意義[1]。例如,檢測尿沉渣中紅細胞數(shù)量可以作為泌尿系統(tǒng)的炎癥、腫瘤、結(jié)石性等疾病的診斷依據(jù);檢測白細胞的數(shù)量主要作為泌尿系統(tǒng)感染的診斷依據(jù);上皮細胞和管型檢測可判斷是否出現(xiàn)腎實質(zhì)損害等。
尿沉渣的主要成分有紅白細胞、上皮細胞、管型、粘液絲、各類細菌、各類結(jié)晶和雜質(zhì)等。本文主要對以上成分進行研究和檢測。其需要解決的關(guān)鍵難題有:
1) 由于尿沉渣成分形狀結(jié)構(gòu)復(fù)雜,獲取圖片的顯微鏡圖像的途徑也各不相同,導(dǎo)致尿沉渣有形成分的形狀和輪廓也多種多樣[2]。其中一些細胞,例如白細胞團、管型和雜質(zhì)相似度高,極易混淆。因此目前的識別器難以對不同形態(tài)下的細胞進行識別和分類。
2) 不同細胞樣本圖片的背景和目標的灰度存在差異,樣本圖片中目標有形成分的邊緣模糊,使圖像分割存在困難,影響識別的準確度。
3) 由于尿沉渣有形成分結(jié)構(gòu)復(fù)雜,樣本信息量大,因而相應(yīng)神經(jīng)網(wǎng)絡(luò)模型的訓練、識別時間也會大幅度增加,影響檢測的實時性。
以上難題都是目前尿沉渣圖像檢測分析的難點,而且對識別準確率和識別效率都有很大影響。本文結(jié)合主成分分析法(Principle Component Analysis,PCA)和極限學習機(Extreme Learning Machine,ELM),對紅白細胞、上皮細胞、管型、粘液絲、各類細菌、各類結(jié)晶和雜質(zhì)的樣本圖片進行降維和訓練[3],再使用訓練好的模型對尿沉渣圖像進行識別檢測。
1 ?概 ?述
1.1 ?研究現(xiàn)狀
1.1.1 ?傳統(tǒng)尿沉渣檢測方法
制片鏡檢是傳統(tǒng)尿沉渣檢測方法中最普遍和最有代表性的方法。主要使用顯微鏡對尿液進行觀察,或者將離心處理后的尿液注入專用的計數(shù)板中,使用顯微鏡計數(shù),通過每個計數(shù)室中的細胞數(shù)量計算出細胞總量。這種方法雖然實現(xiàn)的技術(shù)較為成熟,而且識別準確率高,但也存在以下缺點[4]:
1) 檢測所需時間較長,效率較低,當需要快速的臨床診斷時,不適合使用這種方法。
2) 在制片觀察之前需要經(jīng)過多次預(yù)處理,操作步驟較繁瑣,容易引入許多干擾因素。
3) 人工檢測存在主觀影響,結(jié)果正確率難以保證。
4) 單次檢測難以完成所有參數(shù)的檢測。
1.1.2 ?基于影像分析的尿沉渣自動分析儀
由于傳統(tǒng)檢測方法存在許多缺點,研究一種快速、準確率高的尿沉渣自動分析儀具有重要意義。目前對于尿沉渣自動分析儀的檢測大多基于數(shù)字圖像處理結(jié)合機器學習來實現(xiàn)[5]。這種方法的主要實現(xiàn)過程是通過電子顯微鏡采集到細胞圖像,在計算機中對圖像進行預(yù)處理,由尿沉渣成分識別系統(tǒng)進行細胞檢測分類,最后通過計算機統(tǒng)計得出分析結(jié)果。其中,尿沉渣成分識別系統(tǒng)是影像分析的核心。其利用特別訓練的神經(jīng)網(wǎng)絡(luò)和圖像處理算法對尿沉渣有形成分進行識別和分類,使用的算法和訓練的神經(jīng)網(wǎng)絡(luò)模型都將影響識別準確度和效率[6?9]。本文使用PCA對獲得的尿沉渣顯微圖像進行降維處理,提取其特征信息,消除向量相關(guān)性,再使用ELM進行訓練[10],最后通過訓練集以外的樣本進行檢測驗證。本文列舉了幾類原始的尿沉渣顯微圖像,如圖1所示。
基于影像分析的尿沉渣自動分析儀具有以下優(yōu)點[11?13]:
1) 全自動化運行,節(jié)省很多人力,避免了許多由于高強度工作導(dǎo)致的疲倦等人為因素對檢測結(jié)果造成的不良影響。
2) 自動化檢測設(shè)備對所有樣本具有統(tǒng)一的檢測標準,避免人工檢測的主觀因素對檢測結(jié)果造成影響。
3) 使用計算機對圖像進行檢測和統(tǒng)計,效率比傳統(tǒng)的人工檢測高很多。避免尿液樣本因等待檢測時間過長而變質(zhì)。
4) 自動化檢測設(shè)備在檢測的同時還可以結(jié)合計算機技術(shù),自動將檢測結(jié)果輸入到病人電子檔案中,以便隨時查閱。
2 ?PCA與ELM原理
2.1 ?PCA原理
PCA是多元統(tǒng)計學中的一種降維技術(shù)和特征提取法[2]。PCA能用少量數(shù)據(jù)表示原始數(shù)據(jù)的絕大部分信息[3],通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示,可用于提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維。其實現(xiàn)步驟如下:
1) 對樣本圖片矩陣進行標準化處理。設(shè)[xij]為第[j]個樣本的第[i]個特征的值,[x*ij]為第[j]個樣本第[i]個特征的標準值。
2.2 ?ELM原理
ELM是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),一種兼顧簡單和高效的無監(jiān)督學習算法[3]。與其他神經(jīng)網(wǎng)絡(luò)算法相比,ELM具有較好的訓練效率和精度。在訓練前,只需要對網(wǎng)絡(luò)隱層節(jié)點個數(shù)和激勵函數(shù)進行設(shè)置,不需要對網(wǎng)絡(luò)參數(shù)進行設(shè)置。ELM通過求解線性方程組的最小范數(shù)和最小二乘解參數(shù)唯一最優(yōu)解來完成訓練。
綜上所述,ELM算法的訓練過程可歸結(jié)為:
1) 設(shè)定激勵函數(shù)[f]和隱層節(jié)點數(shù)[L];
2) 計算隱層輸出矩陣[H];
3) 計算權(quán)值[ω]。
3 ?基于PCA和ELM的尿沉渣圖像識別算法設(shè)計
本文使用已去除敏感信息的尿沉渣顯微圖像為例,該圖像樣本以細胞大小為依據(jù)分為大細胞和小細胞兩大類。
1) 由PCA原理可知,當經(jīng)過PCA處理的樣本數(shù)據(jù)的主成分貢獻率達到85%~95%時,可以使用處理后的數(shù)據(jù)代替原數(shù)據(jù)進行學習。因此,需要尋找到一個既能減少原數(shù)據(jù)維度又能保存具有代表性成分的主成分數(shù)。通過重復(fù)實驗得到結(jié)果如圖2,圖3所示,大細胞取最佳主成分數(shù)為100,此時主成分貢獻率達到85.2%,小細胞取最佳主成分數(shù)為26,此時主成分貢獻率達到85.0%,符合本文需求。
2) 由ELM原理可知,在使用ELM進行學習之前,需要對它的激勵函數(shù)和隱層節(jié)點數(shù)目進行設(shè)置。本文使用Sigmoid函數(shù)作為激勵函數(shù),為了使ELM的學習成功率達到最大化,需要尋找到最優(yōu)的隱層節(jié)點數(shù)。本文迭代隱層數(shù),然后每個隱層數(shù)訓練10次,計算10次訓練的平均值,以此來尋找識別率最高的隱層數(shù)。
3) 使用PCA降維處理過的數(shù)據(jù)代替原始數(shù)據(jù)進行訓練,迭代隱層節(jié)點數(shù),尋找識別率最高的隱層數(shù)。并與步驟2)的結(jié)果作對比。對于小細胞,在隱層數(shù)目大約為2 000時,檢測成功率達到最大值。對于大細胞,隱層數(shù)目大約為1 500時,檢測成功率達到最大值。
圖4和圖5的數(shù)據(jù)表明,無論是大細胞還是小細胞顯微圖像樣本經(jīng)過PCA處理后再輸入ELM進行訓練,其平均成功率與步驟1)得出的模型相比,隨著隱層數(shù)目增大,經(jīng)過PCA處理樣本訓練出來的模型測試準確率越來越高。其中,經(jīng)過PCA處理的小細胞樣本識別準確率平均比未處理的高出10%。經(jīng)過PCA處理的大細胞樣本識別準確率增加18%。同時,經(jīng)過PCA處理的小細胞樣本只需隱層數(shù)目為2 500即可達到最大識別準確度,比未處理的減少500。經(jīng)過PCA處理的大細胞樣本需要隱層數(shù)目為850,比未處理的減少1 250。
圖6,圖7數(shù)據(jù)表明,使用PCA處理后的樣本數(shù)據(jù)進行訓練得出模型,其訓練時間比步驟1)中的訓練大幅減少。而且隨著隱層數(shù)目的增加,經(jīng)過PCA處理的樣本訓練時間增長較緩,未經(jīng)處理的訓練時間增長較快。
如圖8,圖9數(shù)據(jù)所示,隨著隱層數(shù)目的增加,方差都呈現(xiàn)遞減趨勢。其中,經(jīng)過PCA處理的小細胞和大細胞都比未經(jīng)處理的波動更小。這意味著使用PCA對圖片進行處理可以使檢測準確率更加穩(wěn)定。
4 ?結(jié) ?語
本文通過顯微圖像對尿沉渣有形成分的檢測展開研究。利用降維技術(shù)和神經(jīng)網(wǎng)絡(luò)對圖像樣本進行處理和檢測,使訓練時間大幅減少,訓練效率和測試成功率大幅提升,形成了一套高效的尿沉渣有形成分檢測算法。
本文存在一些尚未解決的問題,這些問題將成為下一步研究的方向。
1) 不同尿沉渣顯微圖像間存在灰度差異,大多數(shù)是由于光線差異導(dǎo)致的。如果能將與訓練無關(guān)的背景去除,將對訓練效果有積極影響。
2) 本文沒有研究對尿沉渣細胞圖像的分割算法。使用高效而準確的分割算法可以準確地提取出每個細胞,突出顯示其關(guān)鍵特征,并去除不必要的特征,大幅提高訓練和測試的準確率。
參考文獻
[1] 劉睿.尿沉渣圖像分割與識別算法研究[D].重慶:重慶大學,2017.
LIU Rui. Study on the image segmentation and recognition algorithm of urine sediment [D]. Chongqing: Chongqing University, 2017.
[2] 周江嫚.基于PCA?ELM的模擬電路故障診斷[J].電子科技,2017,30(5):72?75.
ZHOU Jiangman. Analog circuit fault diagnosis based on PCA?ELM [J]. Electronic technology, 2017, 30(5): 72?75.
[3] 陳紹煒,吳敏華,趙帥.基于PCA和ELM的模擬電路故障診斷[J].計算機工程與應(yīng)用,2015(11):248?251.
CHEN Shaowei, WU Minhua, ZHAO Shuai. Analog circuit fault diagnosis based on PCA and ELM [J]. Computer enginee?ring and applications, 2015(11): 248?251.
[4] 廖建勇.尿沉渣顯微圖像中的管型分割與識別[D].長沙:湖南大學,2009.
LIAO Jianyong. Tube segmentation and identification in microscopic image of urine sediment [D]. Changsha: Hunan University, 2009.
[5] 付華,王馨蕊,王志軍,等.基于PCA和PSO?ELM的煤與瓦斯突出軟測量研究[J].傳感技術(shù)學報,2014(12):1710?1715.
FU Hua, WANG Xinrui, WANG Zhijun, et al. Research on the soft sensor of coal and gas outburst based on PCA and PSO?ELM [J]. Chinese journal of sensors and actuators, 2014(12): 1710?1715.
[6] 裘日輝,劉康玲,譚海龍,等.基于極限學習機的分類算法及在故障識別中的應(yīng)用[J].浙江大學學報(工學版),2016(10):1965?1972.
QIU Rihui, LIU Kangling, TAN Hailong, et al. Classification algorithm based on extreme learning machine and its application in fault recognition [J]. Journal of Zhejiang University (Engineering Edition), 2016(10): 1965?1972.
[7] 于林杰.尿沉渣顯微圖像有形成分分割與特征提取方法研究[D].重慶:重慶大學,2016.
YU Linjie. Study on the segmentation and feature extraction of visible components of urine sediment microscopic images [D]. Chongqing: Chongqing University, 2016.
[8] IOSIFIDIS A, TEFAS A, PITAS I. Approximate kernel extreme learning machine for large scale data classification [J]. Neurocomputing, 2017, 219: 210?220.
[9] AVCI D, LEBLEBICIOGLU M K, POYRAZ M, et al. A new method based on adaptive discrete wavelet entropy energy and neural network classifier (ADWEENN) for recognition of urine cells from microscopic images independent of rotation and sca?ling [J]. Journal of medical systems, 2014, 38(2): 1?9.
[10] LI Y M, ZENG X P. A new strategy for urinary sediment segmentation based on wavelet, morphology and combination method [J]. Computer methods & programs in biomedicine, 2006, 84(2/3): 162?173.
[11] HUANG G B, BAI Z, KASUN L L C, et al. Local receptive fields based extreme learning machine [J]. IEEE computational intelligence magazine, 2015, 10(2): 18?29.
[12] 李偉紅,于林杰,龔衛(wèi)國.基于非參數(shù)變換的尿沉渣細胞圖像識別方法[J].儀器儀表學報,2015,36(12):2722?2730.
LI Weihong, YU Linjie, GONG Weiguo. Urine sediment cell image recognition method based on non?parametric transformation [J]. Chinese journal of scientific instrument, 2015, 36(12): 2722?2730.
[13] CHEN Kai, L? Qi, LU Yao, et al. Robust regularized extreme learning machine for regression using iteratively reweighted least squares [J]. Neurocomputing, 2017, 230: 345?358.