雷成等
摘 要:深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)新興的研究方向,吸引了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。該文從深度學(xué)習(xí)的歷史淵源談起,描述了幾種主要的深度學(xué)習(xí)架構(gòu),介紹了深度學(xué)習(xí)在腫瘤分類中的一些應(yīng)用,提出了目前腫瘤分類研究存在的問題。
關(guān)鍵詞:深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);腫瘤;分類
中圖分類號(hào):TP18;TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2163(2014)06-
Abstract: Deep learning is an emerging field of machine learning research, which attracts wide attention in industry and academia. This paper talks about the history of deep learning, describes several major deep learning architectures, and introduces some applications of deep learning in tumor classification. At last, the existing problems of tumor classification are suggested.
Keywords: Deep Learning; Neural Network; Tumor; Classification
0 引 言
深度學(xué)習(xí)是近幾年來在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的重要研究進(jìn)展之一。2012年6月,《紐約時(shí)報(bào)》報(bào)道了Google Brain項(xiàng)目,該項(xiàng)目是Google公司的一個(gè)深度學(xué)習(xí)研究課題,用16 000臺(tái)的計(jì)算機(jī)集群,訓(xùn)練一種“深度學(xué)習(xí)”的神經(jīng)網(wǎng)絡(luò)模型,旨在模仿人類大腦活動(dòng)的某些方面,而且從YouTube視頻的一千萬張數(shù)字圖像中展開演化訓(xùn)練,訓(xùn)練結(jié)果是成功地學(xué)會(huì)了如何識(shí)別貓。隨后,百度在2013年1月成立了首個(gè)深度學(xué)習(xí)研究院。深度學(xué)習(xí)不但獲得了包括微軟、Google、百度等各大著名高科技公司在內(nèi)的普遍青睞,同時(shí)也受到了學(xué)術(shù)界的廣泛重視,并且目前在語音與圖像識(shí)別和自然語言處理等領(lǐng)域的研究進(jìn)程中取得了日益顯著的突破以及重大科研成果[1]。
在我國,腫瘤發(fā)病率和死亡率正在呈現(xiàn)逐年上升的發(fā)展趨勢(shì)。腫瘤的病因復(fù)雜,如何對(duì)腫瘤病例實(shí)現(xiàn)前瞻性的準(zhǔn)確診斷分類,并使病人得到個(gè)性化治療,即成為目前醫(yī)學(xué)界關(guān)注的重要問題[2]。1999年,Golub等人[3]在《Science》雜志上發(fā)表了關(guān)于采用基因芯片和機(jī)器學(xué)習(xí)技術(shù)研究腫瘤分類問題的文章之后,該方向就已逐漸成為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一迄至目前,也已涌現(xiàn)了許多富有實(shí)效的技術(shù)與方法[4]。
本文從深度學(xué)習(xí)的歷史淵源談起,主要介紹了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、深度信念網(wǎng)絡(luò)(Deep Delief Network, DBN)和堆棧自編碼網(wǎng)絡(luò)(Stacked Auto-encoder Network,SAN)等幾種主要的深度學(xué)習(xí)架構(gòu),對(duì)深度學(xué)習(xí)在目前腫瘤分類中的現(xiàn)時(shí)應(yīng)用進(jìn)行了介紹,最后,則提出了目前腫瘤分類研究方面需要解決的主要問題。
1 深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)的概念起源于人工神經(jīng)網(wǎng)絡(luò)的研究。1943年,McCulloch和Pitts首度提出神經(jīng)元的數(shù)學(xué)模型。稍后于1958年Rosenblatt又提出了感知機(jī)(perceptron)的概念,標(biāo)志著第一代神經(jīng)網(wǎng)絡(luò)的誕生。感知機(jī)僅由一個(gè)輸入層,一個(gè)輸出層和一個(gè)中間層組成。其中間層的設(shè)計(jì)是通過調(diào)整所有特征的向量權(quán)重,實(shí)現(xiàn)目標(biāo)識(shí)別。感知機(jī)也可別稱為單層的人工神經(jīng)網(wǎng)絡(luò),其本質(zhì)不足即在于不能處理簡(jiǎn)單的異或(XOR)等線性不可分問題。
實(shí)際上,將單層感知機(jī)堆疊成多層的構(gòu)想是可以求解線性不可分問題的,只是當(dāng)時(shí)缺乏有效的算法。1986年Hinton等人[5]設(shè)計(jì)了反向傳播算法(BackproPagation, BP),推出了第二代的神經(jīng)網(wǎng)絡(luò),由此而引發(fā)了人工神經(jīng)網(wǎng)絡(luò)的研究熱潮。與第一代相比,第二代神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)更復(fù)雜的功能,通過計(jì)算在輸出層中的誤差信號(hào),并將其與訓(xùn)練輸入對(duì)應(yīng)的目標(biāo)輸出求取差值,再以此更新權(quán)重向量,直到收斂為止。
雖然如此,BP算法在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)卻很容易陷入局部最優(yōu),而且當(dāng)訓(xùn)練多個(gè)隱藏層時(shí)將耗時(shí)過長,也容易出現(xiàn)過擬合等問題,最重要的是其無法訓(xùn)練未標(biāo)記數(shù)據(jù),而實(shí)際情形下的許多場(chǎng)合大多數(shù)據(jù)卻都是未標(biāo)記的。基于此,1995年,Vapnik創(chuàng)新性地提出了支持向量機(jī)(Support Vector Machines, SVM)。作為一種特殊的兩層神經(jīng)網(wǎng)絡(luò),SVM具有快速高效的學(xué)習(xí)算法,同時(shí)又避免了神經(jīng)網(wǎng)絡(luò)局部最優(yōu)的問題,因而在解決高維、非線性和小樣本的模式識(shí)別中發(fā)揮了獨(dú)有的作用優(yōu)勢(shì),進(jìn)而吸引了機(jī)器學(xué)習(xí)領(lǐng)域眾多研究人員的熱切關(guān)注。
直到2006年,Hinton等人[6]在著名的《科學(xué)》雜志發(fā)表了一篇題為《Reducing the Dimensionality of Data with Neural Networks》的論文,并且提出了深度網(wǎng)絡(luò)(deep network)和深度學(xué)習(xí)(deep learning),而沒有沿用之前的“多層神經(jīng)網(wǎng)絡(luò)”這一術(shù)語,其目的是為了表示這是一個(gè)新的概念,用以與之前的神經(jīng)網(wǎng)絡(luò)做出區(qū)分。實(shí)際上,深度學(xué)習(xí)仍舊采用了常規(guī)神經(jīng)網(wǎng)絡(luò)的分層結(jié)構(gòu),兩者根本的不同在于深度學(xué)習(xí)采用了與神經(jīng)網(wǎng)絡(luò)不同的訓(xùn)練機(jī)制,能夠訓(xùn)練更多的運(yùn)行層。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)采用的是反向傳播機(jī)制,隨著層數(shù)的增加,會(huì)出現(xiàn)“梯度擴(kuò)散”現(xiàn)象,而深度學(xué)習(xí)則通過“逐層初始化”的機(jī)制使這一問題在整體上獲得了有效解決。
2 深度學(xué)習(xí)的主要架構(gòu)
典型的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)模型CNN[7]、深度信念網(wǎng)絡(luò)模型DBN[8]和堆棧自編碼網(wǎng)絡(luò)模型SAN[9]等,下面對(duì)這些模型進(jìn)行簡(jiǎn)要描述。
2.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),其中融合了三種結(jié)構(gòu)性思想,來實(shí)現(xiàn)一定程度的位移和形變恒穩(wěn)性:局部感受野、權(quán)值共享、時(shí)間或空間的子采樣。每個(gè)神經(jīng)元與前一層的局部感受野相連,并提取該局部的特征。同時(shí),處于同一平面的神經(jīng)元將共享權(quán)值,因而減少了權(quán)值的數(shù)量,并降低了網(wǎng)絡(luò)模型的復(fù)雜度。時(shí)間或空間的子采樣可以減少前一層的特征維度,形成一套新的特征集。
2.2深度信念網(wǎng)絡(luò)
深度信念網(wǎng)絡(luò)由多個(gè)受限玻爾茲曼機(jī)(restricted Boltzmann machines, RBM)連接組合在一起。受限玻爾茲曼機(jī)的拓?fù)浣Y(jié)構(gòu)去除了可見層和可見層與隱藏層以及隱藏層之間的聯(lián)系,并且只在可見層節(jié)點(diǎn)與隱藏層節(jié)點(diǎn)之間才有連接權(quán),這就顯著提高了網(wǎng)絡(luò)模型訓(xùn)練與學(xué)習(xí)的效率,如圖1所示。
3 深度學(xué)習(xí)在腫瘤分類中的應(yīng)用
與正常細(xì)胞相比,腫瘤細(xì)胞中許多mRNA都有表達(dá)差異。鑒于基因芯片可一次性獲得包含成千上萬個(gè)基因的表達(dá)值,因而已廣泛用于腫瘤分類研究中。但是卻因資源的限制,而且基因芯片的成本也較高,這就使得每個(gè)腫瘤數(shù)據(jù)集的樣本量將明顯較小,其樣本數(shù)量大大低于基因數(shù)量。目前大多數(shù)方法均著重于通過特征選擇,以減少基因表達(dá)譜的基因維度[10]。只是特征選擇的潛在問題卻是其可擴(kuò)展性和通用性,即選擇的基因是否可以擴(kuò)展應(yīng)用于新的分類任務(wù)和數(shù)據(jù)集。再有,基于每個(gè)腫瘤數(shù)據(jù)集均較小,每種特征選擇算法只在各自的腫瘤數(shù)據(jù)集執(zhí)行和操作,這就限制了每個(gè)腫瘤數(shù)據(jù)集在其他腫瘤數(shù)據(jù)集的應(yīng)用,例如,前列腺癌的數(shù)據(jù)不能在乳腺癌檢測(cè)是使用。針對(duì)此一狀況,深度學(xué)習(xí)技術(shù)因其可以實(shí)現(xiàn)特征的無監(jiān)督學(xué)習(xí),即圓滿解決了這一問題。具體地,F(xiàn)akoor等人[11]提出了一種結(jié)合無監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)的方法。該方法包括特征學(xué)習(xí)和分類器學(xué)習(xí)兩個(gè)階段。方法利用主成分分析降低特征空間的維數(shù),并應(yīng)用主成分分析的結(jié)果作為壓縮特征表示,而且加上一些隨機(jī)選擇的原始特征,同時(shí)又采用了稀疏自編碼器作為無監(jiān)督特征學(xué)習(xí)的框架。該方法在13個(gè)腫瘤數(shù)據(jù)集中展開測(cè)試,由此則發(fā)現(xiàn)在大多數(shù)據(jù)集中,該方法的效果均要優(yōu)于不使用無監(jiān)督稀疏特征的基準(zhǔn)分類器。
還有,Koziol等人[12]將受限玻爾茲曼機(jī)用于肝細(xì)胞癌的分類,應(yīng)用腫瘤相關(guān)抗原微陣列檢測(cè)175例肺癌患者和90名正常人群血清中的12種TAAs的抗體水平,再采用受限玻爾茲曼機(jī)和邏輯回歸(logistic regression)分別建立分類模型,從而發(fā)現(xiàn)相比邏輯回歸分類器,受限玻爾茲曼機(jī)可以獲得更高的靈敏度,但在特異度方面卻要略有遜色。在此,給出采用歸一化數(shù)據(jù)的測(cè)試結(jié)果,受限玻爾茲曼機(jī)10折交叉驗(yàn)證的靈敏度達(dá)到94.9%,遠(yuǎn)高于邏輯回歸分類器的90.3%。
另外,Tomczak[13]將ClassRBM 和sparseClassRBM兩種受限玻爾茲曼機(jī)模型用于5個(gè)醫(yī)學(xué)數(shù)據(jù)集的分類,包括心臟病、糖尿病、肝病、甲狀腺癌和乳腺癌復(fù)發(fā)等,而且Tomczak[14]還又一次將改進(jìn)的ClassRBM用于預(yù)測(cè)乳腺癌的復(fù)發(fā)研究中。
4 結(jié)束語
近幾十年來,隨著分子生物學(xué)技術(shù)的迅猛進(jìn)展,將腫瘤研究帶入了一個(gè)新的發(fā)展階段。腫瘤分類研究也由傳統(tǒng)形態(tài)學(xué)的探討深入到分子或基因水平,并在科研和臨床實(shí)踐中獲得了一定的應(yīng)用,但仍然面臨許多挑戰(zhàn)。針對(duì)腫瘤分類問題的研究必須和臨床需求密切結(jié)合,許多研究者在開發(fā)腫瘤分類算法時(shí),僅僅考量了算法的準(zhǔn)確度,卻對(duì)結(jié)果的生物學(xué)意義很少深入探究,而且對(duì)臨床實(shí)際應(yīng)用也未曾付諸關(guān)注,導(dǎo)致研究成果得不到醫(yī)學(xué)專家和臨床醫(yī)生的認(rèn)可,最終影響了腫瘤分類算法在實(shí)際臨床診斷上的應(yīng)用。另外, 在開發(fā)腫瘤分類算法時(shí),如果不了解實(shí)驗(yàn)數(shù)據(jù)的來源,只從數(shù)據(jù)本身出發(fā),就有可能遺漏很多的重要信息,這也在客觀情勢(shì)下要求研究者能夠熟悉腫瘤學(xué)領(lǐng)域的專業(yè)知識(shí),用來幫助腫瘤分類算法的設(shè)計(jì)。
隨著近年來高通量技術(shù)和實(shí)驗(yàn)手段的陸續(xù)面世,腫瘤數(shù)據(jù)積累成倍增加,所需要處理的數(shù)據(jù)量正越來越大,此時(shí)就要將大量的數(shù)據(jù)轉(zhuǎn)化為對(duì)人們有用的信息,因此就迫切需要以深度學(xué)習(xí)為代表的新一代機(jī)器學(xué)習(xí)技術(shù)來將這一需求任務(wù)圓滿實(shí)現(xiàn)。目前在腫瘤領(lǐng)域針對(duì)深度學(xué)習(xí)的研究和應(yīng)用僅只是起步階段,仍有廣闊的研究探索空間亟待開發(fā)。
參考文獻(xiàn):
[1]余凱, 賈磊, 陳雨強(qiáng), 等. 深度學(xué)習(xí)的昨天、今天和明天[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(9):1799-1804.
[2]HAMBURG M A, COLLINS F S. The path to personalized medicine[J]. New England Journal of Medicine, 2010, 363(4):301-304.
[3] GOLUB T R, SLONIM D K, TAMAYO P, et al. Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286(5439):531-537.
[4]GUYON I, WESTON J, BARNHILL S, et al. Gene selection for cancer classification using support vector machines[J]. Machine Learning, 2002, 46(1-3):389-422.
[5]RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(9):533-536.
[6]HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with Neural Networks[J]. Science, 2006, 313(5786):504-507.
[7]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[C]//Proceedings of the IEEE, 1998, 86(11):2278-2324.
[8] BENGIO Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2(1):1-127.
[9]PASCAL V, HUGO L, ISABELLE L, et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research, 2010, 11:3371-3408.
[10] SAEYS Y, INZA I, LARRANAGA P. A review of feature selection techniques in bioinformatics[J]. Bioinformatics, 2007, 23(19):2507-2517.
[11] FAKOOR R, LADHAK F, NAZI A, et al. Using deep learning to enhance cancer diagnosis and classification[C]//Proceedings of the 30 th International Conference on Machine Learning, 2013; Atlanta, Georgia, USA, 2013.
[12] KOZIOL J A, TAN E M, DAI Liping, et al. Restricted Boltzmann machines for classification of Hepatocellular Carcinoma[J]. Computational Biology Journal, 2014,2014.
[13] TOMCZAK J M. Application of classification restricted Boltzmann Machine to medical domains[J]. World Applied Sciences Journal, 2014, 31(Applied Research in Science, Engineering and Management):69-75.
[14]TOMCZAK J M. Prediction of breast cancer recurrence using Classification Restricted Boltzmann Machine with Dropping. arXiv preprint arXiv:1308.6324, 2013.