徐珂 陳智勇
摘 要:文章設計了基于卷積神經網絡的腹腔鏡下軟組織器官表面的無監(jiān)督學習深度估計網絡,并根據(jù)視差圖像進行三維重建。實驗結果表明,提出的深度估計網絡所計算產生的視差圖像為稠密有效的,根據(jù)視差圖像進行三維重建結果較好,視差圖像的SSIM的量化值為0.7626±0.0476,PSNR的量化值為16.0916±3.3080。
關鍵詞:卷積神經網絡;無監(jiān)督學習;深度估計;三維重建
中圖分類號:TP391 文獻標志碼:A 文章編號:2095-2945(2018)22-0016-03
Abstract: In this paper, an unsupervised learning depth estimation network based on convolutional neural network (CNN) for soft tissue surface under laparoscope is designed, and 3D reconstruction is carried out according to parallax image. The experimental results show that the disparity images calculated by the proposed depth estimation network are dense and effective, and the results of 3D reconstruction based on the disparity images are better. The quantization value of SSIM of disparity images is 0.7626±0.0476, and the quantized value of parallax images is 16.0916±3.3080.
Keywords: convolutional neural network (CNN); unsupervised learning; depth estimation; 3D reconstruction
1 概述
腹部微創(chuàng)手術相對于傳統(tǒng)開腹手術具有出血少,創(chuàng)傷小等特點。2D腹腔鏡不具有深度信息,而雙目立體匹配方法可將產生含深度信息的3D圖像。因而雙目立體匹配深度估計成為微創(chuàng)手術的重要研究方向。三維重建是以深度估計為基礎,腹腔鏡下組織器官表面的三維重建方法可分為兩大類:傳統(tǒng)立體匹配方法和基于神經網絡的立體匹配方法。
傳統(tǒng)立體匹配方法。馬波濤[1]使用灰度差和統(tǒng)計變換的方法計算左右圖像所對應的區(qū)域;高艷艷[2]使用Harris、SIFT、SURF對離體軟組織器官進行基于特征的立體匹配等。這類方法下的三維重建的計算時間上較長,且匹配計算得到的深度圖準確度不高。
基于神經網絡的立體匹配方法。羅等人[4]在通過計算左右兩幅圖像中匹配塊的相似性來進行三維重建;Antal[3]將左右肝臟體膜的像素點的按照通道上的強度值組成3維坐標作為輸入,通過監(jiān)督學習的神經網絡的方法計算視差圖像;周等人[5]等人采用無監(jiān)督卷積神經網絡方法聯(lián)合訓練了一個單目視差深度估計網絡;Garg等人[6]使用Alexnet網絡結構來估計視差圖像。由于腹腔鏡下腹部組織器官的金標準難以獲取,所以,無監(jiān)督學習更適合于腹腔鏡下雙目三維重建。
2 雙目深度估計方法
我們首先使用無標簽的已經校準的腹腔鏡下雙目立體圖像數(shù)據(jù)訓練了一個基于無監(jiān)督學習的雙目稠密深度估計網絡,輸入數(shù)據(jù)到我們已經訓練好的模型上,產生視差圖像,根據(jù)視差圖像進行三維重建。
2.1 無監(jiān)督雙目深度估計網絡
我們使用自編碼網絡來實現(xiàn)我們的模型。自編碼網絡包含兩部分:編碼器網絡和解碼器網絡。我們借鑒了Disp-Net網絡[7]和V-Net網絡[8]方法,在解碼器網絡中,我們設計了14層卷積層,前4層卷積層的卷積核大小為7、7、5、5,剩下層的卷積核大小全為3,并采用了多尺度[9][10]網絡結構;在編碼器網絡中,我們使用了7層反卷積、7層卷積級聯(lián)層和視差產生層,并將后四層反卷積網絡中計算產生的預測的視差圖進行上采樣和級聯(lián)拼接,并將跳躍連接層引入到解碼器網絡中。雙目深度估計網絡如圖1所示。
2.2 雙目深度估計損失函數(shù)
2.3 實驗細節(jié)
實驗數(shù)據(jù)來自Hamlyn中心的腹腔鏡視頻數(shù)據(jù)集[12]。我們在Nvidia Tesla P100 GPU(16GB)服務器上使用TensorFlow框架實現(xiàn)了我們的無監(jiān)督雙目深度估計網絡。我們在網絡中使用了Relu激活函數(shù)和Adam隨機優(yōu)化器,epoch為50,初始學習率設置為10-4,批大小為16,總計訓練時間約6小時,訓練圖像的分辨率為256×128。
3 實驗結果
我們將實驗結果和已公開的結果進行了比較,如圖3所示。
因數(shù)據(jù)集沒有金標準數(shù)據(jù),因此,我們將此數(shù)據(jù)集上最佳結果Siamese[12]作為金標準,并使用結構相似性(SSIM)和峰值信噪比(PSNR)來評估結果。如表2所示,我們統(tǒng)計了測試集中7191張圖像的不同方法的評估結果。
我們根據(jù)左圖像和左圖像所對應的視差圖進行三維重建。三維重建結果如圖3所示。
4 結束語
如圖3和表2所示,可以看到我們的方法比basic方法好,通過深度估計網絡計算產生的視差圖是稠密有效的。從圖3(c)上,我們的方法稠密的重建出腹部組織器官表面的手術場景圖。在本文中,我們設計了基于卷積神經網絡的端到端無監(jiān)督深度估計網絡并應用于腹部組織器官的深度估計中,計算產生了稠密的視差圖像,三維重建結果較好。在今后的研究中,我們將嘗試融合[13]不同場景下的深度估計網絡,使用融合后的網絡估計腹腔鏡下組織器官表面的視差圖像,以產生更為魯棒的深度估計網絡和更為準確的視差圖像。
參考文獻:
[1]馬波濤.基于雙目立體視覺的心臟軟組織三維重構技術研究[D].電子科技大學,2017.
[2]高艷艷.雙目內窺鏡三維重建方法的研究[D].天津工業(yè)大學,2017.
[3]Antal B. Automatic 3D point set reconstruction from stereo endoscopic images using deep neural networks[C]. Proceedings of the 6th International Joint Conference on Pervasive and Embedded Computing and Communication Systems, 2016:116-121.
[4]Luo W J, Chwing A G S. Efficient Deep Learning for Stereo Matching[C]. In: IEEE Conference on computer Vision and Pattern Recongnition, 2016:5695-5713.
[5]Zhou T H, Brown M, Snavely N, et al. Unsupervised Learning of Depth and Ego-Motion from Video[C]. In CVPR, arXiv preprint arXiv:1704.07813,2017.
[6]Garg R, Carneiro G, Reid I, et al. Unsupervised CNN for single view depth estimation: geometry to the rescue[C]. In CVPR, 2016:740-756.
[7]Mayer N, Ilg E, Hausser P, et al. A large dataset to train convolution networks for disparity, optical flow, and scene flow estimation[C].In CVPR, 2016:4040-4048.
[8]Milletari F, Navab N, Ahmadi SA. V-Net: Fully convolutional neural networks for volumetric medical image segmentation. arXiv preprint arXiv:1704.07813,2017.
[9]Eigen D, Puhrsch C and Fergus R. Depth map prediction from a single image using a multi-scale deep network[C]. The 28th Conference on Neural Information Processing Systems, 2014:2366-2374.
[10]Godard C, Aodha O M, Brostow G J. Unsupervised monocular depth estimation with left-right consistency[C]. In CVPR, 2017:6602-6611.
[11]Jaderberg M, Simonyan K, Zisserman A, et al. Spatial transformer networks[C]. Neural Information Processing Systems Conference. 2015.
[12]Ye M, Johns E, Handa A, et al. Self-supervised Siamese learning on stereo image pairs for depth estimation in robotic surgery[C]. Hamlyn Symposium on Medical Robotics, 2017:1-2.
[13]Dai W, Yang Q, Xue G R, Yu Y. Boosting for transfer learning[J]. International Conference on Machine Learning, 2007,238(6):193-200.