相关资源
-
The full implementation (based on Caffe) and the trained networks are available at U-Net: Convolutional Networks for Biomedical Image Segmentation (uni-freiburg.de)
论文
Abstract
人们普遍认为,深度网络的成功训练需要数千个带注释的(annotated)训练样本。在本文中,我们提出了一种网络和训练策略,该策略依赖于数据增强的强大使用,以更有效地使用可用的注释样本。该体系结构由捕获上下文(capture context)的收缩路径(contracting path)和实现精确定位(precise localization)的对称扩展路径(symmetric expanding path)组成。我们表明,这样的网络可以从很少的图像进行端到端训练,并且在 ISBI 挑战中对电子显微镜堆栈中的神经元结构进行分割方面优于先前的最佳方法(滑动窗口卷积网络,(a sliding-window convolutional network)。使用相同的网络,通过透射光显微镜图像(相位对比和 DIC)训练,我们在 2015 年这些类别的 ISBI 细胞追踪挑战中以较大优势获胜。此外,网络速度很快。在最近的 GPU 上,512x512 图像的分割时间不到一秒钟。
1 Introduction
在过去两年中,deep convolutional networks 在许多视觉识别任务中表现好。卷积网络的典型用途是分类任务(classification tasks),其中图像的输出是单个类标签(single class label)。However, in many visual tasks,
especially in 生物医学图像处理(biomedical image processing), the desired output should include 定位(localization), 即,类标签应该分配给每个像素(i.e., a class label is supposed to be assigned to each pixel.)Ciresan[^1] 等人在滑动窗口(sliding-window)设置中训练网络,通过提供像素周围的局部区域(补丁,patch)作为输入来预测每个像素点类标签。
- First,this network can 本地化(localize)
- Secondly,补丁方面的训练数据(the training data in terms of patches)比训练图像的数量(the number of training images)大得多。
很明显,Ciresan 等人的策略有两个缺点:
- First,非常慢,网络必须为每个补丁单独运行。
- Secondly,在定位精度(localization accuracy)和使用上下文(use of context)中存在权衡。
较大的补丁需要更多的最大池层,这会降低定位精度,而较小的补丁只允许网络看到很少的上下文。最近的方法[^11,4]提出了一种考虑多个层的特征的分类输出。良好的本地化和上下文的使用是可能的。
在本文中,我们构建了一个更优雅的架构,即所谓的(全卷积网络,fully convolutional network),使其适用于很少的训练图像并产生更精确的分割。[^9]中的主要思想是通过连续的层(successive layers)来补充通常的收缩网络(usual contracting network),其中池化算子(pooling operators)被上采样算子(upsampling operators)所取代。因此,这些层增加了输出的分辨率。为了进行定位,来自收缩路径的高分辨率特征与上采样的输出相结合。然后,一个连续的卷积层可以学习根据这些信息组合出更精确的输出。
我们架构中的一个重要修改是,在上采样部分,我们还拥有大量的特征通道,这些通道允许网络将上下文信息传播到更高分辨率的层。因此,扩展路径或多或少与收缩路径对称,并产生U形架构。网络没有任何完全连接的层,只使用每个卷积的有效部分,即分割图只包含像素,输入图像中提供了完整的上下文。
该策略允许通过重叠平铺策略对任意大的图像进行无缝分割(见图2)。为了预测图像边框区域中的像素,通过镜像输入图像来推断缺失的上下文。这种平铺策略对于将网络应用于大型图像非常重要,因为否则分辨率将受到 GPU 内存的限制。
数据增强对学习不变性的价值(The value of data augmentation for learning invariance)已经在 Dosovitskiy 等人[^2]中在无监督特征学习的范围内得到了证明。
所得到的网络适用于各种生物医学分割问题。
2 Network Architecture
The network architecture is illustrated in Figure 1. It consists of a 收缩路径(contracting path) (left side) and an 扩张路径(expansive path) (right side).
Unet 网络结构是对称的,形似英文字母 U 所以被称为 Unet。整张图都是由蓝/白色框与各种颜色的箭头组成,其中,
- 蓝/白色框表示 feature map;
- 蓝色箭头表示 3x3 卷积,用于特征提取;
- 灰色箭头表示 skip-connection,用于特征融合;
- 红色箭头表示池化 pooling,用于降低维度;
- 绿色箭头表示上采样 upsample,用于恢复维度;
- 青色箭头表示 1x1 卷积,用于输出结果
- 其中灰色箭头
copy and crop
中的copy
就是concatenate
而crop
是为了让两者的长宽一致
3 Training
输入的图像及其相应的分割映射被用来训练网络,随机梯度下降实现了 Caffe [^6]。由于未填充卷积,输出图像比输入图像小,边界宽度不变。为了尽量减少开销和最大限度地利用 GPU 内存,我们倾向于大批量的大输入平铺,从而减少批量为一个单一的图像。因此,我们使用一个高动量(0.99) ,使大量的先前看到的训练样本决定了在当前优化步骤的更新。
3.1 Data Augmentation
在只有少数训练样本可用的情况下,数据增强对于教给网络所需的不变性和鲁棒性是至关重要的。在显微镜图像的情况下,我们主要需要移位和旋转不变性,以及对变形和灰度值变化的稳健性。特别是训练样本的随机弹性变形似乎是用很少的注释图像来训练分割网络的关键概念。我们在一个粗略的3乘3的网格上使用随机位移向量产生平滑的变形。位移是从具有10个像素标准偏差的高斯分布中采样的。然后使用双三次插值计算每个像素的位移。在收缩路径的末尾,剔除层进一步进行隐式数据增强。
4 Experiments
我们演示了u-net在三个不同的分割任务中的应用。第一项任务是在电子显微镜记录中分割神经元结构。图2显示了数据集和我们获得的分割的示例。我们提供完整的结果作为补充材料。该数据集由EM细分挑战[^14]提供,该挑战始于ISBI 2012,目前仍在等待新的贡献。训练数据是一组来自果蝇一龄幼虫腹侧神经索(VNC)的连续切片透射电子显微镜的30幅图像(512x512像素)。每幅图像都带有相应的完全注释的细胞(白色)和膜(黑色)的地面真相分割图。测试集是公开的,但其分割图是保密的。可以通过向组织者发送预测的膜概率图来获得评估。
评估是通过在10个不同级别的地图上进行阈值处理,并计算出warping误差、Rand误差和pixel误差[^14]。
该数据集上的算法高度使用数据集特有的后处理方法1,应用于Ciresan等人的概率图[1]。 我们还将u-net应用于光显微图像中的细胞分割任务。该分段任务是2014年和2015年ISBI细胞追踪挑战的一部分[10,13]。第一个数据集“PhC-U373”2包含通过相位对比显微镜记录的在聚酰亚胺衬底上的胶质母细胞瘤-星形细胞瘤U373细胞(见图4a、b和补充材料)。它包含35幅部分注释的训练图像。这里我们获得了92%的平均IOU(“交叉于联合”),这明显优于83%的第二最佳算法(见表2)。第二个数据集“DIC HeLa”3是通过周向干涉对比(DIC)显微镜记录的at玻璃上的HeLa细胞(见图3、图4c、d和补充材料)。它包含20个部分注释的训练图像。这里,我们获得了77.5%的平均IOU,这明显优于第二个最佳算法(46%)。
5 Conclusion
u-net架构在非常不同的生物医学分割应用上实现了非常好的性能。得益于弹性变形的数据增强,它只需要很少的注释图像,并且在NVidia Titan GPU(6 GB)上只需要10小时的非常合理的训练时间。我们提供基于Caffe[^6]的完整实施方案和训练有素的网络4。我们确信u-net架构可以很容易地应用于更多的任务。