赞
踩
本周主要学习图像描述,即为图片生成描述语言,输入某一张图片,输出的是一些客观描述图片内容的句子,他可以理解为一种特殊的机器翻译。模型需要有复杂的场景理解能力。但是这种是非常有挑战的,图片是捕捉的真实世界的原始刻画,而自然语言是代表更高一级的抽象。运行一个U-NET模型训练。阅读一篇U-Net论文,用于生物医学影像分割的卷积网络。毕设方面,学弟已经掌握区块链网络的搭建,并且开始搭建前端网页。
普遍认为深度网络的成功训练需要数千个标记好的训练样本。在本文中,我们提出了一种网络和训练策略,依靠高效的数据增强,以更有效地利用现有的标记样本。该结构由捕获上下文的收缩路径和对称的支持精确定位的展开路径组成。我们证明这样的网络可以从很少的图像中进行端到端的训练,并在ISBI电镜神经元结构分割挑战中优于之前最好的方法(滑动窗口卷积网络)。用该网络在透射光镜图像(相衬和DIC)上进行训练,我们在ISBI2015细胞追踪挑战赛中以巨大优势胜出。此外,网络性能也很高。在最新的GPU上,512x512图像的分割所需时间不到一秒
所以该文为了解决医学图像分割问题;提出了一种数据增强方法来有效利用标注数据;提出了一种U型的网络结构可以同时获取上下文信息和位置信息。
在过去的两年里,深度卷积网络在许多视觉识别任务中表现都优于SOTA,例如[7,3]。虽然卷积网络[8]已经存在很长时间了,但是考虑可用训练集的大小和网络的大小,其成功程度依然有限。Krizhevsky等人[7]的突破在于对拥有100万张训练图像的ImageNet数据集进行8层数百万个参数的大型网络的有监督训练。从那时起,出现了更多更大更深的网络[12]。
卷积网络的典型应用是在分类任务上,其中图像的输出是一个类标签。然而,在许多视觉任务中,特别是在生物医学影像处理中,期望输出应包括定位,也就是说,应该给每个像素指定一个类标签。此外,在生物医学任务中,通常也难以得到数以千计的训练图像。因此,Ciresan等人[1]在滑动窗口中训练网络,通过以像素周围的局部区域(patch)作为输入,来预测每个像素的类标签。首先,这个网络可以本地化。其次,在patch方面的训练数据远多于训练图像的数量。该网络在ISBI 2012上以巨大的优势赢得了EM分割挑战。
不过,显然Ciresan等人的[1]策略有两个缺点。首先,它的速度非常慢,因为每个patch都必须单独运行网络,而由于patch有重叠,存在大量的冗余现象。其次,在定位精度和上下文使用之间需要权衡。较大的patch需要更多的max-pooling层,导致定位精度降低;而较小的patch只允许网络看到少量上下文。最近的方法[11,4]提出了一种利用多层特征的分类器输出,可以同时做到良好的本地化与上下文使用。
在本文中,我们构建了一种更优雅的结构,即所谓的“全卷积网络”[9]。我们修改并扩展了这个结构,使其能在少量训练图像下工作,并产生更精确的分割,见图1;[9]中的主要思想是在连续的层中补充一般的收缩网络,在该层中,池化运算符被上采样运算符代替。因此,这些层提高了输出的分辨率。将收缩路径的高分辨率特征与上采样输出相结合,实现了本
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。