文献阅读-基于深度学习的医疗图像分割综述

扎眼的阳光

2 年前

doi : 10.3969/j.issn.1003-3114.2021.02.001
引用格式:孔令军,王茜雯,包云超,等.基于深度学习的医疗图像分割综述[J].无线电通信技术,2021,47(2):121-130.

本文选自

文献阅读-基于深度学习的医疗图像分割综述

摘要：自２００６年深度学习这一概念提出以来，各研究领域对于深度学习技术的研究热度一直高居不下。深度学习的出现，对计算机视觉领域的发展起到了重要推动作用。计算机视觉的主要研究任务是对图像、视频等进行目标的检测、识别以及分割等，目前已经广泛应用于医疗、金融和工业领域中。其中最常见的应用场景是医学图像处理。图像分割是医学图像处理任务中一个重要的研究方向，目前已经出现了很多图像分割方法，其中包含传统的分割方法和基于深度学习模型的分割方法。首先介绍了阈值分割法、区域生长法以及图割法等传统的图像分割方法；其次总结了ＦＣＮ、Ｕ－Ｎｅｔ、Ｕ－Ｎｅｔ＋＋、ＳｅｇＮｅｔ以及ＤｅｅｐＬａｂ系列的网络架构，并对其优缺点进行了分析；同时，着重阐述了图像分割方法在医疗图像处理中的应用；最后讨论了未来基于深度学习的医学图像分析将要面临的挑战和发展机遇。

关键词：人工智能；深度学习；医疗图像；图像分割

以下仅标注学习中遇到的重要内容。

Table of Contents

0.引言

深度学习与传统机器学习的对比，凸显优点，本文主要描述基于深度学习的医疗图像分割。

深度学习有别于其他编程算法的主要特点是通过神经网络对输入数据进行特征提取，而不需要过多的人为参与。传统的机器学习系统通常要通过专业人员对输入数据进行人工特征提取，将原始的输入数据转化为系统能够识别的形式，而深度学习减弱了对人工提取特征的要求，原始数据在通过神经网络之后，可以自主学习到有用的信息，使得系统可以得到最优的输出。

由深度学习引出研究方向：图像分割，并明确图像分割在医疗影像处理中的应用和目的。着重找出感兴趣区域（Region of Interest）

图像分割可以提取出影像图像中的特定组织或结构，给医生提供特殊组织的定量信息。图像经过分割，可以应用于各种场合，例如定位病变组织、实现精准注射以及组织结构清晰化呈现等。
在医生做诊断时，只需要对医学影像中的部分组织或结构进行分析，这部分图像被称为感兴趣区域（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ，ＲＯＩ），这些ＲＯＩ通常对应于不同的器官、病理或者是其他的某些生物学结构。医疗图像分割的目的即为分割出影像图片中的ＲＯＩ，除去无用信息。

1.传统图像分割方法

首先举例三种传统的图像分割方法，通过原理-应用场景-优缺点这种模式写的比较清楚。

阈值分割法

阈值分割法是传统图像分割方法中最基本的图像分割法，因其计算复杂度小，易于实现，且分割结果直观而成为图像分割方法中最为广泛应用的分割法，图像二值化分割公式如式（１）所示。阈值分割法中，如何选择最佳阈值是该技术的核心所在。

阈值分割法没有很好地利用好像素的空间信息，使得分割结果容易受到图片内噪点的影响，因此只适用于目标的类内方差较小的图像处理，比如指纹。

区域生长法

区域生长法是利用图像灰度值的相似性，将相似像素或者相似子区域集合起来形成更大区域。区域生长法中较为著名的是分水岭算法。

区域分割法实现简单，可以保证分割后的图像在空间上的连续性，适用于分割连续的均匀小目标。其缺点是需要人为参与来选择每个区域合适的种子点，且该算法对噪声敏感，不适用于大区域的分割，可能导致过分割或者欠分割。

图割法

图割法是一种基于图论的图像分割方法，通过建立一种概率无向图模型来实现图像分割。这种概率无向图模型又被称马尔可夫随机场。

图割方法鲁棒性高，分割较为复杂的图像也能得到很好的效果，但其具有较高的时间复杂度和空间复杂度，通常与其他传统分割方法搭配使用。

2.基于深度学习的医疗图像分割算法

基于深度学习的医疗图像分割法主要有基于全卷积网络（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ，ＦＣＮ）的图像分割方法、基于Ｕ－Ｎｅｔ网络的图像分割方法以及基于Ｕ－Ｎｅｔ＋＋网络的图像分割等方法。

FCN

ＦＣＮ主要思想是搭建一个只包含卷积操作的网络，输入任意尺寸的图像，经过有效推理和学习可以得到相同尺寸的输出。 ＦＣＮ的网络结构是一种编码—解码的网络结构模式，将经典卷积神经网络（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＣＮＮ）中的全连接层替换为卷积层，从而使整个网络主要由卷积层和池化层组成，因此称为ＦＣＮ。

如图１所示。网络结构中， 编码器部分主要作用是提取图像中的高维特征，图像经过卷积层和池化层后空间维度降低，而解码器部分则对该输出特征图进行上采样，将该特征图恢复到与输入图像相同的尺寸，同时将提取到的高维特征映射到最终特征图的每个像素，从而可以实现像素级别的图像分割。

优缺点：相对于经典的ＣＮＮ网络，ＦＣＮ的优点是对输入网络的图像尺寸没有限制，但其缺点也是不可忽视的，ＦＣＮ采用的逐像素进行分类忽视了各个像素之间的联系，没有考虑全局上下文信息，且上采样部分是进行了一次上采样操作，直接将特征图进行８倍、１６倍、３２倍扩大会忽视图像中的细节信息，使结果较为模糊。

U-Net

Ｕ－Ｎｅｔ网络是在ＦＣＮ基础上做了改进的版本，其网络结构与ＦＣＮ的结构相似，没有全连接层，由卷积层和池化层构成，同样是分为编码器阶段和解码器阶段。

Ｕ－Ｎｅｔ结构如图２所示，网络结构主要包括下采样部分、上采样部分以及跳跃连接部分，上采样和下采样部分对称，网络整体形成Ｕ型结构。下采样部分主要作用为提取图像中的简单特征，而上采样部分经过了更多的卷积层，感受野更大，提取到的特征是更为抽象的特征，跳跃连接融合了下采样结构中的底层信息与上采样结构中的高层信息，以此来提高分割精度。

U-Net++

Ｕ－Ｎｅｔ＋＋是在Ｕ－Ｎｅｔ基础上针对原始结构中的跳跃连接部分做了进一步的改进。

其结构如图３所示，Ｘ定义为卷积操作。原始Ｕ－Ｎｅｔ结构中的跳跃连接用的是直接串联方式，而Ｕ－Ｎｅｔ＋＋的跳跃连接改用密集连接方式。采用密集连接方式，网络得以在训练过程中自动学习不同深度特征的重要性，从而可以根据需要选择合适的下采样层数，在保证网络性能的条件下减少了网络参数。

相较于U-Net，其改进的优缺点为：

Ｕ－Ｎｅｔ＋＋采用密集连接，网络可以将来自不同层的特征进行特征叠加，减小了下采样阶段特征和上采样阶段特征之间的语义差异，更利于网络的优化。更多的特征信息也有效地避免了原始图像中的小目标和大目标边缘等信息随网络层数增加而丢失的现象。
Ｕ－Ｎｅｔ＋＋的另一个特点为网络共享了同一个下采样部分，使得训练过程只需要训练一次下采样网络，不同深度的特征由对应的下采样层以对称方式还原。除了在跳跃连接上做改进之外，Ｕ－Ｎｅｔ＋＋还增加了深监督，将网络结构各层的输出也连接到最终输出。

SegNet

ＳｅｇＮｅｔ的编码网络和ＶＧＧ－１６的卷积层部分相同，同样不含全连接层，主要作用是进行特征提取。

整个网络的新颖之处在于，解码器对较低分辨率的输入特征图进行上采样。具体地说，解码器使用从相应的编码器接收的最大池化索引来进行对输入特征图的非线性上采样。这种方法减少了对上采样的学习，改善了边界划分，减少了端到端训练的参数量。由于上采样而变得稀疏的特征图随后经过可训练的卷积操作生成密集的特征图。最后由网络的最后一层ｓｏｆｔｍａｘ层来求出图像的每一个像素在所有类别中最大的概率，从而完成图像的像素级别分类。ＳｅｇＮｅｔ只存储最大池化索引，并将其应用于解码网络，以此来得到更好的表现。因此相比于其他分割网络，ＳｅｇＮｅｔ的突出优点是更加高效。

DeepLab系列

其中DeepLab主要分为三个系列。

DeepLab-v1网络：将ＦＣＮ与条件随机场模型相结合，解决了ＦＣＮ分割不够精确的问题。

加入了三个创新点

其主要结构为在ＦＣＮ之后串联完全连接的ＣＲＦ模型。ＣＲＦ将来自ＦＣＮ的粗糙分割结果图进行处理，在图中的每个像素点均构建一个ＣＲＦ模型，以此获得图像更为精细的分割结果。同时，ＤｅｅｐＬａｂ－ｖ１中加入带孔算法来扩展感受野，感受野越大则可以获得图像更多的上下文信息，也避免了ＦＣＮ在一步步卷积和池化过程中特征图分辨率逐渐下降的问题。ＤｅｅｐＬａｂ－ｖ１的另一个改进点为添加了空洞卷积，大大提高了运行速度。

DeepLab-v2网络：相较于v1改进的地方是使用了空洞空间卷积池化金字塔模块。

采用不同采样率的空洞卷积对特征图进行并行采样，并将输出结果进行融合，以此可以获得更多的空间信息。另外，该网络将传统的ＶＧＧ－１６模块替换为ＲｅｓＮｅｔ模块，进一步提升了分割效果。

DeepLab-v3网络：

该网络重点研究了网络中空洞卷积的使用，提出将级联模块采样率逐步翻倍，同时扩充了ＤｅｅｐＬａｂ－ｖ２模型中的 ＡＳＰＰ模块，增强了其性能。该网络在ＰＡＳＣＡＬＶＯＣ２０１２数据集上获得了比之前的ＤｅｅｐＬａｂ更好的分割结果。

图像分割算法优劣和性能比较

MIoU(Mean Intersection over Union)是语义分割的一个评价指标，表示平均交并比，即数据集上每一个类别的IoU值的平均。
那么什么是IoU呢，以下面这张图直观地说一下：

图中，左边的圆表示某个类的真实标签，右边的圆表示其预测结果，

TP表示真实值为Positive，预测为Positive，称作是正确的Positive（True Positive=TP）
FN表示真实值为Positive，预测为Negative，称作是错误的Negative（False Negative=FN）
FP表示真实值为Negative，预测为Positive，称作是错误的Positive（False Positive=FP）
TN表示真实值为Negative，预测为Negative，称作是正确的Negative（True Negative=TN）

那么TP、FN、FP怎么计算呢？这就涉及到混淆矩阵了。

假设有一张图片，其所有的像素分属于4个类别。在预测分割之后，我们可以根据真实值和预测值获得一个混淆矩阵，形如：

总结一下，计算MIoU的三个步骤：

计算混淆矩阵
计算每个类别的IoU
对每个类别的IoU取平均

医学图像分割技术难点

医学图像具有的一些独特的特点，使得医学图像的分割比自然影像的分割更为复杂。具体表现为：

数据量少、目标较小、图像语义简单、多维图像、多模态

医学图像的这些特点，决定了医学图像分割必须使用编码器－解码器结构的网络模型。医学图像分割技术的高难度、高复杂度，是使医学图像分割在图像分割领域中受到特别关注的主要原因。

分割算法在医疗影像领域的应用

Ｗａｎｇ等人［３２］提出一个对伤口图像进行处理的系统，可以实现对图像中的伤口区域自动分割并分析伤口状况。伤口图像输入深卷积神经网络（ＣｏｎｖＮｅｔ），自动分割出输入图像中的伤口区域，得到的分割图像送入ＳＶＭ分类器中进行判断伤口是否感染，并通过高斯过程回归算法对伤口的愈合进程进行预测。ＣｏｎｖＮｅｔ架构如图７所示。

数据集与损失函数

数据集

常见的深度学习分割网络属于有监督学习算法，在训练时需要使用大量带标签的数据。本篇论文整理了医学图像处理常用的数据集。

损失函数

简单的理解就是每一个样本经过模型后会得到一个预测值，然后得到的预测值和真实值的差值就成为损失（当然损失值越小证明模型越是成功），我们知道有许多不同种类的损失函数，这些函数本质上就是计算预测值和真实值的差距的一类型函数，然后经过库（如pytorch，tensorflow等）的封装形成了有具体名字的函数。

总结与展望

现阶段的深度学习分割网络的发展演进存在一定的困难和挑战。未来要开始着力于探索新的创新。

半监督或无监督条件下的图像分割。有监督训练下的模型对于某些需要大量训练数据的模型很难发挥其效能。在缺乏标注数据的问题下，半监督或无监督条件下的图像分割将是未来的主要研究方向之一。
生成式对抗网络生成数据集。将ＧＡＮ框架生成的图像数据与原始数据进行结合共同参与模型训练可以提高模型性能，这一特性对于医学图像分析尤为重要。如何对原始数据和生成数据进行合理分工以使训练模型达到最优性能是当下及未来需要解决的一个重要问题。

文章出处登录后可见！

已经登录？立即刷新