[论文阅读]用卷积神经网络提取的特征作为SVM分类器的输入CNN Features off-the-shelf: an Astounding Baseline for Recognition

卷积神经网络提取的通用特征

最近的结果表明,卷积神经网络提取的通用描述符非常强大。这篇文章添加了许多实验证明,针对不同识别任务进行了一系列实验,这些实验使用了OverFeat网络,经过训练后可以在ILSVRC13上进行图像分类。文章使用从OverFeat网络提取的特征作为通用图像表示来处理图像分类,场景识别,细粒度识别,属性检测和图像检索等多种识别任务。与各种数据集上所有视觉分类任务中的最先进系统相比,得出了几乎一致的优异结果。结果表明,从卷积网深度学习获得的特征应该是大多数视觉识别任务的主要选择。

为什么要用CNN提取特征?

  • 由于卷积和池化计算的性质,使得图像中的平移部分对于最后的特征向量是没有影响的。从这一角度说,提取到的特征更不容易过拟合。而且由于平移不变性,所以平移字符进行变造是无意义的,省去了再对样本进行变造的过程。
  • CNN抽取出的特征要比简单的投影、方向,重心都要更科学。不会让特征提取成为最后提高准确率的瓶颈、天花板
  • 可以利用不同的卷积、池化和最后输出的特征向量的大小控制整体模型的拟合能力。在过拟合时可以降低特征向量的维数,在欠拟合时可以提高卷积层的输出维数。相比于其他特征提取方法更加灵活

算法流程

整理训练网络的数据 -> 建立卷积神经网络 -> 将数据代入进行训练 -> 保存训练好的模型 -> 把数据代入模型获得特征向量 ->
用特征向量代替原本的X送入SVM训练 -> 测试时同样将X转换为特征向量之后用SVM预测,获得结果。

一、研究问题

目前的CNN特征进一步说明我们可以学习到用于图像任务的普遍特征,并成功用于新领域。从经过训练的Overfeat卷积神经网络模型采集到基础特征,在ImageNet大规模视觉识别挑战赛(ILSVRC)已经被充分利用。对各种任务,作者不是使用目前常用的图像处理流程,而是简单地利用源自CNN表征的特征,然后用于SVM。如下图所示。
[论文阅读]用卷积神经网络提取的特征作为SVM分类器的输入CNN Features off-the-shelf: an Astounding Baseline for Recognition

二、方法简介

文中使用公开的CNN网络OverFeat。该网络的结构遵循AlexNet的结构。卷积层每个包含96到1024个大小为3×3到7×7的卷积核。ReLU作为非线性激活。大小为3×3和5×5的最大池化用于不同层以增加对类内变形的鲁棒性。我们使用OverFeat网络的“大”版本。它需要输入尺寸为221×221的彩色图像。OverFeat针对ImageNet ILSVRC 2013的图像分类任务进行了训练,并在2013年挑战的分类任务获得了非常有竞争力的结果。 ILSVRC13包含120万个图像,手动标记1000个类别。

文中列举了一系列针对不同识别任务进行的实验的结果,视觉分类中有图像分类、物体检测、细粒度分类和属性检测。

1.方法
对于所有的实验使用网络的第一个完全连接层响应(第22层)作为特征向量。最大池化层和ReLU在OverFeat中被视为一个单独的层,与AlexNet不同。对于所有的实验,将整个图像(或裁剪的子窗口)的大小调整为221×221。 最后输出了一个4096维的向量。 有两个设置:

  • 对于所有实验,特征向量被进一步使用L2正则化进行归一化。 使用4096维特征向量与支持向量机(SVM)结合来解决不同的分类任务CNN-SVM
  • 进一步对训练集进行数据增强。通过裁剪和旋转图像。在结果中记为:CNNaug + SVM

对于训练数据集(xi,yi)(xi,yi),线性SVM公式如下:
[论文阅读]用卷积神经网络提取的特征作为SVM分类器的输入CNN Features off-the-shelf: an Astounding Baseline for Recognition
2.图像分类
使用的两个识别数据集:Pascal VOC 2007用于物体分类;MIT-67 用于室内场景识别。
Pascal VOC物体分类结果:
[论文阅读]用卷积神经网络提取的特征作为SVM分类器的输入CNN Features off-the-shelf: an Astounding Baseline for Recognition
上表展示了用于物体图像分类的OverFeat CNN特征的结果,采用mAP标准进行度量。结果中看到,OverFeat CNN特征在mAP方面比以前的所有方法都有大幅度的提高。

不同的层
直观地说,我们可以推断,越深的层学习的权重对训练的任务变得越具体。 我们可以想象每个问题的最佳表示在于网络的中间层。 为了进一步研究这一点,我们使用每个网络层的输出为所有类训练了一个线性SVM。 结果如下图所示。 除了最后的两层全连接层,性能都会提高。这个图说明了使用原始CNN 不同层的特征作为最后SVM的输入是怎样使分类性能提升的。
[论文阅读]用卷积神经网络提取的特征作为SVM分类器的输入CNN Features off-the-shelf: an Astounding Baseline for Recognition
MIT 67 场景分类结果:
下表展示了MIT室内数据集上不同方法的结果。 使用不同类别的平均分类准确度(混淆矩阵对角线的平均值)来衡量的性能。 使用线性支持向量机的CNN显着优于大多数方法。比先前最好的AlexConvNet 模型还要高0.1%精确度。
[论文阅读]用卷积神经网络提取的特征作为SVM分类器的输入CNN Features off-the-shelf: an Astounding Baseline for Recognition

总结

文中使用OverFeat CNN特征向量结合一个简单的分类器来解决不同的识别任务。 CNN模型最初是在ILSVRC 2013数据集中对图像分类任务进行了训练。 CNN提取的特征向量,表明它将成为更先进方法的强有力竞争者。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年6月15日
下一篇 2022年6月15日

相关推荐