基于相似性的视觉艺术图像搜索
从人类感知和定量判断评估视觉艺术的相似性
基于相似性的图像搜索,也称为基于内容的图像检索,在历史上一直是一项具有挑战性的计算机视觉任务。这个问题对于视觉艺术来说尤其困难,因为对于“相似性”的衡量标准应该定义为什么以及谁应该为艺术设定标准并不那么明显。
例如,当我将一张带有彩色矩形和粗线(见下图)的人脸的壁画上传到 Google 以查找相似图像时,Google 在其“视觉上相似的图像”部分下为我提供了一系列选项。大多数图像是壁画,壁画中突出描绘了一张脸;还有一些是纯画,里面有一张脸。所有的图像都涵盖了各种各样的配色方案和风格纹理。
Geirhos 等人在 2018 年发表的一篇论文。 [1] 揭示了在 ImageNet 上训练的卷积神经网络 (CNN) 偏向于图像的风格纹理。为了强制 CNN 学习基于形状的表示,研究人员在 ImageNet 上应用样式迁移来创建“Stylized-ImageNet”数据集。[0]
我决定以他们的发现为基础,研究在纹理偏向与形状偏向模型上训练具有相同艺术风格的艺术作品对的效果。在比较文森特·梵高和乔治亚·奥基夫的两幅画作时,这两位艺术家的艺术风格都非常独特,我发现纹理偏向 ImageNet 训练的 AlexNet 模型在关联同一艺术家的作品方面做得更好(图1) 与形状偏向的 Stylized-ImageNet 训练的 AlexNet 模型相比(图 2)。
我从这个实验中得出的主要结论是,在评估视觉艺术的相似性时,如果我们将来自同一位艺术家的艺术品视为相似性的标准,那么寻找和比较的风格纹理远比形状表示更重要。然而,对“风格”的评价似乎是一个非常主观和人类感知的过程。这一发现让我更加好奇什么技术方法可以结合人类和定量判断来确定艺术相似性。
Hughes 等人 2011 年的一篇论文。 [2] 结合定量和心理学研究得出结论,将人类感知信息与艺术的高阶统计表示相结合对于解决基于相似性的艺术搜索问题非常有效。人类对艺术风格的感知通常基于线条、阴影和颜色等元素的质量,这些元素很难使用低阶统计数据来捕捉。因此,这些研究人员利用高阶空间统计数据并将他们的发现应用于比较视觉艺术。然后,他们进行了心理物理实验,要求参与者判断艺术作品对之间的相似性,并将这些结果与他们的预测模型结合使用。[0]
定量过程和结果
休斯等人。他们对涵盖各种艺术家的 308 张高分辨率艺术作品图像数据集进行了研究。他们使用两种图像分解方法从图像中提取特征:
- Gabor 滤波器,对特定方向和空间频率的线条和边缘敏感
- 稀疏编码模型,它学习一组与图像的高阶统计特征相关的基函数
提取特征后,他们通过以下四个指标比较和评估这些艺术图像:
- 峰值方向,它查看从稀疏编码模型中学习到的基函数的 2D 傅里叶变换中峰值幅度出现的方向
- 峰值空间频率,它查看峰值幅度出现的空间频率
- 方向带宽,用于衡量基函数对该首选方向的选择性
- 空间频率带宽,用于衡量基函数对首选空间频率的选择性
然后,研究人员探索了不同的距离度量(例如 KL 散度)来比较上述四个度量的分布,从而得出距离矩阵。值得注意的是,由于没有风格相似的基本事实,研究人员通过真正的艺术家标签来比较艺术作品,即毕加索的所有画作都被授予相同的标签,因此距离矩阵是相对于真正的艺术家标签构建的.使用不同的距离度量执行 k-means 聚类揭示了将这些高阶统计表示用于视觉艺术图像的总体成功(见下图)。
心理物理知觉相似性实验
除了开发一种定量表征视觉艺术作品风格的方法外,研究人员还进行了两项心理物理实验以利用人类感知信息。他们要求参与者判断抽象艺术、风景和肖像中的艺术图像对之间的相似性,汇总他们的答案以创建三个类别中的每一个的相似性矩阵。
实验1谋求感性判断的功效在预测的艺术作品的风格关系进行比较。研究人员为每个图像类别展示了两张图像;然后,他们使用基于特征的距离根据它们的知觉相似预测的两个图像之间的距离训练回归模型。随着学习的模型,他们预测持有出图像和训练图像之间的距离。最后,他们比较了图像之间的真实距离知觉的预测距离。
研究人员发现,来自抽象和风景艺术作品的感知信息能够实现统计显着性预测,这告诉我们有用的统计信息不仅存在于感知相似性数据中,还可以用于对视觉艺术作品之间的差异进行建模。
实验 2 测量了三类图像的有限感知信息在多大程度上可以预测更大图像集中的风格差异和关系,这与基于相似性的图像搜索问题直接相关。该过程与实验 1 类似,只是这次他们在三个类别中展示了 51 张图像,并使用剩余的图像来创建感知距离矩阵。他们预测的距离矩阵表明,即使感知信息有限,这些信息也有助于“指导我们结合统计特征来理解风格感知的方式”。
Final Thoughts
综上所述,Hughes 等人的论文“Comparing Higher-Order Spatial Statistics and Perceptual Judgments in the Stylometric Analysis of Art”向我们展示了将人类感知信息与高阶统计信息相结合来评估图像相似度的重要性和必要性。视觉艺术。
在评估艺术风格是如何被感知、定义和评估的相似性方面,仍然需要进行更多的心理学研究。在他们的论文中,他们提到“[a]t present ……只有少数关于控制人类风格感知的因素的定量研究。”
考虑到计算机视觉的更广泛背景,考虑对艺术风格的高阶统计表示的需求类似于 CNN 中对更深卷积层的需求也是很有趣的。
总而言之,将判断植根于人类感知,同时优化和利用所有可用的定量信息,是考虑如何为视觉艺术品开发更好的基于相似性的图像搜索系统的关键。
References
[1] Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A. 和 Brendel, W.增加形状偏差可以提高准确性和鲁棒性。” ICLR 2019. arXiV 预印本:https://arxiv.org/abs/1811.12231。[0]
[2] Hughes, J. M., Graham, D. J., Jacobsen, C. R. 和 Rockmore, D. N. “比较艺术风格分析中的高阶空间统计和感知判断。” 2011 第 19 届欧洲信号处理会议。 https://ieeexplore.ieee.org/abstract/document/7073967。[0]
Catherine Yeo 是哈佛大学计算机科学专业的本科生。你可以在 Twitter @catherinehyeo 上找到她。[0]
这篇文章的灵感来自哈佛的 PSYCH 1406,“生物和人工视觉系统:人类和机器如何代表视觉世界”。感谢 George Alvarez 教授的反馈和指导。
文章出处登录后可见!