Multi-Modal Knowledge Graph Construction and Application: A Survey


参考: 多模态知识图谱构建与应用综述

一、背景:

(1)现有的文本知识图谱大多是由纯文本表示的,这削弱了机器理解现实世界的能力,例如,如果没有“藏手礼”的经验,人们无法理解藏手礼是一种特殊的姿势(手在大衣襟翼)。因此,有必要将文字实体与相应的图像、声音和视频数据相结合。实现多模态(MMKG)是实现人机智能的必然关键步骤。
(2)多模态知识的应用在计算机其他领域的需求上也越来越迫切。在关系提取任务中,附加图像信息会大大提高视觉上明显但难以识别的属性和关系的性能,在文本生成任务中,如果参考多模态知识图谱 (MMKG),机器可以生成信息量更大的实体级句子(例如唐纳德特朗普正在发表演讲)而不是模糊概念级别描述(例如,一个金发的高个子正在演讲)。
对多模态知识图谱的如下领域进入系统性的探讨:
1、多模态知识图谱的构建: 可以采取两种不同的策略。一种是从图像到符号,即用知识图谱中的符号标记图像;另一种是从符号到图像,即定位图像中的符号。
2、多模态知识图谱的应用: 可分为两类,一类是针对多模态知识图谱本身构建问题的 In-MMKG 应用,另一类是针对多模态知识图谱下游任务的 Out-of-MMKG 应用。

二、知识图谱定义与构建所需的储备知识

多模态知识图谱两种定义:

2.1 A-MMKG

将多模态数据作为实体或概念的特定属性,如图1所示:

图1
这样表示的MMKG简称为A-MMKG,在A-MMKG中,多模态数据被视为属性值,因此在三元组中(s,p,o),s表示一个实体,o表示其对应的多图像之一。

2.2 N-MMKG

将多模态数据作为知识图谱中的实体,记为N-MMKG。多模态数据被视为实体,会有更多的模态间和模态内的关系添加到MMKG中:
(1)contain:一个图像实体通过图像的相对位置在视觉上包含另一个图像实体。
(2)nearBy:一个图像实体在视觉上靠近图像中的另一个图像实体。
(3)sameAs:两个不同的图像实体指的是同一个实体。
(4)similar:两个图像实体在视觉上彼此相似。
在N-MMKG中,通常将一幅图像抽象为多个图像描述符,这些描述符通常在像素级概括为图像实体的特征向量,如灰度直方图描述符、方向梯度直方图描述符,颜色布局描述符,通过这些图像描述符可以获得图像之间的关系(例如,通过图像描述符响亮的内积获得图像相似度)。

三、多模态知识图谱的构建

多模态知识图谱的构建通常有以下两种方式:用文本知识图谱中的文字标记图像或者将图像定位到文本知识图谱中的实体

3.1 文本标注图像

CV社区开发了许多图像标记几角方案,可用于标记图像,大多数方案学习从图像内容到各种标签集的映射,包括对象、场景、实体、属性、关系、时间等其他符号。学习过程由人工标注的数据集监督,这需要工作人员绘制边界框并使用给定标签标注图像或图像区域。
图像链接到文本可以分为细分为:视觉实体/概念提取,视觉关系抽取和视觉时间提取。

3.1.1视觉实体(概念)提取:

目的是检测和定位图像中的目标视觉对象,然后用知识图谱中的文本实体(或概念)标记这些对象。

挑战:

如何在没有大规模、细粒度、注释良好的概念和实体图像数据集的情况下学习细粒度提取模型?虽然在CV中有丰富的标注好的图像数据,但是这些数据集几乎是粗粒度的概念图像,不能满足多模态知识图谱构建对细粒度概念和实体的图像标注数据的要求。

进展:

1、对象识别方法
通过对检测到的对象的区域进行分类来标记视觉实体/概念;
为了区分图像中的多个视觉实体,需要预先训练的检测器和分类器来标记视觉实体(以及属性和场景)及其在图像中的位置。
这些检测器由监督数据训练,在检测过程中,检测器为可能的视觉对象捕获一组候选区域,并挑选出实际包含对象的候选区域。由于许多视觉对象因为实体在不同角度、位置、姿势产生重复,因此识别出的对象不直接被视为视觉实体。因此,需要选择最具代表性的视觉对象来生成视觉实体。最常见的方法是对图像区域进行聚类,其中每个聚类的中心被视为一个新的视觉实体。但是同时监督学习方案的缺点很明显,即需要大量的标注,并且需要大量的预处理工作,如预定义规则、预先确定的可识别实体列表、预训练的细粒度检测器和分类器等。
2、视觉定位方法
通过将标题中的单词或短语映射到最相关的区域来标记视觉实体/概念。
在视觉实体提取中,训练检测器需要大量带有边界框的标记数据和具有固定概念集的预定义模式,这很难用于大规模的视觉知识获取。幸运的是,有大量来自网络(例如新闻网站)的图像-字幕用于弱监督视觉知识的提取,而不依赖于标记的边界框。因此,视觉实体提取问题被简化为一个视觉定位问题,其目的是定位字幕中每个短语的对应图像区域,从而获得图像中带有标签的视觉对象。
当从弱监督的图像-字幕对中提取信息时,我们通常根据空间热力图(例如图 2 中的热力图)直接选择给定单词的活动像素作为视觉对象的区域。
在同一语义空间中共享文本和图像表示,每个短语的热图可以通过基于注意力的方法和基于显着性的方法作为跨模态权重来学习,如图 3 所示。在训练时,基于显着性的方法通过梯度计算直接将像素对给定短语的敏感度视为热力图的值。基于注意力的方法将跨模态相关性视为热力图的值,与基于显着性的方法相比,它更受欢迎。
尽管视觉定位方法不依赖于带有边界框的标记数据,但实际上仍需要人工验证。一些工作试图在训练阶段增加对常识、关系和事件参数的约束,以增加监督信息。在与 MMKG的构建相关的工作中,视觉定位的精确度低于 70%。通过视觉定位的视觉对象可以是实体(例如 Barack Hussein Obama)、概念(例如地点、汽车、石头)、属性(例如红色、短)。然而,图像和文本的语义尺度不一致可能导致不正确的匹配。例如,“部队”可能会映射到几个穿着军装的人,而“乌克兰(国家)”可能会映射到乌克兰国旗。
多模态预训练语言模型强大的表示能力增强了提取实体和概念的能力。图像块和单词的映射可以直接在模型的自注意力图中可视化,而无需额外的训练。 ViLT 的预测示例如图 4 所示。
多模态预训练语言模型如 CLIP,在数亿网络规模的图像-文本数据上进行了预训练,在著名人物和地标建筑上具有很高的准确性。一些预训练的视觉转换器模型已经具有很强的视觉对象分割能力,即使在高度模糊的情况下也能聚焦于前景对象,例如 DINO ,这将提高定位视觉对象和对齐跨模态知识的性能。

3.1.2 视觉关系抽取:

视觉关系提取旨在识别图像中检测到的视觉实体(或概念)之间的语义关系,然后用知识图谱中的关系标记它们。

挑战:

尽管视觉关系检测已经在 CV 社区进行了广泛的研究,但大多数检测到的关系是视觉对象之间的表面视觉关系,例如(人,站立,海滩)。不同的是,为了构建 MMKG,视觉关系提取任务旨在识别在知识图谱中定义的更一般类型的语义关系,例如(杰克、配偶、罗斯)。

进展:

现有的视觉关系抽取工作大致可以分为基于规则的关系抽取和基于统计的关系抽取两大类。其他一些工作主要集中在长尾关系和细粒度关系上。
(1)基于规则的关系提取: 传统的基于规则的方法主要关注一些特定类型的关系,如空间关系和动作关系。这些规则通常由专家预先定义,判别特征通过启发式方法进行评分和选择。
在基于规则的方法中,要检测的关系是根据标签的类型和区域的相对位置来定义的。例如,如果一个对象的边界框总是在另一个对象的边界框内,则它们之间可能存在 PartOf 关系。提取过程中,检测到的一对对象之间的关系反过来又会对新实例标记的附加约束。例如,“Wheel is a part of Car”表示 Wheel 更有可能出现在 Car 的边界框中。基于规则的方法提供高度准确的视觉关系,但它们依赖于大量的手动工作。所以在大规模MMKG建设中是不实用的。
(2)基于统计的关系提取:基于统计的方法将检测到的对象的视觉特征、空间特征和统计等特征编码为分布式向量,并通过分类模型预测给定对象之间的关系。与基于规则的方法相比,基于统计的方法能够检测到训练集中出现的所有关系。
工作证明谓词在很大程度上依赖于主客体的类别,但主客体不依赖于谓词,主客体之间也没有依赖关系。例如,在三元组(人、骑、大象)中,人和大象表示关系可能是骑而不是穿。因此,为了利用依赖关系,一些工作通过对象的标签将语言模型的语言先验添加到统计模型中,设置了一个更严格的约束,即三元组的隐藏层表示应满足主语+谓词宾语。
(3)长尾细粒度关系提取: 基于统计的方法虽然能够检测一般关系,但很难检测长尾关系。具有大量样本的有偏差的数据集使得预测关系更加困难。为了消除训练集中不平衡样本的影响,细粒度关系是一种长尾关系。现有的从特征融合角度对长尾关系问题的研究未能很好地区分细粒度的关系。例如,例如,模型倾向于预测“on”而不是细粒度的关系“sit on”/“walk on”/“lay on”。

未来的方向:

(1)视觉知识关系判断: 许多从图像中提取的视觉三元组只描述了图像的场景,由于它们不是被广泛接受的事实,因此不能被视为视觉知识。难点在于我们如何从场景信息的三元组中识别视觉知识的三元组。
(2)基于推理的关系检测: 现有的关系检测方法通过融合视觉特征和语言先验的隐藏统一表示来预测关系。例如,如果一个图像中有一个人和一个足球,并且(head, look at, sth) (arm, swing, -) (foot, kick, sth) 同时满足,则该动作将被判断为(person, kick, football)。不幸的是,这个数据集是手动构建的。我们需要自动总结关系检测的推理链。

3.1.3 视觉事件提取

一个事件通常被定义为参数之间的动态交互,包括一个触发器和几个参数及其相应的参数角色。触发器是表示事件发生的动词或名词,参数角色是指事件与时间、人、地点等参数之间的语义关系,参数是实体提及、概念或属性值。传统的事件提取任务旨在通过触发器预测事件类型,然后根据事件的预定义模式提取它们的参数。同样,视觉事件提取也可以分为两个子任务:
(1)预测视觉事件类型;
(2)在源图像或视频中定位和提取对象作为视觉参数

挑战

(1)视觉事件提取需要为不同的事件类型预定义模式,但大量的视觉事件尚未由专家定义。如何自动挖掘视觉模式作为事件模式?
(2)如何从图像或视频中提取视觉事件的视觉参数?

进展

现有的视觉事件提取工作主要集中在两个方面:
(1)视觉事件模式挖掘,将最相关的视觉实体(或概念)检测并标记为新模式;
例如,事件 Clipping 具有诸如 Agent、Source、Tool、Item、Place 等参数角色,并且在剪羊毛的图像中它们分别是 Man、Sheep、Shears、Wool、Field。该任务主要旨在识别视觉事件,而不是定位和提取其视觉参数。
(2)视觉事件参数提取,根据事件模式从视觉数据中提取参数角色区域。视觉事件参数提取实际上是提取一组具有关系约束的视觉对象的任务。

未来发展

这项任务的研究还处于早期阶段,还有很多问题值得探索。例如:1) 从包含多个事件的长视频中提取顺序事件尚未得到解决。 2)具有多个子事件的视频事件提取。例如,制作咖啡事件分为一系列步骤,如清洁咖啡机 [公式] 倒入咖啡豆 [公式] 打开咖啡机,每个步骤也可以视为一个事件。连续的步骤需要通过步骤的时间线来提取和列出,这是目前的方法难以解决的。

3.2 从符号到图像:符号定位

符号定位是指找到适当的多模态数据项(例如图像)以表示传统知识图谱中存在的符号知识的过程。与图像标注方式相比,符号定位方式在MMKG构建中应用更为广泛。

3.2.1 实体定位

实体定位旨在将知识图谱中的文本实体定位到其相应的多模态数据,例如图像、视频和音频

挑战

将实体定位到图像的主要挑战如下:
(1)如何以低成本为实体找到足够多的高质量图像?
(2)如何从大量噪声中选择最匹配实体的图像?

目前进展

有两个主要来源可以找到实体的图像:
(1)来自在线百科全书(如维基百科)
(2)通过网络搜索引擎。
(1) 来自在线百科全书 在维基百科中,一篇文章通常用图像和其他多模态数据来描述一个实体。 Wikipedia 和 DBpedia 提供了许多工具(例如 Wikimedia Commons )来帮助在 DBpedia 中的实体与 Wikipedia 中的相应图像或其他模态数据之间建立连接。研究人员很容易使用像维基百科这样的在线百科全书来构建大规模 MMKG 的第一个版本。
然而,基于百科全书的方法有三个主要缺点:
首先,每个实体的图像数量是有限的。维基百科中每个实体的平均图像数量为 1.16。
其次,维基百科中的许多实体图像仅与其对应的实体相关,而不是与实体完全相关。例如,维基百科中北京动物园的图片中存在动物、建筑、牌匾、雕刻等多张图片,很容易导致语义漂移。
第三,基于维基百科构建的MMKG的覆盖范围仍有待提高。英文维基百科有600万个实体(文章),这是从英文维基百科收获的MMKG容量的上限。根据我们的调查,近 80%的英文维基百科文章没有对应的图像,其中只有 8.6 %有超过 2 个图像。
(2)来自搜索引擎 为了提高 MMKG 的覆盖率,提出了基于搜索引擎的解决方案。通过查询实体名称从搜索引擎的搜索结果中找到图像。一般来说,排名靠前的结果图像很有可能是要搜索的实体的正确图像。然而,基于搜索引擎的方法很容易将错误的事实引入 MMKG。众所周知,搜索引擎结果可能是嘈杂的。另一个原因是指定搜索关键字并非易事。例如,搜索查询“Bank”不足以找到 Commercial Bank 的图像,因为它也产生了 River Bank 的图像。因此,已经有很多清理候选图像的工作。通常通过添加父同义词集或实体类型来扩展查询词以消除歧义。在为实体选择最佳图像时,多样性也是不可忽视的问题。训练图像多样性检索模型以去除冗余的相似图像,使图像尽可能多样化。
与基于百科全书的方法相比,基于搜索引擎的方法覆盖面更好,但质量更差,因此这两种方法经常一起使用。例如,可以通过从搜索引擎为每个实体收集更多图像或将每个图像映射到它包含的所有实体以扩大实体图像的数量来提高从维基百科获取的 MMKG 的覆盖范围。

未来的发展

这个方向还有很多未解决的问题。
(1)实体被定位成几个图像,每个图像只是实体的一个方面。例如,一个人的图像集合可以是不同年龄的图像、生活照片、事件照片、单人照片和家庭照片。如何确定最典型的图像?
由于在构建过程中实体及其视觉特征的解耦,基于实体接地的MMKG具有区分视觉相似实体的能力。实体定位方法使得构建面向领域的细粒度MMKG成为可能。
(3)现实世界的实体是多角度的,在不同的上下文中将一个实体与多个图像相关联是合理的。这促使我们提出一项新的多定位任务,该任务从给定特定上下文的实体中选择最相关的图像。例如,美国第 45 任和现任总统唐纳德·特朗普 (Donald Trump) 拥有许多可以从网络上收集的不同图像。但如图 7 所示,

(4)任何单个图像都不适用于所有不同的上下文。然而,将实体的不同方面映射到不同上下文中最相关的图像并非易事。首先,实体的图像池很难建立,因为图像池的完整性无法保证,在某些上下文中很容易漏掉一些相关的图像。其次,为特定上下文的实体消歧图像具有挑战性,因为上下文通常是嘈杂的并且包含稀疏信息,并且需要更多的背景信息来指导语义信息的获取。最后,作为一项新任务,标记数据的缺乏是一个大问题。

3.2.2 概念定位

概念基础旨在为视觉概念找到具有代表性的、有区别的和多样化的图像。

现有挑战

虽然一些视觉上统一的概念(如男人、女人、卡车和狗)也可以使用实体定位方法连接到图像。然而 (1)并非所有的概念都可以正确可视化。例如,irreligionist(非宗教主义者)不能指定某种具体醒醒。因此,如何区分可视化概念和非可视化概念成为一个难点
(2)如何从一组相关图像中找到一个可视化概念的代表性图像?请注意,可视化概念的图像可能非常多样化。例如,一提到公主,人们往往会想到几种不同的形象,迪士尼公主、历史电影中的古代公主或新闻中的现代公主。因此,我们必须考虑图像的多样性。

研究进展

针对上述挑战,相关研究分为三个任务:可视化概念判断、代表性图像选择和图像多样化。
(1)可视化概念判断 该任务旨在判断概念是否可视化,研究人员发现只有 12.8 %的 Person 子树的同义词集具有公认的可视化性。并且许多其余同义词集没有相应的视觉描述。例如,摇滚明星是可视化的,而求职者是不可视化的。手动注释在构建大规模 MMKG 时明显不实用。
为了自动判断视觉概念,研究人员构建了以下方法,比如:认为抽象名词概念是非可视化的,只收集非抽象名词概念的图像。但是,这些方法都不是很准确。例如,愤怒或快乐可以指定为一个人感到愤怒或快乐的形象。由于图像来自互联网,因此可以使用搜索引擎点击来识别视觉概念。例如,如果谷歌图片点击的数量大于谷歌网络点击的数量,可以表明一个实体可能是可视化的。
此外,可视化的高质量图像的一些特征可以用来识别视觉概念,例如代表性和辨别性。 一些研究人员认为具有代表性图像的前景是相似的,前景易于与背景分离,并且具有较小的类间方差。因此,因此考虑反过来训练分类器来选择其图像集合具有这些特征的概念。
(2)代表性图像选择 该任务本质上旨在根据图像的代表性重新排列图像。图像的代表性是根据基于聚类的方法的结果来评分的,例如 K-means、谱聚类等。聚类内的方差越小,聚类中图像的得分越高。在对图像的代表性得分重新排序后,排在前面的可能是代表性图像。此外,图像也受到规则的约束,以区分不同的簇。例如,一些工作添加了一个新的度量标准来对图像和聚类内的相似度进行排序,即类间距离和类内距离的比率,比率越大,图像的判别力越强。
来自搜索引擎的图像的标题和标签也可以用来评估图像在语义层面的代表性和区分性。标题和标签提供图像没有的语义信息。例如,一张冰岛风景的照片和一张英国风景的照片可能看起来很相似,但文本标签可以帮助我们区分它们的概念差异。一些工作中,标签基于语义特征进行聚类,图像根据标签的语义聚类重新分配到每个聚类中。
(3)多样化图像选择 该任务要求以概念为基础的图像应平衡多样性和相关性。图像也应该在聚类后重新排序,但与代表性图像选择的区别在于,我们想展示尽可能多的集群的结果。 具体来说,在每次选择中,尽量从聚类中选择没有被选择的图像。
这些研究集中在文本图像检索领域,很少有与多模态知识图谱相关的研究。来自互联网的关于性别、种族、肤色和年龄的概念图像的多样性仍然存在许多未解决的偏见,现在这个问题在很大程度上依赖于众包。

未来发展

作为一个新兴领域,许多未解决的问题正在留待未来研究。举两个例子:
(1)抽象概念定位 以往关于概念可视化判断的工作很少考虑抽象概念。但抽象概念也可以以图像为基础。例如,幸福通常与微笑相关联,而愤怒通常与生气的脸相关联。一些抽象名词具有多样但固定的视觉联想,如自然、人类和行动。例如,Beauty 的图像与以下词组相关联:woman/girl、water/beach/ocean、flower/rose、sky//cloud/sunset。类似地,Love 的形象与以下词组相关联:baby/cute/newborn、dog/pet、heart/red/oalentine、beach/sea/couple、sky/cloud/sunset、flower/rose。
(2) 动名词概念定位 动名词是一种特殊的名词,可以转化为动词,如singing [公式] sing。 众包将许多动名词作为图像的基础,例如arguing with, wrestling with以及 dancing with。这些关于人体交互的动词对人的身体角度、注视角度、关节位置和表情等特征很敏感。
(3)通过实体定位的非可视化概念定位 如果一个概念是不可可视化的,但该概念的实体可以被可视化,则该概念也可以通过其实体建立图像指定。例如,对这样一个概念的合理选择的指定图像是使用该概念最典型实体的图像。如表 4 所示,我们使用爱因斯坦的照片作为物理学家概念的基础。这是合理的,因为当我们提到物理学家时,我们大多数人都会想到爱因斯坦。但是,仍然有很多未解决的问题: (a) 一般来说,不同的人对一个概念有不同的典型实体,因此我们应该在概念基础上解决这种主观性。一个实体在其概念的约束下是否是一个典型的实体? (b) 我们应该选择几个典型实体的图像来呈现这个概念。如何选择典型的实体来表示概念? © 我们是否应该从多个实体图像中抽象出共同的视觉特征?

3.2.3 关系定位

关系指定是从图像数据语料库或互联网中找到可以表示特定关系的图像。输入可以是这个关系的一个或多个三元组,输出应该是这个关系中最具代表性的图像。

目前挑战

当我们将三元组作为查询来检索关系的图像时,排名靠前的图像通常与三元组的主题和对象更相关,但与关系本身无关。如何找到能够反映输入三元组语义关系的图像?

目前进展

现有的关系指定研究侧重于空间或动作关系,例如left of、on、ride 和eat。
虽然文本问询可以通过抽象语义表示图(主题、关系、对象)的格式表示为结构化数据,但候选图像也可以结构化为场景图。然后,通过文本-图像匹配或图形匹配,可以将结构化文本和结构化图像进行细粒度匹配,下面将具体展开。
(1)文本图像匹配 在文本-图像匹配任务中,文本和图像通常表示为统一语义嵌入空间中的向量。通过跨模态表示的相似度得分找到与查询最匹配的图像。跨模态表示通常由注意力机制融合,因此全局表示的缺点是缺乏显式细粒度关系的语义。除了基于表示的检索之外,一种更方便的方法是基于标题的检索,如互联网上的搜索引擎。基于标题的检索的缺点是没有使用视觉特征进行匹配。
为了表示对象之间的明确关系,许多研究集中在考虑图像局部结构的图像编码器上。最终的图像表示是全局视觉特征、局部结构特征和文本对齐嵌入的融合。一些工作将所有一阶(实体或概念)、二阶(属性或动作)、三阶(三元组)事实均统一遵循 [公式] 建模,分别由多层图像编码器的不同分支的输出来表示。 一些研究使用场景图来表示图像中的所有三元组 [公式] ,并使用图卷积神经网络来学习视觉关系。最后,每张图像学习到的​​所有具有关系特征的视觉表示都必须接近。因此,可以通过使用三元组作为查询而不是句子来直接检索匹配的图像。
多模态预训练语言模型是考虑对象(实体或概念)和三元组的图像编码器的新替代方案。对于每个图像-标题对,使用场景图解析器从图像的标题中生成包含对象、属性和关系的场景图,然后将场景图的对象、属性和关系节点随机替换为与对应的词汇表不同的对象、属性或关系来生成大量的硬负样本。 ERNIEViL通过增加三个预训练任务,对象预测、属性预测和关系预测来增强视觉和语言模型的能力。
(2)图匹配 我们期望通过对象和关系的显式匹配而不是统一的跨模态嵌入的隐式匹配来建立关系基础。一种更方便的方法是基于标题的检索,如 Internet 上的搜索引擎,匹配实体的标记与 问询与标题之间的关系。基于标题的检索的缺点是没有使用视觉特征进行匹配。例如,Richpedida 提出了一个非常强的假设,即如果 Wikipedia 描述中的两个实体之间存在预定义的关系(例如 nearBy 和 contains),则两个实体对应的视觉实体之间也存在相同的关系。但实际上,这两个对象更有可能不会同时出现在一张图像中。如果我们将文本查询和候选图像表示为图形,则关系指定任务变成了图形匹配任务,如图 8 所示。可以将图像结构化为图形,其中节点是对象,边是关系。文本问询中的依赖关系可以建模为依赖分析树,它也是一个图。一个简单的解决方案是只匹配两个图中的对象和共现关系而不预测关系类型,即假设如果两个实体之间存在关系,则该关系被认为是匹配的,这也是一个强假设。显然,关系预测模块是必不可少的。 一些研究用GCN分别表示两个场景图,其中对象自己进行更新,关系节点从其邻居的聚合更新。预测时,分别测量两个不同形式的图的相似度:对象节点匹配和关系节点匹配。

未来发展

现有研究主要集中在空间关系和动作关系的基础上,这些关系可以在图像中直观地观察到。但是,大多数其他关系例如isA, Occupation, Team and Spouse在图像中可能并不明显。这些关系通常缺乏训练数据,因此很难用上述两种解决方案训练模型来检索图像。

四、应用

在对 MMKG 构建进行系统回顾之后,本节探讨如何将 MMKG 的具体应用。

4.1 MMKG 内应用

In-MMKG 应用是指在 MMKG 范围内执行的任务,其中实体、概念和关系的嵌入已经被学习。因此,在介绍 in-MMKG 应用之前,我们简要介绍一下 MMKG 中知识的分布式表示学习,也称为 MMKG 嵌入。
基本上,MMKG 嵌入模型是从传统的知识图谱的嵌入模型发展而来的,即基于距离的模型,它认为同一个三元组的头实体和尾实体在投影空间应该是接近的,基于平移的模型,TransE及其变体,它们应该符合以下假设: [公式] 。 [公式] 分别是三元组中头实体、尾实体和关系的向量表示。在处理多模态数据时还有两个额外的问题:我们如何有效地编码图像中包含的视觉知识和信息,以及我们如何融合不同模态的知识。 1)视觉编码器。尽管 CV 中有许多现成的图像信息编码技术,但随着深度学习的发展,来自卷积神经网络的隐藏特征是用于视觉特征的主要图像嵌入,例如灰度直方图描述符 (GHD)、定向梯度直方图描述符 ( HOG),颜色布局描述符(CLD)很难在 MMKG 表示中使用。 2)知识融合。为了融合多模态的知识嵌入,考虑了各种融合方式,包括简单连接、平均多模态嵌入以及基于归一化或加权的 SVD 和 PCA,而一些方法将融合结果作为MMKG 直接嵌入,其他方法在精心设计的目标函数上进一步训练单模态表示。
下面,我们介绍四个在MMKG中得到充分研究的应用,包括链接预测、三元组分类、实体分类和实体对齐。

4.1.1 链接预测

MMKG中的链接预测旨在当 [公式] 中的一个实体缺失时补全三元组 [公式] ,即, 在 [公式] 中预测 [公式] 或在 [公式] 中预测 [公式] 。一个类似的任务是预测两个给定实体之间的缺失关系,即预测 [公式]中的 [公式] 。
MMKG 上的链接预测可以通过简单的排序过程进行处理,该过程从所有候选实体中找到最适合的实体来补全三元组。与传统知识图谱中的任务相比,MMKGs 中的实体和关系的附加图像可以提供额外的视觉信息,以提高嵌入学习质量。例如,一个人的图像可能会为这个人的年龄、职业和名称提供信息。
IMAGEgraph 提出将看不见的图像和多关系图像检索之间的关系预测表达为视觉关系问询,以便可以利用这些问询来补全 MMKG。与传统方式相比,IMAGEgraph 在关系和头/尾实体预测任务上表现更好,并且能够推广到看不见的图像,以回答一些零样本的视觉关系问询。例如,给定一个不属于知识图谱的全新实体的图像,这种方法可以确定它与另一个给定图像的关系,尽管我们不知道其对应的知识图谱实体。
同样,MMKG构建了三个数据集来预测实体之间的多关系链接,所有实体都与数字和视觉数据相关联。但是,它只专注于sameAs这个关系的链接预测任务并回答此类查询以补全 MMKG。三个相当异构的知识使 MMKG 成为衡量多关系链接预测方法性能的重要基准,并验证了不同模态对于sameAs的链接预测任务是互补的假设。

4.1.2 三元组分类

三元组分类旨在区分正确的三元组和不正确的三元组,这也可以看作是一种知识图谱补全任务。基于在 MMKG 上学习的嵌入模型,可以使用能量得分 [公式] 计算每个三元组。为每个关系 [公式] 设置不同的阈值 [公式] ,如果三元组的能量得分高于 [公式] ,则将预测为负。为了准备分类模型的训练数据,正确的三元组通过替换 [公式] 之一来破坏以生成负数据。

4.1.3 实体分类

实体分类将实体分类为不同的语义类别,即 MMKG 中不同粒度的概念。实体分类也可以看成是一种特殊的链接预测任务,关系设置为IsA,待预测三元组的尾部是MMKG中的一个概念。
已经为传统的知识图谱提出了各种实体分类模型,这些模型也可以在 MMKGs 中采用。但是,如果没有良好的多模态知识图谱嵌入模型,则无法充分利用 MMKG 中实体和概念的丰富多模态数据。例如,一些工作致力于从几种不同类型的模态中学习实体和概念的嵌入,然后将它们编码到联合表示空间。

4.1.4 实体对齐

实体对齐适用于对齐在不同多模态知识图谱中指向的相同实体。
核心思想是学习不同知识图谱中实体的表示,然后评估两个图谱之间每个实体对之间的相似性。在两个传统文本知识图谱之间的实体嵌中使用的特征包括知识图谱内上下文信息和外部信息(例如外部词典和 Wikipedia 链接)。对于多模态知识图谱,由于引入了多模态特征,特征向量分别针对不同的模态进行编码,然后通过知识融合技术合并。

4.2 MMKG 外应用

Out-of-KG 应用是指不受 MMKG 边界限制,但可以由 MMKG 辅助的下游应用。下面我们以多模态命名实体识别和实体链接、视觉问答、图文匹配、多模态生成和多模态推荐系统等几个应用为例进行介绍。我们没有对这些任务的所有解决方案提供系统评价,而是主要关注介绍如何使用 MMKG。

4.2.1 多模态实体识别与链接

纯文本的命名实体识别任务(NER)已被广泛研究。多模态 NER (MNER) 旨在检测带有图像的文本中的实体,其中图像可以为实体识别提供必要的补充信息。 MMKG 通过提供视觉特征使得 MNER 附带图像信息用于实体识别。例如,使用 MMKG 中图像的背景知识来帮助捕获图像的深层特征,以避免来自浅层特征的错误。
给定带有附加图像的文本,多模式实体链接 (MEL) 使用文本和视觉信息将文本中的模棱两可的提及连接到知识库中的实体。尽管一些早期的尝试基于传统的知识图谱作为知识库进行多模态实体链接,但越来越多的工作更倾向使用多模态知识图谱作为链接的知识库。 MEL 以两种方式利用 MMKG 中的图像知识:(1)提供实体提及应链接到的目标实体; (2) 使用多模态数据学习每个实体的分布式表示,然后将其用于衡量提及和实体之间的相关性。图像中视觉信息的使用将有助于捕捉提及和实体之间的关系,但与图像无关的部分也可能成为噪声并对提及和实体的表示学习带来负面影响。为了消除副作用,研究人员提出了一种两阶段的图文关联机制,根据预定义的阈值过滤掉不相关的图像,并且多注意机制还用于通过查询提及的候选实体周围的多跳实体来捕获提及表示和实体表示中的重要信息。

4.2.2 视觉问答

视觉问答(VQA)是一项具有挑战性的任务,不仅需要对问题进行准确的语义解析,还需要深入理解给定图像中不同对象和场景之间的相关性。新提出的 VQA 任务弥合了人类可以轻松结合各种方式的知识来回答视觉查询的差异。例如,在“哪个美国总统与这里看到的毛绒玩具有关?”的问题中,如果图像中的毛绒玩具被检测为“泰迪熊”,则通过 KG 推断出的答案将是“西奥多·罗斯福”,因为他常常被称为“泰迪罗斯福”,泰迪熊以他的名字命名。
提取视觉概念之间的关系和理解问题中的语义信息是 VQA 的两个关键问题。然而,如果不结合更多各种模态的知识,它就无法通过语义解析和匹配对图像-问题-答案三元组进行推理,并且很难推广到更复杂的情况。 MMKG 有助于处理问题并增强答案的可解释性。首先,MMKG 提供有关命名实体及其在图像中的关系的知识,从而导致更深入的视觉内容理解。其次,MMKG 中的结构化符号知识使其成为进行推理过程和预测最终答案的更明确的方式。

4.2.3 图文匹配

图像-文本匹配是许多文本和图像相关应用程序中的一项基本任务,例如图像-文本和文本图像检索,其目的是输出输入图像和文本对之间的语义相似度得分。
图像-文本匹配通常是通过将文本和图像映射到一个联合语义空间中,然后学习一个统一的多模态表示进行相似度计算来实现的。一种通用的方法是利用多标签检测模块来提取语义概念,然后将这些概念与图像的全局上下文融合。然而,预训练的基于检测的模型很难找到长尾概念,这将模型限制在那些已经被检测到的概念上,导致性能不佳。
为了克服检索任务训练数据中的偏差,可以利用多模态知识图谱来扩展更多的视觉和语义概念。此外,MMKG还可以帮助构建场景图,引入视觉概念之间的信息,进一步增强图像表示。例如,可以提取在 MMKG 的多模态三元组中经常同时出现的概念对,例如房屋、窗户和树叶,以增强图像中概念的表示,从而为语义理解提供强大的上下文信息,并提高图像-文本匹配的性能。此外,考虑到图像-文本匹配任务中的一个关键步骤是在不同模式下对齐局部和全局表示,一些工作建议在 MMKG 中合并关系以表示具有更高级别语义的图像和文本。这种图结构信息更好地增强了多模态数据的推理和推理能力,具有更高的可解释性。 MMKG 还通过学习更统一的多模态表示来帮助跨模态对齐。

4.2.4 多模态生成任务

有几个研究过的多模态生成任务,例如图像标记、图像字幕、视觉叙事等,可以从 MMKG 中受益。
图像标签 传统的图像标签方法很容易受到标签统计偏差以及嘈杂和不精确的标签的限制。通过将 MMKG 中的概念知识嵌入到图像中,可以极大地改善图像的表示,从而提高图像标注的性能。另一项工作提出构建一个名为 Visio-Textual Knowledge Base (VTKB) 的 多模态知识图谱,其中包括文本和视觉信息以及它们之间的关系。基于此 VTKB,提出了一种新颖的图像标记框架,将视觉信息结合到 VTKB 中,以帮助消除概念歧义并将它们与图像更好地联系起来。
图片说明 主流的基于统计的图像字幕模型有两个缺点:首先,它们严重依赖目标检测器的性能。具有独立的检测和字幕生成的编码器-解码器框架总是导致预定义的对象/关系和目标文本描述之间的语义不一致。其次,看不见的物体总是给他们带来很大的挑战。在图像-标题并行语料库上训练的模型总是无法描述看不见的对象和概念。
幸运的是,MMKG 可以通过以下方式帮助缓解图像字幕的两个障碍:1)一些工作提出利用 MMKG 进行关系推理,从而产生更准确和合理的字幕。更具体地说,可以为从候选图像提议中嵌入的视觉和知识向量构建语义图,然后可以对语义图进行编码以生成文本描述。通过这种方式,可以充分利用 MMKGs 中总结的语义约束。 2) 来自 MMKG 的符号知识可能有助于理解看不见的物体。具体来说,符号知识提供了关于未见对象的符号信息,并在符号知识方面建立了已见对象和未见对象之间的语义关系。
一个更复杂的任务称为实体感知图像字幕,它要求在给定相关文章中的背景知识的情况下对命名实体进行更多信息描述。尽管一些研究提取和编码文本知识以构建更细粒度的注意力机制,但它们忽略了命名实体与图像中视觉线索之间的关联,因此在某些复杂场景下表现不佳。然而,MMKGs 可以捕获上下文中的实体和图像中的对象之间的细粒度关系,以生成具有更准确命名实体和更多相关事件的标题。更具体地说,两个不同的 MMKG 被用于不同模块的各种功能。首先,在跨模态实体链接模块中,通过分别连接从输入文章和图像中提取的文本子图和图像子图,构建完整的 MMKG,同时结合外部 MMKG 作为辅助。然后,完善的 MMKG 与图像和文章一起极大地有利于之后的实体感知字幕生成过程。
视觉叙事 视觉叙事是比图像字幕更具挑战性的任务,图像字幕旨在根据许多连续的图像来讲述故事。该任务需要发现图像和与图像关联的对象之间的关系。传统的视觉叙事方法通常将任务视为顺序图像字幕问题,而忽略图像之间的关系,这可能会产生单调的故事。此外,这些方法仅限于单个训练数据集中的词汇和知识。为了解决这些问题,最近的一些工作在蒸馏-浓缩-生成三阶段框架内使用MMKG。首先从每个图像中提取一组单词之后,将两个连续图像中的所有术语配对以查询 Visual Genome 的对象关系和 OpenIE 的术语关系,以获取所有可能的元组并生成额外的故事句子。故事生成步骤。通过这种模仿人类如何生成故事的方式,知识图谱中关系的使用提供了图像之间强大的逻辑推理,使生成的故事更加流畅。

4.2.5 多模态推荐系统

推荐系统旨在通过对历史数据的分析来推荐用户可能喜欢/购买的商品。在此过程中需要平衡各种因素,例如准确性、新颖性、分散性和稳定性。在推荐场景中存在图像和文本等多模态数据的地方,我们说它是一个多模态推荐系统,应该联合利用不同模态的信息。
近年来已经证明,MMKGs 可以极大地增强多模态推荐系统。一些方法通过利用外部 MMKG 来获得具有丰富语义的项目表示。跨不同模态整合 MMKG 的信息可以帮助解决基于协作过滤 (CF) 的推荐策略中长期存在的冷启动问题 。其他一些方法找到了利用 MMKG 获得更个性化和可解释的推荐的其他方法。

五、未解决的问题

本节讨论了一些关于 MMKG 构建和应用的开放问题,留待未来研究。

5.1 复杂符号知识定位

除了实体、概念和关系的基础之外,一些下游应用还需要复杂符号知识的定位,这些知识由多个相互之间具有密切语义关系的关系事实组成。这些多重关系事实可能是知识图谱中的一条路径或一个子图。例如,对于知识图谱中包含特朗普的妻子、女儿、孙子等的子图,合适的图像定位可能是特朗普的全家福。这激发了多重关系定位,旨在找到图像来表达知识图谱中路径或子图中包含的知识。
多重关系定位具有挑战性,因为它涉及多个关系的定位,并且这些多重定位通常以复杂的方式相互交织。我们必须找到充分体现复合语义关系的图像。在许多情况下,复合语义只是隐式表达的,并且可能随着时间而改变。

5.2 质量控制

一般来说,我们依靠数据驱动的方法来构建大规模的 MMKG。从大数据中自动获取的 MMKG 不可避免地会遇到质量问题,即 MMKG 可能包含错误、缺失事实或过时的事实。例如,在基于搜索行为数据的多模态知识获取中,很容易为长尾实体关联错误的图像,因为该实体可能在 Web 上没有图像,因此任何点击的图像都会误导错误接地。
除了在传统知识图谱中广泛讨论和研究的准确性、完整性、一致性和新鲜度等常见质量问题外,多模态知识图谱还存在一些与图像有关的特殊质量问题。首先,当两个实体彼此密切相关时,某个实体的图像可能很容易与另一个实体混合。见表 6 中的第一个例子,Pluvianus aegyptius是一种与鳄鱼共生的鸟类,因此我们在搜索时可能总是得到鳄鱼和鸟类的照片。其次,比较有名的实体的图像很容易出现在其密切相关实体的实体定位结果中。见表 6 中的第二个例子,《The Wandering Earth》是中国著名科幻作家刘慈欣写的。在搜索这本书的过程中,我们总能找到另一本更著名的书的图片,名为《The dark forest》。三是一些抽象概念的视觉特征不够清晰。比如抽象名词arrogance的视觉特征是不固定的,所以我们总能得到一些完全不相关的图片。为了解决上述问题,可能需要更多的视觉分析和背景信息来指导点击率和文本信息,以避免这种误导。

5.3 效率

在构建大规模知识图谱时,效率始终是一个不可忽视的问题。构建多模态知识图谱的效率问题更为突出,因为需要考虑处理多媒体数据的额外复杂性。例如,NEIL需要大约 350K CPU 小时来收集 2273 个对象的 400 K个视觉实例,而在典型的 KG 中,我们需要处理数十亿个实例。构建 MMKG 的现有解决方案的可扩展性将受到极大挑战。如果接地目标是视频数据,则可扩展性问题甚至可能会被放大。
除了MMKG的构建,MMKG的在线应用也需要认真解决效率问题,因为MMKG需要实时服务应用。该解决方案的效率对于构建基于 MMKG 的在线应用程序至关重要。

六,结论

我们是第一个彻底调查由文本和图像构建的 MMKG 的现有工作。我们系统地回顾了 MMKG 构建和应用方面的现有工作。我们比较主流 MMKG 的内容和构建方式。我们分析了不同解决方案在 MMKG 构建和应用中的优势和劣势。我们不仅指出了 MMKG 建设和应用中现有任务的一些潜在机会,而且列出了 MMKG 建设和应用的一些有希望的未来方向。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年6月8日 上午11:53
下一篇 2022年6月8日 上午11:55

相关推荐