论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)

翻译标题:视觉推理的外部知识整合
一句话简介:用场景图做VQA

论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)
这篇论文提出了两个贡献:
1.Knowledge Incorporation Network,简称KI-Net,用于将外部知识图谱和场景图合并,生成更丰富的场景图
2.Graph Relate模块,简称G-Relate,用于将注意力转移,以获得高维注意力

1.KI-Net
模型框架中的那个黄色框。输入是外部数据集生成的知识图谱和该图像生成的场景图。具体合并流程如下:
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)
(1)拓扑扩展
把场景图和知识图谱相同含义的结点桥接在一起,比如SG中的snow就和KG中的snow用一条边连了起来,这是为了之后的消息传递
然后给场景图添加新的备选结点:如果场景图中存在某个结点(man),这个结点知识图谱中也有,而且知识图谱中的结点和另一个结点(shirt)是邻接的关系,那么把“另一个结点”和它的谓语加到场景图上,特征用的是知识图谱的特征,即word embedding

(2)语义细化
得到合并后的场景图后,首先进行消息传递。消息传递的方法来自以下论文
Bridging knowledge graphs to generate scene graphs
传递完毕后,每个结点vi就有了自己的特征hi,然后进行另一种消息传递,即图注意力网络,用来计算相关性矩阵。因为从知识图谱中加进去的跟图像不一定有关系。

对于所有节点,这里的节点包括场景图的宾谓和知识图的宾谓
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)
mij构成M,就是相关矩阵了

如果候选节点与相邻节点的相关性得分之和小于某个阈值,则将其丢弃。我认为这里的“节点”应该只指对象节点。丢弃候选节点并丢弃与其连接的谓词。
这样就得到了一个丰富的场景图(enriched scene graph)

2.G-Relate
推理的方式:神经模块网络,论文作者设计了三种模块:attention,logic,output,G-Relate是attention的其中之一
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)
G-Relate的核心就是计算转移矩阵以转移注意力,Wh就是转移矩阵
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)

以下是计算转移矩阵的方法:
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)
uij={U1,U2,…,Un},为i到j的路径
上图中从phone到coffee有两条路径
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)
lij为拓扑距离,L为规定的长度
拓扑距离为1:一阶关联
拓扑距离在1~L之间:高阶关联
拓扑距离超过L:不认为有关联

———————————-一些破碎的想法————- ———————-
今天是开学的第二天。
我不想去上课。

昨天买了一个奥利奥千层蛋糕
希望不要踩雷。

版权声明:本文为博主糖豆豆今天也要努力鸭原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/qq_40349484/article/details/123200977

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2022年3月3日 下午6:05
下一篇 2022年3月3日 下午6:26

相关推荐