翻译标题:视觉推理的外部知识整合
一句话简介:用场景图做VQA
这篇论文提出了两个贡献:
1.Knowledge Incorporation Network,简称KI-Net,用于将外部知识图谱和场景图合并,生成更丰富的场景图
2.Graph Relate模块,简称G-Relate,用于将注意力转移,以获得高维注意力
1.KI-Net
模型框架中的那个黄色框。输入是外部数据集生成的知识图谱和该图像生成的场景图。具体合并流程如下:
(1)拓扑扩展
把场景图和知识图谱相同含义的结点桥接在一起,比如SG中的snow就和KG中的snow用一条边连了起来,这是为了之后的消息传递
然后给场景图添加新的备选结点:如果场景图中存在某个结点(man),这个结点知识图谱中也有,而且知识图谱中的结点和另一个结点(shirt)是邻接的关系,那么把“另一个结点”和它的谓语加到场景图上,特征用的是知识图谱的特征,即word embedding
(2)语义细化
得到合并后的场景图后,首先进行消息传递。消息传递的方法来自以下论文
Bridging knowledge graphs to generate scene graphs
传递完毕后,每个结点vi就有了自己的特征hi,然后进行另一种消息传递,即图注意力网络,用来计算相关性矩阵。因为从知识图谱中加进去的跟图像不一定有关系。
对于所有节点,这里的节点包括场景图的宾谓和知识图的宾谓
mij构成M,就是相关矩阵了
如果候选节点与相邻节点的相关性得分之和小于某个阈值,则将其丢弃。我认为这里的“节点”应该只指对象节点。丢弃候选节点并丢弃与其连接的谓词。
这样就得到了一个丰富的场景图(enriched scene graph)
2.G-Relate
推理的方式:神经模块网络,论文作者设计了三种模块:attention,logic,output,G-Relate是attention的其中之一
G-Relate的核心就是计算转移矩阵以转移注意力,Wh就是转移矩阵
以下是计算转移矩阵的方法:
uij={U1,U2,…,Un},为i到j的路径
上图中从phone到coffee有两条路径
lij为拓扑距离,L为规定的长度
拓扑距离为1:一阶关联
拓扑距离在1~L之间:高阶关联
拓扑距离超过L:不认为有关联
———————————-一些破碎的想法————- ———————-
今天是开学的第二天。
我不想去上课。
昨天买了一个奥利奥千层蛋糕
希望不要踩雷。
版权声明:本文为博主糖豆豆今天也要努力鸭原创文章,版权归属原作者,如果侵权,请联系我们删除!
原文链接:https://blog.csdn.net/qq_40349484/article/details/123200977