多模态知识图谱论文阅读笔记（二）AliMe MKG: A Multi-modal Knowledge Graph for Live-streaming E-commerce

社会演员多 • 2022年4月1日下午6:31 • 技术文章 • 阅读 696

AliMe MKG: A Multi-modal Knowledge Graph for Live-streaming E-commerce

这是阿里淘宝电商的一个多模态知识图谱，他没有上一篇文章Richpedia那样复杂，只是在原来的图谱基础上增加了图片，只有Richpedia中的第一种三元组（文本，hasimage，图片）。他没有图片文本之间复杂的关系，没有图片与图片之间复杂的关系。（个人认为就是一个图文匹配任务，选择合适的模型就好）
首先要明确，AliMe构建图片多模态图谱的目的不是构建过程本身，而在于应用，这是跟Richpedia区别最大的地方之一，论文末尾介绍了阿里将他作为直播助手、问答系统等一系列应用。所以如果想要图谱落地，可以借鉴这种方法，如果是想从多模态图谱的构建入手，这篇论文就过于简单（当然本身这文章就写的很简单）。
图片来自论文本体

根据论文的阐述，图谱中的图片都是从商品页面获取到的，每张图片会对应一些文本描述，这些描述应该是来自知识图普里的实体节点或者跟某些实体有关的描述，分别对图片和句子去编码，作者比较了Pixel-BERT、CMM_RESnet等模型效果（写的很简单），选择了比较好的一些方法来处理图片和文本，最后聚合信息进行匹配。
图片来源于论文

感觉很多事情都没有说的很详细。下图是文章给出的一个图表的子图。根据他的子图和匹配方案，应该是在使用图的过程中，通过推理产生一系列描述，然后顺带产生。给出相应的图片。

图片来自论文

总结

多模态知识图谱构建中的多模态知识融合或多模态语义可以看作是跨模态匹配（或检索），如图像-文本匹配（或检索）、视频-文本匹配（或检索）。

文章出处登录后可见！

已经登录？立即刷新

多模态知识图谱论文阅读笔记（二）AliMe MKG: A Multi-modal Knowledge Graph for Live-streaming E-commerce

AliMe MKG: A Multi-modal Knowledge Graph for Live-streaming E-commerce

总结

相关推荐