LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
基本信息
- 论文链接:arxiv
- 发表时间:2022
- 应用场景:文档信息抽取
摘要
存在什么问题 | 解决了什么问题 |
---|---|
1. 自从LayoutLM提出后,有很多基于自监督预训练的多模态技术在文档理解任务取得了瞩目的成绩,在文本模态上基本保持一致,采取MLM预训练策略,但是在图像模态上的预训练任务往往是不同的,这些不同无疑增加了多模态特征学习的难度。 | 1. 提出了一个采取统一文本和图像掩膜任务并应用于Document AI的多模态预训练模型——LayoutLMv3。 2. 不再需要预训练CNN或者Faster-RCNN进行视觉特征抽取。 3. LayoutLMv3不论在text-centric task还是image-centric task上均取得了SOTA。 |
模型结构
Embedding
Text Embedding
采取预训练好的RoBERTa生成每个token的 text embedding。
Layout Embedding
和v1、v2不同的是,这里采用了segment level layout emebdding,即每个token都共用了ocr检测框的坐标,进而生成相应的embedding vector,这么做的原因是每个ocr框中的单词通常都代表相同的语义信息。
Image Embedding
不同于先前的文档理解多模态模型,大都需要一个CNN或者Faster-RCNN抽取图片上的视觉信息。
从VIT收到启发,直接采用VIT的预处理策略:图片resize->分patch->线性映射,组成shape=的tensor,再加上其1d position embedding,就构成了视觉特征。
这样做降低了模型参数量、移除了相对较复杂的预处理流程。
作者通过先前实验发现这里用1d position embedding就够了,因为2d position embedding并没有收益。
Self-attention
沿用layoutLMv2的spatial aware self attention。
Pre-training Objectives
Masked Language Modeling(MLM)
每次mask掉30%的token。
不再是随机、孤立的mask掉某个token,而是一次性mask一定长度的tokens。长度从泊松分布(λ=3)中抽样确定。从视觉上下文token()以及文本上下文token()来预测这些被mask掉的token。注意视觉信息要同时被mask掉。
Masked Image Modeling(MIM)
随机mask掉约40%的image toke,mask策略采用blockwise masking strategy。(具体参照Beit)。
被mask掉的patch通过image tokenizer转化为离散的数字(image tokenizer来源于预训练DiT),进而对这些masked patch进行预测即可。
Word-Patch Alignment(WPA)
前俩预训练任务没有显式的做visual和text之间的模态对齐。
对于前两个任务所产生的输入,这里会对每个text token赋予<aligned>以及<unaligned>标签。
对于那些text token没被MLM掉,但是被MIM掉(每个text token会有其位置信息的)的,赋予<unaligned>标签。对于那些没被MLM掉,也没被MIN掉的,赋予<aligned>标签。
对于以上被标记了的token,通过两层FC进行预测是aligned还是unaligned,所以是一个二分类。
这里要忽略掉那些被MLM掉的text token,即它们不参与loss计算,这么做事为了防止模型从masked text以及image patch之间学到一些没什么用的关系。
实验
-
Base和Large模型均在多数数据集上取得SOTA。
-
文档版面分析任务上,仅用视觉模态作为输入抽取图像特征后输入给Cascade R-CNN的Neck,取得SOTA效果。
-
消融实验,三个预训练任务全上效果是最好的。
总结
- LayoutLMv3对LayoutLM系列模型的预训练方法进行了重新设计,不再有视觉模型,转而采用VIT代替,减少了模型参数。采用MLM、MIM以及MPA三项预训练任务来学习多模态特征表示,在image-centric以及text-centric任务上取得多个SOTA。
- RoBerta、Beit的后续学习。
文章出处登录后可见!