赞
踩
传统的文档理解任务,通常的做法是先经过预训练,然后微调相应的下游任务及数据集,如文档图像分类和信息提取等,通过结合图像、文本和布局结构的预训练知识来增强文档理解。LayoutLLM是一种结合了大模型和视觉文档理解技术的单模型方法,通过多模态指令数据集的微调来提高对图像文档的理解和分析能力。
在此之前,先简单介绍下LayoutLLM的编码器LayoutLMv3。
概述:文本的布局信息使用了片段级别,一段文本共用一组坐标。视觉借鉴了ViT的方法替换CNN,减少了参数以及省去了很多的预处理步骤。使用了两种新的损失MIM和WPA进行预训练。
paper:LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
link:https://arxiv.org/abs/2204.08387
code:https://github.com/microsoft/unilm/tree/master/layoutlmv3
LayoutLLM主要由两部分组成:编码器(Encoder)和解码器(Decoder)。
结合大模型,通过对不同的下游任务设定提示词。LayoutLLM能够理解不同类型的VrDU任务,并结合文档的特征来生成适当的响应。这种方法使得单一模型能够灵活地处理多种任务,而不需要为每个任务单独训练模型。
prompt格式和Alpaca模型的格式保持一致:
The previous information is about document images.
Below is an instruction that describes a task. Write a
response that appropriately completes the request.
### Instruction: {instruction}
### Response
文档分类:
“执行文档分类。分类标签是...”。
文档信息提取:
“执行文档信息提取。分类标签是... 输出格式是一组提取词及其标签,用逗号分隔。如果存在多个提取目标,使用\n作为分隔符并分割输出。”。
这个提示指导模型识别文档中的语义实体,并按照指定的格式输出提取的信息和标签。
文档问答:
“执行文档问答。问题是...”。
本文介绍了一种传统布局模型结合大模型做文档理解的方法:LayoutLLM。这个框架通过结合VrDU编码器来捕捉文档图像的特征,以及使用LLM作为解码器来处理任务指令,有效地提高了对文档图像的理解和分析能力。
【1】LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking,https://arxiv.org/abs/2204.08387
【2】LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding,https://arxiv.org/abs/2403.14252
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。