先看效果

项目简介

Dolphin（Document Image Parsing via Heterogeneous Anchor Prompting）是一种创新的多模态文档图像解析模型，采用”先分析后解析”的范式。本仓库包含Dolphin的演示代码和预训练模型。

🌟 核心特性

• 🔄 基于单一视觉语言模型的两阶段”先分析后解析”方法
• 📊 在文档解析任务中展现卓越性能
• 🔍 自然阅读顺序的元素序列生成
• 🧩 针对不同文档元素的异构锚点提示
• ⏱️ 高效的并行解析机制
• 🤗 支持Hugging Face Transformers以便集成

📑 概述

文档图像解析面临文本段落、图表、公式和表格等元素复杂交织的挑战。Dolphin通过两阶段方法解决这些问题：

1. 🔍 第一阶段：通过生成自然阅读顺序的元素序列，进行全面的页面级布局分析
2. 🧩 第二阶段：使用异构锚点和任务特定提示高效并行解析文档元素

Dolphin通过轻量级架构和并行解析机制，在多样化页面级和元素级解析任务中展现出卓越性能。

🛠️ 安装指南

1. 克隆仓库：
git clone https://github.com/ByteDance/Dolphin.git cd Dolphin
2. 安装依赖：
pip install -r requirements.txt
3. 下载预训练模型：
选项A：原始模型格式（基于配置）
从百度网盘或Google云端硬盘下载，放入./checkpoints文件夹
选项B：Hugging Face格式
访问我们的Huggingface模型页，或通过命令下载：
`# 从Hugging Face Hub克隆
git lfs install
git clone https://huggingface.co/ByteDance/Dolphin ./hf_model
或使用Hugging Face CLI

huggingface-cli download ByteDance/Dolphin --local-dir ./hf_model`

⚡ 推理使用

Dolphin提供两种推理框架，支持两种解析粒度：

• 页面级解析：将整个文档图像解析为结构化JSON和Markdown格式
• 元素级解析：解析单个文档元素（文本、表格、公式）

📄 页面级解析

使用原始框架（基于配置）

`# 处理单张文档图像
python demo_page.py --config ./config/Dolphin.yaml --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results

处理目录下所有文档图像

python demo_page.py --config ./config/Dolphin.yaml --input_path ./demo/page_imgs --save_dir ./results

自定义批处理大小进行并行元素解码

python demo_page.py --config ./config/Dolphin.yaml --input_path ./demo/page_imgs --save_dir ./results --max_batch_size 8`

使用Hugging Face框架

`# 处理单张文档图像
python demo_page_hf.py --model_path ./hf_model --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results

处理目录下所有文档图像

python demo_page_hf.py --model_path ./hf_model --input_path ./demo/page_imgs --save_dir ./results

自定义批处理大小进行并行元素解码

python demo_page_hf.py --model_path ./hf_model --input_path ./demo/page_imgs --save_dir ./results --max_batch_size 16`

🧩 元素级解析

使用原始框架（基于配置）

`# 处理单张表格图像
python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/table_1.jpeg --element_type table

处理单张公式图像

python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/line_formula.jpeg --element_type formula

处理单张文本段落图像

python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/para_1.jpg --element_type text`

使用Hugging Face框架

`# 处理单张表格图像
python demo_element_hf.py --model_path ./hf_model --input_path ./demo/element_imgs/table_1.jpeg --element_type table

处理单张公式图像

python demo_element_hf.py --model_path ./hf_model --input_path ./demo/element_imgs/line_formula.jpeg --element_type formula

处理单张文本段落图像

python demo_element_hf.py --model_path ./hf_model --input_path ./demo/element_imgs/para_1.jpg --element_type text`

💖 致谢

我们感谢以下开源项目的启发和参考：

• Donut
• Nougat
• GOT
• MinerU
• Swin
• Hugging Face Transformers

项目地址

https://github.com/bytedance/Dolphin/blob/master/README.md

扫码加入技术交流群，备注「开发语言-城市-昵称」

（文：GitHubStore）

字节开源高效解析文档图像的新型多模态模型Dolphin，快速将复杂的文档图像转化为结构化数据。最先出现在每时AI。

字节开源高效解析文档图像的新型多模态模型Dolphin，快速将复杂的文档图像转化为结构化数据。

先看效果

项目简介

🌟 核心特性

📑 概述

🛠️ 安装指南

或使用Hugging Face CLI

⚡ 推理使用

📄 页面级解析

使用原始框架（基于配置）

处理目录下所有文档图像

自定义批处理大小进行并行元素解码

使用Hugging Face框架

处理目录下所有文档图像

自定义批处理大小进行并行元素解码

🧩 元素级解析

使用原始框架（基于配置）

处理单张公式图像

处理单张文本段落图像

使用Hugging Face框架

处理单张公式图像

处理单张文本段落图像

💖 致谢

项目地址

斯坦福研究人员发布OpenJarvis：一个本地优先框架，用于使用工具、记忆和学习构建设备端个人AI代理

NVIDIA发布Nemotron 3超级模型：一款具有120亿参数的开源混合Mamba-Attention MoE模型，为代理AI提供5倍更高的吞吐量。

NVIDIA AI发布Nemotron-Terminal：一个用于扩展LLM终端代理的系统数据工程流程。

字节跳动推出 DeerFlow 2.0：一个开源超级代理调度器，可以协调子代理、内存和沙箱来完成复杂任务。

Andrew Ng团队发布Context Hub：一款开源工具，为您的编码代理提供所需的最新API文档。

从0到1快速打造超级家庭之路

跟着安爸直播免费学编程

开源UI到代码生成工具！模块化多智能体，精准还原，支持快速原型与前端自动化！

我用纳米AI的智能体蜂群做了一个财报分析视频

用了半天 GPT-5，写作编程让我又爱又恨，200 刀的最强 Pro 版本到底值不值

字节开源高效解析文档图像的新型多模态模型Dolphin，快速将复杂的文档图像转化为结构化数据。

先看效果

项目简介

🌟 核心特性

📑 概述

🛠️ 安装指南

或使用Hugging Face CLI

⚡ 推理使用

📄 页面级解析

使用原始框架（基于配置）

处理目录下所有文档图像

自定义批处理大小进行并行元素解码

使用Hugging Face框架

处理目录下所有文档图像

自定义批处理大小进行并行元素解码

🧩 元素级解析

使用原始框架（基于配置）

处理单张公式图像

处理单张文本段落图像

使用Hugging Face框架

处理单张公式图像

处理单张文本段落图像

💖 致谢

项目地址

📚 相关文章