MonkeyOCR

3个月前发布 75 0 0

MonkeyOCR 是一款基于大型语言模型(LLM)的轻量级文档解析模型,专注于结构化文档解析任务。

收录时间:
2026-03-10
MonkeyOCRMonkeyOCR

MonkeyOCR 是一款基于大型语言模型(LLM)的轻量级文档解析模型,专注于结构化文档解析任务。其核心创新在于采用“结构-识别-关系”(SRR)三元组范式,将非结构化文档中的文本、表格、公式等内容精准转换为机器可读的结构化数据。该模型在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B等顶级模型,展现出卓越的性能。

MonkeyOCR项目官网入口网址:https://github.com/Yuliang-Liu/MonkeyOCR

MonkeyOCR 的模型参数量仅为3B,具有轻量级架构,支持中英文文档解析,适配10+文档类型,包括学术论文、发票、报表等复杂文档类型。其处理速度达到每秒0.84页,显著优于其他同类工具(如MinerU和Qwen2.5-VL-7B)。该模型支持多语言支持、复杂文档处理、表格与结构化数据提取等功能,适用于金融、教育、医疗等领域的文档自动化处理。

MonkeyOCR 的部署方式灵活,支持本地和云端部署,可在单个NVIDIA 3090 GPU上高效运行,满足不同规模应用需求。其开源资源丰富,包括GitHub仓库、在线Demo和论文,便于开发者和研究人员使用。

MonkeyOCR 采用结构-识别-关系(SRR)三元组范式,将文档解析过程分为结构检测、内容识别和关系预测三个阶段,有效提升复杂文档处理的效率和准确性。该模型在公式识别、表格还原等难点任务上表现突出,性能提升显著。

MonkeyOCR 是当前文档智能领域最具实用价值的技术方案之一,为文档数字化和自动化处理提供了强大的支持。

数据统计

相关导航

讯飞星辰MaaS平台

讯飞星辰MaaS平台

讯飞星辰 MaaS 平台是科大讯飞面向开发者打造的智能化模型精调服务平台,构建起贯穿 “数据 - 模型 - 服务” 全链路的工程化解决方案。平台提供数据增强处理、模型精调优化、效果量化评估及一键部署的的端到端开发能力;同时兼容主流开源模型生态,支持第三方模型托管。基于自研分布式训练架构与智能算力调度系统,结合 LoRA 等高效参数优化技术,平台实现大模型定制化开发的标准化、工程化,有效降低企业大模型相关业务开发成本与技术门槛,加速推动各行业智能化升级进程。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...