IBM开源Granite-Docling小模型，2.58亿参数高效处理复杂文件结构与表格

IBM发布Granite-Docling-258M小型模型，定位为端到端文件转换的视觉语言模型，采Apache 2.0授权开源并已上架Hugging Face。官方强调这是一个针对文件转换而生的小型模型，参数量2.58亿，输出可完整保留版面、表格、数学式、清单与程序代码区块等结构，适合后续以RAG创建可检索的数据资产。与传统直接转为Markdown，容易与来源内容脱钩的OCR流程相比，Granite-Docling的结构化输出更贴近原始文件，降低后处理不确定性。

Granite-Docling模型与Docling函数库是互补关系。Docling提供可组合的文件转换软件层，能串联表格解析、数学式与程序代码解析、ASR与OCR等专用模型与CLI工具，方便即插即用地集成矢量数据库与代理式工作流程。而Granite-Docling模型则可作为其中的单一VLM节点，一次完成形象到结构化输出，利用单一步骤转换减少多阶段工作管线的误差累积，同时保有以Docling进行错误处理与定制化的弹性。

Granite-Docling的核心是DocTags，这是一套由IBM Research设计的通用文件结构标记语言，能精确描述页面元素的类型、坐标、阅读顺序与跨元素关联，例如图与其说明的对应关系。由于DocTags将内容与版面结构明确分离，模型可先界定元素范围再执行OCR，待完成转换后，DocTags可直接转为Markdown、JSON或HTML，或送入Docling函数库的处理流程。

此次发布被视为今年3月SmolDocling-256M-preview的产品演进，新模型以Granite3为语言骨干并采用SigLIP2视觉编码器，延续先前方法论同时提升稳定性。过去预览版偶见在页面局部出现相同Token反复出现的情形，团队此次通过数据集过滤与标注清理降低不一致样本，目标是在大量文件处理场景中维持流程稳定而不被单点错误拖累。

在语言能力方面，Granite-Docling提供对阿拉伯文、中文与日文等的实验性支持，目前尚未标示为企业等级的稳定水准，后续将持续扩展语言覆盖与可靠性。IBM也同步推进docling-eval评测组件与数据集策划，规划创建标准化排行榜，以便各类文件理解决方案案比较。

IBM计划发展更大参数等级的Granite-Docling模型版本，但会维持在10亿参数以下以兼顾速度与硬件弹性，并提升DocTags与IBM watsonx.ai模型的兼容性，之后也会将DocTags词汇纳入Granite的分词器（Tokenizer）与训练配方。