IBM发布Granite-Docling-258M小型模型,定位为端到端文件转换的视觉语言模型,采Apache 2.0授权开源并已上架Hugging Face。官方强调这是一个针对文件转换而生的小型模型,参数量2.58亿,输出可完整保留版面、表格、数学式、清单与程序代码区块等结构,适合后续以RAG创建可检索的数据资产。与传统直接转为Markdown,容易与来源内容脱钩的OCR流程相比,Granite-Docling的结构化输出更贴近原始文件,降低后处理不确定性。
Granite-Docling模型与Docling函数库是互补关系。Docling提供可组合的文件转换软件层,能串联表格解析、数学式与程序代码解析、ASR与OCR等专用模型与CLI工具,方便即插即用地集成矢量数据库与代理式工作流程。而Granite-Docling模型则可作为其中的单一VLM节点,一次完成形象到结构化输出,利用单一步骤转换减少多阶段工作管线的误差累积,同时保有以Docling进行错误处理与定制化的弹性。
Granite-Docling的核心是DocTags,这是一套由IBM Research设计的通用文件结构标记语言,能精确描述页面元素的类型、坐标、阅读顺序与跨元素关联,例如图与其说明的对应关系。由于DocTags将内容与版面结构明确分离,模型可先界定元素范围再执行OCR,待完成转换后,DocTags可直接转为Markdown、JSON或HTML,或送入Docling函数库的处理流程。
此次发布被视为今年3月SmolDocling-256M-preview的产品演进,新模型以Granite3为语言骨干并采用SigLIP2视觉编码器,延续先前方法论同时提升稳定性。过去预览版偶见在页面局部出现相同Token反复出现的情形,团队此次通过数据集过滤与标注清理降低不一致样本,目标是在大量文件处理场景中维持流程稳定而不被单点错误拖累。
在语言能力方面,Granite-Docling提供对阿拉伯文、中文与日文等的实验性支持,目前尚未标示为企业等级的稳定水准,后续将持续扩展语言覆盖与可靠性。IBM也同步推进docling-eval评测组件与数据集策划,规划创建标准化排行榜,以便各类文件理解决方案案比较。
IBM计划发展更大参数等级的Granite-Docling模型版本,但会维持在10亿参数以下以兼顾速度与硬件弹性,并提升DocTags与IBM watsonx.ai模型的兼容性,之后也会将DocTags词汇纳入Granite的分词器(Tokenizer)与训练配方。