在今年年初麻省理工科技评论将小模型(Small Language Model)评为2025 年十大突破性技术之一,认为随着大模型的边际收益逐渐减小,小模型有望在特定任务中媲美甚至超越大模型。而最近小模型圈子的一系列成果,都在印证这个趋势——从谷歌的 Gemma3、微软的 Phi4-mini 再到 Mistral 的 Small 3.1……小模型一天比一天精悍。
最近 IBM 和 Hugging Face 的研究人员又联合推出了一个新的小型视觉-语言模型 SmolDocling,这款专为文档转换任务而设计的模型,居然只用 256M 的参数就在各项基准测试上超越了更大规模的其他模型。
SmolDocling 基于 Hugging Face 的 SmolVLM 架构,可以处理整个页面的内容,并通过生成“DocTags”(一种新型通用标记格式)精确捕捉页面元素及其位置和上下文信息。与依赖手工制作的流水线或大型基础模型不同,SmolDocling 采用端到端的转换方法,只需 256M 参数的规模就能准确捕获文档元素的内容、结构和空间位置。研究团队称,它在各种文档类型中都表现出色,包括商业文档、学术论文、技术报告、专利和表格等,能够正确再现代码列表、表格、方程式、图表和列表等多样化文档特征。
在公式识别方面,SmolDocling 达到了 0.95 的 F1 分数,与 GOT 相当,且明显优于其他模型。该研究还首次对代码列表识别任务进行了评估,SmolDocling 在这一领域设立了初始基准,精确率和召回率分别为 0.94 和 0.91。
布局分析任务中,SmolDocling 在 DocLayNet 测试集上的表现明显超过了 Qwen2.5-VL-7b。不过两个模型的得分都低于人类基线,原因主要在于数据集本身的复杂性。表格结构识别方面,尽管测试数据集的图像质量较低,SmolDocling 仍然表现出与更大模型相当的能力。
从许多用户的实测表现上来看,模型的表现的确可圈可点。不过有用户反映,对于表格转为 markdown 或 HTML 的任务,SmolDocling 与其他多模态模型一样,偶尔会出现一些幻觉问题,但对于列边界不明确的表格处理表现还算不错。另一位用户评价道,对于如此小体积的模型来说,其表现还是很不错的,虽然相对来说不够准确,但有望成为 PDF 提取的实用工具。
在实际使用中,SmolDocling 处理一页文档仅需 0.35 秒(在单个 A100 上),只占用 489MB 的显存,甚至可以在手机上就能使用。
那么,SmolDocling 究竟是如何做到在如此小的参数规模下实现这种性能表现的呢?这就要谈到它的架构、训练方法和数据处理策略。
从架构上来说,它所基于的 SmolVLM-256M 架构由两大核心部分组成:视觉编码器和语言骨干。视觉编码器采用 SigLIP base patch-16/512(93M 参数)作为视觉骨干,与 2.2B 版本的同一模型相比,其训练数据重新平衡,更加强调文档理解(41%)和图像描述(14%),结合了 Cauldron、Docmatix 数据集并添加了 MathWriting。模型采用比较激进的像素混洗方法,将每个 512x512 图像块压缩为 64 个视觉标记。
语言骨干则使用 SmolLM-2 家族(135M 参数)的轻量级变体,并通过提高像素到标记的比率(每个标记 4096 像素)和引入子图像分隔符的特殊标记,进一步提升了标记化效率。
研究人员开发的 DocTags 标记格式是 SmolDocling 的另一项核心。这是一种基于 XML 风格的结构化词汇,明确分离文本内容和文档结构,从而提高了图像到序列模型的性能。DocTags 使用开放和关闭标签包裹文本块,独立标签表示指令,支持全面的文档结构表示,包括页面、布局和元素位置。每个元素可以嵌套位置标签,使用固定网格坐标系(0-500)指定其在页面上的边界框。
此外,DocTags 还集成了 OTSL 词汇表用于编码表格结构,支持列表处理、图片和表格的标题、代码格式保留等多种功能,为文档转换提供了统一而高效的表示方式。
对于小模型来说,训练数据的质量尤其重要。而在 SmolDocling 的过程中,研究人员首先在预训练阶段利用了 DocLayNet-PT(140 万页带有弱标注的数据集)和 Docmatix(130 万文档)。
其中,DocLayNet-PT 是从 DocFM 数据集中提取的,包含来自 CommonCrawl、和商业相关文档的特殊 PDF 文件,专门选择了具有视觉多样性的内容(方程式、表格、代码、图表、彩色布局)。研究团队通过一系列处理步骤添加了弱标注,包括 PDF 解析和增强,为每个页面提供布局元素、表格结构、语言、主题和图形分类的注释。
此外,研究人员还针对布局、表格、图表、代码和公式等特定任务准备了专门的数据集。布局数据包括 DocLayNet v2(6 万页)、WordScape(6.3 万页)和 SynthDocNet(25 万页);表格数据来自 PubTables-1M、FinTabNet 和 WikiTableSet;图表数据基于 FinTabNet 的 9 万个表格生成,总计 250 万个图表;代码数据集包含 930 万代码片段,覆盖 56 种编程语言;公式数据集则包含 550 万个特殊公式。
训练采用课程学习方法,逐步对齐模型进行文档转换。首先将 DocTags 作为标记添加到分词器中,冻结视觉编码器,只训练网络其余部分,适应新的输出格式。接着解冻视觉编码器,在预训练数据集上训练模型,同时使用所有任务特定的转换数据集。最后,使用所有可用数据集进行微调,确保模型能够全面把握各种文档元素和特征。
由此,SmolDocling 得以在文档处理任务上实现了良好的表现。并且,与传统的集成系统相比,SmolDocling 还展示出独特的鲁棒性优势。由于其转换输出是在单次处理中推断的,避免了错误在模型流水线中累积的问题。例如,即使表格位置识别不准确,SmolDocling 仍能正确重现表格结构和内容,避免了错误在处理流程中的累积。
不过研究团队表示,其页面元素定位识别能力仍有提升空间,这也将是他们未来工作的重点。团队计划公开更多数据集,推动文档理解领域的发展。目前,SmolDocling 已在 HuggingFace 平台上提供预览版(链接:)。
03月13日,黎巴嫩领导人:美国在红海的所作所为将损害航运安全,赌场游戏官方,fun88体育网,英语国际音标真人发音教学,yb鸭脖平台
03月13日,《黑神话:悟空》里的法宝现身上海闵行博物馆,AG是假的吗,ag电玩城游戏大厅,新宝gg世界杯内幕,斗球官方网站下载
03月13日,海外青少年热游“冰城”:打卡东北虎林园 冰雪大世界“嘎嘎冷”,奥门新匍京,金狮贵宾会登录中心,八卦天数,HTH华体会
03月13日冰岛西南部一座火山喷发米乐全站APPbt体育下载app官网线上博狗网址新濠天地苹果版
03月13日中国航发:未来20年中国商用航空发动机预计将交付1.9万台AG真人靠谱网站必威官网多少博鱼手机版登陆欧亿体育平台可靠吗
03月13日国家邮政局:春运前期年货寄递需求增长,业务量会出现一波小高峰英亚app下载2019欧洲杯预选赛赛程188足球比分网365bet体育真人……
03月13日,考古题材纪录片:讲述中华文明的精彩故事,波胆比分官网,热血无赖麻将,天博竞彩官网,亚博APP安卓
03月13日,(巴黎奥运)体操女子平衡木决赛:中国选手周雅琴获银牌,皇宫备用网址,江南官方体育网站首页,钻石娱乐登录网址,亚洲体育app
03月13日年味“调料”:江西乐平制作“香烟糖”迎新春百老汇官网注册送利宝娱乐欧博app官方2020年欧洲杯比分
03月13日,天津首家老字号集合店开业,万赢国际网站怎么样,亚博国际官网登录,龙8国际真人,爱游戏体育
03月13日,科普图书面向“星辰大海” 与时代同频共振,威客电竞app,足球外围前十平台,比威体育官网,博狗体育平台娱乐
03月13日,中青网评:从“年味儿”里窥见“泉州名片”,大富豪老版本,玩棋牌牛牛怎么赢,龙8国际全站APP,AG真人全站APP
03月13日习离京赴利马出席亚太经合组织第三十一次领导人非正式会议并对秘鲁进行国事访问贝搏体育登路华夏彩票app官网下载王中王彩料宝马会官网APP
03月13日每小时60.6个自然箱 山东港口青岛港自动化码头再创世界纪录有玩抢庄牛牛千亿网址是多少乐动体育网址多少必威注册页面在哪里
03月13日中亚国家“Z世代”敦煌行 骑骆驼画飞天体验丝路文化官方最大赌场体育彩票投注网站obo体育官网最新开元所有网址
切尔西2比0塞尔维特,诡秘之罪中老铁路开通三年 运送免签入境旅客占比达87%AG娱乐亚美平台app龙8官网手机版下载安装永利集团手机版欧亿体育
31省份2023年经济“成绩单”,喂帅哥!!2美国芝加哥一警察下班后遭枪击身亡 市长:感到悲痛366体育网址多少博鱼线路检测博鱼体育注册登录天博官网地址查询
江西一身穿制服人员殴打饭店老板,中国00后要强又真强聚焦“上海师傅”的技艺和智慧结晶 上海工匠创新成果展在沪开幕开博体育官网首页网址国际ag馆平台沙巴体育篮球玩法葡京会下载安装
绍伊古参观中国航展,虞书欣连续137天没休息“世界读书日”临近 贵州民众共享书香云顶娱乐网页投注j9九游会网站伟德足球网千赢国际在哪开户
耗资20亿的古城 日均卖票不到20张,做朱旺旺的朋友有多幸福外交微故事|一份国礼见证中法文明交流互鉴美高梅现金卷胜负彩比分网爱体育app官方登录撲克王官方网站
白荆回廊雪中春信,土耳其向叙利亚方向发射大量炮弹财政部:一季度全国一般公共预算收入60877亿元九州体育网站是多少Ag8亚洲游亚新体育注册App美高梅体育平台
男子救人被捅 获救者至今未说谢谢,广州:呼吸道疾病以流感为主中蒙跨境自驾游“万里茶道”蓝色之旅启动888集团vip登录尊龙凯时新版APP首页凤凰彩票真人球探足球比分app下载