news 2026/7/5 13:32:13

百度:渐进多令牌预测加速文档解析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
百度:渐进多令牌预测加速文档解析

📖标题:P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling
🌐来源:arXiv, 2606.24447v1

🛎️文章简介
🔸研究问题:如何解决视觉语言模型在文档解析任务中因自回归解码导致的推理延迟高及多令牌预测深层优化不稳定的问题?
🔸主要贡献:论文提出P-MTP框架,通过渐进课程损失和置信度门控动态起草机制,实现文档解析高达5倍加速且精度无损。

📝重点思路
🔸采用轻量级串行共享MLP作为多令牌预测模块,在单次前向传播中循环生成多个前瞻令牌,平衡了建模能力与计算开销。
🔸设计渐进课程损失用于训练,包含序列路径约束和回溯目标约束,根据累积概率自适应加权,抑制远距离预测的梯度噪声。
🔸利用上述动态权重机制实现从易到难的自动优化过渡,使模型能稳定扩展至9层甚至更深的预测深度,避免传统静态权重的局限。
🔸提出置信度门控动态起草策略用于推理,依据实时累积联合概率自适应调整起草长度,在高确信度时延长预测,低确信度时及时截断。
🔸建立可靠性感知的阈值校准方法,将推理置信度阈值与训练终端损失及预测深度关联,确保推理行为与训练时的课程学习动态一致。

🔎分析总结
🔸在PubTabNet等基准测试中,P-MTP在保持TEDS分数与基线持平的情况下,实现了最高5.24倍的推理加速,验证了深层前瞻预测的有效性。
🔸消融实验表明,动态权重策略显著优于固定权重或静态衰减权重,且序列约束与回溯约束的协同作用是提升接受率和加速比的关键。
🔸相比固定深度起草,置信度门控动态起草在不同预测深度下均提升了平均接受长度,有效减少了无效计算,进一步推高了吞吐量。
🔸该方法具有良好的通用性与扩展性,在InternVL、Qwen3-VL等不同基座模型及公式、表格、通用文档解析任务上均取得显著加速效果。
🔸模型规模缩放实验显示,随着参数量增加,方法的平均接受长度单调上升,证明大模型更强的长程依赖捕获能力有利于多令牌预测。

💡个人观点
论文不同于以往依赖静态权重的做法,设计了轨迹感知的动态损失权重,将训练时的课程学习思想延伸至推理阶段,通过置信度门控实现了“按需预测”。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/5 13:32:10

第29篇:数据隐私增强技术:DISC安全底座的技术实现

联邦学习、机密计算、同态加密、差分隐私、安全多方计算——五大隐私增强技术在DISC架构中的角色与应用 一、一个技术选型的困惑 某企业CTO在规划DISC-DAMA安全底座时,面对五大隐私增强技术感到困惑。[1] “联邦学习和安全多方计算有什么不同?看起来都…

作者头像 李华
网站建设 2026/7/5 13:32:05

Claude Code Session 恢复机制详解,从 --continue 到 /resume 的工程化工作流

写代码时最怕的不是 Claude Code 停下来,而是停下来以后,前面半小时、两个小时、甚至一整天积累的上下文断掉。一个复杂任务里,Claude Code 可能已经读过几十个文件,跑过测试,理解过某个模块的依赖关系,还和我们来回确认过实现边界。这个时候退出终端,或者执行 /clear 清…

作者头像 李华
网站建设 2026/7/5 13:30:22

在C#中选择正确的集合进行编码

要选择正确的集合,我们首先要了解一些数据结构的知识。所谓数据结构,就是相互之间存在一种或多种特定关系的数据元素的集合。结合下图,我们看一下对集合的分类。 集合分类 在上图中,可以看到,集合总体上分为线性集合和…

作者头像 李华
网站建设 2026/7/5 13:29:44

MK20DN128VFM5驱动WS2812B LED灯带的嵌入式开发实践

1. 项目概述:WS2812与MK20DN128VFM5的完美组合 在嵌入式开发领域,WS2812智能LED与MK20DN128VFM5微控制器的组合堪称绝配。WS2812作为一款集成了控制电路和RGB芯片的智能LED,以其单线通信、级联控制的特点广受欢迎。而MK20DN128VFM5则是NXP公司…

作者头像 李华
网站建设 2026/7/5 13:28:43

PIC18F46K80与74HC32实现高效2x2键盘矩阵方案

1. 项目背景与核心需求在嵌入式系统开发中,键盘矩阵是最常见的人机交互接口之一。传统4x4矩阵键盘需要占用8个GPIO引脚,这对于资源有限的微控制器系统来说是个不小的负担。而2x2键盘矩阵只需要4个引脚,配合74HC32或门芯片,可以实现…

作者头像 李华