news 2026/3/1 12:07:17

VARIATIONAL REASONING FOR LANGUAGE MODELS粗读

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
VARIATIONAL REASONING FOR LANGUAGE MODELS粗读

这是一篇推导很多的文章,有时间可以仔细读:

  • 通过变分推断的方式给了一个lower bound
  • 在Section 3中,我们还证明了现有的RFT以及RL (GRPO)训练框架有隐式的bias,会给简单问题更高的训练权重,并且结论可以泛化到更一般的reward shaping情况。

参考链接

  1. https://arxiv.org/pdf/2509.22637
  2. https://www.xiaohongshu.com/explore/68db566200000000030138ff?xsec_token=ABQQDE4evn6WsuhIRN3TfUAvaJeoUsP7bmNNh3M8tuJ3Q=&xsec_source=pc_search&source=web_search_result_notes
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!