文章主要内容总结
该研究聚焦于解决大语言模型(LLMs)在生成优化模型时存在的错误和幻觉问题,提出了Solver-Informed Reinforcement Learning(SIRL)框架——一种基于可验证奖励的强化学习方法,旨在提升LLMs生成准确、可执行优化模型的能力。
核心流程包括:
- 数据合成:通过实例增强自一致性方法,结合LLM生成、求解器验证和过滤,构建高质量训练数据。
- 强化学习框架:设计Partial KL替代函数,对数学建模和代码生成部分施加KL惩罚以保证稳定性,对推理部分不施加惩罚以鼓励探索。
- 两阶段奖励机制:第一阶段侧重格式、执行和准确性基础能力,第二阶段增加高级建模技术奖励,适配复杂问题。
实验结果显示,SIRL训练的7B模型性能超越现有离线学习和Agent-based方法,32B模型在多个基准测试中(如NL4OPT、MAMO)优于DeepSeek-V3、OpenAI-o3等强基线模型。
创新点
- 提出实例增强自一致性方法:整合.lp文件中的结构特征(优化方向、变量类型计数等),而非仅依赖最终结果投票,提升训练数据质量。
- 设计Partial KL替代函数:选择性对数学建模和代码段施加KL惩罚,平衡推理探索多样性与输出格式稳定性。
- 构建两阶段可验证奖励机制:结合优化求解器的格式、执行、准确性验证信号,第二阶段额外奖励Big-M、非线