news 2026/5/26 23:14:11

2025_NIPS_Offline RL with Discrete Proxy Representations for Generalizability in POMDPs

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2025_NIPS_Offline RL with Discrete Proxy Representations for Generalizability in POMDPs

一、文章主要内容总结

该研究聚焦于离线强化学习(Offline RL)在部分可观测马尔可夫决策过程(POMDPs)中的泛化性问题。现实场景中,离线RL模型通常基于完全可观测数据训练,但部署时会面临观测被遮挡、干扰等部分可观测情况,且训练阶段无法预知观测缺失的具体形式,导致模型性能大幅下降。

为解决这一挑战,作者提出了ORDER(Offline RL with DiscrEte pRoxy representations)框架,核心思路是通过离散代理表征关联完全观测训练数据与部分观测部署场景,具体包含三阶段训练流程:

  1. 离散状态表征学习:利用向量量化自编码器(VQ-VAE),从完全观测数据中学习状态的离散表征,将原始状态映射为离散编码集合;
  2. 决策模块训练:基于离散表征数据集,采用任意主流离线RL算法(本文使用IQL)训练决策头,生成可基于离散表征决策的“先知策略”;
  3. 代理离散表征训练:通过随机掩码模拟动态缺失、因子削减两种部分观测场景,训练代理编码器,使其能从部分观测轨迹中推断出与离散状态表征对齐的代理表征,最终形成可处理部分观测的“代理策略”。

实验在D4RL基准的运动和迷宫任务中开展,结果表明,ORDER在不同观测缺失比例下均显著优于填充零、循环架构等基线方法,离散表征相比连续表征和原始状态能更好地维持与真实状态的对齐,提升泛化性能。

二、文章创新点

  1. 离散代理表征设计
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 23:11:37

AI 漫剧商业接单 新人必备实战干货

AI 漫剧、AI 仿真人漫剧入行,最终目标都是商业变现接单,新人想要稳定接单,核心是掌握符合市场需求的制作技术,懂规则、懂作品、懂对接。很多新人做不出符合甲方要求的作品,试稿屡屡不通过,核心是没掌握商业…

作者头像 李华
网站建设 2026/5/26 23:09:53

企业品牌长效数字资产构建,新闻内容沉淀与专业软文营销平台支撑策略

在数字化时代,品牌资产不仅包含产品、口碑、影响力等无形价值,更包括可检索、可留存、可传播的数字内容资产。新闻稿件作为企业最具权威度的公开信息,一经正规媒体发布,即可长期存在于互联网中,持续被搜索、查阅、引用,成为稳定可靠的品牌数字资产。2026 年,越来越多企业从短期…

作者头像 李华
网站建设 2026/5/26 23:08:56

3步掌握Pyfa:为什么这是EVE玩家必备的离线装配神器?

3步掌握Pyfa:为什么这是EVE玩家必备的离线装配神器? 【免费下载链接】Pyfa Python fitting assistant, cross-platform fitting tool for EVE Online 项目地址: https://gitcode.com/gh_mirrors/py/Pyfa 还在为游戏内装配试错付出昂贵的ISK代价吗…

作者头像 李华
网站建设 2026/5/26 23:08:36

基于非对称方环谐振器的多频带通滤波器设计与工程实践

1. 项目概述与核心价值在5G、Wi-Fi 6E乃至未来更复杂的无线通信系统中,射频前端正变得前所未有的拥挤。一个基站或终端设备往往需要同时处理多个频段的信号,例如2.4GHz Wi-Fi、5GHz Wi-Fi、Sub-6GHz 5G以及各类物联网频段。传统的解决方案是堆叠多个独立…

作者头像 李华