news 2026/6/12 19:32:54

第【17】期--考虑硬件损伤和不完美CSI的RIS-MISO系统的深度强化学习联合优化-python完整代码+参考文献

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
第【17】期--考虑硬件损伤和不完美CSI的RIS-MISO系统的深度强化学习联合优化-python完整代码+参考文献

摘要

可重构智能表面(RIS)凭借其可编程调控无线信号传播的能力,被认为是第六代(6G)移动通信系统的关键技术之一。针对非理想信道状态信息(CSI)和硬件损伤带来的挑战,本文研究基站发射波束赋形矩阵与RIS相位偏移矩阵的联合设计问题,目标是在发射功率和单位模约束下最大化系统总速率。提出一种基于深度强化学习(DRL)的求解框架。将问题建模为马尔可夫决策过程(MDP),采用深度确定性策略梯度(DDPG)算法,通过试错交互与环境学习。

1 研究背景

  • 6G与RIS的兴起
    可重构智能表面(RIS)被认为是下一代无线通信系统的关键技术之一。RIS由多个亚波长间距的反射单元构成,通过调节每个单元的阻抗,可对入射波施加所需的相位偏移,从而在接收端调控多径干扰。然而,实际RIS硬件的反射系数不仅与相位有关,其幅度也会随施加的相位变化而衰减,即相位相关幅度模型。这种非线性特性会导致显著的性能损失,并使传统的优化方法(通常假设理想反射)变得不切实际
  • 现有DRL方法的局限
  • 深度强化学习(DRL)已成为RIS辅助无线系统(如非正交多址、毫米波通信、车联网等)中一种广泛研究的替代方法。例如,已有工作采用深度确定性策略梯度(DDPG)算法调节RIS相位偏移,或在理想反射假设下联合设计下行波束赋形与RIS相移。但是,这些DRL应用均假设理想反射(幅度恒为1)和完美CSI,没有考虑实际RIS的硬件损伤(相位相关幅度)以及信道估计误差的影响。

2 系统与问题建模

  • 一个配备 M 根天线的基站
  • 一个配备 N 个反射单元的 被动RIS
  • K个单天线用户
    • BS 与用户之间的直射链路被完全阻挡,信号仅通过 RIS 反射传输
      令G表示基站波束成形矩阵 ,Φ表示RIS的相移矩阵, H表示从基站到RIS的信道矩阵,hk表示从RIS到用户k的信道向量,则第k个用户的接收信号为

传统的RIS相移模型,只改变相位,不改变幅度,为

考虑到实际RIS硬件存在与相位相关的幅度衰减,即不同相位偏移会导致不同的反射损耗

进一步,考虑基站只能获得带估计误差的级联信道,模拟实际系统中基站难以获得完美CSI和精确硬件模型的情况,即

则用户k的速率表达式为

优化目标在基站仅能已知估计信道的条件以及硬件损失的情况下 ,优化使得实际系统总速率接近真实环境下的最优值

  • 由于误差存在,问题非凸
  • 大多数已有工作采用交替优化,缺点为交替迭代可能慢、依赖初始值、且不能保证全局最优

3 强化学习方法

马尔可夫决策过程:**

  • 状态:带噪的级联信道估计;各个用户的发射波束成形;各个用户的接收功率;上一时刻的的动作;
    1、CSI是问题的核心参数:智能体需要知道信道才能推断何种动作能产生高奖励。
    2、上一时刻的动作:使智能体知道当前解的“位置”,便于做微小调整。没有历史动作,网络只能依赖当前功率间接推断,效率更低。
    3、功率信息:反映当前波束赋形和相位偏移对每个用户的信号与干扰的影响,是计算奖励的基础。
  • 动作:一般为待优化的变量,为波束成形和相移矩阵G和Φ;
  • 奖励:即优化问题的目标函数。

2 关键设计:网络结构优化

  • 用平均奖励修正目标
    无线通信系统中,基站持续进行波束赋形和RIS配置,没有明确终止状态,若采用折扣因子 γ<1,会偏向短期奖励;若 γ=1,则累积奖励可能发散。通过引入平均奖励的概念来适应,

1、定义平均奖励为到当前时间步为止的奖励滑动平均。

2、将修正后的奖励用于Q值更新

  • 引入β‑Space Exploration
    1、在硬件损失的情况下,基站不知道RIS的相位‑幅度函数,导致实际反射幅度远小于1。如果智能体仅使用原始动作,环境实际接收到的信号会被幅度衰减,使奖励远低于预期,智能体无法有效学习。
    2、将 Actor 网络输出的理想反射动作(假设 RIS 单元反射幅度为 1)转换为更接近真实硬件特性的动作,使得环境反馈的奖励能够隐含真实幅度损耗信息,从而让智能体间接学会补偿硬件损伤
    3、增加一个探索网络专门预测每个RIS单元的反射幅度,其输出为

    缩放后 RIS 反射系数的实际形式


  • 通过缩放动作,智能体主动降低其输出的相位幅度,使得期望的反射信号强度与环境实际产生的强度更匹配,从而奖励更真实。
  • 在训练初期λ较大,说明探索网络对动作的扰动强,迫使 Q 网络和 Actor 快速适应硬件损伤,在训练后期扰动会减弱。

探索网络的损失函数为

仿真参数和结果

类别参数取值
神经网络隐藏层数量2
每隐藏层单元数256
隐藏层激活函数ReLU
Q网络输出层激活Linear
Actor / Explorer 输出层激活tanh / sigmoid
权重初始化Xavier uniform
偏置初始化constant (0)
优化器Adam
SAC 算法折扣因子1
目标网络软更新率0.001
网络更新间隔1 step
熵正则化系数(初始)0.2

| | SAC log 标准差裁剪 | (-20, 2) |
| | 数值稳定常数 | 10⁻⁶ |
|训练超参数| 学习率 | 10⁻³ |
| | 权重衰减 | 0 |
| | 经验回放池大小 | 20000 |
| | 经验采样方式 | 均匀随机 |
| | 小批量大小 | 16 |
| | 总训练时间步 | 20000 |
|β‑Space Exploration| 探索强度初始值 | 0.3 |
| | 探索强度衰减 | 线性衰减至 0 |
|环境参数| AWGN 方差 | 10⁻² |
| | 信道估计噪声方差 | 10⁻² |
| | RIS 硬件参数 (μ) | 0 |
| | RIS 硬件参数 (κ) | 1.5 |
| | RIS 最小反射幅度 (β_min) | 0.3 或 0.6 |
| | 发射功率 | 5–30 dBm |
| | 基站天线数 | 4 |
| | RIS 单元数 | 16 或 64 |
| | 用户数 | 4 |


可看到优化后的网络reward优于经典的SAC。

4 总结

本文针对RIS辅助MU‑MISO系统中存在的硬件损伤和非理想CSI问题,提出了基于深度强化学习的方法,通过引入探索网络对相位动作进行自适应缩放,使智能体在仅能获得不完美信道估计并假设理想反射的条件下,仍能隐式学习真实幅度损耗,从而逼近理想上界性能,通过实验表明结论的有效性。未来研究可进一步拓展至多RIS协同、时变信道与用户移动性,同时可探索更高效的探索策略或迁移学习以加速收敛,并将该方法应用于能效最大化、安全速率优化等其他RIS辅助通信目标。
参考文献:
Saglam, Baturay, et al. “Deep Reinforcement Learning Based Joint Downlink Beamforming and RIS Configuration in RIS-Aided MU-MISO Systems Under Hardware Impairments and Imperfect CSI.” 2023 IEEE International Conference on Communications Workshops (ICC Workshops), IEEE, 2023, pp. 66-72. DOI, doi:10.1109/ICCWorkshops57953.2023.10283517.

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/12 19:31:58

彻底告别ThinkPad风扇噪音:TPFanCtrl2终极静音方案

彻底告别ThinkPad风扇噪音&#xff1a;TPFanCtrl2终极静音方案 【免费下载链接】TPFanCtrl2 ThinkPad Fan Control 2 (Dual Fan) for Windows 10 and 11 项目地址: https://gitcode.com/gh_mirrors/tp/TPFanCtrl2 你是否厌倦了ThinkPad笔记本在轻度使用时风扇就狂转的噪…

作者头像 李华
网站建设 2026/6/12 19:30:54

Python 爬虫项目:本地文件夹分类存储资源

前言 爬虫程序完成数据、图片、文档等资源的采集后&#xff0c;本地存储是整个采集链路的收尾环节&#xff0c;同时也是保障资源可管理、可复用、可追溯的关键环节。若所有采集资源统一存放至同一目录&#xff0c;随着爬取体量增大&#xff0c;会出现文件混杂、查找困难、同名…

作者头像 李华
网站建设 2026/6/12 19:26:51

高级java每日一道面试题-2026年02月10日-实战篇[Docker]-什么是容器的逃逸攻击?有哪些常见的逃逸方式?

Docker 容器安全是一个纵深防御体系&#xff0c;从镜像构建、运行时隔离、网络控制到主机加固&#xff0c;任何一环薄弱都可能导致 Java 微服务被攻击。高级面试中&#xff0c;你需要系统性地阐述风险面&#xff0c;并给出对应的缓解策略&#xff0c;体现安全左移与零信任思维。…

作者头像 李华
网站建设 2026/6/12 19:26:50

drawio-desktop:破解离线图表绘制的安全与隐私难题

drawio-desktop&#xff1a;破解离线图表绘制的安全与隐私难题 【免费下载链接】drawio-desktop Official electron build of draw.io 项目地址: https://gitcode.com/GitHub_Trending/dr/drawio-desktop 你是否曾为在线绘图工具的隐私担忧而烦恼&#xff1f;当敏感的系…

作者头像 李华
网站建设 2026/6/12 19:25:56

SteamShutdown:让电脑在Steam下载完成后自动关机的智能方案

SteamShutdown&#xff1a;让电脑在Steam下载完成后自动关机的智能方案 【免费下载链接】SteamShutdown Automatic shutdown after Steam download(s) has finished. 项目地址: https://gitcode.com/gh_mirrors/st/SteamShutdown 还在为深夜等待大型游戏下载而烦恼吗&am…

作者头像 李华