news 2026/4/15 12:05:17

Informer论文

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Informer论文

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer是对Transformer的改造,分为Encoder和Decoder两部分。Informer相对Transformer的主要改进如下:

  1. 针对Self-attention计算复杂度高的问题:提出Prob Sparse Self-attention,筛选出Active query,降低计算复杂度;
  2. 针对Attention Stack内存过高的问题:提出Self-attention Distilling,减少维度和网络参数量;
  3. 原始Transformer的Decoder是step-by-step逐步解码,运行很慢:提出生成式Decoder,一次性生成长序列预测。

ProbSparse 自注意力机制

ProbSparse 自注意力机制 (ProbSparse self-attention mechanism)用于解决传统自注意力机制的二次方计算和内存复杂度问题,该机制的核心在于识别并只关注那些"主导性"的点积对,从而实现稀疏化。

Informer使用Kullback-Leibler (KL) 散度来衡量均匀分布和注意力概率分布之间的距离,目的是识别那些”激活“或”重要“的查询(Query), 即查询稀疏性度量

注意力分布的稀疏性:通过定性评估发现,自注意力机制中学习到的注意力分数形成了长尾分布(long tail distribution), 这意味着少数点积对贡献了主要的注意力,而其他点积对产生的注意力是微不足道的。

区分注意力的稀疏性:由于注意力机制得出的结论是:第i个查询qiq_iqi对所有键K的注意力被定义为一个概率分布p(kj∣qi)p(k_j∣q_i)p(kjqi); **”非重要查询特征“指的是,如果p(kj∣qi)p(k_j∣q_i)p(kjqi)接近均匀分布q(kj∣qi)=1/LKq(k_j∣q_i)=1/L_Kq(kjqi)=1/LK,则自注意力机制的结果将变成值得求和。”重要特征“**指的是,主导性得点积对会促使相应的注意力概率分布远离均匀分布。

KL散度:利用KL散度,即使用概率分布ppp均匀分布qqq之间的相似性来区分重要查询

Decoder: 一次性生成长序列输出

Step1: 构造输入

Encoder输入为:XencX_{enc}Xenc=32 * 96 * 7, 那么Decoder的输入为:Xdec=32∗72∗7X_{dec}=32*72*7Xdec=32727(32个batch,72个时间点的数据,每个时间点的数据对应7维的特征)。XdecX_{dec}Xdec构造方式如下:

(1)选取被预测序列之前的一小段数据作为start_token:从XencX_{enc}Xenc的后半段开始取,比如从XencX_{enc}Xenc的时间点49 ~ 时间点96 取共48个时间点的数据。

(2)需要预测的数据用0 mask掉:从时间点97 ~ 时间点120 取共24个时间点的数据,当然这部分的数据的目标变量是未知且待预测的

Step2: 带掩码的概率稀疏自注意力机制

(1)用Decoder的输入做mask attention,在decoder输入中,当前时间点的qqq只和当前时间点之前的kkk做attention,相当于KTQK^TQKTQ矩阵中只有kiTqj(i<=j)!=0k^T_iq_j(i<=j)!=0kiTqj(i<=j)!=0,矩阵其余部分为0。

(2)Lazy query对应的输出ojo_joj不再用所有时间点的vvv的均值填充,而是用当前时间点之间的所有vvv累加值填充。

(3)交叉注意力机制Cross Self Attention, K、V是Encoder的输出,Q来自上一层的输出

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 12:20:02

Leetcode 80 统计一个数组中好对子的数目

1 题目 1814. 统计一个数组中好对子的数目 给你一个数组 nums &#xff0c;数组中只包含非负整数。定义 rev(x) 的值为将整数 x 各个数字位反转得到的结果。比方说 rev(123) 321 &#xff0c; rev(120) 21 。我们称满足下面条件的下标对 (i, j) 是 好的 &#xff1a; 0 &l…

作者头像 李华
网站建设 2026/4/14 8:52:07

Linux 笔记:rpm命令

Linux 中 RPM 命令详解RPM&#xff08;Red Hat Package Manager&#xff09;是 Red Hat 及其衍生发行版&#xff08;如 CentOS、Fedora 等&#xff09;中用于安装、卸载、查询和管理软件包的工具。基本语法rpm [选项] 包名安装软件包rpm -i 包文件名-i&#xff1a;表示安装&…

作者头像 李华
网站建设 2026/4/13 18:59:21

提示工程架构师如何用“用户反馈循环”优化提示内容,提升体验?

提示工程架构师如何用「用户反馈循环」优化提示内容&#xff1a;从痛点到闭环的全流程指南 一、引言&#xff1a;为什么提示优化需要「用户反馈循环」&#xff1f; 1. 提示工程的「隐形痛点」&#xff1a;你写的提示&#xff0c;用户真的能用吗&#xff1f; 作为提示工程架构师…

作者头像 李华
网站建设 2026/4/14 0:08:34

前端工程化面试题,零基础入门到精通,收藏这篇就够了

一、HTML 常见题目 01、Doctype作用&#xff1f;严格模式与混杂模式如何区分&#xff1f;它们有何意义? 02、HTML5 为什么只需要写 &#xff1f; 03、行内元素有哪些&#xff1f;块级元素有哪些&#xff1f; 空(void)元素有那些&#xff1f; 04、页面导入样式时&#xff0…

作者头像 李华
网站建设 2026/4/12 11:09:54

Kotaemon能否用于宠物护理建议?兽医知识普及场景

Kotaemon在宠物护理与兽医知识普及中的应用探索 当一只猫咪连续三天不吃不喝&#xff0c;主人往往手足无措&#xff1a;是该立刻冲向急诊&#xff0c;还是先观察一晚&#xff1f;网络搜索出来的答案五花八门&#xff0c;真假难辨&#xff1b;电话咨询兽医又担心小题大做、浪费资…

作者头像 李华
网站建设 2026/4/14 2:00:02

聊聊阶梯碳下考虑P2G - CCS与供需灵活响应的IES优化调度

115-自己编写完全复献可-阶梯碳下考虑P2G-CCS与供需灵活响应的IES优化调度-完全复现场景10 matlabyalmipcplex 主要内容&#xff1a;首先考虑氢能参与 IES 实现降碳减排并引入阶梯式碳机制进一步约束碳排放&#xff0c;然后考虑 P2G-CCS(power to gas and carbon capture syste…

作者头像 李华