Linux 负载计算：PELT 算法的指数衰减与多维度负载度量-平芜编程栈

简介

在 Linux 内核调度体系中，负载度量是调度决策、负载均衡、CPU 频率调节的核心依据。3.8 内核之前采用的 per-rq 负载跟踪机制粒度较粗，仅能统计 CPU 运行队列整体负载，无法精准反映单个进程 / 调度实体的资源占用与需求，导致负载均衡误判、任务频繁迁移、频率调节滞后等问题。

为解决该痛点，Linux 3.8 内核正式引入PELT（Per-Entity Load Tracking，按实体负载跟踪）算法，将负载统计从 “per-CPU 队列” 细化到 “per - 调度实体”，可精准跟踪每个进程、进程组、控制组（cgroup）的负载贡献。PELT 核心通过指数衰减（EWMA，指数加权移动平均）平滑瞬时负载波动，同时维护权重负载、可运行负载、利用率三大维度负载数据，为 CFS 调度、负载均衡（EAS）、schedutil 频率调节、硬实时调度提供精准决策支撑。

从工程应用看，PELT 广泛用于服务器负载均衡、嵌入式系统功耗优化、容器资源隔离、高并发任务调度等场景；从技术研究角度，吃透 PELT 的指数衰减原理、多维度负载计算逻辑、内核源码实现，是理解 Linux 调度核心、优化系统性能、排查调度异常、定制化调度策略的关键。本文从核心概念、环境搭建、源码剖析、实操案例、问题排查到最佳实践，全链路拆解 PELT 算法，内容可直接用于内核源码研读、学术论文撰写、工程项目技术方案落地。

一、核心概念与术语解析

1.1 调度实体（sched_entity）

PELT 的统计对象是调度实体，内核中用struct sched_entity表示，涵盖：

单个 CFS 进程 / 线程；
进程组（task group）；
cgroup 控制组内的一组进程；
CPU 运行队列（cfs_rq）整体。每个调度实体独立维护一套负载统计数据，实现精细化负载跟踪。

1.2 PELT 三大核心负载维度

PELT 同时维护三类独立负载，分别服务不同调度场景，核心差异如下：

负载类型	计算基础	包含任务状态	核心用途
load_avg（权重负载）	调度权重 × 可运行时间（运行 + 等待）	Running+Runnable+Blocked	负载均衡、组调度份额分配、cgroup 资源管控
runnable_avg（可运行负载）	调度权重 × 等待时间（就绪队列）	Running+Runnable	实时负载感知、任务迁移时机判断
util_avg（利用率）	纯运行时间（无权重）	Running only	CPU 频率调节（schedutil）、EAS 任务放置、功耗优化

调度权重：由进程 nice 值决定，nice 值越低（优先级越高），权重越大，相同运行时间下负载值更高；
时间单位：基础统计周期为1024μs（≈1ms），所有负载计算均基于该周期拆分。

1.3 指数衰减（EWMA）核心原理

瞬时负载波动剧烈（如进程突发 I/O 阻塞、短时密集计算），直接用于调度会导致决策抖动、任务频繁迁移。PELT 采用指数加权移动平均（EWMA）平滑处理，核心是近期负载权重高、远期负载权重指数衰减。

1.3.1 数学模型

负载计算公式： \(L = L_0 + L_1 \cdot y + L_2 \cdot y^2 + L_3 \cdot y^3 + ... + L_n \cdot y^n\)

L：当前平均负载；
\(L_0\)：当前 1024μs 周期的瞬时负载；
\(L_n\)：n 个周期前的瞬时负载；
y：衰减因子，内核固定为\(y^{32}=0.5\)（即半衰期 32ms），\(y≈0.9786\)。

1.3.2 半衰期设计

基础周期：1024μs（1ms）；
半衰期：32×1024μs=32ms；
含义：32ms 前的负载对当前负载的贡献衰减为原来的 50%，100ms 后负载贡献几乎可忽略。该设计兼顾历史连续性与近期敏感性，既避免瞬时波动干扰，又能快速响应负载变化。

1.4 关键数据结构：sched_avg

每个调度实体（se）和 CPU 运行队列（cfs_rq）都内嵌struct sched_avg，存储 PELT 统计数据，定义于kernel/sched/sched.h：

struct sched_avg { u64 last_update_time; // 上次更新时间戳（ns） u64 load_sum; // 权重负载衰减和 u64 runnable_sum; // 可运行负载衰减和 u64 util_sum; // 利用率衰减和 u32 load_avg; // 归一化权重负载（0-1024） u32 runnable_avg; // 归一化可运行负载（0-1024） u32 util_avg; // 归一化利用率（0-1024） };

*_sum：原始衰减累加值（避免浮点数运算）；
*_avg：归一化后的值（范围 0-1024，对应SCHED_CAPACITY_SCALE），直接用于调度决策。

二、环境准备

2.1 软硬件环境要求

环境类型	版本 / 配置要求
操作系统	Ubuntu 20.04 / 22.04 64 位（LTS 稳定版）
内核版本	Linux 5.15、6.1、6.6（LTS 版，PELT 逻辑一致）
硬件配置	x86_64 架构 CPU（4 核及以上）、8G + 内存（支持压测与调试）
编译工具	gcc 9.4+、make、libncurses-dev、bison、flex、libssl-dev
调试工具	gdb、kgdb、perf、trace-cmd、ftrace、bpftrace

2.2 内核源码获取与编译配置

1. 安装依赖工具

# 更新软件源并安装编译依赖 sudo apt update && sudo apt install -y build-essential libncurses-dev bison flex libssl-dev libelf-dev

2. 下载 Linux 6.1 LTS 源码

# 下载源码包 wget https://cdn.kernel.org/pub/linux/kernel/v6.x/linux-6.1.tar.xz # 解压并进入目录 tar -xf linux-6.1.tar.xz cd linux-6.1

3. 开启 PELT 相关调试配置

# 复制当前系统内核配置 cp -v /boot/config-$(uname -r) .config # 启动配置界面 make menuconfig

必须开启以下核心配置：

CONFIG_SCHED_DEADLINE=y # 启用Deadline调度 CONFIG_SCHED_DEBUG=y # 调度器调试开关 CONFIG_FTRACE=y # 函数跟踪（观测PELT函数调用） CONFIG_KGDB=y # 内核远程调试 CONFIG_CGROUP_SCHED=y # cgroup调度支持 CONFIG_FAIR_GROUP_SCHED=y # 组调度支持

4. 编译并安装内核

# 多线程编译（按CPU核心数） make -j$(nproc) # 安装模块与内核 sudo make modules_install sudo make install # 更新grub引导 sudo update-grub

重启系统，选择新编译的 6.1 内核进入。

2.3 源码定位

PELT 核心源码路径：

核心实现：kernel/sched/pelt.c（指数衰减、负载更新核心函数）；
结构体定义：kernel/sched/sched.h（sched_avg、sched_entity）；
调用入口：kernel/sched/fair.c（CFS 调度触发 PELT 更新）。

三、应用场景

PELT 算法作为 Linux 调度的 “负载度量引擎”，在工业级实时系统、服务器集群、嵌入式设备中不可或缺。服务器负载均衡场景下，通过load_avg精准计算各 CPU 负载，避免高负载 CPU 任务堆积，提升集群吞吐量；嵌入式终端（如手机、工控机）中，util_avg为 schedutil 提供数据，动态调节 CPU 频率，兼顾性能与功耗；容器与虚拟化场景中，基于load_avg实现 cgroup 资源隔离，避免单个容器占用过多 CPU；高并发 I/O 场景下，runnable_avg实时反映就绪队列压力，辅助调度器提前预判负载高峰，优化任务调度时序，保障系统稳定性与响应速度。

四、实际案例与源码深度剖析

4.1 指数衰减核心函数：decay_load

内核通过预计算衰减因子表，避免运行时浮点数运算，提升效率，源码如下（kernel/sched/pelt.c）：

// 基础周期：1024μs（1ms） #define LOAD_AVG_PERIOD 32 // 衰减因子表：y^n，n为周期数，y^32=0.5 extern const u64 runnable_avg_yN_inv[]; /** * decay_load - 计算负载衰减值 * @val: 原始负载值 * @n: 经过的周期数（1024μs为1周期） * 返回: 衰减后的负载值 */ static u64 decay_load(u64 val, u64 n) { // 超过2016周期（≈2s），负载衰减为0 if (unlikely(n > LOAD_AVG_PERIOD * 63)) return 0; // 预计算表查找，避免浮点数运算 return (val * runnable_avg_yN_inv[n]) >> 32; }

代码说明：runnable_avg_yN_inv是预计算的衰减因子数组，编译时生成，运行时直接查表，兼顾精度与性能。

4.2 负载更新核心函数：___update_load_sum

该函数是 PELT 的核心，负责计算时间差、衰减历史负载、累加新负载，源码如下：

/** * ___update_load_sum - 更新负载累加和 * @now: 当前时间戳（ns） * @sa: sched_avg结构体 * @load: 是否更新load_sum（1=是，0=否） * @runnable: 是否更新runnable_sum（1=是，0=否） * @running: 是否更新util_sum（1=是，0=否） * 返回: 是否更新成功（1=是，0=否） */ static __always_inline int ___update_load_sum(u64 now, struct sched_avg *sa, unsigned long load, unsigned long runnable, int running) { u64 delta; u64 periods; // 1. 计算时间差（ns） delta=now-sa->last_update_time; if (delta < 1024) // 不足1ms，不更新 return 0; // 2. 转换为周期数（1024μs=1周期） periods=delta >> 10; // 3. 衰减历史负载 if (load) sa->load_sum=decay_load(sa->load_sum, periods); if (runnable) sa->runnable_sum=decay_load(sa->runnable_sum, periods); if (running) sa->util_sum=decay_load(sa->util_sum, periods); // 4. 累加当前周期负载（权重/时间） if (load) sa->load_sum += load * 1024; if (runnable) sa->runnable_sum += runnable * 1024; if (running) sa->util_sum += running * 1024; // 5. 更新最后更新时间 sa->last_update_time=now; return 1; }

代码解析：每次调度事件（进程唤醒、切换、阻塞）触发该函数，先衰减历史负载，再累加当前负载，确保数据实时性。

4.3 归一化函数：___update_load_avg

将*_sum原始值归一化为 0-1024 的*_avg，直接用于调度决策：

// 归一化最大值（对应100%负载） #define LOAD_AVG_MAX 1024 /** * ___update_load_avg - 归一化负载值 * @sa: sched_avg结构体 */ static __always_inline void ___update_load_avg(struct sched_avg *sa) { // 权重负载归一化（含nice权重） sa->load_avg=sa->load_sum/LOAD_AVG_MAX; // 可运行负载归一化 sa->runnable_avg=sa->runnable_sum/LOAD_AVG_MAX; // 利用率归一化（无权重） sa->util_avg=sa->util_sum/LOAD_AVG_MAX; }

4.4 调度实体更新入口：__update_load_avg_se

进程调度时触发，更新单个调度实体负载并同步到父层级（组调度）：

/** * __update_load_avg_se - 更新调度实体负载 * @now: 当前时间戳 * @cfs_rq: 所属CPU运行队列 * @se: 调度实体 */ void __update_load_avg_se(u64 now, struct cfs_rq *cfs_rq, struct sched_entity *se) { struct sched_avg *sa=&se->avg; int flags=0; // 更新load_sum、runnable_sum、util_sum ___update_load_sum(now, sa, se->on_rq, se->on_rq, cfs_rq->curr == se); // 归一化 ___update_load_avg(sa); // 同步到父进程组（组调度支持） if (se->parent) __update_load_avg_se(now, cfs_rq, se->parent); }

4.5 用户态实操：观测 PELT 负载数据

1. 编写测试程序（生成负载）

// pelt_test.c：循环生成CPU负载 #include <stdio.h> #include <unistd.h> int main() { printf("PELT测试进程启动，PID: %d\n", getpid()); // 死循环生成CPU负载 while (1) { // 空循环，占用CPU } return 0; }

编译运行：

gcc pelt_test.c -o pelt_test ./pelt_test & # 后台运行

2. 用 ftrace 跟踪 PELT 函数调用

# 挂载debugfs sudo mount -t debugfs none /sys/kernel/debug # 清空跟踪缓存 echo > /sys/kernel/debug/tracing/trace # 设置跟踪函数 echo ___update_load_sum >> /sys/kernel/debug/tracing/set_ftrace_filter echo __update_load_avg_se >> /sys/kernel/debug/tracing/set_ftrace_filter # 开启跟踪 echo function > /sys/kernel/debug/tracing/current_tracer echo 1 > /sys/kernel/debug/tracing/tracing_on # 等待5秒 sleep 5 # 停止跟踪 echo 0 > /sys/kernel/debug/tracing/tracing_on # 查看跟踪日志 cat /sys/kernel/debug/tracing/trace

日志解读：可清晰看到___update_load_sum周期性（1ms）调用，__update_load_avg_se触发负载更新，验证指数衰减与负载累加逻辑。

3. 用 bpftrace 查看进程负载

# 安装bpftrace sudo apt install -y bpftrace # 查看指定进程（PID=1234）的util_avg sudo bpftrace -e ' tracepoint:sched:sched_switch { if (pid == 1234) { printf("PID: %d, util_avg: %d\n", pid, curtask->se.avg.util_avg); } }'

输出说明：实时打印进程的util_avg（0-1024），满负载时接近 1024，验证利用率统计准确性。

五、常见问题与解答

Q1：PELT 的 1024μs 周期是否可修改？修改有什么影响？

解答：内核默认 1024μs（1ms），通过LOAD_AVG_PERIOD宏定义，不建议修改。周期过小会导致频繁更新，增加调度开销；周期过大则负载平滑延迟，无法快速响应负载变化，破坏 32ms 半衰期设计，影响调度决策精度。

Q2：为什么负载更新必须用预计算衰减表，不用浮点数？

解答：内核禁止浮点运算（上下文切换耗时、硬件兼容性差）。预计算表将\(y^n\)转为整数乘法 + 移位，效率提升 10 倍以上，同时保证精度，是内核性能优化的经典设计。

Q3：进程阻塞（I/O 等待）时，PELT 还统计负载吗？

解答：阻塞时util_sum（运行时间）停止累加，但load_sum和runnable_sum会缓慢衰减，反映进程 “潜在负载”。进程唤醒后，负载快速恢复，避免阻塞后负载清零导致的调度误判。

Q4：nice 值如何影响 PELT 负载？权重计算逻辑是什么？

解答：nice 值范围 - 20~19，nice 值越低权重越大。内核通过calc_load_weight()将 nice 值转为权重（nice=-20 权重 = 88761，nice=19 权重 = 1520），load_avg= 权重 × 运行时间，高优先级进程负载更高，调度器优先分配 CPU。

Q5：如何排查 PELT 负载异常导致的调度卡顿？

解答：1. 用 ftrace 跟踪___update_load_sum调用频率，确认 1ms 周期是否正常；2. 用 bpftrace 查看sched_avg各字段，检查util_avg是否异常（如满负载 1024）；3. 检查进程 nice 值与 cgroup 配置，确认权重是否异常；4. 排查内核是否开启CONFIG_NO_HZ_FULL，导致调度时钟中断异常。

六、实践建议与最佳实践

内核调试技巧：研读 PELT 源码时，重点关注pelt.c中decay_load与___update_load_sum的调用关系，配合 ftrace 动态跟踪，比静态阅读更易理解；调试负载异常时，优先核查sched_avg的last_update_time是否正常（1ms 更新一次）。
性能优化建议：高并发场景下，避免频繁修改进程 nice 值（触发权重重计算）；合理配置 cgroup，减少跨组负载同步开销；服务器场景关闭CONFIG_NO_HZ_FULL，保证 PELT 周期更新稳定。
嵌入式功耗优化：利用util_avg数据，配置 schedutil governor，当util_avg<300时降频，util_avg>800时升频，兼顾性能与功耗；避免短时高频任务频繁触发频率切换。
内核定制改造：自研调度策略时，不要修改 PELT 核心衰减逻辑，可基于load_avg扩展负载均衡规则；保留util_avg与 schedutil 的对接，避免功耗管控失效。
问题排查规范：遇到调度卡顿、任务迁移频繁、频率调节异常时，排查顺序：先看util_avg是否异常→再查___update_load_sum调用→最后检查 nice 值与 cgroup 配置，快速定位根因。

七、总结与应用延伸

本文从理论概念、环境搭建、结构体定义、核心源码逐行解析、实操测试、问题排查到工程最佳实践，完整拆解了 Linux PELT 算法的设计思想、指数衰减原理与多维度负载计算逻辑。PELT 本质是 Linux 调度的精准负载度量引擎，通过 1ms 周期拆分、32ms 半衰期指数衰减、三大维度负载统计，将负载跟踪从 “粗粒度队列” 细化到 “精细化实体”，为调度决策、负载均衡、功耗优化提供精准数据支撑。

从工程应用看，PELT 是服务器集群、嵌入式终端、容器虚拟化系统的底层调度支撑；从学术研究角度，掌握 PELT 的数学模型、源码实现与优化逻辑，可深入理解 Linux 调度架构、负载平滑设计思想，可直接用于内核源码论文撰写、实时 Linux 系统裁剪、定制化调度策略开发。

建议读者基于本文提供的源码、测试代码与 ftrace/bpftrace 命令，自行编译内核复现实验，修改decay_load衰减因子（如改为 16ms 半衰期），观察负载平滑效果与调度行为变化，真正做到从理论到实战吃透 Linux PELT 算法核心原理。

简介