news 2026/1/16 22:20:46

Netty 堆外内存泄露排查实录:从 DirectByteBuffer 到 Linux 物理内存,我是如何找回丢失的 8GB?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Netty 堆外内存泄露排查实录:从 DirectByteBuffer 到 Linux 物理内存,我是如何找回丢失的 8GB?

标签:#Netty #内存泄露 #JVM调优 #DirectByteBuffer #Linux #故障排查


🚨 一、 案发现场:诡异的 OOM

时间:凌晨 03:00
报警:生产环境某 API 网关节点(配置 4C 16G)内存使用率超过 95%,随后服务不可用。
现场
重启服务后,观察监控,发现内存呈现“线性增长”的趋势,每小时增长约 500MB,直到撑爆物理内存。

JVM 配置:

-Xmx4g -Xms4g -XX:MaxDirectMemorySize=8g

怪象:

  1. 使用jstat -gcutil <pid> 1000观察,堆内存 (Heap)使用率非常健康,Old 区长期稳定在 30%。
  2. 使用top命令查看,进程的RES (物理内存)却高达 12GB。
  3. 计算题:12GB (RES) - 4GB (Heap) - 256MB (Metaspace) ≈7.7GB 的黑洞!

这 7.7GB 到底是啥?直觉告诉我们:Netty 的堆外内存漏了。


🧬 二、 嫌疑人画像:JVM 内存布局

在排查前,必须搞清楚 Java 进程的内存由哪几部分组成。

内存分布图 (Mermaid):

堆外区 (Off-Heap)

JVM 管理区

Java 进程 (OS 视角)

堆内存 (Heap)

非堆 (Metaspace, CodeCache)

DirectByteBuffer (NIO/Netty)

MappedByteBuffer (mmap)

JNI / Thread Stacks / GC Overhead

glibc 内存分配器 (Arena)

显然,我们的嫌疑人锁定在Direct Memory区域。


🔍 三、 第一轮排查:NMT 与 Netty 自检

1. 使用 NMT (Native Memory Tracking)

JVM 自带的 NMT 是排查堆外内存的第一把手术刀。
(注意:需在启动参数添加-XX:NativeMemoryTracking=detail)

jcmd<pid>VM.native_memory summary

输出结果(截取):

Total: reserved=14GB, committed=13GB - Java Heap (reserved=4GB, committed=4GB) - Internal (reserved=8.5GB, committed=8.5GB) <--- 异常点!

NMT 经常把 DirectBuffer 归类为InternalOther,这确认了是堆外问题,但不知道具体是哪行代码漏的。

2. 祭出 Netty 的核武器:ResourceLeakDetector

Netty 内置了一个极其强大的内存泄露检测器。它利用PhantomReference(虚引用)来追踪ByteBuf是否被垃圾回收,但在回收前没有调用release()

操作步骤:
修改启动参数,将检测级别调至最高(生产环境慎用,有性能损耗,但为了查 Bug 值得):

-Dio.netty.leakDetection.level=PARANOID

重启并压测后,日志里出现了令人兴奋的红字:

LEAK: ByteBuf.release() was not called before it's garbage-collected. See https://netty.io/wiki/reference-counted-objects.html for more information. Recent access records: ... Created at: io.netty.buffer.PooledByteBufAllocator.newDirectBuffer(PooledByteBufAllocator.java:331) ... com.company.gateway.filter.AuthFilter.channelRead(AuthFilter.java:45) <--- 凶手!

🕵️‍♂️ 四、 抓捕凶手:代码审计

日志明确指向了AuthFilter.java的第 45 行。我们来看代码。

Bug 代码示例:

publicclassAuthFilterextendsChannelInboundHandlerAdapter{@OverridepublicvoidchannelRead(ChannelHandlerContextctx,Objectmsg){ByteBufbuf=(ByteBuf)msg;if(checkToken(buf)){// 校验通过,传给下一个 Handlerctx.fireChannelRead(msg);}else{// ❌ 校验失败,打印日志,直接返回// 致命错误:这里中断了传递,但没有释放 buf!log.warn("Auth failed");// 应该在这里调用 ReferenceCountUtil.release(msg);}}}

原理解析:
在 Netty 中,ByteBuf是引用计数的。

  • 如果是SimpleChannelInboundHandler,它会自动帮你release
  • 如果是ChannelInboundHandlerAdapter(如上例),你必须手动负责释放
  • 如果你既不ctx.fireChannelRead(msg)往下传(下游会释放),也不手动release(),这个 DirectByteBuffer 对应的堆外内存就永远不会被归还给操作系统。

修复后的代码:

}else{try{log.warn("Auth failed");}finally{// ✅ 必须手动释放!ReferenceCountUtil.release(msg);}}

🔬 五、 深度追问:为什么 GC 没回收它?

很多同学有疑问:“Java 对象回收了,它引用的堆外内存不就自动释放了吗?”

这是一个经典的误区。

  1. DirectByteBuffer 的结构
    它在 Java 堆里只是一个很小的“壳”(Wrapper Object),可能只有几十字节。但它底层引用的 Native Memory 可能高达几 MB。
  2. GC 的惰性
    由于 Java 堆里的这个“壳”太小了,根本触发不了 Young GC,更别提 Full GC。
  3. 结果
    JVM 觉得:“堆内存还很空啊,我不急着 GC。”
    OS 怒吼:“物理内存都快爆了,你还在睡!”

这就是为什么我们不仅要依赖 GC,更要依赖 Netty 的Reference Counting(引用计数)机制来显式归还内存。


🚀 六、 避坑指南与总结

这次 8GB 内存找回之旅,给我们留下了宝贵的经验:

  1. Handler 选择:能用SimpleChannelInboundHandler就别用ChannelInboundHandlerAdapter,除非你非常清楚自己在做什么。
  2. 异常路径:90% 的内存泄露都发生在if-else的异常分支或try-catch块中,一定要检查所有路径是否都释放了资源。
  3. 监控常驻
  • 生产环境建议开启-Dio.netty.leakDetection.level=SIMPLE(采样检测)。
  • 关注DirectMemory指标(可通过 Micrometer/Prometheus 监控)。
  1. 工具链
  • jstat:看堆。
  • NMT:看 JVM 内部。
  • Netty Leak Detector:看 ByteBuf。
  • pmap/gdb:看 Linux 物理内存段(终极手段)。

Next Step:
去检查你项目中所有的 Netty Handler,搜索ChannelInboundHandlerAdapter,看看有没有被吞掉的msg。这可能就是你服务器莫名 OOM 的元凶。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/13 10:28:48

5分钟掌握LosslessCut:无损视频剪辑新手的完美入门指南

5分钟掌握LosslessCut&#xff1a;无损视频剪辑新手的完美入门指南 【免费下载链接】lossless-cut The swiss army knife of lossless video/audio editing 项目地址: https://gitcode.com/gh_mirrors/lo/lossless-cut 还在为视频剪辑软件复杂难用而头疼吗&#xff1f;想…

作者头像 李华
网站建设 2026/1/16 1:00:31

XMRIG vs 传统挖矿:效率提升300%的秘密

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个XMRIG性能对比测试工具&#xff0c;能够自动运行以下测试&#xff1a;1. 不同CPU架构下的算力对比 2. 内存占用分析 3. 能耗效率测试 4. 网络延迟影响评估。工具要生成可视…

作者头像 李华
网站建设 2026/1/13 10:28:41

电子小白也能懂的E96电阻图解指南

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 制作一个交互式E96电阻学习模块&#xff1a;1. 用齿轮/楼梯等视觉化比喻解释E96分布规律 2. 可拖动的阻值滑块实时显示标准值 3. 错误尝试时的动画提示(如选择非标值) 4. 包含10道…

作者头像 李华
网站建设 2026/1/16 11:36:44

智能打码系统快速入门:AI人脸隐私卫士基础功能

智能打码系统快速入门&#xff1a;AI人脸隐私卫士基础功能 1. 引言 1.1 学习目标 本文将带你从零开始掌握「AI 人脸隐私卫士」的核心功能与使用方法。通过本教程&#xff0c;你将学会如何利用基于 MediaPipe 的高灵敏度模型&#xff0c;实现照片中多人脸、远距离人脸的自动识…

作者头像 李华