上下文压缩-平芜编程栈

当上下文过长时，一般是怎么进行压缩的？

当大语言模型（LLM）的上下文过长（超过模型原生上下文窗口，或即使在支持长上下文的模型中也希望降低成本、加速推理、减少KV cache占用）时，目前业界主流的压缩/优化方式可以大致分为以下几类（从最常用到较前沿的排序）：

压缩方式	核心思路	压缩比（常见）	适用场景	代表工具/方法	优缺点简评
LLM摘要/提炼式压缩（Abstractive）	用LLM自己把历史对话/长文档总结成几句话或关键事实	3–20×	长对话、多轮Agent、文档问答	LangChain Summary、LLMLingua的prompt压缩、Roo Code双重压缩	效果最好，但需要额外调用一次LLM，成本稍高
提取式压缩（Extractive）	从原文中直接挑出最重要的句子/片段保留下来	5–15×	文档问答、RAG	LLMLingua、Selective Context	速度快、无幻觉风险，但可能丢失连贯性
基于困惑度/信息熵的硬删减	计算每个token/句子对当前任务的“重要性”（困惑度、自信息量），低于阈值就删	2–10×	几乎所有长上下文场景	LLMLingua系列、信息熵剪枝	非常快，几乎零额外推理成本，但压缩过度容易丢关键信息
滑动窗口 + 最近优先	只保留最近N轮对话 + 少量关键历史摘要	固定窗口	聊天机器人、客服Agent	绝大多数开源Agent框架默认策略	实现最简单，但老信息容易永久丢失

软压缩（Soft Prompt Compression）
把长上下文编码成少量“虚拟token”或concept embedding，再喂给主模型。
代表：CompLLM（分段独立压缩、可缓存）、Gist tokens、AutoCompressor
优点：推理速度可提升2–4倍，KV cache减半甚至更多
目前多用于长文档问答（Q&A over book / codebase）
KV Cache压缩（不压缩输入prompt，只压缩推理过程中产生的key-value缓存）
- 量化（FP8 → INT4 / NVFP4）
- 注意力相似性聚类 / 共享（相似的token共享KV）
- 重要性驱逐（eviction，根据attention score动态扔掉不重要token的KV）
  代表：KVPress (NVIDIA)、H2O、SnapKV、Infini-attention的压缩记忆部分
  优点：对用户无感知，端到端提速明显，内存占用可减50%以上

一句话总结目前工程界的共识：

“能用滑动窗口 + 摘要就先用，能用困惑度硬删就别轻易上LLM摘要，能上软压缩/KV压缩就尽量上，能不让用户感知到压缩最好。”

你现在是在做哪一类场景的长上下文优化？（聊天、RAG、Agent、代码、百万token文档……）可以告诉我更具体的需求，我可以给你更针对性的当前最佳实践。

别等花大钱看病才懂：花小钱取悦自己，是最划算的养生目录别等花大钱看病才懂：花小钱取悦自己，是最划算的养生一、先理清：观点的核心逻辑是什么？二、靠谱依据：情绪影响健康，有实打实…

李华

基于微信小程序的中医食谱推荐系统两个角色（管理员，用户） 效果如下： 登录页面管理员主页面食品信息管理页面新增食品信息页面健康资讯管理页面用户首页面食品信息页面食品信息详情页面研究背景在快节奏的现代生活中…

李华

1. 实际应用场景描述在日常生活中，家用小电器（如电饭煲、微波炉、电风扇、电水壶等）出现故障时，用户常遇到以下问题： - 不懂原理：不知道故障可能的原因 - 盲目报修：小问题也找维修师傅&#x…

李华

目录系统概述技术选型与优势核心功能模块创新点设计预期成果项目技术支持可定制开发之功能亮点源码获取详细视频演示 ：文章底部获取博主联系方式！同行可合作系统概述基于SpringBoot的毕业设计选题管理系统旨在为高校师生提供便捷的选题流程管理。系统采…

李华

光伏逆变器仿真模型，boost加NPC拓扑结构，基于MATLAB/Simulink建模仿真。具备中点平衡SVPWM控制，正负序分离控制，可以进行功率调度仿真。仿真模型使用MATLAB 2017b搭建在光伏领域，逆变器作为将直流电转换为交流电的关…

李华

1. 智能交通时代的数据挑战与实时数据库的价值现代智能交通系统正面临海量时序数据的挑战。随着车路协同技术的普及，单个智能路口每小时可产生数GB的实时数据，包括车辆轨迹、信号灯状态、路侧设备信息等多元数据流。这些数据具有明显的时序特性&#x…

李华