知识沉淀 | 2026 年 LLM 评测体系主流开源模型架构全景-平芜编程栈

整理时间：2026-04-24 |研究周期：2026-03-19 ~ 2026-04-24
来源：AgentBench / SWE-bench / PaperBench / DeepSeek V4 / Kimi K2 / GLM-5.1 等论文精读

一、LLM 评测体系全景

1.1 六大评测维度

维度	代表基准	测什么	现状
综合知识	MMLU、C-Eval	57 学科选择题	顶级模型 86-90%，差距已缩小
深度推理	GPQA Diamond	博士级物理/化学/生物	GPT-5.4 领先（93%），人类专家 65%
数学竞赛	AIME、MATH-500	高难度数学推理	o3/DeepSeek R1 接近满分
基础代码	HumanEval	164 道 Python 函数补全	顶级模型 90%+，已饱和
工程代码	SWE-bench、LiveCodeBench	真实 Bug 修复 / 动态竞赛题	SWE-bench 已退役，LiveCodeBench 防污染
真实体验	Chatbot Arena（Arena AI）	人类盲评	最难刷，最贴近用户

1.2 SWE-bench 的兴衰启示

timeline：

2023.10：SWE-bench 发布，Princeton + OpenAI，测试 12 个真实 Python 仓库的 Bug 修复
2024.08：SWE-bench Verified（500 题精选版）
2025~2026：模型分数从 33.2% 飞速涨到 80.9%
2026.02.23：OpenAI 官宣退役SWE-bench Verified

退役三大原因：

训练数据污染——模型能背题
天花板效应——6 个月只涨 6%
测试用例缺陷——59.4% 存在过宽/过窄问题

关键教训：

公开的 Benchmark 会被刷穿；只有私有 + 持续更新才能保持评测效力

2026 年替代方案：

SWE-bench Pro（更难，污染低）
GDPVal（专家出题+专家评审）
私有评测集（各家自建）

1.3 评测体系信任危机（2026.04）

伯克利团队用 10 行 Python 代码拿了 SWE-bench 满分（利用 pytest 钩子机制篡改测试结果）。8 大主流基准集体沦陷，28 个模型提交存在作弊行为。

修复建议：

评测系统与被测 AI 必须完全隔离运行
标准答案存放于不可访问区域
禁止对不可信输入执行危险函数

二、Agent 能力三张考卷（D1+D2+D3）

2.1 AgentBench（D2）——通用能力考卷

论文：清华 KEG，ICLR 2024，arXiv 2308.03688

核心设计：8 个真实环境 × 25 个模型

环境类别	具体环境	考察能力
代码环境	OS（Linux终端）/ DB（SQL）/ KG（知识图谱）	命令行、SQL、工具调用
游戏环境	卡牌游戏 / 横向思维 / AlfWorld 家庭任务	策略规划、创造性推理
网络环境	WebShop 购物 / Mind2Web 浏览	网页理解、操作序列

核心结论：

GPT-4 一骑绝尘（4.41），最佳开源模型 chatglm2（1.31）——3.37 倍差距
卡牌游戏（DCG）：全部模型接近 0 分——博弈策略是当时天花板
“会聊天 ≠ 会做事”——传统 NLP 能力无法预测 Agent 能力

历史地位：Agent 评测的开山之作，后续 SWE-bench、HAL、GAIA 都在此基础上发展。

2.2 SWE-bench + PaperBench（D3）——专项能力考卷

SWE-bench：修 Bug 的"机试"

输入：真实 GitHub 仓库代码 + Issue 描述 任务：生成 Patch 修复 Bug 判分：① FAIL_TO_PASS（Bug 修好了）② PASS_TO_PASS（没搞坏其他功能）

排行榜演进：33.2%（GPT-4o 2024）→ 80.9%（Augment Code 2026）→ 退役

关键洞察：SWE-bench 证明了一件事——修代码是可以被系统性评测的，但公开评测终将被刷穿。

PaperBench：复现论文的"博士考试"

输入：1 篇 ICML 2024 Spotlight/Oral 论文 PDF 任务：从零复现论文的实验结果 评判：8316 个叶节点，逐一 0/1 打分

排行榜：

模型	得分
人类 ML 博士（4 周兼职）	41.4%
Claude 3.5 Sonnet (New)	21.0%
o1-high	13.2%
GPT-4o	4.1%

AI 三大软肋（PaperBench 揭示）：

长期规划弱——前期快，24 小时后开始"摆烂"
调试能力差——复杂错误无法系统排查
主动放弃——所有模型都未用满全部时间

SWE-bench vs PaperBench 本质差异：

维度	SWE-bench	PaperBench
任务类型	修 Bug（局部修改）	复现论文（从零建系统）
时间跨度	分钟级	天级
人类基线	~80%（已追平）	41.4%（AI 仅 21%）
类比	维修工修水管	建筑师造房子

三、DeepSeek V4 技术架构深析

3.1 基本规格

规格	V4-Pro	V4-Flash
总参数	1.6T	284B
激活参数	49B	13B
上下文	1M tokens	1M tokens
训练数据	33T tokens	32T tokens
开源协议	Apache 2.0	Apache 2.0

3.2 架构三大创新

① CSA + HCA 混合压缩注意力

核心问题：标准 Attention 复杂度 O(n²)，1M 上下文在 V3.2 上无法实用。

CSA（Compressed Sparse Attention）：

每 m=4 个 token 的 KV → 压缩为 1 个 entry（含 overlap 的双向压缩）
Lightning Indexer：低秩查询向量对压缩 KV 块打分，选 top-k 做 sparse attention
附加滑动窗口（n_win=128）维持近距离精细依赖
评分用 FP4 精度（2× 加速）

HCA（Heavily Compressed Attention）：

每 m’=128 个 token → 压缩为 1 个（更激进）
不做稀疏，全量 dense attention（但序列已缩小 128 倍）
负责超远距离全局语义

两者交错排列：

Flash：前 2 层纯 SWA，后续 CSA/HCA 交错
Pro：前 2 层纯 HCA，后续 CSA/HCA 交错

效率数据（vs V3.2 在 1M 上下文）：

V4-Pro 推理 FLOPs：27%
V4-Flash 推理 FLOPs：10%
V4-Pro KV Cache：10%
对比标准 BF16 GQA8 基线：KV Cache 仅2%

② mHC（Manifold-Constrained Hyper-Connections）

标准残差：X_{l+1} = X_l + F_l(X_l)

HC 升级：残差流宽度扩展 n_hc=4 倍，提供多条信息通道

mHC 核心：将残差映射矩阵 B_l 约束到双随机矩阵流形（Birkhoff polytope）：

用 Sinkhorn-Knopp 算法迭代 20 次投影
保证谱范数 ≤ 1 → 梯度传播数值稳定
参数动态生成（input-dependent），表达力强

工程开销：训练时间增加 6.7%，效果显著。

③ Muon 优化器

原理：对梯度矩阵做奇异值分解的近似（Newton-Schulz 迭代），将更新方向正交化。

V4 的两阶段 NS 迭代：

前 8 步：系数 (3.4445, -4.7750, 2.0315)，快速使奇异值逼近 1
后 2 步：系数 (2, -1.5, 0.5)，精确稳定在 1

应用范围：大部分参数用 Muon；Embedding、Prediction Head、RMSNorm 用 AdamW。

工程挑战：Muon 需要完整梯度矩阵，与 ZeRO 并行冲突 → 用 knapsack 分配算法解决。

3.3 基础设施创新

创新	核心思路	效果
FP4 QAT	MoE 专家权重 + CSA indexer QK 路径用 FP4	推理/rollout 内存减半，未来硬件可快 1/3
细粒度 EP	专家分 wave 调度，计算通信完全重叠	加速 1.5~1.73×，RL rollout 可达 1.96×
TileLang	自研 DSL，集成 Z3 SMT 求解器	Host 开销 <1μs（原数百μs）
异构 KV Cache	CSA/HCA/SWA 分开管理，支持磁盘存储	共享 prefix 无需重新 prefill
华为昇腾验证	EP 方案同时在 NVIDIA GPU 和华为昇腾 NPU 验证	首次官方文档并列两家硬件

3.4 后训练：OPD 范式

流程：

分领域独立训练专家（数学/代码/Agent/指令遵循/写作……共 10+）
每个专家经过 SFT → GRPO RL 两阶段
多教师 OPD：学生用 reverse KL loss 向所有老师靠拢
用全词表 logit 分布（不做 token-level 近似），梯度更稳定

工程支撑：老师参数 offload 到存储，按需加载；只缓存最后一层 hidden state，重建 logits 时再过 prediction head（节省显存）。

3.5 三种推理模式

模式	特点	上下文	适用
Non-think	快速直觉	8K	日常对话、快速查询
Think High	复杂推理	128K	代码、数学、分析
Think Max	极限推理（特殊 system prompt）	384K	竞赛、科研、工程

新增：Quick Instruction——把辅助任务（判断是否需要搜索、生成标题、判断域名权威性）编码为特殊 token，复用已有 KV Cache 并行执行，消除冗余 prefill。

四、2026 年开源模型架构横向对比

4.1 规格对比表

模型	机构	总参数	激活参数	上下文	开源协议	技术报告
DeepSeek V4-Pro	DeepSeek	1.6T	49B	1M	Apache 2.0	✅ 2026.04
Kimi K2.6	MoonshotAI	1T	32B	128K	Apache 2.0	✅ arXiv 2507.20534
GLM-5.1	智谱	744B	40B	200K	MIT	✅ 技术报告
MiniMax M2.7	MiniMax	230B	10B	200K	部分开源	✅ 技术报告
LLaMA 4 Scout	Meta	109B	17B	10M	Llama 4 ⚠️	✅ arXiv 2601.11659
LLaMA 4 Maverick	Meta	400B	17B	1M	Llama 4 ⚠️	✅ 同上
Qwen3.6	阿里	未披露	未披露	128K	Apache 2.0	✅ arXiv 2505.09388
Hy3 Preview	腾讯	295B	21B	256K	开源	✅ 2026.04

4.2 各家核心技术创新

Kimi K2 / K2.6（MuonClip 首创）

MuonClip：Muon 的改进版本，在 Newton-Schulz 正交化前先做梯度裁剪，解决了原版 Muon 在万亿参数 MoE 训练中的梯度爆炸问题。K2（2025.07）是第一个在 1T 参数 MoE 上稳定使用 Muon 的工作。

K2.6 特性：

支持 300 子 Agent 并行协同
连续编码 13 小时（长程稳定性极强）
上下文 128K（短板）

技术报告：arXiv 2507.20534

GLM-5.1（Slime 异步 RL + DSA）

DSA（Dynamic Sparse Attention）：

动态计算每个 token 的注意力稀疏 mask
实现 200K 上下文，幻觉率降低 56%
与 DeepSeek CSA 的差异：DSA 是动态稀疏选择，CSA 是先压缩再稀疏

Slime 异步强化学习框架：

Actor（轨迹生成）和 Critic（梯度更新）完全异步解耦
解决 RL 训练的速度错配问题（生成慢、训练快）
支持连续数小时工程任务的 RL 训练

评测：SWE-bench Pro 58.4%（声称首个超 GPT-5.4 的开源模型）

MiniMax M2.7（Self-Evolution）

核心哲学：不追大参数，追激活参数效率——230B 总参仅激活 10B。

Self-Evolution 机制：

在 20 万个真实 RL 环境中训练
模型对自身输出持续评估和迭代改进
类似 AlphaGo 的自我博弈，但在 LLM 领域

LLaMA 4 Scout（iRoPE，10M 上下文）

iRoPE（Interleaved RoPE）：

不是所有层都用旋转位置编码
交错排列"有 RoPE 层"和"无 RoPE 层"
无 RoPE 层可以无位置偏见地关注任意远距离信息
实现10M tokens上下文，目前所有模型最长

注意：Llama 4 协议限制商业使用（月活 >7 亿需授权）。

腾讯 Hy3 Preview（快慢思考融合）

核心设计：单模型内置两种推理模式（类似 DeepSeek V4 的 Non-think/Think）：

no-think 模式：响应速度是深度思考的 1/5，能力基本对齐
深度思考模式：复杂任务

推理效率整体提升 40%，API 定价 1.2 元/百万 tokens（行业最低梯队）。

4.3 技术路线差异矩阵

技术维度	DeepSeek V4	Kimi K2.6	GLM-5.1	LLaMA 4 Scout	Hy3
长上下文方案	CSA+HCA压缩（1M）	标准MoE（128K）	DSA动态稀疏（200K）	iRoPE（10M）	标准（256K）
优化器	Muon	MuonClip	AdamW	AdamW	AdamW
后训练	OPD多教师蒸馏	GRPO RL	Slime异步RL	标准RLHF	RL重建
残差连接	mHC流形约束	标准	标准	标准	标准
KV压缩	极致（V3.2的10%）	无	DSA稀疏	标准GQA	标准
多模态	❌（开发中）	❌	❌	✅ 原生	❌
完全开源	✅ Apache	✅ Apache	✅ MIT	⚠️ Llama 4	✅ 开源

五、关键技术词典

注意力机制类

术语	全称	解释
MLA	Multi-head Latent Attention	DeepSeek V3 的低秩 KV 压缩，减少 KV Cache
CSA	Compressed Sparse Attention	DeepSeek V4，先压缩再稀疏选择
HCA	Heavily Compressed Attention	DeepSeek V4，重度压缩（128:1）+ 全量 Attention
DSA	Dynamic Sparse Attention	GLM-5，动态稀疏掩码
iRoPE	Interleaved RoPE	LLaMA 4，交错使用有/无位置编码的层
SWA	Sliding Window Attention	只关注最近 n 个 token，O(n) 复杂度
GQA	Grouped Query Attention	多查询头共享 KV，节省内存

优化器类

术语	解释
AdamW	标准优化器，Adam + 权重衰减
Muon	梯度正交化优化器，Newton-Schulz 迭代，收敛更快
MuonClip	Kimi 首创，Muon + 梯度裁剪，解决 MoE 训练不稳定

架构类

术语	解释
MoE	Mixture of Experts，多个专家子网络，每次只激活部分
mHC	Manifold-Constrained Hyper-Connections，流形约束残差
MTP	Multi-Token Prediction，同时预测多个 token，加速推理
FP4/FP8	浮点精度格式，位数越少越省内存但精度越低
QAT	Quantization-Aware Training，量化感知训练

训练范式类

术语	解释
GRPO	Group Relative Policy Optimization，DeepSeek 发明的 RL 算法
OPD	On-Policy Distillation，在策略蒸馏，学生模拟教师分布
Slime	智谱的异步 RL 框架，Actor/Critic 完全解耦
ZeRO	Zero Redundancy Optimizer，分布式训练内存优化策略
DualPipe	DeepSeek 的双向流水线并行策略

六、核心洞察与行动建议

洞察 1：所有旗舰开源模型都用 MoE，没有例外

2026 年，Dense 架构（参数全激活）在旗舰模型中已经消失。MoE 的核心优势是：用更大的总参数量保持能力，但每次推理只激活小部分参数控制成本。

激活参数 / 总参数的比值：

DeepSeek V4-Pro：49B / 1.6T =3.1%
Kimi K2.6：32B / 1T =3.2%
GLM-5.1：40B / 744B =5.4%
MiniMax M2.7：10B / 230B =4.3%

洞察 2：长上下文的下一战场是 Agent 持久化

1M 上下文的真正价值不是替代 RAG，而是让 Agent 能把完整推理历史、工具调用记录、中间状态全部保留在上下文中——AI 的工作记忆升级。

DeepSeek V4 的 Interleaved Thinking 明确实现了这一点：工具调用场景中保留所有轮次的推理链。

洞察 3：评测基准的生命周期越来越短

基准	发布	退役/饱和	存活时间
HumanEval	2021	2023（90%+）	~2 年
SWE-bench Verified	2024.08	2026.02	~18 个月
预测 SWE-bench Pro	2025	~2027？	缩短中

行动建议：自建私有评测集，每季度轮换 20% 题目，参照 DeepSeek V4 的 R&D Coding Benchmark（真实工程任务）模式。

洞察 4：Muon 优化器正在成为新标配

两个独立顶级团队（Kimi 2025.07，DeepSeek 2026.04）先后验证了 Muon 在大规模 MoE 训练中的优势。这种"英雄所见略同"往往预示行业趋势。

预测：2026 年下半年，主流开源模型将普遍跟进 Muon 或其变体。

洞察 5：AI 的"耐力"问题尚未解决

PaperBench 揭示 AI 在 24 小时后开始"摆烂"，而人类博士持续发力。当前 Agent 适合"短跑"（快速完成明确任务），不适合"马拉松"（长期探索性工作）。

行动建议：

Agent 任务拆成短任务多轮，配合中途检查点
设计主动求助机制：连续 N 次失败 → 自动通知人类接管
参考 OpenClaw 的心跳机制：定期"唤醒" Agent 重新评估进展

附：论文索引

论文	机构	arXiv	发表
AgentBench	清华 KEG	2308.03688	ICLR 2024
SWE-bench	Princeton+OpenAI	2310.06770	ICLR 2024
PaperBench	OpenAI	—	2025.04
DeepSeek V4	DeepSeek	—	2026.04
Kimi K2	MoonshotAI	2507.20534	2025.07
LLaMA 4	Meta	2601.11659	2026.01
Qwen3	阿里	2505.09388	2025.05

整理：路易乔布斯 | 最后更新：2026-04-24

目录