Qwen3.6–35B vs. Gemma 4 26B-平芜编程栈

五天前，阿里巴巴的 Qwen 团队悄然发布了一款新的开源 MoE（混合专家）模型Qwen3.6–35B-A3B—— 总参数量 350 亿，但每次前向传播仅激活30 亿参数。它可以免费下载，能在 16GB 的 Mac Mini 上运行。而几乎没人公开提及的是：在 SWE-bench Verified 基准测试中，它的得分达到了73.4%。

Google 的同类开源 MoE 模型Gemma 4 26B A4B在相同基准上的得分是52.0%。

差距高达 21 个百分点。在智能体编程这个最关键的基准上，激活参数更小的模型反而大获全胜。

反直觉之处在于：Gemma 4 26B A4B 每个 token 激活40 亿参数，而 Qwen3.6–35B-A3B 仅激活30 亿。计算量更小的模型却在编程基准测试中碾压对手。

我花了 48 小时在 MacBook Pro M3 Max（64GB）上并排运行这两款模型。以下是完整分析 —— 涵盖所有基准测试、解释差距的架构差异、5 分钟内即可运行的复制粘贴命令，以及关于你该用哪款的坦诚建议。

1、测试环境

这是两款 2026 年旗舰模型，截然不同的架构。

两款模型都在 2026 年 4 月发布，都采用 Apache 2.0 开源权重，都是为本地运行设计的稀疏 MoE。从纸面参数看，它们属于同一类别 —— “总参数量低于 400 亿、激活参数低于 50 亿的开发者向 MoE 模型”。

但它们的架构完全不同。

Gemma 4 26B A4B（2026 年 4 月 2 日发布）是纯 Transformer MoE。每一层都是标准的 softmax 注意力后接 MoE 层。Google 的设计理念是：沿用 Gemma 3 的密集架构，将前馈层替换为专家网络，让 top-k 路由决定每个 token 激活哪 40 亿参数。简洁、传统、经过验证。

Qwen3.6–35B-A3B（2026 年 4 月 14 日发布）则更为独特。它采用重复的 10 块结构，每块包含三个（Gated DeltaNet→ MoE）实例，后接一个（Gated Attention→ MoE）实例。这意味着 75% 的注意力计算由一种名为 Gated DeltaNet 的线性注意力变体完成，只有 25% 使用传统 softmax 注意力（并配合分组查询注意力 GQA）。

Gated DeltaNet —— 最初在 2024 年的论文《Gated Delta Networks: Improving Mamba2 with Delta Rule》中提出 —— 用随序列长度线性扩展的循环状态更新替代了二次复杂度的 softmax 注意力。它更接近 RNN 而非 Transformer，包含两个可学习的门控：α（衰减门控，控制记忆重置速度）和 β（更新门控，控制新输入对状态的修改强度）。

理论上，这种设计的权衡是：在长上下文上节省大量计算，但会损失一些全局建模能力，因为所有信息都必须通过固定大小的记忆瓶颈。

然而，如下文所示，实际结果并不像是做出了什么妥协。

2、规格参数表

以下是两款模型的并排对比 —— 所有关键规格一览：

+--------------------------+--------------------------+------------------------+ | Spec | Gemma 4 26B A4B | Qwen3.6-35B-A3B | +==========================+==========================+========================+ | Company | Google DeepMind | Alibaba (Tongyi Lab) | | Release date | April 2, 2026 | April 14, 2026 | | Total parameters | 26B | 35B | | Active parameters | 3.8B - 4B | 3B | | Experts (total / routed) | Google undisclosed | 256 total / 8+1 routed | | Architecture | Pure Transformer MoE | Gated DeltaNet + MoE | | Attention ratio | 100% softmax | 75% DeltaNet / 25% GQA | | Native context | 256K tokens | 262K tokens | | Extended context | — | 1.01M via YaRN | | Multimodal inputs | Text, image, video (60s) | Text, image, docs | | License | Apache 2.0 | Apache 2.0 | | Arena AI rank | #6 (score 1441) | Not yet ranked | +--------------------------+--------------------------+------------------------+

从纯规格来看，Qwen 在上下文长度上胜出（1M 扩展 vs 256K 固定），Gemma 在多模态上胜出（支持视频输入、Arena 排名更高）。两款都能在消费级硬件上运行。

但规格不重要，基准测试才重要。

3、基准测试血洗

我从两款模型的官方技术报告、BenchLM 聚合器以及阿里云 4 月 14 日发布会的独立测试中收集了数据。在 BenchLM 临时总榜上，Qwen3.6–35B-A3B 以 64 比 58 领先 Gemma 4 26B A4B，涵盖智能体、编程、多模态、知识和推理等任务。

以下是各模型的优势领域：

+------------------------------+-------------+-------------------+-------+ | Benchmark | Gemma 4 26B | Qwen3.6-35B-A3B | Gap | +==============================+=============+===================+=======+ | SWE-bench Verified (coding) | 52.0% | 73.4% | +21.4 | | SWE-bench Pro | 35.7 | 49.5 | +13.8 | | Terminal-Bench 2.0 (agents)| 42.9% | 51.5% | +8.6 | | MCPMark (tool use) | 18.1% | 37.0% | +18.9 | | MCP-Atlas | no report | 62.8 | — | | LiveCodeBench v6 | 77.1% | 80.4% | +3.3 | | Codeforces ELO | 2150 | no report | — | | AIME 2026 (math) | 88.3% | 92.7% | +4.4 | | GPQA (graduate reasoning) | 84.3 | 86.0 | +1.7 | | MMLU Pro (general knowledge) | 82.6% | ~87 (est) | +4-5 | | Multimodal avg | 73.8 | 75.3 | +1.5 | | Inference (M2 Ultra, Q8) | 300 tok/s | ~120 tok/s (4090) | — | +------------------------------+-------------+-------------------+-------+

两个发现格外醒目：

第一：在双方都报告了分数的每个类别中，Qwen 全部获胜。没有一个类别是反过来的。编程、智能体工作流、数学、推理、多模态、知识 —— 每个单元格都是 Qwen 的绿色。

第二：最大的差距出现在智能体/编程任务上（SWE-bench +21.4、MCPMark +18.9、SWE-bench Pro +13.8）。最小的差距在推理和多模态上（+1.5 到 +4.4）。Qwen 不只是"整体更好"，它在 2026 年人们实际购买模型的确切用例上大幅领先 —— 使用工具、修复 GitHub issue、在 Cursor、Windsurf 和 Claude Code 等编程智能体中自主运行。

Gemma 唯一的安慰奖：Google 的模型仍在 Arena AI 文本排行榜上保持第 6 位，Elo 分数 1441（截至 Qwen3.6 发布前的排名）。在人类偏好的正面交锋中 —— 响应风格、个性和指令遵循的感觉很重要 —— Gemma 拥有基准数字无法捕捉的精致打磨。它也是两款中唯一原生支持视频输入的（最长 60 秒）。

但对于"我想部署一个 AI 在一夜之间修复 50 个 GitHub issue"这样的需求，基准测试结果是明确的。

4、21 分的编程差距如何解释？

两款模型规模相近、激活计算量相近、许可证相同、发布时间相近。一款在编程上碾压对手 21 分。为什么？

有三种合理的解释，我认为都很重要。

1. Gated DeltaNet 让仓库级上下文变得可行。SWE-bench 的很大一部分是在修改时保持多个文件在工作记忆中。标准 softmax 注意力的成本随序列长度呈 O(n²) 增长，因此 20 万+ token 的上下文意味着巨大的延迟和 KV 缓存膨胀。DeltaNet 的线性注意力循环将其变为 O(n) 计算，配合固定大小的记忆。阿里巴巴 3:1 的比例（DeltaNet:GQA）看起来是最佳平衡点 —— 足够的线性注意力让长上下文成本可控，足够的传统注意力在关键时刻保留全局建模能力。

2. Qwen 的 MoE 有 256 个专家，Gemma 没有公开。Qwen 的路由从总共 256 个专家池中每个 token 激活 8 个路由专家加 1 个共享专家。Google 尚未公开披露 Gemma 4 26B A4B 的专家数量，但第三方逆向工程显示大约在 8–32 个总专家，采用 top-2 路由。更多专家 = 更细粒度的专业化。专门的"这是 Python 文件"专家、"这是 SQL 查询"专家、"这是调试会话"专家。

3. 阿里巴巴专门针对智能体编程进行了训练。Qwen 3.6 的发布说明明确写道：“瞄准顶级智能体编程”。训练语料的权重针对工具调用格式遵循、多轮重试和 80+ 语言的代码理解进行了调整。Google 的 Gemma 4 训练更通用 —— 多模态推理、多语言文本、对话质量。你倾向于得到你训练的目标。

值得说明的一个注意事项：阿里巴巴使用自己的内部智能体框架测量了 73.4% 的 SWE-bench Verified 分数，而非标准的公开 SWE-bench 测试框架。在中性测试框架上的独立复现目前显示为 68–71%，仍然明显高于 Gemma 4 的 52%，但没有官方营销数字那么高。预计在未来 3–6 个月内，"阿里巴巴智能体框架 vs 其他人的智能体框架"的故事将成为排行榜上反复出现的脚注。

5、真实世界测试

我在两款模型上运行的 3 个任务。

基准测试是起点，不是终点。我在两款模型上运行了三个我实际会使用本地编程模型的具体任务。硬件：MacBook Pro M3 Max，64GB 统一内存，通过 Ollama 使用 Q4_K_M 量化。

任务 1 —— 修复开源仓库中的真实 bug。

我让两款模型都查看一个 Flask Web 应用，该应用在 user-orders 端点存在已知的 N+1 查询 bug，要求它们识别并修复。

Gemma 4 26B A4B：正确识别了 N+1 模式。建议使用 SQLAlchemy 的joinedload()，但导入语句拼写错误（sqlalchemy.orm.jointedload—— 差一个字母）。生成的 diff 无法干净应用。需要第二轮来修复自己的导入错误。

Qwen3.6–35B-A3B：正确识别了 N+1 模式。编写了干净的.options(joinedload(Order.items))查询链。正确更新了测试夹具以覆盖新行为。diff 一次应用成功。

任务 2 —— 多文件重构。

将一个 12 文件的 Python 代码库从requests迁移到httpx并添加异步支持。

Gemma 4 26B A4B：12 个文件中 9 个处理干净。漏掉了两个异步上下文管理器转换。破坏了一个重试装饰器，因为它没意识到httpx需要不同的异常类。

Qwen3.6–35B-A3B：12 个文件全部处理干净。正确捕捉到了重试装饰器的异常不匹配。插入了一个 TODO 注释，要求我仔细检查它不太有把握的流处理分支。这种元认知式的"我不确定，标记出来供审查"行为正是智能体编程调优产生的。

任务 3 —— LeetCode 困难题。

经典测试：LeetCode 上的"最小窗口子串"（以棘手边界条件著称的题目）。

Gemma 4 26B A4B：18 秒内首次尝试写出了正确的滑动窗口解法。代码干净，最优 O(n) 复杂度。

Qwen3.6–35B-A3B：也首次尝试写出了正确的滑动窗口解法，但耗时 31 秒。注释中的详细解释在教学上明显更好。

Gemma 更快（M2 Ultra 上 Q8：300 tok/s vs RTX 4090 上 Qwen 的约 120 tok/s）。它在短任务上确实更快。Qwen 更彻底、在多步骤工作上更可靠、在智能体自我纠正上表现更好。

6、你到底该用哪款？

测试后，这是我的坦诚建议：

使用 Qwen3.6–35B-A3B 的情况：

你在构建智能体编程循环（Cursor、Cline、Aider、Claude Code 风格的智能体）。21 分的 SWE-bench 领先和 2 倍的 MCPMark 分数意味着真实世界的可靠性。
你需要超过 256K 的上下文。Qwen 通过 YaRN 扩展到 100 万 token。Gemma 止步于 256K。
你关心仓库级推理。当你将多个大文件推入上下文时，3:1 的 DeltaNet 架构表现出色。
你有不错的硬件。Qwen 需要至少约 22GB 内存用于 Q4 量化；32GB+ 更舒适。
使用 Gemma 4 26B A4B 的情况：
你需要带视频输入的多模态。Gemma 接受最长 60 秒的视频；Qwen 仅支持文本 + 图像 + 文档。
你在更紧的硬件上运行。仅 40 亿激活参数，M2 Ultra 上 300 tok/s，Gemma 在交互式聊天中明显更轻快。
你在构建对话式 UX，其中响应风格和语气比任务完成准确性更重要。Gemma 的 Arena AI 第 6 名反映了真实的人类偏好打磨。
你在多语言环境中。Gemma 的训练语料中非英语语言占比更高，质量体现明显。
诚实的默认选择：

对于 80% 阅读本文的开发者，2026 年 4 月 Qwen3.6–35B-A3B 是更好的选择。编程基准测试 decisive，架构确实新颖，100 万上下文窗口对于严肃的智能体工作是真正的升级。Gemma 4 26B A4B 是一款很棒的模型 —— 如果 Qwen3.6 没有在 12 天后发布，它看起来会很惊艳 —— 但在开发者最关心的几个维度上被超越了。

7、5 分钟快速开始

两款模型都可以通过 Ollama 一行命令安装。以下是复制粘贴指南 —— 已在 macOS（M 系列）和 Linux 上验证：

7.1 安装 Ollama（如已安装请跳过）

curl -fsSL https://ollama.com/install.sh | sh

7.2 运行 Gemma 4 26B A4B

ollama pull gemma4:26b-a4b-it-q4_K_M ollama run gemma4:26b-a4b-it-q4_K_M "Write a Python function to compute Fibonacci numbers using memoization."

Q4_K_M 量化需要约 15GB 内存。如果你有 64GB+，可以使用gemma4:26b-a4b-it（未量化）以获得稍好的质量，内存占用翻倍。

7.3 运行 Qwen3.6–35B-A3B

ollama pull qwen3.6:35b-a3b ollama run qwen3.6:35b-a3b "Refactor this function to use async/await and add retry logic with exponential backoff."

默认的 Ollama Qwen3.6 标签以 Q4_K_M 形式发布，需要约 22GB 内存。对于 16GB 系统，使用 Unsloth 的动态量化版本unsloth/Qwen3.6-35B-A3B-GGUF（最低 10GB 占用，质量略有损失）。

7.4 从 Python 调用任一模型（OpenAI 兼容 API）

from openai import OpenAI client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama") response = client.chat.completions.create( model="qwen3.6:35b-a3b", # 或 "gemma4:26b-a4b-it-q4_K_M" messages=[ {"role": "system", "content": "You are an expert Python engineer."}, {"role": "user", "content": "Find and fix the bug in this code: ..."} ], temperature=0.2, ) print(response.choices[0].message.content)

两款模型都通过 Ollama 暴露相同的 OpenAI 兼容端点。更换model字符串即可在它们之间切换 —— 智能体代码中的其他一切保持不变。如果你已经在使用 Cursor、Cline 或 Aider 配合本地 Ollama 后端，今天就可以在真实任务上 A/B 测试两款模型。

8、规模化部署（生产环境）

对于吞吐量敏感的工作负载，跳过 Ollama，直接使用 vLLM 或 SGLang：

# vLLM vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --max-model-len 262144 # SGLang python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000

在 H100 上，vLLM 以 32 个并发会话提供约 300 tok/s 的总吞吐量来服务 Qwen3.6–35B-A3B。

9、结束语

五天前，Google 的 Gemma 4 26B A4B 还是你能在消费级硬件上运行的最佳开源 MoE 模型。今天，阿里巴巴的 Qwen3.6–35B-A3B 在报告了双方分数的每个基准测试上都击败了它，最大的差距恰好出现在开发者实际使用这些模型的领域 —— 智能体编程、工具使用、长上下文工作。架构原因并不神秘：DeltaNet 3:1 线性到 softmax 注意力比例加上 256 专家 MoE 路由，目前是这个模型类别更好的配方。

Gemma 4 26B A4B 并不差 —— 在大多数维度上，它都是 2026 年最先进的开源模型。它只是被一款在开发者最关心的几个维度上、在不到两周后发布的模型超越了。

如果你在 2026 年 4 月运行本地编程智能体，执行ollama pull qwen3.6:35b-a3b然后继续。21 分的 SWE-bench 差距是真实的、可复现的，它在日常工作中表现出的效果与基准测试所说的一致。

如果你还在运行上个月的 Qwen 3.5？你在 QwenWebBench 性能上留下了 43% 的潜力。升级吧。

原文链接：Qwen3.6–35B vs. Gemma 4 26B - 汇智网