news 2026/4/24 4:33:22

Qwen3.6–35B vs. Gemma 4 26B

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen3.6–35B vs. Gemma 4 26B

五天前,阿里巴巴的 Qwen 团队悄然发布了一款新的开源 MoE(混合专家)模型Qwen3.6–35B-A3B—— 总参数量 350 亿,但每次前向传播仅激活30 亿参数。它可以免费下载,能在 16GB 的 Mac Mini 上运行。而几乎没人公开提及的是:在 SWE-bench Verified 基准测试中,它的得分达到了73.4%

Google 的同类开源 MoE 模型Gemma 4 26B A4B在相同基准上的得分是52.0%

差距高达 21 个百分点。在智能体编程这个最关键的基准上,激活参数更小的模型反而大获全胜。

反直觉之处在于:Gemma 4 26B A4B 每个 token 激活40 亿参数,而 Qwen3.6–35B-A3B 仅激活30 亿。计算量更小的模型却在编程基准测试中碾压对手。

我花了 48 小时在 MacBook Pro M3 Max(64GB)上并排运行这两款模型。以下是完整分析 —— 涵盖所有基准测试、解释差距的架构差异、5 分钟内即可运行的复制粘贴命令,以及关于你该用哪款的坦诚建议。

1、测试环境

这是两款 2026 年旗舰模型,截然不同的架构。

两款模型都在 2026 年 4 月发布,都采用 Apache 2.0 开源权重,都是为本地运行设计的稀疏 MoE。从纸面参数看,它们属于同一类别 —— “总参数量低于 400 亿、激活参数低于 50 亿的开发者向 MoE 模型”。

但它们的架构完全不同。

Gemma 4 26B A4B(2026 年 4 月 2 日发布)是纯 Transformer MoE。每一层都是标准的 softmax 注意力后接 MoE 层。Google 的设计理念是:沿用 Gemma 3 的密集架构,将前馈层替换为专家网络,让 top-k 路由决定每个 token 激活哪 40 亿参数。简洁、传统、经过验证。

Qwen3.6–35B-A3B(2026 年 4 月 14 日发布)则更为独特。它采用重复的 10 块结构,每块包含三个(Gated DeltaNet→ MoE)实例,后接一个(Gated Attention→ MoE)实例。这意味着 75% 的注意力计算由一种名为 Gated DeltaNet 的线性注意力变体完成,只有 25% 使用传统 softmax 注意力(并配合分组查询注意力 GQA)。

Gated DeltaNet —— 最初在 2024 年的论文《Gated Delta Networks: Improving Mamba2 with Delta Rule》中提出 —— 用随序列长度线性扩展的循环状态更新替代了二次复杂度的 softmax 注意力。它更接近 RNN 而非 Transformer,包含两个可学习的门控:α(衰减门控,控制记忆重置速度)和 β(更新门控,控制新输入对状态的修改强度)。

理论上,这种设计的权衡是:在长上下文上节省大量计算,但会损失一些全局建模能力,因为所有信息都必须通过固定大小的记忆瓶颈。

然而,如下文所示,实际结果并不像是做出了什么妥协。

2、规格参数表

以下是两款模型的并排对比 —— 所有关键规格一览:

+--------------------------+--------------------------+------------------------+ | Spec | Gemma 4 26B A4B | Qwen3.6-35B-A3B | +==========================+==========================+========================+ | Company | Google DeepMind | Alibaba (Tongyi Lab) | | Release date | April 2, 2026 | April 14, 2026 | | Total parameters | 26B | 35B | | Active parameters | 3.8B - 4B | 3B | | Experts (total / routed) | Google undisclosed | 256 total / 8+1 routed | | Architecture | Pure Transformer MoE | Gated DeltaNet + MoE | | Attention ratio | 100% softmax | 75% DeltaNet / 25% GQA | | Native context | 256K tokens | 262K tokens | | Extended context | — | 1.01M via YaRN | | Multimodal inputs | Text, image, video (60s) | Text, image, docs | | License | Apache 2.0 | Apache 2.0 | | Arena AI rank | #6 (score 1441) | Not yet ranked | +--------------------------+--------------------------+------------------------+

从纯规格来看,Qwen 在上下文长度上胜出(1M 扩展 vs 256K 固定),Gemma 在多模态上胜出(支持视频输入、Arena 排名更高)。两款都能在消费级硬件上运行。

但规格不重要,基准测试才重要。

3、基准测试血洗

我从两款模型的官方技术报告、BenchLM 聚合器以及阿里云 4 月 14 日发布会的独立测试中收集了数据。在 BenchLM 临时总榜上,Qwen3.6–35B-A3B 以 64 比 58 领先 Gemma 4 26B A4B,涵盖智能体、编程、多模态、知识和推理等任务。

以下是各模型的优势领域:

+------------------------------+-------------+-------------------+-------+ | Benchmark | Gemma 4 26B | Qwen3.6-35B-A3B | Gap | +==============================+=============+===================+=======+ | SWE-bench Verified (coding) | 52.0% | 73.4% | +21.4 | | SWE-bench Pro | 35.7 | 49.5 | +13.8 | | Terminal-Bench 2.0 (agents)| 42.9% | 51.5% | +8.6 | | MCPMark (tool use) | 18.1% | 37.0% | +18.9 | | MCP-Atlas | no report | 62.8 | — | | LiveCodeBench v6 | 77.1% | 80.4% | +3.3 | | Codeforces ELO | 2150 | no report | — | | AIME 2026 (math) | 88.3% | 92.7% | +4.4 | | GPQA (graduate reasoning) | 84.3 | 86.0 | +1.7 | | MMLU Pro (general knowledge) | 82.6% | ~87 (est) | +4-5 | | Multimodal avg | 73.8 | 75.3 | +1.5 | | Inference (M2 Ultra, Q8) | 300 tok/s | ~120 tok/s (4090) | — | +------------------------------+-------------+-------------------+-------+

两个发现格外醒目:

第一:在双方都报告了分数的每个类别中,Qwen 全部获胜。没有一个类别是反过来的。编程、智能体工作流、数学、推理、多模态、知识 —— 每个单元格都是 Qwen 的绿色。

第二:最大的差距出现在智能体/编程任务上(SWE-bench +21.4、MCPMark +18.9、SWE-bench Pro +13.8)。最小的差距在推理和多模态上(+1.5 到 +4.4)。Qwen 不只是"整体更好",它在 2026 年人们实际购买模型的确切用例上大幅领先 —— 使用工具、修复 GitHub issue、在 Cursor、Windsurf 和 Claude Code 等编程智能体中自主运行。

Gemma 唯一的安慰奖:Google 的模型仍在 Arena AI 文本排行榜上保持第 6 位,Elo 分数 1441(截至 Qwen3.6 发布前的排名)。在人类偏好的正面交锋中 —— 响应风格、个性和指令遵循的感觉很重要 —— Gemma 拥有基准数字无法捕捉的精致打磨。它也是两款中唯一原生支持视频输入的(最长 60 秒)。

但对于"我想部署一个 AI 在一夜之间修复 50 个 GitHub issue"这样的需求,基准测试结果是明确的。

4、21 分的编程差距如何解释?

两款模型规模相近、激活计算量相近、许可证相同、发布时间相近。一款在编程上碾压对手 21 分。为什么?

有三种合理的解释,我认为都很重要。

1. Gated DeltaNet 让仓库级上下文变得可行。SWE-bench 的很大一部分是在修改时保持多个文件在工作记忆中。标准 softmax 注意力的成本随序列长度呈 O(n²) 增长,因此 20 万+ token 的上下文意味着巨大的延迟和 KV 缓存膨胀。DeltaNet 的线性注意力循环将其变为 O(n) 计算,配合固定大小的记忆。阿里巴巴 3:1 的比例(DeltaNet:GQA)看起来是最佳平衡点 —— 足够的线性注意力让长上下文成本可控,足够的传统注意力在关键时刻保留全局建模能力。

2. Qwen 的 MoE 有 256 个专家,Gemma 没有公开。Qwen 的路由从总共 256 个专家池中每个 token 激活 8 个路由专家加 1 个共享专家。Google 尚未公开披露 Gemma 4 26B A4B 的专家数量,但第三方逆向工程显示大约在 8–32 个总专家,采用 top-2 路由。更多专家 = 更细粒度的专业化。专门的"这是 Python 文件"专家、"这是 SQL 查询"专家、"这是调试会话"专家。

3. 阿里巴巴专门针对智能体编程进行了训练。Qwen 3.6 的发布说明明确写道:“瞄准顶级智能体编程”。训练语料的权重针对工具调用格式遵循、多轮重试和 80+ 语言的代码理解进行了调整。Google 的 Gemma 4 训练更通用 —— 多模态推理、多语言文本、对话质量。你倾向于得到你训练的目标。

值得说明的一个注意事项:阿里巴巴使用自己的内部智能体框架测量了 73.4% 的 SWE-bench Verified 分数,而非标准的公开 SWE-bench 测试框架。在中性测试框架上的独立复现目前显示为 68–71%,仍然明显高于 Gemma 4 的 52%,但没有官方营销数字那么高。预计在未来 3–6 个月内,"阿里巴巴智能体框架 vs 其他人的智能体框架"的故事将成为排行榜上反复出现的脚注。

5、真实世界测试

我在两款模型上运行的 3 个任务。

基准测试是起点,不是终点。我在两款模型上运行了三个我实际会使用本地编程模型的具体任务。硬件:MacBook Pro M3 Max,64GB 统一内存,通过 Ollama 使用 Q4_K_M 量化。

任务 1 —— 修复开源仓库中的真实 bug。

我让两款模型都查看一个 Flask Web 应用,该应用在 user-orders 端点存在已知的 N+1 查询 bug,要求它们识别并修复。

Gemma 4 26B A4B:正确识别了 N+1 模式。建议使用 SQLAlchemy 的joinedload(),但导入语句拼写错误(sqlalchemy.orm.jointedload—— 差一个字母)。生成的 diff 无法干净应用。需要第二轮来修复自己的导入错误。

Qwen3.6–35B-A3B:正确识别了 N+1 模式。编写了干净的.options(joinedload(Order.items))查询链。正确更新了测试夹具以覆盖新行为。diff 一次应用成功。

任务 2 —— 多文件重构。

将一个 12 文件的 Python 代码库从requests迁移到httpx并添加异步支持。

Gemma 4 26B A4B:12 个文件中 9 个处理干净。漏掉了两个异步上下文管理器转换。破坏了一个重试装饰器,因为它没意识到httpx需要不同的异常类。

Qwen3.6–35B-A3B:12 个文件全部处理干净。正确捕捉到了重试装饰器的异常不匹配。插入了一个 TODO 注释,要求我仔细检查它不太有把握的流处理分支。这种元认知式的"我不确定,标记出来供审查"行为正是智能体编程调优产生的。

任务 3 —— LeetCode 困难题。

经典测试:LeetCode 上的"最小窗口子串"(以棘手边界条件著称的题目)。

Gemma 4 26B A4B:18 秒内首次尝试写出了正确的滑动窗口解法。代码干净,最优 O(n) 复杂度。

Qwen3.6–35B-A3B:也首次尝试写出了正确的滑动窗口解法,但耗时 31 秒。注释中的详细解释在教学上明显更好。

Gemma 更快(M2 Ultra 上 Q8:300 tok/s vs RTX 4090 上 Qwen 的约 120 tok/s)。它在短任务上确实更快。Qwen 更彻底、在多步骤工作上更可靠、在智能体自我纠正上表现更好。

6、你到底该用哪款?

测试后,这是我的坦诚建议:

使用 Qwen3.6–35B-A3B 的情况:

  • 你在构建智能体编程循环(Cursor、Cline、Aider、Claude Code 风格的智能体)。21 分的 SWE-bench 领先和 2 倍的 MCPMark 分数意味着真实世界的可靠性。

  • 你需要超过 256K 的上下文。Qwen 通过 YaRN 扩展到 100 万 token。Gemma 止步于 256K。

  • 你关心仓库级推理。当你将多个大文件推入上下文时,3:1 的 DeltaNet 架构表现出色。

  • 你有不错的硬件。Qwen 需要至少约 22GB 内存用于 Q4 量化;32GB+ 更舒适。
    使用 Gemma 4 26B A4B 的情况:

  • 你需要带视频输入的多模态。Gemma 接受最长 60 秒的视频;Qwen 仅支持文本 + 图像 + 文档。

  • 你在更紧的硬件上运行。仅 40 亿激活参数,M2 Ultra 上 300 tok/s,Gemma 在交互式聊天中明显更轻快。

  • 你在构建对话式 UX,其中响应风格和语气比任务完成准确性更重要。Gemma 的 Arena AI 第 6 名反映了真实的人类偏好打磨。

  • 你在多语言环境中。Gemma 的训练语料中非英语语言占比更高,质量体现明显。
    诚实的默认选择:

对于 80% 阅读本文的开发者,2026 年 4 月 Qwen3.6–35B-A3B 是更好的选择。编程基准测试 decisive,架构确实新颖,100 万上下文窗口对于严肃的智能体工作是真正的升级。Gemma 4 26B A4B 是一款很棒的模型 —— 如果 Qwen3.6 没有在 12 天后发布,它看起来会很惊艳 —— 但在开发者最关心的几个维度上被超越了。

7、5 分钟快速开始

两款模型都可以通过 Ollama 一行命令安装。以下是复制粘贴指南 —— 已在 macOS(M 系列)和 Linux 上验证:

7.1 安装 Ollama(如已安装请跳过)

curl -fsSL https://ollama.com/install.sh | sh

7.2 运行 Gemma 4 26B A4B

ollama pull gemma4:26b-a4b-it-q4_K_M ollama run gemma4:26b-a4b-it-q4_K_M "Write a Python function to compute Fibonacci numbers using memoization."

Q4_K_M 量化需要约 15GB 内存。如果你有 64GB+,可以使用gemma4:26b-a4b-it(未量化)以获得稍好的质量,内存占用翻倍。

7.3 运行 Qwen3.6–35B-A3B

ollama pull qwen3.6:35b-a3b ollama run qwen3.6:35b-a3b "Refactor this function to use async/await and add retry logic with exponential backoff."

默认的 Ollama Qwen3.6 标签以 Q4_K_M 形式发布,需要约 22GB 内存。对于 16GB 系统,使用 Unsloth 的动态量化版本unsloth/Qwen3.6-35B-A3B-GGUF(最低 10GB 占用,质量略有损失)。

7.4 从 Python 调用任一模型(OpenAI 兼容 API)

from openai import OpenAI client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama") response = client.chat.completions.create( model="qwen3.6:35b-a3b", # 或 "gemma4:26b-a4b-it-q4_K_M" messages=[ {"role": "system", "content": "You are an expert Python engineer."}, {"role": "user", "content": "Find and fix the bug in this code: ..."} ], temperature=0.2, ) print(response.choices[0].message.content)

两款模型都通过 Ollama 暴露相同的 OpenAI 兼容端点。更换model字符串即可在它们之间切换 —— 智能体代码中的其他一切保持不变。如果你已经在使用 Cursor、Cline 或 Aider 配合本地 Ollama 后端,今天就可以在真实任务上 A/B 测试两款模型。

8、规模化部署(生产环境)

对于吞吐量敏感的工作负载,跳过 Ollama,直接使用 vLLM 或 SGLang:

# vLLM vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --max-model-len 262144 # SGLang python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000

在 H100 上,vLLM 以 32 个并发会话提供约 300 tok/s 的总吞吐量来服务 Qwen3.6–35B-A3B。

9、结束语

五天前,Google 的 Gemma 4 26B A4B 还是你能在消费级硬件上运行的最佳开源 MoE 模型。今天,阿里巴巴的 Qwen3.6–35B-A3B 在报告了双方分数的每个基准测试上都击败了它,最大的差距恰好出现在开发者实际使用这些模型的领域 —— 智能体编程、工具使用、长上下文工作。架构原因并不神秘:DeltaNet 3:1 线性到 softmax 注意力比例加上 256 专家 MoE 路由,目前是这个模型类别更好的配方。

Gemma 4 26B A4B 并不差 —— 在大多数维度上,它都是 2026 年最先进的开源模型。它只是被一款在开发者最关心的几个维度上、在不到两周后发布的模型超越了。

如果你在 2026 年 4 月运行本地编程智能体,执行ollama pull qwen3.6:35b-a3b然后继续。21 分的 SWE-bench 差距是真实的、可复现的,它在日常工作中表现出的效果与基准测试所说的一致。

如果你还在运行上个月的 Qwen 3.5?你在 QwenWebBench 性能上留下了 43% 的潜力。升级吧。


原文链接:Qwen3.6–35B vs. Gemma 4 26B - 汇智网

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/24 4:33:21

CentOS8.2使用脚本安装mysql8.0

1、删除之前安装的Mysql 1、查看MySQL服务运行状态: service mysql status2、查看mysql服务 ps -ef|grep mysql3、关闭mysql服务 service mysql stop4、查看mysql安装包存储位置 find / -name mysql5、删除以上文件夹 rm -rf /etc/selinux/targeted/active/modules/…

作者头像 李华
网站建设 2026/4/24 4:33:21

用Remotion构建AI生成视频

构建 AI 驱动的界面通常意味着解析模型输出、发明约定,以及编写胶水代码,而这些代码在模型改变主意的那一刻就会崩溃。JSON Render 通过给模型一个严格的契约来消除这些问题:一个你定义的组件目录,以及一个它必须输出的规格格式。…

作者头像 李华
网站建设 2026/4/24 4:29:23

wlroots与Sway生态:现代桌面环境的完整技术栈解析

wlroots与Sway生态:现代桌面环境的完整技术栈解析 【免费下载链接】wlroots A modular Wayland compositor library 项目地址: https://gitcode.com/gh_mirrors/wl/wlroots wlroots是一个模块化的Wayland compositor库,为构建现代桌面环境提供了强…

作者头像 李华
网站建设 2026/4/24 4:28:48

深入解析MongoDB的异步查询生成过程

在使用MongoDB C#驱动程序进行数据库操作时,开发者常常需要查看生成的实际查询语句,以确保查询的正确性和性能优化。尤其是在异步操作中,了解异步查询的生成过程显得尤为重要。本文将结合实例,详细介绍如何在Visual Studio中查看Collection.FindAsync(...)方法生成的查询语…

作者头像 李华
网站建设 2026/4/24 4:28:48

DeTTCT如何快速提升企业安全防御能力:10个实战技巧

DeTT&CT如何快速提升企业安全防御能力:10个实战技巧 【免费下载链接】DeTTECT Detect Tactics, Techniques & Combat Threats 项目地址: https://gitcode.com/gh_mirrors/de/DeTTECT DeTT&CT(Detect Tactics, Techniques & Comba…

作者头像 李华
网站建设 2026/4/24 4:26:34

革命性表单工具vue-json-schema-form:5分钟快速构建动态表单

革命性表单工具vue-json-schema-form:5分钟快速构建动态表单 【免费下载链接】vue-json-schema-form 基于Vue/Vue3,Json Schema 和 ElementUi/antd/iview3/naiveUi 等生成 HTML Form 表单,用于活动编辑器、h5编辑器、cms等数据配置&#xff1…

作者头像 李华