你好,我是郭震
历经近半年,Gemini 从 3 升级到了 3.5,
并且这次只发布 了 3.5 Flash,号称已超越自家 3.1 Pro,
今天对比实测下,感兴趣可以看看。
1Gemini 3.5 Flash
先看Card报告评分:
在 Coding 上,它的 Terminal-bench 2.1 达到76.2%,已经接近 GPT-5.5 的78.2%,明显超过 Gemini 3 Flash 和 Gemini 3.1 Pro。
更关键的是 Agent 能力。
MCP Atlas 直接冲到83.6%,比 GPT-5.5、Claude Opus 4.7 都高;
Toolathlon 也有56.5%,说明它在 MCP、多工具调用、真实任务流里表现很强。
UI 操作也不弱,OSWorld-Verified 是78.4%,几乎贴着 GPT-5.5 的78.7%。
以上评分看到,Gemini 3.5 Flash 已成为在 Agent、MCP、真实工具使用场景里非常能打的主力模型。
2 对比实测
测试思路:确定测试环境,确定对比测试使用的大模型,把各自结果发给裁判Gemini-3.1-Pro
测试环境配置如下:
我构思了一个小型Agent任务,如下所示:
我会上传一个 Excel 文件,请读取并分析数据。请识别字段、数据类型、行数、列数,并检查空值/异常值/重复值。请自动选择适合做柱状图、折线图、饼图的字段。请只输出一个可直接运行的 HTML 文件,内含 HTML/CSS/JS。请使用 ECharts 绘制柱状图、折线图、饼状图。页面要包含数据概览、三张图表和每张图的中文结论。不要编造不存在的字段或数值,所有结论必须来自 Excel。如果某类图表不适合,请在页面中说明原因并给出替代图表。分别使用大模型:Gemini-3.5-Flash,DeepSeek-V4-Flash,DeepSeek-V4-Pro,GPT-5.5
选择Gemini-3.5-Flash:
发送这个小型Agent任务给它:
保存生成的HTML文件:
Gemini-3.5-Flash 结果展示:
上传一个Excel文件后数据展示:
可视化图展示:
同样小型Agent任务,提问:DeepSeek-V4 Flash
同样Excel上传DeepSeek-V4 Flash后展示:
DeepSeek-V4 Flash 数据可视化图:
同样问题,提问给DeepSeek-V4-Pro:
DeepSeek-V4-Pro数据分析可视化图:
DeepSeek-V4-Pro 数据展示:
DeepSeek-V4-Pro 可视化图:
同样问题,提问GPT-5.5:
GPT-5.5数据展示:
可视化图:
3 裁判打分
大概凭感觉也能看出来,谁会更好一些。但是为了更加客观,交给裁判Gemini-3.1-Pro模型,评估如下图所示:
裁判给出得分:
裁判给出详细解释:
再叫裁判总结为三句话,如下图所示:
DeepSeek-v4-pro凭借无可挑剔的严密逻辑与专业校验夺魁,是生产级精准报告的首选。
Gemini-3.5-flash以极强的容错稳健性位居次席,而DeepSeek-v4-flash凭借顶级视觉审美成为原型设计最佳工具。
GPT-5.5 因 UI 简陋与智能洞察匮乏全面落后,整体评价呈现出“追求精准选 Pro,追求颜值选 Flash”的格局。
为啥GPT-5.5排到最后,我还特意多试了几次,都是这样,还是挺出乎我的意料!
最后总结一下
篇幅关系,这次只用一个小型 Agent 任务,初步实测 Gemini 3.5 Flash 的真实表现,整体完成度比较稳。
如果追求严谨报告,DeepSeek-V4-Pro 更强,而 Gemini 3.5 Flash 的优势是均衡、稳定、适合真实办公自动化场景。
GPT-5.5为啥这个任务表现不好,挺出乎我的意料!当然这只是小样本测试,后面再用更多更复杂任务继续实测。