实测最新 Gemini-3.5，对比 DeepSeek-V4、GPT-5.5，结果出人意料！-平芜编程栈

你好，我是郭震

历经近半年，Gemini 从 3 升级到了 3.5，

并且这次只发布了 3.5 Flash，号称已超越自家 3.1 Pro，

今天对比实测下，感兴趣可以看看。

1Gemini 3.5 Flash

先看Card报告评分：

在 Coding 上，它的 Terminal-bench 2.1 达到76.2%，已经接近 GPT-5.5 的78.2%，明显超过 Gemini 3 Flash 和 Gemini 3.1 Pro。

更关键的是 Agent 能力。

MCP Atlas 直接冲到83.6%，比 GPT-5.5、Claude Opus 4.7 都高；

Toolathlon 也有56.5%，说明它在 MCP、多工具调用、真实任务流里表现很强。

UI 操作也不弱，OSWorld-Verified 是78.4%，几乎贴着 GPT-5.5 的78.7%。

以上评分看到，Gemini 3.5 Flash 已成为在 Agent、MCP、真实工具使用场景里非常能打的主力模型。

2 对比实测

测试思路：确定测试环境，确定对比测试使用的大模型，把各自结果发给裁判Gemini-3.1-Pro

测试环境配置如下：

我构思了一个小型Agent任务，如下所示：

我会上传一个 Excel 文件，请读取并分析数据。请识别字段、数据类型、行数、列数，并检查空值/异常值/重复值。请自动选择适合做柱状图、折线图、饼图的字段。请只输出一个可直接运行的 HTML 文件，内含 HTML/CSS/JS。请使用 ECharts 绘制柱状图、折线图、饼状图。页面要包含数据概览、三张图表和每张图的中文结论。不要编造不存在的字段或数值，所有结论必须来自 Excel。如果某类图表不适合，请在页面中说明原因并给出替代图表。

分别使用大模型：Gemini-3.5-Flash，DeepSeek-V4-Flash，DeepSeek-V4-Pro，GPT-5.5

选择Gemini-3.5-Flash：

发送这个小型Agent任务给它：

保存生成的HTML文件：

Gemini-3.5-Flash 结果展示：

上传一个Excel文件后数据展示：

可视化图展示：

同样小型Agent任务，提问：DeepSeek-V4 Flash

同样Excel上传DeepSeek-V4 Flash后展示：

DeepSeek-V4 Flash 数据可视化图：

同样问题，提问给DeepSeek-V4-Pro：

DeepSeek-V4-Pro数据分析可视化图：

DeepSeek-V4-Pro 数据展示：

DeepSeek-V4-Pro 可视化图：

同样问题，提问GPT-5.5：

GPT-5.5数据展示：

可视化图：

3 裁判打分

大概凭感觉也能看出来，谁会更好一些。但是为了更加客观，交给裁判Gemini-3.1-Pro模型，评估如下图所示：

裁判给出得分：

裁判给出详细解释：

再叫裁判总结为三句话，如下图所示：

DeepSeek-v4-pro凭借无可挑剔的严密逻辑与专业校验夺魁，是生产级精准报告的首选。

Gemini-3.5-flash以极强的容错稳健性位居次席，而DeepSeek-v4-flash凭借顶级视觉审美成为原型设计最佳工具。

GPT-5.5 因 UI 简陋与智能洞察匮乏全面落后，整体评价呈现出“追求精准选 Pro，追求颜值选 Flash”的格局。

为啥GPT-5.5排到最后，我还特意多试了几次，都是这样，还是挺出乎我的意料！

最后总结一下

篇幅关系，这次只用一个小型 Agent 任务，初步实测 Gemini 3.5 Flash 的真实表现，整体完成度比较稳。

如果追求严谨报告，DeepSeek-V4-Pro 更强，而 Gemini 3.5 Flash 的优势是均衡、稳定、适合真实办公自动化场景。

GPT-5.5为啥这个任务表现不好，挺出乎我的意料！当然这只是小样本测试，后面再用更多更复杂任务继续实测。

全文1203字，36图，如果你觉得这篇文章对你有帮助，也欢迎给我一个三连击：点赞、转发和在看；如果可以，再帮我点一个⭐️。谢谢你看到这里，我们下篇再见。

AWS RDS 全解析：能力剖析与价格深度分析

引言：云数据库的基石在云计算时代，数据库即服务（DBaaS）已成为企业构建现代化应用架构的默认选择。作为全球云计算的领导者，亚马逊 AWS 提供的关系型数据库服务（Amazon RDS），无疑是这一领域的标杆产品。它不仅仅是一个托管的数据库引擎，更是一个集高可用、可扩展、安…

李华

Vitis HLS优化指令与iDSE智能设计空间探索框架解析

1. Vitis HLS优化指令体系解析在FPGA硬件加速领域，高层次综合(HLS)技术通过将算法级的C/C描述自动转换为寄存器传输级(RTL)设计，大幅提升了开发效率。作为Xilinx推出的HLS工具链，Vitis HLS提供了三类核心优化指令，它们共同构成了硬…

李华

终极指南：RDPWrap如何免费解锁Windows多用户远程桌面功能

终极指南：RDPWrap如何免费解锁Windows多用户远程桌面功能【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap 你是否曾经想要在Windows家庭版或专业版上实现多人同时远程连接，但又不想支付昂贵的…

李华

Django 从 0 到 1 打造完整电商平台:商品列表页实现

IT策士 10余年一线大厂经验，专注 IT 思维、架构、职场进阶。我会在公众号、今日头条持续发布最新文章，助你少走弯路。上一篇我们搞定了商品分类树和 SPU 详情页的规格切换，商品模块的骨架已经撑起来了。但一个商城不能只靠详情页活着——用户…

李华

社交AI Agent不是Chatbot！5个被99%团队忽略的协议层设计陷阱（附LinkedIn/小红书级SDK接口规范）

更多请点击： https://intelliparadigm.com 第一章：社交AI Agent不是Chatbot！5个被99%团队忽略的协议层设计陷阱（附LinkedIn/小红书级SDK接口规范） 社交AI Agent的本质是具备身份、记忆、意图推理与跨平台协作能力的自…

李华

IDA32与pwntools协同调试栈溢出实战指南

1. 这不是“黑客电影”，而是我调试第7个CTF栈溢出题时的真实桌面你打开IDA32，看到一串密密麻麻的汇编指令，main函数里有个gets()调用像颗定时炸弹——它不检查输入长度，而你手边的pwntools脚本刚跑出[x] Starting local process .…

李华