news 2026/5/23 23:37:57

实测最新 Gemini-3.5,对比 DeepSeek-V4、GPT-5.5,结果出人意料!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
实测最新 Gemini-3.5,对比 DeepSeek-V4、GPT-5.5,结果出人意料!

你好,我是郭震

历经近半年,Gemini 从 3 升级到了 3.5,

并且这次只发布 了 3.5 Flash,号称已超越自家 3.1 Pro,

今天对比实测下,感兴趣可以看看。

1Gemini 3.5 Flash

先看Card报告评分:

在 Coding 上,它的 Terminal-bench 2.1 达到76.2%,已经接近 GPT-5.5 的78.2%,明显超过 Gemini 3 Flash 和 Gemini 3.1 Pro。

更关键的是 Agent 能力。

MCP Atlas 直接冲到83.6%,比 GPT-5.5、Claude Opus 4.7 都高;

Toolathlon 也有56.5%,说明它在 MCP、多工具调用、真实任务流里表现很强。

UI 操作也不弱,OSWorld-Verified 是78.4%,几乎贴着 GPT-5.5 的78.7%

以上评分看到,Gemini 3.5 Flash 已成为在 Agent、MCP、真实工具使用场景里非常能打的主力模型。

2 对比实测

测试思路:确定测试环境,确定对比测试使用的大模型,把各自结果发给裁判Gemini-3.1-Pro

测试环境配置如下:

我构思了一个小型Agent任务,如下所示:

我会上传一个 Excel 文件,请读取并分析数据。请识别字段、数据类型、行数、列数,并检查空值/异常值/重复值。请自动选择适合做柱状图、折线图、饼图的字段。请只输出一个可直接运行的 HTML 文件,内含 HTML/CSS/JS。请使用 ECharts 绘制柱状图、折线图、饼状图。页面要包含数据概览、三张图表和每张图的中文结论。不要编造不存在的字段或数值,所有结论必须来自 Excel。如果某类图表不适合,请在页面中说明原因并给出替代图表。

分别使用大模型:Gemini-3.5-Flash,DeepSeek-V4-Flash,DeepSeek-V4-Pro,GPT-5.5

选择Gemini-3.5-Flash:

发送这个小型Agent任务给它:

保存生成的HTML文件:

Gemini-3.5-Flash 结果展示:

上传一个Excel文件后数据展示:

可视化图展示:

同样小型Agent任务,提问:DeepSeek-V4 Flash

同样Excel上传DeepSeek-V4 Flash后展示:

DeepSeek-V4 Flash 数据可视化图:

同样问题,提问给DeepSeek-V4-Pro:

DeepSeek-V4-Pro数据分析可视化图:

DeepSeek-V4-Pro 数据展示:

DeepSeek-V4-Pro 可视化图:

同样问题,提问GPT-5.5:

GPT-5.5数据展示:

可视化图:

3 裁判打分

大概凭感觉也能看出来,谁会更好一些。但是为了更加客观,交给裁判Gemini-3.1-Pro模型,评估如下图所示:

裁判给出得分:

裁判给出详细解释:

再叫裁判总结为三句话,如下图所示:

DeepSeek-v4-pro凭借无可挑剔的严密逻辑与专业校验夺魁,是生产级精准报告的首选。

Gemini-3.5-flash以极强的容错稳健性位居次席,而DeepSeek-v4-flash凭借顶级视觉审美成为原型设计最佳工具。

GPT-5.5 因 UI 简陋与智能洞察匮乏全面落后,整体评价呈现出“追求精准选 Pro,追求颜值选 Flash”的格局。

为啥GPT-5.5排到最后,我还特意多试了几次,都是这样,还是挺出乎我的意料!

最后总结一下

篇幅关系,这次只用一个小型 Agent 任务,初步实测 Gemini 3.5 Flash 的真实表现,整体完成度比较稳。

如果追求严谨报告,DeepSeek-V4-Pro 更强,而 Gemini 3.5 Flash 的优势是均衡、稳定、适合真实办公自动化场景。

GPT-5.5为啥这个任务表现不好,挺出乎我的意料!当然这只是小样本测试,后面再用更多更复杂任务继续实测。

全文1203字,36图,如果你觉得这篇文章对你有帮助,也欢迎给我一个三连击:点赞、转发和在看;如果可以,再帮我点一个⭐️。谢谢你看到这里,我们下篇再见。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/23 23:36:55

AWS RDS 全解析:能力剖析与价格深度分析

引言:云数据库的基石 在云计算时代,数据库即服务(DBaaS)已成为企业构建现代化应用架构的默认选择。作为全球云计算的领导者,亚马逊 AWS 提供的 关系型数据库服务(Amazon RDS),无疑是这一领域的标杆产品。它不仅仅是一个托管的数据库引擎,更是一个集高可用、可扩展、安…

作者头像 李华
网站建设 2026/5/23 23:32:43

Vitis HLS优化指令与iDSE智能设计空间探索框架解析

1. Vitis HLS优化指令体系解析在FPGA硬件加速领域,高层次综合(HLS)技术通过将算法级的C/C描述自动转换为寄存器传输级(RTL)设计,大幅提升了开发效率。作为Xilinx推出的HLS工具链,Vitis HLS提供了三类核心优化指令,它们共同构成了硬…

作者头像 李华
网站建设 2026/5/23 23:28:06

终极指南:RDPWrap如何免费解锁Windows多用户远程桌面功能

终极指南:RDPWrap如何免费解锁Windows多用户远程桌面功能 【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap 你是否曾经想要在Windows家庭版或专业版上实现多人同时远程连接,但又不想支付昂贵的…

作者头像 李华
网站建设 2026/5/23 23:28:00

Django 从 0 到 1 打造完整电商平台:商品列表页实现

IT策士 10余年一线大厂经验,专注 IT 思维、架构、职场进阶。我会在公众号、今日头条持续发布最新文章,助你少走弯路。 上一篇我们搞定了商品分类树和 SPU 详情页的规格切换,商品模块的骨架已经撑起来了。但一个商城不能只靠详情页活着——用户…

作者头像 李华
网站建设 2026/5/23 23:21:51

IDA32与pwntools协同调试栈溢出实战指南

1. 这不是“黑客电影”,而是我调试第7个CTF栈溢出题时的真实桌面你打开IDA32,看到一串密密麻麻的汇编指令,main函数里有个gets()调用像颗定时炸弹——它不检查输入长度,而你手边的pwntools脚本刚跑出[x] Starting local process .…

作者头像 李华