news 2026/5/9 22:56:15

深度解析Gemini 2.5模型的技术升级与开发新特性

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深度解析Gemini 2.5模型的技术升级与开发新特性

Gemini 2.5:更智能的模型与更强大的开发工具

Gemini 2.5 Pro持续受到开发者青睐,成为编码任务的最佳模型,而2.5 Flash也通过新的更新变得更好。同时,正在为模型引入新的能力,包括“深度思考”——这是一个为2.5 Pro设计的实验性增强推理模式。

2.5 Pro性能表现

新版的2.5 Pro旨在帮助开发者构建更丰富、更具交互性的Web应用程序。除了在学术基准测试上的强劲表现外,新版2.5 Pro现已在流行的编码排行榜WebDev Arena上领先,ELO得分为1415。同时,它在LMArena的所有排行榜上也处于领先地位,该榜单评估模型在不同维度上的人类偏好。凭借其100万个令牌的上下文窗口,2.5 Pro拥有最先进的长上下文和视频理解性能。

自从集成了LearnLM后,2.5 Pro也成为领先的学习模型。在评估其教学法和有效性的头对头比较中,教育工作者和专家在多样化的场景中更倾向于选择Gemini 2.5 Pro。并且,它在构建学习型AI系统所依据的五个学习科学原则的每一项上都超越了顶级模型。

深度思考

通过探索其思考能力的前沿,开始测试一种名为“深度思考”的增强推理模式。该模式采用了新的研究技术,使模型能够在回应前考虑多种假设。

2.5 Pro深度思考在2025年美国数学奥林匹克竞赛(当前最难的数学基准之一)上取得了令人印象深刻的分数。它也在竞争级编码的困难基准LiveCodeBench上领先,并在测试多模态推理的MMMU上取得了84.0%的分数。

由于正在用2.5 Pro深度思考定义前沿,因此需要额外时间进行更多的前沿安全评估,并进一步听取安全专家的意见。为此,计划先通过API向可信的测试者提供该功能以收集反馈,然后再广泛发布。

更出色的2.5 Flash

2.5 Flash是为速度和低成本设计的高效主力模型,现在它在许多方面都变得更好了。在推理、多模态、代码和长上下文等关键基准上都有所改进,同时效率更高,在评估中使用的令牌数量减少了20-30%。

新的2.5 Flash现已面向开发者开放预览,企业版也开放预览,并在应用程序中向所有人开放。在六月初,它将正式发布供生产使用。

新的Gemini 2.5能力

原生音频输出与Live API改进

目前,Live API正在引入音视频输入和原生音频输出对话的预览版本,以便可以直接构建更具自然表现力的对话体验。

它还允许用户引导其语调、口音和说话风格。例如,可以告诉模型在讲故事时使用戏剧性的声音。并且它支持工具使用,能够代表用户进行搜索。

可以尝试一系列早期功能,包括:

  • 情感对话:模型检测用户语音中的情绪并做出适当回应。
  • 主动音频:模型将忽略背景对话并知道何时回应。
  • Live API中的思考:模型利用其思考能力来支持更复杂的任务。

同时,正在为2.5 Pro和2.5 Flash发布新的文本转语音预览。这些功能首次支持多发言人,通过原生音频输出实现双语音频合成。

与原生音频对话一样,文本转语音富有表现力,能够捕捉非常细微的差别,例如耳语。它支持超过24种语言,并可在语言间无缝切换。

此文本转语音功能将于今日晚些时候在API中提供。

计算机使用

正在将计算机使用能力引入API和企业平台。一些机构正在探索其潜力,并期待在今年夏天更广泛地向开发者推出此功能以供实验。

更好的安全性

还显著增强了对安全威胁(如间接提示注入)的防护。这是指恶意指令被嵌入到AI模型检索的数据中。新的安全方法有助于在工具使用期间显著提高防护率,使其成为迄今为止最安全的模型系列。

增强的开发者体验

思维摘要

现在,2.5 Pro和Flash将在API和企业平台中包含思维摘要。思维摘要将模型的原始思维组织成清晰的格式,包含标题、关键细节以及关于模型操作(例如使用工具时)的信息。

希望通过以更结构化、更精简的格式呈现模型的思考过程,使开发者和用户能更轻松地理解和调试与模型的交互。

思维预算

推出了带有思维预算的2.5 Flash,通过平衡延迟和质量让开发者更好地控制成本。并且正在将这一能力扩展到2.5 Pro。这允许控制在模型回应前用于思考的令牌数量,甚至可以关闭其思考能力。

带有预算控制的2.5 Pro将在未来几周内与正式版模型一起,正式发布供稳定的生产使用。

MCP支持

在API中为本机SDK添加了对模型上下文协议定义的支持,以便更轻松地与开源工具集成。同时,正在探索部署MCP服务器和其他托管工具的方法,使开发者更容易构建代理应用程序。

始终致力于创新新方法来改进模型和开发者体验,包括提高其效率和性能,并持续响应开发者反馈。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/30 10:43:11

部署一次成功!cv_resnet18_ocr-detection新手避坑指南

部署一次成功!cv_resnet18_ocr-detection新手避坑指南 1. 为什么这个OCR检测模型值得你花5分钟部署? 你是不是也经历过这些场景: 下载了一个OCR项目,光环境配置就折腾半天,最后卡在某个CUDA版本不兼容上WebUI界面打…

作者头像 李华
网站建设 2026/5/8 18:37:56

人脸检测阈值怎么设?科哥镜像参数调节建议

人脸检测阈值怎么设?科哥镜像参数调节建议 关键词: 人脸融合、人脸合成、Face Fusion、人脸检测阈值、置信度调节、UNet图像融合、WebUI调参、科哥镜像、模型鲁棒性、图像质量平衡 摘要: 在人脸融合任务中,“人脸检测阈值”看似…

作者头像 李华
网站建设 2026/5/8 1:33:26

Emotion2Vec+实战:3步完成语音情感识别项目搭建

Emotion2Vec实战:3步完成语音情感识别项目搭建 1. 为什么你需要这个语音情感识别系统? 你有没有遇到过这样的场景:客服团队每天要听上百通录音,却只能靠人工标注情绪倾向;教育机构想分析学生课堂发言的情绪变化&…

作者头像 李华
网站建设 2026/5/1 8:26:10

企业宣传新方式:用Live Avatar制作品牌代言人视频

企业宣传新方式:用Live Avatar制作品牌代言人视频 数字人技术正从实验室走向企业真实场景。当传统视频制作动辄需要数天周期、数万元成本时,一款能将静态形象转化为生动代言人的工具,正在改变企业内容生产的底层逻辑。Live Avatar不是简单的…

作者头像 李华
网站建设 2026/5/7 8:38:23

手把手教你部署Z-Image-Turbo_UI,快速体验中文文生图效果

手把手教你部署Z-Image-Turbo_UI,快速体验中文文生图效果 你是否试过在本地跑一个文生图模型,结果卡在环境配置、显存报错、中文提示词失效的循环里?下载模型要等一小时,启动界面报错十次,好不容易生成一张图&#xff…

作者头像 李华
网站建设 2026/4/25 9:21:50

零基础从零到一落地的PHP秒杀防止抢购机器人的庖丁解牛

零基础从零到一落地的 PHP 秒杀防机器人系统,不是堆砌高深技术,而是 通过成本、验证、限流、原子性四层防御,让作弊成本远高于收益。 一、核心防御体系(四层纵深) 层级目标技术方案L1:人机验证拦截 80% 脚…

作者头像 李华