news 2026/4/16 14:12:11

谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样
henry 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,Google DeepMind发布了最新的机器人推理模型——

Gemini Robotics-ER 1.6

搭载它的波士顿动力机器狗Spot,现在能走到工厂里的压力表前,停下来,读出数字。精确到刻度以下。

机械臂面对操作任务时,也能判断什么时候开始,什么时候算完成。

说起来,这已经是Gemini Robotics主打空间推理的第三代模型。

九年前谷歌把波士顿动力卖掉,今年CES刚宣布重新合作,ER 1.6就是这次新开始的第一个正式成果。

掌门人哈萨比斯也是第一时间转发了。

ER 1.6的定位是机器人的高层大脑,不直接控制机械动作,而是负责理解环境、制定计划、调用工具——

谷歌搜索、VLA、或者开发者自己定义的任何函数,都可以直接调用。

相比上一代ER 1.5和Gemini 3.0 Flash,新模型在空间推理、物体计数、任务成功检测上均有显著提升。

还多了一个全新能力,读仪表。

Gemini Robotics-ER 1.6

在技术博客中,Laura Graesser和Peng Xu两位作者开篇写道:

机器人要真正有用,就必须不只是执行指令,而是要对物理世界进行推理。

ER 1.6的核心升级围绕一件事,让机器人真正「看懂」它所处的环境。

仪表识别

先看Spot在工厂里做的那件事。

工业设施里有大量仪器需要持续监控,温度计、压力表、化学视镜。以前Spot能走过去拍一张照片,但看不懂上面的数字。

ER 1.6让这件事变了。

模型读仪表分三步。先放大,把小刻度看清楚;再用Pointing定位指针和刻度,结合代码计算比例;最后调用世界知识,把数字解释成有意义的读数。

这套组合的效果,ER 1.5的仪表识别成功率是23%,加上Agentic Vision之后,ER 1.6达到了93%

波士顿动力Spot副总裁Marco da Silva表示:

仪表识别等能力和更可靠的任务推理,将使Spot能够完全自主地观察、理解并应对现实世界的挑战。

Pointing,空间推理的基石

仪表识别能做到这一步,背后是Pointing能力的支撑。

Pointing是ER模型从初代就在练的基本功。简单说,就是让模型用「点」来表达它对空间的理解,哪里有什么,有几个,怎么移动,抓哪里最合适。

ER 1.5在这一任务上表现不佳:给它一张工具图,它数错了锤子数量,漏掉了剪刀,还把图里根本不存在的手推车给「指」了出来。

ER 1.6则能把这些全部答对,锤子2把、剪刀1把、画笔1支、钳子6把,一个不差。更关键的是,对于图里没有的东西,它知道不去指。

成功检测,知道什么时候停

ER 1.6还有一个升级,成功检测。

知道任务何时结束,和知道如何开始,同样是自主性的核心。

以前的系统,做完一个动作就算完了。但真实场景里有遮挡、有光线变化、有模糊指令,「做完了」这件事本身就需要判断。

ER 1.6强化了多视角推理,机器人通常有多个摄像头,头顶一个、手腕一个,系统需要把这些视角合并成一个连贯的判断。

比如开头的那个demo:把蓝色笔放进黑色笔筒,任务完成了吗?

ER 1.6能从多个角度的画面里,给出一个可靠的答案。

顺带一提,这也是谷歌迄今最安全的机器人模型。

在对抗性空间推理任务里,ER 1.6对安全指令的遵循程度优于所有前代版本。

不处理液体、不搬运超过20公斤的物体,这类物理安全约束,ER 1.6能通过Pointing等空间输出做出更准确的判断。

在基于真实伤害报告的安全隐患识别测试里,ER系列比Gemini 3.0 Flash高出6%(文字场景)和10%(视频场景)。

谷歌与波士顿动力

看到Spot,你可能会好奇,为啥谷歌要用波士顿动力的狗?

事情是这样的:

谷歌2013年收购波士顿动力,2017年卖给软银,理由是看不到商业闭环。

2020年现代汽车以8.8亿美元接盘。然后2025年11月,波士顿动力的前CTOAaron Saunders离职,加入了谷歌DeepMind。

2026年1月CES,两家在现代汽车的发布会上宣布正式合作,目标是把Gemini Robotics部署到Atlas人形机器人上。

卖出去九年,又回来了。

哈萨比斯的说法是,谷歌不做硬件,要成为「机器人领域的Android」,给所有机器人厂商提供大脑。

这次ER 1.6发布,署名了两位作者,Laura GraesserPeng Xu

Laura Graesser是牛津本科、NYU硕士出身,2018年加入Google,2023年至今在DeepMind做机器人研究,还合著过一本强化学习教科书《Foundations of Deep Reinforcement Learning》。

她早期的研究方向之一,是让机器人打乒乓球,系统需要在100毫秒内完成感知、计算和击球动作。

Peng Xu是DeepMind机器人基础模型方向的研究员,专注机器人学习与大模型的结合,不仅参与过上面的机器人打乒乓球,也是RT-1、RT-2、Cap(Code as policy)、Gemini robotics等一系列著名工作的作者之一。

参考链接
[1]https://deepmind.google/blog/gemini-robotics-er-1-6/
[2]https://deepmind.google/models/gemini-robotics/gemini-robotics/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

🔹 谁会代表2026年的AI?

龙虾爆火,带动一波Agent与衍生产品浪潮。
但真正值得长期关注的AI公司和产品,或许不止于此。

如果你正在做,或见证着这些变化,欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/

一键关注 👇 点亮星标

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 14:11:29

重塑数字阅读:番茄小说下载器解锁离线阅读新体验

重塑数字阅读:番茄小说下载器解锁离线阅读新体验 【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版 项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 在数字阅读时代,你是否曾因网络波动而被迫中断阅读&am…

作者头像 李华
网站建设 2026/4/16 14:10:40

如何在foobar2000中实现智能歌词同步?OpenLyrics插件深度解析

如何在foobar2000中实现智能歌词同步?OpenLyrics插件深度解析 【免费下载链接】foo_openlyrics An open-source lyric display panel for foobar2000 项目地址: https://gitcode.com/gh_mirrors/fo/foo_openlyrics 还在为foobar2000找不到合适的歌词插件而烦…

作者头像 李华
网站建设 2026/4/16 14:08:16

合同AI审查已进入“判决级”阶段?2026奇点大会公布首批通过ISO/IEC 23894:2023 AI治理认证的3家供应商名单

第一章:2026奇点智能技术大会:AI合同审查 2026奇点智能技术大会(https://ml-summit.org) 核心能力演进 本届大会首次公开展示了基于多模态法律语义图谱的AI合同审查系统,该系统支持中英文双语条款对齐、风险权重动态建模与跨法域合规映射。…

作者头像 李华
网站建设 2026/4/16 14:07:04

如何快速实现B站m4s视频格式转换:3分钟无损转换完整指南

如何快速实现B站m4s视频格式转换:3分钟无损转换完整指南 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾经因为B站视频下架而…

作者头像 李华
网站建设 2026/4/16 14:06:35

用Multisim和74LS192芯片,我手搓了一个能自动计数的停车场车位模型

用Multisim和74LS192芯片构建智能停车场计数系统 停车场车位管理系统是数字电路教学的经典案例,它能将抽象的计数器原理转化为看得见摸得着的实用装置。本文将手把手教你如何用Multisim仿真软件和74LS192芯片,搭建一个能自动统计车位使用情况的完整系统…

作者头像 李华