DeepSeek V3.2来了，首个会"思考"的Agent模型，性能打平GPT-5

昨天晚上刷L站，DeepSeek又发新模型了。

12月1日，V3.2正式版。

看完技术报告，人傻了——首个把"思考"融入工具调用的模型。

性能打平GPT-5，略低于Gemini 3 Pro。

关键是开源，API价格直降50%。

V3.2牛在哪

核心创新：会思考的Agent。

以前模型调工具，直接调。V3.2呢？

先想一遍，再调工具。

举个例子，问它:"帮我查下明天北京天气,顺便订个咖啡。"

普通模型：调天气API→调订单API，完事。

V3.2：

先想"需要查天气和下单，天气影响穿着，可能影响咖啡口味选择"

→调天气API

→根据天气思考咖啡推荐

→调订单API。

多了一层思考，准确率高多了。

技术细节：支持思考模式+非思考模式。

简单任务不思考，复杂任务才思考，省钱。

Agent能力暴增

DeepSeek搞了个大规模Agent训练数据合成法。

1800+环境，85000+复杂指令，全是"难回答、易验证"的强化学习任务。

结果：Agent评测达到开源模型最高水平，跟闭源模型差距大幅缩小。

知乎用户测了下，V3.2处理多步骤任务比V3.1强太多。V3.1经常"偷懒"，推导十几次就放弃:"由于时间关系，我直接给出常见答案。"

V3.2？一路推到底，不放弃。

Math-V2拿下IMO金牌

11月27日，DeepSeek发了个数学专用模型：DeepSeek-Math-V2。

685B参数，拿下IMO 2025金牌，6道题做对5道，83.3%准确率，全球排第三。

更牛的是Putnam 2024数学竞赛，118分，满分120。

人类历史最高分？90分。

Math-V2直接吊打人类。

技术亮点：验证器优先训练流程。不只看答案对不对，还看推理过程严不严谨。

这是开源数学推理模型首次达到IMO金牌水平。

Speciale版横扫四大竞赛

12月1日，DeepSeek还发了个Speciale版。

这版本专门冲竞赛，拿下四大金牌：

IMO 2025（国际数学奥赛）- 金牌
CMO 2025（中国数学奥赛）- 金牌
ICPC 2025全球总决赛 - 人类第二名水平
IOI 2025（国际信息学奥赛）- 人类第十名水平

开源模型首次在这么多顶级竞赛拿金牌。

不过Speciale版有坑：处理复杂任务时token消耗暴增，成本高。适合冲榜，不适合日常用。

性能对比

跑了AIME 2025数学竞赛测试：

V3.2：93.1%
GPT-5：94.6%
V3.2-Speciale：96.0%

Speciale反超GPT-5了。

编程和命令行任务，V3.2吊打GPT-5。

但Gemini 3 Pro还是老大，大部分类别领先。

DeepSeek官方也承认，三个地方还差点：知识广度、token效率、极复杂任务。

API价格暴降

V3.2 API价格砍了50%以上。

长文本推理场景，成本降50-70%。

算笔账：每天跑100万token，以前$12，现在$6。一个月省$180。

中小团队和个人开发者，这成本太香了。

Speciale版定价跟V3.2一样，但不支持工具调用。

DSA稀疏注意力

V3.2用了DeepSeek Sparse Attention（DSA）。

细粒度稀疏注意力机制，长文本训练推理效率暴增，效果几乎不变。

支持128K上下文长度。

相比Kimi-K2-Thinking，V3.2输出长度大幅降低，计算开销和等待时间都少了。

实测两个月，V3.2-Exp没有在任何场景明显差于V3.1-Terminus。

开源影响

V3.2全开源，技术细节、训练代码、权重全公开，Apache 2.0协议。

Hugging Face上可以直接下载。

开源社区炸了，一堆人在跑微调实验。

这对闭源模型压力大。GPT-5、Gemini 3 Pro虽强，但不开源，价格贵。

V3.2性能接近，还开源，API便宜一半，中小团队肯定选V3.2。

DeepSeek-V3.2 延续了 DeepSeek 的开源传统，模型权重和推理代码已在 Hugging Face 上开源：

模型地址：https://huggingface.co/deepseek-ai/DeepSeek-V3.2
推理代码：https://huggingface.co/deepseek-ai/DeepSeek-V3.2/tree/main/inference

适合干啥

玩了一天，总结下：

适合的:

Agent任务 - 多步骤、需要思考的复杂任务，V3.2猛。

数学推理 - Math-V2专攻数学，IMO金牌水平。

编程开发 - 代码生成、调试、重构，比GPT-5强。

成本敏感项目 - API便宜一半，大量调用的项目太香。

中文内容 - 中文理解生成强，写文章翻译对话都行。

不适合:

极复杂任务 - Gemini 3 Pro还是最强，V3.2略差一点。

多模态 - 图片音频视频不支持。

低延迟场景 - 思考模式会增加响应时间。

几个趋势

V3.2对AI圈有几个影响:

Agent能力成标配

"思考+工具调用"这个模式太强了，以后大模型估计都得加。

开源缩小差距

V3.2证明了开源模型能打平GPT-5，闭源优势在缩小。

数学推理突破

Math-V2拿IMO金牌，AI数学能力已经超人类顶尖水平。

成本暴降

API价格降50%，AI门槛又降了，更多人能用上好模型。

国产AI领跑

特别是中文处理、成本控制、Agent能力，已经世界前列了。

最后说两句

玩了一天V3.2，最大感受——AI又进化了。

从"会调工具"到"会思考再调工具"，这不是小改进，是质变。

Agent能力起飞，数学推理超人类，API价格降一半。

开源模型跟闭源模型差距在缩小。

AI不再是巨头游戏，是所有人都能玩的竞技场了。

V3.2不是终点。DeepSeek说了，下一步是V4和R2。

未来几个月，肯定还有更猛的东西出来。

参考来源：

DeepSeek-V3.2发布，推理能力达到了GPT-5水平 - https://news.qq.com/rain/a/20251201A080EP00
DeepSeek V3.2 正式版发布：推理比肩 GPT-5 - https://tech.sina.cn/2025-12-01/detail-infzhxya3047919.d.html
DeepSeek-V3.2 发布：开源模型首次达到 GPT-5 水平 - https://stable-learn.com/zh/deepseek-v32-tech-report/
DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理 - https://www.oschina.net/news/386993
DeepSeek AI Releases DeepSeekMath-V2 - https://www.marktechpost.com/2025/11/28/deepseek-ai-releases-deepseekmath-v2-the-open-weights-maths-model-that-scored-118-120-on-putnam-2024/
DeepSeek-Math-V2 Launches: Open Source Model Conquers IMO - https://news.aibase.com/news/23185
DeepSeek-V3.2-Speciale Hugging Face - https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
Deepseek V3.2 rivals GPT-5 and Gemini 3 Pro - https://the-decoder.com/deepseek-v3-2-rivals-gpt-5-and-gemini-3-pro-reaches-imo-gold-level-as-open-source/
DeepSeek V3.2 用户评价 - https://www.zhihu.com/question/1978819912970555965
DeepSeek-V3.2 系列大语言模型发布 - https://www.sysgeek.cn/deepseek-v3-2/