暴击GPT-4.5,DeepSeek-V3-0324官方报告出炉,系统提示、最佳温度全放出
只有660B参数的开源模型,在数学和编程性能上击败了GPT-4.5和Claude 3.7。DeepSeek-V3-0324新版本的发布让全球网友为之疯狂,推理能力提升近20%,模型权重已全面开源!
DeepSeek-V3-0324新版本发布,推理能力大幅提升,在数学、代码上超过GPT-4.5!
网友表示,这是OpenAI的噩梦,模型参数量只有660B,100%开源。
进入官网、APP或小程序后,关闭深度思考即可体验。官方建议,非复杂推理任务用V3新版本更好。
模型权重现已开源:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
性能全面提升,中文能力更强
DeepSeek-V3-0324全面超越了Claude 3.7!
新版模型借鉴DeepSeek-R1中的强化学习技术,在数学、代码类评测集上超过了GPT-4.5。
在推理能力方面,DeepSeek-V3-0324相较于第一代V3,基准测试的准确率最高提升了近20%:
- MMLU-Pro:75.9 → 81.2 (+5.3)
- GPQA:59.1 → 68.4 (+9.3)
- AIME:39.6 → 59.4 (+19.8)
- LiveCodeBench:39.2 → 49.2 (+10.0)
在HTML等前端开发任务上,DeepSeek-V3-0324生成的代码可用性更高,视觉上也更有设计感:
- 提升了代码的执行效率
- 网页和游戏前端界面更美观
多个小球在指定空间范围内运动的p5.js程序:包含若干可以调整重力、摩擦力等参数的滑动按钮,并以赛博朋克风格的HTML呈现
在中文写作任务上,DeepSeek-V3-0324基于R1进行了优化,提升了中长篇文本的创作风格和内容质量:
- 符合R1写作规范
- 提高了中长篇写作的质量
- 改进了多轮交互式内容重写
- 优化了翻译质量和信函写作
中文搜索场景下,DeepSeek-V3-0324提升了对报告的分析能力,输出内容更详实、准确,排版更清晰美观:
- 增强了报告分析请求功能,提供更详细的输出结果
除此之外,DeepSeek-V3-0324还提高了API函数调用的准确性,修复了之前V3版本中的问题。
国外网友已玩嗨
网友「Haider」表示,新的DeepSeek V3更新比预期要大得多,尤其是编程,赞其为目前最强大的完全免费的AI。
他用新模型构建的「声波可视化器」游戏如下,结果好得难以置信。
@BrainYoung利用DeepSeek-V3-0324的巨大改进制作了以下游戏:
制作一个酷炫的three.js游戏。
官方使用指南
系统提示
在官方网页/应用中,DeepSeek使用带有特定日期的统一系统提示词。
- 该助手为DeepSeek Chat,由深度求索公司创造。
- 今天是{current date}。
例如:
- 该助手为DeepSeek Chat,由深度求索公司创造。
- 今天是3月24日,星期一。
采样温度
在网页和应用环境中,模型温度参数T_model设置为0.3。
由于许多用户在API调用中会使用默认温度1.0,为此,DeepSeek贴心地设置了一个API温度T_api映射机制——可以自动将输入的API温度1.0调整为模型最优温度0.3。
换句话说,如果是通过API调用V3,那么温度1.0就等同于温度0.3。
本地运行
DeepSeek-V3-0324的模型结构与DeepSeek-V3完全相同,支持函数调用、JSON输出和FIM(填充中间)完成等功能。
参考资料:
https://mp.weixin.qq.com/s/XK6ymJL7y0vo_GQXxmpuBA
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
https://x.com/deepseek_ai/status/1904526863604883661
本文来自微信公众号“新智元”,作者:英智 好困 ,36氪经授权发布。