在人工智能领域,模型的每一次迭代都可能带来意想不到的变革。就在近日,DeepSeek毫无预告地悄悄上线了DeepSeek-V3-0324模型,看似只是小版本更新,却如同一颗投入湖面的巨石,激起千层浪,引发了AI界的“地震”。
性能卓越,全面超越众多竞品
官方给出的评测结果显示,DeepSeek-V3-0324模型在多个关键领域实现了重大突破。在百科知识(MMLU-Pro, GPQA)、数学(MATH-500, AIME 2024)和代码任务(LiveCodeBench)方面,表现均有显著提升。尤为引人注目的是,它在各项评测中全面超越Claude-3.7-Sonnet,在数学和代码类相关评测集上更是力压GPT-4.5。
作为一个没有思维链的非推理模型,DeepSeek-V3-0324在推理类任务中的表现可圈可点。第三方评测表明,新版模型与Grok-3打平,并列传统对话类模型榜首。在真实世界编程基准Arena榜单上,DeepSeek-V3-0324仅次于Claude-3.7-Sonnet-Thinking和Claude-3.5-Sonnet,领先OpenAI o1、Gemini-2.0-Pro、Grok-3-Reasoning等一众海外知名推理类和传统对话类模型,甚至包括DeepSeek自身的R1模型。
性价比超高,卷崩价格体系
DeepSeek-V3-0324之所以引发如此大的轰动,不仅因为其出色的性能,还在于令人惊叹的性价比。在效果相差无几的情况下,DeepSeek-V3-0324的输入价格仅为Claude-3.7-Sonnet的1/11,GPT-4.5的1/277。这一价格优势直接冲击了OpenAI公司和Anthropic公司的价格体系。
就连OpenAI用于价格战的o3-mini,在DeepSeek-V3-0324面前也黯然失色。在多种编程语言的测试基准Aider Polyglot上,o3-mini的性价比被DeepSeek-V3-0324彻底击碎。o3-mini定价要比DeepSeek-V3贵4 - 8倍,而且使用o3-mini还需为不可见的思维链内容付费,相比之下,选择o3-mini就显得不那么明智了。
能力升级,满足多元场景需求
除了在评测和性价比方面表现出色,DeepSeek-V3-0324在诸多日常场景也有显著提升。其前端开发能力得到增强,有X网友用“难度升级版”的小球碰撞测试来验证V3的编程技能,涵盖重力、摩擦力、弹性、旋转速度控制,以及多边形的边数、尺寸调节等复杂要素,结果令人满意。
同时,模型的中文搜索能力和中文写作能力也进行了优化。在联网搜索场景下,对于报告生成类指令,新版V3输出内容更为详实准确,排版也更加清晰美观,能更好地满足用户在工作和学习中的实际需求。
技术升级,开源决心坚定
从技术层面来看,DeepSeek-V3-0324模型参数量约660B,并非网上谣传的680B。值得关注的是,它仅通过改进后训练方法,就获得了巨大的效果提升。
DeepSeek对开源的坚持也值得称赞。发布该模型时,官方先将模型开源并上传至HuggingFace,随后才发布公告,这种做法充分彰显了其将开源贯彻到底的决心。而且,此次开源采用MIT许可证,可免费用于商业用途。根据网友测试,该模型在价值10,000美元的Mac Studio M3 Ultra上就能稳定运行,吞吐率可达每秒20个Tokens,足以满足日常使用。
随着DeepSeek-V3-0324的发布,2025年或许真的会成为DeepSeek的时代,让我们拭目以待它在未来人工智能领域创造更多的精彩。
评论