3月24日晚间,DeepSeek发布了V3模型的最新更新版本——V3-0324模型。
在保持原有技术框架的基础上,V3-0324模型针对性能、用户体验和实用性进行了优化。新版模型延续了V3系列的核心架构,总体积为6850亿参数,较此前版本的6710亿有小幅增长。目前,最新模型已在官方网页、App小程序等入口开放,开源版本已上架开源网站。
整体来看,新版模型是一次小型的迭代升级,其主要的特点包括:
一是在模型性能方面,虽然DeepSeek并未给出新版模型的基准测试结果,但用户测试表明,其在生成复杂代码、数学问题求解、前端设计任务等方面表现更为出色。其中,模型前端代码能力的提升是用户感知最明显的部分,有海外AI博主称,DeepSeek终于能在代码领域和Anthropic的Claude3.5/3.7Sonnet相媲美,还有专业用户在体验后认为,V3-0324的提升幅度大约相当于Sonnet3.5到Sonnet3.6的提升。
例如,有海外博主提到,其让新的DeepSeekV3-0324创建一个市场网站,仅用一个提示,它就可以根据想法自动决定名称、主题、颜色和内容,生成十分成熟和效果惊艳的网站,这“击败编码方面的所有其他模型”,也让非技术人员不用懂编码就能够创造出很棒的东西。
二是在用户交互方面,新版模型默认关闭“深度思考”模式,使模型响应速度更快,适合快速迭代的任务。这一调整兼顾了实时性需求与复杂任务处理的平衡,现有API用户无需调整代码即可无缝兼容。
除此以外,据用户反馈,新版模型在多轮对话中体现了自然语言表达能力的提升,不仅上下文理解能力增强,其回复的语气与用词也更接近人类表达习惯,会减少一些机械式的回答,使用更加口语化的表述。
三是采用了更宽松的开源协议。DeepSeek延续了其一贯的开源传统,而且让开源社区更为兴奋的是,新版模型的开源许可与R1一样,也更新变成了MIT开源许可,比初代V3有更宽松的开源使用条件。MIT开源许可协议以商业友好著称,意味着研究人员和开发者可以自由下载、修改和部署模型,甚至可与专有软件集成。
V3-0324的表现有颇多可圈可点之处,尽管此次升级并非传闻中的V4或R2版本,但依然凭借6850亿参数的开源模型和更友好的开源协议,迅速引发全球开发者的关注。
与此同时,外界对于DeepSeek的新模型也有着较高的期待。有分析人士指出,V3-0324的发布时机和特性或许表明,它将成为DeepSeek-R2的基础模型。此前就有市场消息称DeepSeek-R2将提前发布,DeepSeek官方企业咨询账号则在用户群中辟谣称R2发布为假消息。目前,DeepSeek官方尚未正式公布R2的具体日期及技术细节等,市场预期R2将于5月发布。