在这里输入460x120px的广告
当前位置:首页 » AI模型 » DeepSeek-R1-Zero模型

DeepSeek-R1-Zero模型

   作者:麦波 AI 导航站   发布时间:2025-02-23   134 次浏览

在这里输入230x80px的广告
DeepSeek-R1-Zero 和 DeepSeek-R1 都是幻方量化旗下大模型公司 DeepSeek 研发的第一代推理模型。

DeepSeek-R1-Zero

  • 训练方式:是一个未经监督微调(SFT),直接通过大规模强化学习(RL)训练的模型。其创新地采用组相对策略优化(GRPO)和规则化奖励(Rule-based reward),放弃了通常与策略模型大小相同的批评者模型,通过组得分来估计基线,训练过程中的奖励由一个规则系统给出。
  • 特点及优势:在推理方面展现出强大能力,可自然地展现出自我验证、反思和生成长思维链等功能,还表现出 “顿悟时刻”,即自发地重新评估和优化推理步骤。证明了即使不使用监督微调作为冷启动,也能通过大规模强化学习显著提高推理能力。
  • 局限性:面临着无休止重复、可读性差和语言混合等挑战。

DeepSeek-R1

  • 训练方式:在强化学习之前加入了多阶段训练和冷启动数据,包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好保持一致,还包括两个 SFT 阶段,作为模型推理和非推理能力的种子。
  • 特点及优势:解决了 DeepSeek-R1-Zero 存在的一些问题,进一步提升了推理性能,在数学、代码和推理任务中实现了与 OpenAI-o1 相当的表现,推理性能可与 OpenAI-o1-1217 相媲美。
DeepSeek-R1-Zero 是该系列中通过纯强化学习训练的探索性模型,展示了强化学习在激发模型推理能力方面的潜力,而 DeepSeek-R1 是在其基础上进行改进和优化的版本,通过引入多阶段训练和冷启动数据等,在推理性能和实用性方面有了进一步提升,两者都为推动人工智能推理模型的发展做出了贡献。
下载地址:deepseek-ai/DeepSeek-R1-Zero at main

上一篇:

下一篇:

《DeepSeek-R1-Zero模型》等您坐沙发呢!

发表评论

亲,不支持纯字母、符号评论哦~
-->