DeepSeek-R1-Zero 和 DeepSeek-R1 都是幻方量化旗下大模型公司 DeepSeek 研发的第一代推理模型。
- 训练方式:是一个未经监督微调(SFT),直接通过大规模强化学习(RL)训练的模型。其创新地采用组相对策略优化(GRPO)和规则化奖励(Rule-based reward),放弃了通常与策略模型大小相同的批评者模型,通过组得分来估计基线,训练过程中的奖励由一个规则系统给出。
- 特点及优势:在推理方面展现出强大能力,可自然地展现出自我验证、反思和生成长思维链等功能,还表现出 “顿悟时刻”,即自发地重新评估和优化推理步骤。证明了即使不使用监督微调作为冷启动,也能通过大规模强化学习显著提高推理能力。
- 局限性:面临着无休止重复、可读性差和语言混合等挑战。
- 训练方式:在强化学习之前加入了多阶段训练和冷启动数据,包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好保持一致,还包括两个 SFT 阶段,作为模型推理和非推理能力的种子。
- 特点及优势:解决了 DeepSeek-R1-Zero 存在的一些问题,进一步提升了推理性能,在数学、代码和推理任务中实现了与 OpenAI-o1 相当的表现,推理性能可与 OpenAI-o1-1217 相媲美。
DeepSeek-R1-Zero 是该系列中通过纯强化学习训练的探索性模型,展示了强化学习在激发模型推理能力方面的潜力,而 DeepSeek-R1 是在其基础上进行改进和优化的版本,通过引入多阶段训练和冷启动数据等,在推理性能和实用性方面有了进一步提升,两者都为推动人工智能推理模型的发展做出了贡献。