DeepSeek-R1-Zero模型

作者:麦波 AI 导航站发布时间:2025-02-23 134 次浏览

在这里输入230x80px的广告

DeepSeek-R1-Zero 和 DeepSeek-R1 都是幻方量化旗下大模型公司 DeepSeek 研发的第一代推理模型。

DeepSeek-R1-Zero

训练方式：是一个未经监督微调（SFT），直接通过大规模强化学习（RL）训练的模型。其创新地采用组相对策略优化（GRPO）和规则化奖励（Rule-based reward），放弃了通常与策略模型大小相同的批评者模型，通过组得分来估计基线，训练过程中的奖励由一个规则系统给出。
特点及优势：在推理方面展现出强大能力，可自然地展现出自我验证、反思和生成长思维链等功能，还表现出 “顿悟时刻”，即自发地重新评估和优化推理步骤。证明了即使不使用监督微调作为冷启动，也能通过大规模强化学习显著提高推理能力。
局限性：面临着无休止重复、可读性差和语言混合等挑战。

DeepSeek-R1

训练方式：在强化学习之前加入了多阶段训练和冷启动数据，包含两个 RL 阶段，旨在发现改进的推理模式并与人类偏好保持一致，还包括两个 SFT 阶段，作为模型推理和非推理能力的种子。
特点及优势：解决了 DeepSeek-R1-Zero 存在的一些问题，进一步提升了推理性能，在数学、代码和推理任务中实现了与 OpenAI-o1 相当的表现，推理性能可与 OpenAI-o1-1217 相媲美。

DeepSeek-R1-Zero 是该系列中通过纯强化学习训练的探索性模型，展示了强化学习在激发模型推理能力方面的潜力，而 DeepSeek-R1 是在其基础上进行改进和优化的版本，通过引入多阶段训练和冷启动数据等，在推理性能和实用性方面有了进一步提升，两者都为推动人工智能推理模型的发展做出了贡献。

下载地址：deepseek-ai/DeepSeek-R1-Zero at main

上一篇: 绘蛙

下一篇: 腾讯混元3D

《DeepSeek-R1-Zero模型》等您坐沙发呢！

发表评论

-->

首页

AI导航

AI技术

AI资讯

AI模型

AI工具

AI论坛

DeepSeek-R1-Zero模型

DeepSeek-R1-Zero

DeepSeek-R1

《DeepSeek-R1-Zero模型》等您坐沙发呢！

发表评论

首页

AI导航

AI技术

AI资讯

AI模型

AI工具

AI论坛

DeepSeek-R1-Zero模型

DeepSeek-R1-Zero

DeepSeek-R1

相关文章推荐

《DeepSeek-R1-Zero模型》等您坐沙发呢！

发表评论