这是一期技术解读类访谈播客,加州大学伯克利分校人工智能实验室博士生潘家怡作为嘉宾,与主持人张小珺共同解读了 DeepSeek 近期发布的 DeepSeek R1 和 R1.0 模型,以及与之相关的 Kimi 1.5 模型和 OpenAI 的 O1 模型。访谈首先探讨了 DeepSeek 模型对 AGI 领域的影响,以及与 OpenAI 模型的异同,之后潘家怡详细讲解了 DeepSeek R1 论文的核心内容,包括其采用的强化学习算法 GRPO,奖励函数设计,以及模型训练过程中的关键步骤和技术细节,例如 “aha moment” 的出现。最后,访谈还讨论了模型成本估算、数据标注的重要性以及未来研究方向等问题,例如 DeepSeek R1 的训练成本可能在 10 万到 100 万美元之间。通过此次访谈,听众可以深入了解当前大模型领域强化学习技术路线的最新进展,以及相关模型的优缺点和未来发展趋势。
Sign in to continue reading, translating and more.
Continue