73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

张小珺Jùn｜商业访谈录

本期播客访谈的核心主题是硅谷 AGI 范式转移，重点讨论了强化学习（RL）特别是自博弈强化学习（self-play RL）如何成为大语言模型发展的新路径。访谈首先分析了传统大语言模型预训练方法的瓶颈，然后介绍了多模态、十万卡集群和强化学习三种潜在的替代路线，并详细解释了强化学习的概念、机制以及与传统强化学习和 RLHF 的区别。最后，访谈预测了强化学习在代码和数学领域的显著提升，并探讨了其在 AGI 发展中的关键作用，以及对 AI 赛道、公司战略和市场结构的潜在影响，例如 Anthropic 公司对强化学习的重视以及 OpenAI 的 “草莓” 项目。

Takeaways

Outlines

Q & A

Preview

How to Get Rich: Every EpisodeNaval