#180. AI Engineer研讨会：强化学习、核方法、推理、量化与智能体 — Daniel Han | 跨国串门儿计划

本播客是关于人工智能工程师世界大会上 Unsloth 创始人 Daniel Han 分享的问答环节。内容涵盖了强化学习（RLHF、PPO、GRPO）在大型语言模型训练中的应用，以及 Unsloth 在内核优化和模型量化方面的见解。Daniel 详细解释了如何通过强化学习提升模型推理能力，并解答了听众关于奖励函数设计、模型训练技巧、以及如何有效利用开源资源等问题，旨在帮助听众掌握 GPT-4O 和 OE 模型背后的核心技术。

Outlines

Sign in to continue reading, translating and more.