AlphaGo 的技术突破及其对 AI 研究的深远影响是本期对谈的核心。AI 研究员 Eric Jang 深入解析了 AlphaGo 如何利用神经网络将极高复杂度的搜索问题转化为可处理的计算任务,通过蒙特卡洛树搜索(MCTS)与策略、价值网络的结合,实现了对博弈过程的 “摊销”。讨论涵盖了 MCTS 的运作机制、神经网络在围棋博弈中的直觉模拟作用,以及通过自我对弈实现性能迭代的强化学习逻辑。此外,对话还探讨了 AI 在自动化科学研究中的潜力,指出尽管当前模型在超参数优化和实验执行上表现出色,但仍需在横向思考和复杂逻辑验证上进一步突破。AlphaGo 的成功不仅在于其博弈能力,更在于其展示了神经网络压缩复杂物理模拟与逻辑搜索的强大潜力。
00:00重建 AlphaGo:从 DeepMind 科学家到个人休假项目
重建 AlphaGo:从 DeepMind 科学家到个人休假项目
本期节目通过 AI 克隆技术呈现了 Dwarkesh Patel 与前 DeepMind 高级研究科学家 Eric Jang 的深度对话。Eric Jang 在休假期间利用现代算力和 AI 辅助编程工具,从头重建并改进了 AlphaGo。围棋曾被认为是计算机在 21 世纪内无法解决的难题,因为其搜索空间巨大,超越了宇宙中的原子数量。AlphaGo 的核心突破在于利用深度学习将不可解的搜索问题 “摊销” 进神经网络中。得益于算力效率的提升和开源项目(如 KataGo)的贡献,曾经需要数百万美元算力的研究,现在仅需几千美元即可完成。
03:38围棋规则与计算复杂度的挑战
围棋规则与计算复杂度的挑战
围棋是一个目标为占据更多领土的确定性博弈游戏,其规则简单但决策极其复杂。在 Trump-Taylor 规则下,围棋完全消除了歧义,便于计算机进行算法判定。围棋的难点在于缺乏局部奖励,玩家必须下到终局才能确定胜负。19 路棋盘的分支因子约为 361,一盘棋约 300 手,导致搜索树的规模达到 361 的 300 次方。这种指数级的状态爆炸使得传统的穷举搜索变得不可能,必须通过神经网络来缩小搜索的广度与深度。
12:06蒙特卡洛树搜索(MCTS)与 UCB1 算法原理
蒙特卡洛树搜索(MCTS)与 UCB1 算法原理
AlphaGo 采用蒙特卡洛树搜索(MCTS)作为核心搜索算法,并结合 UCB1 或 PUCT 准则来平衡 “探索” 与 “利用”。在搜索过程中,系统会记录每个节点的访问计数和平均动作价值(Q 值)。随着模拟次数增加,决策会从初期的随机探索逐渐转向由 Q 值主导的利用阶段。人类高手能够通过直觉瞬间判断胜负,本质上是运行了一个隐式的价值函数(Value Function),将海量的模拟推演进行了 “摊销”。计算机通过训练神经网络来模拟这种直觉,从而在不搜索到树底的情况下快速评估棋盘状态。
26:29策略网络与价值网络的架构选择
策略网络与价值网络的架构选择
AlphaGo 使用策略网络(Policy Network)预测好的落子分布,使用价值网络(Value Network)预测胜率。在架构选择上,残差网络(ResNet)在低预算和数据量较小时优于 Transformer,因为卷积神经网络具有局部不变性的归纳偏置。然而,围棋需要全局视野,因此在网络中聚合全局特征至关重要。训练过程通常先利用人类专家棋谱进行监督学习初始化,以确保模型在冷启动阶段具备基础能力。这种初始化能让模型在不进行任何搜索的情况下,仅凭直觉就击败大多数人类棋手。
49:18自我对弈与强化学习的迭代改进
自我对弈与强化学习的迭代改进
强化学习的核心在于通过自我对弈不断提升。MCTS 作为一个策略改进算子,能产生比原始策略网络更自信、更准确的动作分布。通过将 MCTS 搜索后的结果 “蒸馏” 回策略网络,模型能够将原本需要数千步搜索才能达到的能力内化到单次前向传播中。这种方法类似于机器人学中的 Dagger 算法,即在每一步都提供一个更好的标签来监督模型。只要价值函数足够准确,这种迭代过程就能让模型持续进化,最终达到超越人类的水平。
1:03:13神经网络摊销搜索:从 AlphaGo 到大语言模型
神经网络摊销搜索:从 AlphaGo 到大语言模型
AlphaGo 最深刻的成就证明了仅有十层的神经网络能以极高精度近似几乎不可解的搜索问题,这挑战了传统的计算复杂度认知。这种 “摊销搜索” 的能力同样体现在 AlphaFold 等科学模型中,将复杂的物理仿真压缩进简单的计算步骤。相比之下,大语言模型(LLM)目前的强化学习(如 RLHF)面临严重的信用分配问题,信号方差极高。虽然 MCTS 在围棋这种确定性、离散空间的问题上表现完美,但在语言这种高维度、开放式的推理任务中,如何构建有效的搜索树和局部评估函数仍是前沿研究的挑战。
1:28:21算力效率与自动化 AI 研究的未来
算力效率与自动化 AI 研究的未来
成为第一个突破者所需的算力远超后来者,AlphaGo Zero 当时的算力消耗在今天看来效率极低。现代研究者可以利用更强的 GPU(如 Blackwell)和更简化的同步训练基础设施实现同等性能。Eric Jang 提出,自动化 AI 研究(Automated Scientific Research)是未来的核心方向,AI 已经擅长超参数优化和实验执行,但在横向思考和第一性原理判断上仍有欠缺。利用围棋这种验证周期快、结果明确的环境,可以作为训练 “自动化科学家” 的外循环,从而将学到的研究经验迁移到生物科学或机器人学等更具经济价值的领域。
Sign in to continue reading, translating and more.
Open full episode in Podwise