#569. 深入 xAI：三个月打造 Grok Imagine、视频生成与世界模型之争，以及视频智能体

视觉智能的演进正从单纯的视频生成转向实时、可交互的 “世界模型”。前 Nvidia 和 xAI 研究员 Ethan He 指出，视频模型的性能提升很大程度上依赖于语言模型在提示词重写与推理层面的支持，而非仅靠视觉模型本身。世界模型的核心在于实现长时程、高带宽的实时交互，未来 AI 将通过 “视频代理”（Video Agents）调用确定性工具（如 FFMPEG、图像编辑器）来完成复杂任务，而非仅仅生成像素。随着计算成本下降与推理效率提升，生成式 UI 将取代传统界面，成为人类与 AI 交互的主要方式。这种从单纯生成到代理式协作的转变，标志着 AI 正从被动生成向主动推理与环境感知的跨越。

Outlines

Sign in to continue reading, translating and more.

Open full episode in Podwise

跨国串门儿计划

xAI 团队文化与高频迭代的工程实践

视频生成模型的数据合成与压缩技术路径

生成式 UI 与实时交互视频的未来形态

视频模型训练的算力成本与音频对齐挑战

世界模型定义与长时程视频生成的上下文管理

xAI 研发文化与生成式 AI 的安全性挑战

视频智能与语言模型驱动的 Agent 演进方向

#569. 深入 xAI：三个月打造 Grok Imagine、视频生成与世界模型之争，以及视频智能体

跨国串门儿计划

03:39xAI 团队文化与高频迭代的工程实践

xAI 团队文化与高频迭代的工程实践

11:05视频生成模型的数据合成与压缩技术路径

视频生成模型的数据合成与压缩技术路径

21:00生成式 UI 与实时交互视频的未来形态

生成式 UI 与实时交互视频的未来形态

30:01视频模型训练的算力成本与音频对齐挑战

视频模型训练的算力成本与音频对齐挑战

40:45世界模型定义与长时程视频生成的上下文管理

世界模型定义与长时程视频生成的上下文管理

58:01xAI 研发文化与生成式 AI 的安全性挑战

xAI 研发文化与生成式 AI 的安全性挑战

1:14:01视频智能与语言模型驱动的 Agent 演进方向

视频智能与语言模型驱动的 Agent 演进方向