视觉智能的演进正从单纯的视频生成转向实时、可交互的 “世界模型”。前 Nvidia 和 xAI 研究员 Ethan He 指出,视频模型的性能提升很大程度上依赖于语言模型在提示词重写与推理层面的支持,而非仅靠视觉模型本身。世界模型的核心在于实现长时程、高带宽的实时交互,未来 AI 将通过 “视频代理”(Video Agents)调用确定性工具(如 FFMPEG、图像编辑器)来完成复杂任务,而非仅仅生成像素。随着计算成本下降与推理效率提升,生成式 UI 将取代传统界面,成为人类与 AI 交互的主要方式。这种从单纯生成到代理式协作的转变,标志着 AI 正从被动生成向主动推理与环境感知的跨越。
Outlines
Sign in to continue reading, translating and more.
Open full episode in Podwise
