
自动驾驶正从模块化的规则驱动模式转向端到端的神经网络范式,遵循 “苦涩的教训” 原则,通过简洁、可扩展的架构实现数据驱动的智能进化。小米具身基座大模型负责人陈龙指出,将视觉 - 语言 - 动作(VLA)模型引入辅助驾驶,使车辆能够直接从视频输入学习人类驾驶行为,打破了传统感知、预测与规划模块间的信息折损。通过将自动驾驶与机器人数据统一至 “MIMO Embodied” 框架,系统实现了跨域协同,显著提升了空间感知与推理能力。该技术路线摒弃了显式的语言推理,转而采用潜空间推理模式,在保证实时性的同时提升了决策的可控性与全面性。这一探索旨在构建统一的具身大脑,为实现物理世界的通用人工智能(AGI)奠定基础。
Sign in to continue reading, translating and more.
Continue