51-30 World Model | 自动驾驶的世界模型：综述

作者：笔触狂放9 | 2024-03-22 12:05:11

踩

24年3月，澳门大学和夏威夷大学联合发布的工作，World Models for Autonomous Driving: An Initial Survey。花时间反复看了几遍，刚开始觉得世界模型没用，空洞无序，根本不可能部署到实车上，后面逐渐相信，折返前行。

Abstract

在快速发展的自动驾驶领域，准确预测未来事件并评估其影响能力，对于安全性、效率和决策过程至关重要。世界模型已经成为一种变革方法，使自动驾驶系统能够综合和解释大量传感器数据，从而预测潜在的未来情景并弥补信息缺口。本文对世界自动驾驶模型的现状和未来发展进行了初步回顾，涵盖了理论基础、实际应用以及以及正在进行的旨在克服现有局限性的研究工作。

Introduction

开发能够在复杂的现实世界场景中无缝导航的自动驾驶系统，仍然是当代技术的一个巨大前沿。这一挑战不仅是技术上的，也是哲学上的，它探索了将人类智能与人工构造物artificial constructs区分开来的认知和感知的本质。这一挑战的关键在于向机器灌输人类毫不费力就能运用的那种直觉推理和“常识”。目前的机器学习系统，尽管它们很强大，但在人类可以轻松解决的模式识别任务中经常遇到困难，这凸显了我们在寻求真正驾驶系统方面的重大差距。另一方面，人类的决策深深植根于感官知觉，受到这些感知记忆和直接观测约束。除了单纯感知之外，人类还拥有不可思议的能力，可以预测自己行为结果，想象未来，并预测感知输入变化——这些能力支撑着我们与世界的互动。在机器中复制这种能力不仅是一项工程挑战，也是弥合人类和机器智能之间认知鸿沟的重要一步。

为了解决这一差距，世界模型已经成为一种关键解决方案，通过模拟人类感知和决策过程，为系统提供预测和适应动态环境的能力。面对现实世界场景的复杂性和不可预测性，这种进化是必不可少的，传统人工智能方法难以复制人类认知过程的深度和可变性。世界模型有可能弥合人类和机器智能之间的认知鸿沟，为更复杂的自动驾驶系统提供一条道路，这突显了世界模型的必要性。

从20世纪70年代控制理论概念框架到目前在人工智能研究中的突出地位，世界模型的历程反映了技术进化和跨学科融合的显著轨迹。先驱们提出的控制理论最初公式是基础性的，为动态系统管理计算模型的集成奠定了基础。这些早期努力有助于展示应用数学模型来预测和控制复杂系统的潜力，这一原则最终将成为世界模型发展的基础。

随着该领域的发展，神经网络的出现带来了范式的转变，允许以无与伦比的深度和复杂性对动态系统进行建模。这种从静态、线性模型到动态、非线性表示的转变促进了对环境相互作用的更深入理解，为我们今天看到的复杂世界模型奠定了基础。递归神经网络（RNN）的集成尤其具有变革性，标志着向能够进行时间数据处理的系统迈进，这对预测未来状态和实现抽象推理至关重要。Ha和Schmidhuber在2018年正式公布的世界模型是一个决定性的时刻，它抓住了人工智能研究界的集体愿望，即赋予机器某种程度认知处理水平，让人想起人类意识。通过利用混合密度网络(MDN)和RNN的力量，这项工作为无监督学习提取和解释环境数据中固有的时空模式指明了道路。这一突破的重要性怎么强调都不为过，它表明驾驶系统可以对其操作环境进行细致入微的理解，以以前无法达到的精度预测未来场景。

在自动驾驶领域，引入世界模型标志着数据驱动智能的关键转变，预测和模拟未来场景能力成为安全和高效的基石。

数据稀缺的挑战，特别是在BEV标注等专业任务中，突显了世界模型等创新解决方案的实际必要性。通过从历史数据中生成预测场景，这些模型不仅规避了数据收集和标注带来的限制，而且还增强了在模拟环境中训练驾驶系统，这些模拟环境可以反映甚至超越现实世界条件的复杂性。这种方法预示着一个新时代的到来，即自动驾驶汽车具备了直觉的预测能力，使它们能够以前所未有的复杂程度导航和响应环境。

Development of World Models

本节概述了世界模型的复杂架构，详细介绍了它们的关键组件和在各种研究中的重要应用。这些模型旨在复制人类大脑的复杂认知过程，使系统能够以类似于人类思维的方式做出决策和理解环境。

Architectural Foundations of World Models

世界模型架构旨在模仿人类大脑连贯思考和决策过程，整合了几个关键组件:

Perception Module 这个基本元素作为系统的感官输入，类似于人类的感官。它采用先进的传感器和编码器模块，如变分自编码器(VAE)，掩码自编码器(MAE)和离散自编码器(DAE)，处理和压缩环境输入(图像，视频，文本，控制命令)为更易于管理的格式。该模块的有效性对于准确感知复杂动态环境至关重要，有助于对模型后续预测和决策的详细理解。
Memory Module 记忆模块的作用类似于人类的海马体，对于记录和管理过去、现在和预测世界状态及其相关的成本或回报至关重要。它通过重放最近的经历来支持短期和长期记忆功能，这一过程通过将过去见解纳入未来决策，增强学习和适应。该模块综合和保留关键信息能力对于发展对环境动态的细致理解至关重要。
Control/Action Module 该组件直接负责通过操作与环境进行交互。它评估当前状态和世界模型提供的预测，以确定旨在实现特定目标的最佳行动序列，例如最小化成本或最大化回报。该模块复杂之处在于它能够整合感官数据、记忆和预测洞察力，从而做出明智的战略决策，以应对复杂的现实世界场景。
World Model Module 在体系结构核心，世界模型模块执行两个主要功能:估计关于当前世界状态的任何缺失信息、预测环境未来状态。这种双重能力使系统能够生成其周围环境的综合预测模型，考虑不确定性和动态变化。通过模拟潜在的未来情景，该模块使系统能够主动准备和调整其策略，反映了人类认知中的预测性和适应性思维过程。这些组成部分共同构成了一个强大框架，使世界模型能够模拟类似于人类认知过程和决策。通过集成这些模块，世界模型实现了对其环境全面和预测性理解，这对于能够以前所未有的复杂性导航和与现实世界互动的系统发展至关重要。

在高维感官输入场景中，世界模型利用潜在动态模型抽象地表示观察到的信息，从而在潜在状态空间内实现紧凑的前向预测。由于深度学习和潜变量模型的进步，这些潜在状态比高维数据的直接预测更节省空间，有助于执行大量并行预测。以十字路口汽车方向的模糊性为例，这种情况象征着现实世界动力学固有的不可预测性。潜在变量是表示这些不确定结果的有力工具，为世界模型设想基于当前状态的一系列未来可能性奠定了基础。

这一努力的关键在于协调预测的确定性与现实世界现象的内在不确定性，这是一种平衡行为，对世界模型的有效性至关重要。

为了应对这一挑战，已经提出了各种策略，从通过温度变量引入不确定性到采用结构化框架，如循环状态空间模型(RSSM)和联合嵌入预测架构(JEPA)。这些方法力求在预测的精确性和灵活性之间取得平衡。此外，利用Top-k采样和从基于CNN的模型过渡到transformer架构，如transformer状态空间模型(TSSM)或时空Patchwise transformer (STPT)，通过更好地接近现实世界的复杂性和不确定性，在提高模型性能方面表现出了希望。这些解决方案力求将世界模型的输出与现实世界的可能发展更紧密地结合起来。这种一致性至关重要，因为与游戏环境相比，现实世界具有更广泛的影响因素和更大程度的未来结果随机性。过度依赖概率最高的预测可能导致长期预测中的重复循环。相反，预测中的过度随机性会导致与现实大相径庭的荒谬未来。

其中，RSSM和JEPA是世界模型研究中应用最广泛的核心结构:

图3，潜在动力学建模中 RNN、SSM 和 RSSM 架构比较示意图

Recurrent State Space Model (RSSM)

作为Dreamer系列世界模型中的关键模型，这一设计用于在潜在空间中，促进前向预测。这种创新结构使模型能够通过潜在状态空间进行预测，其中过渡模型中随机和确定性的路径在成功规划中都起着关键作用。

图3展示了跨三个时间步长的潜在动力学模型的示意图。该模型首先观察两个时间步长，然后预测第三个时间步长。在这里，随机变量(圆形)和确定性变量(正方形)在模型架构中相互作用——实线表示生成过程，虚线表示推理路径。

图3(a)中最初的确定性推理方法由于其固定性质，揭示了它在捕捉各种潜在未来方面的局限性。相反，由于其固有的不可预测性，
图3(b)中完全随机方法在跨时间步长的信息保持方面提出了挑战。
如图3(c)所示，RSSM创新之处在于它将状态策略性地分解为随机和确定性成分，有效地利用了确定性元素的预测稳定性和随机元素的自适应潜力。这种混合结构确保了强大的学习和预测能力，在保持信息连续性的同时适应了现实世界动态的不可预测性。通过将RNN优势与状态空间模型(State Space Models, SSM)灵活性相结合，RSSM为世界模型建立了一个全面框架，增强了它们预测未来状态能力，同时兼顾了精度和适应性。

我们将观察和动作序列表示为(

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/288054?site