赞
踩
24年3月,澳门大学和夏威夷大学联合发布的工作,World Models for Autonomous Driving: An Initial Survey。花时间反复看了几遍,刚开始觉得世界模型没用,空洞无序,根本不可能部署到实车上,后面逐渐相信,折返前行。
在快速发展的自动驾驶领域,准确预测未来事件并评估其影响能力,对于安全性、效率和决策过程至关重要。世界模型已经成为一种变革方法,使自动驾驶系统能够综合和解释大量传感器数据,从而预测潜在的未来情景并弥补信息缺口。本文对世界自动驾驶模型的现状和未来发展进行了初步回顾,涵盖了理论基础、实际应用以及以及正在进行的旨在克服现有局限性的研究工作。
开发能够在复杂的现实世界场景中无缝导航的自动驾驶系统,仍然是当代技术的一个巨大前沿。这一挑战不仅是技术上的,也是哲学上的,它探索了将人类智能与人工构造物artificial constructs区分开来的认知和感知的本质。这一挑战的关键在于向机器灌输人类毫不费力就能运用的那种直觉推理和“常识”。目前的机器学习系统,尽管它们很强大,但在人类可以轻松解决的模式识别任务中经常遇到困难,这凸显了我们在寻求真正驾驶系统方面的重大差距。另一方面,人类的决策深深植根于感官知觉,受到这些感知记忆和直接观测约束。除了单纯感知之外,人类还拥有不可思议的能力,可以预测自己行为结果,想象未来,并预测感知输入变化——这些能力支撑着我们与世界的互动。在机器中复制这种能力不仅是一项工程挑战,也是弥合人类和机器智能之间认知鸿沟的重要一步。
为了解决这一差距,世界模型已经成为一种关键解决方案,通过模拟人类感知和决策过程,为系统提供预测和适应动态环境的能力。面对现实世界场景的复杂性和不可预测性,这种进化是必不可少的,传统人工智能方法难以复制人类认知过程的深度和可变性。世界模型有可能弥合人类和机器智能之间的认知鸿沟,为更复杂的自动驾驶系统提供一条道路,这突显了世界模型的必要性。
从20世纪70年代控制理论概念框架到目前在人工智能研究中的突出地位,世界模型的历程反映了技术进化和跨学科融合的显著轨迹。先驱们提出的控制理论最初公式是基础性的,为动态系统管理计算模型的集成奠定了基础。这些早期努力有助于展示应用数学模型来预测和控制复杂系统的潜力,这一原则最终将成为世界模型发展的基础。
随着该领域的发展,神经网络的出现带来了范式的转变,允许以无与伦比的深度和复杂性对动态系统进行建模。这种从静态、线性模型到动态、非线性表示的转变促进了对环境相互作用的更深入理解,为我们今天看到的复杂世界模型奠定了基础。递归神经网络(RNN)的集成尤其具有变革性,标志着向能够进行时间数据处理的系统迈进,这对预测未来状态和实现抽象推理至关重要。Ha和Schmidhuber在2018年正式公布的世界模型是一个决定性的时刻,它抓住了人工智能研究界的集体愿望,即赋予机器某种程度认知处理水平,让人想起人类意识。通过利用混合密度网络(MDN)和RNN的力量,这项工作为无监督学习提取和解释环境数据中固有的时空模式指明了道路。这一突破的重要性怎么强调都不为过,它表明驾驶系统可以对其操作环境进行细致入微的理解,以以前无法达到的精度预测未来场景。
在自动驾驶领域,引入世界模型标志着数据驱动智能的关键转变,预测和模拟未来场景能力成为安全和高效的基石。
数据稀缺的挑战,特别是在BEV标注等专业任务中,突显了世界模型等创新解决方案的实际必要性。通过从历史数据中生成预测场景,这些模型不仅规避了数据收集和标注带来的限制,而且还增强了在模拟环境中训练驾驶系统,这些模拟环境可以反映甚至超越现实世界条件的复杂性。这种方法预示着一个新时代的到来,即自动驾驶汽车具备了直觉的预测能力,使它们能够以前所未有的复杂程度导航和响应环境。
本节概述了世界模型的复杂架构,详细介绍了它们的关键组件和在各种研究中的重要应用。这些模型旨在复制人类大脑的复杂认知过程,使系统能够以类似于人类思维的方式做出决策和理解环境。
世界模型架构旨在模仿人类大脑连贯思考和决策过程,整合了几个关键组件:
在高维感官输入场景中,世界模型利用潜在动态模型抽象地表示观察到的信息,从而在潜在状态空间内实现紧凑的前向预测。由于深度学习和潜变量模型的进步,这些潜在状态比高维数据的直接预测更节省空间,有助于执行大量并行预测。以十字路口汽车方向的模糊性为例,这种情况象征着现实世界动力学固有的不可预测性。潜在变量是表示这些不确定结果的有力工具,为世界模型设想基于当前状态的一系列未来可能性奠定了基础。
这一努力的关键在于协调预测的确定性与现实世界现象的内在不确定性,这是一种平衡行为,对世界模型的有效性至关重要。
为了应对这一挑战,已经提出了各种策略,从通过温度变量引入不确定性到采用结构化框架,如循环状态空间模型(RSSM)和联合嵌入预测架构(JEPA)。这些方法力求在预测的精确性和灵活性之间取得平衡。此外,利用Top-k采样和从基于CNN的模型过渡到transformer架构,如transformer状态空间模型(TSSM)或时空Patchwise transformer (STPT),通过更好地接近现实世界的复杂性和不确定性,在提高模型性能方面表现出了希望。这些解决方案力求将世界模型的输出与现实世界的可能发展更紧密地结合起来。这种一致性至关重要,因为与游戏环境相比,现实世界具有更广泛的影响因素和更大程度的未来结果随机性。过度依赖概率最高的预测可能导致长期预测中的重复循环。相反,预测中的过度随机性会导致与现实大相径庭的荒谬未来。
其中,RSSM和JEPA是世界模型研究中应用最广泛的核心结构:
图3,潜在动力学建模中 RNN、SSM 和 RSSM 架构比较示意图
作为Dreamer系列世界模型中的关键模型,这一设计用于在潜在空间中,促进前向预测。这种创新结构使模型能够通过潜在状态空间进行预测,其中过渡模型中随机和确定性的路径在成功规划中都起着关键作用。
图3展示了跨三个时间步长的潜在动力学模型的示意图。该模型首先观察两个时间步长,然后预测第三个时间步长。在这里,随机变量(圆形)和确定性变量(正方形)在模型架构中相互作用——实线表示生成过程,虚线表示推理路径。
我们将观察和动作序列表示为(
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。