赞
踩
论文题目:When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning
本文主要介绍了一种离线逆强化学习的最大似然框架,该框架结合了演示数据和生成式世界模型。文中详细介绍了算法的实现细节,并提供了理论分析和实验结果。
离线逆向强化学习( Offline IRL )旨在从专家智能体中恢复固定的、有限的一组演示中所观察到的动作背后的奖励和环境动态的结构。执行任务的专业知识的精确模型在安全敏感的应用中具有应用,例如临床决策和自动驾驶。然而,隐含在观察到的动作中的专家偏好的结构与专家的环境动力学模型(即"世界"模式)紧密相关。因此,从有限覆盖范围的有限数据中获得的世界的不准确模型可能会复合估计奖励的不准确性。为了解决这个问题,我们提出了估计任务的双层优化模型,其中上层是基于专家策略的保守模型(下层)的似然最大化。该策略模型是保守的,因为它在受到惩罚的情况下最大化奖励,而这种惩罚在世界估计模型的不确定性中不断增加。我们提出了一个新的算法框架来解决双层优化问题的表述,并为相关的最优报酬估计量提供了性能的统计和计算保证。最后,在Mu Jo Co中的连续控制任务和D4RL Benchmark2中的不同数据集上,我们证明了所提算法的性能优于当前最先进的离线IRL和模仿学习基准。
在非线性奖励函数参数化下,提供了理论分析,表明该算法会在有限时间内收敛到近似稳定点。
当奖励线性参数化且专家访问的状态-动作空间具有足够的覆盖以构建估计世界模型时,进一步证明了所提出的算法可以近似地找到MLE公式的最优奖励估计器。
预处理:在模型为基础的算法(如Offline ML-IRL和CLARE)中,估计的动态模型使用转换数据集进行训练。在估计动态模型后,相应的算法(Offline ML-IRL和CLARE)将进一步利用专家示范数据集DE中的专家轨迹来恢复真实的奖励函数和模仿专家行为。
Offline ML-IRL的实现:在Offline ML-IRL的实现中,奖励网络使用(256, 256)的MLP参数化,其中输入为状态-动作对(s, a),输出为估计的奖励值r(s, a;θ)。此外,使用Adam作为优化器,以更新奖励网络的步长设置为1×10-4。
策略优化子例程:在策略优化子例程()-()中,我们将其视为一个基于熵正则化框架的模型为基础的离线RL子任务。SAC-based算法被用作相应的RL求解器。
对比基准算法:提出的方法与现有的基线方法进行比较。这些基线方法包括:一种基于模型的方法CLARE;一种不基于模型的方法IQ-Learn;以及两种模仿学习算法BC和ValueDICE。
实验结果:实验结果显示,提出的Offline ML-IRL算法在大多数情况下明显优于其他现有的离线IRL和模仿学习基线方法。
额外的数值结果:实验结果表明,即使仅提供1000个专家示范,Offline ML-IRL也可以实现接近专家水平的强性能。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。