【强化学习】Actor-critic演员评论家算法_演员评论家算法是什么

作者：小蓝xlanll | 2024-03-29 09:02:40

踩

演员评论家算法是什么

Actor-critic演员评论家算法

演员评论家算法是一种结合了基于价值和基于策略的算法。

Actor：是策略函数。用策略梯度算法来实现。输入的是当前状态，输出的是一个动作。训练目标是最大化累计回报的期望。
critic：是价值函数。用时序差分法（TD）算法来实现。对当前策略的值函数进行估计，也就是评价actor的好坏，并指导actor下一步的行为。
Actor 基于概率选行为, Critic 基于 Actor 的行为评判行为的得分, Actor 根据 Critic 的评分修改选行为的概率。

Actor-critic算法过程

在这里插入图片描述

策略梯度Policy Gradient

策略梯度算法利用reward奖励直接对选择行为的可能性进行增强和减弱，好的行为会被增加下一次被选中的概率，不好的行为会被减弱下次被选中的概率。

策略梯度的主要过程

先初始化一个策略网络θ
用这个策略网络进行N 次游戏，产生N个τ（游戏记录）
利用这N 个τ 进行梯度上升，调整策略网络的参数：
重复2,3步

Q-leaning算法

QLearning是强化学习算法中value-based的算法，Q即为Q（s,a）就是在某一时刻的 s 状态下(s∈S)，采取动作a (a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward r，所以算法的主要思想该方法会建立一个Q表，里面存储了每一对( s , a ) (s,a)(s,a)对应的value值，agent会根据Q表中的值决定在状态s 下采用哪种动作。

参考博客：https://blog.csdn.net/qq_33302004/article/details/115530428
https://blog.csdn.net/qq_33302004/article/details/115495686

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/334960