赞
踩
演员评论家算法是一种结合了基于价值和基于策略的算法。
策略梯度算法利用reward奖励直接对选择行为的可能性进行增强和减弱,好的行为会被增加下一次被选中的概率,不好的行为会被减弱下次被选中的概率。
先初始化一个策略网络θ
用这个策略网络进行N 次游戏,产生N个τ(游戏记录)
利用这N 个τ 进行梯度上升,调整策略网络的参数:
重复2,3步
QLearning是强化学习算法中value-based的算法,Q即为Q(s,a)就是在某一时刻的 s 状态下(s∈S),采取 动作a (a∈A)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报reward r,所以算法的主要思想该方法会建立一个Q表,里面存储了每一对( s , a ) (s,a)(s,a)对应的value值,agent会根据Q表中的值决定在状态s 下采用哪种动作。
参考博客:https://blog.csdn.net/qq_33302004/article/details/115530428
https://blog.csdn.net/qq_33302004/article/details/115495686
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。