当前位置:   article > 正文

强化学习导论(1)帝王引擎的轰鸣声_对称强化学习

对称强化学习

Reinforcement Learning:An Introduction翻译,能力有限,有错和不清楚的地方请指出来。

因为孤高才去挑战


人类通过与环境互动学习的想法可能是我们第一次思考学习的本质。婴儿玩耍时,挥舞着手臂,四处看,他没有老师教,但他每个行为都能与周遭的环境联系上,环境与行为的连接产生大量关于因果关系的信息,关于行动的后果,为了实现目标,该做些什么。在我们的生活中,这种相互作用无疑是存在的。关于我们的环境和我们自己的知识的主要来源。从交互中学习是一个基础,几乎所有学习和智力理论皆如此。我们在学怎么开车或者在撩妹,我们都意识到周围环境对我们行为作出的反映。

  在这本书中,我们探索了一种从交互中学习的计算方法。而不是直接关于人或动物如何学习的理论,我们探索理论化的学习情况并评估各种学习方法的有效性。也就是说,我们采用人工智能的观点。我们探索设计有效解决学习问题的机器。

1-1 强化学习

  强化学习是机器去学习怎么做,去寻找作出每个行为获得的最大奖励,机器没有被告知应该怎么做,而是通过机器自身去发现什么样的行为才能获得最大的奖励,最有趣和最具挑战性的案例中,行动可能不仅影响眼前的奖励,而且影响下一个情况,并由此影响所有延迟的奖励。强化学习最重要的特点便是错误搜索和延迟奖励。

  强化学习,就像许多主题以“ing”为状态的主题。例如机器人去爬山,爬山的过程既是遇到问题过程又是解决问题的过程。

强化学习与监督学习和无监督学习都有区别,首先&#

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/750344?site
推荐阅读
相关标签
  

闽ICP备14008679号