强化学习来自机器学习的一种术语。
机器学习有以下几种:
-
监督学习
-
无监督学习
-
强化学习
强化学习是一种机器学习,其中代理人通过对这些动作的结果执行某些动作和学习来学习如何在环境中行为。
代理人采取行动时,根据结果得到报酬。这样,学习过程继续取决于积极和消极的回报。
学习是以与环境的互动为基础的。代理人发现哪个动作将给出最大回报。根据这一点,代理人采取行动。
以下开价盘适用于强化学习:
当我们无法确定什么是真的时,我们应该根据最可能的事情采取行动。笛卡尔
以下是强化学习的重要组成部分:
-
代理人采取行动的人。
-
环境代理人采取行动的地方。
-
状态代理人的情况。
-
动作代理人所做的事。
-
奖励-测量代理人所采取的行动的成功或失败。
强化学习围绕着国家、行动和回报。
代理人根据国家采取行动,并在此基础上获得奖励。
强化学习有不同的途径:
-
基于价值的
-
基于策略的
-
基于模型的
强化学习有两个权衡:
-
勘探-找到有关环境的更多信息。
-
开发-最大限度地利用奖励。
这是强化学习.这是所有的。