微信搜索“高速商务通”,马上办理ETC
强化学习是动态规划与监督学习的一种混合。该方法的典型组件是环境,代理,操作,策略和成本函数。代理充当系统的控制器; 政策决定了要采取的行动;
奖励函数指定强化学习问题的总体目标。
获得最大可能奖励的代理可被视为对给定状态执行最佳操作。这里的代理是指抽象实体,可以是执行动作的任何类型的对象或主体:自动驾驶汽车,机器人,人类,客户支持聊天机器人等。代理的状态是指代理的位置和状态。它的抽象环境; 例如,虚拟现实世界中的某个位置,建筑物,棋盘,或赛道上的位置和速度。深度强化学习有一个非常普遍的学习过程的前景,可以用很少的反馈学习有用的行为。这是一个令人兴奋但也具有挑战性的领域,肯定会成为未来人工智能领域的重要组成部分。