深度学习：不同的深度学习模型加强神经网络学习

高速ETC办理

7 年前

强化学习是动态规划与监督学习的一种混合。该方法的典型组件是环境，代理，操作，策略和成本函数。代理充当系统的控制器; 政策决定了要采取的行动;
奖励函数指定强化学习问题的总体目标。

获得最大可能奖励的代理可被视为对给定状态执行最佳操作。这里的代理是指抽象实体，可以是执行动作的任何类型的对象或主体：自动驾驶汽车，机器人，人类，客户支持聊天机器人等。代理的状态是指代理的位置和状态。它的抽象环境; 例如，虚拟现实世界中的某个位置，建筑物，棋盘，或赛道上的位置和速度。深度强化学习有一个非常普遍的学习过程的前景，可以用很少的反馈学习有用的行为。这是一个令人兴奋但也具有挑战性的领域，肯定会成为未来人工智能领域的重要组成部分。

意见反馈