分享:
基于马尔可夫决策过程(MDPs?)的机器学习技术,如强化学习(RL)被用于学习排序控制决策的策略,以优化奖励。该学习算法通过将信用与导致奖励的行为序列元素相关联来解决时间信用分配问题。然而,RL依赖于随机探索,我们的状态空间对于有趣的机器人来说可能是巨大的。此外,任何依赖于完全随机探索的算法都将花费很长时间,并且偶尔会做一些非常不幸的事情来了解结果。下面是控制基础框架中的一些学习示例。