全世界火起来的AlphaGo告诉我们,加强学习玩游戏有多少个6。这种强大的算法何时能打破维度的壁垒进入现实,控制物理世界中的物体呐。
DeepMind已经开始在这方面努力。他们昨天发布的控制套件“DeepMindControl Suite”为设计和比较控制物理世界的强化学习算法开了个头。
就像ALE(Arcade Learning Environment)在强化学习中大力推进玩电子游戏的研究一样,DeepMind他们的控制套件也希望推进通过强化学习控制实体的研究,比如步行、游泳、搬运行李等,以模拟环境的机器人。
控制套件具有标准化的结构,可以解释奖励的连续控制任务,并提供一组性能测试指标来增强学习代理。
这些任务基于MoJoCo物理引擎,使用的语言是Python。在DeepMindGitHub中放出的源代码包括基于MoJoCo的Python强化学习环境和向MoJoCo提供Python绑定的软件库。
如上图所示,控制套件的任务可以分为14种区域,即14种物理模型,上面的列分别从左到右:
体操机器人Acrobot、(2个钟摆)、杯中的球、倒立钟摆、猎豹形机器人、手指、鱼、单足跳跃机器人、从下排的左向右分别为人型机器人、机器人手、钟摆、质点、与2个手臂相似的Reacher、游泳机器人、步行者。
DeepMind还测试了这些任务中A3C、DDPG、D4PG强化学习算法的表现
这些结果也是用于加强学习并完成控制任务的基线数据。
DeepMindControl Suite似乎很受欢迎,截止了量子比特的投稿,在GitHub中收获了300多个星标。
Twitter网友们也在热烈讨论这个控制套件。但是,DeepMind官推为这个配套元件选择的配合图,骨头很清爽,很多网友都说“这是……最适合的跑法?”
最后拿出来,请大家观赏:
不要模仿,不要模仿,不要模仿。
如果受伤了,你怎么看下面的论文和代码。
论文:
https://arxiv.org/pdf/1801.00690.pdf
代码:
https://GitHub.com/DeepMind/dm_control
文章评论