如何使强化学习进入现实世界DeepMind使用“控制套件”;推送-量子比特

全世界火起来的AlphaGo告诉我们,加强学习玩游戏有多少个6。这种强大的算法何时能打破维度的壁垒进入现实,控制物理世界中的物体呐。

DeepMind已经开始在这方面努力。他们昨天发布的控制套件“DeepMindControl Suite”为设计和比较控制物理世界的强化学习算法开了个头。

就像ALE(Arcade Learning Environment)在强化学习中大力推进玩电子游戏的研究一样,DeepMind他们的控制套件也希望推进通过强化学习控制实体的研究,比如步行、游泳、搬运行李等,以模拟环境的机器人。

控制套件具有标准化的结构,可以解释奖励的连续控制任务,并提供一组性能测试指标来增强学习代理。

这些任务基于MoJoCo物理引擎,使用的语言是Python。在DeepMindGitHub中放出的源代码包括基于MoJoCo的Python强化学习环境和向MoJoCo提供Python绑定的软件库。

如上图所示,控制套件的任务可以分为14种区域,即14种物理模型,上面的列分别从左到右:

体操机器人Acrobot、(2个钟摆)、杯中的球、倒立钟摆、猎豹形机器人、手指、鱼、单足跳跃机器人、从下排的左向右分别为人型机器人、机器人手、钟摆、质点、与2个手臂相似的Reacher、游泳机器人、步行者。

DeepMind还测试了这些任务中A3C、DDPG、D4PG强化学习算法的表现

这些结果也是用于加强学习并完成控制任务的基线数据。

DeepMindControl Suite似乎很受欢迎,截止了量子比特的投稿,在GitHub中收获了300多个星标。

Twitter网友们也在热烈讨论这个控制套件。但是,DeepMind官推为这个配套元件选择的配合图,骨头很清爽,很多网友都说“这是……最适合的跑法?”

最后拿出来,请大家观赏:

不要模仿,不要模仿,不要模仿。

如果受伤了,你怎么看下面的论文和代码。

论文:

https://arxiv.org/pdf/1801.00690.pdf

代码:

https://GitHub.com/DeepMind/dm_control

返回列表
上一篇:
下一篇:

文章评论