业界动态 2023-04-17 09:04:51 0

如何使强化学习进入现实世界DeepMind使用“控制套件”；推送-量子比特

全世界火起来的AlphaGo告诉我们，加强学习玩游戏有多少个6。这种强大的算法何时能打破维度的壁垒进入现实，控制物理世界中的物体呐。

DeepMind已经开始在这方面努力。他们昨天发布的控制套件“DeepMindControl Suite”为设计和比较控制物理世界的强化学习算法开了个头。

就像ALE（Arcade Learning Environment）在强化学习中大力推进玩电子游戏的研究一样，DeepMind他们的控制套件也希望推进通过强化学习控制实体的研究，比如步行、游泳、搬运行李等，以模拟环境的机器人。

控制套件具有标准化的结构，可以解释奖励的连续控制任务，并提供一组性能测试指标来增强学习代理。

这些任务基于MoJoCo物理引擎，使用的语言是Python。在DeepMindGitHub中放出的源代码包括基于MoJoCo的Python强化学习环境和向MoJoCo提供Python绑定的软件库。

如上图所示，控制套件的任务可以分为14种区域，即14种物理模型，上面的列分别从左到右：

体操机器人Acrobot、（2个钟摆）、杯中的球、倒立钟摆、猎豹形机器人、手指、鱼、单足跳跃机器人、从下排的左向右分别为人型机器人、机器人手、钟摆、质点、与2个手臂相似的Reacher、游泳机器人、步行者。

DeepMind还测试了这些任务中A3C、DDPG、D4PG强化学习算法的表现

这些结果也是用于加强学习并完成控制任务的基线数据。

DeepMindControl Suite似乎很受欢迎，截止了量子比特的投稿，在GitHub中收获了300多个星标。

Twitter网友们也在热烈讨论这个控制套件。但是，DeepMind官推为这个配套元件选择的配合图，骨头很清爽，很多网友都说“这是……最适合的跑法？”

最后拿出来，请大家观赏：

不要模仿，不要模仿，不要模仿。

如果受伤了，你怎么看下面的论文和代码。

论文：

https：//arxiv.org/pdf/1801.00690.pdf

代码：

https：//GitHub.com/DeepMind/dm_control

文章评论