4小时游戏大师玩,需要多少台电脑量子比特

一台就足够了。

昨天,优步AI Lab对加速深神经元进化的编码进行了开源化。根据博客,即使用户有一台电脑(桌面),也可以用这个代码训练玩“雅达利”的AI。而且只有4!很小!时间到了!

在传统的深度神经技术中,AI在一个小时内就能玩“雅达利”,需要720个CPU。

是CPU720个……计算谁是多少……

请不要勉强。反正贵到爆了。想训练自己的AI吗?如果不是壕沟的话就不需要考虑。

优步还是决心帮忙,拉穷群众。开发这个深神经元进化加速代码是为了降低AI研究资金的门槛。至少,当那些无法获得游戏规格的穷学生想自己玩AI的时候,我想给他们一个机会。

利用神经技术,解决深层强化学习的问题是非常专业的。雅达利游戏(↖)模拟,模拟↗)但是用机器人的运动神经技术的进化。

只有一台电脑四个小时怎么办

加上小前提,这款台式机规格高端。

不那么高级也可以

事实上,高端台式机拥有数十个虚拟核心。这相当于一个中等规模的计算集群。

如果能很好地并行进行评价的话,720核的CPU运行1小时的任务在48核的电脑上是16小时。

别忘了高端电脑都有GPU。毕竟GPU可以让深度神经网络运行。

同时使用CPU和GPU

优步本次开源代码可最大化CPU和GPU两者。GPU运行深度神经网络,CPU运行视频游戏和物理仿真器,并行运行多个评估程序。它还包括调整的TensorFlow运算,对提高训练速度非常重要。

首先,我们要改进GPU

“优步”设置运行单个神经网络,并且CPU比GPU更快。

但是GPU擅长平行移动多个神经网络。

因此,为了发挥GPU的优点,我们决定合并多个神经网络,使其在同一批次运行。在神经网络的研究中,这是很常见的,同样的神经网络用于处理不同的输入。

但是神经网络的进化是不同的。需要使用不同类型的神经网络来存储所需的容量。

优步研究小组使用基础的TensorFlow运算,首先跑了一次,8个小时就完成了。但是他们仍然觉得有优化的余地

因此,我们进一步调整了“TensorFlow”,添加了两种自定义运算,结果速度翻了一番,训练时间变成了4个小时。

其中,第一个定制TensorFlow极大地加快了GPU的速度。雅达利专门用于强化学习中的异种神经网络强化学习运算,如游戏、各神经网络的训练周期长度不同的几乎所有机器人运动模拟任务。此自定义运算允许GPU仅调用所需的神经网络进行运算,从而大大减少计算量,而不必在每个任务的所有网络上运行。

关于处理器

上述所有改进都侧重于GPU。但是,如果GPU快到一定程度,也会影响CPU的速度。为了提高移动游戏模拟器的CPU的性能,需要第二个自定义TensorFlow。

具体来说,雅达利将仿真器的wrapper从Python变更为自定义TensorFlow命令(reset,step,observation)

这不仅可以帮助您快速处理TensorFlow多线程,还可以避免Python和TensorFlow相互作用带来的减速。

整体而言,这些调整大大提高了雅达利模拟器的运行速度。准确地说大约是3倍。

这些创新的方法可以加速对领域(例如雅达利模拟器、物理模拟器等)中包含多个实例的强化学习的研究。这类研究越来越普遍,例如深度q学习的DQN和多点梯度A3C的强化学习。

分别优化,使整体协调

从GPU和CPU单体来看,速度上提高到了极限。但下一个挑战是同时调动所有的计算机资源

例如,如果对单个神经网络设置前馈,并询问在该状态下应该采取什么行动,则当单个神经网络计算其答案时,运行游戏模拟器的CPU将空转。

同样,如果问域仿真器,这些行为现在产生了什么样的状态,在CPU模拟结果的时候,GPU什么都不做。

下图为CPU+GPU多线程图像。

从这张图可以看出,不同类型的神经网络在强化学习中的处理效果是如何优化的。

蓝色框是场模拟器,在这篇文章中是雅达利游戏模拟器,或者MuJoCo物理模拟器。两个模拟器的时间长度都不同

最左边是最原始的处理方法,效果最低的方法。它既没有充分利用并行计算的能力,也没有浪费GPU和CPU等待对方数据处理的时间。

中途的多线程方法比较好,但也可以用一个CPU同时处理多个模拟任务,也可以连接GPU移动时CPU处理过的多个数据。但是,有互相等待的时间浪费。

优步的方法是CPU+GPU流水线方式。其中处理器不停止。在GPU处理CPU数据的过程中,CPU也没有空闲时间,继续处理越来越多的数据。

4百万参数的神经网络用优步的方法在4小时内完成

管道法的意义是什么

又快又便宜。

这会降低研究门槛,让自学AI的人,特别是学生,能够训练自己想要的深度神经网络。

代码的效率化促进研究的高速化

优步学习。

为遗传算法进行大规模超参数搜索的预算只是一部分,而且几乎所有的“雅达利”游戏都提高了性能。具体的数字请看更新了优步的论文。(https://arxiv.org/abs/1712.06567、

此外,因为它可以缩短神经进化迭代的周期,AI研究人员可以更快地尝试新的创意,也可以尝试以前花了相当长时间的网络。

优步AI lab开发的软件库中,深入遗传算法的实现,Saliman等研究派生的进化战略算法,以及优步本公司的随机搜索控制非常容易使用。

在深新罗进化领域,最近有很多值得纪念的事情。对进一步了解以下机构的工作感兴趣:

openai:https://blog.openai.com/evolution-strategies/

deepmind:https://deepmind.com/blog/population-based-training-neural-networks/

谷歌brain:https://research.googleblog.com/2018/03/using-evolutionary-automl-to-discover.html

sentient: https://www.sentient.ai/blog/evolution-is-the-new-deep-learning/

最后添加神经网络加速码

https://github.com/uber-common/deep-neuroevolution/tree/master/gpu_implementation

-完成-

返回列表
上一篇:
下一篇:

文章评论