DeepMind发布强化学习新范式，机器可自学复杂任务

驱动中国2018年3月2日消息谷歌旗下的AI子公司DeepMind今日通过新发表的博客文章，宣布推出一种SAC-X（计划辅助控制）的新学习范式，可令机器以最少的经验知识，从零开始自学习掌握复杂的操控任务。AI与智能机器的应用领域将更加广泛。

0d92b9bb0a6f4b97a506aac73f4536c9

据DeepMind研究人员表示，SAC-X是一种通用的强化学习方法，可以让实际应用场景中的机械臂从零开始拾放物体，将促进机器人应用到更广泛的领域。同时，这种挑战性将比教会小孩并自己收拾物品更大。

DeepMind在这篇文章中称，新的强化学习范式被称为“Scheduled Auxiliary Control”(SAC-X，计划辅助控制)。这套新的学习范式就是让agent（可灵活、自主活动的机器）能学会控制任务，让它可以确定如何、何时以及在哪里协调它的模拟手臂和手指的9个关节并正确的移动物体，来实现它的目标。

5a448c8a9d334eb8a5bcb56dfe40d1bf

文章还介绍了奖赏塑形（reward shaping）、学徒学习（apprenticeship learning）及示范学习等技巧。SAC-X的设想就是让agent从零开始学习复杂任务，并逐步探索和掌握一些基本的操作技能。文章将这种测试与婴儿学习爬行和走路时所用到的协调和平衡联系起来。

DeepMind还公布了agent模拟测试的动画，在测试中agent的任务就是接近一个物体，抓住并举起它，然后打开一个盒子并把物体放进里面。

我们看到agent第一步是激活手指上的触摸传感器，并移动两个物体；然后在探索了许多内部辅助任务之后，agent学习如何堆叠和整理物体；最终通过模拟agent掌握了“堆叠”物体这个复杂任务。DeepMind还表示SAC-X这种强化学习新范式将不仅用于机器训练，还可应用于机器人以外的更广泛领域。

DeepMind 强化学习新范式 SAC-X