科技资讯
首页 人工智能 阅读正文 :
推荐小米汽车SU7正式发布 21.59万元起售

谷歌发布AlphaGo Zero, 40天自学2900万种游戏!

来源: 驱动中国 文:吕永康 2017-10-19 10:58 访问量: 编辑:吕永康

驱动中国2017年10月19日消息   据英国Nature杂志报道,谷歌旗下的AI子公司DeepMind本周发布了新一代AlphaGo程序,这套AI程序被命名为“AlphaGo Zero”。它可以通过一种“强化学习”的机器学习技术,自学多种游戏,仅经过三天训练便击败了前代的AlphaGo Lee。

u=227529977,815330921&fm=27&gp=0

据悉,AlphaGo Zero能利用强化学习技术(Reinforcement Learning),大幅提高自学能力。在三天时间内自行掌握了围棋的规则,还自行创造了更优的棋路。在这时间内未获得人类的帮助,自行学习先进概念,选择有利位置和序列战胜了曾击败李世石的AlphaGo Lee。而经过40天的训练,自学了2900万种游戏,AlphaGo Zero战胜了曾击败柯洁的AlphaGo Master。

此前,AlphaGo Lee及AlphaGo Master两代在接受训练时,观摩学习了人类专业或业余棋手对弈的海量棋局。而AlphaGo Zero则没有获得这样的训练,它只是进行数百万次的自我对弈 ,从中学习棋艺。

1508377205128036

DeepMind公司表示,这一套新的程序核心就是连接在一起的人造神经元。AI程序会观察旗子在棋盘上的位置,并推算下步棋怎么走及获胜的概率。不过,AlphaGo Zero相比上代版本是一个更简单的程序,接受训练的数据更少,承载的计算机设备体积更小。

AlphaGo的首席研究员David Silver表示,“由于未引入人类棋手的数据,AlphaGo Zero远比过去的版本强大,我们去除了人类知识的限制,它能够自己创造知识。”

641

研究团队表示,AlphaGoZero的棋艺也是从一开始糟糕透顶到缺乏经验的业余棋手,最后成为围棋高手。它的面世是AI发展的里程碑,因为它是完全没有人类棋手数据做指引的情况下,进行自我学习进化。当然,除过围棋之外,AlphaGo Zero目前正在研究的一个课题就是关于药物方面蛋白质如何折叠的问题,将来有望取得突破。