阿尔法狗再进化！“通用棋类AI”AlphaZero问世

7003383

7005136

7005137

<article><section data-type="rtext"><p>【环球智能12月7日报道 记者 心月】就在今年10月份，谷歌旗下的创业公司DeepMind发布了AlphaGo Zero。没错，就是之前接连打败围棋世界冠军，李世石九段和柯洁九段的那个阿尔法狗的终极进化版。阿尔法狗项目首席研究员大卫·席尔瓦曾表示，AlphaGo Zero是目前世界上最强大的围棋程序，超越以往所有阿尔法狗的旧版本。</p><p>然而日前，DeepMind 悄悄放出了一篇新论文，介绍了一个AlphaZero。一开始我们差点以为 DeepMind 也学会炒冷饭了，毕竟AlphaGo Zero 在10 月就发出来了。可仔细一看，这次的 AlphaZero 不是以前那个只会下围棋的人工智能了，它是通用的，国际象棋、日本象棋也会下，所以去掉了名字里表示围棋的“Go”。</p><p><i class="pic-con"><img src="//himg2.huanqiucdn.cn/attachment2010/2017/1207/11/16/20171207111639445.jpg?imageView2/2/w/1260"/></i></p><p>据了解，AlphaZero算法可以在8个小时训练击败李世石版本AlphaGo;再用4小时训练击败世界顶级的国际象棋程序Stockfish;再用2小时训练击败世界顶级将棋程序Elmo。这是DeepMind团队继AlphaGo Zero的研究问世之后，带给我们的又一全新算法，它是“更通用的版本”。</p><p><i class="pic-con"><img src="//himg2.huanqiucdn.cn/attachment2010/2017/1207/11/23/20171207112309959.jpg?imageView2/2/w/1260"/></i></p><p>我们可以看到AlphaZero与AlphaGo Zero有几点不同，首先AlphaGo Zero是在假设结果为赢/输二元的情况下，对获胜概率进行估计和优化。而AlphaZero会将平局或其他潜在结果纳入考虑，对结果进行估计和优化。其次，AlphaGo和AlphaGo Zero会转变棋盘位置进行数据增强，而AlphaZero不会。另外，AlphaZero只维护单一的一个神经网络，这个神经网络不断更新，而不是等待迭代。AlphaZero中，所有对弈都重复使用相同的超参数，因此无需进行针对特定某种游戏的调整。</p><p>AlphaZero 的问世是算法和计算资源的胜利，更是人类的顶尖研究成果。DeepMind 愿景中能解决各种问题的通用 AI，离我们是越来越近了。</p></section></article>

7003385

7003386

7003387

7003388

7004638

7004639

7004637

7003389