[柯洁 alphago]柯洁围棋几段

【新智元导读】还记得当年柯洁和AlphaGo对战失利后的失声痛哭吗？AlphaGo背后的模型训练要燃烧多少经费你知道吗？本文来告诉你答案。

当年，19岁的世界围棋第一人柯洁九段在和AlphaGo的围棋终极人机大战以0:3完败，这也是人类顶尖高手与这台机器之间的最后一次较量，AlphaGo从此将退隐江湖。

比赛至中局之时，柯洁再次被AlphaGo的手法惊到了。他先是取下眼镜捂住自己的脸，继而在桌子上趴了几秒钟，起身摇头，再次趴下，然后才用手把头撑起，双手抹了抹眼睛，又重新戴上眼镜。

韩国高手李世石也面对过AlphaGo，曾在三连败的情况下扳回一局，连输两场的柯洁自然也希望能在最后一句中挽回颜面，很可惜这次柯洁全面落于下风。

2017年，机器学习领域最令人兴奋的事件之一，莫过于 AlphaGo 战胜李世石成为世界上最好的围棋选手了。

同年10月份，DeepMind 发表了一篇论文，描述了一个名为 AlphaGo Zero 的新版本。仅仅经过36个小时的训练，AlphaGo Zero已经比击败李世石的阿尔法狗更擅长围棋了。

不仅如此，AlphaGo Zero 学会下围棋，却是在没有任何先验的游戏知识的情况下(换句话说，就是白板)。

而相比之下，之前发布的 AlphaGo 则是在人类围棋比赛数据库的帮助下进行训练的。

这一成就确实非同寻常，因为它表明，我们可以开发一个系统，教会自己从一张白纸上做一些不琐碎的任务，并最终在完成任务方面比人类做得更好。

它同时也表明了，现在整个世界的可能性是触手可及的，只要想象计算机可以教自己做任何人类可以做的事情。

但是取得这样的进步却并不便宜。

正如人类掌握围棋需要多年的训练一样，计算机掌握围棋也需要大量的资源，复现 AlphaGo Zero 的论文中报道的实验需要花费3500万美元的算力。

AlphaGo Zero 学习下围棋的方法是通过一种被称为「self-play」的过程，模拟围棋对它自己的比赛。该论文报告了以下几点:

1.在72个小时里，共进行了490万场比赛

2. 在自我游戏过程中，每个动作大约占用0.4秒的时间

3.在一台机器上执行自我游戏，该机器包含4个 TPU

不过，这里有一个数字没有被公布出来，就是在三天的过程中使用的进行自我游戏的机器的数量。按照平均每场围棋211步的估计值，得到了最终的1595台自动对战机器的结果，或者说6380个 TPU。

按照每个TPU每小时6.50美元的报价(截至2018年3月) ，仅仅进行复现就要花费2,986,822美元。

而这只是他们论文中的两个实验中的一个小实验:

「随后，我们使用一个更大的神经网络，将我们的强化学习管道应用于 AlphaGo Zero 的第二个实例，并且持续时间更长。训练再次从完全随机的行为开始，持续了大约40天」

「在训练过程中，产生了2900万场自我比赛」

在为期40天的这项实验中，使用的神经网络的层数(大小相同)是为期3天的实验中使用的网络的两倍，因此，假设实验没有其他任何改变，一个动作所需的计算机思考时间大约是之前的两倍。

考虑到这一点，可以大概求出最终花费了35,354,222美元的TPU来复现这个为期40天的实验。

就 DeepMind 运行这项实验的实际成本而言，还有其它因素需要考虑，比如研究人员的薪水等。但是对于谷歌以外的人来说，这个数字对于重复这个实验的成本是一个很好的估计。

另一种看待 AlphaGo Zero 实验成本的方式是想象需要多少人的大脑来提供同样数量的能量。

图：当机器接管后，他们将更有效地使用我们的大脑

一个TPU消耗大约40瓦，人脑大约是20瓦。所以，这个实验的耗电量相当于12760个人的大脑连续运转。

这种耗电量和金钱的消耗并不是说AlphaGo Zero不是一个惊人的成就，它向世界展示了建立系统来自学完成复杂任务是可能的，只是开发这种通用技术还没有提供给大众而已。

也就是说，许多具有现实价值的问题并不需要超人一般的表现。也许，通过应用领域知识和 AlphaGo Zero 提供的技术，未来这些问题可以用比创建 AlphaGo Zero 便宜得多的成本得到解决。

正文

[柯洁 alphago]柯洁围棋几段

相关阅读

「柯洁 alphago」柯洁清华大学什么专业

柯洁 alphago、柯洁清华大学什么专业

alphago 柯洁 alphago 柯洁胜率

柯洁 alphago 柯洁 AlphaGo 定式