【新智元导读】还记得当年柯洁和AlphaGo对战失利后的失声痛哭吗?AlphaGo背后的模型训练要燃烧多少经费你知道吗?本文来告诉你答案。
当年,19岁的世界围棋第一人柯洁九段在和AlphaGo的围棋终极人机大战以0:3完败,这也是人类顶尖高手与这台机器之间的最后一次较量,AlphaGo从此将退隐江湖。
比赛至中局之时,柯洁再次被AlphaGo的手法惊到了。他先是取下眼镜捂住自己的脸,继而在桌子上趴了几秒钟,起身摇头,再次趴下,然后才用手把头撑起,双手抹了抹眼睛,又重新戴上眼镜。
韩国高手李世石也面对过AlphaGo,曾在三连败的情况下扳回一局,连输两场的柯洁自然也希望能在最后一句中挽回颜面,很可惜这次柯洁全面落于下风。
2017年,机器学习领域最令人兴奋的事件之一,莫过于 AlphaGo 战胜李世石成为世界上最好的围棋选手了。
同年10月份,DeepMind 发表了一篇论文,描述了一个名为 AlphaGo Zero 的新版本。仅仅经过36个小时的训练,AlphaGo Zero已经比击败李世石的阿尔法狗更擅长围棋了。
不仅如此,AlphaGo Zero 学会下围棋,却是在没有任何先验的游戏知识的情况下(换句话说,就是白板)。
而相比之下,之前发布的 AlphaGo 则是在人类围棋比赛数据库的帮助下进行训练的。
这一成就确实非同寻常,因为它表明,我们可以开发一个系统,教会自己从一张白纸上做一些不琐碎的任务,并最终在完成任务方面比人类做得更好。
它同时也表明了,现在整个世界的可能性是触手可及的,只要想象计算机可以教自己做任何人类可以做的事情。
但是取得这样的进步却并不便宜。
正如人类掌握围棋需要多年的训练一样,计算机掌握围棋也需要大量的资源,复现 AlphaGo Zero 的论文中报道的实验需要花费3500万美元的算力。
AlphaGo Zero 学习下围棋的方法是通过一种被称为「self-play」的过程,模拟围棋对它自己的比赛。该论文报告了以下几点:
1.在72个小时里,共进行了490万场比赛
2. 在自我游戏过程中,每个动作大约占用0.4秒的时间
3.在一台机器上执行自我游戏,该机器包含4个 TPU
不过,这里有一个数字没有被公布出来,就是在三天的过程中使用的进行自我游戏的机器的数量。按照平均每场围棋211步的估计值,得到了最终的1595台自动对战机器的结果,或者说6380个 TPU。
按照每个TPU每小时6.50美元的报价(截至2018年3月) ,仅仅进行复现就要花费2,986,822美元。
而这只是他们论文中的两个实验中的一个小实验:
「随后,我们使用一个更大的神经网络,将我们的强化学习管道应用于 AlphaGo Zero 的第二个实例,并且持续时间更长。训练再次从完全随机的行为开始,持续了大约40天」
「在训练过程中,产生了2900万场自我比赛」
在为期40天的这项实验中,使用的神经网络的层数(大小相同)是为期3天的实验中使用的网络的两倍,因此,假设实验没有其他任何改变,一个动作所需的计算机思考时间大约是之前的两倍。
考虑到这一点,可以大概求出最终花费了35,354,222美元的TPU来复现这个为期40天的实验。
就 DeepMind 运行这项实验的实际成本而言,还有其它因素需要考虑,比如研究人员的薪水等。但是对于谷歌以外的人来说,这个数字对于重复这个实验的成本是一个很好的估计。
另一种看待 AlphaGo Zero 实验成本的方式是想象需要多少人的大脑来提供同样数量的能量。
图:当机器接管后,他们将更有效地使用我们的大脑
一个TPU消耗大约40瓦,人脑大约是20瓦。所以,这个实验的耗电量相当于12760个人的大脑连续运转。
这种耗电量和金钱的消耗并不是说AlphaGo Zero不是一个惊人的成就,它向世界展示了建立系统来自学完成复杂任务是可能的,只是开发这种通用技术还没有提供给大众而已。
也就是说,许多具有现实价值的问题并不需要超人一般的表现。也许,通过应用领域知识和 AlphaGo Zero 提供的技术,未来这些问题可以用比创建 AlphaGo Zero 便宜得多的成本得到解决。