100:0完胜AlphaGo,AlphaGoZero让人类连作对手的资格都没有?(2)
2024-09-29 来源:旧番剧
除了零经验学习外,AlphaGo Zero的另一大特点是将之前版本AlphaGo的两个神经网络融为一体,在之前版本的AlphaGo上,如何走棋是由“策略网络”和“价值网络”两个神经网络来计算如何行棋的,即首先由“策略网络”利用之前累积的经验,判断在当前棋型下哪些位置适合行棋,之后由“价值网络”对在这些位置行棋后的种种可能进行模拟,计算胜率,最终选择出行棋位置。
而AlphaGo Zero将二者融为了一体,对之前两个网络的特征提取等模块进行了共用,可以在计算出可能行棋的位置时便给出相应的“胜率”,大幅提高效率,减少了训练所需的时间。这也是AlphaGo Zero在训练了三天就打败了训练了几个月的AlphaGo Lee的主要原因之一。
人工智能不仅是计算机科学领域发展的制高点,在所有行业都具有无限潜力和应用价值,目前世界各国普遍看好,人工智能技术将成长为下一次技术革命契机。即便最终人工智能没有达到革命级别的颠覆程度,AI已经在逐渐改变我们的生活。
以往人工智能的进步都是建立在软件与硬件同步发展的基础上,神经网络算法最早在上个世纪中叶就被提出,然而受限于计算能力,神经网络算法一直发展缓慢。
之后随着硬件计算速度的不断提高,已有的软件算法不断被实现并改进,改进的算法对硬件要求更高,从而进一步促进了硬件的发展,而AlphaGo Zero的出现完全建立在算法更新的基础上。
前一版本的AlphaGo需要在48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片,一块成本即达500万美元)上进行几个月学习,而AlphaGo Zero只需要4个TPU加上几天的时间便可完成学习。这种零经验学习能力非常适合在蛋白质折叠和其它缺少样本的医疗领域进行应用,可以很好地解决因缺少试验样本而导致研究进展缓慢的问题。未来的相关研究中完全可以输入规则后利用AlphaGo Zero的能力进行模拟,最后利用有限的样本进行验证即可。
AlphaGo逐渐升级之路
故事讲到这里,实在不得不佩服谷歌深厚的技术实力与精明的商业头脑。AlphaGo从诞生伊始,就得到了deepmind团队的精心包装,仔细回想起来,可谓是“城里套路深”。
从最初战胜低段位职业棋手开始预热或者说炒作,到战胜人类顶尖高手李世石,AlphaGo的登场已经足够华丽。不过4比1的比分还是给了人类一线希望,这仅有的胜局中,李世石剑走偏锋,直接把AlphaGo逼出了“大脑短路”的症状,可见此时AlphaGo虽已经足够强大,但尚不完美。此后各路人类高手开始卧薪尝胆,精研AlphaGo的套路,寄希望于重新捍卫人类尊严。