喜大普奔!今天,我们掌握了围棋技艺

256

围棋起源于三千多年前的中国,孔子曾在著述中表示“围棋的美学魅力使其成为真正的中国学者必备的四艺之一”。

目前,全球共有四千万人在玩围棋。围棋的步法主要依靠直觉与构想,因为它精致而又有极高的智力要求,几个世纪以来一直在启发人类的想像力。

今天, 我们很高兴的宣布,我们构建的AlphaGo系统通过机器学习掌握了这门古老的技艺。

尽管有着极简的游戏规则,但实际上围棋却是一种极为复杂的游戏。计算起来,围棋共有

1,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000种可能的走法

这个数字大于宇宙中原子的数量,比国际象棋还多一个10的100 次方。

出于这种复杂性,计算机很难掌握围棋技艺,也使围棋在人工智能研究者眼中成为吸引力巨大的挑战——这些研究者利用游戏作为试验场,开发巧妙而灵活的算法法,帮助计算机使用类似于人类大脑的思维方式解决问题。

1952年计算机掌握了第一款游戏——井字棋 (也称三连棋);接下来是1994年的西洋跳棋;1997年,“深蓝”赢得了国际象棋比赛。人工智能并不局限于桌面游戏:2011年,IBM的Watson 在智力游戏Jeopardy中勇夺第一,2014年,我们设计的算法通过原始像素输入就学会了数十种雅达利(Atari)游戏。

但是截止目前,围棋仍然是横亘在人工智能研究者面前的难题:计算机的围棋水平只能达到业余选手的程度。

传统的人工智能方法是将所有可能的走法构建成一棵搜索树 ,但这种方法对围棋并不适用。所以在征服围棋的过程中,我们决定另辟蹊径。我们构建了AlphaGo的系统,将高级搜索树与深度神经网络结合在一起。这些神经网络通过12个处理层传递对棋盘的描述,这些处理层包含数百万个类似于神经的连接点。其中一个神经网络“策略网络”(policy network)选择下一步走法,另一个神经网络“价值网络”(value network)预测比赛胜利者。

我们如何做到这一切?

step
1
我们用人类围棋高手的三千万步围棋走法训练神经网络,直至神经网络预测人类走法的准确率达到57%。不过我们的目标是击败最优秀的人类棋手,而不止是模仿他们。为了做到这一点,AlphaGo学习自行研究新战略,在它的神经网络之间运行了数千局围棋,利用反复试验调整连接点,这个流程也称为巩固学习(reinforcement learning)。当然,这些都需要大量计算能力,因此我们广泛使用Google云平台,完成了大量研究工作。

step
2
完成训练后,我们要对AlphaGo进行测试。首先,我们在AlphaGo和其他顶级计算机围棋程序之间举行了比赛,结果AlphaGo在全部500场比赛中只输了一场。下一步就是邀请欧洲围棋三料冠军樊麾来到我们的伦敦办公室参加挑战赛,樊麾是一位优秀专业棋手,自12岁起就全身心投入于围棋事业。在去年十月的闭门比赛中,AlphaGo取得了5:0的胜利,这也是计算机程序首次击败专业围棋选手。

接下来要做什么?

三月,AlphaGo将面临终极挑战:在首尔与传奇棋手李世石展开一场五局鏖战,李世石是过去十年来的世界顶级围棋选手。

我们非常高兴能够征服围棋,克服了人工智能历史上最困难的挑战之一。不过对于我们来说,这项成就最重要的意义在于,AlphaGo不仅是遵循人工规则的“专家”系统,它还通过通用“机器学习”自行掌握如何赢得围棋比赛的规则。游戏是迅速而高效地开发及测试人工智能算法的完美平台,不过最终,我们要运用这些技术解决现实社会的重要问题。
我们所采用的方法具有通用性,因此我们希望有一天这些方法也能用来解决当今世界面临的最严峻、最紧迫的问题——从气候建模到复杂的灾难分析,期待着继续运用这些技术解决更多问题!
来源:Google黑板报

当前文章:Search » 喜大普奔!今天,我们掌握了围棋技艺