理论教育 神经科学与人工智能的合作:AlphaGo的惊人表现

神经科学与人工智能的合作:AlphaGo的惊人表现

时间:2023-06-28 理论教育 版权反馈
【摘要】:AlphaGo 通过反复和自己下棋来学习这一技能。AlphaGo和李世石对决的围棋比赛在亚洲得到了极高的关注。AlphaGo有一些着数是革命性的。AlphaGo的表现远远超出了我和其他许多人的期待。AlphaGo显露出了一种能与同时代的佼佼者抗衡的全新风格。2017年5月26日,AlphaGo还击败了由5名顶尖棋手组成的队伍。这些棋手都分析过AlphaGo的招数,并已经在相应地改变自己的策略。2017年10月,一款名为AlphaGo Zero的新版本AI 程序面世了。完全忽略人类的知识,AlphaGo Zero变成了无敌超人。

神经科学与人工智能的合作:AlphaGo的惊人表现

2016 年3 月,韩国围棋界18 次世界冠军获得者李世石(Lee Sedol)与DeepMind公司的AlphaGo(图1-8)——一个使用深度学习网络评估盘面形势和可能的走法的围棋程序——进行了5 场比赛。29围棋相对国际象棋的难度,相当于国际象棋对跳棋的难度。如果国际象棋是一场战役,那么围棋就是一场战争。一块19×19 围棋棋盘比一块8×8 象棋棋盘大得多,这使得在棋盘的不同部分可能同时发生多场战役。不同战役之间存在长期的相互作用,即使是专家也难以判断。围棋的合法棋局总数是10170,远远超过宇宙中的原子数量。

图1-8 韩国围棋冠军李世石对战AlphaGo的5场比赛里,某一场战局中的棋盘。AlphaGo是一个通过与自己下围棋来学习的深度学习神经网络

除了几个评估盘局并选择最佳着数的深度学习网络,AlphaGo还有一个完全不同的学习系统,用于解决时间信用分配问题:在众多步棋中,哪一步对赢得胜利有所贡献,哪一步对失败承担责任?大脑的基底神经节接收来自整个大脑皮层的投射,并投射回去,利用时间差分算法和强化学习来解决这个问题。AlphaGo使用由基底神经节进化出来的相同的学习算法,以评估最大化未来奖励的行动顺序(这一过程将在第10章中做出解释)。AlphaGo 通过反复和自己下棋来学习这一技能。

AlphaGo和李世石对决的围棋比赛在亚洲得到了极高的关注。在亚洲,围棋冠军是全国性的公众人物,有着摇滚明星一样的待遇。AlphaGo早些时候击败了欧洲的围棋冠军,但是那场比赛的水平远低于亚洲的最高水平,因此李世石并没有做好打一场硬仗的心理准备。即使是开发AlphaGo的公司DeepMind,也并不清楚他们的深度学习程序到底有多强大。自上一场比赛以来,AlphaGo已经与好几个版本的自己下了数百万局的棋,然而并没有任何标准来判断它的水平到底达到了何种高度。

AlphaGo赢得了5场比赛的前3场后,许多人都感到十分震惊,因为它展现出了让人意想不到的高水准。这项比赛在韩国有很高的关注度,所有的主流电视台都对比赛进行了实况报道。AlphaGo有一些着数是革命性的。在第二场比赛的第三十八步,AlphaGo下出了精彩的一着,让李世石感到十分惊讶,他花了将近10 分钟的时间才决定下一步要怎么走。AlphaGo输掉了第四场比赛,这是人类挽回颜面的一场胜利,最终它的战绩是4 胜1 负(图1-9)。30 3 月的夜晚,我在圣迭戈的凌晨兴致勃勃地观看了这场较量。这让我回想起1966 年6 月2 日凌晨1 点,我在克利夫兰市,坐在电视机旁关注着“勘测者1号”探测器降落在月球上,并传回了第一张月球照片。31我亲眼见证了这些历史时刻。AlphaGo的表现远远超出了我和其他许多人的期待。

图1-9 在2016年3 月的围棋挑战赛中输给了AlphaGo之后的李世石。(www.daowen.com)

2017 年1 月4 日,一个名为“Master”的选手在一个网络围棋服务器上主动现身,其真正身份是AlphaGo 2.0。在此之前,它在与世界顶尖棋手的比赛中取得了60 场全胜的战绩,被击败的棋手中包括当时世界排名第一的高手,19岁天才棋手柯洁。AlphaGo显露出了一种能与同时代的佼佼者抗衡的全新风格。2017 年5 月27 日,在中国乌镇举办的围棋峰会上,柯洁以3场皆负的结果输给了AlphaGo(见图1-10)。这是有史以来最精彩的几场围棋比赛,数亿中国人都观看了该赛事。“去年,我还觉得AlphaGo的表现与人类非常接近,但今天我认为它是‘围棋之神’。”柯洁这样总结道。32

在第一场比赛中,他以一目半的微弱差距输掉了比赛。柯洁说他“在比赛中途已经感觉快要赢了”。他非常兴奋:“我能感觉到自己的心脏在怦怦直跳!可能因为我太兴奋,有几步棋走错了。也许这就是人类棋手最薄弱的部分吧。”33柯洁经历了一种情绪上的超负荷,但要达到最佳状态,更需要相对沉稳的情绪。事实上,舞台演员们都知道,如果他们演出前没有胃里翻江倒海的紧张感,就无法呈现出最精彩的演出。他们的表演遵循一种倒U 形曲线,即最佳状态处于较低和较高的兴奋点之间。运动员把这叫作“在状态”。

图1-10 2017年在中国,DeepMind的联合创始人兼CEO德米斯·哈萨比斯(Demis Hassabis,左)和柯洁在历史性的围棋比赛结束后会面,共同展示带有柯洁签名的棋盘。图片来源:德米斯·哈萨比斯。

2017年5月26日,AlphaGo还击败了由5名顶尖棋手组成的队伍。这些棋手都分析过AlphaGo的招数,并已经在相应地改变自己的策略。这场比赛由中国政府主办,可以说是一个新版的“乒乓外交”。[3]中国正在机器学习方面投入大量资金,其大脑研究计划的一个主要目标是挖掘大脑潜能来创造新的算法。34

该围棋事件后续的发展可能会更令人惊叹。在开始跟自己下棋之前,AlphaGo是通过观察学习16万次人类围棋比赛起步的。有人认为这是作弊——一个自主的AI 程序应该能够在没有积累任何人类知识的条件下学习下围棋。2017年10月,一款名为AlphaGo Zero的新版本AI 程序面世了。它从游戏规则开始一步步学习下围棋,击败了曾战胜柯洁的版本AlphaGo Master,战绩为100∶0。35此外,AlphaGo Zero的学习速度比AlphaGo Master快100倍,而计算能力差不多只有后者的1/10。完全忽略人类的知识,AlphaGo Zero变成了无敌超人。随着机器学习算法的不断进步,AlphaGo还会变得多么优秀,并没有已知的上限。

AlphaGo Zero虽然没有和人下棋,但仍然有许多围棋知识被人为添加到程序中强化棋艺的特征。如果没有任何围棋知识,AlphaGo Zero也许仍有进一步改进的空间。就像零度可乐将可口可乐里所有的热量分离出来一样,围棋的所有知识都被从AlphaZero中剥离出来。结果,AlphaZero能够更快、更果断地打败AlphaGo Zero。36为了进一步说明“少就是多”,AlphaZero在没有改变任何一个学习参数的情况下,学会了如何以超人的水准下国际象棋,还创造了人类从未使用过的着数。在与Stockfish 这个已经是超人级别的顶级国际象棋程序的对决中,AlphaZero还没有输过。在一场比赛中,AlphaZero大胆地牺牲了一个象——这种做法通常用来获得位置上的优势,随后又牺牲了王后,这一步看起来像是个大昏着儿,直到很多步以后,AlphaZero冷不防将了一军,无论是Stockfish 还是人类棋手都没能预见到这样的结果。外星人已经着陆,地球从此要改头换面了。

AlphaGo的开发者DeepMind于2010年由神经学家德米斯·哈萨比斯参与创立,他曾在伦敦大学学院的盖茨比计算神经科学部门(University College London's Gatsby Computational Neuroscience Unit)担任博士后研究员。该部门由彼得·达扬(Peter Dayan)领导,达扬曾是我实验室的博士后研究员,2017年和雷蒙德·多兰(Raymond Dolan)以及沃尔夫拉姆·舒尔茨(Wolfram Schultz)共同获得了享有盛誉的“大脑奖”(Brain Prize),以表彰他们在奖励学习方面的研究。谷歌在2014 年以6 亿美元的价格收购了DeepMind。该公司雇用了400 多名工程师和神经科学家,拥有学术界和创业公司混合的双重文化。神经科学与人工智能之间的协同作用日渐深入,而且还在加速。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈