周剑铭柳渝：智能哲学：AlphaGo Zero与围棋文化

＊法国儒勒·凡尔纳公立综合大学（Université de Picardie Jules Verne, France），计算机系

摘要：继AlphaGo完胜人类棋手后AlphaGo Zero完胜AlphaGo，恰恰表明了作为人工智能的围棋机器的技术性本质。中国古围棋在日本的职业化也是围棋的技术化，这是今日围棋机器完胜人类的必然。中国围棋的文化本质蕴含于棋艺和棋道之中。围棋的棋理只有在科学与人文和中、西文化的交叉视域中才能得到真正的阐释。

AlphaGo以学习人类经验棋谱而战胜了人类棋手，成为了人工智能的时代标志，而AlphaGo Zero则以“白板”（tabular rasa）学习而再次成为头号新闻，英国经验主义哲学家洛克（John Locke，1632-1704）著名的“白板”说（theory of tabula rasa）认为，人出生时心灵像白板一样空白，通过人的经验心灵中才有了观念和知识，洛克认为经验是观念、知识的惟一来源。AlphaGo Zero的“白板”是指与人类经验棋谱相对的空棋盘，即从0开始的“学习”，但洛克的心灵“白板”是人从现实经验中认知或学习，两者的区别就在于AlphaGo Zero不需要人类的棋谱经验而是自己与自己在棋盘上对战的“经验”，这个区别的微妙之处就在于人类的经验与机器的“经验”有何本质的不同，这与AlphaGo对人类的伦理挑战不同，AlphaGo Zero的“白板”是对人类哲学问题的一个挑战，这些问题都深刻地与我们对人工智能的本质的理解和定义有关，实际上已经成为了今天我们对人的智能的基本认知理论的更新，其意义远超过AlphaGo Zero的成功。

就AlphaGo Zero的具体情况来说，本文讨论1。AlphaGo Zero的“白板”与人类的心灵“白板”有何不同？2。AlphaGo Zero自我对弈的经验与人类的经验有何本质的不同？我们可以在智能哲学的论域中研究这些问题的深刻意义。

一、AlphaGo Zero的“白板”学习与人工智能的“先天”性赋予

DeepMind团队在“自然”杂志上发表的论文，推出了人工智能围棋程序的最新版本的更强大的“学习”能力， AlphaGo Zero：Mastering the game of Go without human knowledge （无需人类知识的围棋大师），据称，AlphaGo Zero以100 ： 0的成绩击败李世乭版本的AlphaGo。（http://nature.com/articles/doi:10.1038/nature24270，中文介绍可见：http://mp.weixin.qq.com/s/68GTn-BaiRPmzi9F-0sCyw）最引人注意的地方是，“我们介绍一种单独基于强化学习方法的算法，无需人类数据、人类的指导，或超越围棋规则的领域知识。AlphaGo成为了它自己的老师，”（we introduce an algorithm based solely on reinforcement learning, without human data, guidance, or domain knowledge beyond game rules. AlphaGo becomes its own teacher）。

这篇论文的第一作者、AlphaGo项目负责人DeepMind的David Silver在采访中这样解释说：

——AlphaGo Zero完全从“乱打”（随机）开始，不需要任何人类数据从最初原理开始而取得最高的综合棋艺水平。AlphaGo Zero最重要的理念就是它完全从无知状态开始学习，也就是从白板（tabular rasa）上开始，从自我对弈中领悟，不需要任何人类知识或人类数据，不需要任何人类经验、特征或人类的干预。它去发现如何从基本原理开始下围棋。因此白板学习对我们DeepMind的目标和雄心非常重要，因为如果你能得到白板学习，你就得到了一个代理，它可以从围棋移植到任何其它领域。你就从你所在的专业领域解放了出来，你得到了一个算法，它具有普遍性可以应用到任何地方。对于我们来说AlphaGo的意义不在于下棋战胜人类，而是去发现从事科学工作的意义，从程序的自我学习能力中了解知识是什么。我们开始发现，AlphaGo Zero不仅重新发现了人类下棋时的常用模式和开局，以及人类下在棋角上的定式，不仅是学习、发现这些而且最终放弃它们而采用自己的模式，其中有些甚至是人类不知道的或现在还没有用过的。因此我们可以说，事实上在短时间内AlphaGo Zero学到了人类上千年积累的围棋实战知识。AlphaGo Zero下棋中分析，靠自己发现更多的知识。有时候它的选择甚至超过这些，得到一些人类在这个时候尚未发现的东西，在不同的方式上发展出具有创意的新的知识点。

（AlphaGo Zero which has learned completely from scratch, from first principles without using any human data and has achieved the highest level of performance overall. The most important idea in AlphaGo Zero is that it learns completely tabular rasa. That means it starts completely from a blank slate and figures out for itself only from self-play, without any human knowledge, without any human date, without any human examples or features or intervention from humans. It discovers how to play the game of Go completely from fist principles. So tabular rasa learning is extremely important to our goals and ambitions at DeepMind. And the reason is that if you can achieve tabula rasa leaning, you really have an agent that can be transplanted from the game of Go to any other domain. You untie yourself from the specifics of the domain you’re in and you come up with an algorithm which is so general that it can be applied anywhere. For us the idea of AlphaGo is not to go out and defeat humans, but actually to discover what it means to do science, and for a program to be able to lean for itself what knowledge is. So, what we start to see was that AlphaGo Zero not only rediscovered the common patterns and openings that human tend to play, these joseki patterns that human play in the corners. It also leaned them, discovered them and ultimately discarded them in preference for its own variants which humans don’t even know about or play at the moment. And so we can say that really what’s happened is that in a short space of time, AlphaGo Zero has understood all of the Go knowledge that has been accumulated by humans over thousands of years of playing. And it’s analyzed it and started to look at it and discover much of this knowledge for itself. And sometimes it’s chosen to actually to beyond that and come up with something which the human hadn’t even discovered in this time period. And developed new pieces of knowledge which were creative and novel in many ways. ）

DeepMind强调AlphaGo Zero从白板上开始自我学习，这是指机器进入包括训练或实战状态时不从学习巨量的人类数据开始（People tend to assume that machine learning is all about big data massive amounts of computation），但这时的AlphaGo Zero本身并非白板（裸机），也并非只包含了“操作系统”的纯净机器，而是具有了强大的机器学习能力的机器，David Silver说 “但实际上我们从AlphaGo Zero中发现，算法比所谓计算或可用数据更重要，事实上我们在AlphaGo Zero上使用的计算（量）比过去在AlphaGo上要少一个数量级，这是因为我们使用了更多原理和算法。“（But actually what we saw in AlphaGo Zero is that algorithms matter much more than either compute or data availability. In fact in AlphaGo Zero, we use more than an order of magnitudes less computation than we used in previous versions of AlphaGo. And yet it was able to perform much higher level due to using much more principled algorithms than we had before. ）正是由于AlphaGo Zero具有这种“先天”的学习能力它才能一开始就可以自己学习自己。

DeepMind在AlphaGo Zero建造中使用了包括AlphaGo在内的很多精练的算法。因此实际情况是非常复杂的，AlphaGo Zero开始工作时并不是一台“裸机”，也不是只有操作系统的“纯净机”，而是一台“智能机”。这里不仅有传统图灵计算的算法，也有人工神经网络“代理”计算能力，即有机器本身的操作系统，也有功能计算能力和解决具体问题的功能算法或智能代理能力，这些高能力算法不是AlphaGo Zero自己学习得到的，而是人类赋予的“先天”性的人工智能，这也是AlphaGo Zero一开始就能向自己学习的原因。

二、围棋盘棋上的棋理

今年的法国科学节上，儒勒·凡尔纳公立综合大学（Université de Picardie Jules Verne）第一次以科学介绍方式向公众展示中国围棋和包含其中的文化因素（http://blog.sciencenet.cn/home.php?mod=space&uid=2322490&do=blog&id=1083368），在向完全不懂围棋为何物的观众简单地演示如何学下棋时，采用了两种现场教学方法。第一种是先介绍最基本的下棋规则，然后让学习者下子，这时参与者每下一子要费周折，第一粒棋子放在什么地方是很大的困惑；第二种方法是先让观众任意下子，然后在教学者的陪练中亦步亦趋地学习可行的落子方法。很明显，后者不但使事前完全不懂围棋的观众能够马上下棋，而基本上知道了什么是围棋，领会他任意落下的棋子都充满了奥秘，对围棋产生了兴趣。这个情况引发了我们进一步的思考，围棋的规则虽然简单，但与棋盘上的直接经验相比，对新手的认知、学习具有很大的区别。围棋的规则是围棋作为游戏的设计性思想的体现，而棋盘上的直接落子则是在现成的游戏世界中的经验行为，前者是人类知识的体现，而后者是作为游戏角色的经验，对于一个新手来说，后者是在棋盘上的经验中的学习。为此，我们研究作为围棋棋盘的特殊性。

围棋是在平面直交空间上的占领游戏，这对不懂围棋的人特别是西方人有一种困惑：是不是只要将棋盘上放满棋子了就可以决定胜负了？这样几乎等于没有规则，这也就没有游戏的意义了。与一般游戏规则不同，下围棋不仅是按游戏规则的“以棋行事”，而且是对弈过程中对棋盘与棋子所形成的“局面”不断地认知更新与决策，围棋的“局面”就建立在棋盘的平面直交网格的几何特殊性上。

围棋的棋盘是一种简单的平面直交网格，是平面几何空间上最基本的形式结构，围棋就是在这种最简单的直交网格上占领对弈。平面直交网格实际就是欧氏几何平面上的坐标系，在这种平面直交网格上的游戏的形成或设计实质就是对欧氏平面的基本性质甚至是潜在性质的利用和开发，中国围棋内涵的丰富性正是基于这种几何性质的深刻性。首先，在围棋中，棋盘上的直交网格的每一位置被赋予非几何的意义：空或占有、死或活、0或1，实现了几何性和数学性的人为超越结合，这是围棋棋理研究的理论基础。

以数学眼光对围棋进行过精深研究的英国数学家 John Horton Conway 发明的“生命游戏”（Game of Life）或称“元胞自动机”（Cellular Automaton）就是在直交网络上进行的一种位置格局迭代过程，每一格局的迭代由一个选定位置与其邻接位置的相互控制关系决定。这种迭代过程是算法能行的（可以程序化），但这种迭代产生的平面复杂格局可以表现为一种有规则的图形，这种事前无法预见的复杂现象就像生命现象的涌现和演化一样引人注意（注意这里有一种错觉，屏幕上生命游戏中的图案仍是由机器以算法形式产生的）。但由于平面上的位置组合是指数增长的，现有设计的可以实现的生命游戏的算法程序都无法穷尽，这种情况造成一种误解，只要有无限的空间和时间，生命游戏就可能演化出任意复杂事物，但实际上并没有进行这样的大规模研究的意义。生命游戏就是平面直交网格的几何性质表现为图案形式的算法的一个范例，但作为电子“游戏”，只能说是一种知识性的娱乐。

与“生命游戏”的图案迭代变化不同，围棋不是棋子与盘面之间的简单占领关系，围棋对网格位置的占有是对抗性的，即在直交网格上已经人为的赋予基本结构性意义的情况下，再以黑、白落子表示对抗性地占有，因此围棋的盘面是双方对抗性布子所形成的“局面”，就是说，围棋的“局面”形成既不是由程序（递归）决定的，没有如生命游戏事前的变量设定产生的算法制约性，而是不断的认知更新和决策的对抗游戏，任何“局面”不只是棋盘上的棋子与棋盘网格的占有关系，更是双方对潜在盘面的认知、信念和决策。因此弈棋不是上一局面的算法的连续迭代，而是双方棋手独自看局的直觉判断和策略的博弈，同一个盘面各人所看的局面并不相同，在双方的视野中可以有具有很不同的意义，因此围棋能体现个人的智力直觉，围棋规则简单但“易学难精”，就是对人的直觉的自然性与自觉性的超越要求。对同一个盘面双方对抗性地具有不同的理解和控制的智力竞技才是围棋表现为一种高级游戏的原因。相比于象棋等各自组织攻防战术的游戏，围棋具有更强的不完全格局和盘面全局性关系直觉与理解能力的要求。

人类围棋的高手是经历了自己的长期实战和对历史棋谱的无数揣摩而形成的，每一盘棋从落子“开局”起是在弈棋过程中个人与历史经验的综合后的再实践。而AlphaGo Zero之所以能够从白板开始（实质是“随机”开始，区别于“监督学习”喂入人类棋谱）学习，是因为它已经具有的人工赋予的人工智能的先天性。

AlphaGo Zero真正的区别性应在两方面考虑，1。区别于人，人类心灵的“白板”是指人类和知识来源于经验，人类棋手是有了围棋的规则和历史经验的知识，不同经验者之间的对抗性竞争。2。区别于AlphaGo的“监督学习”，AlphaGo Zero是在包括AlphaGo研究、设计、建造和实用所有经验基础上的围棋游戏的算法重建。

AlphaGo Zero的随机性“白板”开始实际是受其内置的人工性智能和盘面上直交网格的几何——数学性质两方面约束的。AlphaGo Zero本身就是“智能机”，能够在棋盘这种有限世界中重建一种机器对机器的对抗性。AlphaGo Zero真正的进步是作为人工智能的“机器学习”的“强化学习”（reinforcement learning）的一次成功实现。

我们可以看到，AlphaGo Zero并没有创造一种不同于现有围棋的新规则的围棋，只是在不断的自我对弈中重建了已有的围棋系统。AlphaGo Zero凭借并其巨大的机器时、空能力，以超过人的生物时空能力而取得对人的全胜，以对以往AlphaGo版本研究经验的综合和提高取得对以前的AlphaGo的全胜。

三、围棋的职业化与技术化

围棋在中国诞生，大约七世纪在日本流行，围棋的中国文化性与日本文化之间的混合具有很特殊的文化研究价值。

据有关记载，奈良时代（公元710—794）围棋开始在日本宫廷盛行，并有出入于宫中的职业棋师。镰仓时代（1185—1333），围棋在习惯于战场生活的武士中传播开来，几大封建领主（大名）织田信长、丰臣秀吉、德川家康都具有相当的棋力，民间出现围棋大家，如先后侍奉于织田信长、丰臣秀吉和德川家康的僧人日海（1558—1623），被誉为围棋“名人”、“棋所”，享有优厚俸禄，得到“官命”，并总理围棋事务，指导将军弈棋，垄断围棋等级证书的颁发等权力。1644年幕府建立了“御城棋”制度，参加“御城棋”被看作与武士们在将军面前比武同等高尚，这样，围棋对弈植入了武士道精神。日本武士道崇尚正直、信义、忠诚、礼节、廉耻、简朴、坚毅、胆识、诚实等种种美德，武士道精神以个人荣誉立命，一但丧失个人荣誉，武士不得不进行切腹自杀以保全最终武士荣誉。因此，职业化的围棋赛事程式、规则、棋手段位、个人棋风等等都与荣誉相关，正式赛事中战败者被迫降低交手棋分，这种在赛事中的降格被视为棋手的奇耻大辱，因此棋枰上的血腥之气迎面扑来，正式棋赛中的棋手几乎是押上自己一生名誉和身家性命作孤注一掷，甚有在对局中口吐鲜血或当场死亡的事例。

围棋的职业化使围棋成为一种正式的社会活动，吸引了广泛的社会参与。以当时的“棋所”四家（本因坊、安井家、井上家、林家）为核心，民间和名门望族的六段棋手均可参加棋赛，日本在职业化的道路上进一步成为日本社会生活的一部份，一直影响到以后围棋在日本社会生活中的地位。

进入现代以后的日本围棋文化受到商业和新闻业的强力支持，大体以棋院形式组织起了所有的围棋活动，围棋文化进一步普及化，全国和国际赛事成为了重要的社会性事件。围棋的职业化使棋赛的胜负之争成为主要目的，日本围棋的某些规则也与中国围棋不同，段位等级的激烈棋赛和社会强烈关注使围棋的职业化更加突出，也就使正式的围棋活动成为了竞争技术和职业化的高级技术训练。

围棋界的高手都不同程度地强调下棋的心态、境界，这主要是为了得到对棋盘局面的深度理解，由于围棋局面的形成是平面几何空间中的直交网格结构的深度重组，落子意味着对棋局发展趋势的决策，是历史经验与当前态势的偶合，因此棋手必须专心致志，使经验与个人气质结合而形成个人的棋风，棋赛中要排除一切杂念，凝集精力于直觉（棋感），使个人形成特殊的风格在当前不确定性的棋局上产生偶合，以期得到“妙手”、“鬼手”、“神之一手”，使一子之后产生一个全新的局面。所以这种基于战杀的心态培养和训练仍然是一种心理性的技术性的准备。

围棋的职业化使棋手把下棋作为社会生存的方式或手段，从而在本质上使围棋与个人的一般生活区分开来，成为某种个人的社会生存方式，同时，围棋职业化、专业化也就使职业化围棋必然走向技术化的道路。正是这种围棋的职业化和技术化使AlphaGo成为了今天人工智能研究项目中最大的成功，这也就是AlphaGo和AlphaGo Zero完胜人类的必然性前提。

四、围棋的棋艺与棋道

围棋在中国文化中大体是文人雅士的修性、娱情的文化活动，中国的古棋优雅、自由、超越，弈棋轻松、理性互动、无言而喻，故称“手谈”、“坐隐”。 “坐隐不知岩月乐，手谈胜与俗人言” （黄庭坚，弈棋二首呈任公渐），虽然偶尔以兵喻棋（“略技”），但非以棋为兵，更没有争命的意义，相反，常以棋局喻世态而求超然，与中国特色的神仙思想相呼应，人在棋局中，又在棋局外。“烂柯”这个故事的喻意就深得人心，南朝梁任坊的《述异记》和历代其他一些笔记中均有记述，其大意是，樵夫王质入山伐木，见两人在松下石台上对弈。王质观棋入迷，一人递了一枚枣子给王质，王质吃后不知肚饥，后来一人提醒王质：“你怎么还不回去？”王质回头看他的斧头，斧柄竟已烂掉，当他下山回家时，人间已逾百年。甚至宋徽宗赵括也说“忘忧清乐在棋枰”。

“礼、乐、射、御、书、数”是士人在受教育阶段接受的主要内容，“琴、棋、书、画、诗、酒、花、茶”是文人所谓八大雅事，围棋是所有这些项目中直觉理性最专门化的一种，专心也就是一种人性的基本修炼，围棋专注于理性的直觉，对于学子来说，“一心以为有鸿鹄将至”是入不了门的，但真正的修炼是对棋局的直觉理解，这是一种无言表达、基于文化的质朴理性。

相对而言，机器无所谓文化，所以也无所谓直觉。作为人工智能的智能代理（Agent）不同于算法的机器（图灵机）在于后者的输入是数值数字，而下围棋的机器如AlphaGo输入的是已经具有结构性的数据集（棋谱），即使是AlphaGo Zero也是研究人员赋予了算法的先天性，如果不学习人类的经验，研究人员不继承以前的成果是无法得到AlphaGo系列的成功的。

机器能够战胜人是围棋技术上的胜利，机器不会受到感情、情绪、现场气氛的影响，因此对于机器来说，谈不上“棋艺”。人的本质是文化的人，人能够艺术地使用技术，艺术家对人生和社会的态度、理解、和认识成为艺术品中的理性因素，虽称“艺术”并非匠艺的“技术”而是美和审美的艺术。艺术也是艺术家、批评家和观众之间的交流和相互理解，对于机器而言，只有棋盘和棋子之间的复杂关系，不会具有人性和文化的因素。机器在技术上胜过人并不奇怪，人使用工具就是因为工具是对人的技术能力的替代，对机器胜过人的担忧或恐惧并不来自机器与人在力量或思维这样的能力上强大于人，而在于迄今为止我们对于机器与人在本质上究竟有什么不同的认识和理解上并未形成共识。 “人只不过是大自然中最脆弱的芦苇，但他是会思想的芦苇”，帕斯卡尔的骄傲并未过时，机器没有人这种既是最脆弱的同时又是最强大的这个本质性。

“艺术”通常是指艺术形象的创造，但围棋的棋艺并不创造一种具象的形象，围棋的局面是一种简单形式中的抽象的形象，围棋是抽象的局面的创造，因此与直觉的审美和情感不同，棋艺要求基于几何性的一种直觉的超层次的理解和创造，这种创造性又是在双方对抗性的个性与共性中进行的，所以围棋对局不仅是技术的较量，更是从感受到对方的气质，性格，修养的内在性的无言沟通，所以围棋的棋艺是一种抽象形象的共同创造和互动中的内在交流。

日本的围棋文化重视棋艺中的礼仪（艺、品、理、规、礼），对棋具和相关的小道也非常用心，围棋与花道、茶道等一样，成为了一个非常精细的文化生活体系，体现了日本文化的特质。

围棋界普遍承认，围棋棋手的人品也就是人的棋品，这是指棋手的修养与棋术的关系，人们普遍地把棋赛的临场心态，对战略思想、战术机会的把握等作为高级棋术素质，都是以棋为人，称之为“棋道”，实际上，棋艺建立在人品之上，真正的棋道是人道，是中国文化和中国学术理性的一种无穷境界：“弈之为道，数叶天垣，理参河洛、阴阳之体用，奇正之经权，无不寓焉。是以变化无穷，古今各异，非心与天游、神与物会者，未易臻其至也。”（清，施定庵，弈理指归，序）

中国传统文化中文人的纯文化生活能够将世俗人生消融在理性的超越之中，琴棋书画、诗词歌赋创造的境界是实在世界的超越，这与中国围棋的直觉纯粹和超越性具有一种共同的理性美感，所以中国文人以诗言志的本能在以围棋为诗的表达中能得到一种越界的融和：

黄梅时节家家雨，青草池塘处处蛙，有约不来过夜半，闲敲棋子落灯花。（赵秀师，约客）——棋为人境，相约相忘。

山僧对棋坐，局上竹阴清，映竹无人见，时闻下子声。（白居易，池上二绝）——人在局中，又在局外。

玉子纹楸一路饶，最宜檐雨竹萧萧。羸形暗去春泉长，拔势横来野火烧。守道还如周柱史，鏖兵不羡霍嫖姚。浮生七十更万日，与子期于局上销。（杜牧，送国棋王逢）——人、棋相喻是棋艺，人、棋同境是棋道。

闲看数招烂樵柯，涧草山花一刹那，五百年来棋一局，仙家岁月也无多。（徐文长，题王质烂柯图）——棋局也是历史剧，中国本土文化特色的人、仙同质，是中国传统文人的最后的精神寄托。

五、结语

当我们迷惑于机器是否会有感情、意识时，不妨首先去体会、研究一下，作为文化的“人”的实质是什么，这有助于我们走出人工智能给我们带来的忧思。

本文相关内容和参考资料除已有文内夹注外，可参见周剑铭、柳渝：中国文化和中国思想；中、西文化和科学、人文两种“两种文化”的交汇；算法、不确定性和不确定性问题（NP）理论；智能哲学等网上系列文章。

周剑铭柳渝：智能哲学：AlphaGo Zero与围棋文化

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

周剑铭 柳渝：智能哲学：AlphaGo Zero与围棋文化

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

周剑铭柳渝：智能哲学：AlphaGo Zero与围棋文化