摘要:人、机的围棋对弈不等同于人、机之战。人的“学习”与机器的“学习”具有完全不同的性质和层次性。AlphaGo中基于人工神经网络ANN和“深度学习”等技术对围棋棋局的判断使算法的搜索空间成为可能。一方面,AlphaGo确实是学习了弈棋高手的经验才胜过了人,但另一方面,应更应该看到,人模仿了大脑神经系统制造了可以“学习”的机器,然后才是机器“学习”人的经验,这两方面才是对AlphaGo 和“人工智能”的智能性的正确理解。 人、机之间最大的区别就在于人是天生的主体学习者,机器则是在人造的“先天性”上才得到自己的“学习”能力。
一、“一石激起千层浪”
二、“围棋之战”不等于“人、机之战”
三、“模仿”与“学习”
四、围棋的全局性与AlphaGo
一、 “一石激起千层浪”
3月12日,韩国著名围棋棋手李世石(右)对战谷歌AlphaGo的人机围攻棋大战在韩国首尔举行,AlphaGo(谷歌首席程序员Aja Huang执子)与李世石对弈。在去年战胜了欧洲围棋冠军樊麾后,AlphaGo与九段高手李世石之间的对弈,成了科学技术领域和新闻界的重大事件。
阿尔法围棋(AlphaGo)是一款围棋人工智能机器,由位于英国伦敦的谷歌(Google)旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯等团队开发。AlphaGo这次与李世石的比赛也是五盘三胜,胜者可获得奖金100万美元。此前李世石曾表示,自己看过AlphaGo的对局,也会做一些针对性的准备,认为机器人AlphaGo的棋力相当于三段棋手的水平。如果人工智能技术继续发展的话,再过一至两年,比赛的结果将很难预料。但AlphaGo表现出乎所有人意料。
在首尔四季宾馆,经过4个多小时的对弈,到第176手AlphaGo在围棋棋盘上落下了最后一“石”,曾获多项世界冠军的九段棋手李世石向谷歌AplphaGo认输,AlphaGo以3比0率先获胜,——“石破天惊”,全球哗然!
科幻电影迷和“强人工智能”追求者把这次“人机大战”看成是人类社会“奇点来临”(Ray Kurzweil:“The Singularity Is Near”)的一个信号,既然机器的智能可以胜过人的智能,机器反过来控制人类和统治世界就是可能的,一些大科学家、企业家都对人工智能的强大远景感到忧虑,比如英国“独立报”网站(http://www.independent.co.uk/news/science/stephen-hawking-ai-could-be-the-end-of-humanity-9898320.html )就刊登有关资讯,引用霍金说:人工智能将是人类的终结吗?像这些并非笑谈的认真思考与人工智能发展的新高峰形成了当前全世界关注的大浪潮;虽然有很多业内人士认为真正能达到人的智能的机器的出现在时间上仍很遥远,但这并不能抹去这种笼罩在人类头顶上的阴影。另一方面,仍然有很多人相信,机器与人具有本质的区别,机器不会具有真正的感情、自我意识、良心、社会责任等人类独有的能力,遗憾的是现在并没有看到在理论、逻辑上可以对这种信心做出的有力支持,哲学家、人类学家、社会学家、文化理论家们似乎尴尬,因为对“智能”、“知识”、“情感”、“自我意识”等等最基本的概念几千年来几无定论,人工智能几乎把由概念和逻辑构成的晦涩、复杂、精致的庞大哲学和抽象理论轻松地推到一边去了,在人工智能的发展的速度难以预测的情况下,所有的人都是哲学家,都直接面对我们人类和世界的命运:十年或五十年?
二、 “围棋之战”不等于“人、机之战”
AlphaGo 与樊麾、李世石的对弈是“围棋的人、机之战”,不是也不等同于一般意义上的“人、机之战”。AlphaGo 是一台学习了历史上所有围棋高手的经验的机器,AlphaGoG 对弈樊、李实际是所有过去的围棋高手(经验)对弈一个围棋高手,所以无论谁胜,都是人棋游戏,在“胜、负”的意义上,都是人与人之间的对弈游戏,不是一般意义上的“人、机之战”。
把人机对弈看成是“ 人、机大战”是层次上的严重混淆,这种混淆误导人们对人工智能的认识,认为所有人设计的机器具有“天生”的与人的对立性,就是把机器的“自主”能力等同于人的自主能力,认为机器能“学习”,就是一种自主性,也就是把机器“学习”等同于人的自主性学习。
迄今为止的“计算机”都是“算法计算机”,即由“机器”执行“算法”进行“计算”,所以计算机需人编制的程序才能工作。计算机的硬件和软件是分离的,一台元器件组装的“祼机”首先要装入操作系统才能开机(“点亮”),然后装入如“看图”、“办公”等应用软件才能工作,所以计算机的工作能力是由人灌装进机器里面去的。
“机器学习”就是不需要人事先灌装程序得到工作能力的人工智能,“机器学习”与“算法计算”的本质区别不在于“计算”而在于“判断”,比如图形识别、语音辨析等,这实际上是人在日常生活中遇到的最多的也是最基本的问题,所以也是人的一种基本能力,这种能力是无法事先学习的,“只能在游泳中学会游泳”,这只是一种个人性的经验。
“机器学习”的这种不同于“算法计算”的判断能力确实是一种经验的学习途径,“机器学习”的能力源于“人工神经网络”(ANN),ANN是模仿大脑中的神经元、突触的联接而得到的对数据特征提取和判断的能力,“机器学习”就是通过大量的样本训练使机器“记住”了某些特证,这样就可以用这种特征去甄别要处理的对象。
AlphaGo就是通过大量的围棋实战棋谱训练而得到对棋局整体性的把握能力的,人也可以通过棋谱的学习而提高棋术的,但人一定是参与实战而得到下棋能力,机器则恰恰是“先学好游泳”,这才是人、机之间的根本区别。但机器为什么可以在棋盘上战胜人呢?这是因为在对经验的记忆能力、反应的速度上人不如机器,所以机器是以记忆量与敏捷性的优势上战胜人的,但是机器的看盘“直觉”和走子的策略上却是学习了人的经验的结果。
由于人、机围棋对弈限定了人的能力只能在棋盘上,人、机之间的围棋对弈最多只是体现了人-机复杂关系中在“人工智能”这个问题上的局部关系,以“围棋之战”等同于“人、机之战”是造成对人工智能本质的误解的一个基本原因。
机器能与人棋手对弈只是表明机器成功地“学习”了人下围棋的方法,AlphaGo 对人获胜也只是证明“机器学习”这种“人工智能”的学习能力得到了肯定。机器在一种人、机的游戏中战胜了人,这与“机器战胜了人”这个大题目是非常不同的层次上的事情。
人与人的智能的关系本身就是一个不确定性的问题,在能做出“人的智能”与“人工智能”谁比谁更强大这种判断之前,我们现在还不知道人的“智能”究竟是什么?
三、 “模仿”与“学习”
朱光潜说“‘模仿’和‘学习’本来不是两件事。姑且拿‘学习’来说。小儿学写字,最初是描红,其次是写印本,再其次是临帖。这些方法都是在借旁人所写的字做榜样,逐渐养成手腕筋肉的习惯。……推广一点说,一切艺术上的模仿都可以作如是观。比如说作诗作文,似乎没有什么筋肉的技巧,其实也是一理。诗文都要有情感和思想。情感都见于筋肉的活动,我们在前面已经说过。思想离不开语言,语言离不开喉舌的动作。比如想到“虎”字时,喉舌间都不免起若干说出“虎”字的筋肉动作。这是行为派心理学的创见,现在已逐渐为一般心理学家所公认。诗人和文人常欢喜说‘思路’,所谓‘思路’并无若何玄妙,也不过是筋肉活动所走的特殊方向而已。……” [2]
“学”,繁体字写作“學”,会意字,本义教塾中的孩子、模仿。“习”,繁体字写作“習”,会意字,从羽,与鸟飞有关,本义小鸟反复地试飞。学习,先模仿别人的经验,然后反复练习,慢慢掌握技巧,变成自己的技能,养成习惯,“习以为常”,就是说通过“习”使之变为“常”。大意就是说,身体力行的“模仿”是最根本的“学习”。王阳明就特别强调“知行合一”,表达了后期儒家对日益增长的“知识”与个人心、性之间的关系以及个人身、心关系的一致性。
按中国传统文化,“学而时习之”,强调个人的在“学习”中的主体性,“学”之于人。“习”之于己,谓之“习得”,“习”就是个人的主体过程,“学”只是一种被动的模仿行为,自身的主动性才是真正的动力, 人的主体性也是学习的最终归宿。“子曰:不愤不启,不悱不发。举一隅不以三隅反,则不复也。” (论语·述而) 孟子曰:“君子深造之以道,欲其自得之也。自得之,则居之安;居之安,则资之深;资之深,则取之左右逢其原,故君子欲其自得之也。”(孟子·离娄下)现代的皮亚杰(Jean Piaget 1896-1980)也认为,儿童的心理(智力)既不是起源于先天的成熟,也不是起源于后天的经验,而是起源于主体的动作。克拉申(Stephen D. Krashen 1941-) 提出“习得--学习差异” 假设, 认为语言的习得就是一种无意识地、自然而然地学习, 学习者通常意识不到自己在习得语言;而语言“学习”则是通过设定的教 学计划和教材并有意识的练习、 记忆, 达到对所学语言、语法的掌握。 习得的结果是潜意识的语言能力;而学习的结果是对语言结构有意识的掌握,语言的“学习”只起对语言的检则、编辑的作用。
西方文化传统重在知识,“学”在致“知”,从苏格拉底的“知识就是美德”到培根的“知识就是力量”,学习(learning)主要是指知识的学习,虽然知识的学习于人是不可或缺的,知识的积累和进化是人类文明最主要的组成部份和动力,但片面强调这种知识性的学习也会产生对人自身主体性的困惑。似乎是在“机器学习”这个概念中,人们才领悟到机器是由人“模仿”人的神经系统而使机器得到“学习”能力的,这里的“模仿”是指人在计算机中“建模(modeling)”方式的模仿,这种强调区分了人与机器在层次上的不同。实际上这里就隐含了模仿的三个层次,首先是人对神经网络的模仿(imitating)而得到ANN这种“机器代理”(Agent),然后是在“算法计算”的通用计算机中建模(modeling)ANN,然后才是机器的学习训练(“有监督”或“无监督的”机器学习)以得到机器的人工智能性。现在广泛使用的“机器学习”大抵上只是理解为将人类的既有经验纳入机器中,比如数据库式的专家系统和ANN式的“机器代理”(Agent)都是这种意义上的“学习”。
人、机之间最大的区别就在于人主要是天生的主体学习者,机器则是在人造的“先天性”上才得到自己的“学习”能力。
由于人工智能的出现而引发了我们对人的智能的更深刻的理解,也带来了很多相关观念和概念的更新,并正在引发人的自我和对世界的重新认识,对“模仿”和“学习”的意义和之间的关系的分析能够帮助我们更加认识到,区别图灵或冯·诺依曼构型的计算机的“算法计算”与“机器代理”(Agent)的Matrix的重要(可参见[4])。我们一直认为只有基于对人的智能的深刻理解,才能清楚地区分机器的人工智能与人的智能之间的复杂关系。但不能以人工智能的观点去理解人的智能,正像在算法理论中,不能以“多项式时间”(Polynomial time)的计算能力去定义“不确定性问题”(Nondeterministic Problem) 一样[5]。
总的来说, 一方面,AlphaGo确实是学习了弈棋高手的经验才胜过了人,但另一方面,应更应该看到,人模仿了大脑神经系统制造了可以“学习”的机器,然后才是这个机器去“学习”人的经验,这两方面才是对AlphaGo 与人之间的“围棋之战”和一般意义上所谓的“人机之战”的完全不同的层次的真正分别,这也是对“人工智能”的智能性的正确理解。
四、 围棋的全局性与AlphaGo
在“深度学习”这个概念下,AlphaGo虽然不能说全是基于人工神经网络(ANN)的基础,但AlphaGo的确把对决游戏的人工智能发挥到了极致,各种强大的搜索算法无法应对的巨大搜索空间就是由对棋局的“直觉”判断的ANN而被转化为可能搜索的。从“计算”基本原理上看,ANN确实是把以往的基于“算法计算”的人工智能推进到基于“代理计算”的人工智能的道路上, ANN所表现的这种全局性的判断能力,就是人类常引以为傲的“直觉”,但迄今为止,人们仍然不了解人的直觉的秘密,因此,即使是ANN研究的专家也都承认对ANN的基本原理仍然不了解。
围棋的“局面”是一种具有全局意义的对决游戏,围棋中的盘面局势不是由棋子与棋盘上的位置的关系决定的,而是由每一个棋子与其它所有的棋子组成的“局面”决定的,而且每一棋局的局部都有与全局具有同样的关系,这也正是现在常见到的“深度”这个术语的隐含意义,所谓“卷积神经网络”(Convolutional Neural Network, CNN)也正是在这个意义上发展起来的。
国际象棋的棋子具有个别性,棋子的等级与其在盘面上的位置大体决定了棋子的价值,能下国际象棋的“深兰”就是建立了所有棋子与棋盘上的位置组成的“空间”,然后用传统的算法搜索方法和技巧对所有可能的走子行为进行整个可能空间的搜索,从而可以找出最佳走法,但这种方法对围棋棋子和棋盘位置组成的巨大的空间无能为力,DeepMind团队在人工神经网络ANN的基础上,研制了对围棋的“局面”判断方法,这就是AlphaGo中的“价值网络”与“策略网络”能够对围棋局面做出优劣判断,像高手对盘面的直觉印象一样,全局性判断虽然不能直接产生具体的走法,但可以提供局面优、劣判断以缩减搜索空间提供给算法搜索。这种价值判断与算法搜索相结合的方法就类似于人的左、右大脑的工作。
虽然无法得知AlphaGo的组成细节,但DeepMind 是这样透露大体情况的:“First, the depth of the search may be reduced by position evaluation: truncating the search tree at states and replacing the subtree belows by an approximate value function v(s) ≈ v*(s) that predicts the outcome from states. This approach has led to superhuman performance in chess, checkers and othello, but it was believed to be intractable in Go due to the complexity of the game. Second, the breadth of the search may be reduced by sampling actions from a policy p(a|s) that is a probability distribution over possible moves a in positions. Recently, deep convolutional neural networks have achieved unprecedented performance in visual domains: for example, image classification, face recognition, and playing Atari games. They use many layers of neurons, each arranged in overlapping tiles, to construct increasingly abstract, localized representations of an image. We employ a similar architecture for the game of Go. We pass in the board position as a 19 × 19 image and use convolutional layers to construct a representation of the position. We use these neural networks to reduce the effective depth and breadth of the search tree: evaluating positions using a valu和e network, and sampling actions using a policy network.”——首先,搜索深度可以由棋局评价缩减:在(价值网络对)棋局(评价中)截短搜索树,并重置(可以搜索的)近似最优v(s) ≈ v*(s)的子枝层,这是(价值网络对)局面评价产生的结果。这个方法导致在棋子、棋格、和局部棋块中超常人的策略,但在复杂的围棋游戏中(这下一步的走子策略)仍然是难(搜索)的;因此第二步,(此层中)搜索广度可以由(策略网络)在样本行为中对可能走子在棋局上几率分布p(a|s)进行缩减。现在,深度卷积神经网络在视像领域取得了出人意料的效果,比如图像分类、面孔辨识 和ATARI游戏中。他们使用了很多神经层,每个都置于重叠的层次中,以对一个像构建不断增长的抽象、局部表达。我们在围棋游戏中采用了相同的结构,我们放弃了对19 × 19盘面位置(的算法)而使用了卷积层构建棋局的表达。我们使用了这些神经网络缩减了搜索树的有效深度和广度:局面评价采用了价值网络,而走子步骤采用了策略网络。
结语:从人与机器的“学习”性质和关系上,我们可以看出, 人工智能中的人、机关系既是人与客观世界的关系,也是人与社会、人与自己的关系,这种多层次之间的缠绕关系的复杂性超过一般的多元、交互关系,人工智能给我们带来的不仅是物质和社会文明上的进步和提高,也给人和世界带来了更多的不确定性。
主要参考资料
[1] Mastering the game of Go with deep neural networks and tree search, Nature 529 (7587): 484–489
[2] 朱光潜,“不似则失其所以为诗,似则失其所以为我”,《谈美》系列之十三。
[3] 周剑铭,智能哲学:人与人工智能 网文
[4] 周剑铭 柳渝,机器与“学习”——寻找人工智能的幽灵,网文
[5] 柳渝,不确定性的困惑与NP理论,http://blog.sciencenet.cn/home.php?mod=space&uid=2322490
图片来自互联网