【内容提要】 阿尔法狗”、深度学习等人工智能新进展引起广泛关注,一种观点认为人工智能即将大功告成,另一种观点认为人类社会即将大祸临头。本文分析表明,这两种看法不仅没有科学依据,而且与事实不符。人工智能有两种经典思维——暴力法和训练法,都不能有效应对不确定性问题,因此人工智能在不确定性问题领域依旧面临根本性科学挑战,同时也存在重大机遇。“阿尔法元”是两种人工智能经典思维的融合与超越,代表着人工智能在确定性问题领域的历史性进步,预示着人工智能应用的新局面。本文进一步分析表明,“全能型人工智能”是没有科学基础的,人工智能需要反思其目标定位,也需要加快推进思维演化。针对不确定性问题,本文介绍一种人工智能新思维——容差性思维,以及一种机器人灵巧性技术路线。
【关键词】 人工智能,智能机器人,思维,精确性,容差性
据说人类下围棋已有几千年历史,而人工智能“下”围棋只不过几十年,可是一个人工智能程序“阿尔法狗”(AlphaGo)却轻而易举地远远超过了人类的围棋水平。于是人们纷纷推测:围棋是人类最难的智力活动之一,现在被人工智能一举超越,那么,人工智能普遍超越人类智能岂不是为期不远了?由此引发两种极端看法,一种认为人工智能即将大功告成,一种认为人类社会即将大祸临头。然而,这些推测是不成立的,因为它们隐含的一个前提假设是根本错误的。这个前提假设是:对人类困难的事情,对人工智能也困难;对人类容易的事情,对人工智能也容易。
为什么这个假设不成立?因为人工智能“思维”和人类思维是根本不同的。那么,什么是人工智能思维?当前人工智能发展水平到底如何?人工智能现有技术能解决哪些问题,不能解决哪些问题?当前人工智能面临的根本挑战是什么?人工智能的真正目标应该是什么?未来人工智能思维应如何演化?本文尽量采用通俗的语言,尝试对以上问题进行梳理和回答,以期促进对人工智能更加真实、更加深入、更加全面的把握和理解。
一、人工智能的进展和挑战
在中国,“阿尔法狗”的获胜出乎绝大多数人的预料。在西方国家,大多数人知道的最复杂的棋类博弈是国际象棋,而在1997年“深蓝”就战胜了国际象棋十年棋王卡斯帕罗夫,所以西方大众对人工智能的“感觉”比中国大众早20年。那么,20年来人工智能有什么重大进步?“阿尔法狗”与“深蓝”有什么根本不同?这些不同会不会带来翻天覆地的变化?
2001年,“深蓝”项目负责人许峰雄博士到我的实验室访问,我问他:“‘深蓝’的技术能不能下围棋?”他说“不能”。后来我去他实验室访问时又问他,他还是说“不能”。为什么不能呢?因为围棋比国际象棋复杂太多了。在人工智能中,通常用两个指标估计博弈问题的复杂度:一是状态空间复杂度,用来衡量棋子在棋盘上有多少种不同的合法摆法;二是搜索树复杂度,用来衡量一种棋类博弈可能下出多少盘不同的棋。国际象棋的博弈数复杂度大约是10123(10的123次方),围棋大约是10300。10300可以从围棋的博弈树推算出来,博弈树的第一层(顶层)代表黑棋走的第一步,理论上共有361种走法,对应于博弈树上的361条树枝;第二层对应于白棋的第一步,有360条树枝;以此类推,一直到棋局结束。这棵树的底层结点代表围棋总共有多少种不同的棋局,总数大约是10300。
当一个问题的复杂度为指数量级时,比如10123或10300,在计算机科学中称为“指数爆炸”。10300有多恐怖?让我们对比两个数据:一是地球上的海水,一共有大约13.86亿立方千米,折算为大约7 × 1034滴水;二是一瓶500毫升的矿泉水,大约有2.5 × 104滴水。一瓶矿泉水和地球上的所有海水,在直观上是不可比的;但是以水滴为单位,折算到10的幂指数,只不过是4次方和34次方之比,可见“指数爆炸”是极其恐怖的。过去的人工智能技术法无法突破大规模(比如10300)指数爆炸,而“阿尔法狗”却在围棋问题中首次取得了突破,这是一个了不起的进展。
大规模行业应用是任何一个研究领域获得真正成功的标志。今天走进任何一家汽车制造厂,都会看到技术原理相同的自动化生产线在承担着制造工作,而不采用自动化生产线的车企几乎消失殆尽。因此,没有人会否认自动化和工业机器人技术的成功。那么,“阿尔法狗”代表的人工智能技术进步会不会带来类似的大规模产业化应用?
本文分析表明,在确定性问题领域,人工智能的大规模应用是完全可能的;而在不确定性问题领域,人工智能仍然面临深层挑战。为了阐明这个判断,有必要考察人工智能涉及的三层空间:现实层、数据层和知识层(见图1)。
底层是现实层,就是人类的现实世界,是非常复杂、含糊和具像的。中间层是数据层,其中的数据是通过各种数据采集手段,包括人工采集和机器感知(如摄像机)而从现实层获得的。数据是抽象的、格式化的。经过数据采集过程,一部分信息被收集起来,同时现实中无限多信息被丢弃了,这个事实非常重要,但往往被忽视。在现实层和数据层上,经过人工建模,或者通过机器学习,可以得到知识。知识是结构化的、包含语义的。在知识层上,人工智能研究内容包括自然语言处理、推理、规划、决策等等。
智能机器人自主地感知现实世界,获得数据,从中抽取知识,并利用知识进行理解、推理、规划、决策等,产生机器人行动,并在现实层中加以执行。智能机器人的运行形成一个完整的闭环——从现实层到现实层,所以现实层包含的不确定性会对机器人产生不可忽视的影响。其他种类的大型人工智能系统是从数据产生决策,提交给用户使用,所以不形成完整的闭环。即使如此,现实层中的不确定性仍然会渗透到这些人工智能系统中。
一个真正实用化的人工智能系统需要满足两方面要求:第一,能够正确处理它的预期输入;第二,能够正确处理它的非预期输入。目前,这两方面要求对人工智能系统的建造都具有挑战性,而第二方面的要求更难一些,一个人工智能系统面对非预期输入,往往产生错误结果,甚至崩溃(见图2)。例如,对一个皮肤病诊断人工智能系统而言,预期输入是皮肤病案例,非预期输入是非皮肤病的案例。现有皮肤病诊断人工智能系统的内部模型只包含皮肤病的知识,如果这个模型足够好,那么输入任何皮肤病案例,它都能够提供正确的诊断;但是,如果输入不属于皮肤病的信息让系统进行诊断,这就超出了模型覆盖范围,这时人工智能系统就会产生错误的结果。有人曾做过一个测试,将一辆生锈旧卡车的信息输入一个基于规则的皮肤病诊断系统,得到的诊断结果是:得了麻疹。①这种现象在基于规则的人工智能系统中普遍存在。
以深度学习为代表的人工智能新进展是否已经克服了这个困难?最近,美国麻省理工学院的研究人员做了一个“定向对抗攻击”(targeted adversarial attack)试验。②试验攻击的对象是一个著名的商业机器学习系统,该系统训练得到的人工神经网络可以从照片中识别各种对象,并达到很高的正确识别率。实验人员人为修改了原来照片上的少量像素,使得对人眼没有影响。实验结果表明,同一个人工神经网络完全不能正确识别修改后的照片。
有人认为,对抗攻击是人为造成的,所以只有理论上的影响。这个看法是严重错误的。一旦进入现实层,作为不确定性的表现之一,感知噪声是无处不在的;也就是说,天然的对抗攻击在现实中是不可避免的。这就表明,人工智能在现实层仍然面临极大的挑战,而最大挑战来源于不确定性。因此,本文从知识、数据和现实三个层面考察人工智能的基本问题,并重点讨论不确定性对人工智能的挑战。
二、第一种人工智能经典思维:基于模型的暴力法
人工智能研究有几千种不同的技术路线,其中大部分技术路线可归结为两种人工智能经典思维,每一种思维之下的人工智能技术路线都遵循相同的基本原理,也共享相同的局限性。这两种人工智能思维在很大程度上代表了人工智能的主流发展。
第一种人工智能经典思维是“基于模型的暴力法”。这种思维主要是针对知识层的,依赖于精确性和人工编程。人工智能中的暴力法肇始于人工智能初创期,继承了发源于古希腊的传统数学思维,这种思维在科学史上有诸多代表性学者和成就,如亚里士多德(公理化逻辑)、莱布尼兹和牛顿(数学分析)、伯努利(概率论)和司马贺(Herbert A. Simon)(有限理性决策论)等。
传统数学思维假设有一个解析模型,同时考虑到有些问题的解只能是近似的,这时就用数学近似方法处理。例如,假设一个解析模型在数学里表达成一个公式,这个公式很长,甚至有无穷多项,为了近似,根据模型知识把它改写成一个等价的新公式,使得新公式中前面的几项是容易计算和容易获得数据的,后面的项都舍弃了。因为有精确模型,能算出所有省略项的累积误差,并设法保持为一个足够小的值。这种经典数学思维的根本特性是:假设精确性模型是完全的——不仅提供完全的理论知识,而且提供完全的误差知识,即理论与现实之间的全部偏差的完整知识。
暴力法的基本原理是:第一,根据问题的精确模型,建立一个搜索空间;第二,压缩搜索空间;第三,在压缩空间中枚举所有选项,找出问题的一个解。“暴力”表现为在压缩空间里把所有可能解都算一遍,找出其中一个“最好的”。暴力法的基本前提是:待解问题存在一个良定义的精确模型,且该模型默认为某种符号模型,以逻辑形式化、概率形式化和决策论形式化为主导模型。
暴力法的代表性工作往往提到下面几个。1956年,纽厄尔(Allen Newell)、肖(John Shaw)和司马贺发明了一个称为“逻辑机器”的人工智能系统,并对它做了一系列实验测试。在其中一个测试中,逻辑机器自动证明了罗素、怀特海所著《数学原理》中命题演算部分的37条定理,引起轰动。此后,各种通用“推理机”如可满足性(SAT)问题求解器和回答集编程(ASP)求解器不断地研发出来,并不断地换代升级,以它们作为通用问题求解的基础工具(而数学定理证明并非人工智能的一个基本目标),用来解决各种问题,如同杨立昆(Yann LeCun)评论的那样,“人脑就是推理引擎”。③
另一个代表性工作是知识工程,这是20世纪七八十年代人工智能“第二个春天”的主导方向。这个阶段的工作重点是,在第一阶段研究出来的通用问题求解机制之上,增加表达专家知识的符号模型(又称知识库),试图通过二者结合解决大规模实际问题。这个阶段研制出多个性能出众的专家系统,如医学诊断专家系统“霉素”(MYCIN)可帮助医生对住院的血液病感染患者进行诊断,化学分析专家系统“丹卓”(DANDRAL)可根据质谱仪数据推测分子结构。直到90年代初,世界各地的一些化学家还去美国使用“丹卓”,而且要排队等半年,所以那个时候是非常成功的,某种意义上可能比现在的深度学习更加成功。
1997年,“深蓝”战胜了国际象棋棋王卡斯帕罗夫,这是一个里程碑式的贡献,也是暴力法的一个高峰。“深蓝”的技术手段是往前看至少14步棋,然后用专家知识评估这些棋局的优劣,从中选取一个对己方最有利的,就往那个方向走。但是,国际象棋每一步棋平均有35种走法,前瞻14步就产生大约1021个可能的棋局,要逐一评估这些棋局的优劣,这在当时是没办法完成的,现在仍然很难。“深蓝”小组用剪枝技术压缩搜索空间,减少到600亿个棋局。同时,许峰雄研制了专用芯片(现在叫人工智能芯片),5分钟就可以把600亿个棋局全算一遍,从中找到一个最好的。这样“深蓝”就赢了卡斯帕罗夫。
这个胜利证明了许峰雄不等式:人工智能+人类专家 + 计算机>人类顶级专家。这个不等式对推动人工智能的发展,包括“阿尔法狗”等大量人工智能项目的设立和成功,发挥了重大作用。可是,用暴力法研发人工智能系统的开发效率很低,对开发者的专业素养要求非常高,而且这些系统普遍存在脆弱性,无法有效区分预期输入与非预期输入,对非预期输入发生功能紊乱(见图2),再加上当时人工智能系统在实际应用中得不到所需的配套支持,所以后来基本上都被弃用了。
三、第二种人工智能经典思维:基于数据拟合的训练法
第二种人工智能经典思维是“基于数据拟合的训练法”。其工作原理是:用一个人工神经网络表示给定问题的输入输出格式,这是一种元模型;然后用大量标注数据去训练这个元模型,即调整这个人工智能神经网络的连接权重,从而得到一个具体的亚符号模型(见图3)。训练好的人工神经网络可直接用于解决给定问题,比如识别图片中的物体。
这种训练遵从数据拟合原理。训练集中的每个样本包含一对输入值和期望的输出值,训练过程中反复比较被训练的人工神经网络的输出值与训练样本标注的期望输出值之间的偏差,用监督学习算法调整元模型的参数(即人工神经网络中的连接权值),努力让总体偏差尽量小。
训练法在人工智能中早已有之,其基础工作甚至早于图灵测试的提出,但是直到2012年深度学习算法在一个大型图像测试比赛(ImageNet)中异军突起,才显示出机器学习技术的真正潜力和根本性突破,从而使得训练法成为人工智能思维的一个新经典。因此,这个比赛本身也成为机器学习的一个著名代表性工作。比赛组织者提供了大量数据,包括1400多万张图片,其中一些是带标注的。所以,这个比赛的设立体现了设计者对人工智能发展新趋势的准确把握,把机器学习引向了数据驱动的新方向,为后来的具体技术进展开辟了道路。
比赛记录(见表1)显示,2012年10月多伦多大学用深度学习方法取得了显著进展,误差率从原来的27%一下降到了16%左右。结果,次年所有参赛队都采用了深度学习方法。到了2015年,深度学习方法达到的4.9%误识别率已低于人类的误识别率。正因为这个进展,很多人工智能研究者对后来“阿尔法狗”的成功并不感到意外。
过这里必须补充说明,图像识别的这些结果是针对数据库里的图片而取得的,这与机器用摄像头直接从不加控制的现实世界中获取图像并进行识别,是非常不同的。在非实验室条件的自然环境中,机器的图像识别(分类)能力是否超过了人类?如同对抗攻击提示的那样,这仍然是一个未解之迷。
针对合适的问题(如图像分类),在具备足够好的标注数据集的前提下,用训练法研制人工智能系统的开发效率和得到的系统性能都比暴力法高得多,对开发人员专业素养的要求也大大降低了,这些优势为训练法的推广应用创造了条件。可是,训练法不具有可解释性,这严重妨碍了某些行业应用。另外,训练法完全依靠数据训练导致软件可复用性的丧失,这不符合软件生产的行业规律。
四、“阿尔法狗”:两种人工智能经典思维的融合与突破
“阿尔法狗”是上述两种人工智能经典思维的融合与突破。一方面,“阿尔法狗”采用了符号建模,这符合暴力法,不符合训练法,但是“阿尔法元”(AlphaGo Zero)在建模中采取了一项重大理念突破——舍弃了经典决策论的解析性。另一方面,“阿尔法狗”的问题求解采用的不是暴力法,而是训练法,但也不是经典的训练法(监督学习)。“阿尔法狗”前三代的训练是需要人类围棋知识的,但是到了第四代即“阿尔法元”,则完全不依赖于人类围棋知识了——不需要任何人工标注数据。
根据“阿尔法狗”团队在《自然》(Nature)上发表的原始论文④,本文将“阿尔法元”概括如下。
(一)“阿尔法元”的计算模型
这个模型(见表2)的概念化框架完全是决策论的,但相对于经典决策论模型有重要改变。一个改变是策略表示(表2第四行)改为深层神经网络了,这是一种技术性创新。另外两项改变(表2第三行、第四行)用己方平均胜率取代了效用的数学期望和概率转移函数T(s, a, s’)。这表明:“阿尔法元”的决策论模型不具有解析性,从而不再完全遵守经典数学思维。
为了保证“阿尔法元”的决策论模型总能工作,在内部测试中用特伦普-泰勒规则(Tromp-Taylor Rules)替代人类围棋规则,以保证模型的良定义性,包括状态、行动和回报函数的良定义性。有了这几个性质,围棋博弈完全形式化为人工智能中的确定性问题类,也就是人工智能中最简单的问题类型。
(二)“阿尔法元”的自学
围棋能下出什么棋,是由围棋规则决定的,不是棋手决定的。一般认为,必须跟高手下棋,才可能走出“妙棋”,否则都是“臭棋”,所以围棋程序必须依赖于人类的围棋经验。其实这种看法只对人有效;对机器而言,只要规则确定了,而且规则是良定义的(well-defined),用暴力法就可以自动产生所有可能的棋局。所以,问题的关键在于用什么技术实现围棋的自学。“阿尔法元”采用一个人工神经网络fθ表示围棋博弈决策的“模拟模型”,其初始参数是任意设置的。
“阿尔法元”的自学方式是自博(self-play),得到大量数据(st, πt, zt),它们分别表示一次自博中第t步棋的棋局状态、对应的胜率估计和结果估计。利用这些数据进行强化学习,训练模拟模型fθ,得到更优的模型参数θ。再用得到的更优模拟模型进行后续自博,反复迭代(见图4),直到获得足够好的模拟模型fθ。这个自学过程完全不用人类知识,纯粹属于“实践出真知”的方式。能不能用其他类型的模型和自学手段解决其他类型的人工智能问题?这是值得深入思考的。
(三)“阿尔法元”的“秘诀”
图5总结了“阿尔法元”的自动局部标注及迭代扩散机制,包括四个基本步骤。分析这些步骤可以发现,自博产生的胜负结果rT在“阿尔法元”的强化学习中扮演了关键角色。首先,这些rT值起到了标注的作用,而且是完全客观准确的,由围棋规则(包括特伦普-泰勒规则)完全决定;其次,这些值是在自博中自动产生的,无需任何人工标注和人工干预;再次,这些值通过“阿尔法元”整体算法的闭环迭代,被逐步扩散到模型和算法的其他参数上,从而实现了对其他参数的优化和更正。这三点就是“阿尔法元”的自学产生“惊人效果”的“秘诀”。
上述机制看穿了似乎没有什么理论上的“新名堂”,但通过“阿尔法元”项目,证明其效果出乎意料地好。如果这套机制能推广到不确定性问题,将带来人工智能翻天覆地的变化。
(四)“阿尔法元”的进展
面对围棋,虽然理论上可以遍历所有棋局,但计算上是不可行的。在“阿尔法元”的最后一次实验测试中,它40天下了2900万盘棋。按这个速度算,一个世纪也只能下大约2.6 × 1011盘棋,这跟围棋总共10300盘棋相比,简直是微不足道的。但是“阿尔法元”只下了2900万盘棋,就远远超过了人类的围棋水平。因此,“阿尔法元”做到了20年前“深蓝”做不到的事情,在棋类博弈问题上将人工智能智力大大提升到一个更高的水准。
(五)“阿尔法元”的超越与局限
在良定义的确定性问题上,“阿尔法元”既利用人工神经网络学习技术,达到了远超暴力法的性能,又突破了经典训练法需要人工标注数据的障碍;既继承了符号建模,又突破了符号模型求解的低效性。根据其计算模型和算法,“阿尔法元”的行为和性能可以得到阐释,但不能证明程序的正确性,由此形成了某种弱于可证正确(provably correct)的可解释性,从而超越了“清纯人工智能”(Neat Artificial Intelligence)和“浑浊人工智能”(Scruffy Artificial Intelligence)之争。
“阿尔法元”的自动局部标注及迭代扩散机制是它成功的秘诀,同时也是它的最大限制——“阿尔法元”的成功能不能推广到其他确定性问题,取决于该机制能不能以适当方式推广到这些问题上。另外,“阿尔法元”的自学也是值得推广的。如果这些推广获得成功,人工智能技术有望在确定性问题领域获得大面积应用,而且在这种领域应对技术误用是相对比较容易的,人类完全可以避免“大祸临头”的情况发生。
(六)“阿尔法元”的启示
“阿尔法元”带来什么科学启示,目前是非常不清楚的,也是值得深思的。比如,放弃经典决策论模型的解析性意味着什么?另一方面,“阿尔法元”带来的社会启示则是比较清楚的。第一,如果说“深蓝”给人类智力不可战胜的神话留下了“最后一块遮羞布”,那么“阿尔法元”则将这块遮羞布一把扯下,从而彻底证实了许峰雄不等式。第二,即使承认围棋是人类最难的智力活动之一,与人工智能相比,人类根本就不擅长围棋之类的智力活动。事实证明,在很多确定性问题上,人类的“自然思维能力”远远低于人工智能经典思维能力,而后者是由人类发明的精确性思维所产生的一种“人工物种”。第三,由于是根本不同的“物种”,人工智能和人做事的难易程度往往恰好相反——对人容易的往往对人工智能难,对人难的(如下围棋)往往对人工智能容易。因此,人工智能下棋赢了人类,绝不等于人工智能在对人类更容易的事情上也能赢人类;恰恰相反,在人类更擅长的不确定性问题上,人工智能现有技术远远落后于人类。这就回答了本文开头提出的问题。
五、智能机器人挑战
“Robot”一词在汉语中被译为“机器人”,这导致非专业人士普遍认为,机器人可以低能、弱智、无情商,但必须具备人的基本能力,否则就不应该叫“机器人”。从这个假想出发,人们普遍认为:一件事如果对人很难,机器人暂时不会做是可以理解的;如果一件事对人很容易,机器人却不会做,那是不可原谅的。这种普遍性假想与机器人的实际情况彻底南辕北辙。机器人和人工智能一样,是本质上与人完全不同的“物种”,机器人绝不可能“先天继承”人类的任何能力。即使一件事是人和机器人都能做的,做事的方式也是本质不同的。
早在1961年,工业机器人就开始行业应用了。早期工业机器人技术主要涉及重复性动作的控制。文献中的主流控制原理是基于精确性思维的,以决策论模型为基础(“阿尔法狗”也基于这种模型),常见的控制策略有很多种,如优化控制、适应性控制、鲁棒控制和分层控制等。不过,这些策略的理论研究虽有很多很好的成果,在大规模行业应用中起主导作用的却主要是传统的运动学、动力学方法,其模型中没有概率,也没有模糊度,对应的机械臂也很简单,就是关节-连杆结构,借助运动学计算,控制所有关节角度,使机械臂末端达到指定位置。用这种方法达到了很高的重复精确(至少亚毫米级误差),但不具备灵巧性。
不过事情没有那么简单。到工厂里看看就会发现,工业机器人通常并不是单独工作的,而是需要与大量辅助设备如夹具、导轨等一道,共同组成完整的自动化生产线。在常见的汽车自动化生产线上,可以看到一些长长的吊臂,它们不是工业机械臂,而是一种大型夹具,用来把加工中的汽车车身牢牢定位在导轨上,使得车身可以沿着导轨移动到各个工位,并保证车身的位移误差在亚毫米以下。同时,生产线上的其他装备包括各种工业机械臂,也都以导轨坐标系精确定位,控制误差在亚毫米以下。这样就保证了工业机器人可以在程序的控制下不断重复相同的动作,完成所需的各种加工操作。
普遍认为,工业机器人的精确性就等于机械臂自身的精确性,这个看法是严重背离事实的。实际上,“精确性=机械臂精确性+环境精确性”,而其中环境精确性比机械臂精确性更加重要。当然,多种传感器也被不断地引入某些种类的工业机器人中,以帮助这些机器人应对无法完全通过“盲操作”完成的加工。可是,现有工业生产线的主流技术仍然是借助大量辅助设备,最大限度地消除生产过程中的不确定性。通常,一条带机械臂的自动化生产线,只有1 / 5到1 / 8的成本是机械臂的成本。
当然,这样做也带来了很多问题。由于成本过高,计算机、通信、消费类电子产品(3C)、白家电等行业虽然是大规模生产,却很难用得起自动化生产线;另一方面,对于难以消除不确定性的各种服务机器人应用,工业生产线的办法更是行不通的。
智能机器人正是为了克服工业机器人的局限性而出现的。1972年完成研制的沙基(Shakey)机器人是智能机器人研究的第一个里程碑,可是直到现在,智能机器人尚未得到大规模应用,可见挑战的严峻性。
业界已形成共识,服务机器人的市场空间将远远大于工业机器人。下面是几个广受关注的服务机器人应用场景。在家庭应用场景中,机器人有时需要为跌倒的用户提供救助。在这种应用中,不可能把用户固定在夹具上,而是需要机器人用传感器感知用户的位置和状态,并自主移动到用户身旁提供服务,这就涉及大量现实层中的不确定性。在地震现场中,不确定性效应极为强烈,移动一片瓦都可能导致废墟垮塌,这对救援机器人具有极大的挑战性。在柔性制造场景中,被加工的工件在工位之间的传送完全由自主移动机器人执行,所以生产过程中的不确定性在一定程度上又出现了。
各种机器人可以按照任务和环境的确定性程度排序(见图6)。确定性程度越高,用精确性技术越有效;确定性程度越低,则越需要灵巧性技术。比如工业机器人基本不需要灵巧性,因为它的工作环境被改造成完全确定的了。无人车伸出两条腿,左边的腿对应于路况完好、所有交通标识都可被无人车识别、所有车辆行人都遵守交通规则的情况,这种情况下没有什么不确定性,主要依靠精确性就可以解决。可惜实际情况不是这样,尤其在中国,对应的是另一条腿,即上述三个条件不满足的情况,那就比农业机器人还要复杂。我们这样看智能机器人就很清楚——挑战就在于不确定性;应用场合的不确定性越强,越需要智能。
总而言之,工业机器人是依靠自身和环境的精确性,而人工智能经典思维在数据层和知识层取得了巨大进展。但是,智能机器人和现实层人工智能必须能够有效应对环境的不确定性,这是当前人工智能研究面临的主要科学挑战。
六、不确定性挑战
为什么人工智能研究迄今无法突破不确定性?迄今人工智能是用什么办法尝试攻克不确定性的?上文总结了人工智能的两种经典思维,下面分别分析两种人工智能经典思维应对不确定性的难点所在。
(一)暴力法的局限性
第二节谈到暴力法面对非预期输入时的脆弱性,而这正是暴力法拙于应对不确定性的一种典型表现。其实暴力法面对预期输入时,往往也是困难重重。除了对研发团队技术素养要求过高、对计算资源要求过高等问题之外,根本性困难在于建模难题:暴力法离不开模型,而作为建模手段的现有形式化方法,无论具体采用的是什么技术工具,都不能有效地实现不确定现象的表达和推理。
暴力法的建模难题在国际人工智能界被普遍观察到了,而且也出现了系统性的理论反思。鄂耐斯特·戴维斯(Ernest Davis)通过长期理论研究、工程实践和理论分析,得出一个重要判断:用一套事先固定的规则体系(如公理系统)或组合多个小规模规则体系,以规范一个变化的或复杂的领域,是一种不可行的工程方法论,只能建造“玩具型”智能系统。⑤如果依照理论深度在整个人工智能学科中评选出五篇最重要的论文,其中应该有戴维斯的这篇文章。
不确定性是一个不可分割的连续体,为了更好地理解和把握它,本文将不确定性的表现形态归纳为以下三种:
第一种形态为对象的不确定性。现实世界中,一个对象往往存在着不可预测的很多“变体”(variants)。即使是一些简单对象如“杯子”,在现实中往往也存在着各种变异形态(各种各样的杯子和类似杯子的东西),试图在建模中穷尽一个预期对象在所有可能应用场景中出现的所有变体,在工程上是不可行的。这进一步意味着,一个人工智能系统的模型在实际运用中甚至无法区分预期输入和非预期输入。
第二种形态为属性的不确定性。现实世界中,属性往往是含混的(ambiguous)和场景相关的(context-depandent);也就是说,“同一个属性”在不同场景中的形式化定义也是不同的。于是,一旦给出一种属性的任何良定义的形式化描述,就意味着人为限定了该属性的一部分可能场景,舍弃了该性质的另一些可能场景。因此,用现有形式化方法建立模型,原则上无法保证覆盖实际应用中可能遇到的所有场景,而当遇到未覆盖的场景时,人工智能系统就会发生功能紊乱。
第三种形态为关联的不确定性。现实世界中的现象是相互关联的,一个现象可以在不同的场景中具有不同的属性,关联于不同的对象,并具有无法预测的关联方式。例如,在视觉感知中,一个固定的物体在不同的光照下可以呈现出不同的颜色,甚至可能是完全不可识别的。而人工智能研究长期未解决的“间接后果问题”(the ramification problam)和“前提条件问题”(the qualification problem),是关联不确定性在“行动”上的具体表现形式。一个人工智能系统的模型无法预测或描述现实世界中所有可能的关联;当人工智能系统在实际运行中遇到其模型未表达的关联时,就无法有效地应对。
现有任何一种形式化方法都不能有效应对这三种不确定性形态中的任何一种。这不仅反映了现实世界的复杂性,也反映了现有形式化方法自身的局限性。不仅定性型形式化(如逻辑形式化),而且定量型形式化(如概率形式化、模糊数学形式化),都要求模型完全性,都是精确建模(概率论要求精确到概率,模糊数学要求精确到模糊度,因而要求比逻辑形式化更高阶的精确性),都与不确定性现象的本质特征(不精确性、不完全性等)之间存在本质性鸿沟。
(二)训练法的局限性
基于数据拟合的训练法采用数据驱动模式,它不进行人工建模,而是针对给定问题收集数据,在数据上加人工标注,然后用监督学习算法训练人工神经网络,训练出来的网络就是给定问题的一种可执行模型,直接用于问题求解。也就是说,训练法试图借助数据和训练,绕过了暴力法的一个主要难点——人工建模。从思维方式和工程方法论上看,这是一种超越。
可是,这种超越不仅牺牲了人工智能系统的可解释性,而且其普遍实用性也存在疑问。训练法所产生的结果(训练得到的人工神经网络)的性能,依赖于海量数据及其人工标注的“质量”,而这种质量的保证来源于“采样一致性假设”。采样一致性指的是全体采样样本的概率分布和实际采样样本的概率分布之间的一致性。目前,这个假设在实际应用中是无法保证的。
图7显示了对采样一致性形成挑战的一种情形。图中的一个点代表一个采样样本,这些样本是通过多次采样获得的。在任何一个xi上,多次采样得到的y(xi)通常是不同的,一般通过某种算术平均,计算xi上所有采样样本的平均值,作为y在xi上的测量值。但是,只有用足量采样得到的平均值才是比较可靠的,而实际应用中往往只能进行少量采样。如果实际采样的样本分布与全体采样的样本分布不一致,用实际采样得到的平均值就会偏离全体采样的平均值。图7进一步显示了实际采样的一种困难——采样间隔的设置,在图示的间隔下,采样点x2与x3之间至少有三个极值点样本被遗漏,这将给数据拟合造成根本性障碍。三种不确定性均可导致这种情况。
不做机器感知或数据采集的人倾向于认为,数据采样不存在任何难题,总有办法可以得到足够数量的精确数据,实际上完全不是这样的。以无人驾驶汽车为例,迄今发生的车祸事故,都发生在十分“奇怪的”场景中,而要充分收集这种场景的数据,目前在工程上是非常困难的,甚至代价巨大。
另一方面,在理论上,绕过人工建模是否意味着真正绕过了人工智能根本性挑战?上面的分析表明,这个基本问题尚未得到明确回答。目前能够明确的是,训练法是将暴力法对人工建模的依赖,转变为对数据+标注的依赖。
假设我们用训练法处理不确定性的三种表现形态,那么我们就需要:收集和标注预期对象的所有变体的所有代表性样本数据;收集和标注所有预期属性的所有代表性样本数据,而且要能覆盖所有可能的场景;收集和标注与上述对象、属性以及所有行动可能相关联的所有其他对象和属性的代表性样本数据。由于不确定性通常伴随着不可预测性,依训练法现有技术收集上述种种数据和标注,意味着直接回归到样本一致性问题本身。因此,样本一致性问题仍是一个“死结”。
七、人工智能目标定位的反思
以上分析表明,基于数学精确性思维的现有两种人工智能经典思维都不能有效应对现实层的不确定性。这又引出一个更深层的疑问:为什么近代以来,基于精确性的经典思维,比如经典物理学,能够在实际应用中大获成功,而用到人工智能却会失效?
图8给出了人工智能与经典物理学的一个对比。事实上,经典物理学是通过理论力学、工程力学和标准化工程体系的三结合,从而实现了普遍性实用化。在这个三层结构中,上面一层的理论部分,实际上并不具有完全性,理论自身并不足以解决实际问题,所以引入了下面两层来加以弥补。例如一项建筑工程,通常并不需要用经典力学和工程力学进行复杂的计算,而是直接引用行业标准指导施工就行了,而这些行业标准的设立则依赖于工程力学的计算,进而依赖于理论经典力学的支撑,所以这些行业标准是“可证正确的”。因此,认为经典力学理论本身“解决了”现实世界的工程问题的看法,是不符合事实的。
那么,将经典物理学的整体体系搬到人工智能行不行?比如我们建立“人工智能工程学”,建立人工智能的行业标准化体系,这样是否就能够有效应对现实层的不确定性了?还是不行。对于人工智能来说,即使建立了人工智能工程学和人工智能产业的标准化工程体系,仍然面临着一个根本性区别:工程力学和标准化工程体系是给人用的,最终由人来应对现实世界的不确定性;而人工智能系统需要自主或半自主地应对现实世界的不确定性。因此,经典物理学的成功经验对人工智能并不完全适用。
由此可见,当人工智能系统的自主性与应用领域的不确定性连结在一起,问题的性质就发生了本质性变化,其原因在于:人工智能系统的自主性与人的自主性是本质不同的,因为人工智能系统与人是本质不同的,而这种本质不同从根本上说,来源于人工智能系统的“思维”目前就是人工智能经典思维,是不能有效应对不确定性的,而人的思维却能够应对不确定性。
因此,要想弄清机器智能与人的智能有何不同,首先就应该研究人工智能经典思维和人的思维在应对不确定性中有什么不同。那么人类思维是如何应对不确定性的?“容差化”和“精确化”是人类应对不确定性的两种基本手段,前者是在人类实践中自然形成的,后者是在科学研究中有意发明的。它们相辅相成,相得益彰;而人工智能系统目前只有精确化一种手段,独木难支,孤掌难鸣。
我们将能够自主有效应对现实层不确定性所有表现形态的人工智能称为全能型人工智能,这与所谓的“强人工智能”是类似的,可是强人工智能没有定义,无法对其进行科学分析。明确了全能型人工智能的“定义”,立即可以看出,全能型人工智能是一个内涵矛盾的概念。假设人类能够在有限的时间内建造一台全能型人工智能系统,那么它有没有学习能力?如果没有,就意味着人类能够在有限的时间内一劳永逸地建造一台机器,它能够解决宇宙中与人类永续生存相关的全部问题,这显然是不可能的。如果这台全能型人工智能系统有学习能力,就意味着这个系统能够“不断提高”,而“不断提高”又意味着“永远存在差距”,也就是说这个系统永远不能正确处理所有不确定性。因此,全能型人工智能的存在性是没有科学基础的。
即使对人类而言,不仅任何一个人类个体的智能不是全能型的,人类集体的智能也不是全能型的。另一方面,从实用化角度看,以往成功应用的科技成果,从来都没有,也不需要达到“全能”的程度。综合考虑各方面情况,最可能成立的判断是:全能型人工智能只是一个美好的愿望,同时也是人工智能健康发展的最大误区和最大陷阱,因而不应将全能型人工智能作为一个科学目标。根据以上分析,我们得出下列判断:
第一,应放弃追求全能型人工智能,转而追求能够有效应对某些不确定性,并且具有可实用化前景的人工智能。我们将这种人工智能称为有效型人工智能,它应成为人工智能研究与应用的真正目标。
第二,有效型人工智能包含不同的技术路线,面向不同的应用场景,针对不同的不确定性问题,因此存在各种各样的有效型人工智能系统;但是,这些系统都需要得到与现有人工智能经典思维不同的人工智能新思维的支撑。
第三,从全能型人工智能转向有效型人工智能,不意味着彻底抛弃现有人工智能技术成果,而是需要在继承现有成果的基础上,重点突破人工智能思维局限,引进新思维及其所需的新技术,并将新技术与原有技术有效集成,从而构建起有效型人工智能的新体系。
八、智能机器人研究中的容差性思维
中国科技大学机器人团队创建于1998年,自2008年起展开理论技术体系创新,并在自主研发的可佳机器人平台进行了技术集成和系统性测试。可佳机器人体系结构⑥如图9所示,主要功能模块包括人-机器人对话、多模式自然语言处理、通用推理规划器、底层控制系统、传感器系统、执行器系统和机器人硬件系统,另外还有开放知识获取系统和本地知识库。
2015年以来,我们进一步开发了一个“真仿合一”的测试平台,可以对移动操作机器人的各项性能进行定量精确测试。测试环境可以是真实的,也可以是仿真的,还可以将两种测试合二为一,大大提高了测试效率,扩大了可测范围,显著提高了测试效果,而且可以自动收集移动操作机器人的大量测试数据,用这些数据可以对机器人的有关功能进行训练,改变过去机器人算法几乎完全依靠人工编程的状况。
可佳机器人的重点应用场景选为普通家庭环境。养老院、医院病房、办公室、酒店、营业厅等环境都是家庭环境的不同“变体”,它们既有类似的一面,因而可共享某些核心技术,又有不同的一面,因而需要某些不同的关键技术或实用技术。家庭机器人涉及的核心技术包括四个研究领域:移动、操作、认知和交互。然而,家庭机器人及其核心技术研发的最大挑战在于,不确定性的三种形态在家庭机器人场景中都有不可忽视的表现,并构成技术研发的根本性难题。
我们做过一个测试,让可佳机器人自主地完成操作微波炉加热食品的全过程。这个测试在一些公开场合演示过,很多专家和来宾在实验室现场也看过。这个任务对任何成年人都不难,可是它能够揭示家庭环境中各种不确定性表现形态对服务机器人的影响,因而具有重要的科研价值。对机器人而言,在固定的环境中,每一个动作都不难;但是在变化的环境中反复做一个动作,或者把一串动作连起来做,并达到较高的成功率,是非常困难的。例如,当机器人把食品放入微波炉,关上炉门,微波炉的位置就会发生变化,有时微小的位置变化可以导致下一步机器人按微波炉按钮以很高的概率失败。因此,工业机器人的办法(按预设的脚本执行一串固定的动作)是完全行不通的。
按照流行观点,上述测试中出现的环境和动作的不确定性被归结为误差(包括感知误差、控制误差等),而误差在人工智能经典思维中历来不被视为科学问题或关键技术问题。不仅如此,这种观点还导致了对感知精度、控制精度和模型精度的过度追求,以为精度足够高误差就会足够小,于是困难自然就消失了。但实际上,由于没有完备数学模型的支撑,根本无法对“误差”进行合理的分析,甚至不知道什么时候会出现什么“误差”。尤为棘手的是,当环境发生不可避免的、难以检测的微小扰动时,往往导致算得越精,偏差越大,后果越离奇。
不确定性意味着不可预测、不可精确测量、不可精确建模、不可完全控制,因此越是试图精确地预测、测量、控制和建模,在人工智能系统研发中越是陷入焦头烂额、内外交困的境地。将不确定性归结为误差的精确性思维方式,不仅无效,而且在本质上是南辕北辙的。这种观点忘了一个基本事实:在非生产线应用场景中,暴力法的基本假设(要求完备模型)和训练法的基本假设(要求分布一致的标注数据)都是不满足的;也就是说,保证它们有效的前提是不存在的。因此,不确定性是对现有人工智能经典思维的根本挑战,而不是细节困难。
“可佳工程”立足于下列假设和目标:第一,追求有效型人工智能,因此我们不追求能够应对一切不确定性的单一人工智能系统,而是尝试构建在某些真实场景中有效的智能机器人系统;第二,不确定性不能简单地归结为误差,也不应追求对预期环境所包含的所有不确定性的精确测量和完全控制,而是尝试以“容忍偏差”的方式达到对不确定性的适当应对;第三,不追求对预期环境所包含的所有不确定性的彻底解构,而是尝试尽可能地加以解耦,有效削弱不确定性效应。
基于上述目标和假设,近十年来我们尝试发展一种“基于容差性的机器人灵巧性技术”,其主要技术方案是:第一步,用容差模型取代精确的解析模型;第二步,用适应性推理取代全局精确推理;第三步,用自动获取局部数据取代完全的端到端训练,尽可能减少对人工标注数据(尤其是全局数据)的依赖。需要说明的是,我们提出“基于容差性的灵巧性技术”并不排斥精确性,而是包容精确性与容差性于一体。
这里用一个简单的例子说明上述方案的大意。假设给机器人一个任务:把一杯水放在桌上尽量靠近用户的地方(假设机器人已知用户的位置);但是如果杯子太靠近桌面边缘,有可能掉下去。
按照精确性思维,需要完整地精确测量桌面边缘的形状和尺寸,这是不可行的,因为实际的桌面边缘往往是歪歪扭扭的(见图10中边缘不规则的区域),精确测量整个桌面的代价非常高,测量的效果可能很差。在不能精确测量的情况下,如果强行进行精确建模,则该模型与实际情况的偏差就无法避免,有时可能偏差很大,于是基于精确模型的推理结果与实际情况的偏差也就无法避免,而且可能偏差很大。这正是属性不确定性的一种表现。
按照基于容差性思维的机器人灵巧性技术路线,我们的解决方案如下。事先测量给定机器人的各种可测量的误差(包括感知和控制误差),然后计算出综合误差,比如误差界为 δ 。相应地,在我们的全局模型中,桌面被简化为一个规则的矩形,其尺寸和实际桌面的尺寸差不多就行,不需要精确测量。容差模型在桌面四条边上各增加了一个 δ 区域,意味着该区域内不能可靠地放杯子,而其他区域都可以放,但要求杯子的位置尽量接近桌边的用户。建立这样的模型,所需的全局感知是可行的,建模也是可行的,而且建模难度极大地降低了。
机器人在全局规划中,按照全局模型推导出桌面位置(x, y),作为放置杯子的“建议位置”。建议位置可能实际上并不保证能够可靠地放杯子,但可以帮助机器人规划出一条移动路径,走到建议位置附近的某个站位点,使得在该点机器人可以把杯子放到建议位置。当机器人拿着杯子实际走到站位点之后,进入局部推理阶段,用它的局部感知观察(x, y),并通过分析局部环境,决策出放置杯子的真正目标位置(x’, y’),然后根据目标位置调整机器人后续的行动规划,最终执行将杯子放到目标位置(x’, y’)的操作。这一系列行为的推导和规划(即适应性推理)是实际可行的,不需要全局精确建模和全局精确感知,避免了精确性思维的不可行性。
另外,我们综合使用训练法和暴力法发展机器人的各种基础能力(如操作能力、感知能力等),这样做并没有克服训练法的根本局限性,但大大降低了对标注数据的要求。同时,可佳机器人的模型和推理是依赖于外部知识源的,并通过开放知识搜索(open knowledge search)获取外部知识(见图9)。
在这个例子中,与传统精确性思维相比,容差性思维至少在以下几个方面降低了不确定性的干扰:一是不需要全局精确测量,减少了观察不确定性的干扰;二是用容差模型取代全局精确模型,有效降低了建模难度;三是适应性推理分情况地应用全局容差模型和局部感知,降低了观察和行动中不确定性耦合度,削弱了模型偏差引起的不确定性效应。
一般地,容差性思维是两种人工智能经典思维的融合与发展。容差模型依然是一种符号模型,而基于容差模型的适应性推理依然遵循逻辑推理的基本原理。因此,容差性技术是可解释的。同时,各种不确定性因素之间的耦合被削弱了,它们对人工智能系统的干扰也被减少了,建模难度、感知难度、控制难度和推理难度都大大降低了。
容差性思维与中国的传统思维很接近,中国思维特点就是讲究灵活性、灵巧性和灵敏性,这些特性提炼到科学层面就是“容差性”。容差性的基本内涵是允许存在偏差,但偏差不能“过大”,重要的是人工智能系统在偏差不过大的情况下能够有效地工作。偏差指的是不确定性导致的模型与现实之间的差距,既包含通常的误差(测量误差),也包括非测量性偏差,因为对于人工智能系统来说,并非任何东西都是实际可测量的,并且在存在非测量性偏差的某些场景中,人工智能系统仍然要能有效工作。如何定义“偏差过大”,既是一个科学问题,又是一个工程技术问题,其中有很多挑战,最大挑战来自人工智能思维的突破和人工智能目标的重新定位。
九、结语
在确定性问题领域,人工智能有望迎来突飞猛进的新局面;而在不确定性问题领域,人工智能仍然面临重大挑战,同时也孕育着重大机遇。在两种情况下,都需要反思人工智能的目标定位,打磨人工智能新思维。
当前,人工智能和智能机器人的技术发展水平已经明显落后于社会需求水平,而未来大量实际应用面临的是不确定性问题,因此有必要深入研究如何有效应对不确定性。《道德经》说:“道可道,非常道”。如果把这句话中的第一个“道”解释为建造人工智能系统所需的各种“智能材料”,比如理念、模型、知识、机制等,那么第二个“道”的意思是“可被机器有效存储和运用的表达”,而“常道”指的是基于精确性思维的表达。按这个解释,这句话的意思是:人工智能是可以实现的,但无法用流行几千年的精确性思维完全实现,尤其是在不确定性问题领域。因此,有必要探索各种“非常道”,比如“阿尔法元”体现了确定性问题的一种“非常道”,容差性思维是不确定性问题的一种“非常道”。
当然,本文对容差性的讨论是初步的,而且如果只有“容差化”和“精确化”,并不能构成有效型人工智能的完整体系,有关问题将在后续文章中进一步讨论。
*感谢团队成员20年来的持续性研究,他们的大量杰出工作为本文的思考提供了深厚的背景和丰富的养料。感谢中国科协第113期“新观点新学说学术沙龙”、国家自然科学基金委信息部人工智能研讨会、2015年中国计算机大会机器人论坛、2016年中国(杭州)人工智能产业发展论坛等十余个会议、论坛的邀请,为本文相关内容的自由交流提供了平台和机会。
【注释】
①D. B. Lenat, and R. V. Guha, Building Large Knowledge Based Systems, Addison Wesley, Reading, Massachusetts, 1990.
②Andrew Ilyas, Logan Engstrom, Anish Athalye, and Jessy Lin, “Query-efficient Black-box Adversarial Examples,” arXiv:1712.07113,https://arxiv.org/abs/1712.07113.
③杨立昆:《人工智能最大缺陷是缺乏常识 无监督学习突破困境》,2017年6月在台湾大学的演讲。
④David Silver, and Julian Schrittwieser, et al, “Mastering the Game of Go without Human Knowledge,” Nature, Oct. 18, 2017.
⑤E. Davis, “The Naive Physics Perplex,” AI Magazine 19(4), 1998.
⑥Xiaoping Chen, Jiongkun Xie, Jianmin Ji, and Zhiqiang Sui, “Toward Open Knowledge Enabling for Human-Robot Interaction,” Journal of Human-Robot Interaction, Vol. 1, No. 2, 2012, pp. 100-117.
【作者简介】 陈小平:中国科学技术大学计算机学院(Chen Xiaoping, Computer School, University of Science and Technology of China)