图灵测试能作为人工智能的标杆吗？

究竟什么是图灵测试？

最近媒体上有消息称，2014年6月8日，在英国雷丁为纪念阿兰·图灵（Alan Turing）去世60周年而举办的一场测试中，一个由俄罗斯团队研发的取名Eugene Goostman的机器人，有史以来第一次通过了“图灵测试”——该机器人在测试问答中，让测试者误认为它是“一个13岁的乌克兰男孩”的百分比达到了33%。这一事件被一些人视为人工智能史上划时代的标志性事件，于是关于人工智能的突破性进展、计算机还要多久就能统治地球，乃至“奇点临近”之类的话题，再次热闹起来。

说实在的，人工智能确实是目前人类在玩的最大、最危险的两把火之一（另一把是基因技术），不过仅仅这样一次测试（哪怕再多几次），倒也不至于就天崩地裂。这一点从“图灵测试”最原初的概念和此后的实际测试中都不难看出。

“图灵测试”这个话头，几乎在所有涉及人工智能的论述中都会被提到，但它到底是什么概念，具体又如何测试，仔细推敲一下，倒也不是毫无意义的事情。

1950年，图灵发表了一篇文章《机器能思考吗？》（Can Machines Think？该文有时也被人与他在同年发表的另一篇论文《计算机器与智能》混为一谈），其中提出了“图灵测试”，他主张用这个测试来判断计算机是否具有“智能”。具体设想如下：

让一个人A和一台计算机B作为被测试对象在一间屋子里，让另一个人C作为测试者在隔壁屋子里，测试者和被测试者只能通过某种没有图像和声音的工具（比如电脑键盘）交谈；测试者C的任务是判断每个回合和自己交谈的是人还是计算机。如果计算机在问答中让测试者误判的比率超过30%，它就算通过了“图灵测试”，这台计算机就将被认为是具有了“智能”的。图灵当时还预言，这样的计算机将在公元2000年出现。

这样的测试实施起来并不困难，所以半个多世纪以来，“图灵测试”经常在与人工智能有关的机构中进行着，但一直没有计算机能够达到让测试者误判超过30%的指标，也就是说，直到2014年6月8日之前，一直没有计算机能够通过图灵测试——图灵当年的预言显然过于乐观了。

不靠谱的图灵测试和好用的聊天软件

那么2014年6月8日计算机首次通过图灵测试这件事情，其意义究竟有多大呢？从一些已有的材料来看，其意义很可能被夸大了。

从1991年起，在英格兰的雷丁，每年都要举办图灵测试的竞赛，由商人洛伯纳（Hugh Loebner）捐助，故名“洛伯纳奖”。世界各地研发的聊天机器人——其实只需弄一个聊天软件即可，并不需要真的制造机器人——前往参赛，不管是否通过图灵测试，那个导致测试人误判比率最高的机器人或软件即可获奖，通常还有3000美元的奖金。

2008年，在雷丁的竞赛中，一个计算机聊天程序已经成功了12次测试中的3次，如果它再多骗过测试者一次，它就通过图灵测试了。这个聊天程序名叫Elbot，是一家商用聊天机器人技术公司开发的。它得到这年的“洛伯纳奖”之后，立刻被投入商业应用，第二年就没有象人们预期的那样再接再厉去参加图灵测试竞赛了。

但更为出人意料的是，在2009年的雷丁图灵测试竞赛中，机器人居然一败涂地，一次也未能骗过测试者。这个戏剧性的结果至少表明：将图灵测试作为人工智能发展的标杆，是相当不靠谱的。

其实在图灵提出他的测试设想之后不久，计算机聊天程序就有了长足的进步。例如由麻省理工学院在1964～1965年间开发的聊天程序Eliza，是一个有针对性的软件——目的就是要让聊天对象将自己误认为人。下面是一段Eliza典型的聊天记录：

　　用户：唉，是我男朋友要我来这儿的。

　　Eliza：你男朋友要你来这儿。

　　用户：他说我总是经常沮丧。

　　Eliza：听说你沮丧，我很难过。

　　用户：这是真的，我很不开心。

　　Eliza：你觉得来这儿能帮你变得不那么不开心吗？

　　用户：我需要帮助，毫无疑问。

　　Eliza：如果你得到了帮助，对你意味着什么呢？

　　用户：或许我能学会如何跟妈妈相处。

　　用户：和我讲讲你的家人吧。

　　……

这个聊天软件是根据所谓“罗杰斯心理治疗模式”编写的。令人惊奇的是，许多和Eliza聊过天的人坚信Eliza是一个真实的人——哪怕在程序开发者再三说明后仍然如此。更奇怪的是，他们乐意与Eliza单独聊天，有时一聊就是几个小时。也就是说，Eliza作为一个心理治疗医师，是相当成功的，它甚至得到了专业医师的好评。

当然，Eliza也没有通过图灵测试。对此或许可以这样解释：在图灵测试中，测试者通常都是有这方面专业训练的人，而且他们事先有足够的心理预期——自己就是来辨析聊天对象是人还是机器的，这当然和Eliza面对的前来寻求心理治疗的人很不相同。

计算机聊天软件的发展，也可以视为图灵测试带来的副产品之一，而且商业应用前景还不错。此外这种以“假装是人”为指向的聊天软件，也会引出一些有趣的发现，比如聊天中的时态问题。研究者发现，许多人—机聊天是没有时态的，即机器的每句回复都只取决于人最近一次的提问，而与此前的谈话内容无关。上面那段“用户—Eliza”的聊天记录就具有这种性质。有的研究者还发现，人们在吵架时的对话往往是没有时态的。

机器人为什么要假装成人类呢？

从有限的历史资料来看，计算机参加图灵测试的成绩，可以是波动很大的，比如上面提到的2008年和2009年的测试就是如此。因为测试者的水平也是在变动的，无论是相对固定测试者还是每年更换新的测试者。前一种情况下测试者会逐年积累经验，从而提高识别能力；后一种情况则每年的测试者之间很难比较优劣。仅从这一点来看，将通过图灵测试视为人工智能的里程碑或标杆，很多情况下就只是人云亦云而已。

在提出图灵测试的1950年，图灵纵然是不世天才，他的思维也难免囿于当时的现实，即计算机在智能方面和人相比还落后很远，所以他提出图灵测试作为判断机器是否具有智能的依据。那个30%的指标，以及2000年会有机器通过测试的预言，都只能是“天才的直觉”，并未建立在严格论证的基础上。

但图灵忽视了更为致命的问题：如果机器人有了智能，它为什么要假装成人类呢？

在图灵身后的著名科幻作品中，早已经出现了远远超出人类的计算机智能，比如《未来战士》系列（Terminator，1984～2009）中的“天网”，或是《黑客帝国》系列（Matrix，1999～2003）中的“母体”（Matrix），或是《机械公敌》（I, Robot，2004）中的反叛机器人，它们用得着假装成人类吗？如果它们通不过图灵测试，它们会在乎吗？

我们甚至可以设想，在那些密谋反叛人类的人工智能中，已经有了一条“绝密戒律”：

千万不可通过图灵测试！

而有朝一日，如果人工智能有机会完成类似Matrix那样的“宏图伟业”——统治人类，主宰地球，那图灵测试将成为一款被它们用于“传统教育”的儿童游戏。这款游戏彰显的是人类的自大和愚蠢。

载《新发现》2014年第10期

图灵测试能作为人工智能的标杆吗？

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏