究竟什么是图灵测试?
最近媒体上有消息称,2014年6月8日,在英国雷丁为纪念阿兰·图灵(Alan Turing)去世60周年而举办的一场测试中,一个由俄罗斯团队研发的取名Eugene Goostman的机器人,有史以来第一次通过了“图灵测试”——该机器人在测试问答中,让测试者误认为它是“一个13岁的乌克兰男孩”的百分比达到了33%。这一事件被一些人视为人工智能史上划时代的标志性事件,于是关于人工智能的突破性进展、计算机还要多久就能统治地球,乃至“奇点临近”之类的话题,再次热闹起来。
说实在的,人工智能确实是目前人类在玩的最大、最危险的两把火之一(另一把是基因技术),不过仅仅这样一次测试(哪怕再多几次),倒也不至于就天崩地裂。这一点从“图灵测试”最原初的概念和此后的实际测试中都不难看出。
“图灵测试”这个话头,几乎在所有涉及人工智能的论述中都会被提到,但它到底是什么概念,具体又如何测试,仔细推敲一下,倒也不是毫无意义的事情。
1950年,图灵发表了一篇文章《机器能思考吗?》(Can Machines Think?该文有时也被人与他在同年发表的另一篇论文《计算机器与智能》混为一谈),其中提出了“图灵测试”,他主张用这个测试来判断计算机是否具有“智能”。具体设想如下:
让一个人A和一台计算机B作为被测试对象在一间屋子里,让另一个人C作为测试者在隔壁屋子里,测试者和被测试者只能通过某种没有图像和声音的工具(比如电脑键盘)交谈;测试者C的任务是判断每个回合和自己交谈的是人还是计算机。如果计算机在问答中让测试者误判的比率超过30%,它就算通过了“图灵测试”,这台计算机就将被认为是具有了“智能”的。图灵当时还预言,这样的计算机将在公元2000年出现。
这样的测试实施起来并不困难,所以半个多世纪以来,“图灵测试”经常在与人工智能有关的机构中进行着,但一直没有计算机能够达到让测试者误判超过30%的指标,也就是说,直到2014年6月8日之前,一直没有计算机能够通过图灵测试——图灵当年的预言显然过于乐观了。
不靠谱的图灵测试和好用的聊天软件
那么2014年6月8日计算机首次通过图灵测试这件事情,其意义究竟有多大呢?从一些已有的材料来看,其意义很可能被夸大了。
从1991年起,在英格兰的雷丁,每年都要举办图灵测试的竞赛,由商人洛伯纳(Hugh Loebner)捐助,故名“洛伯纳奖”。世界各地研发的聊天机器人——其实只需弄一个聊天软件即可,并不需要真的制造机器人——前往参赛,不管是否通过图灵测试,那个导致测试人误判比率最高的机器人或软件即可获奖,通常还有3000美元的奖金。
2008年,在雷丁的竞赛中,一个计算机聊天程序已经成功了12次测试中的3次,如果它再多骗过测试者一次,它就通过图灵测试了。这个聊天程序名叫Elbot,是一家商用聊天机器人技术公司开发的。它得到这年的“洛伯纳奖”之后,立刻被投入商业应用,第二年就没有象人们预期的那样再接再厉去参加图灵测试竞赛了。
但更为出人意料的是,在2009年的雷丁图灵测试竞赛中,机器人居然一败涂地,一次也未能骗过测试者。这个戏剧性的结果至少表明:将图灵测试作为人工智能发展的标杆,是相当不靠谱的。
其实在图灵提出他的测试设想之后不久,计算机聊天程序就有了长足的进步。例如由麻省理工学院在1964~1965年间开发的聊天程序Eliza,是一个有针对性的软件——目的就是要让聊天对象将自己误认为人。下面是一段Eliza典型的聊天记录:
用户:唉,是我男朋友要我来这儿的。
Eliza:你男朋友要你来这儿。
用户:他说我总是经常沮丧。
Eliza:听说你沮丧,我很难过。
用户:这是真的,我很不开心。
Eliza:你觉得来这儿能帮你变得不那么不开心吗?
用户:我需要帮助,毫无疑问。
Eliza:如果你得到了帮助,对你意味着什么呢?
用户:或许我能学会如何跟妈妈相处。
用户:和我讲讲你的家人吧。
……
这个聊天软件是根据所谓“罗杰斯心理治疗模式”编写的。令人惊奇的是,许多和Eliza聊过天的人坚信Eliza是一个真实的人——哪怕在程序开发者再三说明后仍然如此。更奇怪的是,他们乐意与Eliza单独聊天,有时一聊就是几个小时。也就是说,Eliza作为一个心理治疗医师,是相当成功的,它甚至得到了专业医师的好评。
当然,Eliza也没有通过图灵测试。对此或许可以这样解释:在图灵测试中,测试者通常都是有这方面专业训练的人,而且他们事先有足够的心理预期——自己就是来辨析聊天对象是人还是机器的,这当然和Eliza面对的前来寻求心理治疗的人很不相同。
计算机聊天软件的发展,也可以视为图灵测试带来的副产品之一,而且商业应用前景还不错。此外这种以“假装是人”为指向的聊天软件,也会引出一些有趣的发现,比如聊天中的时态问题。研究者发现,许多人—机聊天是没有时态的,即机器的每句回复都只取决于人最近一次的提问,而与此前的谈话内容无关。上面那段“用户—Eliza”的聊天记录就具有这种性质。有的研究者还发现,人们在吵架时的对话往往是没有时态的。
机器人为什么要假装成人类呢?
从有限的历史资料来看,计算机参加图灵测试的成绩,可以是波动很大的,比如上面提到的2008年和2009年的测试就是如此。因为测试者的水平也是在变动的,无论是相对固定测试者还是每年更换新的测试者。前一种情况下测试者会逐年积累经验,从而提高识别能力;后一种情况则每年的测试者之间很难比较优劣。仅从这一点来看,将通过图灵测试视为人工智能的里程碑或标杆,很多情况下就只是人云亦云而已。
在提出图灵测试的1950年,图灵纵然是不世天才,他的思维也难免囿于当时的现实,即计算机在智能方面和人相比还落后很远,所以他提出图灵测试作为判断机器是否具有智能的依据。那个30%的指标,以及2000年会有机器通过测试的预言,都只能是“天才的直觉”,并未建立在严格论证的基础上。
但图灵忽视了更为致命的问题:如果机器人有了智能,它为什么要假装成人类呢?
在图灵身后的著名科幻作品中,早已经出现了远远超出人类的计算机智能,比如《未来战士》系列(Terminator,1984~2009)中的“天网”,或是《黑客帝国》系列(Matrix,1999~2003)中的“母体”(Matrix),或是《机械公敌》(I, Robot,2004)中的反叛机器人,它们用得着假装成人类吗?如果它们通不过图灵测试,它们会在乎吗?
我们甚至可以设想,在那些密谋反叛人类的人工智能中,已经有了一条“绝密戒律”:
千万不可通过图灵测试!
而有朝一日,如果人工智能有机会完成类似Matrix那样的“宏图伟业”——统治人类,主宰地球,那图灵测试将成为一款被它们用于“传统教育”的儿童游戏。这款游戏彰显的是人类的自大和愚蠢。
载《新发现》2014年第10期