戴维·贝罗斯:谷歌翻译怎么行?

选择字号:   本文共阅读 1603 次 更新时间:2011-09-24 10:26

进入专题: 谷歌   翻译  

戴维·贝罗斯   吴万伟  

戴维·贝罗斯 著 吴万伟 译

网络巨人谷歌的翻译服务或许炮制出一些稀奇古怪的屁话,但它仍然是有史以来最聪明的交流工具之一。

早在1980年代,谷歌就使用IBM公司研究人员最初开发的软件创造了不同于任何人的自动翻译工具。该工具不是建立在早期机器翻译研究的智力假设基础上,它的算法/规则系统并不打算从一个句子的句法或词汇中提取意义。

其实,归根结底,谷歌翻译(GT)根本不处理意义。它不是把某个语言表达看作需要破解其含义的东西而是把它视为曾经说过的话。

谷歌翻译使用强大的计算能力在眨眼之间搜索网络,从文本中找到匹配的译文。

它扫描的语料库包括自1957年以来欧盟24种语言的所有文件,联合国及其附属机构的用六种官方语言写成的官方文件,以及大量其他材料,从国际法院的记录到公司报告以及个人、图书馆、书商、作者和学术界在网络上刊登的以双语形式出现的所有文章和书籍。

从这些千百万双语文件中已经存在的匹配关系中,谷歌翻译使用统计方法从所有提交的选项中挑选出最可能被接受的说法。

在很多时候,这种方法是奏效的。效果惊人地好,这很大程度上促成了一种新的乐观主义,那就是将来有一天我们可以实现“全自动的高质量机器翻译”。

如果没有现成的大型翻译语料库,谷歌翻译就没有办法工作。它是建立在谷歌翻译所扫描的人工译者千百万小时辛苦工作的结果基础之上的。

谷歌自己的促销视频根本不使用谷歌翻译。目前,它提供58种语言的双向翻译,也就是说,3306种不同的翻译服务,比有史以来人类出现过的任何翻译服务都多。

这种翻译关系的大部分是谷歌翻译的新生儿:如从冰岛语翻译成波斯语,从意第绪语翻译成越南语等。历史上从来没有这种翻译,因此,无论是网络上还是其他地方都根本没有成对的文本,谷歌提供的翻译服务说明,考虑到它的项目为找到解决办法而扫描过的大量材料中的语言间的大量变化,翻译质量随着所涉及的语言的匹配情况不同而存在很大差异。

它没有突出显示的是谷歌翻译就像我们所有人一样成为翻译全球流的俘虏。谷歌翻译令人惊叹的概率性计算系统能够用同一个工具提供3306种翻译方向,这都极大地促进了国际文化交流:无论是枢纽语言还是中介语言。

这并不是因为谷歌位于英语作为主要枢纽语言的加利福尼亚州。如果使用统计方法计算两种从来没有直接匹配过的两种语言间可能性最大的匹配关系,你肯定使用能够既能与源语又能与目标语对应的枢纽语言。

比如,大量英语侦探小说很可能已经被翻译成冰岛语或者波斯语。因此,它们就提供了充足的材料,以便从中找到两种外语的句子的匹配关系,而被翻译成冰岛语的波斯语经典肯定就少多了,即使包括那些通过法语或者德语等枢纽语言而传播的著作在内。这意味着英国畅销书作家约翰·葛里逊(John Grisham)为保证谷歌翻译的冰岛语-波斯语翻译工具的质量做出了比伊朗作家鲁米(Rumi)和冰岛作家赫尔多尔·拉克斯内斯斯(Halldór Laxness)更大的贡献。哈利·波特(Harry Potter)的真正的魔法或许在于支持从希伯来语翻译成汉语的隐秘力量。谷歌翻译产生的译文本身出现在网络上,而且成为谷歌翻译扫描的语料库的一部分,由此产生一种反馈循环,从而增加了谷歌翻译的最初译文得到认可的可能性。

谷歌翻译也依靠人工翻译,因为它总是要求用户提供更好的译文,这是指向相反方向---更精致译文的反馈循环。我觉得这是特别了不起的聪明工具。我自己就用它检验自己对一个瑞典语句子的理解是否准确。每当你使用搜索引擎的时候,它就自动被当成网页译者了。

当然,它可能产生屁话,但机器产生的屁话通常没有人工译者的错误那么危险。你总能马上看出谷歌翻译的错误,因为它的译文完全说不通,扔掉即可(这就是为什么你决不能使用谷歌翻译去翻译一种你不十分熟悉的语言。只用它翻译成一种在你肯定可以认出屁话的语言。)

另一方面,人工译者的译文往往流畅自然、有意义,除非你懂得源语,否则你根本不知道哪里出错了。可是如果你懂得源语,根本就不需要翻译了。

如果你仍然拥有这样的观念,即一种语言确实包括词汇和语法规则,其意义和它们的关系可以计算出来(这是许多哲学家仍然死死抱住的幻想),那么,谷歌翻译根本不是翻译工具,只不过是电子处理器用来盗窃别人劳动成果的花招。但是,如果你拥有更加开放的心态,谷歌翻译或许表达了其他一些内容。

会议口译常常能预先猜出来演讲者要说的话,因为国际会议演讲者往往重复使用俗套的仪式化语言。类似的,在熟悉的领域工作的老练译者根本不用思考就能知道某些文本的部分有他可随时使用的标准译文。

译者并不是每天都重新制造困境,其行为更像谷歌翻译,快速扫描自己的记忆找到手头问题的可能性最大的解决办法。谷歌翻译的基本操作模式更相似专业翻译,而不是缓慢落入机器翻译早期开发者设想的纯粹意义“伟大基础”。

谷歌翻译也是对现代语言研究神话的精彩的厚脸皮的回应。几十年来,人们很少质疑的共识是自然语言非常特别,其内在结构使得人们可以用有限的词汇和语法规则创造出无限的句子。

有论者指出这和英国汽车厂没有多大区别,它可以生产无限数量的汽车,每辆车都有不同的毛病,但这种反对意见在牛津之外并没有产生多大影响。

谷歌翻译对付翻译的方法不是建立在每个句子都不同的观点基础上的,而是认为任何一句话很可能都是前人说过的。从原则上看,语言可能存在差别,但在实践上,语言最常见的使用是表达你一再重复表达的东西。其中的原因很好理解,在包括语言行为在内的所有人类活动的基础的伟大基础里,我们找到的不是抽象的“纯粹意义”而是常见的人类需要和欲望。

一切语言都服务于这些需要,都能出色地满足这些需要。如果我们一次又一次地说同样的事,那是因为我们面临同样的需要,在每次转变的关头感受到同样的恐惧、同样的欲望和同样的激动。译者的技能和谷歌翻译的基本设计或许有很多不同,但它们都是共同人性的反映。

译自:How Google Translate Works? By David Bellos

http://www.independent.co.uk/life-style/gadgets-and-tech/features/how-google-translate-works-2353594.html

    进入专题: 谷歌   翻译  

本文责编:lizhenyu
发信站:爱思想(https://www.aisixiang.com)
栏目: 笔会 > 时评与杂文
本文链接:https://www.aisixiang.com/data/44604.html
文章来源:作者授权爱思想发布,转载请注明出处(https://www.aisixiang.com)。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2024 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统