摘要:无差别原则及其悖论由来已久。当代归纳逻辑的创始人凯恩斯曾为消除这些悖论付出巨大的努力。本文介绍了若干典型的无差别悖论和对它们的一些尝试性解决,还追溯到贝叶斯方法的创始人曾经受到的类似困扰。笔者提出一种新的解决方案,其核心是对古典无差别原则加以试验机制的限制和提出从参数θ到f(θ)的线性无差别条件。最后指出,古典无差别原则作为经验性的启发原则仍可保留,它同作为逻辑原则或准逻辑原则的试验机制无差别原则是并行不悖和相互补充的。
无差别原则(the Principle of Indifference)是确定基本概率的原则之一,它在概率论、统计学和现代归纳逻辑中占居重要的地位。不过,一个有趣的现象是,人们对于无差别原则的质疑正如人们对它的使用一直没有间断。无差别原则的致命缺陷在于它会导致逻辑悖论,即无差别悖论。
一、无差别原则
"无差别原则"这个名称得自于现代归纳逻辑的创始人之一凯恩斯(John M. Keynes),但是事实上这个原则几乎是伴随概率概念一道出现的。早在18世纪初概率论处于草创阶段,概率论的先驱者之一J•伯努利(Jakob Bernoulli)就把它命名为"不充分理由原则"(the Principle of Non-sufficient Reason)。大约一个世纪以后,古典概率论的集大成者拉普拉斯(Pierre S. Laplace)把它正式地作为概率论的理论基础。
古典概率概念是以"等概事件"(equally possible cases)为初始概念的,古典概率的定义是:P(A)=m/n,意为:事件A的概率等于A所包含的m个基本事件在全部n个基本事件中所占的比例,而基本事件的概率是相等的。那么,如何确定基本事件的等概性呢?拉普拉斯告诉我们:"概率是相对的,部分地相对于我们的无知,部分地相对于我们的知识。我们知道在三个或更多事件中有一个将要发生;但是没有什么能使我们更为相信其中某一个事件而非其他事件发生。在这种不确定的情形下,我们不可能确定地宣称它们的发生。"([1],p.6)这也就是说,我们的知识或无知使我们无法对所讨论事件的可能性持有倾向性意见,即认为哪一个比哪一个更可能发生,那么我们就应该赋予这些事件以相等的概率。基本事件的等概性成为我们计算其他事件的概率的基础。请注意,拉普拉斯确定等概事件的依据包含了人们的无知,换言之,相等的知识或相等的无知都是确定等概事件的理由。显然,这种确定等概事件的原则是对伯努利的不充分理由原则的继承,具有认识论的甚至主观主义的色彩。
然而不幸的是,这样表述的无差别原则(不充分理由原则)很容易导致逻辑悖论。拉普拉斯注意到这一点并给出他自己的解答。他举出一个例子:A女士被告知一个硬币是有偏向性的,但却未被告知偏向哪一面,并且被要求说出这枚硬币投掷后正面朝上的概率。一方面,A女士根据无差别原则判定这枚硬币正面朝上和反面朝上的概率均为1/2,既然她对这枚硬币倾向于哪一面的问题是完全无知的。另一方面,A女士有理由说:这枚硬币正面朝上的概率不为1/2,既然已知它是有偏向性的。这样,对于这枚硬币正面朝上的概率P就有两种相反的答案:P=1/2和P 1/2,这是一个逻辑悖论。对于这个逻辑悖论,拉普拉斯的解答就是坚持前者而放弃后者。(参见[1],p.56)这一解答无异于是对无差别原则的无条件地维护,难免是武断的和缺乏说服力的,并没有从根本上解决问题。事实上,由无差别原则导致的逻辑悖论层出不穷,以致后来的凯恩斯不得不认真地对待这一问题。
在维护无差别原则这一点上,凯恩斯同拉普拉斯是一致的,因为凯恩斯也认为量化的概率只有通过等概的候选者来得到。凯恩斯对无差别原则的最初表述是:"无差别原则宣称,如果没有已知的理由对我们题目中的一个候选者做出比其他候选者更强的断言,那么,相对于这样的知识,关于每一个候选者的断言有着相等的概率。"([2],p.42)这一表述同拉普拉斯和伯努利的意思是基本相同的,不过,面对由它所引起的各种逻辑悖论,凯恩斯给予更多的考虑和更为认真的对待。
二、无差别悖论
前面谈到一个简单的无差别悖论,事实上早在拉普拉斯之前就有学者提及此类悖论,凯恩斯则对这些由来已久的悖论给予集中的表述。这里介绍其中有代表性的三个,即书悖论、酒-水漏悖论和随机弦悖论。
首先讨论书悖论。某人要去某个陌生的图书馆取一本他从来没有看到过的书,他考虑这本书的封面是红色的概率是什么。他没有理由在这本书是红的和这本书是非红的之间做出倾向性的意见,根据无差别原则,他赋予概率P(红)= P(非红)=1/2。按照同样的推理方式,他对于这本书是蓝的、绿的或黄的均赋予概率P(蓝)=1/2,P(绿)=1/2和P(黄)=1/2,这些概率之和大于1。然而,这本书是红的、蓝的、绿的或黄的这些断言之间是互斥的,根据概率演算规则,互斥事件的概率之和小于或等于1。这便同前面的概率赋值发生冲突。
其次讨论酒-水悖论。有一瓶酒和水的混合液,对它我们只知道其中两种液体的比值不超过3:1,至于哪个多哪个少以及其他信息一概不知。由此我们能够确定酒对于水的比例在区间[1/3,3]之内,即1/3≤酒/水≤3,但是具体在哪一点上我们没有理由持有倾向性意见。根据无差别原则,酒对水的比例的概率是均匀分布在区间[1/3,3]之上的。相应地,酒对水的比例不超过2的概率是均匀地分布在区间[1/3,2]之上的。因此,后者的概率是:
同理,水对酒的比例也是在区间[1/3,3]之内,即1/3≤水/酒≤3,并且其概率均匀地分布在该区间。相应地,水对酒的比例不小于1/2的概率均匀地分布在区间[1/2,3]。因此,后者的概率是:
我们知道,水对酒的比例在区间[1/3,3]内不小于1/2与酒对水的比例在该区间不大于2恰好是同一事件,但却被无差别原则赋予两个不同的概率值。
最后讨论随机弦悖论,它属于几何概率悖论。这个悖论略为复杂,是由伯特兰(J. Bertrand)于1889年提出。对一个确定的圆随机地挑选它的一条弦,现问这条随机弦的长度大于该圆的内接等边三角形的边长的概率是什么?这一概率记为P(CLSE),对它的计算可以根据无差别原则以三种方式来进行。
从图1可以看到,延长YO与XZ相交于W,OWZ是一个直角三角形,并且XW=WZ。此外,OW=R•sin300=R/2。我们可以依据这些几何学事实来给出第一种计算。图2中的线段AB代表一条随机弦,OW从圆心出发垂直于AB并与圆相交于C。结合图1给出的几何学事实可知,AB的长度大于内接等边三角形的边长,当且仅当,OW<R/2。然而,我们没有理由倾向于设定W在OC的某一点而非其他点上。根据无差别原则,W在OC上各点的概率分布是均匀的,相当于OW的长度在区间[0,R]上的概率分布是均匀的,显然,
关于P(CLSE)的第二种计算可以参考图3,其中AB是一条随机弦,AA A 是内接于该圆的等边三角形。在圆周上的A点画一条切线,θ是该切线与AB之间的角度。显然,AB的长度大于内接等边三角形的边长,当且仅当,60o<θ<120o。然而,我们没有理由倾向于设定θ是0o到180o之间的某一值而不是其他值,根据无差别原则,θ在区间[0o,180o]上是均匀分布的,因此,
P(CLSE)=P(60o<θ<120o)=1/3
关于P(CLSE)的第三种计算是:在半径为R的主圆内画一个半径为R/2的同心圆(如图4),主圆的随机弦AB的长度大于其内接等边三角形的边长,当且仅当,AB的中点W处于小圆之内(参考图1和图2)。然而,我们没有理由倾向于设定W处于主圆内的某一点而不是其他点,根据无差别原则,P(CLSE)是在主圆内是均匀分布的。因此,
以上应用无差别原则对P(CLSE)的三种计算分别得出三个不同的结论,即P(CLSE)=1/2、P(CLSE)=1/3和P(CLSE)=1/4,这是一个逻辑矛盾。
三、线性无差别条件
在这一节,我们要对导致无差别悖论的原因给予进一步的分析,进而引出线性无差别条件。
首先考虑书悖论,其可疑之处是,对那本书的封面是红的和是非红的赋予相等的概率,即P(红)=P(非红)=1/2。然而我们知道,非红的并不只是一种颜色,而是可以分为多种颜色如蓝、绿、黄等,而且我们的常识是图书馆的书的颜色不只有两种。因此,一般而言,P(红)<P(非红)。在此情况下,对书为红色和书为非红色应用无差别原则是不恰当的。因此,我们应当对无差别原则的使用加以限制。凯恩斯正是这样做的,他说:
"令φ(a1)、φ(a2)、…φ(ar)是我们试图通过无差别原则赋予等概率的候选者,h是证据。那么,应用无差别原则的一个必要条件是:相对于该证据,φ(x)形式的候选者是不可分的(indivisible)"([2],p.60)
据此,我们对那本书的颜色的两个候选者即"那本书是红的"和"那本书是非红的"不能使用无差别原则,因为后者能以同样的方式进行划分,即分为"那本书是蓝的""那本书是绿的",等等。既然在这里不能使用无差别原则,那么,由无差别原则导致的书悖论便不复存在了。
作为比较,我们举一个类似的但却能够使用无差别原则的例子。假定我们正在考虑一辆汽车的颜色,对这辆汽车我们只知道它生产于某厂和某年,通过查阅该厂的产品目录,我们又知道该厂于那一年生产的汽车只有红、黑、白三种不同的颜色。在这些信息的基础上,我们可以断言那辆汽车是这三种颜色之一,但却没有理由倾向于断言它具体是哪一种颜色。于是,根据无差别原则我们可以说:这辆汽车是红的概率为1/3。一般认为,这是对无差别原则的正确使用并且符合凯恩斯的不可分条件。但需指出,这种不可分性往往是人为的,而不是客观上本来如此的。如颜色在客观上并不只有红、黑、白这三种,而且其中任何一种颜色还有深浅之分,只是该汽车厂只取这三种颜色,而且每种颜色只取一种深度。有了这种不可分性的背景知识并且以此限制无差别原则的使用,就不会导致类似于书悖论的逻辑矛盾。
然而,凯恩斯修正后的无差别原则尽管可以解决书悖论,但却使无差别原则的应用范围受到过大的限制,以致使它不能被用于连续性场合,如某一参数θ在区间[a,b]是连续分布的。为此,凯恩斯试图说明连续性场合在一定意义上是可以化归为离散场合的。他谈道:
"例如,假定一个点在一条长度为m•l的直线上,候选者是'当我们沿着那条直线从左向右移动一个点时,那个点位于长度为l的区间是第x个那样长度的区间',把它记为φ(x);那么,无差别原则可以安全地运用于这m个候选者,即φ(1)、φ(2)、…φ(m),候选者的数目m将随着区间的长度l的减小而增大。我们没有理由说,l不应当成为一个确定的长度,无论它如何小"([2],p.62)
应该说,凯恩斯的这一辩解是很勉强的。事实上,无论这条直线上的每一区间的长度l多么小,我们仍然可以把它分为若干更小的区间。这意味着,经凯恩斯修改后的无差别原则仍然不能用于这些小区间,因为它们不满足不可分的必要条件。由此许多学者得出结论,经凯恩斯修改后的无差别原则不能用于连续性场合,而这种场合在日常生活特别是在数学领域是大量存在的,这不能不说是该原则的一个致命缺陷。
凯恩斯对无差别原则所加的不可分条件不仅失效于连续性场合,以后还将表明,不可分条件对于离散性场合也不具有普遍性。因此,我们有必要探寻具有普遍性的关于无差别原则的限制条件。在笔者看来,这个限制条件就是:对象的无差别性是相对于试验机制而不是相对于自然本性的。正如在汽车颜色的例子中,我们之所以说红、黑、白是三种不可分的颜色并且在概率分布上是无差别的,那是相对于该汽车厂的生产机制而言的,而不是指颜色的自然本性是不可分的和无差别的。在凯恩斯对连续性场合的分析中,φ(1)、φ(2)、…φ(m)的不可分性和无差别性如果存在的话,那也只能是相对于某种试验机制而言的,这并不否认各个区间的长度l在客观上是无限可分的。凯恩斯的不足在于没有看到或没有强调无差别原则对于试验机制的相对性,而孤立地强调不可分性,这样便是舍本求末了。当我们对无差别原则加上"相对于试验机制"这一限制条件,孤立的不可分条件可以去掉,从而使无差别原则同时适合于离散性场合和连续性场合。对于连续性场合,无差别原则成为:相对于某种试验机制,如果我们没有理由倾向于设定某一参数θ在区间[a,b]的某一点而不在该区间的其他点,那么,θ在该区间有着均匀的概率分布。下面将对连续场合的无差别悖论做更为深入的讨论。
D•吉利斯(Donald Gillies)从酒-水悖论和随机弦悖论概括出将无差别原则用于连续性场合而导致悖论的一般规律。连续性场合是:参数θ在某一区间[a,b]是连续的并且φ=f(θ),f是一个定义在[a,b]上的连续函数,并且,a≤θ≤b当且仅当f(a)≤φ≤f(b);这就是说,a≤θ≤b逻辑等值于f(a)≤φ≤f(b)。如果我们没有理由倾向于设定θ在[a,b]内的某一点上而不在该区间的其他点上,那么,根据无差别原则,θ在[a,b]上有一个一致的概率密度,亦即有一个均匀的概率分布。相应地,我们也没有理由倾向于设定φ在[f(a),f(b)]内的某一点而不在该区间的其他点上,根据无差别原则,φ在[f(a),f(b)]上也有一个一致的概率密度或均匀的概率分布。然而,一般而论,θ有一个一致的概率密度不等于φ有一个一致的概率密度。这就是由无差别原则导致悖论的原因所在。在酒-水悖论中,首先将无差别原则用于酒对水的比例,即把酒/水作为θ,据此又把无差别原则用于水/酒即φ=f(θ)=1/θ,这便导致逻辑悖论。(参见[3],pp. 41-42.)
吉利斯的这一分析是有一定启发性的,它向我们强调,在一般情况下不要把无差别原则同时用于一个参数θ和它的某种映射f(θ),否则,很容易导致逻辑悖论。不过,在笔者看来,我们有必要进一步明确其中的限制条件,即明确在什么条件下,无差别原则可以或不可以同时用于θ和f(θ)。下面我们就对这一问题做一探讨。
我们知道,θ在区间[a,b]具有均匀的概率分布,当且仅当,概率分布函数F(θ)在该区间的导数F (θ)是一常数c,F (θ)又叫做θ在区间[a,b]的概率密度函数。现考虑另一参数φ=f(θ)和均匀的复合分布函数F(φ)=F[f(θ)],相应于该分布函数的密度函数是
F [f(θ)]=F (φ)f (θ)=c•f (θ)
由此可见,复合函数F[f(θ)]表示一个均匀的概率分布,当且仅当,f (θ)是一常数。我们又知道,f (θ)是一常数(0除外),当且仅当,f(θ)是一个一次函数,即
φ=f(θ)=kθ+b (k>0)
这样,我们便找到了可以把无差别原则同时用于θ和f(θ)的限制条件。由于一次函数也就是线性方程,其中两个变量φ和θ的关系叫做"线性关系",我们不妨把这一条件称之为"线性无差别条件"。
线性无差别条件:如果参数θ在一区间的概率分布是无差别的,并且φ=f(θ)是一次函数,那么,φ在相应区间的概率分布也是无差别的;否则,φ在相应区间的概率分布是有差别的。
线性无差别条件从直观上更容易理解:当横坐标上的动点θ在区间[a,b]上匀速移动时,它投射到任何一条斜线上的点在相应的区间内也是匀速移动的;与之不同,θ投射在曲线上的动点则不是匀速移动的。现在我们可以说,导致无差别悖论的根源是将无差别原则同时用于并不满足线性无差别条件的θ和f(θ)。
顺便提及,吉利斯的上述分析中有一个疏忽。一方面,他提到的一个条件是 "a≤θ≤b当且仅当f(a)≤φ≤f(b)",另一方面他又把酒-水悖论当作一个相关的例子。然而,在酒-水悖论中,f(θ)=1/θ,并不满足他所提到的这个条件。这个条件实际上是要求函数f(θ)是单调增加的,可以说,它作为把概率均匀分布从θ推广到f(θ)的条件,既不是充分的也不是必要的,而是无关的。
四、对悖论的一些尝试性解决
既然导致无差别悖论的根源是将无差别原则同时用于并不满足线性无差别条件的θ和f(θ),那么消除这类悖论的途径就是在θ和f(θ)之间做出评价和选择,然后将无差别原则只用于其中一个而放弃另一个。做出这种评价和选择的标准是什么?对于这一问题,杰恩斯(E. T. Jaynes)关于随机弦悖论的讨论是富有启发性的。(参见[4], pp. 477-92)
杰恩斯认为,对于几何概率问题的解决方案应当满足某些不变性原则,如旋转不变性、尺度不变性和平移不变性。按照这一标准,在关于随机弦问题的三个解决方案中只有第一个即P(CLSE)=1/2是恰当的,因为只有它满足这些不变性原则而后两个方案却没有。根据第一方案,杰恩斯计算出那个随机弦的全部概率分布,并做实验加以检验。这个实验是在地板上画一个直径为5英寸的圆,然后从其上的一个固定点随机地抛掷细枝,129次成功抛掷的结果与它他的计算结果在允许误差内是符合的。
对于杰恩斯的这一观点,吉利斯的反映是:"毫无疑问,诉诸于不变性原则能够以一种合理的方式来解决一些无差别原则悖论。杰恩斯的文章确定地表明了这种情况。然而,不变性原则不能解决所有这类悖论。尤其是它们不能解决酒-水悖论,因为对于不变性而言,在酒/水和水/酒这两个参数之间是没有什么区别的。这一点杰恩斯本人已经指出。"([3],p. 47)
尽管吉利斯对杰恩斯的这一论证的普遍意义并不看好,但对杰恩斯的另一论证却颇感兴趣,后者属于经验性论证,是用科学家们对无差别原则的成功应用来说明无差别原则的合理性。杰恩斯举了气体粘滞性的例子:对于给定分子平均密度和总能量的气体,它的粘滞性取决于气体分子的空间与速度的分布。在没有关于后者的数据资料的情况下,物理学家们根据无差别原则做出选择,并且导致对粘滞性以及其他许多物理现象的正确预测。
对此,吉利斯评价说:"他(杰恩斯)说这条原则(无差别原则)已经成功地应用于物理学,这无疑是对的。然而,在我看来,这表明的是,该原则作为一条启发原则是富有成效的,而不是作为一条逻辑原则是有效的。"([3],p.48)启发原则的实效性和逻辑原则的有效性之间的区别是:启发原则的应用是一个试错的过程,它的实效性是在纠正错误的过程中逐步取得的。逻辑原则的应用是必然有效的,不存在出错的可能性;如果出错,那一定是应用者对逻辑原则误用的结果。一方面,杰恩斯关于不变性原则的论证不适用于酒-水悖论,因而这样修正后的无差别原则不具备逻辑原则的普遍性;另一方面,杰恩斯关于无差别原则在科学中得到成功运用的论证本身就是或然性的归纳论证,因而也不能表明无差别原则具有逻辑原则的普遍性。不过,这些论证尤其是后者对于无差别原则作为启发原则的经验有效性却提供了有力的支持。
吉利斯对于作为启发原则的无差别原则做了进一步阐释,还以随机弦问题为例。杰恩斯选择了第一方案,推论的结果是P(CLSE)=1/2。现假定另一位科学家K先生选择了第三方案,因而认为P(CLSE)=1/4。K先生也像杰恩斯那样计算出随机弦长度的全部概率分布并付诸同样的实验检验,然而不幸的是,实验结果否证了他所做的计算。面对失败,K先生偶然发现了应用无差别原则的另外两种方案,据此他对随机弦的概率分布重新加以计算,并发现第一方案的计算结果即P(CLSE)=1/2与实验结果是符合的。此外,他还发现只有第一种方案满足那些不变性原则。于是,他改变观点转而选择第一方案,尽管他最初的选择是第三方案。由此可见,当我们把无差别原则作为一条启发原则的时候,无差别悖论可以被消除。因为,尽管无差别原则可以从不同的视角以不同的方式用于同一对象的考察上,但是,在经验的指导下,我们不会对这些不同的方案等而视之,而是要做出评价,进而选择与经验最为符合的那一方案。
笔者认为,吉利斯把无差别原则作为启发原则的观点是有重大意义的,他揭示了无差别原则的经验性的方面。然而,吉利斯的上述分析也是有严重不足的,他几乎完全忽视了无差别原则在逻辑方面的某种有效性,或者说,他完全取消了无差别原则作为逻辑原则的资格。当然,吉利斯这样做不是没有道理的,因为按照通常的看法,逻辑原则,确切地说,演绎逻辑原则与经验原则之间是泾渭分明和非此即彼的。不过,笔者将试图表明无差别原则具有某种相对的或有条件的逻辑有效性;或者说,尽管无差别原则不具备一般所说的逻辑有效性,但它具备某种弱的逻辑有效性。这样做的必要性是使确定基本概率的方法与一般的经验科学的方法有所区别,从而使之具有方法论的准逻辑特征。
五、试验机制无差别原则
科学方法的一般特征就是它的经验性或实验性,即一个假设或一个预测必须受到经验的检验;如果它同经验相符,就暂时接受它,如果它与经验不符,那就拒绝它或者根据经验加以修正,直至与经验相符合。与之形成鲜明对比,演绎逻辑原则的一般特征在于它的先验性,逻辑命题的正确与否是可以先于经验来确定的,即所谓的演绎证明。现在我们考虑一种弱的经验性亦即弱的先验性,它体现于试机制无差别原则。试验机制无差别原则的特征恰好介于经验科学方法和先验逻辑方法之间:它的经验性在于它所断定的无差别性是基于对试验机制的考虑,它的先验性在于它的断定是在试验结果出现之前而不是之后。试验机制无差别原则在机会游戏中有着典型的应用,例如,我们根据一枚硬币在物理机制上的对称性来断言它正面朝上和反面朝上的机会是无差别的。无差别原则包括两部分内容:
(i)在离散性场合中,对于若干可能结果而言,如果某一试验在其机制上是无差别的,那么,该试验得出各个结果的概率是相等的。在连续性场合中,对于某一参数θ位于区间[a,b]各点上,如果某一试验在其机制上是无差别的,那么,θ在该区间有着均匀的概率分布。
(ii)在离散场合中,对于某一可能结果而言,如果两个试验在其机制上是无差别的,那么,这两个试验得到该结果的概率是相等的。在连续性场合中,对于参数θ位于区间[a,b]的某个子区间[ai,bi],如果两个试验在其机制上是无差别的,那么,在这两试验中,θ位于该子区间的概率是相等的。
例如,我们进行的试验是从一个盒里摸球,该盒里有编了号的十个球。在摸球之前我们摇晃盒子,并且我们在看不到盒子里面的情况下任意地从中摸出一个球来。这种试验机制对于摸出盒子里十个球中的任何一个都是无差别的。根据上述规则(i),我们从盒子中摸出任何一个球的概率都是相等的。当我们第一次摸出一个球之后,把这个球放回去进行第二次摸球,并且两次摸球的方法相同;这也就是说,对于摸出任何一个球如1号球来说,这两次试验在其机制上是无差别的。根据上述规则(ii),在这两次试验中摸出l号球的概率是相等的。反之,如果第一次摸出球后不放回接着进行第二次摸球,那么,由于盒中的球数不同,对于摸出1号球来说,两次试验的机制是不同的,故我们不能说在两次试验中摸出1号球的概率是相等的。
再如,掷骰子的试验机制包括骰子的外部形状和内部结构 以及骰子被抛掷的方式,一般使用的骰子是正六面体,其内部质量是均匀的,并且抛掷骰子的过程是随意性的。掷骰子的这种试验机制对于骰子落下后任何一面朝上是无差别的。根据上述规则(i),骰子落下后任何一面朝上的概率是相等的。
假定骰子的内部质量不是均匀分布的,其重心偏离几何中心,那么,这个试验机制对于骰子落下后各面朝上不是无差别的,因而我们不能说,骰子落下后各面朝上的概率是相等的。但是,如果我们连续地抛掷这个骰子,对于一点朝上的结果而言,备次抛掷的机制是无差别的。根据上述规则(ii),各次抛掷的结果为一点朝上的概率是相等的,尽管一点朝上的概率可能不同于二点朝上的概率。
不难看出,试验机制无差别原则与古典无差别原则及其各种修正形式的区别在于:古典无差别原则并不要求考虑试验机制的无差别性,而只要求对所讨论的各个可能事件在认识上是无差别的。根据古典无差别原则,当人们对所讨论的各个事件完全无知时,也应对它们赋予相等的概率,因为人们对它们在认识上是无差别的。与古典无差别原则不同,试验机制无差别原则并不是简单地要求认识上的无差别,而是要求认识到试验机制是无差别的。如果人们对两个事件完全无知,那么,他们就不会认识到产生这两个事件的试验机制的无差别性,因此,根据试验机制无差别原则,不能由相等的无知得出相等的概率。
将试验机制无差别原则同线性无差别条件结合起来,我们可以避免所有的逻辑悖论。首先以不对称硬币悖论为例。导致这一悖论的原因是:从物理的层面看,那枚硬币的不对称结构使我们认为正面朝上和反面朝上的概率是不相等的;但从知识层面看,我们对这枚硬币的重心偏于正面或偏于反面处于完全无知的状态,这种相等的无知使我们赋予正面朝上和反面朝上以相等的概率。现根据试验机制无差别原则,我们只承认前一结论而不承认后一结论,因为只有前一结论是根据对试验机制的认识做出的。这样,逻辑悖论便不存在了。
其次以书悖论为例。导致书悖论的原因是,先将无差别原则用于"那本书是红的"和"那本书是非红的"这两个命题,从而赋予二者的概率均为1/2。然后又将无差别原则用于更多的命题,从而使"那本书是红的"概率小于1/2。现从试验机制无差别原则的观点看,在我们没有了解那家图书馆的购书和藏书机制之前,我们得不出任何结论,因而逻辑悖论不会产生。如果我们了解有关情况如那家图书馆在购书和藏书时并不限制颜色,那么我们可以肯定,把无差别原则仅仅用于红的和非红的是一种错误的做法,因为非红的不只包含一种颜色,所以不应把1/2的概率赋予那两个命题,这样悖论也不会产生。
再来考虑酒-水悖论。前面指出,导致无差别悖论的根源是将无差别原则同时用于并不满足线性无差别条件的θ和f(θ),这里的θ是酒/水比例,f(θ)是水/酒比例, f(θ)=1/θ。首先,根据线性无差别条件,这种做法是错误的,因为f(θ)=1/θ不是一次函数,相应地,f(θ)的导数f (θ)不是一个常数,而是f (θ)=(1/θ) = 1/θ2。其次,根据试验机制无差别原则,即使只将无差别原则用于其中一个,也只有在具体考察试验机制的基础上才能够确定。在没有给出试验机制的情况下,我们无从选择,当然也就得不出任何悖论。
为了对酒-水悖论以及线性无差别条件做更为深入的考察,让我们以如下试验机制为例。假定装有酒水混合液的瓶子容量是一公升,我们通过测量酒的体积来测量酒/水比例。酒/水比例在区间[1/3,3]的分布是通过测量酒的体积在区间[1/4公升,3/4公升]的分布而得到的,这种测量结果相当于水的体积在区间[3/4公升,1/4公升]。酒/水比例在区间[1/3,2]的分布是通过测量酒的体积在区间[1/4公升,2/3公升]的分布而得知的,这种测量结果相当于水的体积在区间[3/4公升,1/3公升]。在此,酒的体积为θ,水的体积为φ=1 θ。进一步假定,这种试验机制可以在区间[1/4公升,3/4公升]随机地选择酒的体积,以使酒的体积在该区间的任何一点同在该区间的其他点是无差别的,那么,根据试验机制无差别原则(i),θ在该区间有一个均匀的概率分布。据此,θ在区间[1/4公升,2/3公升]的概率是:
相对于该试验机制,θ在区间[1/4公升,2/3公升]相当于酒/水比例在[1/3,2],因此,
P(1/3≤酒/水≤2)=5/6
我们注意到,φ=1 θ,这是一次函数,相应地,φ =(1 θ) = 1,满足线性无差别条件,所以,我们可以将无差别原则从θ推广到φ,即φ在区间[3/4公升,1/4公升]有一个均匀的概率分布。据此,φ在区间[3/4公升,1/3公升]的概率是:
相应地,
P(1/2≤水/酒≤3)=5/6
我们看到,在满足线性无差别原则的情况下,我们把无差别原则同时用于θ和f(θ),所得结论是相同的,并未导致逻辑悖论。也许有人提出,尽管这两个计算结果是相同的,但它们同导致酒-水悖论的两个计算结果--P(1/3≤酒/水≤2)=5/8和P(1/2≤水/酒≤3)=15/16--却是不同的,逻辑矛盾仍然存在。对此,我们的回答是:既然导致悖论的那两个计算结果完全没有考虑试验机制,这是对无差别原则的误用,相应的计算结果是无效的。这样,逻辑矛盾也就不存在了。
最后讨论随机弦悖论。我们接着杰恩斯的工作来讲,既然杰恩斯通过实验表明第一方案的结论即P(CLSE)=1/2是正确的,那么我们可以说,相对于杰恩斯的试验机制,随机弦的中点W在圆半径R上的分布是无差别的,根据试验机制无差别原则,W在R上有一个均匀的概率分布。W到圆心O的长度记为α,W在半径R上有一个均匀分布等于α在区间[O,R]有一个均匀分布。第三方案考虑的是W在以R为半径的圆内面积上的分布。令φ表示W在其之内的圆面积,其定义域是[0,πR2]。φ是α的函数即φ=πα2。由于φ不是α的一次函数,并且已知α在区间[O,R]有一个均匀分布,根据线性无差别条件,φ在相应区间[0,πR2]不是均匀分布的。因此,第三方案是对无差别原则的误用,其结果即P(CLSE)=1/4是不可取的。第二方案考虑的是随机弦AB与圆周上A点切线的夹角θ在区间[0o,180o]的分布(见图3)。圆半径为R,随机弦AB的长度记为ρ。作一条辅助线,即在圆周上作一条经过A点的直径,自然地,此直径与那条切线垂直。可以看出,ρ与θ的函数关系为:ρ=2R•cos(π/2 θ)。AB的中点W到圆心O的长度仍为α,α与θ的函数关系为:α=R•sin(π/2 θ)。这个函数的反函数为:θ=π/2 Arcsinα/R。由于α的变化区间是[0,R],α/R的变化区间就是[0,1],相应地,θ的变化区间是[0o,180o]。又由于θ不是α的一次函数,根据线性无差别原则,θ在区间[0o,180o]不是均匀分布的,因此,第二方案及其结果即P(CLSE)=1/3也是不可取的。
在以上关于随机弦的分析中,我们借助于试验机制无差别原则和线性无差别条件,从三个相互矛盾的方案中只保留了第一方案,原有的逻辑矛盾也就随之消除了。需要指出,我们之所以接受第一方案是相对于杰恩斯的试验机制而言的,也就是说,相对于杰恩斯的试验机制,只有α在其区间是均匀分布的。如果相对于另一种不同的试验机制,如那个在圆上随机抛掷细枝的装置同时作某种旋转或圆周运动,或许最为可取的方案就不是第一方案而是其他方案。但是,无论保留哪一个方案,其他方案必须放弃,除非其他方案满足线性无差别条件,而所有满足线性无差别条件的方案的计算结果都是相同的。这样,我们就从根本上避免了无差别悖论。
一个需要考虑的问题是,与古典无差别原则相比,试验机制无差别原则的应用范围受到很大的限制,以此来换取对无差别悖论的消除或避免,其代价似乎太大了。对此,笔者的回答是,无差别悖论属于认识论范围,它们是古典无差别原则所引起的认识上的困境。试验机制无差别原则使我们在认识上摆脱这一困境并不意味着我们在实用上完全拒绝古典无差别原则;正如我们认识到一个坏人以后仍然可以出于策略的考虑同他继续合作。从贝叶斯方法的观点看,对于验前概率的确定可以是因人而异的,这种差异可以随着验后概率的确定而得到缩小甚至消除;这也就是说,对验前概率的确定仅仅是权宜之计。因此,在没有其他更好方法的时候,我们不妨通过古典无差别原则对于各个竞争假设赋予相等的验前概率;如果面临无差别悖论,可以主观性地或私人性地选择其中一个赋值而放弃另一个赋值,然后根据贝叶斯公式和新的证据来确定验后概率。验后概率是对验前概率的修正,随着新证据的增加,这种修正过程可以淡化甚至消除验前概率的主观性和私人性。这样,一方面,我们通过试验机制无差别原则在认识上消除了无差别悖论,另一方面,我们可以在策略上保留对古典无差别原则的广泛应用。对于贝叶斯方法论来说,这是不成问题的。
不过,贝叶斯方法论曾经遇到的另一些问题,下面讨论其中一个。
六、贝叶斯疑难及其解决
贝叶斯(T.Bayes)那篇提出贝叶斯方法的著名文章是他死后由他的朋友普赖斯(R.Price)于1763年发表的。普赖斯在引言中谈到,贝叶斯对他的方法是存有疑虑的,以致他以某种特殊的方式处理它并在附注中加以说明。贝叶斯在那篇文章的附注中解释他的方法为什么可以用于以下情形,他所致力解释的东西也正是他的疑虑所在。
对于一个事件M,他所知道的一切就是它在n次试验中的每一次试验可能出现也可能不出现。他没有理由假定M在这n次试验中出现i次而不是j次(0≤i≠j≤n),于是,他对全部n+1个可能结果(即M出现的次数:0、1、…n)给予相等的概率,即:
P(M在n次试验中出现i次)=1/(n+1)
不难看出,贝叶斯在此应用了古典无差别原则,他的疑虑可以归结为对无差别原则的这种用法的担心。(参阅[5],p.134,p.143)
正如爱德华兹(A,W.F.Edwards)指出的,我们可以根据同样的理由将相等的概率赋予n次试验的每一种可能的序列,在两个不同序列中M出现的次数可以是相同的,只要M出现的次序不同。但是,这样应用无差别原则所得的结果将是不同的。(参阅[6],p.118)这是又一个无差别悖论,让我们把这个悖论讲得更为细致一些。
为简单起见,只考虑两次试验的情况,即n=2,并把M出现的结果记为1, M不出现的结果记为0。作为试验结果的可能序列有4个,即00、01、10、11。如果按照爱德华兹的方法使用无差别原则,那么,每个序列的概率为1/4, M出现1次的概率P(01或10)=1/4+1/4=1/2。不妨把这样决定的概率记为P。如果按照贝叶斯的方法使用无差别原则,那么,可能的结果不是4个而是3个,即M出现的次数为0、1和2,相应地,每一结果的概率为1/3。不妨把这样决定的概率记为P*。这样一来,M出现一次这一事件被赋予不同的概率即P(M出现一次)=1/2和P*(M出现一次)=1/3。
这个悖论是关于离散性场合的,我们先来看看凯恩斯的不可分条件对解决这一悖论是否有所帮助。显然,爱德华兹的概率P满足这一要求。相比之下,贝叶斯的概率P*似乎不满足这一要求,因为M出现一次这个事件可以进一步分为两个序列,即01和10。但是,后面的划分是按M出现的序列进行的,而前面的划分是按M出现的次数进行的,这两种划分不符合凯恩斯"按照同一方式划分"的要求。就同一划分方式而言,P*也是满足凯恩斯的不可分条件的,因此,P和P*都不能被排除。由此可见,即使对于这个离散性场合的悖论,凯恩斯的无差别原则也是无能为力的。退一步讲,就算凯恩斯的不可分条件可以在二者之中排除一个,那只能是P*而不是P,但是,这样又会遇到新的问题。
贝叶斯选择P*而不选择P是有理由的。我们知道,贝叶斯方法的一个重要功能就是从经验学习,即根据证据来修正和确定假设的概率,从而从验前概率P(h)得到验后概率P(h/e)。然而,如果采取P则失去这一功能。请考虑如下公式(贝叶斯公式的一种变形)
令e代表前n个试验的结果,h代表假设:M在第n+1次试验中出现。每次试验有两个可能结果即M出现和M不出现,相应地,前n次试验的可能结果有2n个,亦即2n个序列。还以n=2为例,全部4个序列是:00、01、10、11。如果选择P,即每个序列的概率均为1/4,这意味着,M出现和M不出现的概率是相等的,即P(M出现)=P(M不出现)=1/2,并且这n次试验是相互独立的。相应地,第n+1次同类试验也是独立的,根据概率的特殊合取规则,P(e h)=P(e) P(h)。再根据以上公式,P(h/e)=P(h)。这意味着,经验证据对假设的概率不产生任何影响。
与此不同,如果选择P*,序列01和10合并为一种结果即M出现一次,它同00和11均有1/3的概率。这意味着这n次试验不是彼此独立的,否则,无论P(M出现)是什么,都得不到这样的概率分配。具体地说,如果P(M出现)=P(M不出现)=1/2,那么,00和11的概率均为1/4而不是1/3;如果P(M出现)≠P(M不出现),那么,00和11的概率是不等的。可见,前n次试验不是相互独立的。既然如此,那么第n+1次同类试验也不是独立的,这就是说,它将受到前n次试验结果的影响,即P(h/e)≠P(h),从而满足从经验学习的要求。
现在,我们可以根据试验机制无差别原则来消除贝叶斯疑难,即由P和P*形成的无差别悖论:按照P方式应用无差别原则是相对于某种独立的重复试验而言的,按照P*方式应用无差别原则是相对于某种非独立的重复试验而言的;试验机制一旦确定,P和P*不会被同时采纳,因此,P和P*并不构成逻辑矛盾。既然贝叶斯坚持从经验中学习的原则,那就意味着他选择了非独立的重复试验机制,因而他只应采纳P*而放弃P。
一个与贝叶斯疑难相关的科学史案例是玻色-爱因斯坦(Bose-Einstein) 统计学在量子力学中对玻尔兹曼(Ludwig Boltzmann)统计学的取代。二者之间的根本区别在于后者采纳概率P而前者采纳概率P*,也就是说,他们是以不同的方式来应用无差别原则的。为简单起见,我们只考虑两个微粒a和b,看它们是否具有某种性质M,若有M记为1,若无M记为0,并且先写a后写b。于是,可能的观察结果不外乎四种,即00、01、10和11。玻尔兹曼统计学根据无差别原则赋予它们相等的概率即1/4,并且成功地用于气体分子理论。然而,这一理论对于量子力学是不适合的,因为两个量子(如光量子)是不可分辨的,这使得01和10不可分辨,从而使可能的观察结果由四个变为三个。玻色-爱因斯坦统计学正是将无差别原则用于这三个可能结果,赋予它们相等的概率即1/3,并且成功地用于量子理论。不过,这种统计学的转变并未让物理学家们感到逻辑上的困惑,因为他们对P和P*的选择是相对于不同的试验机制的,前者相对于可分辨的气体分子模型,后者相对于不可分辨的量子模型。这进一步表明,对古典无差别原则加以试验机制的限制条件,是消除无差别悖论的有效途径。
七、无差别原则的两种用法:假设性应用和结论性应用
我们根据试验机制无差别原则消除悖论的过程中,在不少情况下是采取"不作为"的态度,即在我们不了解试验机制的情况下不做断言。这样做虽然可以消除悖论,但显得有些保守。事实上,在许多场合人们首先根据古典无差别原则做出预测,然后再根据经验证据加以修正,这正是吉利斯所说的无差别原则作为启发原则的功能,也是贝叶斯方法的诱人之处。鉴于这种情况,我们有必要区分无差别原则的两种用法,即假设性用法和结论性用法。
古典无差别原则适合于假设性用法,即作为一种启发原则。虽然由它难免得出相反的预测,但是,两个相反的假设性预测并不构成悖论,因为假设性命题A具有可能模态,对它的恰当表达应该是"可能A",而"可能A"同"可能非A"甚至同"非A"并不构成逻辑矛盾。
相比之下,试验机制无差别原则适合于结论性用法,即作为一种逻辑原则或准逻辑原则。对它的使用包含如下演绎推论的过程:如果对于各个可能的试验结果,一个试验机制是无差别的,那么,各个试验结果有相等的概率;事实上,该试验机制是无差别的,所以相对于该试验机制,各个试验结果的概率是相等的。
正如演绎规则的逻辑特征是:如果前提是真的,那么,按此规则得出的结论也是真的。虽然它并不保证前提是真的,但一旦给出真前提,它就能保证相对于此前提的结论是真的。同样地,相对于给定的试验机制,由试验机制无差别原则不会得出逻辑矛盾。当然,人们有可能把试验机制弄错了,正如人们有可能把演绎推论的前提误以为真,但这都不妨碍由它得出必然性的结论。
总之,在我们区分了无差别原则的假设性用法和结论性用法以后,无论古典无差别原则还是试验机制无差别原则都不会导致逻辑矛盾。因此,在必要时我们仍然可以使用古典无差别原则,只要我们不忘记对它的预测加上"可能",更不要忘记在随后的试验中检验或修正它的结论。这也就是把古典无差别原则作为启发原则,它与作为逻辑原则或准逻辑原则的试验机制无差别原则在实际应用中是并行不悖甚至是相互补充的。
例如,对于一枚我们不知道偏向哪一面的不对称硬币,如果我们结论性地使用无差别原则,从而赋予正面朝上的结果以1/2的概率,这种做法是错误的,它会导致逻辑矛盾。但是,如果我们只是假设性地使用无差别原则,从而把"正面朝上的概率为1/2"作为一个可能模态命题,随时准备接受经验的检验和修正,那么该命题并不与任何其他可能命题或实然命题构成逻辑矛盾,包括"正面朝上的概率不是1/2"这一实然命题。
贝叶斯方法只是在假设的意义上应用无差别原则的。事实上,贝叶斯在前面提到的那篇文章的那个附注中表达出这种意思。他说:"因为在这一考虑中,我只可以对它进行这样的推理,好像它的概率在开始时并不确定,然后按以下方式被决定:对于一定数目的试验,我没有理由认为它将出现某一可能的次数而不是其他次数。"这种情况之所以出现,是因为"在这种场合中,对于有关那个事件的任何试验,事先我们对该事件的概率是一无所知的。"([5], p.143)
贝叶斯在此所持的态度体现了贝叶斯方法的特征。在许多情况下我们对试验机制一无所知,只能根据古典无差别原则对于彼此竞争的若干假设赋予相等的验前概率,然后根据证据加以修正,得出验后概率;这种修正过程可以不断地进行下去,以致使得各个竞争假设的概率,其主观猜测的成分越来越少,客观经验的成分越来越多。这一过程就是从经验学习的过程。
尽管如此,古典无差别原则的假设性用法代替不了试验机制无差别原则的结论性用法。因为假设性用法的结果是有待经验证据的检验或修正的,本质上是经验性的。但是在人们的实际思维中既需要经验性的推理,也需要先验性的推理,如演绎推理。我们在前面已经提到,试验机制无差别原则具有某种先验性,即:如果我们能够确定某种试验机制对于各个可能结果是无差别的,那么,我们可以结论性地赋予各个可能结果以相等的概率,而无需等到试验完成之后。例如,对于一枚均匀硬币或均匀骰子,我们可以结论地赋予各个可能结果以相等的概率。结论性地应用无差别原则虽然只是在某些理想场合才能进行,但却是不可或缺的,因为它是我们对概率理论以及归纳逻辑进行方法论分析的逻辑起点。这种情形在其他领域也有出现,如物理学的惯性原理虽然只有在某些理想场合才能实现,但却是全部物理理论的逻辑起点。在一定意义上可以说,惯性原理也体现了试验机制无差别原则的精神,即在物理机制无差别的情况下,物体的运动状态保持不变。
参考文献
[1] Laplace, P. S. (1814)A Philosophical Essay on Probabilities, English Translation of the 6th French Edition, Dover, 1951.
[2] Keynes, J. M. (1921) A Treatise on Probability, Macmillan, 1963.
[3] Gillise, D. Philosophical Theories of Probability, London: Routledge, 2000.
[4] Jaynes, E. T. 'The Well-Posed Problem', Foundations of Physics 4(3), 1973, pp. 477-92.
[5] Bayes, T. & Price, R.(1763) 'An Essay towards Solving a Problem in the Doctrine of Chances', reprinted in E.S.Pearson and M.G.. Kendall(eds.) Studies in the History of Statistics and Probability, Griffin, 1970,
[6] Edwards, A.W.F, 'Commentary on the Arguments of Thomas Bayes', Scandinavian Journal of Statistics 5, 1978.
[7]陈晓平:《贝叶斯方法与科学合理性--对休谟问题的思考》,人民出版社,2010年。