内容摘要:贝叶斯主义者把贝叶斯推理看作归纳推理的核心,进而把贝叶斯推理的合逻辑性看作对归纳合理性问题的解决。然而,哈金指出,所谓的“贝叶斯合理性原则”(principle of Bayesian rationality)依赖于一个未加证明的假设(assumption)即:P’(h)=P(h/e),这个假设被称为“贝叶斯条件化原则”,这使得归纳法的合理性问题变为贝叶斯条件化原则的合理性问题。贝叶斯条件化原则是杰弗里条件化规则在P’(e)=1时的特例,二者都蕴涵着条件概率不变性要求。豪森曾经试图为此要求进行辩护,但却是不成功的。笔者提出“最少初始概率原则”来为贝叶斯条件化原则进行辩护,详细地阐明它的局部合理性(local rationality)。
一、贝叶斯定理与动态假设
贝叶斯方法论(Bayesian methodology)或贝叶斯主义(Bayesianism)早在上世纪二、三十年代就被提出,直到上世纪八、九十年代,它才逐渐成为科学哲学领域的一个势头强劲的理论学派。贝叶斯主义又叫做“主观主义”(subjectivism)或“私人主义”(personalism) ,其理论特征主要有二。其一是把概率解释为一个人的“置信度”(degree of belief),另一是把贝叶斯公式看作根据经验改变置信度的方式。如所周知,归纳推理就是根据过去的经验预测未来的推理,自十八世纪的休谟对归纳推理的合理性提出质疑以来,归纳合理性以致科学合理性一直是悬而未决的哲学问题。不难看出,贝叶斯推理与归纳推理密切相关。因此,贝叶斯主义的两位创始人拉姆齐(F.P.Ramsey)和德菲耐蒂(B. de Finetti)及其追随者都把贝叶斯推理看作归纳推理的核心,进而把贝叶斯推理的合逻辑性看作对归纳合理性问题的解决。德菲耐蒂说道:“如果接受了主观主义的观点,归纳问题就此得到一个解答。这解答自然是主观的,但它本身却完全合乎逻辑,而另一方面,当人们声称要消除主观因素时,他只能够比较巧妙地把它们隐藏起来,但却不能避免逻辑上的漏洞。”(de Finetti, p.147)
正当贝叶斯主义者们对于解决归纳合理性问题满怀乐观、信心十足的时候,哈金(Ian Hacking)指出所谓“贝叶斯合理性原则”的一个致命缺陷,即:贝叶斯公式并不足以成为从验前概率得出验后概率的依据,其主要理由如下。
贝叶斯公式的一种简化形式是:
由此得出的条件概率P(h/e)就是贝叶斯主义者所谓的“命题h相对于证据e的验后概率(posterior probability)”,其值往往不同于验前概率(prior probability)P(h),因此贝叶斯公式被看作从验前概率到验后概率的过渡方式。由于贝叶斯公式是从概率公理得出的一个定理,而概率公理已被证明为保证置信度的逻辑一致性的充分必要条件——即大弃赌定理(theorem of Dutch book),那么按照贝叶斯公式进行的置信度的改变自然也是合乎逻辑的。
哈金指出,把条件概率P(h/e)叫做“验后概率”是不妥的,验后概率是取得经验证据e之后关于h的置信度,而通过贝叶斯公式计算的条件概率在取得经验证据之前就可以确定,因而属于验前概率。贝叶斯公式只提供了从无条件概率向条件概率的过渡,而没有提供从验前概率向验后概率的过渡。贝叶斯主义者之所以误以为贝叶斯公式起到后一种作用,那是因为他们不加证明地接受了一个假设,即哈金所说的“动态假设”(dynamic assumption):P’(h)=P(h/e)。其中P’(h)表示取得证据之后h的概率,即h的验后概率。因此,贝叶斯主义者必须表明动态假设的合理性,否则就不应把贝叶斯公式看作从验前概率向验后概率过渡的合理方式。
“动态假设”通常被称为“更新规则”(updating rule)或“贝叶斯条件化原则”(principle of Bayesian conditionalisation)。这样,归纳法的合理性问题变成贝叶斯条件化原则的合理性问题。为贝叶斯条件化原则辩护的一条自然而然的思路就是将静态大弃赌定理加以推广,从而得到动态大弃赌定理;或者说将静态合理性原则推广到动态合理性原则。动态大弃赌定理说的是,一个人的置信度一旦违反贝叶斯条件化原则,即P’(h)≠P(h/e),那么,他将不可避免地面临大弃赌即必输的赌博。最早考虑动态大弃赌定理的是刘易斯(David Lewis),其基本思想在泰勒(Paul Teller)那里得到更详细的表述。(参阅Teller)不过,关于动态大弃赌的努力现在公认为是失败的,(参阅Christensen)这使得贝叶斯条件化原则的合理性问题仍然是悬而未决的。
二、杰弗里条件化规则与条件概率不变性
概率公理系统的另一个重要定理叫做“全概率定理”,它的一种简单表达式是:
P(A)=P(A/B)P(B)+P(A/¬B) P(¬B)
此公式中的B和¬B构成一个划分(partition),即命题集合{B,¬B },其中的成员必须是互斥且穷举的。对于不同的划分,全概率往往是不同的。一般而言,一个划分是一个包含n个命题的集合即{B1,B2,…Bn},这n个命题必有一真且两两互斥。
杰弗里条件化规则(rule of Jeffrey conditionalisation)是由杰弗里(Richard Jeffrey)在其力作《决策逻辑》中提出的,它是全概率定理的一种变形(现只考虑全概率定理的简单形式),即:
P’(h)=P(h/e)P’(e)+P(h/¬e)P’(¬e)
此公式包含两个不同的概率系统即P和P’,P是在对e实施观察之前的概率系统即验前概率系统,而P’是在对e实施观察之后的概率系统即验后概率系统。一般而言,P’(e)≠P(e),P’(¬e)≠P(¬e);此外,P’(e)未必等于1。对这后一点,杰弗里举例说,一个人在昏暗的光线下观察一块布是否蓝色的,即使他看到这块布是蓝色的,但他并不能确定事实一定如此,因此,他只能赋予这个观察结果小于1的概率,即P’(e)<1,尽管很可能P’(e)>P(e)。由于P’(¬e)=1-P’(e),相应地,P’(¬e)>0,并且很可能P’(¬e)<P(¬e)。请注意,此公式包含的条件概率P(h/e)和P(h/¬e)属于验前概率,这意味着,对于条件概率来说,验前和验后没有变化,即P’(h/e)=P(h/e),P’(h/¬e)=P(h/¬e)。这是杰弗里条件化规则得以生效的先决条件,可以称之为“条件概率不变性要求”(requirement of invariance of conditional probability)。如果不满足这一要求,由全概率定理只能得出:
P’(h)=P’(h/e)P’(e)+P’(h/¬e)P’(¬e)
这个公式没有将验前概率与验后概率联系起来,因而不成其为更新规则。
刚才提到,P’(e)未必等于1,但不排除P’(e)=1的可能性。一旦P’(e)=1,即在对e实施观察之后可以确信其真实性,杰弗里条件化规则便成为:
P’(h)=P(h/e)×1+P(h/¬e)×0=P(h/e) [①]
P’(h)=P(h/e)正是贝叶斯条件化原则,可见,贝叶斯条件化原则是杰弗里条件化规则在P’(e)=1时的特例。需要指出,根据概率演算规则,当P’(e)=1时,P’(h)=P’(h/e),这使贝叶斯条件化原则P’(h)=P(h/e)蕴涵条件概率不变性要求即P’(h/e) =P(h/e),确切地说,在P’(e)=1的情况下,二者是等价的。这表明,条件概率不变性要求既是杰弗里条件化规则的必要条件,又是贝叶斯条件化原则的必要且充分条件。
接下来的问题是,条件概率不变性要求的合理性何在?如果这个问题解决了,贝叶斯条件化原则的合理性问题也就被解决了。对此,豪森和厄巴赫说道:“这个条件(条件概率不变性要求——引者)并不如听上去那样具有约束力,其约束力也并不多于如下假设,即:当P(e)外源性地(exogenously) 变为P’(e)时,e 的真实性对每一h的全面承载力已经在指派条件概率P(h/e)时全面地发生了作用,以致一旦e的概率从P变为P’以后,没有进一步的考虑会使你改变主意。我们可以想像,这个条件可以被一个理想的科学推理者所满足;几乎可以肯定,正是由于这样的推理者存在于贝叶斯理论的先驱者们的头脑中,他们才认为没有必要为基于接受新资料而加以条件化的假设提供详尽的辩护(justification)。我们希望我们已经至少为他们的实践提供了辩解(vindication)。”(Howson, C. & Urbach, P., p.113.)
在这里,豪森和厄巴赫为贝叶斯理论的先驱者们没有为条件概率不变性条件提供辩护的事实作出某种说明,同时替他们为条件概率不变性条件做出辩护,即假设有一个理想的科学推理者能够事先推导出证据e的全部逻辑后承,以致他所给出的条件概率P(h/e) 千真万确,万无一失,永远无需被新的证据所改正。然而,在笔者看来,豪森和厄巴赫借助于一个具有超常预见力的理想推理者来说明P’(h/e)=P(h/e)的某种必然性,这是极为不妥的,甚至是无意义的。因为对于这样一个可以预见未来的理想推理者,归纳推理就像演绎推理一样具有必然性,归纳法的合理性问题根本就不会产生,当然也就无需为条件概率不变性要求或贝叶斯条件化原则作任何辩护。
我承认,在关于科学方法论或科学哲学的讨论中,有时需要借助于理想条件或理想实验;但是,被理想化的那部分内容只是使所讨论的问题更为清晰,而不是使所讨论问题被取消。如静态大弃赌定理中所设想的那个非常聪明的赌博庄家就使静态合理问题更为凸显,更难对付。与此相反,豪森和厄巴赫在这里所设想的理想推理者却使所要解决的问题不成问题了,使条件化规则的合理性问题以致归纳法的合理性问题整个地成为多余。因此,这种理想化是无意义的,相应的“辩护”是不成立的。
豪森和厄巴赫对这一辩护也许并不满意,以致在《科学推理:贝叶斯方法》的第三版(2006年)中把它略去了;而且,豪森在《休谟问题──归纳和信仰辩护》(2000年)一书也未提及这一方案,而是几乎完全倒向休谟的立场。
三、最少信息原则和最少初始概率原则
最少信息原则(principle of minimum information)是被一些学者用来弥补杰弗里条件化规则的一个不足,[②]即它只是相对某一划分{B1,B2,…Bn}而言的,而对于未能构成划分的一组命题{e1,e2,…em}——即e1,e2,…em不是互斥且穷举的——则不适用,尽管它们的概率发生外源性的变化,即由 P(e1),P(e2),…P(em)分别变为P’(e1),P’(e2),…P’(em)。将最少信息原则用于证据检验的更新规则时,它要求验后概率系统P’与验前概率系统P之间的差别——除了P’(e1),P’(e2),…P’(em)分别不同于P(e1),P(e2),…P(em)之外——尽可能地少。最少信息原则不要求{e1,e2,…em}必须是一个划分,因而具有普遍性。显然,为满足这一原则,必须满足条件概率不变性原则,否则,验后概率系统P’与验前概率系统P之间的差别不能达到最小。
豪森指出,最少信息原则的这一应用目前还面临一些技术性的问题,即使技术性问题都解决了,仍然面临一个根本性的问题,即:“在验后概率的选择中,为什么应该把接近性(验后概率系统与验前概率系统的差别最小性——引者)作为相关的考虑。”(Howson , C. & Urbach, P., p.112)这个问题实际就是关于最少信息原则的合理性问题。豪森没有为解决这一问题做进一步的努力,而是把最少信息原则搁置一旁,转而直接面对条件概率不变性要求的合理性问题,并通过理想推理者的假设对之加以“解决”。前面指出,豪森的这一解决是不成立的。与之不同,笔者则通过“最少初始概率原则”(principle of minimum initial probability)对贝叶斯条件化原则的合理性问题加以解决;(参阅陈晓平,第184-190页)其基本思想与最少信息原则有异曲同工之处,但在哲学上更为基本也更容易处理。
最少初始概率原则与最少信息原则事实上是相关的,不过,笔者提出最少初始概率原则的主观动机只是为了解决贝叶斯条件化原则的合理性问题。前边提到,最少信息原则是为弥补杰弗里条件化规则的某种不足而从信息理论引进的,而杰弗里条件化规则远不如贝叶斯条件化原则来得重要,因为二者的区别仅仅在于:贝叶斯条件化原则要求证据具有确实性即P’(e)=1,而杰弗里条件化规则没有这一要求,允许证据不确凿即P’(e)<1。显然,对于科学检验来说,不确凿的证据是不足为凭的,充其量只是一种向确凿证据的过渡。尽管杰弗里条件化规则比贝叶斯条件化原则更具普遍性,但这种普遍性对于科学方法论来说并不重要,特别是对于解决休谟问题更是于事无补,因为休谟问题是针对基于确凿证据的经验推理的合理性而提出的。这就是笔者的最少初始概率原则只考虑贝叶斯条件化原则的原因。下面我们转而讨论最少初始概率原则。
请考虑这样一个推理过程:某人在获得证据之前有条件概率P (h/e)=p,于是,他得出结论:如果e确实为真,那么P (h)=p。(因为在此情况下,P(e)=1,因而P(h)=P(h/e)=p)然后他进行观察或实验,获得证据e,而且其知识库中除增加e外没有任何变化(一个人的知识库就是他确信为真的命题集合,即对其中的任一命题A,P(A)=1)。根据肯定前件规则,他得到:P (h)=p。由于结论中的P(h)是他在有证据e之后对h所持的置信度,属于验后概率,因而这一P (h)正是P’(h),故P’(h)=P。这就是说,他关于h的验后概率P’(h)等于验前条件概率P(h/e),即P’(h)=P(h/e),这正是贝叶斯条件化原则。又因为e被观察之后的概率为P’(e)=1,因而P’(h/e)=P’(h)=P(h/e)。这正是条件概率不变性要求。由此可见,贝叶斯条件化原则和条件概率不变性要求是有逻辑根据的。
当然有这样的可能性:进行以上推理的那个人可能在获得证据e之后,由于某种非逻辑的原因,他对h所持的置信度大大提高或降低,从而使得P’(h)≠P (h/e)。例如,某个总统候选人在正式选举之前,根据自己的才干、资历和其他客观条件,通过概率规则计算出,如果他当选总统(e)某个危机被解除(h)的概率是P(h/e)=2/3。在他实际当选总统之后,他的自信心、责任感和紧迫感大大增强,从而使他感到那个危机被解除的概率超过2/3。这就是说,他的验后概率大于条件概率.只要他的验后概率不违反概率公理,即P’(h)+P’(¬h)=1,他的信念发生这样的改变似乎也是合理的。
但是,我们要指出,如果这位总统当选人没有逻辑和证据上的理由否定他在当选之前所作的分析和判断,而仅仅出于某种非逻辑的因素就使他的验后概率不同于他在验前所确定的条件概率,这样做一般来说是不妥当的。因为一个人的信念体系应当具有相对的稳定性,除非有做出改变的逻辑或证据上的理由。实际上,如果一个人仅仅使自己的置信度满足概率公理(即满足静态合理性原则),那么,他的置信度可以随时地变化,只要他对任何一组互斥且穷举的命题(即一个划分中的命题)的置信度之和保持为1。这就是说,对他而言,不仅验后置信度(验后概率)可以不同于验前的条件置信度(条件概率),而且处于任何不同瞬间的置信度都可以是不同的,即使面对同一事件或同一个命题。这样一来,关于概率的任何推理都将成为不可能的,更不用说从验前条件概率向验后概率的推导;甚至可以说,此人根本没有信念,既然他的“信念”随时随地都在变化。如果一个人的信念体系是如此的不稳定或不可信赖,那么,他的信念体系或置信度还可以看作是合理的吗?当然不能。由此可见,使信念体系或置信度仅仅满足概率公理亦即满足静态合理性原则,并不是保证信念体系具有合理性的充分条件,因而有必要增加新的合理性原则。
前面提到,贝叶斯主义者把贝叶斯条件化原则看作动态合理性原则,但是其合理性却得不到恰当的辩护。为此,笔者提出“最少初始概率原则”。“初始概率”(initial probability)是相对于“后继概率”(consequent probability) 而言的,其定义如下:
一个概率是初始概率,当且仅当,其值是非逻辑地确定的。一个概率是后继概率,当且仅当,其值是逻辑地确定的。
所谓一个概率值是逻辑地确定的,就是说,其值是由其他概率逻辑地推出的。如前边已经展示的,由条件概率P(h/e)通过肯定前件的逻辑规则和一些概率演算规则得出的验后概率P’(h)=P(h/e)。我们知道,总有一些概率值被作为推导其他概率值的依据,而它本身是不能由其他概率逻辑地推出的,这样的概率就是初始概率。虽然初始概率是不可避免的,但是,我们应当尽量减少初始概率的数目。这是因为初始概率的确定是基于非逻辑因素的,如情感或直觉,甚至基于主观随意性。因此,在一个人的信念体系中,所容纳的初始概率愈多,其非理性成分愈多,因而也就愈不合理。据此,我们把最少初始概率原则看作一个合理性原则。
最少初始概率原则:基于相同的知识库并且关于相同的命题,具有较少初始概率的那个信念体系较为合理。[③]
这里所说的知识库是一个人确信为真即概率为1的命题集合,不属于知识库的命题,其概率是小于1的。请注意,这个原则不是要求人们不要改变信念,而是要求人们不要无根据地改变信念,即不要在知识库、证据或认识对象不变的情况下改变信念,或者说,这样的改变越少越好。有了这个合理性原则,我们就可为贝叶斯条件化原则加以辩护。
前边已经表明,贝叶斯条件化原则P’(h)=P (h/e)要求把验后概率与条件概率等同起来是有逻辑根据的,由此得出的验后概率是后继概率而不是初始概率。相反,如果验后概率不等于条件概率,那么,这样的验后概率不是逻辑地得出的,故为初始概率。根据最少初始概率原则,我们应当接受贝叶斯条件化原则。这样,贝叶斯条件化原则的合理性便得以辩护,因而有资格叫做“动态合理性原则”。此外,在P’(e)=1的情况下,条件概率不变性要求与贝叶斯条件化原则是等价的,即互为充分必要条件,因此,条件概率不变性原则也是合理的。
杰弗里条件化规则一般不要求P’(e)=1,允许P’(e)<1,即允许观察后的证据不确实为真。但是,这不是科学检验的理想情况,只是过渡情况。为了使科学检验最终达到P’(e)=1进而满足贝叶斯条件化原则的理想情况,必须满足条件概率不变性原则。在这个意义上,条件概率不变性原则对杰弗里条件化规则也是合理的。
四、对最少初始概率原则的进一步说明
一个人的置信体系是由他的知识库K和置信函项P决定的。在贝叶斯理论框架中,置信函项就是概率函项。概率函项有两种即无条件概率函项P(A)和条件概率函项P(A/B)。在许多情况下,这两种概率函项之间可以相互转化,如前面提到,在P(B)=1的情况下,P(A)=P(A/B)。不过,对于一个实际的信念体系来说,所涉及的各个命题并非完全平等的,总有一些命题比其他命题更为基本,因而经常被单独赋予概率,而不以其他命题作为其概率赋值的条件。科学检验是一种根据经验证据修正信念体系的过程,是一种特殊的语境,不妨称之为“检验语境”。在验证语境中,关于证据命题e的概念函项的改变是通过直接观察来完成的,即通过观察使验前概率P(e)变为验后概率P’(e),而且往往是:P(e)<1而P’(e)=1。我们不妨把通过直接观察而改变的概率函项称为“观察概率函项”,根据命题之间的条件关系而改变的概率函项叫做“条件概率函项”,由这两种概率函项决定的概率值分别叫做“观察概率”和“条件概率”。概率函项和相应的概率值互为充分必要条件,出于讨论方便,我们时常把它们作为同义词来使用,其间细微的区别可以通过上下文来辨别。
在科学检验过程中,被检验假设h的概率变化往往是依据h和证据e之间的条件关系来确定的,因而属于条件概率函项。当观察概率函项由P(e)变为P’(e)时,相应的条件概率函项便由P(h/e)变为P’(h/e)。前边已经表明,在科学检验的理想情况下,即由P(e)<1变为P’(e)=1之时,条件概率不变性原则得以成立,即P(h/e) =P’(h/e)。这意味着,在此情况下,初始条件概率并未增加,因而满足最少初始概率原则。不过,这里有一个问题,即:在这种情况下,观察概率函项却是变化着的,初始观察概率似乎是增加了,这违反最少初始概率原则吗?笔者的回答是否定的,因为:知识库内的所有命题,其概率均为1,因而其概率并不是我们所关心的;我们所关心的是知识库以外的那些命题的概率。对于知识库以外的命题而言,最少初始概率原则仍然满足;因为当由P(e)<1变为P’(e)=1之后,e便被加入知识库,从而P’(e)=1不属于初始概率的范围,初始概率并未因此而增加。
也许有人还会追问,在科学检验的非理想情况下,即P’(e)<1并且P’(e)≠P(e),初始观察概率似乎增加了,最少初始概率原则被违反了吗?对此笔者的回答仍然是否定的,不过需要分两种情况来考虑。一种情况是观察后的证据是完全不确定的,如杰弗里所举的在暗淡烛光下看一块布的颜色,这样导致的其概率小于1的观察结果是不值得认真对待的,最好等把光线弄亮以后再来观察。这就是科学检验应取的态度,这使P’(e)<1被排除在观察概率的范围以外,因而初始观察概率并未因此而增加。另一种情况是观察后的证据并非完全不确定的,如量子力学的测不准原理所说的情况。具体地说,当一个微观粒子的时空位置被测准之后,其动量是测不准的;反之,当其动量被测准之后,其时空位置是测不准的。这种情况仍然属于理想的检验情况,因为无论是微观粒子的时空位置被测准还是动量被测准,相应的证据命题e则被归入知识库,其概率为1而不属于初始概率。在此情况下,测不准的另一参数——动量或时空位置——可以根据物理学原理如薛定鄂方程和概率演算规则加以确定,由此得到的概率属于后继概率而非初始概率。总之,根据测不准原理所进行的科学检验属于理想的科学检验,因而满足最少初始概率原则。
再一个可能的置疑是:科学发展的一个重要步骤就是提出新的科学假设,而新提出的科学假设的概率往往属于初始概率。可见,这一科学步骤是增加初始概率的,因而与最少初始概率原则是相冲突的。对此,笔者的回答是:科学发展的过程可以分为两个阶段,即发现阶段和检验阶段,或称之为发现语境和检验语境。贝叶斯条件化原则和最少初始概率原则只是对于检验语境而言的,而不适合于发现语境。是的,在发现语境中初始概率是增加的,这是知识增长的必要步骤;但是这与只适合于检验语境的最少初始概率原则并不冲突。正如发现语境和检验语境在科学发展的过程中是互补的,分属这两个语境的初始概率增加原则和初始概率最少原则也是互补的。
五、关于最少初始概率原则的案例分析
让我们考虑这样一种情况:在通过观察e1来检验h的过程中出现了意外的现象e2,从而导致P’(h/e1)≠P(h/e1)。这似乎意味着,初始条件概率增加了,因而不满足最少初始概率原则。德国物理学家伦琴发现X射线的过程大致如此,让我们以此为案例进行分析。
1895年的一天,伦琴在实验室里进行阴极射线的研究,在放电管里出现阴极射线时,他无意中看到旁边的荧光屏上也发出蓝白色的光。这一现象使伦琴感到吃惊,因为阴极射线是不能通过玻璃管壁的,尤其是不能通过他用黑纸包裹的玻璃管壁。伦琴多次重复这个实验以后得出结论,这是由放电管发出的一种新的穿透力很强的射线引起的,并称之为X射线。现令e1表示“放电管接通电源”,e2表示“放电管发出X射线”,h表示“置于放电管和荧光屏之间的手骨的影像会出现在荧光屏上”。在伦琴进行那个实验之前,验前条件概率P(h/e1)=0;在伦琴进行那个实验之后,验后条件概率P’(h/e1)>0。这是因为在伦琴的知识库中增加了新的内容即e2,e2会对h相对于e1的条件概率发生影响,从而使P’(h/e1)≠P(h/e1)。应该说,这样的改变是合理的;反之,当一个推理者的知识库的内容发生变化,但其中各个命题之间的关系却永远保持不变,那才是不合理的。
现在的问题是,这一合理的信念改变过程违反了最少初始概率原则吗?笔者的回答是:没有。因为最少初始概率原则是相对于同一个知识库而言的,而上面例子中的P(h/e1)和P’(h/e1)是相对于不同的知识库而言的,即前者的知识库K中没有e2,而后者的知识库K’中包含了e2。为了加以比较,我们不妨把e2从K’中抽出来,使K’=K。由于P’(e2)=1,故P’(h/e1∧e2)=P’(h/e1)>0,相应的验前概率是P(h/e1∧e2)而不是P(h/e1);显然,P(h/e1∧e2)>0。这样,上述例子中从验前概率到验后概率的过程成为从P(h/e1∧e2)>0到P’(h/e1∧e2)>0,这并不违反最少初始概率原则。因为在这种情况下,我们可以根据最少初始概率原则进而根据贝叶斯条件化原则或条件概率不变性要求,让P’(h/e1∧e2)=P(h/e1∧e2)。
事实上,德菲耐蒂以另一种方式回答了这个问题。他说道:“无论观察对于预测未来所施加的影响是什么,它从不蕴涵也从不表示我们纠正了关于概率P(En+1)的最初评价,尽管它已被经验否证,并被替换为另一个概率P*(En+1),后者符合经验因而可能更接近真实的概率;相反,它仅仅是在如下意义上表明它自己,即:当经验告诉我们前n次试验的结果为A时,我们的判断不再表达为概率P(En+1),而是表达为概率P(En+1/A),即在考虑把结果A作为条件的时候我们的初始意见已经加入对事件E的评价。这个初始意见没有什么被批判或被纠正;事实上不是函项P被改变(被另一个函项P*所代替),而是变目En+1被替换为En+1/A,这恰恰是保留了对我们初始意见的忠实(这个初始意见表现为对函项P的选择)和我们判断的一贯性,即当已知情况发生变化时我们的预测也发生变化。正如一个人在抽彩中从10,000张彩票中抽出一张号码为2374的彩票,他评价中彩的概率是1/10,000,但他随后的概率评价是1/1000、1/100、1/10、0,当他看到最后抽取的筹码号是,比如说,2379。在这每一个事例中他的判断都是完全一贯的,并且在每一次抽取之后他没有理由说前边的概率评价是不正确的(在它被作出的时候)。”(De Finetti, pp.146-147)
德菲耐蒂在这里提到的两个概率函项即P(En+1)和P*(En+1),二者分别是关于事件En+1的验前概率和验后概率,尽管二者的概率值是不同的并且P*(En+1)是“更接近真实的”,但这并不意味着概率函项发生了变化,“不是函项P被改变(被另一个函项P*所代替),而是变目En+1被替换为En+1/A”。具体说,P(En+1)和P*(En+1)所相对的知识库是不同的,如果把后者所相对的知识库中的新增内容即证据A提出来作为概率函项的主目,这两个概率函项分别成为P(En+1/A)和P*(En+1/A)。由于A是确知为真的,故P*(A)=1,相应地,P*(En+1/A)=P*(En+1)。又根据条件概率不变性要求,P(En+1/A)=P*(En+1/A),所以,P(En+1/A)=P*(En+1)。可见,P(En+1)和P*(En+1)之间的区别实际上是P(En+1)和P(En+1/A)之间的区别,改变的不是概率函项,而是概率函项的主目。“这恰恰是保留了对我们初始意见的忠实”,显然,这种忠实性和一贯性正是对“最少初始概率原则”的体现。
六、贝叶斯条件化原则的局部合理性
最少初始概率原则为贝叶斯条件化原则提供了合理性基础,按照贝叶斯条件化原则从验前概率到验后概率的过渡,改变的不是置信函项本身,而是在同一置信函项中对应于不同自变项(即证据)的依变项的值(即假说相对于证据的条件概率)。与之不同,如果违反贝叶斯条件化原则从而不断地增加初始概率,这才是对置信函项本身进而对整个信念体系的改变。对于一个人来说,整个信念体系的改变相当于世界观的改变,如果每增加一个证据他就改变一次世界观,实际上等于没有世界观,因而可以说是非理性的。
那么,是不是任何时候改变信念体系都是不合理的呢?当然不是,有时是必要的。至于整个信念体系改变的合理性条件是什么,则超出概率归纳逻辑讨论的范围。不过,我们可以从库恩的范式理论得以借鉴。一个信念体系之内的改变就是常规性改变,类比于库恩所说的常规科学。一个信念体系整体上的改变是革命性改变,类比于库恩所说的科学革命亦即范式转换。按照库恩的说法,范式之间是不可通约的,没有内在的标准可以作为根据。但是范式之间还是可以比较的,即从它们的解谜能力上进行比较,解谜能力强的优于解谜能力弱的。类似地,两个信念体系之间的转换没有逻辑的标准可以依据,只能根据实用的标准加以比较,即:哪一种信念体系能够使你更好的认识和理解世界,哪一种信念体系就更为可取。如果你在某一时刻能够确信某个新的信念体系满足这一点,那你就用新体系替换旧体系,这样做对你来说就是合理的。但是,一个信念体系一旦确立,不要轻易地改变它,包括不要一有新证据就改变它。这一要求就是“最少初始概率原则”。可以说,最少初始概率原则是常规性合理性原则。这个原则对于讨论归纳问题是合适的,因为归纳合理性是再平常不过的合理性了。
也许有人会说,你这样的归纳辩护是有局限性的,是不完全的。笔者完全接受这一批评。我承认我的目标仅仅是为归纳推理的局部合理性(local rationality)进行辩护,这是贝叶斯方法论的一个特征。我同豪森的区别在于,豪森放弃对归纳原则本身的任何辩护,只把归纳逻辑的合理性局限于演绎合理性的范围。而我则要为归纳原则本身的合理性进行辩护,尽管这种辩护也是局部的,而不是整全的。
对于前一节引述的德菲耐蒂的论证,吉利斯(D. Gillies)提出一个富有启发性的批评。他说道:“在所有场合中,验前概率函项P都建基于对所研究情境之本质的一般假设之上。如果这些假设是广泛地正确的,那么,德菲耐蒂按照贝叶斯条件化来改变P的方式将得出合理的结果。然而,如果初始假设在某些方面是严重错误的,那么,不仅验前概率函项是不合适的,而且由它根据证据所得出的所有条件概率也是不合适的。在此情况下为得出合理的概率,我们有必要以一种比德菲耐蒂所允许的更猛烈的方式来改变P,甚至引入一个新的概率函项P*。这一思路可以概括如下:德菲耐蒂所允许的仅仅通过贝叶斯条件化来改变的模式是太保守了。有时,为了取得进步,对P加以远远多于他所允许的改变是必要的。”(Gillies, pp.74-75)
笔者认为,吉利斯对德菲耐蒂的这一批评是完全正确的。德菲耐蒂只承认一种改变信念的方式即贝叶斯条件化,这等于否认任何信念系统的整体改变,而这种整体性改变无论对于科学家还是普通人是时常发生的,科学进步和个人进步往往是在这种剧烈的信念改变中取得的。吉利斯的这一批评对于德菲耐蒂之所以是有力的,那是因为德菲耐蒂所持的是整全合理性的观点,他不承认以贝叶斯条件化之外的方式来改变信念的合理性。
与德菲耐蒂不同,笔者所持的合理性观点不是整全主义的,而是局部主义的,我只为按照贝叶斯条件化改变信念的做法给以辩护,而不否认其他方式的合理性。吉利斯说得对,以贝叶斯条件化的方式来改变信念是比较保守的,正如我们在前边所说,它属于常规性的改变,而不属于革命性的改变。然而,为这种保守方式的辩护对于归纳合理性来说已经足够了;因为,归纳推理是一种再平常不过的推理,相应地,归纳合理性是一种再平常不过的合理性。正因为连如此平常的合理性都出了问题,休谟问题才显得尤其重要。况且,即使对于平常的推理或认识活动,最少初始概率原则也只适合于其中的一小部分即验证语境。总之,最少初始概率原则所要求的那种保守的合理性与某些信仰革命的合理性(如果有的话)是并行不悖的。
参考文献:
de Finetti, B., 1937, ‘Foresight: Its Logical Laws, its Subjective Sources’, in H. Kyburg and H. Smokler (eds.), Studies in Subjective Probability, New York: John Wiley,1964, pp.93–158. (中译文见《科学哲学名著选读》,江天骥(主编):武汉:湖北人民出版社,1988年,第78-147页。)
Howson, C. & Urbach, P., 1993, Scientific Reasoning: The Bayesian Approach. Open Court Publishing Company, 1993.
Gillies, D., 2000, Philosophical Theories of Probability, London: Routledge.
Christensen, D., 1991, `Clever Bookies and Coherent Beliefs', The Philosophical Review, vol.c,No.2, pp. 229-247.
Teller, P., 1973,‘Conditionalisation and Observation', Syntheses, vol. 26, pp.218-258.
Jeffrey, R. C., 1965, The logic of Decision, Chicago: University of Chicago Press.
陈晓平,2010,《贝叶斯方法与科学合理性——关于休谟问题的思考》,北京:人民出版社。
注释:
[①] 在P’(¬e)=0的情况下,P’(h/¬e)是无意义的,与其相等的P(h/¬e)也是无意义的,相应地,P(h/¬e)×0是无意义的。不过, P’(h/¬e) P’(¬e)=P’(h∧¬e),在P’(¬e)=0的情况下,P’(h∧¬e)有意义并且等于0。正是在这个意义上,当P’(¬e)=0时,我们可以把P’(h/¬e) P’(¬e)看作0,进而把P(h/¬e) P’(¬e)看作0。
[②]最少信息原则本来是信息理论的一个原则,也叫做“最小叉熵原则”(principle of minimum cross-entropy),它具有比较复杂的数学形式,但其基本思想却比较简单。参阅Howson, C. & Urbach, P., Scientific Reasoning: The Bayesian Approach, 2nd., Chicago and La Salle: Open Court Publishing Company, 1993, pp.110-112.
[③] 这里对“最少初始概率原则”的表述与拙著《贝叶斯方法与科学合理性》和《归纳逻辑与归纳问题》中的表述略有区别,即把先前的“关于相同证据和相同命题”改为“基于相同的知识库并且关于相同的命题”。这样修改后的表述更为准确,其优越性在下面一节“对最少初始概率原则的进一步说明”中显示出来。