康晓光：作为内生博弈规则的精英联盟——关于当前中国大陆政治结构的博弈论解释

一、问题的提出

在分析改革以来中国大陆的政治发展模式和政治稳定问题的3篇文章中，我指出，20世纪90年代中后期，在中国大陆，市场经济体制已经取代了计划经济体制，为了支持市场的有效运行，政府赋予公众“消极自由”，相应地，权威主义政治取代了毛时代的极权主义政治。

与此同时，市场也造就了新的社会集团并改变了各个集团的相对地位。经济精英和知识精英崛起，进入社会上层，而工人和农民则沦入社会底层。制度和群体组成的变化对统治者提出了挑战。他们必须重新回答“谁是我们的敌人，谁是我们的朋友”这一“统治的首要问题”。

统治集团的回答是建立精英联盟，即政治精英与经济精英和知识精英结成联盟，而精英联盟的机制可以概括为“行政吸纳政治”。我还运用这一模型解释了这一时期中国大陆政治稳定的原因，并分析了市场、权威主义政治和精英联盟如何造就了威胁政治稳定的因素。

在改革之前和整个改革过程中，政府始终保持了高度的自主性，也就是说，它没有成为任何社会集团的“俘虏”。它凌驾于所有集团之上，对全社会实行权威主义统治。政治精英不但剥夺了大众的政治权利，也剥夺了社会精英的政治权利。那么，为什么日益壮大的社会精英会接受或默认这种权威主义政治秩序呢？这是因为统治集团向他们提供了经济贿赂，甚至做出了适当的政治让步。通过掠夺大众的经济利益并与社会精英分享掠夺成果，政治精英不但满足了自己的利益要求，也满足了社会精英额外的经济利益。这是社会精英同意放弃政治权利的根本原因。“剥夺弱者，满足强者”是精英联盟的本质。实际上，精英联盟也就是分赃联盟。

那么，精英联盟是偶然的，还是具有某种必然性？是统治者强加于社会的，还是所有参与者共同缔造的？是统治者愚民政策的成果，还是在完全信息环境中所有参与者共同选择的结果？是人为的设计，还是自发的秩序？是稳定的，还是不稳定的，而失去稳定的条件又是什么？本文将运用博弈理论探讨上述问题。我将在Weingast和青木昌彦的研究成果的基础上开展工作，并期望这种努力能够进一步深化我们对中国大陆现行政治结构的理解。

二、构造博弈论模型

本文将运用完全信息动态博弈理论寻求对精英联盟的解释。为此，需要确定动态博弈的扩展式表述，即确定博弈的参与者集合、参与者的行动顺序、参与者的行动集合、参与者的信息集、参与者的报酬函数。

参与者集合

这场博弈的参与者包括政府（也可以称之为“政治精英”或“统治集团”）P 、社会精英（包括经济精英和知识精英）E 、社会大众M.

把社会成员划分为统治集团、社会精英和大众，其依据是各个集团与现实政治秩序的利益关系及其挑战现实政治秩序的动机和能力。而且，这种划分方法也适合下面将要展开的分析的需要。这正是我从众多的相互竞争的群体分类模式中选择这种三元（统治集团/社会精英/大众）分类模式的主要原因。

关于参与者有两个重要假设：第一，参与者都是追求自身利益最大化的理性经济人。第二，参与者拥有关于这场博弈的“完全信息”。这意味着，每个参与者都知道大家都是“理性经济人”，都会按照同样的逻辑思考和选择，都知道其他参与者的行动顺序和行动集合，都知道每个参与者过去的选择情况，也都知道博弈的报酬函数。更为重要的是，每个参与者还知道其他参与者也了解这些信息，而且知道它们也知道它也了解这些信息。

行动顺序

假定参与者的行动顺序为，政府首先做出选择，然后精英做出选择，最后大众做出选择。

无论是改革之初，还是在整个改革过程中，在力量对比格局中，政府始终处于绝对优势地位，所以，假设政府最先出牌是合理的。

设G1为按照“政府→精英→大众”顺序行动的博弈模型，G2为按照“政府→大众→精英”

顺序行动的博弈模型，而且G1与G2的唯一区别是参与者的行动顺序。下面我们仅仅对G1展开分析。但是，只要对G2重复同样的分析，就可以发现两种分析结果并没有“实质性差异”。

所以说，在我们的模型中，精英和大众谁先出牌并不重要。

行动集合

为了定义“剥夺”，需要确定一个基准状态，如诺奇克所谓的“最小政府”。这个“最小政府”也可以理解为亚当？斯密的“守夜人”。为维持一个“最小政府”，社会必须向政府提供必要的利益。

但是，在“必要利益”之外，政府还有可能追求更多的利益，即“额外利益”。为了追求额外利益，政府需要剥夺大众或精英的经济或政治利益。政府共有4种可行的行动，即S1={不剥夺精英，不剥夺大众}、S2={不剥夺精英，剥夺大众}、S3={剥夺精英，不剥夺大众}、S4={剥夺精英，剥夺大众}.现在，不考虑“贿赂”行动。

精英和大众的策略包括“反抗”或“默认”，C={反抗}，A={默认}.

信息集

假设每个参与者都知道所有参与者过去的选择情况。这意味着，在动态博弈的任一阶段，在该阶段采取行动的参与者对博弈的各个方面都是“完全知情”的，只有那些将在以后发生的情况除外。

报酬函数

在最小政府状态下，设T 为政府获得的必要利益，Γe 为精英的收益，Γm 为大众的收益。

设Tp为精英或大众被政府剥夺的政治利益。政府获得的额外政治利益等于精英和大众的损失之和。一般来说，在权威主义政治中，Tp是政府的“当然权利”，所以下面的讨论局限于对经济利益的剥夺。

设Te为政府追求的额外经济利益。

Ce为精英遭到政府剥夺时进行反抗的代价。Cm为大众遭到政府剥夺时进行反抗的代价。

Ces 为精英反抗时政府付出的代价，Cms 为大众反抗时政府付出的代价，Ci为政府采取行动Si（i=1、2、3、4）时精英和大众共同反抗时政府付出的代价。

注意：第一，只有在与“被剥夺的额外利益”进行比较时“反抗的代价”才有意义。第二，Ce、Cm、Ces 、Cms 是“政府的镇压能力”和“被统治者的反抗能力”的函数。当其他条件相同时，政府的镇压能力越强，被统治者反抗的代价（Ce、Cm）越大，政府为镇压而付出的代价（Ces 、Cms ）越小。同样，当其他条件相同时，被统治者的反抗能力越强，其反抗的代价（Ce、Cm）越小，而政府的镇压成本（Ces 、Cms ）越高。

假设精英集团与大众集团无法事前达成可信的私下交易。这个假设对于中国大陆是完全合理的。这是因为，两个集团的规模都太大，根据奥尔森的集体行动理论，很难组织有效的集体行动，而且，更为重要的是，权威主义政府几乎剥夺了公众组织集体行动的一切手段。

首先，考虑政府选择{不剥夺精英，不剥夺大众}时的报酬函数。注意，无论是“剥夺”

还是“不剥夺”都仅仅指“额外的经济利益”，而不包括“额外的政治利益”。再强调一次，一般情况下，我们把“额外的政治利益”视为权威主义政府的“当然权利”。如果精英和大众同时反抗，则反抗成功，政府不但得不到“额外利益”，还要付出代价C1，所以政府的收益为T ？C1.同时，由于精英和大众都未受到剥夺，但要为反抗付出代价，所以两者的收益分别为Γe ？Ce和Γm ？Cm.如果精英反抗而大众默认，则反抗无效，政府剥夺两者的政治权利2Tp ，同时付出代价Cse ，收益为T+2Tp ？Cse ；而精英丧失政治权利Tp，并付出代价Ce，收益为Γe ？Ce？Tp；大众则仅仅丧失政治权利Tp，收益为Γm ？Tp.同理，可以得到精英默认而大众反抗的报酬函数值。如果精英和大众都采取默认，则政府不负任何代价剥夺两者的政治权利2Tp ，收益为T+2Tp ；而精英和大众也仅仅失去自己的政治权利Tp，收益分别为Γe ？Tp和Γm ？Tp.

政府选择{不剥夺精英，不剥夺大众}时的报酬函数

在讨论政府选择S2的报酬函数之前，先讨论一下精英和大众各自的“反抗”行为。假设精英的反抗能力远远大于大众，大众不可能成功地单独反抗政府，但只要精英“全力反抗”，即使没有大众的配合，政府的剥夺行动也将失败。再假设精英只有在自己的“额外经济利益”

受到剥夺的时候，才会“全力反抗”，而当大众受到剥夺时，精英的反抗将会“打折扣”。

中国大陆的现实支持这一假设。由于政府垄断了暴力和集体行动资源，所以除了政治精英以外，其他社会集团都处于“一盘散沙”状态，社会精英和大众只能采取消极反抗，无法组织有效的积极反抗。大众的消极反抗手段极为有限，非经济性手段包括上访、静坐、罢工、游行、盗窃、杀人、破坏，经济性手段包括罢工和怠工。但是，政府可以轻易制服大众的非经济性手段。大众危害经济业绩的能力也极为有限。他们是无产者或小自耕农，必须千方百计出卖自己的劳动力以求维持生存。因此，除了好好干活，他们唯一的选择就是挨饿。但是，精英就不同了。经济精英可以拒绝参与经济活动，如停止投资、向海外转移资产等等。经济全球化进一步强化了他们的权力。知识精英特别是其中的专业人士对现代经济运行的业绩具有直接的影响，而且知识精英可以干预舆论、鼓动学生闹事、甚至自己上街闹事。所以，精英的消极反抗会对经济发展产生直接的、显著的负面影响。如今，官方意识形态已经失去了提供合法性的作用，政府的合法性严重依赖于经济增长业绩。对于政府来说，经济衰退或停滞无异于灭顶之灾。这意味着，精英的消极反抗可以给政府造成极大的损害。

现在考虑政府选择{不剥夺精英，剥夺大众}时的报酬函数。如果精英和大众同时反抗，则反抗成功，政府的收益为T ？C2，而精英和大众的收益分别为Γe ？Ce和Γm ？Cm.如果精英反抗而大众默认，由于精英自己没有受到剥夺，所以不会“全力反抗”，其结果是政府只能从大众那里夺得一部分Te，如λTe，0<λ<1.当然，政府会成功地剥夺精英和大众的政治利益2Tp ，但要付出代价Cse ，其收益为T+λTe+2Tp？Cse.相应地，精英丧失政治权力Tp，并付出反抗代价Ce，收益为Γe ？Ce？Tp.大众丧失政治权力Tp和经济权利λTe，收益为Γm ？λTe？Tp.如果大众反抗而精英默认，则反抗失败，政府成功地剥夺大众的Te，同时还剥夺大众和精英的2Tp ，但要付出代价Csm ，其收益为T+Te+2Tp？Csm.而精英仅仅失去Tp，收益为Γe ？Tp.大众不但失去Tp和Te，还要徒劳地付出反抗的代价Cm，其收益为Γm ？Cm？

Te？Tp.如果精英和大众都放弃反抗，则政府同时剥夺两者的政治权利2Tp ，并从大众那里掠夺经济利益Te.

政府选择{不剥夺精英，剥夺大众}时的报酬函数

下面，考虑政府选择{剥夺精英，不剥夺大众}时的报酬函数。S2与S3的区别在于被剥夺的是精英而不是大众。如果精英和大众同时反抗，则反抗成功，政府、精英、大众的收益分别为T ？C3、Γe ？Ce、Γm ？Cm.如果精英反抗而大众默认，注意此时精英自己受到剥夺，所以它将“全力反抗”，其结果是政府的剥夺行动失败。在这种情况下，政府得到2Tp ，但付出代价Cse ，收益为T+2Tp ？Cse ；精英保住了Te，失去Tp，付出反抗代价Ce，收益为Γe ？Ce？Tp；而大众仅失去Tp，收益为Γm ？Tp.如果精英默认而大众反抗，则反抗失败，政府得到2Tp 和Te，但要付出代价Csm ，收益为T+Te+2Tp？Csm.精英同时失去Tp和Te，收益为Γe ？Te？Tp.而大众将失去Tp，并付出代价Cm，收益为Γm ？Cm？Tp.如果精英和大众都选择默认，则政府的收益与S2相同，但是与S2相比，精英将多失去Te，而大众则少失去Te.

政府选择{剥夺精英，不剥夺大众}时的报酬函数

最后，我们考虑政府选择{剥夺精英，剥夺大众}时的报酬函数。假设政府分别剥夺精英和大众规模为Te的经济利益。按照上述逻辑，我们可以得到这种情况下的报酬函数值。

政府选择{剥夺精英，剥夺大众}时的报酬函数

在此，讨论一下T ？C1、T ？C2、T ？C3、T ？C4的关系。可以合理地假设，在不同的情况下，政府为应付反抗而付出的代价是不同的，这种代价应该与反抗的强度成正比，而反抗的强度又应该与被剥夺的强度成正比。所以有C1T ？C2>T？C3>T？C4.

三、求解模型

我们所构造的博弈模型是一个有限完美信息博弈。Zermelo 和Kuhn证明，一个有限完美信息博弈有一个纯战略纳什均衡。对于有限完美信息博弈来说，逆向归纳法是寻找子博弈精炼纳什均衡的最简便的方法。

在动态博弈过程中，在每一个决策结上，参与者在权衡各种可行行动的成本和收益的基础上做出自己的选择。具体来说，精英将根据Ce与Tp、Te、Tp+Te 的关系进行决策，而大众则根据Cm与Tp、Tp+λTe、Tp+Te 的关系进行决策。为了寻找子博弈精炼纳什均衡，首先，以Ce为横轴，以Cm为纵轴，做一个二维笛卡尔坐标系。然后，用水平线Cm=Tp 、Cm=Tp+λTe、Cm=Tp+Te和垂直线Ce=Tp 、Ce=Te 、Ce=Tp+Te把第一象限划分为一些小区域。最后，运用逆向归纳法分别寻找每一个小区域内的子博弈精炼纳什均衡。

全面掠夺型权威主义国家

在第一类情况下，子博弈精炼纳什均衡为{S4，A ，A}，即政府选择{剥夺精英，剥夺大众}、精英选择{默认}、大众选择{默认}.政府剥夺所有人的政治和经济权利，而被剥夺者则保持沉默。我把这种情况称之为“全面掠夺型权威主义国家”。

“全面掠夺型权威主义国家”出现的条件是：Ce>Tp+Te，或者Cm>Tp+Te并且Tp当Ce>Tp+Te时，精英反抗政府剥夺的代价（Ce）高于因反抗而避免的损失（或默认政府剥夺时所受的损失）（Tp+Te ），因此无论大众采取什么行动，精英的最优选择都是放弃反抗。由于精英放弃反抗，加之大众的单独反抗是无效的，因而无论大众的态度如何，政府都可以放心大胆地掠夺所有的社会成员。

当Cm>Tp+Te时，大众反抗政府剥夺的代价（Cm）高于因反抗而避免的损失（或默认政府剥夺时所受的损失）（Tp+Te ），因此无论精英采取什么行动，大众的最优选择都是默认。由于精英单独反抗最多可以保住Te，但必须付出代价Ce，又由于Te由此可见，只要与被剥夺的利益相比反抗的成本足够高，被剥夺者就将默认剥夺，而政府就可以肆无忌惮地掠夺。

掠夺大众型权威主义国家

在第二类情况下，子博弈精炼纳什均衡为{S2，A ，A}，即政府选择{不剥夺精英，剥夺大众}、精英选择{默认}、大众选择{默认}.我把这种情况称之为“掠夺大众型权威主义国家”。

“掠夺大众型权威主义国家”出现的条件是：TpTp+λTe.

当Tp当CeTp+λTe，即大众与精英同时反抗的代价（Cm）大于因此而避免的损失（Tp+λTe），所以大众不会与精英同时反抗政府。由于精英单独反抗既不能保住Tp，又要付出代价Ce，所以在这种情况下，精英的最优选择还是默认。其结果是政府可以安全地剥夺大众。

需要说明的是，在区域10和区域11中，{S3，A ，A}也是子博弈精炼纳什均衡。当存在多个均衡解时，政府可以在其中任选其一。考虑到政府倾向于保持策略的连续性，因此可以合理地假设它将选择{S2，A ，A}.

最小权威主义国家

在第三类情况下，子博弈精炼纳什均衡为{S1，A ，A}，即政府选择{不剥夺精英，不剥夺大众}、精英选择{默认}、大众选择{默认}.政府满足于剥夺精英和大众的政治权利，而不会剥夺它们的经济权利。我把这种情况称之为“最小权威主义国家”。

“最小权威主义国家”出现的条件是：Tp当Ce如果政府放弃剥夺大众的经济利益，即选择S1，由于Tp权威主义崩溃

在第四类情况下，精英和大众将为保护自己的政治利益而联合反抗政府，而政府又无力镇压这种全民反抗，于是权威主义政治终结。我把这种情况称之为“权威主义崩溃”。

“权威主义崩溃”出现的条件是：Cm当Ce精英勾结型权威主义国家

当Ce只要Te>Tp ？Ce，政府就可以从取自大众的经济利益（Te）中拿出一部分（Δ）分给精英，使得Te >Δ>Tp ？Ce.此时，新的报酬函数为

由于Te >Δ>Tp ？Ce，所以Δ？Tp>？Ce，所以Γe+Δ？Tp >Γe ？Ce.对于精英来说，这意味着，{受贿并默认}要比{反抗}更好。这样一来，政府通过贿赂精英消弭了精英反抗的动机，而精英收受贿赂在之后也就会默认政府对大众进行掠夺。于是，{{贿赂精英，剥夺大众}，精英受贿并默认，大众默认}就是一个新的子博弈精炼纳什均衡。其对应的报酬函数的值为{T+Te？Δ+2Tp，Γe+Δ？Tp，Γm ？Te？Tp }.

历史现实可以帮助我们理解精英勾结型权威主义国家出现的机制。随着市场和经济的发展，精英的势力日益膨胀。当精英的实力足够大时，一方面，他们具有较强的反抗政府的能力，或者说，反抗政府的代价较小，即Ce较小，另一方面，他们对政治权利的要求较强，即Tp较大，于是就会出现Ce在此前的3篇文章中，我已经描述了统治集团“贿赂”社会精英的具体形式。例如，通过不断推进市场化改革，实施鼓励经济发展的政策，禁止独立工会，压制舆论，降低环境标准，政府为经济精英创造了最有利的赚钱环境。通过钱权勾结和裙带关系，政治腐败还为经济精英创造了可观的非法获利渠道，如侵吞国有资产、偷税漏税、走私、骗汇、生产和销售假冒伪劣产品等等。此外，通过吸收入党，安排进入政府、人大和政协，资本家和经理们的“面子”（政治地位的象征）也得到相当程度的满足。再如，通过提供适当的言论空间，进入官僚系统和经商的机会，大幅度提高工资，高标准的就业、医疗、退休保障，政府也满足了知识精英的利益诉求。需要指出的是，这些贿赂形式并非都是统治者处心积虑的设计，有的属于无意为之，有的甚至是无可奈何的妥协或权宜之计。

其他可能情况

如果政府垮台会导致社会失去秩序，陷入全面混乱，其结果是全社会都遭殃，而不仅仅是政府遭殃。对应的报酬函数的值为{T ？C ∞，Γe ？C ∞，Γm ？C ∞}.C ∞表示一种无法承受的代价。而且所有参与者都明确地了解这一点，即形成为一种社会共识。那么，不但是政府，而且精英和大众都将极力避免共同反抗局面的出现，结果是共同反抗不会出现。我把这种情况称之为“政府绑架社会”。在这种情形下，政府就可以为所欲为。因此，聪明的政府总是极力制造自己是秩序的唯一提供者的“共享信念”。

如果精英和大众都已经高度组织化，就存在双方达成事前协议的可能性。在这种情况下，被剥夺的一方可以要求另一方和它一起联合抵制政府，事成之后，它将给后者支付补偿。在这种情况下，政府将放弃剥夺行为，转型成为“最小权威主义国家”。

如果Ce如果精英和大众的实力旗鼓相当，则政府或是同时剥夺两者；或是任选其一进行剥夺，而不剥夺另一个；或是任选其一进行剥夺，同时贿赂另一个；或是放弃任何剥夺企图。根据North 、Weingast和青木昌彦，在这种情况下，也许会出现“民主型国家”或“社会契约的民主型国家”。

如果大众的实力超过精英，则大众将取代上述分析中精英的位置。如果CmTp？Cm，则政府将剥夺精英，并向大众行贿。这意味着，建立社会保障制度或俾斯麦型的福利国家。

我们可以进一步放宽研究的视野。例如，“精英”可以进一步划分为“经济精英”和“知识精英”。这样一来，参与者集合扩大了。但是，只要模型仍然是有限完美信息动态博弈，就可以运用同样的方法求解，只不过求解的过程稍微复杂一点而已。

只要重新定义参与者、行动策略和报酬函数，模型可以适用于计划时期的中国大陆。例如，可以用“城市”（或“工业部门”、“市民集团”）代替“精英”，用“农村”（或“农业部门”、“农民集团”）代替“大众”等等。根据同样的逻辑，我们可以发现，政府将倾向于采取{不剥夺城市，剥夺农村}或{贿赂城市，剥夺农村}策略。同样，经过适当调整，我们的模型也可以分析建国前后的“土地改革”和“社会主义改造”运动。在这种情况下，“精英”可以是“地主”、“资产阶级”或“知识分子”。根据同样的逻辑，我们可以发现，在计划体制下或为了建立计划体制，政府必然倾向于选择{剥夺精英，不剥夺大众}或{剥夺精英，贿赂大众}策略。

四、博弈论模型传达的信息

本文所作的一切，不是为了把已有的思想“翻译”为数学语言，即仅仅用博弈论术语重新表述过去的思想。实际上，这种分析能够为我们提供许多重要的“新知识”。它不但可以帮助我们加深对现行政治结构的理解，也可以加深我们对政治演变历史的理解。

改革之初，在计划体制下，政府实施的是{贿赂城市，剥夺农村}策略。从计划到市场的经济转型彻底改变了博弈的外生规则。参与者变了，报酬函数也变了。在20世纪80年代，相对于毛时代，政府采取了{不剥夺精英，不剥夺大众}策略。这一策略的另一种标准表述形式为“放权让利”，即政府同时降低了对精英和大众的剥夺程度。但是，由于市场化改革带来了巨大的增长效应，这一时期，政府的收益并没有因为“放权让利”而减少。这是一个“三赢时代”，即政府、精英、大众的收益同时提高。由于受到“八九风波”的刺激，90年代初期，政府转而实行“全面剥夺”策略。但是，这一策略很快就被它的制定者主动放弃了。在全球化时代，对于一个严重依赖经济增长为自己提供合法性的政府来说，剥夺精英无异于自取灭亡。于是，90年代中期以后，聪明的政府转而采取{贿赂精英，剥夺大众}策略，即统治集团与社会精英勾结起来掠夺大众。这样一来，中国大陆就演变为“精英勾结型权威主义国家”。在此前的3篇文章中，我把这一时期的群体关系称为“精英联盟”，并用“赢家通吃”概括它的利益分配效应。

那么，关于“精英联盟”博弈论还告诉了我们什么新的东西？博弈论主张，思考制度的最合理的思路是将它概括为一种博弈均衡。此前的分析表明，以市场和权威主义政治作为外生变量，那么精英联盟——精英勾结型权威主义国家——就是一种内生博弈规则。根据博弈论所揭示的纳什均衡的基本性质，我们可以指出和解释精英联盟的一系列重要属性。

首先，精英联盟是稳定的。在博弈论看来，作为纳什均衡的精英联盟实质上就是一种特殊的策略组合，它使得每个参与者的策略是对其他参与者策略的最优反应。而且精英联盟是一种帕雷托最优状态，即任何参与者都不可能在不损害其他参与者利益的条件下改善自己的利益。这也意味着，社会一旦进入这种状态就很难从中摆脱出来，或者说精英联盟具有很高的稳定性。

其次，精英联盟是自我实施和自我维系的。纳什均衡是所有参与者关于博弈将会如何进行的“一致”预测。也就是说，纳什均衡能够使参与者预测到它，而且能预测到他们的对手也能预测到它。既然所有参与者能够预测到这一均衡（精英联盟）会出现，而且这一均衡又属于帕雷托最优，那就没有任何参与者有动力采用与该均衡不同的行动。在这种意义上，精英联盟就是“自我实施的”。同时，精英联盟也是自我维系的。参与者基于共有信念而做出的决策共同决定了均衡的再生，均衡的再生反过来又强化了共有信念。这样一来，制度成为自我维系的。其实，制度作为一种均衡现象，只要别人不忽略它，任何人都不敢违抗它的权威，从而对人们的策略选择构成影响。

最后，建立精英联盟需要时间。博弈规则的有效性依赖于参与者是否共享某种关于博弈将如何进行的“知识”或“信念”。那么，参与者的完全信息和共享信念来自哪里？答案是，来自经验，来自学习，来自实践中的学习过程。在我们的分析中，参与者被假定为是完全理性的，而且拥有完全信息，可以预测自己和其他参与者的所有选择及相应的结果。这是古典博弈理论的基本假设。但是，实际上，现实中的博弈参与者却并非如此。他们仅仅拥有有限的信息和理性，并根据自己以往的经验进行归纳推理。针对这种情况，进化博弈论假设，在每一个特定的时期，参与者的信息是有限的，而且他会根据以往的经验做出当前的决策，以实现眼前利益的最大化。正是通过从经验中学习，参与者才有可能积累起越来越丰富的经验，发展出越来越有效的分析能力，进而逐渐逼近“完全信息”和“完全理性”状态。其实，古典理性观点的均衡概念大致上可以理解为是学习的产物。

学习是需要时间的！学习的重要性意味着建立精英联盟需要相当长的时间。这就解释了，为什么直到20世纪90年代中后期精英联盟才出现。实际上，直到90年代中后期，全体社会成员才大致了解了与博弈有关的“完全信息”并建立了“共享信念”。在80年代，所有的参与者都缺乏信息，不理解身处其中的现实，不理解自己，也不理解自己的对手，也就是说，不了解全新的外生博弈规则。经历了80年代持续的动荡，特别是经历了“八九风波”，所有的参与者都从自己的经验中学到了许多东西，逐渐掌握了充分的信息，建立了共享的信念。正是通过持续地学习，参与者得以积累知识、完善策略、并使博弈逐步达到均衡状态。在本文中，精英联盟是完全信息古典型动态博弈的子博弈精炼纳什均衡，但是，在现实中，精英联盟却是一个典型的不完全信息进化博弈均衡。其实，这并不矛盾。在一些情况下，博弈论的古典分析方法和进化分析方法会导致相同的模型解。博弈论已经证明，进化均衡总是纳什均衡，而且进化均衡一旦建立，要想把它和子博弈精炼均衡的内在状态区分开来将是非常困难的。

至此，我们可以回答第一节中提出的问题了。我的答案是：精英联盟不是偶然的，它是社会主义转型时期的必然现象。精英联盟不是统治者单方面强加于社会的，而是所有社会集团共同缔造的。精英联盟不是统治者愚民政策的成果，而是拥有完全信息的所有社会成员共同选择的结果。精英联盟不是一相情愿的“人为的设计”，而是一种在很大程度上不可避免的“自发的秩序”。它不但是内生的，也是自我实施和自我维系的。同时，精英联盟也是非常稳定的，一旦形成就很难被打破。

如果要用一句话总结本文的核心思想，那就是：精英联盟是市场和权威政治联姻的产儿。也就是说，只要一个国家实行市场经济，而且保持权威主义政治，那么就很可能会出现“精英联盟”。

2003年4月10日，修改稿

注释：

1康晓光，“未来3~5年中国大陆政治稳定性分析”，《战略与管理》（中国北京）2002年第3期，第1~15页；康晓光，“90年代中国大陆政治稳定性研究”，《二十一世纪》（中国香港）2002年8月号，第33~45页；康晓光，“中国：改革时代的政治发展与政治稳定”，《当代中国研究》（美国普林斯顿）2002年第3期，第29~59页。

2Weingast，B.（1993），"Constitutions as Governance Structures：The PoliticalFoundations of Secure Markets"，Journal of Institutional and Theoretical Economics149：286~311；Weingast，B.（1995），"The Economic Role of Political Institutions：Market-Preserving Federalism and Economic Development"，Journal of Law，Economicsand Organization 11：1~31；Weingast，B.（1997），"The Political Foundationsof Democracy and the Rule of Law"，American Political Science Review 91：245~263.3[日]青木昌彦，《比较制度分析》，上海远东出版社，2001年。

4[美]朱·弗登博格、[法]让·梯诺尔，《博弈论》，中国人民大学出版社，2002年，第80~81页。

5逆向归纳法要求，从最后一个决策结开始倒推，每一步都要剔除在该决策结上参与者的劣选择。这就保证了，在均衡路径上，每一个参与者在每一个信息集上的选择都是占优选择。其实，逆向归纳法就是重复剔除劣战略方法在扩展式博弈中的应用。

6在图3中，“贿赂”相当于把垂直线Ce=Tp 向左水平移动了Δ距离，而且Tp？Δ7参阅：North ，D.and Weingast，B.（1989），“Constitutions and Commitment：TheEvolution of Institutions Governing Public Choice in Seventeenth-Century England”，Journal of Economic History 49：803~832；Weingast，B.（1997），"The PoliticalFoundations of Democracy and the Rule of Law"；[日]青木昌彦，《比较制度分析》，第160~164页。

8青木昌彦给制度下的定义为：“制度是关于博弈如何进行的共有信念的一个自我维系系统。制度的本质是对均衡博弈路径显著和固定特征的一种浓缩性表征，该表征被相关域几乎所有参与人所感知，认为是与他们策略决策相关的。这样，制度就以一种自我实施的方式制约着参与人的策略互动，并反过来又被他们在连续变化的环境下的实际决策不断再生产出来。”参阅：[日]青木昌彦，《比较制度分析》，第28页。

9这一论断对处于不利境地的大众也是正确的。大众当然不希望自己受到剥夺，但是考虑到力量对比格局，考虑到弱肉强食的逻辑，它知道与其进行徒劳的反抗，还不如接受被剥夺的现实，这样至少还能避免无谓的牺牲。所以，接受被剥夺的命运就是大众的最优选择。也正因为如此，它才能接受被剥夺的命运。

10制度不是“宣布”的结果。一种制度，只有当所有的当事人真的相信并遵从它时，才能真正地成其为有效的制度。成文法、条例、命令，如果没有人把它们当回事，它们就不构成制度。在我们的现实生活中，真正有效的制度往往并不像官方宣传的那样，其真实面目需要富有洞见力的思想家来揭示。

11参阅：[日]青木昌彦，《比较制度分析》，第194~200页。

康晓光：作为内生博弈规则的精英联盟——关于当前中国大陆政治结构的博弈论解释

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏