雷磊：司法人工智能无法实现司法公正

摘要：司法人工智能具有人类法官不可比拟的优势，但也具有不可克服的缺陷，即无法应对不确定性，不具有人类常识常情，以及无法进行价值判断。司法人工智能的基本运行逻辑是基于历史数据基础上的预测，既包括基于类案裁判之历史数据的同案预测，也包括基于法院或法官个人裁判历史数据的个性预测。在同案预测中，司法人工智能有助于实现司法统一，但不一定能实现同案同判或依法裁判意义上的形式正义，更可能与实质正义相矛盾。在个性预测中，“法官画像”的现实主义逻辑可能与实体公正背道而驰，“买卖法官”的商业偏好逻辑必然侵蚀程序公正的理念。因此，司法人工智能无法实现司法公正，目前它的合适定位就是司法裁判活动的辅助手段。

关键词：司法人工智能；实体公正；程序公正；同案预测；个性预测

人工智能技术在司法领域的应用已成为我国国家信息化发展战略的重要支点。2016 年 7 月发布的《国家信息化发展战略纲要》提出建设“智慧法院”，推动执法司法信息公开，促进司法公平正义。2017年 4 月，最高人民法院印发《最高人民法院关于加快建设智慧法院的意见》指出，智慧法院是人民法院充分利用先进信息化系统，支持全业务网上办理、全流程依法公开、全方位智能服务，实现公正司法、司法为民的组织、建设和运行形态。在第十三届全国人大五次会议上，《最高人民法院工作报告》将“深入推进司法体制改革和智慧法院建设”作为独立板块，视为“坚持体制改革和科技创新双轮驱动”“人民群众对司法公正的获得感不断增强”的重要表现。

有法官指出，在司法领域，“人工智能的运用能够极大地减少人力的重复运用，减少人为因素对司法公正的干预，极大地提高司法活动的效率”。这种观点极具代表性。几乎没有争议的是司法人工智能对于司法效率的提升，以及对“案多人少”矛盾之解决方面的重要意义。但有疑义的是，司法人工智能能否实现司法公正这一价值目标? 当然，如果承认司法公正是一种有着不同实现程度的价值诉求的话，那么，司法人工智能在何种意义和范围内能否促进司法公正? 与司法效率可以依靠实证研究得到检验不同，司法公正主要是一种理论判断，需要深入人工智能的技术逻辑，看其与司法公正的理念是否匹配。

什么是司法公正？

广义上的司法公正涉及到司法程序的各个领域和各个方面，与司法的权威性、司法活动被社会伦理的认同程度、司法制度的宏观构架，以及司法程序的合理性相关。相反，狭义上的司法公正主要涉及司法裁判活动。司法裁判是一项价值取向的活动，司法公正是司法裁判的价值诉求。一般认为，判断现代司法是否具有公正价值，就是要看它是否既具有司法结果公正价值，又具有司法程序公正价值。由此，司法公正就包含两种类型，即实体公正与程序公正。并且通常认为，实体公正是司法公正的根本目标，程序公正是司法公正的重要保障。程序公正注重诉讼过程的公平，其最重要的原则是程序自治和当事人获得同等对待。程序中的法官要做到对各方态度相同、权利相同和机会相同。所以，当事人是否获得了参与诉讼的机会，诉讼过程中陈述、举证、辩论的权利是否得到了同等关注，法官对双方当事人是否一视同仁而无任何偏颇，是否同等地考虑和评价了双方当事人的主张和证据，就成为判断程序公正与否的主要标准。程序上的步骤与方式的设计一方面是出于对实体公正结果预望值的确保，另一方面是则是基于程序的固有内在价值( 程序价值) 之上。

相反，实体公正更多与裁判结果相关，具体而言又包括形式正义与实质正义两方面。形式正义既包括平等，即同样事物同样对待，也包括法的安定性。法的安定性大体又囊括这几层含义: 其一，公民可以基于法律获得关于其法律地位以及这一地位之法律条件的信息( 可知性) ; 其二，公民可以确凿地依赖这类正确的信息来行为( 可靠性) ; 其三，公民可以预见到政府官员所作之具体法律决定的可能( 可预测性) ; 最后，政府官员必须遵循现行有效的实在法，必须以事前确定的一般性法律规范为司法、执法的依据，他们的裁量权要受到约束( 可约束性) 。2在这几层含义中，最核心的是可预测性要求。形式正义落实为法官的义务就是“依法裁判”，因为依法裁判原本就蕴含依照事先颁布的一般性规则来处理案件的要求，“事先颁布”就意味着裁判标准的“可视化”，而“一般性规则”则意味着同案同判。当然，依法裁判的另一面向就是法官受制定法的拘束。这表明，通过制定法表达的价值实现的方式和方法对法官有约束力，因为未公开的条款、对法律续造的需求或具体案件中出现的法律矛盾，都使得法官必然诉诸立法者的评价( 目的解释) 。同时，法官对正在适用的规则的目的之直接渗透，使得他们也参与了法律的塑造。

与立法者不同，法官的这种塑造活动不是在一般意义上进行，而是“逐案”进行。正如德国法学家拉伦茨所说的: “法学所关心的不仅是明确性及法的安定性，同时也致意于: 在具体的细节上，以逐步的工作来实现‘更多的正义’。”因此，法官需要在个案中来考量一般性规则的适用，为此要考虑到适用情境的诸多要素，也包括裁判结果之社会效果关照下的公正观。反映在法官的义务上，就是要兼顾“个案正义”。司法裁判中的个案正义与一般的正义观念相比具有两个特征: 一则它是具体正义而非抽象正义，二则它是法律正义而非纯粹的伦理正义。一方面，个案正义是具体个案中体现出的实质正义。实质正义涉及实质价值或道德考量。实质价值或道德考量是有一定范围或受到限制的，它们应当来源于司法裁判所处国家或地区中流行的或符合大多数人道德观念的主流价值观或社会公正观，而非法官个案的公正观。但是，社会公正观又难以明确表述为或“编码为”一套明确的规则，它往往融合了社会不同层面的情理，是一种同理心正义。同理心正义是一种多元、动态正义。在此，个案情境尤为重要。情境的不同，决定了移情的经验和体验自然也不同，这就造成了司法公正内涵的复杂多样。个案正义的一个最为核心的特征，在于它的“个案性”。换言之，以个案正义形式出现的实质正义往往无法一般化和规则化的处理，它总是要面对每个不同个案的不同情况，面对事先所未曾预料的不确定性。建立在不确定性基础上的“因时制宜”“因地制宜”“因事制宜”的实践智慧、权宜考量和共情能力，正是司法活动中实质正义的重要特征。另一方面，个案正义是法律正义，它既要顾及社会的道德观念，也要顾及已经制度化了的价值，也就是得到法律制度支撑的价值判断，例如法典和单行法的总则部分所规定的基本原则和价值。

因此，司法公正是司法领域的一种统合性价值诉求，既包括实体公正，也包括程序公正，既包括形式正义，也包括实质正义。

司法人工智能的运行逻辑及其缺陷

人工智能研究有大量不同的技术途径，其中得到最多研究、占据主导地位的两大途径是强力法和训练法。强力法的基本原理是: 第一，根据问题的精确模型，建立一个搜索空间; 第二，压缩搜索空间; 第三，在压缩空间中枚举所有选项，找出问题的一个解。强力法的基本前提是: 待解问题存在一个良定义的精确模型，且该模型默认为某种符号模型，以逻辑形式化、概率形式化和决策论形式化为主导模型。强力法又包含推理法和搜索法两种主要类型，搜索法是在状态空间中进行搜索( 如蒙地卡罗树搜索) ，推理法则是在知识库上进行推理，通常由一个推理机和一个知识库组成，推理机是专业团队研发的负责推理的计算机程序，知识库则需研发者针对不同应用自行开发( 专家知识库) 。训练法的工作原理是，用一个人工神经网络表示给定问题的输入输出格式( 元模型) ，然后用大量标注数据去训练这个元模型，即调整这个人工智能神经网络的连接权重，从而得到一个具体的亚符合模型。这种训练遵从数据拟合原理。训练集中的每个样本包含着已对输入值和期望的输出值，训练过程中反复比较被训练的人工神经网络的输出值与训练样本标注的期望的输出值之间的偏差，用监督学习算法调整元模型的参数( 即人工神经网络中的连接权值) ，努力让总体偏差尽量小。可见，强力法是用知识和推理解答问题，要求针对某应用场景编写相关的知识库，然后用推理机回答问题; 训练法则要求首先采集、制作训练数据集，训练出一个合格的神经网络，然后用该网络回答问题。

强力法利用显式表达的知识进行推理来解决问题，所以是可解释的，而训练法利用人工标注的数据训练人工神经网络( 或其他隐式知识表示模型) ，用训练好的人工神经网络来解决问题，不具有可解释性。将强力法和训练法应用于司法裁判，就相应产生了两种人工智能运行方式: 一种是显式编码、封闭规则的算法，通过法律专家系统实现对人类法律推理的模拟并将之应用于司法裁判的决策; 另一种是机器学习算法，通过大数据分析训练，发现人类司法裁判的内在规律，并将之应用于对未来裁判的预测。后者是人工智能和司法大数据相结合的产物。

在大数据时代，司法人工智能运行的基本原理是，将开放的司法数据通过自然语言处理后，输入机器学习的算法之中，然后得出一种或多种用于预测或预见案件胜诉或败诉可能性的模型。这个算法的目标并非复现法律推理，而是寻找判决中各个参数间的相关性。事实上，机器学习算法能做的，只是通过一种自动化的方式用多种预设配置将一组观测值( 输入值) 与一组可能结果( 输出值) 关联起来。它在组成司法判决的不同词汇组之间构建分类链接: 输入阶段的特定词汇组( 表征案件事实) 对应于输出阶段的特定词汇组( 表征裁判结论) 。它的基本原理近似于“讯飞”这样的机器翻译系统，只能在一组词汇和已经完成的译文之间对最佳匹配作可能的估计值，而无法真正“理解”所处理的句子的意思。强力法与训练法的区别只在于: 在前者那里，哪些输入值( 案件事实特征) 与输出值( 裁判结论) 相关是通过计算机程序或者说人为预先设定的，司法人工智能只负责按照设定的模型来进行计算; 而在后者那里，与输出值( 裁判结论) 相关的输入值( 案件事实特征) 由人工智能通过训练自行学习获得，至于是基于什么模型算法得到结果( 输出值) 对于外部来说则是不透明的。但两者的基本运行逻辑并无二致，即基于封闭场景进行价值中立的被动应用。

这也导致现有司法人工智能技术( 其实是一般意义上的人工智能技术) 具有如下三个特点: 一是封闭性。在推理法上，封闭性表现为: 存在一组固定、有限的知识，就可完全描述给定的应用场景。在训练法上，封闭性表现为: 可用一组固定、有限、带人工标注的代表性数据，完全描述给定的应用场景。因此，一个应用场景如果具有封闭性，则应用人工智能的强力法或训练法技术，可以保证应用成功; 如果不具有封闭性，则不保证应用成功( 也未必失败) 。二是被动性。现有人工智能技术不具备主动应用的能力，只能被动被人应用。即便是训练法中，人工智能具有所谓“自主”学习能力，甚至深度学习能力，那也只有在人类给定问题的输入输出格式，事先标注好训练数据集并在封闭性场景( 如“下围棋”) 的前提条件下的学习。这种所谓的“自学”完全由设计者事先安排好，并非通常人的自学。三是价值中立。也就是说，人工智能技术本身无所谓善恶，人对它们的应用方式决定其善恶。以推理法为例，推理机给出的回答会不会对人有害，完全取决于知识库是否包含可能隐含不良后果的知识。由于知识库由人编写，所以是设计者决定了推理法的具体应用的善恶。

由上述不难看出，虽然司法人工智能具有人类法官不可比拟的优势，即数据搜索、比对、关联的迅捷性和准确性，但也具有不可克服的缺陷:

首先是无法应对不确定性。人工智能技术应用成功所需的封闭性使其在面对非预期输入时具有脆弱性。强力法无法绕过人工建模，不确定性对强力法的三方面挑战也是对其建模的挑战:一是对象的不确定性。现实世界中，一个对象往往存在不可预测的很多“变体”，试图在建模中穷尽一个预期对象的所有可能应用场景中出现的所有变体，在工程上是不可行的。例如，尽管可为“正当防卫”建立典型案例，但却无法事先就穷尽正当防卫的所有情形。二是属性的不确定性。现实世界中，属性往往是含混的和场景相关的。一旦给出一种属性的任何良定义的形式化描述，就意味着人为限定了该属性的一部分可能场景，舍弃了该性质的另一些可能场景。因此，用形式化方法建模原则上无法保证覆盖实际应用中可能遇到的所有场景。例如，案件“情节恶劣”意味着什么?这类评价开放的概念很难被固定为数量有限的操作性标准。三是关联的不确定性。现实世界中现象是相互关联的，一个现象可在不同场景中具有不同属性，关联于不同对象，并具有无法预测的关联方式。人工智能系统的模型无法预测或描述现实世界中所有可能的关联，当人工智能系统在实际运行中遇到模型未表达的关联时，就无法有效应对。例如，推理模型可能将“向他人开枪”现象关联于“故意杀人”，甚至也关联于“正当防卫”，但却没有将“作战”或“执行死刑”这些关联包含进来。训练法绕过了人工建模，但它的性能依赖于海量数据及其人工标注的“质量”( 数据+标注) ，而这种质量的保证来源于“采样一致性假设”，也就是全体采样样本的概率分布和实际采样样本的概率分布之间的一致性。但实际采样可能未包含必要特征点，所以这个假设在实际应用中无法保证。司法裁判的场合就是这样一个非封闭性的场合，它要面对现实世界的诸多不确定性。

其次是不具有人类常识常情。人类具有复合型的知识和复杂的推理能力，而这其中有很大一部分属于“通用型”的常识常情。一个人可能兼具多重身份，例如“法官”( 在裁判活动领域) 或者“棋手”( 在棋类比赛中) ，但他首先是一个“人”。不管他从事哪个领域的活动，除了专业知识和能力外，他还会将其作为人所拥有的社会常识常情带入它所从事的任何活动。这种常识和常情属于现实世界的、跨越任何专业领域的底层知识和逻辑，很多时候往往是默会的。但人工智能恰恰不具备这类常识常情，所以阿尔法狗可以战胜人类棋手( 因为这只需专业知识和对于胜率的计算) ，但却“不知道”棋子是不可以吃的。因为人与人工智能是完全不同的“物种”，两者做事的难易程度往往恰好相反———对人容易的往往对人工智能难，对人难的( 如下围棋) 往往对人工智能容易。所以人工智能下棋赢了人类，绝不等于人工智能在对人类更容易的事情上也能赢人类。所以在司法裁判活动中，哪怕是只需要常识常情作出判断的简单案件，对于人工智能来说也可能是难的，因为归根结底，目前并没有可以全盘模拟人类智能( 对常识常情部分领域加以计算的) 的通用人工智能。

最后是无法进行价值判断。现有人工智能技术不会自主地形成“价值判断”，更不会基于这种价值判断作出决策。法律人并非将法律规则视为静态的法律表述，而是将它们视为用来追求特定目的的手段。相反，人工智能无法理解不同论据的“意义”，以及这些论据与特定结论间的“支持”或“反对”关系。尤其是在疑难案件中，法官往往要超越法律文本，进行复杂的价值权衡。价值权衡并非计算，无法被量化处理，也无法被代码化。所以疑难案件往往就成为算法系统无法预期和应对的异态。

总的来说，司法论证包括两个步骤: 一是将结果性事实与原因性事实联结起来，二是将这种原因性事实涵摄于规范的构成要件，并将特定法律后果与之联结起来。两种联结分别涉及因果关系和归责关系。而司法人工智能其实是将这两个步骤化约为简单的数据关联，也即从结果性事实( 输入值) 与特定法律后果( 输出值) 直接联结起来，将之上升为通则性的算法规则。这种联结并不是“推理”，而是基于历史数据的预测。司法人工智能进行的预测又包括两种:一种是基于先前所有同类案件的历史数据来预测当下案件的裁判结果( 同案预测) 。至于裁决这些先前同类案件的具体主体( 法官) 是谁，对于这种预测来说并不相关。另一种预测是基于法院或法官个人裁判的历史数据来预测当下案件的裁判结果( 个性预测) 。比如商业公司推出基于法官“画像”的判决书大数据应用产品，也即利用法官过去对同类案件的判决轨迹对其裁判行为进行分析和预测。以下就分别对这两种预测与司法公正的关系进行论述。

同案预测: 司法统一等于司法公正吗?

同案预测是基于类案裁判之历史数据的预测。通常认为，司法人工智能有助实现同案同判，进而同案同判就表征司法公正。但这两个判断都不成立。

( 一) 司法统一即同案同判?

如前所述，司法人工智能的应用原理是基于历史数据的预测。换言之，它将司法裁判的重心置于对过去裁判的模仿上，也即持一种历史决定未来的思路。而这种思路符合人工智能成果的技术条件必须符合的封闭性准则。具体而言，如果一个应用场景符合以下条件，则该场景对于强力法是封闭的: ( 1) 该场景的设计规范可以用有限多个确定的因素( 变元) 完全描述，而其他因素可以全部忽略; ( 2) 这些因素共同遵守一组领域定律，而这组定律可以用一个人工智能充分表达; ( 3) 相对于该场景的设计规范，上述人工智能模型的预测与实际情况足够接近。如果一个应用场景符合以下条件，则该场景对于训练法是封闭的: ( 1) 存在一套完整、确定的训练评价准则，这套准则充分反映了该应用场景的设计规范; ( 2) 存在一个有限确定的代表性数据集，其中数据可以代表该场景的所有其他数据; ( 3) 存在一个人工神经网络 ANN和一个监督学习算法，用该算法和代表性数据集训练ANN 后，ANN 将满足评价准则的全部要求。在司法裁判这一应用场景中，对于待决案件被裁决的这一时刻点而言，同类案件的历史数据是有限的。封闭性条件能够确保基于有限历史数据的裁判保持统一性，也即实现统一裁判( 司法统一) 。但问题在于，司法统一就意味着同案同判吗? 未必如此。关键在于何谓“同案”无法或不应由人工智能系统自身决定，这里既有技术方面的原因，也有理论方面的原因。

技术方面的原因主要仍在于前文所说的不确定性挑战。这可以通过人工智能的运作模型来阐明。人工智能的运作模型涉及三层空间，即现实层、数据层和知识层。其中底层是数据层，就是人类的现实世界，是非常复杂、模糊和具象的。中间层是数据层，其中的数据是通过各种数据采集手段( 如人工采集和机器感知) 而从现实层获得的，这一层是抽象的、格式化的。在数据采集过程中，一部分信息被搜集起来，同时现实中无限多信息被丢弃了。在数据层上，经过人工建模或通过机器学习可以得到知识，知识是结构化的、包含语义的。在知识层上可以进行自然语言处理、推理、规划、决策等。[10]在此，从现实层跃升到数据层和知识层有两种方式，一种是通过人工构造，另一种是通过机器自主感知。

在人工构造数据库和知识库的情形下，4数据库的完整性或者说采样的全面性会影响“同案”判断。因为机器裁判的可靠性很大程度上取决于它所使用的数据的质量和对机器学习技术的选择。例如，目前在机器学习的刑事案例库中，纳入到样本库的基本上都是有罪判决，而中国的无罪判决事实上非常低以至于“趋零化”。以有罪判决样本为基础构建起来的数据库，几乎不可能智能化地预测出无罪判决。换言之，决定哪些案件数据“纳入”样本库，从而成为机器学习样本的依然是具有主观意志的人。当然要指出的，“标注样本”只是经典训练法的特征。但大数据时代的训练法可能不再任何人工标注了。5但无论如何，在司法裁判中，训练法的应用总是要以司法案例库为运作基础，而司法案例库无论如何有赖于人类建立。在另一种方式中，智能机器人自主感知现实世界，获得数据，从中抽取知识，并利用知识进行理解、推理、规划、决策，产生机器人行动，并在现实层中加以执行。智能机器人的运行形成一个完整的闭环，也即从现实层到现实层，所以现实层包含的不确定性会对机器人产生不可忽视的影响。于此，人工智能系统在知识层形成的问题模型只能覆盖现实层的一部分，至多在其范围内产生正确解。而面对不在此覆盖范围内的非预期输入，很可能产生错误解，例如皮肤病诊断人工智能系统会将一辆生锈旧卡车“诊断”为得了麻疹。目前还有没可相比拟的“司法机器人”，能够直接感知( 听审) 现实案件并作出裁判，所以这条路径至少目前在司法领域还不可行。当然，技术问题之所以为技术问题，就在于它有被解决或接近解决的可能性。例如随着全样本案例库的建立，采样问题就可能会在相当大的程度上得到解决。再比如，随着深度学习能力的进一步提高，人工智能系统问题模型覆盖现实层的范围可能会越来越大。但只要通用型人工智能没有诞生，将“生锈旧卡车”和“麻疹”判断为同案的可能性就依然存在。

相对来说，司法人工智能要面对的理论挑战更为根本性。理论方面的原因主要是“同判”判断本身的价值负载性。“同案同判”中的“同案”指的是“同类案件”，也即属于同一类型的诸案件。世上不存在两个完全一样的案件，并不存在什么固有的、实质上的或原本的“同案”。“同案”还是“异案”取决于判断的视角，而法律上的“同案”判断取决于法律的视角。因此，两个案件是否属于同一类型，主要看它们之间是否具备相关相似性，而相关相似性的判断标准则是由法律自身来提供的。法律不仅是语词的系统，也是意义的系统，它将特定法律后果归属于特定事实要件之下。所谓的“相关相似性”，不仅指两个案件事实层面上存在相同要素，也指两个案件在“这些相同要素与法律后果相关”的意义上被法律等同评价。而能否被法律作等同评价，则要依据法律文本背后的法律目的。相对于法律目的而言，对案件事实之可能描述的多样性要受此控制，即将为识别案件而进行的相关描述限于既有法律中已经包含的那些描述。“同案”就是可被涵摄于相同法律规则之下的案件，也即满足了同一法律描述的案件。[20]这就要求法律适用者理解法律文本的目的或意义。只有在法律所欲追求或评价的要点上具有相同意义，即意义同一性的，才属于同一类型( 同案) 。意义不是事物外在的物理特征，因而类型判断不是一种“物性的思考方式”，而是一种意义同一的探求; 不是两个案件的数个甚至全部的单列特征相同，而是由形形色色的特征组合构成的“整体性关照”。6

人工智能恰恰无法对意义进行整体性判断和关照。因为人工智能系统尽管可能实现数据的最佳匹配，却无法“理解”它所处理的语句意思。认知计算技术无法在人类阅读的意义上阅读文本，它具有的是智能处理文本的技术、识别与问题相关的那些元素的技术，以及以适当方式引起用户注意的技术。这里的突出表现就是，它无法避免建立“错误的相关性”，即两个案件尽管具有事实特征上的相似性，但这种相似性却不具有法律意义或不应与法律后果发生关联，而机器学习算法却将其当作了“链接”法律后果的前提。例如，假如( 一批) 前案中( 都) 出现了“黑人”“女性”等要素，而待决案件中也存在，智能系统就很可能将它们识别为相关特征，并将前案所确定的法律后果与待决案件链接起来，并将之作为一个通行的法则( 如“黑人女性诈骗的重判”) 。但事实上，无论相关法律规范还是处理前案的法官都没有意图将它们作为与判决结果相关的事实特征来对待。这里就发生了所谓“算法歧视”问题。准确说，我们无法说“算法歧视”是一种真正的“歧视”，因为当智能系统作这种链接时，它并非有意为之———它压根就不具备人类自由意志意义上的认知和理解能力。它所作的，无非是数据之间的关联匹配而已。

因此，“同案”本身就是进行价值判断( 法律上的相似性) 的结果。这种判断只能由人类法官来进行，而无法交由不具备价值判断能力的机器。当然，这种判断也未必能够完全客观化，或者说在每一场合都达成共识，因为不同法官对于同一法律文本的意义和目的是什么，不少时候也会发生分歧。但即便存在个人价值判断的余地，从而不同法官对同样两个案件作了不同判断，也不影响同案同判原则本身。因为此时通常支持同案的法官会主张同判，而否认同案的法官会主张异判，他们的分歧只在于“法律的要求”究竟是什么。[22]甚至可以说，保留一定的分歧余地正是司法创新的前提。然而，基于大数据发掘产生的历史平均判决，会被不自觉地等同于“最优判决”，客观上潜在地形成一种要求法官向其靠拢的压力。也就是产生这样的默示推导方式: ( 1) 以前的案件都是这么判的; ( 2) 所以，这种裁判就是最佳的; ( 3) 所以，待决案件的法官也应这么判。显然，这里犯了从“是”推导出“应当”的谬误。过度地向平均数靠拢将会从根本上限制司法场景中基于价值变化或理念调整而进行的“创造性演变”，[23]消灭司法创新的空间。

( 二) 同案同判即司法公正?

退一步讲，即便司法人工智能能够实现同案同判，那么同案同判就一定意味着司法公正么? 未必如此。同案同判是依法裁判的衍生性义务，如果我们将依法裁判之“法”理解为一般性规则，而“一般性”又意味着“相同情况相同处理”的话，那么“依据一般性规则进行裁判”本就包含着同案同判的要求。同时，“等者等之、不等者不等之”，或者说“相同情况相同处理、不同情况不同处理”也寓意着平等，或形式正义。所以，就像哈特所说: “正义概念的一个基本要素就是同案同判原则。这是法律实施的正义，而非法律本身的正义。”因此，依法裁判( 包含作为其衍生性义务的同案同判) 是形式正义的体现，这也是( 实体公正意义上的) 司法公正的最低限度的要求。而之所以要在依法裁判之外另行提出同案同判，是因为同案同判具有“溢出”依法裁判之外的表征性价值，也即形式正义的可视化和可预期性的显现化。换句话说，它是司法公正的一种价值符号。

但是，“表征性价值”或“价值符号”并不等同于价值本身。除了“可视化”和“显现化”等社会效果外，同案同判在司法公正中并不具备独特的价值地位，它依然只是形式正义组成部分。因此，同案同判代表不了司法公正的全部。这里包括两种情况:

一种情况是，同案同判可能会与“依法裁判”的要求发生矛盾。同案同判是依法裁判的衍生性义务，但并不等同于依法裁判。两者发生背离的可能原因有二: 一是过去的裁判是错的，也即并没有依据当时有效的法律规则进行裁判。在这种情形下，先案的判决是违法裁判的结果，但却具有了既判力。此时同案同判的要求与依法裁判的要求发生了冲突。无疑，此时应该摆脱依据先案进行裁判的要求，径直依据法律的要求作出不同裁判。同案同判是形式正义的要求，依法裁判同样是形式正义的要求( 因此在此并没有去追问法律的内容本身是否合理、正当) 。当两种形式正义的要求存在张力时，依法裁判要优于同案同判。因为是依法裁判，而非同案同判，构成了司法的构成性义务。作为构成性义务，依法裁判是司法裁判活动不可放弃的，是后者的必要条件。放弃了依法裁判，司法裁判就不是“司法”活动了。依法裁判是司法裁判的普遍和一般的性质，而同案同判只是司法裁判的一个面向或具象化的展现。二是先案裁判所依据的法律规则被废除，或者虽未被废除，却与后来所颁布的同位阶或更高位阶的法律规则发生了冲突。这里的情形是，过去的裁判的确是依据当时有效的法律规则作出的，并没有违背“依法裁判”的要求，并在此意义上是对的。但由于后来的法律变更，先案裁判要么直接丧失了裁判基础，要么根据“新法优于旧法”“上位法优于下位法”的准则间接丧失了裁判基础。后案就不得按照前案裁判，而要根据新的裁判依据来作出，这样才算落实了依法裁判的要求。

另一种情况是，同案同判可能会与“个案正义”的要求发生矛盾。这种情况下，同案同判并不与依法裁判的要求相矛盾，但却会在待决案件中产生不公、甚至是严重不公的后果。这是因为，规则的本质就在于一种“稳固的一般化”。它是对典型情形进行抽象化后的产物，它只能以一种通行的标准去对人或事作出要求。而在这一抽象化的过程中，它会忽略或省却掉大量个别化的细节。而是否属于法律上的“同案”，是根据规则( 构成要件) 的一般性标准，而非具体的细节来判定的。所以可能会发生这样的情形:虽然待决案件与先案完全符合法律上的“同案”标准，也即受同一法律规则的调整，但由于待决案件具有额外的细节特征，而这种细节特征恰恰要求待决案件被特别对待。如果强行要求同案同判，就会因技术化操作牺牲部分个案的实质正义。但既然同案同判的最终目的是向社会树立司法公正价值，那么就必须兼顾社会公正观。

当个案中同案同判的要求与个案正义的要求之间的冲突不可避免时，法官就面临着一个选择，即究竟是直接适用法律规则而不考虑个案后果，还是因追求个案正义去适用原则，从而为规则创制例外。这要诉诸于权衡。这说明，同案同判虽然重要，但并非法官终局性的司法义务，也不是不可凌驾的。当然，依法裁判/同案同判相比于个案正义依然具有初始的优先地位，这是由法官在法律制度中的角色决定的。但毕竟不能否认，在某些时候，法官有更强理由去为规则创制例外，实现个案正义。当然，何时偏离规则去实现个案正义，无法在法哲学或一般法学说的层面上予以预先确定。因为如前所述，与一般化的规则不同，融合了社会公正观之个案正义的具体要求因案件的情境会有不同，需要法官进行充分的个别化考量和实质论证。7而这恰恰是机器算法的短板。因为司法裁判并非是机械活动，它是一项德性事业，要为法治的吸引力负责。而法律不总是能在个案中带来公正的结果，法官也没有义务在任何情况下都依照法律行事。我们不能仅执着于人性差异所可能带来的偏颇，却忽视了统一代码背后的僵化与冰冷。

综上所述，其一，司法人工智能有助于实现司法统一，但司法统一并不一定意味着同案同判，因而不一定能实现同案同判意义上的形式正义; 其二，即便司法人工智能能够实现同案同判，由于同案同判只是依法裁判的一个面向，它既可能与依法裁判相背离，因而无法实现作为更高要求之依法裁判意义上的形式正义，也可能与个案正义相矛盾，因而无法实现实质正义。因此，司法人工智能不仅可能无法实现实体公正，而且可能与之相背离。

个性预测: 策略主义对撞司法公正

个性预测是基于法院或法官个人裁判历史数据的预测。这类预测的基础不在于类案裁判的历史数据，而在于作出类案裁判之法院或法官的个别化的历史裁判轨迹。与同案预测的推导方式不同，个性预测的推导不是从全称命题( “所有先前的类案都是这么判的”) 到单称命题( “待决案件也应当这么判”) 的推导，而是从单称命题( “法院 A/法官 a 在先前的类案中都是这么判的”) 到单称命题( “( 选择了法院 A/法官 a，) 法院 A/法官 a 在待决案件中也会这么判”)的推导。不考虑不可预测的意外等因素，这个推导本身并无逻辑谬误，但它却会鼓励一种彻头彻尾的策略主义行为，有严重违背司法伦理之虞。因为它一方面遵从了现实逻辑逻辑，另一方面则浸透着商业偏好逻辑，这都可能与司法公正发生冲突。

( 一) “法官画像”的现实主义逻辑

大数据时代的司法人工智能不仅基于历史数据来计算，而且可以“预测”法官未来的行为，因为其核心要素便在于建构一种能够实现对判决进行预测的算法模型。[26]质言之，这种机器算法其实就是基于特定法官之历史裁判数据，并基于其法官的身份进行评价、分析、比较或预测。针对法官的个性预测建立在两种分析的基础上，一是一致性分析，即将特定法官办案数据与其他法官办理类似案件的大数据对比，分析特定法官特定案件与整个司法系统的一致性状况;二是连续性分析，即通过将特定法官特定在办案件与其历史相似案件的对比，分析法官判决标准是否具有连续性。因此，个性预测的基本预设是，法官未来的裁判行为会与过去的裁判行为保持一致。

如果说人具有什么样的性格和倾向可以通过其( 规律性的) 行为来展现的话，那么司法人工智能就是通过法官的( 规律性的) 裁判行为来对法官的性格和倾向进行描绘，也即为法官进行“画像”。这种“画像”被作为针对法官个人的算法系统的建模基础，用来预测法官在未来同类案件中的行为。甚至法官自己也未必能意识到自己“画像”的模样，因为人工智能时代的算法可能要比行为人自己更了解自己。尤其是在司法裁判文书全面网上公开的情形下，得出司法大数据加持的个性预测将得到极大的增强。与同案预测相比，围绕法官个人数据展开的个性预测走得更为彻底。因为它已经完全抛开了( 围绕“同案”的认定展开的) 规则和案件的事实特征，而转向了作出先案裁判的法官个人。所以对于这种预测来说，法律规则的规定与案件的典型特征都不是首要的，首要的作出判决的人。而人是个性化的，作出判决的人不同，裁判的结论也可能不同，哪怕是同类案件。这就使得司法人工智能的关注点从案件的规律转向了人的规律性( 个人自我的规律性轨迹) 。这完全是一种否定裁判作为规则实践的现实主义逻辑，暗合了霍姆斯( Holmes) 的著名观点: “法律，正是对法院将会采取的实际举措作出的预测”。所不同者，无非将这里的“法院”拓宽为包含“法官”在内而已。

这种策略性和机会主义的态度关心的不是司法是否公正的问题，而是能否利用对法官裁判的预测获得自身利益的问题，不是理由和论证的问题，而是偏好性结果的问题。个性预测在根本上挑战了司法公正的理念: 司法裁判既应是一种“看得见的正义”，也应是一种“说得出的正义”。前者是程序公正，后者是实体公正。程序公正将在下一部分论述，这里主要涉及实体公正。应当看到，实体意义上的司法公正不只是一种结果意义上的形式或实质公正，它也必然与司法裁判的性质相关。司法裁判在性质上是一种说理来解决纠纷的活动。它不仅要告诉当事人和社会公众，对于特定的纠纷，法院给出的判断是什么，而且要告诉他们，为什么给出了这一判断。即便自由裁量无法避免，法官也必须要给出裁判的理由。而给出理由就是在进行推理或论证。司法裁判中的法律推理，就是举出规范性理由和事实性理由来支持最终得出的具体判决。判决书就是说理或推理的载体。有效的判决必须建立在充分的法律依据与事实理由的基础之上，并通过合乎逻辑与情理的方式展现出从法律与事实推导到裁判结论的过程。简言之，司法公正是一种基于理由和论证的公正。这种公正预设了参与者的视角，因为只有对于司法论证活动的参与者，或者关心法律体系下的正确决定为何的人来说，才会有司法公正抑或不公正的问题。相反，个性预测预设的是观察者的立场，它只关心法官做过什么、将会做什么，而不关心裁判的正确性，或者公正或不公正的问题。所以，基于“法官画像”的现实主义逻辑与司法公正犹如两条跑道上的马，是背道而驰的。

( 二) “买卖法官”的商业偏好逻辑

如果说个性预测对实体公正的挑战只是一种可能、而非必然的挑战( 因为被预测的法官作出的判决可能在实体上是公正的) ，因而是一种相对的挑战的话，那么它对于程序公正的挑战就是一种必然的、绝对的挑战。在现实中，最有动力进行“法官画像”的不是法院及法学研究者，而是有偿提供法律服务的科技公司。例如，法国于 2016 年公布《数字共和国法》，要求在尊重有关人员隐私和评估再识别风险的基础上向公众免费提供所有法院的判决。该法颁布之后，法国国内关于判决的大数据分析就迅速发展。不少法国科技公司利用大数据与人工智能技术对法官进行“画像”、统计、排名，以此为基础预测诉讼的成功概率、可能获得的侵权赔偿金额，甚至是帮助当事人选择在赡养纠纷中更“慷慨”的法官。这里的逻辑纯粹是一种商业偏好逻辑: 客户喜欢什么样的法官，就可以有偿购买其“服务”。在本质上，它与购买商品或其他服务的算法推荐系统没有区别。这种商业逻辑将严重侵蚀程序公正的理念。

一方面，程序公正的核心，即程序自治和当事人获得平等对待原则将遭受侵害。就当事人获得平等对待而言，个性预测可能会引发两种不公正的情形:( 1) 法官大数据画像的应用可能引发管辖权兜售的行为。司法实践中，出于不同的动机，包括名誉或地方利益，一些法官希望审理更多的案件。当原告有广泛的法院选择时，这些法官有动机使法律更有利于原告，从而吸引更多的原告起诉。[30]此时，法官就相当于买方市场上的卖方那样，判决追求的不是法律正义与社会公正，不是权利义务的合理分配，而是对处于优势的买方( 原告) 之偏好的迎合。因此，司法大数据分析的应用使得法官可能为了塑造良好的记录而有意识地向公众偏好倾斜，以便在管辖权竞合的诉讼案件中争取更多的案源，从而给法官判决形成了不当的诱导。这是一种新形式的司法腐败，因为法官是在利用大数据画像获利。( 2) 法官大数据画像的应用可能会加剧策略性的管辖权选择行为，也就是“择地诉讼”和“挑选法官”的诉讼投机行为。“择地诉讼”是指当事人为了获得有利于自己的判决结果而有意识地选择在特定法院进行诉讼的行为。随着大数据技术的普及和法官大数据画像的广泛应用，“择地诉讼”和“挑选法官”的成本和难度将大幅度下降。小范围的“诉讼策略”也就可能潜在地转变为普遍性的“诉讼投机”，进而影响司法公正。[28]在商业逻辑中，愿意付出更高价格者将获得更好的服务( “价高者得”) 。所以，有能力向商业公司购买“法官画像”，或愿意以更高价格购买对自己有利的“法官画像”的当事人，将比没有购买能力或购买能力相对较弱者，具有压倒性的胜诉机会。“管辖权兜售”与“挑选法官”都会导致当事人无法获得司法的平等对待，只不过具体形式不同而已: “管辖权兜售”是在“卖法官”，是法官有意为之或法官与当事人的合谋，因而是司法腐败; 而“挑选法官”是在“买法官”，是商业公司和当事人的合谋，并不需要法官意识到“挑选法官”行为的存在。但其背后的逻辑都是商业偏好逻辑，是将司法裁判视为买卖活动的一种类型。

就程序自治而言，法官大数据画像的应用无疑干扰了司法的独立和司法裁判过程的自主展开。个人预测能够成功，就已经意味着，裁判结论不再是诉讼活动终结的产物，不是论证和说理的结果，而是从一开始就被确定了的。司法已经被“操控”了———被有支付能力的当事人，被意图从中获利的商业公司，也被想要获得更多资源的法官自己，更准确地说，是被现代社会无所不在的商业逻辑。随着人工智能技术对司法渗透范围的扩大，司法全过程都可能被纳入技术治理的视角之下，无远弗届、无处遁形。相应地，司法独立和程度自治就会越发成为一个神话。

另一方面，法定法官原则也将遭受侵害。该原则的起源可追溯到 1791 年《法国宪法》。该宪法第五章第 4 条规定: “不得用任何专案法庭、或非经法律规定的职权和移审办法，使公民不受依法指定的审判官的审理。”该原则后来被德国所继受，《魏玛宪法》第 105 条和《德国基本法》第 101 条均规定，不得设立特别法院，不得剥夺任何人接受法定法官审判的权利。“法定法官”指的是这样的法官: 根据法定管辖权规定，以及根据通常是对此具有管辖权之法院内部事先作出的一般性的业务分配计划，这一法律争议被分派给他。法定法官原则确保了法官的独立性和中立性。通常认为，法定法官原则包含四项内涵，即特别法院之禁止，法院管辖法定，案件分配法定，以及任何违反法定程序的案件分配结果自然无效。其中，法院管辖法定是法定法官原则的核心。它指的是，某一案件具体由哪位法官予以审理，必须事先由一般性、抽象性的法律所明定。何等案件由何等法官承审，此乃法院的案件分配问题。在法治发达国家，法院的案件分配基本都由事先确定的、透明的程序予以决定。至于具体诉讼个案的分配，多数法院原则上均采取“随机分配”与“平均分配”的原则。[32]法定法官原则的功能，一方面在于保障当事人的基本权利，尤其是公平审判权; 另一方面在于确保法官的独立性，防止外部力量干预司法。这其实就是程序自治和当事人获得平等对待的要求。所以，法定法官原则从案件分配机制的角度保障了程序公正。

但显而易见的是，“买卖法官”的行为势必侵蚀法定法官原则，侵害弱势当事人的公平审判权，影响司法独立。因为根据法定法官原则，裁判者的产生规则( 案件分配程序规则) 应当先于纠纷的发生，而个案的裁判者应当由法律事先确定的规则产生。但是，无论是“管辖权兜售”还是“挑选法官”的行为，其基本思路是“以操纵由何人审判的方式来操纵审判结果”，甚至通过改变案件审理者来影响审判结果。而一旦法定承审法官受到人为干扰而被剥夺裁判某起案件的审判权，而其他法官却因人为因素取得裁判该案件的审判权，那么两者的独立性都将因外部因素的介入而受影响，程序公正也就无法得到确保。

综上所述，其一，“法官画像”的现实主义逻辑所蕴含的策略性与机会主义态度并不关心实体公正，因而可能与司法公正背道而驰; 其二，“买卖法官”的商业偏好逻辑必然侵蚀程序公正的理念，即侵害程序自治和当事人获得平等对待原则，及法定法官原则。

结语

司法人工智能的基本运行逻辑是基于历史数据预测。法律或司法裁判的确应具备可预测性，但可预测性指的只是指司法裁判应建立在事先已经被公布的一般法律规则的基础之上。它指的不是法院或法官作出的判决实际上被某个公民或社会公众所预测到，无论是被他们自己偶然地预测到，还是借助于人工智能或算法系统被有规律地预测到。因此，基于技术对司法裁判的预测不等同于司法裁判的可预测性，前者涉及事实上的预测能力，而后者涉及法律上的可预测性。这也说明，司法技术永远无法完全取代司法判断，尤其是司法中的价值判断。因为司法裁判是一种价值内置的活动，在这种活动中，“人”的逻辑不能被“机器”的逻辑所取代。这是司法的尊严的要求，更是人的尊严的要求。

目前司法人工智能的合适定位，就是司法裁判活动的辅助手段，主要旨在提高司法审判的效率。正如《最高人民法院关于加快建设智慧法院的意见》所提出的，智慧法院建设的目标，是要探索建立面向立案、审理、裁判、执行等法院业务的知识图谱，构建面向各类用户的人工智能感知交互体系和以知识为中心的“人工智能辅助决策体系”。这是因为，从学科属性上看，司法人工智能属于法律信息学，准确地说，属于决策法律信息学，主要涉及法律专家系统、决策辅助软件和法律咨询软件。而法律信息学本质上是信息学在法律领域中的应用，我国的智慧法院、智慧检务、智慧公安工程中的有关司法人工智能均属于此。尽管目前大部分学者都不否认司法人工智能的这种决策辅助地位，但笔者的确有一个担忧: 就像技术从来就不只是技术，而同时也负载着特定的价值追求或意识形态那样，对司法人工智能的过度推崇和迷恋也会在不知不觉间产生一种导向，也即潜在地以技术主义的逻辑压倒人的逻辑的导向。为此，要时刻牢记的是，技术永远只是技术，司法人工智能的应用也永远无法替代对司法公正的追求。“身披法袍的正义”终究是人的正义，而非机器的正义。

雷磊：司法人工智能无法实现司法公正

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏