周翔：作为法学研究方法的大数据技术

摘要：大数据技术对法学研究而言在方法论上意味着什么？目前这仍是一个人言人殊的问题。与之最相关的是以统计学为基础的法律实证研究。在中国法学界，法律实证研究的具体方法当下尚停留于有限的几种回归模型，数据收集依赖于研究者的社会资源，样本量止步于百千级。以上诸点不足有望通过大数据技术得到改观。大数据技术运用的基本步骤是语料获取、语料转译为数据、数据清洗和数据分析，这种方法具有更多的数据获取渠道、更大的数据规模、更丰富的分析工具等优势，同时也存在关照不到个案、技术门槛高、模型解释性差等局限。不过，大数据技术在法学研究中的运用，总体上利大于弊。具体来说，大数据技术对于法律实证研究是接力关系，可以拓展数据获取的互联网渠道，提高实证研究的描述分析能力，并在法治中国等研究议题中改进论证的效果；大数据技术对于法律规范研究则是一次助力，其运用能使解释论更加从司法实践的真问题出发，立法论研究中的立法效果也能得到更准确地测量。

中国法学正在迎来“大数据”“人工智能”的研究热潮。“数字法学”“计算法学”等各类新词汇层出不穷，但研究者们却并不都是在同一内涵和外延下使用这些概念。因此，本文有必要在开篇之初先设置一套分类法，对既有的学术研究成果加以归类，从而明确本文在既有研究中的坐标位置。笔者将既有的相关研究分为如下四大类：第一类称作“学科论”，此类研究看待技术的视角最广，其目标是希望厘清法学+数字技术的最大学科边界；第二类称作“对象论”，是把“大数据”“人工智能”等视为法律规制和法学研究的对象，此类文章占了当前本领域研究成果中的大多数；第三类称作“工程论”，这类研究关注到数字技术可以被引入执法、司法等各个场景当中，赋能法治的各环节；第四类才是“方法论”，是从学术研究方法的视角看待大数据技术，探讨其能为学术活动提供哪些新契机。本文的研究侧重于第四类，亦即集中讨论大数据分析技术作为学术活动的工具，能够给法学研究提供何种新方法。

本文旨在回答大数据技术如何才能成为法学研究的方法，如何与法律实证研究、规范研究这两大传统的方法实现有效的互动。关于此，左卫民在《迈向大数据法律研究》一文（以下简称为“左文”）中较早地提出了“大数据技术如何作为法学研究方法”这一命题，在“方法论”层面为将大数据技术引入法学研究当中起到了重要的推动作用。同时，笔者认为，以下方面仍值得进一步探讨：第一，“左文”中提到“从研究范式看，大数据法律研究可能推动实证研究的跨越式发展，特别是机器学习方式的引入，会使法学研究从法教义学、社科法学和实证法律研究等范式转向数据科学式的法学研究”。“范式”一词在托马斯·库恩（Thomas Kuhn）那里，是指“一个成熟的科学共同体在某段时间内所认可的研究方法、问题领域和解题标准的源头活水”。形成一个范式，是任何一个学科在发展中达到成熟的标志。“数据科学式”的法学研究已经是一种成熟的范式了么？它与“左文”中提到的法教义学、社科法学等既有的法学研究范式之间又是什么样的关系？第二，“左文”中提到“需要将小数据社科研究中已普遍运用和相对成熟的数据分析方法……运用到大数据分析中”。社会科学中开展定量研究，是以统计学原理为根基的，这和大数据技术联系密切的机器学习方法之间有何差异？法学研究又能够吸取大数据技术中的哪些优势？第三，左文中还提到“一些大数据法律研究缺乏必要的问题意识，主要是描述式研究，沦为‘调查报告式’的数据展示”。这涉及的是大数据分析技术应用现状的问题。上述三个方面，围绕大数据技术对法学研究的主要贡献展开，清晰地定位了大数据技术在既有的法学研究方法体系中的地位。

上述延伸和思考，一方面是对话，另一方面是形成本文研究的路径。本文的基本立足点在于：大数据分析技术如果对法学研究有影响的话，那么主要是使得法学更加社会科学化、更重视实证的方法、更习惯从大数据中探索法律世界的规律。这些贡献决定了大数据技术在法学研究方法体系中的位置，其既是对以统计学为基础的法律实证研究的接力，更是对以法教义学、立法论研究为核心的传统规范研究的助力。在这一基本立场之下，本文首先对前大数据时代的实证研究方法、研究对象作一番回顾；接着结合笔者担任大数据分析师的经历，针对技术细节作梳理；然后在这些基础之上，就如何实现大数据技术、定量的实证研究、规范的法教义学研究三者间的互动提出一套初步的方案；最后，鉴于当前学界在相关概念上存在较多的混用现象，本文就此作一些观点上的澄清。

前大数据时代的法律实证研究

关于什么是实证研究，目前虽然尚无统一定论，但在“基于模型和数据的方法”这一点上则有比较明确的共识。包括法学在内的各个社会科学学科之所以都对定量方法感兴趣，是因为“定量的方法，乃一切科学进程的核心”。只要是跨越个案地探寻案件平均水平、共性特征、要素相关性的研究，都将被本文纳入前大数据时代法律实证研究的范畴。下文对此类法律实证研究的回顾和梳理，主要是从研究的方法、测量的工具、样本量的大小等三个维度展开。

（一）以统计为主的研究方法

从研究方法来看，既有的法律实证研究均奉统计学为同宗。通常认为，统计学的方法有描述性统计和相关性分析两大类。结合法学研究的特点，这里稍作更细致的划分。根据笔者的概括，以往的研究成果主要利用了如下三种方法。

方法一：多案例分析。对案例的运用，如果不是针对法条进行解释、对立法提出建议，那么在笔者看来即为一种实证研究的路径。例如陈杭平关于民事诉讼标的的研究，为案件类型化设定了一套分类标准，即诉讼标的的不同含义，纵轴根据不同学说见解区分为三个版本，横轴以诉讼标的的不同领域或场景为标准。从多个案例中挖掘某些规律性信息，是一种超越个案、试图通过案件类型化获得研究结论的方法尝试。

方法二：描述性统计。前述的多案例分析，还很难称得上是严格意义上的实证分析。左卫民的一系列文章有力地推动了法律实证研究向前发展，其主要采用的便是描述性统计方法。例如，他关于审判委员会的研究，统计了某地区的三级法院审判委员会委员的审判经验与学历背景，并将讨论的议题细化到宏观指导议题和个案议题，分别进行统计和分析；再比如，他另一份关于中国刑事法律援助的研究，通过调研和考察某省的三家法院，统计了各类型辩护的人数和占比，并由此回答“究竟应当在多大范围内推行并构建当代中国的法律援助制度”这一问题。

方法三：相关性分析。白建军等人的研究则在描述性统计之基础上，迈向了相关性分析这一相对复杂的层次。相关性研究也被称为推论统计，是将统计学手法与概率理论相融合，对“‘无法整体把握的大的对象’或‘还未发生而未来会发生的事情’进行推测”。白建军等人开始关注引起某一现象的原因，试图建立自变量和因变量之间统计学意义上的相关性，所采用的回归模型主要为多元线性回归、logistics回归等常见模型。例如，白建军迄今为止在中国知网上下载量最高的一篇论文，是通过相关系数、多元线性回归来研究犯罪率的社会成因；又如，李本森关于速裁程序的研究，则以诉讼效率、量刑均衡和诉讼权利作为其关心的因变量，采用的是多元线性回归模型。

在线性回归、logistics回归这两大常用的回归模型之基础上，法律实证研究方法也根据议题之需推陈出新。首先表现为统计方法趋于高级，例如白建军在其一贯的相关性分析之基础上，对无法观察的变量作了科学处理，将中国民众的刑法偏好这一因变量，拆解为犯罪圈大小、刑罚轻重、罪刑均衡程度等三个可通过问卷调查测量的因子，以打分取值的形式获得该变量的数值；其次是结果呈现方法上的创新，例如单勇关于盗窃罪的回归分析结果，用GIS作图的方法实现可视化，选取建筑物、停车场等10类空间因素为自变量，用于说明因变量和空间变量的地理联系；最后是体现在用于分析的软件工具之更新上，过去的法律实证研究以使用SPSS软件为多，而近来的研究很多提及使用了Stata、R等工具。当然，使用更高级的软件进行分析，其效果未必就一定更好，但上述变化至少标志着学者们在工具利用方面的水平提升，且有些回归模型是初阶工具所无法胜任的。

（二）多元测量工具并存

测量工具是指获得数据的方法。数据搜集在统计学中是重要的一环，“所有统计数据追踪其初始来源，都是来自调查或实验”。统计学上根据是否为直接获得第一手数据，区分直接来源和间接来源。法学实证研究多以一手的直接来源为主，主要的测量工具包括如下几种。

工具一：问卷调查。这种测量工具与传统的社会科学方法保持一致，通过设置问题、受调查者回答的方式收集受访者的信息。此种方法在获取受访者主观态度方面效果明显，为学界所常用。例如，程金华在研究过程中为了解检察人员针对检察人员分类改革的认识而发放问卷；胡铭关于司法公信力的研究，通过向社会公众和司法官分别发放问卷，比较和审视“对于影响司法公信力的要素的认知与评判”。

工具二：模拟实验。“实验大多是对自然现象而言的”，但在近年来的法学研究中也时常出现。司法裁判一般不具有可再现性，同一个案件在真实场景下只可能出现一次。模拟实验是一种对司法裁判过程的模拟再现，借此可发现一些影响裁判结果的变量。目前中国法学界的模拟实验主要是对一些经典案例裁判过程的复盘，以验证某些观点。例如李学尧等人关于案卷材料阅读流畅度与裁判尺度之关系的研究，通过问卷字体大小、是否斜体、是否加重、行间距以及案件数量的变化来操纵阅读流畅度的变化。

工具三：文本摘录。法律中的文本，其典型形态为裁判文书。在裁判文书大量公开上网后，有人认为数据法学的春天即将到来。的确，裁判文书是记录诉讼过程最终的、有法律效力的、体系最完整的文本。对裁判文书的利用，比如文姬关于信用卡诈骗罪的研究当中有很多维度的信息挖掘，包括审级、行为人出生年等16个变量。文本的种类近年来也出现不少创新，比如习超等人关于证券监管的研究采用的是对上市公司执法事件的披露信息。

工具四：实地/田野调查。倘若只是单纯采取个案式的访谈记录，则在方法论上一般将之归入定性研究的范畴。但如果是在田野调查中对多个样本进行观察或访谈，采取结构化的方式收集数据，最终对数据进行跨越个案的量化分析，那么也可以被视为实证研究的测量工具之一。此种方式在国内法学研究中不乏实例，比如一份关于当事人法律意识的研究，所主要利用的素材就是在某法院传达室对一百多位当事人进行访谈所收集的数据；再比如左卫民在研究基层法院的财政制度、法官的工作时间分配等问题时，课题组前往实地调研、观察记录收集数据资料。

除了采用上述工具之一，实证研究还可以多种测量工具结合、定量和定性方法混用。比如胡铭关于庭审实质化的研究就不仅利用了判决文书，且还通过观摩庭审直播并记录的方式收集数据。

（三）万级以下的样本量

实证研究的论文中约定俗成要报告样本量，而之所以特别指出研究所用的样本量大小，是由于样本量直接关系到根据小样本得出的结论能否推及至更大的范围，因此抽样是统计学中很重要的概念。建立一个好样本的关键，是尽量选择最符合总体的样本，如果样本具有代表性，那么表明样本与总体有十分相似的特性，进而可以通过样本预测出总体具有哪种规律。

法律实证研究中的样本量过去以百级、千级为主，比如文姬关于信用卡诈骗罪的研究所利用的裁判文书样本有2103份，习超等人对证券监管“旋转门”的研究则采用了7103个监管事件作为样本。样本量大小是个相对的概念，还要考虑“全体”的规模大小。当我们确定研究的问题后，从理论上讲“全体”的范围就固定了。若以裁判文书为测量工具，则有三个层次的案件范围，依次分别是客观真实发生的案件总数、裁判文书网上公开的案件数、用于实际研究的案件样本数。前大数据时代的法律实证研究，是在公开的裁判文书范围内选取一定的样本进行分析，距公开的案件“全体”和真实客观的案件“全体”相去甚远，正因如此，不少研究受到样本代表性不足的质疑。

除了抽样和样本的代表性问题外，前述提及的那些研究基本没有交待如何实现样本的数据结构化。根据笔者自身的数据分析经验，以传统方式处理样本耗时巨大。如果以阅读裁判文书并摘取的形式处理样本，那么一天工作8小时也只能阅读20—40份裁判文书，如此来算，处理千量级的裁判文书样本就得花费数月时间。如果再安排专人抽查数据录入的质量，那么工时还得另计。

（四）留待提升的不足

在研究方法上，相关性分析方法之后难有新的突破；在分析工具上，研究者虽试图推陈出新，但总体变化不大。以构建回归模型做研究为例，中国法学界目前用过的回归算法种类屈指可数。某些研究虽然其方法有一定的创新，比如采用决策树的方法，但又和机器学习的决策树算法相去较远。另一个问题在于分析软件，小样本时代没有使用分析软件的明显障碍，但在大样本时代则要考虑借助的分析工具是否恰当，能否高效运行。上述两个方面，大数据技术都可能给其带来变革。

测量工具上，以往较强依赖于社会资源的协调能力。中国法学界当前使用的测量工具中，问卷调查、模拟实验的应用较为普遍，而上述二法的共同局限在于严重依赖研究者的社会资源协调能力。很多研究并不避讳利用了作者的挂职身份、承担横向课题的机会、本省司法资源的便利条件等。就数据获取而言，即使只是选择几个投放点，也要付出很大的成本，且若没有较大经费支持则难以做到。上述列举的那些研究成果，因此往往是知名学者的作品。这也造就了一个怪圈：是先成名后做实证研究，还是因实证研究而成名？而在大数据时代，研究者将在一定程度上不再依靠外部资源的协调能力。

以往样本量太小，使得据其发现的规律的代表性不足。前文已经提及，样本量关乎结论的普遍性，统计分析的根本目标在于“推论”。样本量越小，对抽样的随机性要求就越高，而抽样始终是一个难题。造成抽样偏差的成因很复杂，比如抽样空间条目不齐全、抽样单位不正确等，无法穷举。如何克服抽样的难题？换个角度试想一下，研究的样本如果就是公开的“全体”，那么抽样的重要性将被极大淡化，而基于公开的全体案例作分析，在大数据技术的赋能下是能够实现的。

大数据技术运用的各个节点

从实证研究的过程来看，在选择议题、提出假设和设计变量等步骤中，数据的收集和分析是大数据技术最相关的两个环节。其中，数据的收集又包括语料的获取、语料转为数据和数据清洗等步骤。本文认为，大数据分析技术正是借助数据的收集和分析这两点，助力法律实证研究向更高阶段发展。从已有大数据分析的实践经验来看，可大致分为以下几个步骤。

（一）语料的获取

语料获取是应用大数据技术的第一个环节。凡是对立法活动、司法实践有所记录的载体，都可作为实证研究的原始语料。当然，文本仍是当前法律大数据分析主要的语料类型，大数据技术目前还比较难以有效处理图片、音视频等数据。所幸的是，法律文书本来就是记录法律活动最重要的、也是表达相对准确的语言形式。

当前的语料获取问题，应重点聚焦于如何便利地获取法律类文书。研究者作为个体要想获得供研究之用的文本，除逐一复制或下载外，还有两条路径值得重视：一是采取网络爬虫的方式，从数据源自动爬取，业内有句话叫作“可见即可得”，其意思是只要有该网站的访问权限，那么便可获得该数据，包括一般性的网页、API资源、文件资源和媒体资源；二是与拥有法律文书数据的公司进行合作，后者一般掌握较为完整的法律文书库。

网络上的其他数据资源也不可被忽视。在传统的法学研究中，我们便已看到许多研究者用到法律年鉴、地方志等信息，而此类信息如今已基本实现无纸化、网络化。我们可从以下几个渠道收集与自己研究有关的语料：一是国家及地方各公立机构的官方网站，比如图书馆、档案馆、财政局等行政事业单位；二是各行业的商业机构网站，比如上市公司财务报表的披露网站、各行业的商业情报网站等；三是一些人气活跃的社区论坛，比如在司法公信力、媒体和司法之关系等研究议题中，我们关心的案件舆情就在论坛社区中有丰富的表达。网络资源可有效弥补裁判文书这一测量工具的局限性，因为法治事件的真实场景变量复杂，法律文书只能反映其中的一小部分。

（二）语料转为数据

传统的实证研究是统计学思维，处理的是阿拉伯数字。这一点在大数据的语境下没有本质变化，即机器学习仍然难以根据文本直接构建模型，数据分析的对象仍是结构化数据。遗憾的是，法律领域的语料主要是自然语言，以数字形式呈现、直接可用的信息少之又少。因此，在获取与我们研究议题相关的文本语料后，还将面临如何将语料转为结构化数据的问题。前述提及的那些实证研究成果也用到文本，并主要采取人工摘录的方式进行处理，而大数据获取技术中的文本挖掘技术，通过计算机就可实现数据结构化。

将语料转为数据的过程，本质上是将自然语言转化为机器语言。处理自然语言的工具，大致可分为基于概率和基于规则两类。前者是通过人工标注一定的语料，再由机器模型识别剩余部分的语料，得到的是一个结果的分布概率；后者的典型代表是正则表达式，因其结果更为准确，故而成为当前适用广泛的提取方法。学术研究要求较高的准确性，因此基于规则的方法更为现实可取。正则表达式，在技术书中被定义为“一门袖珍编程语言的通用模式表示法，赋予使用者描述和分析文本的能力”，这里也可将其通俗地理解为高级版的关键词检索。正则表达式可将我们关心的、希望提取的某一要素，通过计算机能理解的方式表达出来。不过其具有的缺陷是，如果编写者未能预见同一意思下全部的汉语表达方式，那么该正则表达式也将无法识别出全部包含该意思的文书。

语言表达方式虽然具有多样性，但也并非无穷无尽，常见的文字表达类型是可以由正则表达式囊括的。实践中的通常做法为：先人工阅读一部分文书，枚举语言表述的类型→通过正则表达出每种类型→正则遍历文书，筛选出被命中的文书→再次阅读部分未经匹配的文书→优化正则表达式→再次遍历剩余未被命中的文书。多次循环后，正则表达式将会得到很大的改进，信息提取的准确性也会随之提高。数据的获取任务至此完成，这也是大数据技术相较于传统实证研究在技术上的巨大变革之处，即数据的获取不再高度依赖于外部资源的多寡，只要研究者掌握了一定的编程能力，那么就可以从最大的数据资源库即互联网中获取自己想要的各类数据。

（三）数据清洗

数据清洗面临两种情形，一种是从文本到数据的过程中存在信息的遗漏，另一种是有些文书信息虽然被提取了出来，但存在错别字或其他不当之处。处理信息残缺的方法，至少有以下几种：第一种是根据信息有残缺的文书编号，追溯至该份文书，人工阅读发现原因并修正提取的方法。这和上文提及的不断优化正则、扩大匹配的范围的做法很接近。第二种是统计学中处理残缺值的传统方法，比如用平均值替代、剔除该样本等。第三种是借助Excel表格中的工具、pandas等第三方库对数据逐一进行修正，通过人工的个别修正使数据回归正常。例如裁判文书中存在诸多错别字、语病等错误需要清洗，笔者曾遇到过某一罪名在裁判文书中，有十余种错误的文字表述、八种不同的“零”写法，这些均属于若无人工预判则机器便无法自动识别的情形。

数据清洗，主要面对的是如何处理自然语言中不同词汇的相同意思（同义问题），以及一个词汇在不同背景中有不同的意思（多义问题）。在数据清洗的实践中，可以发现存在如下几种规律：（1）词汇类型有限的数据项，需要清洗的脏数据比较少。例如提取裁判文书中的法院审级，一般文书落款中有“中级”“高级”“最高”等关键词，正则很容易匹配成功；而当鉴别机构的名称时，由于全国各地的命名方式不一，便会出现很多数据空缺需要填补的问题。（2）数据的清洗和人工的投入量基本成正比。无论是用人工标签+机器学习的方法，还是用正则表达式提取，都需要人工阅读并发现数据错误，添加惩罚项或修改正则来减少脏数据。（3）数据清洗要适可而止，因为数据清洗需要耗费大量的人工成本。一些简单且明显的错误，比如审判员人数提取为“2人”，能够及时返查并纠正，但人工清洗全部的脏数据是不可能的。现阶段在计算机还没有能力自查和纠错的情况下，学术共同体对待数据获取环节的准确性只能给予更多的包容。

（四）数据分析

若要从数据中产生规律性的知识，则还要依赖于数据分析的工具。以统计学思维看待数据分析的方法，主要有描述性分析和相关性分析两大类。

大数据时代的分析环节，仍有运用描述性统计的必要。大数据时代虽然样本量呈几何式增长，但试图把握司法实践之一般规律的需求并未改变。而描述性分析是最有利于把握案件整体情况、聚焦重点案件类型的方法。

关于相关性分析，大数据技术主要借助于机器学习，“根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：‘监督学习’和‘无监督学习’”。有监督的机器学习，其建模方法为研究者提供了一种新思路，即把样本一分为二，区分训练集和测试集，用训练集拟合参数，用测试集评估数据模型的准确性。机器学习与统计学中的回归建模方法之间最大的一点差异，在于检验模型参数的可靠性上，机器学习采用交叉检验的方法，而统计学上则主要采用假设检验的方法，其典型者如t检验。无监督的机器学习事前不作标记，通过对无标记训练样本的学习，来揭示数据的内在性质及规律。以统计学视角来看，即事前不设置因变量。通过该项技术，可以从中探索我们所关心的研究议题，从而确定因变量。

用大数据的机器学习方法建模，最好采取Python语言编写程序。该语言可调用各类第三方库，statsmodels、scikit-learn等第三方库中已内置有大部分的常用算法，调用接口即可满足现有的研究需要。在大数据时代，获取的数据样本量将轻松突破万级，例如研究某些社会高度关注的案件的网络舆情，从微博、论坛中获取的评论数甚至可以很轻松地突破百万条。自己编写程序做大数据分析，在面对大样本时，能更好地满足个性化的研究需求。

（五）前述流程的局限

大数据技术并非没有局限性，它是一把双刃剑。“技术不是敌人，我们的敌人是寄居在技术里的浪漫又革命的‘解决问题兽’”。因此，人们要保持独立思考的能力，用批判性的眼光去接受、采用技术。在看待大数据技术在法学研究中的应用前景时，同样应重视可能存在的一些局限性。

第一个局限在于，大数据技术更难以关照到个案的细节之处。这也是左文中提到的大数据时代的一个特点，即样本量变大后，做不到人工查看每个样本。此为一个明显的缺陷。大数据分析所反映的只是数据间的相关性，但要解释此种相关性，还要依靠外部其他角度的素材。当回答为什么出现数据间存在显著相关性这一问题时，特别离不开对一些典型个案作具体的剖析。如前所述，大数据技术不再要求人工逐一阅读，便可将文本信息转为数据信息，但是小样本时代，逐一阅读案例，恰恰是发现有价值细节、启发研究灵感的历程。因此，大数据时代的法学研究，在用数据说话的同时，仍然少不了要深入到对典型个案的阅读中。

第二个局限在于，计算机技术的使用门槛较高，许多研究者面临着计算机技术有关知识匮乏的挑战。首先，在数据获取上，研究者最好能够掌握一些网络爬虫的技巧。从笔者的实战经验来看，爬取一般网站论坛上的数据相对容易，但爬取微博、微信公众号等数据就比较困难，这是因为后者设置了很多反爬虫的措施。再以法学研究常用的裁判文书为例，中国裁判文书网为确保正常访问，采取了一系列的加密措施，而这意味着研究者根本无法一劳永逸地解决数据获取的问题。其次，当前在研究成果发表时，法学期刊通常并不要求同步公开研究所依据的数据样本，也就是说，同行无法获知所采集的数据库详情、数据清洗的程度等。这是大数据法学研究早期阶段的特点。在大数据法学研究的成熟阶段，各研究者可能反复使用同一批大数据，并有一系列量化的模型衡量指标。

第三个局限在于，机器学习所用的部分算法，在变量参数和影响路径的可解释性上，不如那些简单的统计学算法。这部分是由于一些自身原理所造成的，比如机器学习中可能嵌套多层级函数，其目的是提高模型的拟合度。以神经网络的一般模型为例，有（d+l+1）*q+l个参数需确定，d、l、q分别代表输入、输出、隐层的神经元个数，神经网络的学习过程，就是根据训练数据来调整神经元之间的连接权，即参数值。这还只是一个隐层的情形，“容量”越大的深度学习，参数就越复杂，对法学研究而言的可解释性也越弱。如果认为法律实证研究主要是社会科学意义上的追求现象间相关性的分析，那么越是过程复杂的机器学习算法，越不能透过模型发现变量间的关系。

综上，笔者对待大数据技术的整体态度是，获取更大规模、更多类型的数据，对外部资源的依赖程度降低，是其最主要的贡献点，同时也要警惕研究过程中脱离个案细节、技术门槛提高、复杂模型的可解释性弱等风险。有效化解上述风险的策略包括：在跨越技术门槛上，可考虑借鉴其他学科团队式研究的模式，吸纳技术人员参与，改变过去一些法学期刊所认为的合署论文便有“搭便车”嫌疑的前见；在克服脱离个案细节这一问题上，则可以多采取混合研究的方法，即定性的方法和定量的方法相结合，实证研究和规范研究相结合；在数据分析时的算法选择上，则应尽可能选择一些原理简单、可解释性强的算法。

大数据技术对于实证研究而言是一场接力

大数据技术对于实证研究而言有一种接力的价值，两者的共性大于差异。大数据技术主要应定位于加强实证研究的某些环节，但并不改变实证研究基本的方法论框架。本文认为，大数据技术的接力作用，主要体现为：（1）降低了数据获取的难度，作为本文第一节中介绍过的那五种测量工具之外单独的一种数据获取途径，以网络爬虫、文本挖掘为代表的大数据技术，在获取数据上具有时间成本和经济成本更为低廉的优势。（2）加强了描述性统计的能力，适合探索性的量化研究。若对实证研究作描述性分析和相关性分析的二分，则大数据技术更擅长概览式地描述研究对象。（3）拓展了可量化研究的议题，使得某些议题的论证更加充分和有说服力。

（一）拓新数据获取的重要渠道

任何定量研究均离不开信度可靠、效度可行的数据来源。对大样本的追求，在统计学上称为“一致性”，费希尔（Stanley Fischer）用数学公式说明了“你得到的数据越多，你计算出的统计量越有可能接近参数真值”。在本文前一节的大数据技术应用详解中，所提及的第一步便是大数据的获取技术，若能掌握大数据的获取技术，或者吸纳有相关技术能力的合作者参与，则将大大拓展数据获取的渠道，互联网将成为一种新的测量工具。本节结合一些国内外较新的关于应用大数据技术的文献，深入探讨互联网这一大数据的来源，以此说明大数据技术在获取数据时的优势。

首先，把互联网视为数据获取的来源时，主要是将互联网视为一个“知识库”。互联网沉淀了人类活动的大量数据，其中一些是与法律有关的行为数据，例如裁判文书是对司法过程和结果的一种记录，网友针对某一热点案件的留言是司法民意的表达。这些数据的特点是它们的产生最初并非为了供研究之用，故而只能提供有限的数据项，研究者需迁就网络数据可用的数据维度进行研究设计。利用裁判文书开展大数据分析就十分典型，裁判文书的数据维度并不是为研究所设计的，因此在选题时，就要充分考虑裁判文书中所体现的信息是否足够用于回答该问题、有无其他数据源可作补充。

其次，进一步拓宽数据获取的思路，还可以把互联网视为形成数据的“实验室”和“协作平台”。大数据技术可以把互联网作为提问数据和实验数据的来源，即前述实证研究测量工具中的实验方法、问卷和田野等方法也可以在互联网中大规模使用。通过网络发送调查问卷，在学术界目前已经有一些成功的研究案例。例如，在一项针对累犯成因机制的研究中，通过给刑满释放的研究对象发放智能手机，大数据采集平台每天向研究对象发送问卷收集数据，并与定位数据、短信数据等数据源相结合，分析再犯罪的成因机制。借助互联网还可以开展随机对照实验，例如一项在二手交易网络商城开展的实验，通过在商品详情描述中改变卖家手持商品的手背肤色、手臂是否有文身、出价和商品介绍的质量等变量，分析这些变量与商品成交价的相关性，从而实证分析商品交易中存在的种族歧视问题。甚至还可以设计一个研究任务分包的网站，将数据的收集、标注等任务进行拆解，让更多的人参与到结构化数据库的建设中来。例如在一份关于国外政党之竞选政策立场的研究文献中，研究者事先将政党宣言作出类型化的定义，然后在网站上分包，最终从1500名工人处收集到20万条的分类数据，而分类的结果经过事后的验证，与专家分类的结果高度吻合。此类对文本、图片的信息采集和分类工作，如果能够分拆为不需要大量专业训练且答案较明确的任务，那么通过互联网的方式，就可以实现低成本的大数据采集和处理。

（二）提高实证研究的描述分析能力

社会科学所立足的成熟的研究范式，目前仍是提出假设、并用定量的统计方法加以验证的过程，这一套研究的基本方法在引入大数据技术后，并没有发生实质性改变。在数据分析的描述性和相关性之二分法中，大数据分析技术主要加强的是描述性部分，相关性分析仍主要沿用实证研究中倚赖的统计学算法。要想用好大数据分析技术，还应注意区分商业利用和学术研究的不同侧重点，商业领域的分析技术，不一定都能直接迁移至法学研究中来。

首先，大数据分析技术主要提高了研究对象的整体描述能力。实证研究中的描述性分析，针对研究对象设计变量，统计平均值、方差等。除这些外，大数据分析技术还有其他可供选择的方法，比如通过词频的计算提炼文本的关键词、通过情感分析的技术反映某些文本的正负情感及强度、通过文本摘要的技术浓缩海量文本的内容，分析的结果可以用词云、动图等多样的可视化方法来呈现。这些技术与实证分析中的描述性分析非常接近，只是起到丰富描述分析工具箱的作用。

其次，现有以统计学为基础的相关性分析，所用的算法仍将保持主流地位。统计学中最基本的线性回归、对数回归等模型，仍是当前最为成熟、较适合社会科学研究使用的方法。这并非法律实证研究特定阶段的现象，例如对美国在政治学、社会学领域最权威的6本期刊于2001—2010年间发表的实证研究论文所采用的方法进行统计后发现，最小二乘法（OLS）和logit回归的方法之和占比最高，达到六成。作为大数据分析的主要技术，机器学习在吸收统计学的基本算法后，通过模型的嵌套演变出神经网络、深度学习等高级算法，同时损失了算法的可解释性。而可解释性的本质是输入变量（即自变量）的参数、影响输出变量（即因变量）的路径透明可见，机器学习中的很多算法，在这方面其实不如过去实证研究中常用的统计学算法。

最后，应清醒地认识到，某些大数据分析技术之所以难以引入到实证研究中，是因为大数据技术的发展动力来自商业市场的需求，其初衷不是为学术研究而开发的。因此，要区别大数据技术在工程领域和在学术领域的使用差别。工程领域要求大数据模型有较强的结果预测能力，不太重视输入变量与输出结果间发生联系的路径。这使得技术开发的着力点在于如何能够准确预测未来，例如市场中多款量刑辅助的产品提供给办案人员的，是一个案件未来可能判处的刑期结果，而不是提供充分的说理。而学术研究更关心法律现象背后的社会成因机制，希望揭示出现象背后的原因。上述二者虽有共同点（进行精准预测的前提，也要有一个基于历史案件的模型），但考核模型表现优劣的标准是极为不同的。知晓此种差异后，研究者才能对当前眼花缭乱的大数据分析技术有所甄别，优先选择那些具有较好可解释性的机器学习算法。

（三）加强某些议题的论证力度

数据源和样本量的扩大，分析能力的增强，使得某些研究议题有机会变换新的角度、充实更有力的论据、得出更有说服力的结论。大数据技术作为一种方法并不直接产生新议题，但是能够增强旧有议题的论证能力，为原先难以量化研究的重要议题开启新的篇章。本节选取“法治中国”这一研究议题，尝试构想一个引入大数据技术后的学术发展新空间。

“法治中国”在近年来备受关注，是我国法学研究中的一个重要议题。一般认为，“‘法治中国’的内涵比‘法治国家’更加丰富、更加深刻、更具中国特色”，关于“法治中国”的主体、客体、竞争力等，都是“法治中国”之科学含义研究中的重要子课题。“法治中国”同时是一个有待进一步发展的议题，自党的十八届四中全会提出该口号后，关于“法治中国”的核心价值和精神元素是什么、具体的模式如何这些问题，虽然已经有一些研究成果，但还要继续丰富其内涵。在一些知名法学家的带领下，亟待更多法学青年学者的跟进，特别是作为一个与我国法治实践紧密联系的议题，“法治中国”应首先从国家、社会的各个实践侧面做出事实的归纳。

大数据技术可以在归纳中国法治实践中发挥大作用。具体可勾连几个看似不相关但实则联系密切的议题。一是近年来强调“中国问题”的学术反思。2011年举办的“中国法学研究之转型”研讨会上，诸多学者曾呼吁法学研究范式应该转变，认为“当前对中国特有的问题关注不够，缺乏中国问题意识”。具体而言，中国问题是在中国的政治建构、区域发展的极不平衡、社会在转型期中的急剧变化、社会治理资源的多元化等背景下形成的。本文认为，地域间、时间跨度中的中国法治实践差异，可通过大数据的时间序列、地理坐标图等各种形式予以呈现，法学研究要逐渐习惯于用数字化的方法发现并解释中国法治实践中的问题。二是与大数据技术直接关联的“法治评估”，这是关于立法、执法、司法等各领域的评估，其最大特色在于将指标构建技术和统计方法作为工具。笔者认为法治评估的相关研究，主要不在于实现地区间法治状况的可比性（这的确是提出法治评估的原因之一），而是旨在强调各国治理结构的差别，总结不同国家间某问题的不同法治方案。在西方学界过往的法治评估中，“所有实行西方政治制度的国家的得分必定高”。法治中国的研究要想有说服力地破除上述迷局，既要讲道理，更要摆事实，特别是利用好大数据所呈现的事实。

大数据技术对于规范研究而言是一种助力

法学实证研究和传统的规范研究间如何衔接和对话，是一个困扰研究者和期刊编辑的共同问题。有期刊编辑抱怨说，很多看似眼花缭乱的定量研究，最终得出的结论却不那么新奇，其言外之意是不需如此费劲，读者也早已知道这样的结论。还有学者坦言，实证研究和传统的规范研究间缺少对话，存在“平行线”难题，法学实证研究存在“叫好不叫座”的现象，即便高质量的实证研究，其被引用率也不高。数字法学时代到来后，上述问题能否有所改善？笔者以为，与其勉为其难地与规范研究直接对话，不如以“提供给规范研究一定启示”的姿态，定位大数据技术的贡献。此种贡献主要是便于研究者更自主、低成本地了解法律实践的运行状况，它是一种助力的功能。

（一）拓宽了解释论的问题边界

法律规范之所以需要解释，其原因在于“制定法的真实含义不只是隐藏在法条文字中，而且隐藏在具体的生活事实中”，生活事实的不断变化，使得法条一直有予以解释的必要性。换言之，这是一种来自司法实践中法条适用的困难所延伸出来的需求。但是，法教义学的规范研究，其传统重镇在高校，科研人员的作业模式与司法实践间隔较远，真正熟悉办案一线的学者并不多。这使得他们在发现哪个法条的哪个关键词存在司法适用困难、故而具有研究必要性上颇费周折。而哪怕是具有司法实践经验的研究者，在这个问题上的表现往往也好不到哪里去，因为他们的经验只是来自直接或间接经办过的案件，是一种主观的、个案式的感受。司法大数据的引入，有望改变上述局面。开展规范研究的学者可通过多个地区的法律案件文书，把文本向数据转换、提取文本背后的有用信息，进而全面获得实践中的裁判观点。波斯纳（Richard A. Posner）对此有过恰当的评论，他认为“法律决定和教义全都由事实驱动，而不是由理论驱动”。

首先，法律大数据所挖掘的信息，为规范研究提供了问题意识，为解释设定了起点。规范之所以需要解释，是因为存在疑义。此种疑义并非凭空而来，而是在法律的具体适用中凸显。在过去，此种凸显主要依靠典型案例的被发现而引起学术界的重视。如今，大数据技术的兴起，缩短了该种疑义被发现的进程，并克服了主观选择案例的片面性。这是因为，研究者可不再依赖于司法机关筛选出的指导案例，或者主观随意地挑选案件，而是通过公开的裁判文书进行全样本的大数据分析，挖掘出研究者所关心的司法实践的某一侧面情况。在评价中国的法教义学之缺陷时，有学者指责在中国看不到“法学与司法之间的深入对话”，进而强调中国学者应当虚心、耐心和诚心地向中国法官学习。面对面交流自然是学习的方式之一，但其成本太高。更有效的方式是跨越个案地、基于海量样本地分析法官所写的裁判文书（裁判文书是法官裁判观点的浓缩精华）。

其次，大数据方法赋能后的实证研究，为研究者提供了法律概念的社会语境。解释的最终目标是达致“裁定之案件获得公平的处理”，这种公平处理首先要具体化为探寻某一规则的立法目的。目的解释在某些学者眼里是指“探求法律在今日法秩序的标准意义”。那么，今日法秩序的理想图景又从何获知？学术研究者、法律适用者面临探寻这一出处的难题。以往的学理解释，一般是从部门法的基本价值出发解释法条，例如刑法的解释总是要考虑罪刑法定、罪刑均衡、法益保护、保障人权等，又如诉讼法中强调程序参与、诉讼效率、纠纷解决等。在学理解释者看来，这些基本就是衡量解释是否恰当的主要标准。而在具体法律适用者（例如面临个案裁判需要的法官）那里，还可能有其他社会、经济甚至政治的因素要加以考量。大数据的实证分析技术，为解释这些“关键词”提供了上述维度的信息参考，例如可利用大数据分析某个条款在不同案件背景下的不同解释结论，这些背景包括年代、当地的社会经济背景、原被告双方的身份等。以往的实证研究当中并非没有此类尝试，但毫无疑问，在大样本中分析裁判观点的社会语境，所得出的结论将更具有普适性。

当然，法教义学同样也给大数据分析以有价值的课题，规范研究者可以将其感兴趣的问题传递给法律大数据的分析者。如此一来，“这些学科的研究对象和知识兴趣就受到教义学的影响了，或者，也会引发交叉学科的研究课题的产生”。

（二）为立法论提供效果评估工具

2011年3月，时任全国人大常委会委员长吴邦国在十一届全国人大四次会议第二次全体会议上宣布“中国特色社会主义法律体系已经形成”。在此之后，学界有过一种观点，亦即认为我们的学术研究将从立法中心主义转向司法中心主义。另一种更谨慎的观点则认为，就中国特色社会主义法律体系这一宏大工程而言，上述时间节点是一个终点，但更是一个起点。在此后的七八年里，现实更加验证的似乎是后一种观点，即立法并没有消退，经济发展、社会转型向法律制度提出了新的要求。实证研究亦表明，立法中心主义的研究氛围始终存在。既然立法论的研究从未消失，我们更应当重视此类研究推动的立法质量和效果。法律体系形成及其规模的持续扩大，并不表明法律体系已经完备或能够自动产生实效，更不意味着立法必然合乎社会需要。就立法进行事前和事后的评估，这不只是立法机关的工作职责，同时也是借此反思立法论研究的良好契机。

这里主要探讨立法评估的方法，重点考察大数据技术是否有助于提升立法评估的广度和精度。当前的立法评估方式包括征集公众意见、问卷调查、实地走访等。例如在一份对地方法规的评估中，其研究者主要是在政府机构的主导下，通过第三方评估机构，推动各部门和区县自查、设计和布置调查问卷、文献梳理、重点走访和调研等方式，来完成评估。评估的方法当前“主要运用的是定性分析方法，很少运用定量分析方法及运用影响分析方法”，而这从评估的精确性来讲是不够的。毕竟，现代国家的管理是“数目字”管理，在现代政府的协调性行政控制中，对这些“官方数据”的例行监测是不可或缺的。大数据技术在立法评估中有如下两方面可能的贡献。

首先，大数据技术有助于更好地收集来自社会各界的反馈。笔者在研究中访问了全国人大和多个地方人大的网站，发现它们目前都还停留于前大数据时代的意见收集模式。大数据时代很注重对信息的标签化收集和处理，产业界将此称为“打标签”。若能在信息收集环节按照大数据分析的需要进行改造，增加备选的、对立法评估有价值的“标签”供用户勾选，则将有助于提高所收集的信息之质量。而互联网的发展，为利益相关者尤其是公众参与立法评估提供了手段。

其次，在立法有关材料的文本清洗和分类中，大数据技术也将提供更多的工具。在各地的立法评估实践中，会面对大量的文字材料。根据某省立法部门的反映，他们缺乏的是针对各方面立法意见的信息汇总和分类的能力。立法机关当前仍然停留于通过传统的“人工看、人工做统计”的方式来获悉各方面的反馈。大数据技术中的词频统计、主题分析、情感分析等相关技术，可以对庞杂的立法建议作清洗、聚类，而这些立法意见的文本处理能力是可积累和可复用的，根据过往的立法意见所构建的筛选模型，例如征集到的立法反馈有哪些意见类型、主要针对立法的哪部分提出意见、意见提出者的身份等，通过机器学习，可以应用于今后对立法意见的高效筛选之中。

最后，就立法评估的时间节点而言，大数据技术更能发挥作用的应该是立法后的评估。立法前评估与立法后评估的区别在于，立法前评估主要评估立法的必要性、合法性、协调性和可操作性，而立法后评估则重在考察法律法规对经济、社会和环境的实际影响。影响评估和成本—收益分析是两种不同的方法。成本—收益法是一种法经济学的路径，该方法之所以在立法前评估中经常被使用，是因为在立法之前一切影响都是估计的，并无立法产生的实际影响可以测量。较之事前的估计，关于事后的立法影响，其有关信息显然更多，数据分析也将更有应用的空间。因此，大数据技术和法经济学的方法，在立法前、后的评估中将体现出不同的分工。

上述主要讨论立法部门引入大数据技术展开立法评估，此外，大数据技术还应赋能学者的立法论研究，为研究提供检验成效、提示风险的能力。在一些西方学者看来，实证研究的前提为认同法律乃是一种工具，且由此对它可以用一种实证性的方法来加以检验。又由于法律规范对于维持社会秩序具有极大的重要性，社会变革一般不允许像其他科学领域中那样被“视为一种迭代过程”，因此，“在公共事务领域，失败是一个典型的只能在私下里低声讨论的事情”。但是，对某一制度的变革方案之效果进行大数据分析，绝对是有意义的，哪怕实证分析的结论不完全公开、仅供特定人参阅。例如陈卫东等人的课题组将某些改革举措限定在局部区域进行自然实验时，其中就用到大量的统计数据，该研究若能增加数据的维度和样本的数量，则其论证的效果也许会更好。此种对法律制度立法效果的大数据评估，已经在学术界得到一定的认可，例如在一项对精神损害赔偿发生机制的研究中，其研究者就意识到实证研究可以大幅度提高立法预测个体行动的精确性。

结语

揭开大数据技术的面纱，我们可以看到，作为法学研究的一种新方法，大数据技术增强了我们获取数据、分析数据的能力，使得在更大时空范围内研究法治实践的规律成为了可能。

笔者认为，“数字技术+法学”应区分不同的细分场景展开讨论，不同的法律场景具有不同的特点。例如，首先应区别工程和学术，在学术研究中引入大数据技术，模型设计有充裕的时间，过程的可解释性要求较高。其次应区别学科和学术，作为法学研究方法的大数据技术，只是学科论中的内容之一。有学者认为，“计算法学的研究方法中最主要、最具特点的方法还是本文所指的运用计算机科学智能化处理大量法律数据以解决法律问题的方法”。本文的见解与其相近，同时认为这套大数据的方法不只适用于计算法学，而是全面覆盖法学的各个二级学科。最后是研究中具体方法的细分，如果将法学研究的方法区分为规范研究和实证研究，那么大数据技术方法和法学研究的结合点主要是在实证研究上。有学者认为，“计算法学可归属为实证法学的基本范畴”，“计算法学通过兼收并蓄的统合吸纳了定性研究和定量研究各自的优长”。本文主张狭义地将大数据技术定位为是对定量研究产生的变革，这并不妨碍与定性研究的彼此互鉴。在我国法学界，实证研究将与规范研究长期并存、共同发展。若对此心存疑虑，则不妨回顾一下美国法学研究在20世纪60年代所谓的“跨学科”研究方法之转向，以及90年代对此的二次转向，还有我国法学界在2005年前后也出现了一次“中国法学向何处去”的热烈讨论，便可以发现规范研究和各种跨学科法学研究方法间存在着难舍难分、始终共存的关系。

周翔，浙江大学光华法学院特聘副研究员

原文刊载于《法学家》2021年第6期

周翔：作为法学研究方法的大数据技术

小程序 | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏