摘要:算法治理是算法时代的核心议题。然而,当下算法治理的实效不彰,算法治理的理论亦分歧重重。鉴古而知今,20世纪60年代以降的算法治理史不但展现了丰富的制度实践,也为我国算法治理体系的建构提供了深邃洞见。聚焦于关键场景算法透明公平的“法律”、趋于共识的算法伦理“规范”和迈向算法可解释的“代码”,贯穿了长达半个世纪的算法治理进程。政府(法律)、社会(规范)、市场(代码)的耦合,以及工具性/自主性算法和高/低风险算法的类型化,共同塑造了理一分殊的“模块化”算法治理体系,为分类分级的算法治理奠定了稳固的理论之基。
算法及其治理并非21世纪的新鲜事物。早在1984年,美国《电子监控与人民自由》的评估报告就总结道:过去20年间,已有约四分之一的部门将“计算机化的系统”用于“执法、调查或情报用途”。事实上,作为人类通过代码设置、数据运算与机器自动化判断进行决策的机制,其时算法的作用和影响远不止于此。在刑事司法、金融征信、社会福利、医疗卫生、国家安全等诸多领域的广泛应用,不但激发了算法治理的丰富实践,而且深刻塑造了后续的发展路径。时光流转,在算法治理理论聚讼纷纭,算法规制实效难如人意的当下,本文尝试采取一种更具历史性、对治理与技术的复杂纠缠体察更深的进路。为此,本文首先从人工智能诞生伊始、算法治理初具体系的20世纪60年代出发,以劳伦斯?莱斯格首倡的法律、规范和代码为线索,审视域外算法治理的演变。最后再回到我国语境,以期探索出一条返本开新的算法治理道路,就此而言,本文可算“一切历史都是当代史”这句箴言的算法注脚。
一、算法的法律治理
半个多世纪以来,随着信息技术的突飞猛进和算法运用的普及,对算法的法律规制亦浮出水面。在此,本部分拟从立法与司法出发,展现算法法律治理的基本面貌。
(一)由点及面的算法立法
1986年美国《电子记录系统和个人隐私》评估报告已充分意识到算法治理的必要性,其明确指出:个人画像意味着运用归纳逻辑,求解特征和行为模式与特定行为是否发生有关的指标,而政府部门画像的使用引起了算法歧视等重要的隐私和宪法问题。但截至那时,依然不存在任何针对画像的立法和政策指南。金融征信是仅有的成功推进相关立法尝试的场景。在评估报告与议会听证的基础上,1968年,美国联邦参议员Zablocki提出《公平信贷报告法》议案,要求赋予消费者“面临负面征信报告时知晓报告所基于的特定事实或指控”的权利。这可以被视为最早对征信算法下个体获得解释权的立法尝试之一。不过,由于两院议案内容的不一致——众议院版本要求贷款人在拒绝消费者申请时,披露拒绝的具体原因,参议院版本则未作此要求——在1970年正式通过的《公平信贷报告法》中,最终未能纳入类似获解释权的安排,仅赋予消费者有条件的、访问自身征信报告与信用分数的权利。法案立法目的部分直陈:“用于调查、评估征信状况的机制已经被开发出来,征信机构应当履行其在维护公平、不偏不倚和消费者隐私方面的重担。”1973年,参议院尝试修正《公平信贷报告法》,纳入类似获得解释权的权利、并消除对消费者访问征信报告的限制,未竟其功。就性别、种族等争议变量用于征信所蕴含的算法公平问题,1974年正式通过的《平等信贷机会法》规定:“在信贷交易的任何方面,基于种族、肤色、宗教信仰、国籍、性取向、在相应个体具备订立合同的民事权利时的年龄、收入全部或部分来源于公共援助项目而歧视相应信贷申请者,即属非法。”《平等信贷机会法》还落实了Zablocki的设想,其规定:“在申请信贷中遭采取负面决策的信贷申请者,有权自贷款人处获得对相应行动的理由的陈述……仅当陈述包括导致相应负面决策的确切理由时,对理由的陈述方可视为合乎本节的规定。”
半个世纪前的立法,其现实意义不仅没有消磨,反而愈发突出。在算法治理立法迟滞不前的当下,行政机构不得不依赖“古老”的法律。2020年和2021年,美国联邦贸易委员会(FTC)发布的《人工智能和算法运用》(Using Artificial Intelligence and Algorithms)和《你的公司运用人工智能:以真实、公正、平等为目标》(Aiming for Truth, Fairness, and Equity in Your Company’s Use of AI)两份解释性规则,在《公平信贷报告法》《平等信贷机会法》以及1914年《联邦贸易委员会法》的基础上,指出应用算法者宜采取以下五类最佳实践。
第一类,保持透明。不在使用自动化工具方面欺骗消费者;在收集敏感个人信息时,充分告知;如果自第三方数据经纪商处收集数据,并在此基础上作出自动化决定,应用算法者可能需要告知消费者与前述“负面决策”相关的访问或获解释的权利;引入独立监督。第二类,解释决定。若基于算法决定,令消费者丧失权益,宜作出《平等信贷机会法》所要求的解释;如果使用算法向消费者分配分数,则宜披露影响算法的关键因子,并依其重要程度排序;如果与消费者交易的条件可能因为自动化工具发生改变,则应将相应改变告知消费者。第三类,确保决定的公平。不因特定类别而歧视;既关注输入,也关注输出;给予消费者纠正个人信息的渠道和机会;不要在算法公平上向消费者作出夸张表述。第四类,确保数据与模型具稳健性、实证可靠。在将消费者数据用于多类重要决定前,确保相应数据满足《公平信贷报告法》对数据准确性与应时性的要求;在将数据提供给他人以用于自动化决定时,确保数据的准确性;确保人工智能模型已经反复验证,按设计目的工作,且不蕴含非法歧视。第五类,算法应用者应对合规、伦理、公平与歧视问题保持可问责。包括在应用算法前,就数据集、模型预测与“对大数据的依赖”开展反思;避免算法用于非法用途;考虑自身的问责机制;为善,而非作恶。
尽管FTC的阐发具有鲜明的指导性,但执法案例仍付之阙如。FTC在上述解释性规则中反复援引的Facebook案与Everalbum案,可资参考。Facebook与Everalbum均向用户作出欺骗性陈述,称除非用户明示同意,不会默认将用户信息用于人脸识别算法,然而,二者实际均未信守承诺。FTC与二者达成和解令:除停止相应行为、删除相应数据、在数据隐私问题中确保用户同意、完善合规项目、引入定期评估等常见措施外,在Everalbum案中,和解令还要求“删除由相应相片、视频提取的人脸特征,并删除由相应相片、视频训练的模型和算法”。整体而言,除Everalbum案中新颖的处罚措施,两案均难以支持解释性规则所罗列的繁多实践。此外,从行政法的角度看,理论上无拘束力的解释性规则具有实践重要性,个体常常感到遵守这些规则的压力,行政机构得以灵活地实施治理。另外,由于解释性规则无须经历通常的立法程序,一旦具有事实上的约束力,即有可能违反行政法对行政立法的程序性规定;同时,将立法目的在于治理金融征信的《公平信贷报告法》《平等信贷机会法》解释为可能涵盖一般的算法应用者,有不当扩张相应法律适用范围之嫌。事实上,美国法院对FTC不断膨胀的执法权,审查亦在趋严。例如,在LabMD, Inc. v. FTC案中,就FTC以和解令形式向数据处理者提出的整改要求,法院认为其过于模糊、逾越了专断与任性的行政法界线,故撤销了该和解令。
(二)因案成法的算法司法
1. 算法透明与算法解释的司法规则
“缓不济急”的立法使得司法系统不得不承担解决问题的角色。在1973年Neal v. U.S.案中,面对个人所得税计算程序的证据开示争议,法院判称:正在运作的是所谓“输入垃圾、输出垃圾”的计算机指令,只能获得打印的报税单结果的原告从未知晓对计算相应税额的程序指令的解释。因而有必要通过证据开示提供这一解释。
1976年的Perma Research and Dev. Co. v. Singer Co.案进一步展现出法院对算法可解释性的回应。该案中,围绕汽车防滑设备的可靠性,原告仅提交基于计算机模拟算法的分析结果作为证据,其可采性成为重要争点之一。面对计算机专家辩称算法具有“财产性利益”,并拒绝展示算法相关信息亦拒绝被告检视代码的做法,法院如此说理:由于计算机具备以极具说服力的格式包装错误的或误导性的数据的能力,计算机化的仿真或计算,应严格遵从适用于专家证据的可采性规则,利用不正确的证据进行演算“比一文不值还要糟糕(worse than worthless)”。于是,相较其他工程领域的证据,对算法应施加“更高的准确性要求”。据此,原告应提交“与相应专家所依赖的程序有关的信息”,或应使法庭或被告“得以知晓基于算法的结果是否完整或准确”,原告前述做法未能实现二者之任一,故法庭裁定相应证据不可采。
随着研究的深入,“算法生成证据”的审查规则不断细化。针对算法输入,需审查数据来源为何、如何处理原始数据、是否具备数据纠错以及何种纠错措施、对数据生成过程的其他认识;针对算法运行,需审查算法对输入数据各种可能性的考量是否充分、算法对数据的利用是否充分、算法是否总是能够得到正确结果、算法是否处于最新版本;针对算法输出,需要审查算法是否以有效格式输出了所有相关的信息,而没有不当地压缩、隐瞒甚或误导,并审查算法输出用于何种目的,以及使用算法的当事方以何种程度、方式依赖于算法输出;针对代码文档,需要审查文档是否全面、准确、如实地反映算法实践。
2. 算法公平的司法规则
自20世纪60年代起,美国各地法院开始走向现代化和数字化。尽管人工智能暂时难堪大用,部分原理更加简单的算法,却开始在司法系统的日常运作中替代人。在陪审团抽选场景中,随机抽选算法很快引起围绕算法解释与算法公平的诉争。在20世纪60年代以前,抽选陪审员的过程大致如下:由当值法官或当值法官助理将符合陪审团资格的个体姓名,倒入一能转动的封闭容器,再人工搅匀,最后抽出当选名单。在计算机上运行的随机抽选算法,不但能实现类似功能,兼具有成本低廉、保存长久的优点,很快在各地法院占据了主导地位。
然而,即使是随机抽选这样相对简单的算法,仍不时以难以解释的方式,在陪审团抽选中引致公平性问题。譬如,相较法院所在地社区各族裔的人口占比,抽选所得陪审团中各族裔占比,可能出现相当幅度的偏离。这一偏离既不符合《美国联邦宪法》第6条“不偏不倚的陪审团”裁判的规定,也会对实际裁判结果造成显著影响。随着算法的广泛运用,围绕抽取公平性的诉争,遍及算法的输入、抽取和输出等环节。例如,在U.S. v. Osorio一案中,不公平来自输入环节:算法采用同一字母标注“该个体来自一特定县”与“该个体已死亡”,于是,在检查相应个体是否可以抽选时,算法误认为居住于该县的个体均不属于可抽选范围,导致历次抽选中,无一来自该县的个体被抽中。在People v. Ramirez案中,不公平发生于输入和抽选环节之间:抽选算法根据输入,匹配、检查每一个体情况,包括是否存在重复。此案中,当地是西班牙裔聚居的社区,有姓名相近的文化。因算法依赖于“名字的前四个字母和姓是否完全相同”,来判断有无重复,导致大量实际不同的西班牙裔个体被去除。结果,尽管西班牙裔人口在当地占比26%,被抽选为陪审团的概率仅有19%。在Azania v. State案中,不公平发生于抽选环节:算法首先按居民所在县地名的字母顺序将个体排序,再由从前往后的顺序,抽出所需数量的个体。所在县地名字母序靠后的个体,被抽中的概率非常小;当不同族裔在各县间分布不均时,会导致陪审团组成中族裔占比的不公平。
面对上述种种问题,司法系统通过以下实践,有效平息了抽选算法的公平性论争。第一,作为民权运动时代对陪审团公平论争的回应,《1968年陪审团和司法履职法》规定:与陪审团抽选过程有关的记录或文件不应被披露,除非披露相应记录或文件系为提起该法设立的动议所必要,在准备相应动议或等待相应动议的裁决期间,在任何合理的时间,案件的当事方均应被准许检视、复制和拷贝相应的记录和文件。在Test v. U.S.案中,联邦最高法院将相应条款解释为“当事人实质上具有无条件检视陪审团记录的权利”,为要求开示抽选算法的相关信息提供了制度保障。第二,在部分围绕抽选算法公平性的诉争中,法院就特定算法的公平性作出判断,以案例引导后续判决。例如,在U.S. v. Davis案中,法院即肯定了以下算法在原理上的公平性:首先,根据抽选范围的总人数和当次需要抽出的人数的商,计算“商数”;其次,由计算机生成一个随机数,作为抽选时的起始数字;最后,根据每一个体序号,在起始数字上不断加上商数,并抽出数字对应的个体。如果相加结果大于总人数,则从头循环。第三,针对随机抽选场景,美国国家标准与技术研究院(NIST)后续发布了经充分验证的公平抽选算法的原理和详细代码。各地法院陆续制定了更加细致的“当地规定”(Local Rules),详细解释抽选算法的输入数据来源、具体运行过程和算法如何保证公平性。部分地区的法院还会进一步说明:NIST已经认可当地抽选算法的公平性。
二、算法的规范治理
所谓“规范”(norms),意指“由规范性态度所支撑的行为的规律性”,本文在宽泛的含义上使用这一概念,以涵盖算法的“社会伦理”与“社群共识”。
(一)“人化”的算法伦理
20世纪60年代后期,对自动化决策、信息系统、人工智能的担忧和呼吁不输今日。20世纪70年代伊始,由法学和计算机科学的学者与行政官员一道组成的“斯坦利屋工作组”(Stanley House)对之进行了深刻反思:自动化系统仅仅是将非人的控制隐藏在计算机程序里,并让这样的实践影响到更多的接收者和参与者。系统既不可能抽象于系统所关联的人而存在,也不可能抽象于创造系统者的设定而存在。因此,除非为算法设计注入“人化”的价值,否则人的尊严和“把人当成人”准则必将面临威胁。在这一理念的感召下,斯坦利屋工作组提出了“人化系统”应当遵循的五方面准则。
第一,系统在与用户交互的过程中,应当保持简明易懂、尊重用户、响应迅速、不为用户制造不必要的负担、提供人类可读的信息界面、提供修正系统的方式,并对管理失当负责;第二,系统在处理例外时,应当尽可能意识到不同类别个体间的差异,意识到特殊的系统行为可能需要特殊的条件,在输入和处理环节提供可选项,为用户提供可选的交互方式,并提供推翻系统决定的程序;第三,系统在处理个人信息时,应当允许个体访问与他们有关的信息,提供修正相应信息中错误的方式,提供评估系统所存储的信息质量的方式,为个体提供补充其认为重要的信息的方式,并公开披露系统存储的数据类型和系统处理数据的方式;第四,任何系统都必须经历“人化”和隐私两方面的考察,融合不同文件或系统中个人信息的决定,永远不可自动作出;第五,对于系统的伦理问题,系统不应戏弄或欺骗个体,系统当协助而非操纵参与者或用户,在作出有关雇佣的负面决定前,系统应对其他雇佣机会作审慎的考量,系统设计者不应参与秘密数据库的设立或维护,并且,系统应以同样的审慎对待所有与系统交互的用户。
上述准则与今日算法伦理原则如出一辙。对全球84种算法伦理文件的归纳表明:获超过半数文件支持的伦理原则共有五种,按支持数多寡排序,分别是透明、公平、不作恶、可问责与隐私。《斯坦利屋准则》对系统交互的要求,不仅是透明原则的体现,还含有更具体的实现。公平原则和不作恶原则,见于《斯坦利屋准则》第5条;可问责原则和隐私原则亦是《斯坦利屋准则》第1条和第4条的重点所在。循此可断言:历经半个世纪,对相应算法治理原则的追求,依然“不改颜色”。再进一步,《斯坦利屋准则》实际已全面回应了落实原则的难点:一方面,工作组努力确认,对于在设计中实现部分准则,并没有技术障碍;另一方面,工作组亦坦诚道,对于其他部分准则,“政治、社会、经济因素,都是特定系统在何种程度上可能,以及在多大程度上愿意纳入‘人化’或‘非人’设计因素的考量”“只有在场景中,考虑系统的目的和可用的安全水平,才有可能判断系统是否遵循了‘人化’的准则”。半个世纪后,算法治理原则的落实前景,依然如此。
(二)开源社群的算法规范
开源社群及开源规范的形成与发展是治理算法的又一规范途径。20世纪60年代,对作为开发者主力的学术研究者和企业实验室工程师而言,免费发布、交换程序源代码是相当常见的行为;获取、阅读并尝试修改他人免费发布的源代码,则是理解算法和计算机最为主要的途径。二者都是算法历史上影响深远的“骇客文化”(Hacker Culture)的组成部分。20世纪80年代起,随着商业软件的发展,怀念开放共享与自由探索精神的开发者,先后建立了自由软件基金会以及“通用公共授权(General Public License)”机制,“谁可以修改代码、在什么环境下修改代码、谁有权反馈修改代码”等开源规范逐渐成型。当前,世界范围内最大的代码托管平台GitHub,即是遵从开源伦理的“社会化编程”的集中体现。
以GitHub为代表的开源社群及其开源规范在算法治理中不可或缺。从欧盟《一般数据保护条例》中对算法可解释性的要求,到欧盟《人工智能法》提案对高风险人工智能系统的要求(第13条),算法治理对算法可解释的要求可谓一以贯之、越发细致。而作为算法发展的主要实现途径之一,GitHub拥有5000多个人工智能、机器学习算法的研发项目,其相应的开源规范令算法更易理解和实现,有力促进了算法的可解释性。同时,GitHub也是探索伦理原则的主要场所:一方面,目前可以审计个人信息保护、数据安全、数据集偏见、算法公平、可解释性等问题的三款算法治理工具Deon、Model Cards与AI Fairness 360,均为开源软件;另一方面,GitHub也代表了算法伦理原则的研究前沿,仍以算法可解释性中影响较为突出的“反事实解释”为例,GitHub相应话题下已有17个以不同思路、在不同算法中实现反事实解释的项目。这或许正是“创新联合体”力量的体现。
三、算法的代码治理
在法律与规范之外,“代码”(code)成为算法治理的底层。作为造就网络空间的基础性架构,代码囊括了身份识别、数字签名、加密与屏蔽技术程序以及传输协议等诸多方面。与互联网诞生之初开放、透明的代码相比,当下的算法不断复杂化和黑箱化。不过,正所谓“解铃还须系铃人”,迭代的代码反过来成为治理算法的重要一环。在这里,我们主要聚焦于算法的“程序语言”和“软件设计”,以展现其对算法治理的可能影响。
(一)趋于理解的算法语言
从难以理解的机器语言到高级编程语言的演进,揭示了从根本上打开“算法黑箱”的可能性。20世纪60年代前后高级编程语言的诞生发展,可视为“抽离机器(Abstracting Away the Machine)”的过程。在此之前,使用机器语言的算法编写者必须“说计算机能懂的语言”。对于不谙熟计算机的人而言,如此算法难以卒读;相比之下,高级编程语言写成的算法,看起来就像“语文”加上“算术”,相对容易为常人所理解。对于何谓“高级”,有一相当形象的比喻:想象我们是在餐厅里用高级编程语言写成的算法用餐的人。我们只需要阅读菜单,就可以知道足以决定吃什么的信息。用餐的人不需要担心汤里要放多少盐,不需要担心厨房究竟要烧多少道菜,也不需要知道如何摆盘。他们只需要对最后的结果有高级别的控制。从半个世纪的时间段上看,随着抽象程度不断提高,“菜单”不断完善,用于写就算法的编程语言,也越来越接近常人能够理解的语言。在新近判决的Google v. Oracle案中,美国联邦最高法院即用“菜单”之喻,说明应用程序接口(API)的工作原理。调用API的过程,仿佛使唤一个机器人:只需要对机器人说声简单的口令(调用指令),机器人便能找到正确的菜单并交给厨师(通过调用指令,找到实现预先封装好的算法的实现代码),接着,“只需要等待用餐”。从需要自己阅读菜单,到使唤机器人点单,尽管今天的算法依然堪称“黑箱”,但算法的可解释性已经有了长足的提升。
当前,“低代码”“微服务”的迅速迭代,可谓“人化”算法的进一步探索。其中,“低代码”旨在继续降低对算法编写者编程技能的要求,让业余选手也能快速完成不同类型业务场景的数字化实现,并安全稳定地运行。Excel对数据分析任务的简化,是低代码的典例。“微服务”更侧重企业内部数据存储、数据访问、数据处理和展示(输出)各项服务的封装、架构和灵活调用,以实现“算法算什么”和“算法怎么算”的分离,进一步简化让“机器人”找到“菜单”所需的口令,随着趋势发展,理解算法的门槛将越发接近常人的理解能力。要求“简明、完整、正确和清晰”的算法,而不仅仅是“简明、完整、正确和清晰”的文档,也将逐渐在技术上趋于可行,这或许是60年来“人化”算法之漫长道路的可能句点。
(二)优化管理的软件工程
20世纪60年代既是算法法律和规范治理的起点,又是软件工程诞生的时点,这不是巧合。实际上,恰如前者代表了在社会层面上控制“神秘”算法的尝试,软件工程将系统性、规范化、可定量的方法应用于软件开发、运行和维护,代表了在开发算法的组织层面上,以形式化方法控制“动荡和混乱”的努力。
“构造文档”和“设计文档”是软件工程的重要内容,亦是满足审计目的,具有法律意义的重要资料。截至20世纪70年代,针对算法维护者和算法用户分别提供解释性文档已成为规范性惯例。从计算机科学角度出发的高质量文档,包括两类评价指标:文档是否完整解释了算法,即文档是否完整解释了算法的每一输入、输出和例外情形;文档是否清晰可读。此外,高级编程语言陆续加入注释功能,允许编写算法者在代码中加入特定格式的自然语言,以“告知其他检视算法者他运用了何种机巧,又或者对维护面团般的代码的后来者提出告示”。如今,注释已成为任一编程语言的标准功能。好的注释,既可以提供法律所需信息,也可以清楚解释编写算法者(就特定段落的代码所蕴含的)意图,从而解释为什么特定代码会存在。
随着高级编程语言的可靠性、简洁性和可理解程度的提高,算法文档不断迭代。曾经用于“将难以理解的机器语言组合成一连串可理解的步骤”的流程图文档,在高级语言相当程度上实现“理解机器语言”功能后,自然变得“过时且令人生厌”,“我从来没有看到过一个有经验的编程人员,在开始编写程序之前,会例行公事地绘制详细的流程图”。不仅如此,高级语言发展历程中的不断封装和抽象,为算法开发团队的组织架构提供了较过往组织架构更彻底的解决方案:通过精准、完整地定义所有接口,或者说,精准、完整地制造选取“菜单”的“机器人”,让开发团队中每一编程人员仅了解自己负责的部分,而无须了解整个算法的开发细节,可以取得最高的效率。微服务的发展承继了这一愿景,即通过精准、完整的抽象与封装,实现“产品特性”与“项目开发”的分离。就算法治理而言,这意味着技术层面的不可行性不再是完全无法逾越的障碍。例如,基于特定思路的算法解释或算法公平的具体实现,可以成为便于取用的微服务之一;相应地,组织内负责算法治理或合规但未必熟稔技术知识的部门,将更有可能实质性地介入并影响算法的开发和设计过程。
四、算法模块化治理:法律、规范与代码的耦合
(一)我国算法治理之检视
从法律、规范和代码出发,我国算法治理呈现出如下面貌。
在法律层面,《数据安全法》第28条“开展数据处理活动以及研究开发数据新技术,应当有利于促进经济社会发展,增进人民福祉,符合社会公德和伦理”构成了算法治理的原则条款。《个人信息保护法》第24条“自动化决策”条款和第55条“个人信息保护影响评估”条款共同塑造了算法治理的基本架构。在此基础上,《电子商务法》第18条、《网络信息内容生态治理规定》第12条、《网络音视频信息服务管理规定》第10条和第11条、《数据安全管理办法(征求意见稿)》第23条和第24条、《关于规范金融机构资产管理业务的指导意见》第23条分别就商品服务个性化展示、信息内容个性化推荐、信息内容深度伪造、信息内容算法合成、智能投顾等事宜,既赋予了个人自主选择权和拒绝权,又对算法应用者苛以安全评估、算法备案、明确标识等义务。2021年以来国家网络信息办公室出台了《关于加强互联网信息服务算法综合治理的指导意见》和《互联网信息服务算法推荐管理规定》,正式提出利用三年左右时间,逐步建立治理机制健全、监管体系完善、算法生态规范的算法安全综合治理格局。
在规范层面,国家新一代人工智能治理专业委员会《新一代人工智能治理原则——发展负责任的人工智能》罗列了和谐友好、公平公正、包容共享、尊重隐私、安全可控、共担责任、开放协作、敏捷治理等原则。《国家新一代人工智能标准体系建设指南》从支撑技术与产品、关键通用技术、关键领域技术、产品与服务、行业应用、安全与伦理出发,力图回应人工智能对法律秩序的冲击。在此指引下,国家标准化管理委员会、全国信息安全标准化技术委员会等组织陆续制定了《个人信息安全规范》《人工智能伦理安全风险防范指引》《深度学习算法评估规范》《远程人脸识别系统技术要求》等国家推荐性标准或团体标准,以自动化决策机制为重点,限制其使用范围、明确其解释说明义务,防范算法风险、实现算法可控。同时,相关标准还针对用户画像、深度学习算法、远程人脸识别等特殊场景作出规定。就行业自律而言,北京智源人工智能研究院、深圳市人工智能行业协会、中国人工智能产业发展联盟发布了《人工智能北京共识》《面向儿童的人工智能北京共识》《新一代人工智能行业自律公约》,以期强化企业社会责任意识,在人工智能各环节融入伦理原则,实施伦理自查,探索从业人员行为规范,建立健全行业监督机制。
在代码层面,我国科技企业和开发者正在积极开发运用数据筛选、算法设计、模型优化等技术工具,着力解决诸如隐私泄露、算法偏见、算法黑箱、非法内容审核等问题。以算法透明度、可追溯性论之,阿里巴巴和百度公司积极提出了新的解释方法和可视化工具,字节跳动公司于2018年尝试向社会公开信息内容推荐算法原理。以算法安全可控论之,华为、腾讯等公司利用差分隐私、数据过滤等技术,应用于算法训练等数据使用过程。从软件工程的角度看,相应算法规范亦逐步落实于任务定义、数据收集、设计和模型训练、模型测试和验证、模型部署和应用等算法生命周期之中。
我国算法治理实践已初具雏形,但依然是碎片化的。与此同时,理论研究或者聚焦于算法偏见、算法透明、算法解释等算法具体问题,或者聚焦于电子商务、社交媒体、金融科技、市场竞争、行政决策等算法应用场景,算法治理的体系性研究稍显薄弱。在不多的算法治理整体研究中,有的学者从多样化的“算法风险”出发,提出了算法规制的多维谱系,另有学者立足于“算法信赖”,通过透明度规则、算法伦理法律化和算法验证评估制度确保算法自身可信度,并采取短期、中期和长期方案稳步推进算法治理。与上述主张不同,有的研究认为并不存在统一的算法规制路径,而应根据不同场景类型对算法采取不同的规制方式。
(二)我国算法治理体系的建构
我国算法治理实践与理论提出了两个彼此分离又联系的问题:(1)算法是否需要整体化治理?(2)如果需要,它应如何建构?诚然,算法因主体、对象、事项的不同而不同,但如果只是贴合场景、个案式的治理,则不过是“具体问题具体分析”的另一表述,在缺乏整体结构下的任何精细化进路,或者无法演绎分析,或者沦为套套逻辑,终将徒劳无功。就此而言,所谓场景化治理是描述性的而非规范性的。究其实质,在“技术—社会—法律”的同构系统下,作为通用技术的算法必将要求法律作出体系性回应。正因如此,如何令多样算法和统合治理兼容,成为问题肯綮所在。有鉴于此,本文试图从算法及其治理的历史出发,提出我国算法治理的如下体系模型(图1)。
如图1所示,“横轴”引入了算法发展的历史维度,自左向右,算法的工具性不断减弱,自主性不断增强。回顾60年算法史,最初,人们将既有的人类知识以“if-then”的逻辑规则在电脑上予以再现,凭借计算机的运算能力,自动处理特定领域中人类知识所能掌握和回答的问题,此时的算法主要表现为“专家系统”“决策树”等提升效率的工具。随着算法的演进,监督学习、强化学习、无监督学习、深度学习使得机器不再需要事前掌握一套人类设定的行事规则,而以数据为驱动,建立其思维与行动模式,算法由此脱离了纯粹工具性角色,而有了部分自主性和认知特征,同时也引发了“算法黑箱”的解释困难。不过,当今的算法依然高度依赖人类选定的“训练”与“应用”的限定背景,展望未来,算法将迈向“与人类具有相同程度的人工智能阶段”(HLAI),具有完全的自我意识和意向性。图1的“纵轴”引入了算法应用的风险维度,其“风险”不限于给个人权益带来的风险,还涵盖了国家、组织和群体可能遭至的风险。从下而上,算法引发的外在风险逐渐提升。最下端是“无风险”或“极小风险”算法,如垃圾邮件过滤器之类的辅助算法,最上端是“不可接受风险”算法,如严重危及国家安全或导致自然人身体、心理伤害的决策算法。在两端之间,则分布着“有限风险算法”和涉及“关键基础设施、公民教育、信息内容、产品安全组件、就业、公共服务、执法、司法和民主程序”等事项的“高风险算法”。横轴和纵轴所划分的“四象限”分别代表着算法治理的不同模块及其差异化制度。
本文提出的算法治理体系具有鲜明的统合功能和实践价值。一方面,其横轴和纵轴分别对应“算法风险”和“算法信赖”两种对算法规制的原点理论,同时通过“算法外部风险”和“算法自身可信”的切分,化解了上述理论彼此交叠的问题;另一方面,其四象限不但与我国场景多样、规制手段多元的算法治理现状和半个世纪以来的域外经验相契合,更重要的是,其扬弃了场景化理论,代之以“模块化”理论。这意味着,每个治理模块都是半自律性的子系统,不同模块存在自身特有的“个别规则”,也存在“共通规则”,由此可能相互联系构成更加复杂的系统。区别于场景化治理,模块化治理并非场景依存的个案处理和无规则治理,相反,它经由一般性原理与逻辑性架构,组成了灵活但可预期的治理体系。此外,这一体系有效呼应了《关于加强互联网信息服务算法综合治理的指导意见》中“算法分类分级”的监管理念。质言之,其横轴是从算法特质出发的“分类”,其纵轴是从算法风险出发的“分级”,由此为我国算法治理奠定了理论之基。
(三)算法的模块化治理
1.算法模块化治理的共同规则
算法治理史表明,法律治理、规范治理、代码治理相辅相成,并行不悖。放宽视野看,上述三种治理方式,本质上是“政府(法律)治理”“社会(规范)治理”和“市场(代码)治理”的具体化。其中,“政府(法律)治理”立足于国家强制性权力,其特征是命令与控制,“社会(规范)治理”立足于社群成员对共同价值与规范的认同与遵守,其特征是共识与监督,“市场(代码)治理”立足于企业内部的管理和外部的交易契约,其特征是选择与竞争。作为一种出自政府但又不限于政府的人类活动协调机制,治理不为政府所独占,事实上,在大多数情形下,政府可以动用新的工具和技术来控制和指引,此即“协同治理”(Collaborative Governance)的真意。算法的政府(法律)治理、社会(规范)治理、市场(代码)治理的统合将面临两大问题:一是三者如何划分边界和范围?二是三者如何相互合作,实现效果共振?
就第一个问题而言,政府(法律)治理以其他两者的失灵为前提,特别是在社群和市场引发不可化解的外部风险之时。故此,在图1的纵轴上,随着风险攀升,政府(法律)治理的重要性随之提升。这里的“风险”不仅与特定场景(如信息内容推送、自动驾驶、金融征信、公共执法等)和可能侵犯法益(如个人财产权、人格权、社会公共利益、国家安全等)有关,还与算法功能(如用户画像、推荐算法、自动化决策等)及其使用规模相关,其毋宁是上述三个因素的综合判断。社会(规范)治理则以法律和市场难以触达的“算法黑盒”为起点:法律不能透过算法模型全然把握其内部逻辑和决策过程,因而无法认定行为过错和因果关系;而打开算法黑盒的市场实践步履维艰,更不用有意义、普适且自洽的解释架构。当然,并非所有的算法都是“黑盒”,但由于算法的“准确性”(accuracy)和“可解释性”(interpretability)始终负相关,因而在图1的横轴上,从工具性算法迈向自治性算法,社会(规范)治理愈发重要。与上述两者相比,市场(代码)治理是成本最小、效率最高的治理方式,“政府(法律)治理”“社会(规范)治理”应采取“非必要不干预”原则,只有在市场(代码)不敷适用时,才可取而代之。
对第二个问题的回答是:政府、社群、市场都不是截然分割的场域,而用遵循“法律、规范、代码”耦合原则,使三者互补嵌入并相得益彰。就政府(法律)治理而言,从组织形式观察,政府不过是放大的企业,其完全可以因地制宜地引入企业内部管理和外部市场机制,前者主张学习企业树立算法的生产标准、强化流程和质量控制的思路,后者要求发挥跨组织协调作用,通过自组织的过程推进算法的知识积累和能力建设;就社会(规范)治理而言,政府和企业在一定程度上也是社群,尽管目标分殊,其决策依然需要凝聚共识和坚持一致性的价值观;就市场(代码)治理而言,其在操作上的优先性并不意味着可以无视法律和规范,相反,开发者亦应致力于发展与其他治理方式对接的工具,将法律和社群规则要求尽量转化为算法语言。总之,如何优化政府、激活社会、增进市场,是我国算法治理成功的关键所在。
2.算法模块化治理的个别规则
如前所述,四象限对应四种不同的算法治理模块,各模块的治理规则如下。
模块III中,算法风险低且工具性强,其治理主要依托市场(代码)方式,无须法律或规范针对算法出具专门规定,以免叠床架屋。在算法作为产品组成部分出售时,可在既有法律体系内,将传统上适用于有体物的《产品质量法》向算法拓展,若其缺陷导致消费者受到损害时,则适用严格的产品责任;在算法作为服务组成部分提供时,可依据合同法和侵权法的一般原则,认定算法应用者的违约或侵权责任。
模块IV中,算法风险低但自主性强,其治理主要依托社会(规范)方式,政府(法律)则在其指引下发挥辅助作用。详言之,社会(规范)治理具有如下内涵。其一,在理念上坚持人的主体性,正如马长山教授所指出的:智慧社会需要在“国家立法、行业自律、社会评价中确立算法遵从‘善法’的伦理原则,从而尊重人权价值、维护‘数字人权’和促进社会公平正义”。其二,在规范上落实“人化的计算机/系统”(Humanized Computer/System)。算法治理史表明,算法透明/可解释、公平、可问责与隐私/个人信息保护四项原则,历久而弥新。在算法不断摆脱工具性的背景下,以具有稳定性的治理原则,作为数字时代、黑盒之下人的尊严的起点,既有迫切性,又妥善处理了不可行性。其三,在组织上推动开放式、参与式、涌现式的算法社群。半个世纪以来,社群始终是算法和算法治理发展的主要发生地。因此,应当在制度层面贯彻“十四五”规划“支持数字技术开源社区等创新联合体发展”的远景,将社群治理纳入算法治理体系。为此,在新一代人工智能标准体系建设中,就人工智能算法的“测试评估”“隐私”与“伦理”类标准,建议鼓励相关组织将算法和/或文档上传至算法社群平台并相应开放外界监督。不仅如此,对于实现算法治理主要原则并在具体算法上实现的低代码、微服务、反事实解释等技术,可建立动态评估和纳入机制。长期看,这将是化解算法治理难题最彻底的进路。为了呼应上述社会(规范),法律可以在《数据安全法》第28条的基础上,明确算法应当遵循可解释、公平、可问责、个人信息保护的原则。在条件成熟时,上述原则可进一步成为宪法下数字人权的解释性要素,为数字法治下的算法善治奠定高位阶的制度基石。此外,法律还可通过完善开源知识产权和相应法律体系,尤其是类似于“通用公共授权”的机制,为开源社群的长期发展提供制度性保障。
模块II中,算法风险高但工具性强,其治理主要依托于政府(法律)方式,市场(代码)则负有落实义务。如前所述,算法风险受制于多种因素,相应地,法律治理亦因时制宜。首先,对于主要因场景特殊性而引发的风险,法律应回归部门立法和行业监管,遵循有害信息治理、金融风险管控、行政行为合法性审查等既有逻辑。其次,对于主要因关涉法益重要性而引发的风险,法律亦应将算法看作侵权行为或违法行为的工具,采取“结果导向”和“实质主义”进路,在危害后果发生后予以问责。此时,算法应用者负有证明算法系统设计的合理性,以及避免算法负面影响的义务。在上述两种情形下,政府均无须针对算法另起炉灶。最后,对于因算法自身特征而引发的风险,政府则应为算法量身定制监管措施。鉴于模块II下的算法自主性较弱,法律宜以“算法透明”为抓手,要求算法应用者向社会公众履行算法部署的披露义务,向受到不利影响的个体解释说明算法原理,向主管机关申请算法备案。权衡商业秘密、国家安全、戏耍算法(Game the Algorithm)等风险,算法备案的内容应结合市场(代码)治理,以“算法文档”为对象,涵盖如下内容:算法开发者信息、算法预期目的、投入市场形式等一般信息;系统所用的训练数据集、训练方法与技巧、数据集范围与主要特征、数据集如何获取选择、数据集的标准与清洗;用于衡量算法准确性、稳健性和安全性的指标,验证、测试和合规状况,等等。从规范目的论之,备案意图有三,一则说明算法整体和各主要部分的意图,以实现可解释原则;二则说明数据的收集、标注、清晰和特征化过程,并在算法对个体分类时,说明作出分类的依据,以实现公平原则;三则列明开发者信息与联系方式,以实现可问责原则。
模块I中,算法风险高且自主性强,是算法治理的重中之重和难点所在。究其实质,因其风险,政府(法律)治理责无旁贷,因其自主,政府(法律)治理又力有不逮。面对这一窘境,亟待政府(法律)、社会(规范)、市场(代码)的通力协作。其中,社会(规范)治理承担着“指挥棒”和“定界碑”的重任,从“算法为人类服务”出发,一方面将伦理规范法律化,另一方面立足于算法伦理委员会、伦理实践框架、AI伦理服务(Ethic as a Service)、算法伦理标准认证以及伦理培训,将伦理规范转化为最佳实践、行业标准和技术指南,使之成为具有实际拘束力的“软法”。政府(法律)治理则应从如下四方面着手。一是延续模块II中的角色,分门别类地加以具体规制,必要时可结合数字水印等溯源技术和开发者文档,强化算法问责。二是在算法自主性增强的背景下调整算法透明要求。鉴于算法的复杂性,算法备案时应当完整、简明、清晰地提交包含对应各项要求的合规信息;鉴于算法的自主性,备案文档中应包括人类监督措施及其评估的详细描述;鉴于算法的自我迭代,用于评估算法投入运营后表现的监控系统应同时备案,并应及时提交在算法全生命周期内对算法所作的改动;最后且最重要的是,鉴于算法黑盒的存在,审查重点应落在算法所需的“数据”上,算法应用者应在合理范围内展示输入的变量数据,及其对结果的影响,以便通过“反事实解释”评估算法是否存在歧视或偏见。三是充实个人算法权利和个人信息权利,赋予个人自主选择、拒绝算法决定和要求人工介入的权利。四是采取“风险治理”的进路,在事前、事中开展“算法安全评估”和“算法风险报送”,并根据“风险预防原则”(Precautionary Principle),对于可能造成特别严重或不可逆损害的算法,在应用者无法证明其存在充分必要性且风险可控的情形下,应禁止使用。风险治理有赖于大量专业知识和使用者的私人信息,因而可循协同治理路径,建立“政府设立标准—使用者自评估(报送)—政府复核并问责”的框架。市场(代码)治理可在规范和法律之下,通过“经由设计的规制”(Design-based Regulation),将“硬法”和“软法”刻进系统物理设计、技术设定、代码架构之中,成为系统运行的默认规则。不仅如此,算法安全委员会、个人信息保护专员等内部组织的设立,亦是不可或缺的一环。
五、结语
近年来,与算法演进同步的算法治理,远没有算法本身夺目,以至于人们将美国纽约的算法立法称为“无主领土中的首创工作”,还不乏“相应治理是令人悲伤的先例”之讥讽。但这种忘记历史和颇为悲观的论断,忽视了算法治理史的丰厚遗产。本文的研究表明,聚焦于关键领域算法透明与公平的“法律”,基本稳定的算法伦理“规范”,以及迈向可解释的算法“代码”,贯穿了算法治理半个世纪以来的进程。以史为鉴,政府(法律)、社会(规范)、市场(代码)的统合为我国算法奠定了协同治理基础。但统合并不意味着统一,事实上,只有深入到算法不同场域之中,才能得到切实可行的治理效果。凭借着对算法内在特质和外部风险的类型化,政府(法律)治理、社会(规范)治理、市场(代码)治理彼此嵌入、相辅相成,共同塑造了开放性和稳定性兼备的模块化治理体系,这既是历史的推论,也是未来的方向。我们期待着,它能为算法治理的理论化和实效化开辟出一条中国道路。
许可,对外经济贸易大学法学院副教授
原文刊载于《华东政法大学学报》2022年第1期