张涛：生成式人工智能中个人信息保护风险的类型化与合作规制

摘要：从数据生命周期的角度看，生成式人工智能在数据收集、数据清理、数据标注、模型训练、模型评估、模型部署与推理等阶段均可能引发个人信息保护风险，如未经同意处理个人信息、违反目的明确与最小化原则、个人信息滥用及泄露等。然而，位于规制谱系两端的“自上而下的集中式规制”和“自下而上的分散式规制”均存在局限性，难以达到预期的规制效果。因此，有必要采用“自中而外的规制方法”，构建合作型规制空间，调整和激活不同规制体系的回应性和敏捷性，最终实现生成式人工智能中个人信息保护风险的合作规制。为此，有必要建构契合生成式人工智能的科技法律，引入监管沙盒促成行政规制的包容审慎，利用分层治理实现被规制者的自我规制，完善评估认证实现社会的第三方规制。

关键词：生成式人工智能；个人信息保护；规制空间；合作规制

生成式人工智能的快速发展与广泛应用，使个人信息保护面临巨大风险。为了因应生成式人工智能的个人信息保护风险，各国（地区）也在积极采取治理措施。在比较法中，意大利数据保护机构于2023年4月对ChatGPT实施了为期一个月的临时禁令，理由是OpenAI公司未能就其如何处理用户和数据主体的个人数据提供透明的通知。欧洲数据保护委员会于2023年4月决定成立ChatGPT特别工作组，旨在研究和制定针对人工智能的通用政策，以确保个人数据的合法使用和保护。英国信息专员办公室（ICO）于2024年1月推出一系列公开咨询，主要内容便是探讨数据保护法的规定如何应用于生成式人工智能模型的开发和使用。虽然我国的《生成式人工智能服务管理暂行办法》和《生成式人工智能服务安全基本要求》（TC260-003）均将“尊重个人信息权益”作为提供和使用生成式人工智能服务的基本原则，但仍然主要以“告知同意”制度作为实现机制。这不仅可能造成个人信息保护流于形式，而且可能妨碍训练数据的汇聚，有必要进行制度重构。在理论上，学术界围绕生成式人工智能的法律规制展开了广泛讨论，主要聚焦于生成式人工智能的法律定位、安全风险、内容治理等问题，对个人信息保护问题的讨论尚显不足。基于此，本文以生成式人工智能的个人信息保护风险为研究对象，借助合作规制和规制空间理论，结合国内外的最新治理实践经验，试图探索契合生成式人工智能的个人信息保护风险治理框架。

一、生成式人工智能中个人信息保护风险的类型化

基础模型的一个关键前提是，海量无标记数据集可以与庞大的计算资源相结合，从而创建一个基础，并在此基础上为各种应用衍生出众多产品。从生成式人工智能的技术逻辑与应用场景来看，其与个人信息处理之间存在密切联系。理论上，从数据生命周期的角度看，人工智能数据集的开发及使用可以大致分为以下阶段：问题建构、数据收集、数据清理、数据标注、模型训练、模型评估、模型部署与推理、数据分发。以此为参照，本文以《中华人民共和国个人信息保护法》（以下简称《个人信息保护法》）确立的基本原则及权利为基准，并将这些原则及权利映射到最有可能受到影响的阶段，以此来建构一个同时考虑数据生命周期与风险及挑战的矩阵，如表1所示。这个矩阵的目的是提供一种分析方法，使利益相关者、政策制定者和监管者能够更容易地了解不同阶段存在的个人信息保护风险。

（一）告知同意与选择决定面临的风险与挑战

“告知同意”历来是个人信息保护制度中的重要原则之一，不仅是个人信息处理行为的合法性来源，其背后更是关涉个人的自主性、知情权、选择权与决定权等权利。长期以来，学者们从各个角度对“告知同意”在个人信息保护中的实效性提出批判质疑。基于社会学的批判意见认为，大多数人在大多数时候都会忽略大多数隐私政策；基于认知的批判意见认为，即使人们确实看了隐私政策，他们也难以理解这些充斥着专业术语且冗长的内容。在生成式人工智能中，告知同意与选择决定所面临的风险与挑战更加严峻。一方面，生成式人工智能涉及的数据集来源非常广，既包括从第三方供应商处购买的数据集，也包括通过网络爬虫自行收集的数据集，还包括用户直接提供的数据，所涉主体的多样性及关系的复杂性，导致告知同意与选择决定缺乏适用的现实条件。另一方面，生成式人工智能所涉及的数据规模巨大，如众所周知的大语言模型GPT-3是在45TB的文本数据上训练出来的，在此种情况下，要想从每个信息主体那里获得同意充满困难。

就告知同意与选择决定面临的风险与挑战而言，如表1所示，主要与三个阶段密切相关：首先是数据收集阶段。如前所述，由于生成式人工智能所涉数据的规模巨大且来源复杂，这导致同意的一般有效要件（如具有同意的能力、充分知情、自愿且明确作出）难以得到满足,“形式主义”的同意已经成为规避许多其他实质性个人信息保护义务的一种方式。其次是模型训练阶段。由于模型训练涉及对大量个人信息的加工、分析和利用，为了最大限度提高大模型的性能，未经用户的同意就将其个人信息作为训练数据便逐渐成为常态。最后是模型部署与推理阶段。这一阶段涉及对个人信息的进一步使用和提供，甚至可能涉及对敏感个人信息的自动化处理，在此情况下，个人信息的使用和提供极易超出个人同意的范围，而且难以满足单独同意的特殊要求。

（二）目的明确与最小化面临的风险与挑战

在个人信息保护理论与实践中，目的明确与最小化通常包含了三个层次：一是目的特定，即处理个人信息应当具有明确、合理的目的；二是直接相关，即处理个人信息的活动必须与处理目的直接相关；三是采取对个人权益影响最小的方式。在生成式人工智能中，目的明确与最小化也面临风险与挑战。一方面，个人信息处理目的难以在数据收集阶段完全确定，难以达到明确且合理的标准，原因在于大数据、算法等底层技术的价值恰好就在于挖掘隐藏的信息或对信息进行变革性利用，在一个充满“惊人关联”和计算机生成发现的世界中，很难预先知道“什么是必要的”；另一方面，基础大模型的跨领域、跨场景应用，极易导致个人信息的处理目的脱离初始目的，因为这些算法并不总是由程序员设计或初步理解的，而且可能越来越多地由计算机创建。

就目的明确与最小化面临的风险与挑战而言，如表1所示，主要与四个阶段密切相关：一是在数据收集阶段，必须确保收集的数据是用于明确的目的，并且只收集实现这个目的所必需的最少量数据。然而，由于生成式人工智能的模型训练通常需要大量的数据，这可能导致过度收集数据的风险。二是在模型训练阶段、模型部署及推理阶段以及数据分发阶段，由于涉及个人信息的二次使用或者向其他个人信息处理者提供或公开个人信息，即使在数据收集阶段能够完全确立信息处理目的，但是二次使用或提供也极易违反初始目的的限制和约束，导致个人信息的违法处理。

（三）公开透明与信息访问面临的风险与挑战

公开透明与信息访问密切相关，只有公开个人信息的处理规则和明示处理的目的、方式和范围，个人信息主体才能充分了解自身个人信息将面临何种处理活动，进而作出进一步的决定。在传统的信息处理场景中，公开透明的实现方式以及信息访问的可见性更为直接，相比较而言，生成式人工智能提出了独特的挑战。一方面，在生成式人工智能中，个人信息是否被处理以及通过何种方式处理，通常只能通过回应某些提示时生成的特定输出才能显现。这意味着在没有进行深入调查的情况下，确定个人信息是否被违法处理具有挑战性。另一方面，如前所述，信息处理目的在很多情况下难以完全确定，再加上受到经济因素与技术复杂性及隐蔽性的影响，导致公开透明与信息访问的难度加大，出现异化、限制及萎缩的困境。

就公开透明与信息访问面临的风险与挑战而言，如表1所示，其主要与两个阶段密切相关：一是数据收集阶段，由于受到市场竞争、商业模式迭代、技术复杂性等主客观因素的影响，生成式人工智能服务提供者在数据收集阶段完全明示个人信息的处理目的、方式和范围的可能性较小。二是模型部署及推理阶段，生成式人工智能模型是前代神经网络模型的自然延伸，这不同于传统的数据存储系统，个人信息被嵌入到复杂的机器学习模型中，这便增加了完全明示信息的处理方式及范围或者允许信息主体准确访问其个人信息的难度。

（四）信息质量与更正删除面临的风险与挑战

个人信息处理活动与个人权益有着千丝万缕的关系，个人信息质量的好坏在许多场合决定个人权益是否产生不利影响，甚至受到损害。信息质量的客观标准是“准确性”和“完整性”，其与更正权、删除权等权利的行使密切相关。生成式人工智能不仅对信息质量原则提出根本性挑战，而且还从客观上造成更正权、删除权等权利难以行使。就信息质量原则的挑战而言，一方面，从网络上收集的海量数据继承了类似人类的偏见，再加上训练数据集缺乏多样性，导致生成式人工智能模型不仅强化了刻板印象，事实上还放大了，即所谓的“偏见进，偏见出”；另一方面，“幻觉”（hallucinations）问题被公认为是目前生成式人工智能模型最大的问题之一，它是指生成式人工智能模型在输出内容或信息时，不基于真实数据，而是自信地编造事实的现象。这些编造的事实可能与训练数据中的某些模式或特征相似，但实际上并不真实或准确。

就更正删除面临的挑战而言，一方面，由于公开透明和告知同意本身存在缺陷，这种模糊性通常使个人不清楚其个人信息是否被生成式人工智能模型处理，从而使其行使更正、删除等权利变得更加复杂。另一方面，即使个人意识到其个人信息被生成式人工智能模型处理并寻求更正或删除，这种请求在技术上的可行性却不高，原因在于生成式人工智能中的数据具有不可检索性，难以准确追踪特定个人的信息。从数据生命周期的角度看，信息质量与更正删除面临的风险与挑战最有可能发生在数据清理、数据标注、模型训练、模型评估、模型部署与推理等阶段。

（五）安全责任与信息泄露面临的风险与挑战

安全责任原则是个人信息保护制度中的重要原则之一，它要求个人信息处理者应当采取必要的措施保障个人信息的完整性、保密性和可用性，避免未经授权访问、非法使用、泄露及篡改。近年来，大规模的个人信息泄露事件屡见不鲜，而在生成式人工智能中，安全责任与信息泄露面临更加独特的风险与挑战。一方面，生成式人工智能模型的训练数据中可能会包含敏感个人信息，而模型可能会“记住”训练数据中的细节，也就是说，模型输出可能会无意中泄露敏感个人信息；另一方面，恶意使用者可以通过“越狱攻击”（jailbreak）,绕过生成式人工智能模型的保护措施，使其输出不符合预期或不安全的内容，如暴力、色情、歧视、敏感信息等。

就安全责任与信息泄露面临的风险与挑战而言，如表1所示，其与三个阶段密切相关：一是数据标注阶段，可能会涉及对个人信息的处理，如对人脸、声音等生物特征信息进行标注。如果数据标注者没有采取必要的安全措施，如加密、脱敏、匿名化等，就可能导致个人信息的泄露或者滥用。二是模型部署与推理阶段，可能会存在模型的泄露、不安全的应用、不安全的应用访问等风险，导致敏感信息的泄露，或者产生不准确甚至错误的结果。三是数据分发阶段，如果数据的接收方没有采取适当的数据保护措施，可能会导致数据泄露。

二、生成式人工智能中个人信息保护风险治理的路径选择

面对生成式人工智能的个人信息保护风险，我们到底应当采取何种治理路径呢?与传统技术相比，生成式人工智能在技术发展和模式塑造方面具有高度的不确定性，导致现有的治理路径面临困境。正如荷兰学者索菲亚·兰乔达斯（Sofia Ranchordas）所指出的，规制机构正处于十字路口，一方面，新兴产业的创新不应被过度和过时的规制框架所扼杀；另一方面，确实有必要保护新兴产业服务的用户免受侵害。基于此，有必要对既有的治理路径进行分析评估。

（一）自上而下的集中式规制之不足

长期以来，政府主导是我国经济社会发展的基本模式，行政权几乎渗透到社会生活的各个角落，命令控制型规制成为诸多领域的主导模式，新兴技术领域亦不例外。就生成式人工智能中的个人信息保护风险治理而言，我国目前主要采取自上而下的（top-down）集中式规制，即由国家或政府主导，通过制定法律、行政法规、部门规章等规制规则，对生成式人工智能技术的研发、应用等活动进行统一规范和监督管理。由于政府在整个治理格局中拥有最高的权威性，以国家高权作为其参与治理的后盾，因此自上而下的集中式治理有助于推动个人信息保护的基本原则及规则在生成式人工智能中的实施。然而，生成式人工智能本身属于迭代快速的复杂技术，自上而下的集中式规制也面临一些困境，难以有效因应个人信息保护面临的风险与挑战。

第一，既有规制规则主要侧重于“规则之治”，忽视了“代码之治”在整个人工智能治理中的重要性。既有规制规则制定了一系列行为规则，主要涉及生成式人工智能的使用范围、隐私保护、数据安全等方面，其预设的对象主要是“人”，更具体地说是生成式人工智能服务的提供者。然而，由于生成式人工智能并非一个单一的技术手段，而是具有系统性、阶段性、高度自主性的技术集合体。因此，仅仅依靠以“人”为适用对象的行为规则恐难以适应生成式人工智能的规制需求，需要通过技术手段来约束和规范生成式人工智能的“行为”，即所谓的“代码之治”。此外，既有规制规则大多以前大数据时代的个人信息处理活动作为预设的调整对象，主要采用基于权利的方法，难以适应生成式人工智能中个人信息处理活动之特殊性。知情权、访问权、删除权等权利在“一对一”的显性个人信息处理关系中尚且具有适用空间，但是一旦进入“多对一”“一对多”以及“多对多”的隐性个人信息处理关系中，所涉主体的类别更为多元、规模更为庞大，导致上述权利难以行使。

第二，既有规制主体主要依靠传统官僚机构的“正式权力”，忽视了其他主体的“非正式权力”。传统的官僚机构在规制生成式人工智能发展中发挥着重要作用，其正式权力在制定政策、法规和标准方面具有不可替代的地位。然而，随着生成式人工智能技术的不断发展，政府在治理中也面临着挑战。一方面，政府的官僚体制往往过于庞大，决策效率低下，难以适应人工智能快速变化的特点；另一方面，政府在制定政策时往往忽视了其他主体的意见和利益，导致治理措施的实际效果不尽如人意。因此，政府应当在规制人工智能时，充分考虑到其他主体的“非正式权力”，利用其他主体的信息优势和技术优势，形成更加包容和有效的治理格局。

第三，既有规制执行受传统“威慑式规制策略”的影响，监督执行过程具有非难性、对抗性和滞后性，忽视了对被规制者的劝服。自上而下的集中式治理往往采用的是“威慑式规制策略”，即通过设置高昂的违规成本，来威慑和惩罚那些违反规则的行为。这种规制策略，虽然在一定程度上可以起到预防和制止的作用，但也存在一些问题和局限性。一方面，这种规制执行策略往往是基于对生成式人工智能的不信任，而不是基于对生成式人工智能的理解和尊重，因此会导致规制执行过程具有非难性和对抗性，即规制机构和被规制者之间的关系是敌对的，而不是合作的。这不仅会影响生成式人工智能的创新和发展，也会增加规制执行的难度和成本。另一方面，生成式人工智能的研发及部署可能是不显眼的（只需要很少的物理基础设施）、离散的（人工智能系统的不同组件可能是在没有特意协调的情况下设计的）、分散的（一个人工智能项目可能是由身处不同地方的几十个人参与）和不透明的（外部观察者可能无法发现人工智能系统潜在的有害特征）。这导致规制执行过程具有滞后性，不仅会造成规制标准的失效和失准，也会引发规制效果的不确定和不可预测。

（二）自下而上的分散式规制之局限

在规制理论中，自我规制作为传统上所谓命令控制型规制的替代方案，它利用规制对象的信息优势，让规制对象承担起规制自身的任务，属于自下而上（bottom-up）的规制方法。长期以来，由于受到“发展型国家”模式的影响，我国互联网领域的治理政策嵌入了浓厚的“发展导向主义”，抽象意义上的产业发展指标通常优先于权利保护、风险安全等诸多非经济价值追求。在此背景下，有关个人信息保护的原则、规则及机制的选择与设计则主要依赖企业或行业的自我规制。在比较法中，美国的信息隐私保护政策也一直依赖于企业或行业协会的自我规制，即由企业或行业协会制定有关个人信息收集、使用和转让的实质性规则以及对其成员适用这些规则的程序，这为美国的数字技术创新和产业发展提供了足够的弹性空间。随着人工智能时代的来临，受到路径依赖的影响，自我规制也成为人工智能领域个人信息保护风险治理的重要路径，主要措施包括由企业或行业协会制定并发布伦理标准、制定个人信息处理规则、成立内部的科技伦理委员会等。

从保护个人信息权益的角度看，自我规制本身并不是坏事，它可以不受韦伯式官僚主义的束缚，有可能更加灵活和富有创造性。然而，从其他领域的规制实践经验来看，纯粹的自我规制框架在治理个人信息保护风险方面存在诸多局限性，可能难以达到理想的效果。一方面，数据已经成为生成式人工智能的“燃料”，这意味着即使企业掌握更充分的信息和更先进的技术，但是它们未必有足够的激励来为公众的个人信息权益保护寻找解决之道；另一方面，由企业或行业协会制定的自我遵守规则在总体上缺乏透明度，存在搭便车问题，并且没有监督和执行机制，确保企业能够遵守与个人信息保护相关的自愿性守则（voluntary codes）。此外，还有学者批判性地指出，就信息隐私保护而言，自我规制可能只是企业的“遮羞布”，其真正目的是规避更严格的政府规制。因此，必须审慎考量自我规制机制的设计，确保其不仅能够反映专业知识，也能够兼顾民主原则和公众利益，进而提升自愿性守则制定的正当性以及公众的认同感。

（三）迈向自中而外的方法：合作型规制空间

鉴于自上而下的集中式规制和自下而上的分散式规制存在不足，理论与实践逐渐倡导一种自中而外的（middle-out）规制方法，即利用“中间”这一空间将“上游”和“下游”的利益相关者以及与之相关的法律、政策、计划、程序、机制等结合起来，形成一个合作型规制空间。“规制空间”（regulatory space）理论是由英国学者汉彻和莫兰在克劳奇构建的“政策空间”理论基础上演化而来的，其主张采用全局考量的进路，关注规制环境中各主体之间的互动合作关系，关注权威及其他权力来源的多样性，以及各种利益与行为的复杂存在。在此背景下，参照美国学者凯瑟琳·詹德布（Kathryn B.Jandab）等提出的理论框架，可以将生成式人工智能的合作型规制空间用图1表示。

如图1所示，就生成式人工智能的治理而言，合作型规制空间的构成要素具有如下特征：首先，法律不是唯一的规制规则，技术标准以及伦理原则也是重要的规制规则。即便是法律，主要规则并不占据主导地位，大量的次要规则充斥其中。其次，上游行为者（立法机关、行政机关等）不再独揽规制权威，中间行为者（行业协会、研究机构等）也发挥重要的规制作用。不同规制主体之间并非传统的对抗关系，而是转向合作关系。最后，不同的规制体系之间并非孤立地存在，可以进行任意组合，最终实现法律、技术、伦理与市场之间的平衡。

从功能主义的视角出发，合作型规制空间在生成式人工智能治理体系中扮演着多重角色，其影响模式主要可归纳为以下三个方面：

首先，合作型规制空间具有显著的促成作用。这一作用主要体现在通过提供必要的信息交流平台，确定并整合规制资源的来源，起草和形成法律规则，以及建立和维护利益相关者之间的互动关系。通过这些活动，合作型规制空间有助于开启新的政策制定的大门，促进生成式人工智能的规制创新，同时巩固和加强各利益相关者之间的合作关系，为其间的互信与互助打下坚实基础。

其次，合作型规制空间发挥着重要的中介作用。它通过提供沟通对话的正式或非正式机制，为不同的立场、价值观念以及利益诉求搭建一个交流协调的平台。在这个平台上，各方面可以通过对话和协商，寻求共识，处理分歧，从而在不同利益之间实现有效的协调与平衡。这种中介作用对于缓解冲突、构建和谐的人机共存关系具有不可或缺的重要性。

最后，合作型规制空间还具备聚合作用。它能够将分散的利益和资源聚集起来，形成合力，以推动共同的目标实现。在这个过程中，合作型规制空间不仅仅是资源和信息的集散地，更是协同共治的催化剂。通过聚合各方力量，合作型规制空间能够有效地增强生成式人工智能规制政策的实施力度和社会影响力，进而提升整个治理体系的效能。

综上所述，处于规制谱系两端的“自上而下的集中式规制”和“自下而上的分散式规制”存在局限性，难以有效适应生成式人工智能中个人信息保护的规制需求。为了在人工智能技术创新与个人信息权益保护之间取得适当平衡，应当采取“自中而外的规制方法”，建构合作型规制空间，整合各类规制规则、规制主体和规制工具，最终实现生成式人工智能的合作共治。

三、规制空间理论视域下个人信息保护风险的合作规制

按照合作型规制空间的构成要素及影响方式，本文认为，可以通过调整和激活不同规制体系的回应性和敏捷性，推动生成式人工智能中个人信息保护风险的合作规制。

（一）建构契合生成式人工智能的科技法律

法律对技术变革的反应主要有三种方式：涵摄、渐进式创新和范式转变。当技术变革颠覆理论规则、改变权力关系、激化更深层次的社会矛盾时，一系列科技法律问题也随之而来。“科技法律”（Techlaw）旨在弥补传统法律规制在应对技术风险方面的不足，如法律滞后、执行困难等，在新的社会法律背景下以最佳方式解决熟悉的法律不确定性。科技法律的兴起和发展与数字技术的快速发展及创新密切相关，特别是在人工智能、区块链、物联网等领域。科技法律主张将法律规则和原则嵌入到技术系统中，使得技术系统在运行过程中自动遵守法律要求（如“代码即法律”）。在理论上，也有论者将“科技法律”称为“法律3.0”，即将技术性措施作为法律秩序的一部分，“我们必须在一个不再局限于由规则或规范所引导的规制环境中重新构想法律，从而矫正对法律1.0的执迷。换句话说，我们必须为法律3.0的技术主义维度创造空间”。

在比较法中，欧盟《一般数据保护条例》第25条“通过设计及默认保护数据”是科技法律的集中体现，主要来源于早期的“通过设计保护隐私”原则。欧盟《人工智能法》在第10条体现了“通过设计保护数据”原则，并成为人工智能领域数据保护的指导性方针。根据该条规定，人工智能系统，尤其是那些涉及使用数据来训练模型的系统，在开发时应当考虑一些不可或缺的数据治理实践，主要包括：（1）相关的设计选择；（2）数据收集过程；（3）数据准备处理操作，如注释、标记、清理、更新、扩充和聚合；（4）对所需数据集的可用性、数量和适当性进行评估；（5）采取适当措施，发现、防止和纾解可能的偏见；等等。

在我国法语境下，《个人信息保护法》中并未设计类似于欧盟《一般数据保护条例》第25条的规定，而“人工智能法草案”尚处于讨论制定中。为了妥善处理生成式人工智能的个人信息保护风险，应当在“人工智能法草案”中为“技术主义”预留空间，可以采用两方面的措施：一是应当在“人工智能法草案”中规定“通过设计保护数据”原则，设计类似于欧盟《人工智能法》第10条的条款，要求在设计生成式人工智能系统时，应当从根本上考虑如何保护用户的个人信息，而不是事后进行补救。二是应当在“人工智能法草案”中确立“技术规制技术”的理念，要求生成式人工智能服务提供方积极开发“基于人工智能的隐私增强技术”，既可以利用人工智能来界定信息隐私本身，也可以将人工智能作为个人信息保护的审计者和监督者。

除此之外，在制定“人工智能法草案”时，还应当妥善处理好该法与《中华人民共和国民法典》《个人信息保护法》《中华人民共和国数据安全法》等法律的关系，既要尊重个人信息保护的基本价值，同时也应当考虑人工智能中个人信息处理活动的特殊性。事实上，生成式人工智能背景下的数据处理模式很难甚至不太可能与传统的个人信息保护原则相协调。这一矛盾所导致的复杂法律问题首先归咎于在起草个人信息保护法时没有充分考虑到人工智能场景，因此有必要调整或修改现有的法律框架。

第一，确立基于风险的个人信息保护原则与规则。研究已经表明，在人工智能时代，基于权利的方法普遍遭遇现实困境，诸多权利不具备有效行使的基本条件。对此，应当从两个方面确立基于风险的个人信息保护原则与规则：一是将风险预防原则作为生成式人工智能中个人信息保护的基本原则；二是进一步加强算法审计、个人信息保护影响评估制度等风险控制机制的适用性。

第二，重塑生成式人工智能中个人信息的认定及相关保护规则。目前，我国的法律法规对于个人信息的认定，主要是基于传统的数据处理方式，即以确定或可确定特定自然人为标准。然而，生成式人工智能可能会通过复杂的算法和逻辑，将看似无关的数据关联起来，从而识别出特定自然人或社会人群。因此，有必要对以下几类信息的保护规则作出回应：一是重新审视“匿名化个人信息”和“已公开个人信息”的保护规则，原因在于这两类信息都是训练数据集的重要来源，在生成式人工智能的处理中，前者的去匿名化风险大幅提高，后者也面临再隐私化风险。二是明确“推理性个人信息”和“群体性信息”的保护规则，应当要求模型开发者向公众报告其信息处理方法，并给个人提供“选择退出”数据收集或汇聚的机制。

第三，以人工智能价值链合理分配个人信息保护义务与责任。现有的个人信息保护立法通常将复杂的个人信息处理关系简化为“个人信息处理者—个人信息主体”关系，并以此来分配权利和义务。然而，在生成式人工智能价值链中，所涉及的主体通常包括开发者、部署者、用户、接收者等，个人信息处理关系变得更为复杂，需要充分考虑风险收益、合规成本、技术可行性等因素，合理分配个人信息保护义务和责任。若只关注开发者可能会导致过多和低效的合规义务；若只关注部署者和用户可能会给一些因知识或资源有限而无法合规的主体带来不合比例的负担。

第四，建构可信的公共训练数据空间。在生成式人工智能中，绝大多数个人信息处理活动及风险均与训练数据集的开发有关。对此，《生成式人工智能服务管理暂行办法》第6条规定，要推动公共训练数据资源平台建设，扩展高质量的公共训练数据资源。本文认为，相关立法可以从以下两个方面切入推动建构可信的公共训练数据空间：一是明确训练数据的质量标准及监管措施，前者可能包括准确性、及时性、完整性等，后者可能包括持续监测和评估训练数据等。二是对规划、设计、实施和维护公共训练数据空间的法律要求进行规定，明确相关参与者的职责。

（二）引入监管沙盒促成行政规制的包容审慎

监管沙盒（regulatory sandbox）是指规制机构为新兴行业或技术提供一种创新试验场，允许企业在一定的监管框架下进行实验和创新，同时规制机构可以收集数据和了解相关风险，最终促成行政规制的包容审慎。数字化转型对规制机构提出了内在挑战。规制过早，就有可能阻碍创新；规制过晚，又可能使具有破坏性和危害性的创新进入市场和社会。因此，实验性立法和监管沙盒便成为数字化转型中的主要规制工具。在比较法中，欧盟《人工智能法》便将监管沙盒作为规制学习（regulatory learning）和创建“灵活、有利于创新、面向未来、以证据为基础、有弹性的规制框架”的工具，以应对人工智能的颠覆性挑战。

在生成式人工智能的个人信息保护方面，监管沙盒可以起到以下三个方面的作用：首先，监管沙盒规制可以提供一个安全的环境，保护个人信息不被滥用。通过设立监管沙盒，可以限制生成式人工智能的数据访问权限，确保个人数据得到充分的保护。规制机构可以对生成式人工智能的数据使用和处理进行监督，及时发现和纠正个人信息保护方面的问题。其次，监管沙盒规制可以加强对生成式人工智能的算法和模型的审查。生成式人工智能的算法和模型是个人信息保护的关键。通过监管沙盒规制，规制机构可以对生成式人工智能的算法和模型进行审查和评估，确保其不会泄露个人隐私信息。最后，监管沙盒规制可以建立一套有效的监管机制，对生成式人工智能的应用场景进行监督和管理，防止个人信息被滥用或不当使用。

根据监管沙盒在其他领域的实践经验，结合生成式人工智能的特性，通过监管沙盒规制生成式人工智能的个人信息保护风险，可以采取如下程序：第一，确定适用范围。监管沙盒应该针对那些涉及个人信息处理或使用的生成式人工智能项目或产品，例如基于人脸识别的生成式图像、基于语音识别的生成式音频、基于文本分析的生成式文本等。第二，申请入驻。生成式人工智能项目或产品的开发者或提供者应该向规制机构提交申请，说明项目或产品的目标、功能、技术原理、数据来源、数据处理方式、数据安全措施、风险评估等相关信息，并承诺遵守监管沙盒的规则和要求。第三，审核通过。规制机构应当对申请进行审核，评估项目或产品是否符合监管沙盒的条件和标准，是否有利于技术创新和社会发展，是否有可能造成个人信息保护方面的风险或损害。如果审核通过，则允许项目或产品进入监管沙盒进行试验和测试。第四，实施监督。规制机构应当对进入监管沙盒的项目或产品进行持续和有效的监督，要求开发者或提供者定期报告试验和测试的进展和结果，并及时发现和处理任何可能出现的问题或异常。同时，规制机构也应当向公众透明地披露监管沙盒的运行情况和评估结果。第五，退出机制。监管沙盒应当设定明确的退出机制，规定项目或产品在监管沙盒中试验和测试的期限和范围，并根据试验和测试的结果，决定项目或产品是否可以在正式的市场环境中运行或推广，或者是否需要进行修改或完善。

（三）利用分层治理实现提供方的自我规制

在规制空间中，当规制问题过于复杂，或某个行业存在异质性，或处于动态演进之中时，更适合去选用自我规制，因为规制对象可能对自身运营掌握着更多的信息与知识，因此更有可能找到最符合成本有效性要求的解决方案。生成式人工智能尚处于发展演变中，生成的内容可能泄露或误用用户的隐私数据，或者生成的内容可能被恶意篡改或伪造，造成用户的信任危机或法律纠纷。为了有效地防范和应对这些风险，生成式人工智能中的个人信息保护有必要采取自我规制的方式：一是自我规制可以更灵活地适应生成式人工智能的快速发展和变化，避免法律法规的滞后或过度干预。二是自我规制可以更有效地利用生成式人工智能服务提供方的专业知识和技术能力，提高个人信息保护的水平和效率。根据理论与实践经验，本文认为，可以从数据、模型、内容三个层面构建生成式人工智能中个人信息保护风险的自我规制路径。

第一，数据层面。生成式人工智能的开发者需要确保数据的来源合法、合规、合理，避免使用非授权或非公开的个人信息数据。同时，生成式人工智能的开发者也需要对数据进行脱敏、加密、分割等处理，降低数据被窃取或篡改的可能性。此外，生成式人工智能的开发者还应该建立数据的生命周期管理机制，规定数据的收集、存储、使用、删除等环节的标准和流程。

第二，模型层面。生成式人工智能的开发者需要采用可解释、可验证、可审计的生成式人工智能模型，提高模型的透明度和可信度。同时，生成式人工智能的开发者也需要对模型进行评估、测试、监督等操作，检测和消除模型中可能存在的偏差、误差、漏洞等问题。此外，生成式人工智能的开发者还应该建立模型的责任追溯机制，明确模型的开发者、提供者、使用者等各方的权利和义务，确保模型的合法性和合理性。

第三，内容层面。生成式人工智能的开发者需要对生成式人工智能产生的内容进行标注、披露、审核等措施，区分和标识内容的真实性和来源。同时，生成式人工智能的开发者也需要对内容进行筛选、过滤、删除等操作，防止内容涉及侵犯个人隐私。此外，生成式人工智能的开发者还应该建立内容的质量评估机制，评价内容的准确性、可靠性、有效性等指标，提升内容的质量。

（四）完善评估认证实现社会的第三方规制

相比于行政机关的直接规制和被规制者的自我规制，以第三方评估认证为代表的第三方规制具备诸多优势，包括高超的专业技术、对被规制者更好的检查和监督、对消费者更快的响应以及更高的效率。就生成式人工智能的个人信息保护风险治理而言，也有必要由具备专业性、公信力和权威性的组织或机构（如行业协会、专业机构、科研院所等）来对个人信息保护问题进行第三方评估认证。一方面，第三方评估认证可以充分利用社会组织的专业技术知识，提高生成式人工智能系统的个人信息保护水平，减少个人信息泄露和滥用的风险。另一方面，第三方评估认证可以增加用户对生成式人工智能系统的信任，促进其广泛应用，进而推动生成式人工智能行业的健康发展。

为了确保第三方评估认证能够以具有成本效益的方式改善生成式人工智能的个人信息保护风险治理，可以采取如下措施：第一，确保第三方评估认证机构的专业性和独立性。第三方评估认证机构应当具备专业的技术能力和丰富的经验，在评估生成式人工智能系统的个人信息保护措施时能够进行全面、客观和准确的评估。因此，应当通过法律法规对第三方评估认证机构的专业技术能力、资格条件、质量控制体系、职业操守等方面进行规定。第二，建立并实施有效的评估认证制度。第三方评估认证机构可以对生成式人工智能系统的个人信息保护措施进行全面的检查和评估：（1）可以要求系统提供相关的技术文档和安全策略，以了解系统的设计和实施情况。（2）可以对系统进行实地检查，包括对系统的数据存储设备、网络连接和安全控制等方面的检查。（3）可以要求系统进行演示和测试，以验证系统在处理个人信息时的安全性和合规性。第三，开展并加强持续的监督和检查工作。第三方评估认证机构对已经通过评估认证的生成式人工智能进行定期或不定期的现场或远程核查，及时发现并纠正存在的个人信息保护问题。

结语

与大多数人工智能系统一样，生成式人工智能也是数据驱动的。生成式人工智能模型的开发和使用给个人信息保护带来了风险与挑战。本文从数据生命周期的角度识别和评估了生成式人工智能中个人信息保护风险的类型，构建了一个风险与周期阶段相对应的矩阵。生成式人工智能对大规模数据集的依赖放大了这些风险，因此有必要采取一种系统性的整体治理方法。无论是“自上而下的集中式规制”，还是“自下而上的分散式规制”，均难以有效因应生成式人工智能中个人信息保护风险的复杂性和系统性。对此，本文提出采用“自中而外的规制方法”，建构合作型规制空间。通过发挥合作型规制空间的促成、中介和聚合作用，既可以促进生成式人工智能技术创新，又能够确保个人信息权益得到最大程度的保护。

张涛：生成式人工智能中个人信息保护风险的类型化与合作规制

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏