丁道勤：生成式人工智能训练阶段的数据法律问题及其立法建议

摘要：生成式人工智能训练阶段的数据收集和处理面临众多法律问题，在全球层面引发各类诉讼案件。训练阶段的数据保护问题集中于预训练和模型微调环节，涉及数据来源合法性、数据质量管理、公开数据不当抓取利用、个人数据权利保护缺失、违法偏见和歧视等问题。对于训练阶段的数据治理路径选择，欧盟和美国等典型国家和地区呈现出不同的特征，欧盟采取分类分级分主体理念，重点关注训练数据透明度，美国对公开可得个人信息持积极利用态度，探索公共数据收集豁免，英国提出合法利益评估标准三步测试，新加坡创设数据处理的业务改进和科研例外制度等。生成式人工智能仍在持续进化，为解决训练阶段的数据法律问题，在宏观层面，我国需要保持人工智能产业发展和安全监管之间的平衡，推进产业促进政策法制化，坚持包容审慎和分类分级监管立法导向，建立适合我国人工智能产业发展阶段的监管沙盒等实验性监管制度；在具体数据规则建构方面，有待区分研发训练和商用提供阶段，建立安全港制度，引入科研和业务改进例外的数据合理使用制度，进一步细化公开数据利用规则，加强数据质量管理，统一数据匿名化标准，创建机器学习场景下处理数据的新权利和新规则，合理地构建起我国生成式人工智能训练数据的数据治理体系。

关键词：生成式人工智能；训练数据；数据法律问题；数据治理体系

以ChatGPT为代表的生成式人工智能的兴起，正日益改变着人们的生产和生活方式，并逐渐成为数字时代的信息基础设施。通用大型语言模型技术和产业的迅猛发展，离不开算力、算法、数据等关键因素的综合推动。从技术发展脉络来看，生成式人工智能（以下简称“生成式AI”）的发展，中长期受制于算力的提升，短期受制于高质量的数据。从某种意义来说，对于生成式AI产业的发展，高质量的数据具有决定性的影响，如果数据的质量不高，即使算力得到飞速提升，也会直接影响到生成式AI系统的性能。因此，高质量的数据对于生成式AI具有至关重要的意义。

生成式AI训练阶段的数据收集和处理面临众多法律问题，例如数据问题、版权问题及竞争问题，甚至引发全球各类诉讼案件。2023年美国就发生了十多起AI大模型训练司法诉讼案件，例如十六位匿名人士对OpenAI和微软提起集体诉讼，提出15项控告，包括OpenAI违反《电子通信隐私法》《计算机欺诈和滥用法案》《加州侵犯隐私法案》（CIPA）、加州《不公平竞争法》和《商业职业规范》《生物识别信息隐私法案》，伊利诺伊州《消费者欺诈和欺骗性商业行为法案》、纽约《通用商业法案》，构成重大过失、侵犯隐私、侵扰个人生活、盗窃/收受被盗财产、侵占、不当得利、未发出警告等。原告指控被告通过抓取整个互联网所有数据的方式偷取个人信息，且都是在未经通知和同意的情况下秘密抓取数据来构建AI产品，然后通过销售产品访问权限来获利。

数据法律保护对于生成式AI训练数据合规发展具有举足轻重的作用，有鉴于此，国家网信办等七部门发布的《生成式人工智能服务管理暂行办法》第7条及全国信息安全标准化技术委员会发布的《生成式人工智能服务安全基本要求》明确提出了语料来源安全要求和语料内容安全要求等。欧盟《一般数据保护条例》（GDPR）和我国《中华人民共和国个人信息保护法》（以下简称《个人信息保护法》）制定之时，均没有考虑生成式AI等通用大模型场景，那么，生成式AI训练数据场景对GDPR和《个人信息保护法》及其配套法规、标准带来了哪些挑战，究竟存在哪些亟待解决的数据法律问题，应当如何完善规则解决这些问题亟待研究。下文拟就生成式AI训练数据的基本原理，集中讨论训练阶段输入侧的数据法律问题，进而提出完善建议。

一、生成式人工智能训练阶段的数据法律问题

目前，对生成式人工智能（Artificial Intelligence Generated Context，AIGC）尚无统一规范的定义，我国《生成式人工智能服务管理暂行办法》第22条从内容生成形式和提供方式上定义了“生成式人工智能技术及服务”，是指“具有文本、图片、音频、视频等内容生成能力的模型及相关技术”，包括通过可编程接口等方式提供生成式AI服务。也即，生成式AI是一种可以通过从预先存在的数据中学习模型来生成新内容的AI，如文本、图像和音视频，包括人工智能和机器学习的各种技术和技巧。总体而言，生成式AI产业链可分为算力基础层、算法模型层、垂直应用层三层架构。从产业链来看，生成式AI训练数据流程主要包括预训练、模型（指令）微调及能力接入与应用等三环节。预训练模型最开始诞生于计算机视觉领域，并在该领域取得了良好的效果。预训练就是指预先训练的一个模型或者指预先训练模型的过程，是向模型提供数据来学习，通常也称为训练数据集。生成式AI模型，特别是大语言模型，即参数量庞大（目前规模达千亿级）、在预训练过程中使用大规模语料库进行自监督学习的自然语言处理模型，需要大量的数据投喂或训练。预训练是在大量数据上进行的无监督学习，目的是让网络学会通用的特征表示；模型微调是指在新的数据上训练以前训练过的模型，或以其他方式调整现有模型，即使用特定任务的数据集来重新训练已经预训练好的模型，以提高其在该任务上的性能和表现。微调过程实际上是使用特定的下游任务对模型进行第二阶段的训练。这一步的目的是对预训练好的模型进行细微的调整，以便于更好地适配特定的下游任务。

从产业链发展来看，生成式AI产业大致可分为研发、部署和应用等阶段。生成式AI训练数据是重要的研发环节，ChatGPT的训练数据对模型的性能和质量具有重要影响。通常来说，使用更多更高质量的训练数据可以提高模型的性能和准确性。同时，训练数据的多样性也对模型的性能和泛化能力有重要影响。欧盟《人工智能法案》第3条分别定义了“训练数据”“验证数据”“测试数据”“输入数据”，根据第3条规定，“训练数据”是指用于通过拟合人工智能系统的可学习参数来训练该系统的数据，“输入数据”是指提供给人工智能系统或由其直接获得的数据，该系统在此基础上产生输出。我国《互联网信息服务深度合成管理规定》第23条规定，“被用于训练机器学习模型的标注或者基准数据集”。总体看来，生成式AI技术在各行业的数字内容相关领域均有发挥空间，其产业链涉及数据、算法、算力、场景等要素。综合来看，生成式人工智能训练阶段的法律问题主要聚集于AI所需的海量训练数据与个人信息和数据保护、版权排他性保护之间的根本性冲突。单就数据法律问题而言，主要存在宏观和微观两个层面的问题，在宏观层面，存在技术与法律之间不适配，公司商业利益与个人数据保护（公共利益）的目标难以平衡，技术创新和消费者利益无法平衡，监管和技术发展难以平衡等问题，虽然法律区分数据类别，但数据抓取、数据训练无法识别和区分数据类别，AI公司不了解模型训练的具体内容；在微观层面，存在AI公司收集个人数据缺乏合法性基础，或合法性基础不清楚等问题。在此基础上，大模型公司会与第三方共享数据。倘若数据的后续使用和最初收集时主张的目的不同，可能涉嫌构成违法。本文主要从微观层面观察大模型训练阶段各环节所涉及的数据收集和处理的法律问题，因为机器学习细分为问题定义、数据收集、数据清洗、汇总统计审查、数据分区、模型选择、模型训练和模型部署等八个步骤/过程。对法律研究而言，可以划分为处理数据（包括前七个步骤）和运行模型。生成式AI训练阶段的数据保护问题集中于预训练和模型微调环节，涉及数据采集和训练集，包括可以采集第三方数据，或使用自有数据或寻求版权授权合作，自主学习生成新内容。

（一）数据来源合法性问题

人工智能技术在整个开发过程中面临诸多法律问题，其中最突出的就是数据来源的合法性问题。因为一个好的数据集必须满足四个基本标准：数据集必须足够大以涵盖问题的多次迭代，数据必须有明确的标签和注释，数据必须具有代表性和公正性，数据必须符合隐私法规。数据来源合法性是训练数据合规的基石，模型能力大部分来自预训练，与海量的高质量数据密切相关。因此，我国《生成式人工智能服务管理暂行办法》第7条明确要求：“生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动，使用具有合法来源的数据和基础模型。”

从行业实践来看，生成式人工智能的数据来源主要包括自有数据、开源数据集、外采数据、数据自动化采集及合成数据等。例如，未经授权同意或超出授权范围处理个人信息、通过非法手段获取的数据集、违反开源数据集使用许可协议、采取侵入性较强措施或增加被爬方服务器负担非法获取计算机信息系统数据、违反Robots协议或破坏反爬措施等非法手段采集数据、自动化采集包含受版权保护内容等数据，这些都可能导致数据来源合法性问题。

（二）数据质量管理问题

训练数据质量要求体现了法律规范对技术活动的合理性干预，数据质量与歧视偏见是“一体两面”，如果训练数据缺乏多样性，容易导致数据歧视和偏见。此外，如果训练数据准确性低，难以保障模型训练的品质。例如，如果数据集存在涉黄涉政涉赌等违法不良、敏感个人信息、虚假宣传、夸大宣传、绝对化用语等不准确不可靠信息，数据质量不能保证，容易导致模型训练的偏差。应当说，数据质量风险是机器学习的核心问题，它们对监督学习技术有直接的影响，数据的客观性、及时性、代表性对模型预测发挥着重要的作用，客观上不正确的训练数据会导致不正确的模型预测。依赖错误数据的公司可能被要求补偿因数据使用而受到伤害的人，甚至引发惩罚性赔偿。同时，数据质量不仅限于客观的正确性，还必须包括数据的及时性和代表性。因此，经常需要为训练数据制定法律上可操作的质量标准。有鉴于此，法国数据保护监管部门（CNIL）要求数据控制者评估从原始数据到有质量的训练数据集，是否验证了数据的准确性？如果使用了注释方法，是否进行了检查？使用的数据是否代表在实际环境中观察到的数据？使用了哪种方法来确保这种代表性？是否对这种代表性进行了正式研究？在使用持续学习的AI系统的情况下，应实施哪种机制来确保持续使用的数据的质量？是否存在定期机制来评估数据质量损失或数据分布变化带来的风险？

（三）公开数据不当抓取利用问题

公开数据不当抓取利用问题是训练数据使用环节的法律风险，因为训练数据集很多来源于公开渠道，其中充斥着一些不当许可的数据，容易引发公开数据的合理使用争议。例如，总的来看，ChatGPT大模型的训练数据主要来自互联网上的文本数据集，很大部分来源于公有领域内容和公开数据，据媒体报道，OpenAI至少使用了五部分不同的数据集用于训练：一是Common Crawl数据库，是基于大规模网页抓取形成一个数据集，由同名的非营利机构所有，以每个月存档近30亿网页的速度索引和存储网页超过10年；二是OpenAI专用的个人数据人工智能语料库的WebTex2，为了构建这个语料库抓取了社交媒体网站Reddit链接的每一个网页，用投喂训练大语言模型；三是Books1；四是Books2；五是Wikipedia。上述数据集非常大，需要通过爬虫和其他方式进行收集和整理。在整理数据时，需要对数据进行清洗和筛选，以确保数据的质量和可用性。

欧美对公开数据的立场迥异，欧盟认为数据公开之后私人仍然享有权利，欧盟对公开个人信息采取严格保护模式，即严格保护个人数据、尊重个人权利，不得在个人不知情或未表示同意的情况下处理公开可用个人数据，欧盟要求对于并非从数据主体处获得的个人数据，必须履行告知义务；英国要求从公开可及的资源获取个人数据，需要具有合法依据，并通知个人，对于超出个体期待的数据处理，需要告知和评估；法国规定，第三方抓取公开个人数据，必须取得用户同意。而美国是数据公开之后私人不再享有权利而采取例外情形模式，即将公开可用个人数据作为个人数据保护的一种例外情形，无需取得个人同意即可处理。美国联邦层面的立法草案和州立法持一致立场，均将公开可用信息排除在个人信息的定义之外。有的规定只要相关主体有合理依据认为公开个人信息是合法提供给公众的，就属于不受保护的公开可用信息；有的通过正向和反向列举的方式分别列明“公开可用信息”覆盖和不覆盖的范围，正向覆盖的范围或宽或窄，例如美国加州《消费者隐私法案》不禁止数据抓取，因为：（1）抓取数据的公司并不是直接从用户那里抓取，而是从公开领域抓取；（2）用户自己决定将信息公开；（3）目前没有较好的技术方案能够落实通知程序。

（四）个人数据权利保护缺失问题

鉴于社会公众对大模型训练数据有关个人信息权利保护的担忧，2023年5月16日，美国OpenAI首席执行官兼联合创始人山姆·奥特曼在华盛顿特区举行的参议院司法小组委员会听证会上表示，OpenAI不使用任何用户数据为广告、推广OpenAI的服务或向第三方出售数据而建立人的档案；OpenAI可能会使用ChatGPT的对话来帮助改善OpenAI的模型，但OpenAI为用户提供了几种方法来控制他们的对话如何被使用。任何ChatGPT用户都可以选择不使用他们的对话来改进OpenAI的模型。用户可以删除他们的账户，从历史侧边栏中删除特定的对话，并在任何时候禁用他们的聊天历史；虽然OpenAI用来训练模型的一些信息可能包括公共互联网上的个人信息，但在可行的情况下，OpenAI努力从训练数据集中删除个人信息。

但是，尽管不知道确切的来源，ChatGPT模型是通过收集互联网上的各种来源数据来训练，鉴于数量庞大，几乎不可能识别和告知个人相关处理情况，也不可能就个人数据处理发表声明。训练数据集存在第三方对数据集的权利，处理和使用数据如何获得权利人的许可？相反，可以假设在互联网上找到的个人数据是通过模型进行处理。因此，这实际上排除了GDPR第13条规定的数据主体的信息权。ChatGPT等数据消耗模型与数据保护法的个人保护之间存在根本性的不匹配，这种普遍性也意味着数据主体的其他权利，如纠正权（GDPR第16条）或删除权（GDPR第16条）只停留在纸面上，无法强制执行。几乎无限制地从互联网上抓取个人数据造成的集体性伤害超越了个体的维度。对于预测模型利用数百万用户集体数据库的情况，用户不仅无法控制它，也无法利用自己的数据。ChatGPT存在一个问题是其是否遵守GDPR第17条被遗忘权的规定，在个人要求时从模型中完全删除个人数据。生成式AI落实被遗忘权的困难在于这些系统创建的数据具有持久性，自然语言处理根据收集的数据来生成响应，因此几乎不可能删除个人信息的所有痕迹。目前尚不确定ChatGPT或其他生成式AI模型能否遵守GDPR第17条规定的被遗忘权。此外，隐私权和个人在受到自动决策影响时的要求解释的权利存在根本冲突。机器学习是基于大数据集的数据驱动模型匹配过程。当数据主体要求对自动化决策进行准确、真实的解释时，意味着必须查看训练数据（而不是匿名或部分数据）从而侵犯训练数据来源主体的隐私权。

（五）违法偏见和歧视问题

训练数据也是算法歧视的主要来源。人脸识别、人工智能招聘和个性化广告等领域的真实案例证明了这一点。如果某个特定受保护群体的数据质量平均受到负面影响，那么歧视风险部分与数据质量风险相关，或者可能是数据质量风险的结果。在ChatGPT的算法模型运行过程中，“机器学习+人工标注”作为算法技术内核，本质上是服务于生成式人工智能的目的诉求，以技术组合的方式来提升ChatGPT的智能化程度和准确性水平，但这同时也会导致其中存在算法偏见的法律风险成倍提升。机器学习与人工标注作为组合措施使人类的意志与偏好所产生的影响比在以往单纯的机器学习中更大，因为人工标注所造成的个人偏好的影响叠加在机器学习的算法框架中本身的算法偏见之上，导致算法偏见的负面效应倍增，算法偏见的产生渠道更加多样且难以追溯与预防。美国消费者金融保护局（CFPB）、美国司法部（DOJ）、美国平等就业机会委员会（EEOC）、美国联邦贸易委员会（FTC）发布《关于反对自动化系统歧视和偏见的执法努力的联合声明》认为，自动化系统可能存在违法歧视，进而违反联邦法。许多自动化系统利用海量数据来寻找模式或关联，然后将这些模式应用于新数据来执行任务或提出建议、预测。在这些工具发挥作用的同时，这些工具可能出现违法的歧视性结果，这种歧视可能来源于数据和数据集、模型、设计和使用。代表性不足或不平衡的数据集，包含历史性歧视或其他类型错误的数据集，可能带来歧视。

二、生成式人工智能训练阶段的数据治理路径

对于生成式人工智能训练阶段的数据治理路径，欧盟和美国等典型国家和地区进行不同形式的探索，如欧盟《人工智能法》采取分类分级主体理念，重点关注训练数据透明度。美国崇尚行业优先发展的务实态度，数据治理路径多依靠行业和企业自律，对公开可得个人信息持积极利用态度，并探索公共数据收集豁免。

（一）分类分级分主体理念

针对生成式AI，欧盟层面率先采取分类分级分主体的思路，对高风险AI系统主要从透明度、目的原则、比例原则、反歧视等角度对数据集本身以及数据收集处理行为进行规范。

首先，欧盟《人工智能法案》要求高风险AI系统的提供者记录数据处理使用的全流程，要求基础模型的提供者只处理治理过的数据、审查数据来源，并要求生成式AI的提供者披露版权内容使用情况。对于利用数据训练模型的高风险AI系统，第10条“数据和数据治理”明确要求对数据集进行治理，即应在训练、验证和测试数据集的基础上开发，这些数据集应符合一系列质量标准，包括但不限于：（1）训练数据应受到AI系统预期目的的数据管理，从透明度、目的原则、比例原则等角度规范数据的收集处理流程以及数据集情况，做法应涉及：数据收集的初始目的的透明度；数据准备处理操作（注释、标记、清理、更新、扩充和聚合）；评估数据集的可用性、数量和适当性。（2）出于防止歧视目的，训练数据集应具有相关性、充分的代表性、适当的错误审查，并在考虑到预期目的的情况下尽可能地完整。（3）数据集应在AI系统的预期目的或可合理预见的误用所要求的范围内，考虑到高风险AI系统拟使用的特定的地理、场景、行为或功能环境所特有的特征或要素。

其次，第17条“质量管理制度”要求高风险AI系统的提供者建立质量管理体系，记录数据处理全流程以及投入市场前后的所有操作，包括数据管理的系统和程序，包括数据获取、数据收集、数据分析、数据标记、数据存储、数据过滤、数据挖掘、数据汇总、数据保留以及在高风险人工智能系统投放市场或投入使用之前和为之进行的有关数据的任何其他操作。

最后，第28条b 规定基础模型提供者的义务，基础模型的提供者在向市场提供该模型或将其投入使用之前，应确保该模型符合本条规定的要求，包括只处理和纳入经过适当的基础模型数据治理措施的数据集，特别是审查数据来源的适当性和可能的偏差以及适当的纾解措施，生成式AI的提供者应公开受版权保护的训练数据的使用摘要。

（二）重点关注训练数据透明度

针对生成式人工智能训练阶段的数据来源合规、个人数据权利保护、数据质量和违法歧视偏见等问题，欧盟重点关注训练数据透明度，提高训练阶段数据处理对数据主体的透明度。例如欧盟委员会《人工智能和数据保护指南》认为，尽管机器学习在训练阶段必然需要大型数据集，但重要的是应采用一种设计范式，严格评估所使用数据的性质和数量，减少冗余或边缘数据，逐渐增加训练集的规模。此外，还有研究考察了特定算法的发展情况，即利用自动遗忘机制逐渐删除数据的算法的发展情况，尽管这可能会影响事后对AI决策的解释。在算法训练中使用基于个人数据子集并匿名化的合成数据也可以实现最小化。在成员国层面，以法国和意大利为代表，重点关注处理数据的法律依据、数据准确性和信息透明度问题。意大利强调信息透明度、数据处理法律依据、数据准确性、未成年人保护等方面。法国CNIL重点关注数据的来源、处理活动的法律依据、敏感数据、数据最小化原则、数据匿名化、数据准确性和代表性、数据质量和数量、数据偏见。CNIL还将继续设计AI系统和构建机器学习数据库的工作，提供具体建议，以期逐渐解决一系列问题，包括：为了训练数据库构建和再使用的目的而使用科研系统；目的原则在通用AI和大型语言模型等基础模型中的应用；界定解释组建数据库的主体（使用数据库训练模型的主体和使用模型的主体）间分享责任的承担。CNIL发布《公开数据的共享和再利用规则指南》明确以下问题有待解决：出于科研目的的训练数据库构建和使用，目的原则、数据准确性和最小化原则的适用，训练数据上下游不同主体的责任承担，个人权利的管理等。

英国也建议提升训练数据方面的信息透明度。例如，英国科技、创新和技术部在《创新友好的人工智能监管（2023）》建议提升训练数据方面的信息透明度，在合理透明度和可解释性原则方面，希望监管者对AI生命周期中的相关主体设置期待——积极提供其使用的数据以及训练数据方面的信息。

在训练数据透明度要求方面，我国《生成式人工智能服务管理暂行办法》对生成式人工智能服务提供者的训练数据处理活动也作出了相应的要求，生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动，尊重知识产权，尊重他人合法权益，基于服务类型特点，采取有效措施提升生成式人工智能服务的透明度，提高生成内容的准确性和可靠性。此外，还要求生成式人工智能服务提供者应当按照《互联网信息服务深度合成管理规定》对相关生成内容进行标识。

（三）对公开可得个人信息持积极利用态度，探索公共数据收集豁免，创设数据处理的业务改进和科研例外制度

对于公开个人数据的处理利用，美国崇尚行业优先发展的务实态度，对公开可得个人信息持积极流通利用态度。联邦层面的立法草案和州立法持一致立场，均将公开可用信息排除在个人信息的定义之外，也没有界定公开个人信息，而是采用“公开可获得”和“公开可用信息”这个范围更大概念。美国州立法在定义个人信息时，采取了直接排除公开信息的策略。美国目前没有一部全面的数据隐私法，主要依靠行业自律和自我监管，虽然国会已经颁布了一些法律，为某些行业和数据的子类别制定了数据要求，但这些法定保护措施并不全面。美国多名国会议员在2023年上半年分别提出四项AI提案，这些法案各有侧重，但未提出任何实质制度。国会研究处持续关注生成式AI引发的数据和版权问题。现阶段，AI监管侧重点在于梳理现有法律如何适用于AI技术，而没有颁布和应用新的、专门针对AI的法律。例如，美国《关于反对自动化系统歧视和偏见的执法努力的联合声明》认为，现行法适用于自动化系统以及创新技术，正如适用于其他行业做法一样。FTC关注焦点在于数据收集是否合法、数据收集是否导致结果歧视，要求公司删除那些不应被收集的数据而训练的算法和工作产品。根据美国现行法律，生成式AI可能会牵涉到某些隐私法，这取决于模型的背景、开发者、数据类型和目的。例如，如果一家公司在电子游戏或其他针对儿童的在线服务中提供聊天机器人，该公司可能被要求满足《儿童在线隐私保护法》的某些要求。此外，某些州关于隐私、生物识别和人工智能的法律可能对生成式AI应用产生影响。在许多情况下，个人信息的收集通常牵涉到某些州的隐私法，这些法律规定个人有“权利知道”企业收集了他们的什么信息，数据是如何使用和共享的，“有权访问和删除”他们的哪些数据，或“有权选择退出”数据的转移和销售。然而，其中一些法律包括对收集公共数据的豁免，这可能会引起关于如何以及是否适用于使用从互联网上收集信息的生成式AI工具的问题。在公共数据开放共享方面，美国在联邦层面设立了统一开放平台（data.gov），且数据的标准和格式更规范，整体数据开放的体量大、种类多、更新频率高，AI数据训练的可用性更强。

就生成式人工智能的数据处理合规，英国信息委员会办公室（ICO）认为，监督式机器学习主要在训练和推理两个阶段使用数据，如果模型用于对个体进行预测或分类，那么上述两个阶段都会使用个人数据。在训练阶段，因为涉及将机器学习算法应用于包含每个个体特征的数据集，这些特征用于生成预测或分类，但并非数据集中包含的所有特征都一定与目的相关。例如，并非所有财务和人口统计特征都可用于预测信用风险。因此，训练阶段需要评估哪些功能（以及哪些数据）与目的相关，并且只处理这部分数据，尽量减少个人数据的问题。同时，采取扰动或添加“噪音”、使用合成数据、联合学习等增强隐私的方法。在推理阶段，通过将个人数据转换为“人类可读性”较低的格式、在本地进行推理、隐私保护查询方法等手段，实现个人数据最小化原则。对于利用抓取的数据训练生成式AI的有效合法依据，英国ICO在“生成式人工智能和数据保护”咨询中提出了合法利益评估标准，明确AI开发者应进行三步测试：一是目的性测试，即处理目的是合法的；二是必要性测试，即处理对于目的而言是必需的；三是平衡测试，即个体权利没有超过AI开发者所追求的利益。

针对人工智能个人数据的合理使用问题，新加坡从促进产业发展角度明确规定了业务改进例外和研究例外，例如，2024年3月1日，新加坡个人数据保护委员会（PDPC）在2012年《个人数据保护法》（以下简称“PDPA”）项下制定发布《关于在AI推荐和决策系统中使用个人数据的咨询指南》（以下简称“指南”），创设了业务改进例外，即企业可以在未经同意和告知的情况下，使用根据该法的数据保护规定收集的个人资料，只要该个人数据的使用属于业务改进目的和研究目的的范围。该《指南》第5.2条规定，PDPA附则1第5部分和附则2第2部分第2章规定，组织可以在个人数据的使用满足以下业务改进目的（“业务改进例外”）的情况下，未经个人同意使用其根据PDPA收集的个人数据：c）学习或了解个人（包括按用户画像划分的群体）的行为和偏好；d）识别可能适合个人（包括按用户画像划分的群体）的商品和服务，或个性化或定制任何此类商品或服务。第5.4条规定，作为说明，AI系统研发可能适用业务改进例外的例子包括：d）使用AI系统或ML模型来提供新的产品特性和功能，以提高产品和服务的竞争力。

三、生成式人工智能数据训练治理的立法建议

生成式AI仍在持续进化，我国需要保持人工智能发展和安全之间的平衡，站在增强国家竞争力的战略高度优先促进产业发展，采取包容审慎和分类分级监管立场，构建生成式人工智能训练数据治理框架体系。为解决人工智能训练阶段的数据来源合规、个人数据权利保护、数据质量和违法歧视偏见、公开数据不当利用等问题，在宏观层面，有待从增强国家竞争力的战略高度升级人工智能发展促进政策并将产业政策法制化、坚持包容审慎和分类分级监管的立法导向进而建立人工智能监管沙盒制度；在具体数据规则层面，有待重点建立数据合理使用制度、数据匿名化标准、公开个人数据利用规则及机器学习数据处理新权利规则等。

（一）站在增强国家竞争力的战略高度，升级更新人工智能发展促进政策，并将产业促进政策法制化

人工智能是新一轮科技革命和产业变革的重要驱动力量，加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。因此，要站在增强国家竞争力和新技术革命浪潮不落伍的战略高度，高质量发展通用人工智能产业，建议国家在科技强国国家战略下，升级更新人工智能发展促进政策，推动新一轮人工智能的产业升级，并在未来制定出台的《人工智能法》中予以法制化。在我国信息产业发展壮大过程中，产业政策曾起到了非常关键的作用，如20世纪90年代末初对电子信息产业的“四项优惠政策”，电子发展基金、电话初装费、鼓励软件和集成电路的政策等，均极大地调动了广大企业发展信息产业的积极性，使我国信息产业发展取得了举世瞩目的成就，成为国民经济持续增长的重要动力之一。在具体产业促进政策和立法方面，建议借鉴国务院《新时期促进集成电路产业和软件产业高质量发展若干政策的通知》（国发〔2020〕8号）“升级迭代”当年《鼓励软件产业和集成电路产业发展的若干政策》（国发〔2000〕18号）那样，出台对生成式人工智能在财税、投融资、研发、进出口、知识产权、市场应用等方面的专项促进政策，并将产业促进政策法制化，在未来制定的《人工智能法》中明确规定相关促进条款，同时鼓励相关地方和行业部门先行先试，因地制宜出台细化落实的政策措施。

（二）坚持包容审慎和分类分级监管的立法导向，建立适合我国人工智能产业发展阶段的监管沙盒等实验性监管制度

欧盟《人工智能法案》依据风险等级，对人工智能系统进行分类分级监管，针对“高风险”的人工智能应用系统，对数据质量、透明度和准确性提出更高的要求，在强制性方面提出了更为严格的要求。我国坚持发展与规范并重原则，《生成式人工智能服务管理暂行办法》第3条明确规定，“国家坚持发展和安全并重、促进创新和依法治理相结合的原则，采取有效措施鼓励生成式人工智能创新发展，对生成式人工智能服务实行包容审慎和分类分级监管”。因此，建议将包容审慎和分类分级监管作为我国未来制定的《人工智能法》的基本立法导向，明确建立模型和风险的分类分级监管方式，不同分类分级后对应不同监管模式。

总体上，监管沙盒机制体现了事前介入、敏捷监管、包容审慎、比例原则。人工智能监管沙盒就是一种敏捷灵活的风险治理机制，对于监管机构、生成式人工智能服务提供者及使用者而言，通过构建监管沙盒，可以更好地观察和应对生成式人工智能所带来的风险。欧盟《人工智能法案》将人工智能监管沙盒设定为各成员国强制义务，以减轻企业监管负担。其第五章“支持创新的措施”除明确规定“人工智能监管沙盒”目标意义、模式功能之外，第54条规定专门针对为公共利益开发的人工智能系统而进一步处理个人数据，可在满足法定情形的前提下，进一步处理和使用个人数据。西班牙、英国正在带头开发试点人工智能监管沙盒，其他十余个欧盟成员国也计划建立自己的沙盒。

因此，建议未来《人工智能法》建立适合我国人工智能产业发展阶段的监管沙盒等实验性监管制度，并从准入制度、结构性实验、沙盒验收、制度体系等四个阶段进行原则性设计。在未来的《人工智能法》相关配套细则中，构建公平的准入门槛，对于申请加入监管沙盒的人工智能企业，需要在公司治理、人员配置以及技术水平等方面达到一定的准入门槛。进一步细化沙盒运作的各项规则，在统一框架下试行差异性的规则，例如豁免方式、测试时间等可在不同地区的沙盒中先行先试，再根据实践结果对规则进行迭代修改。建立沙盒数据的统一标准，建设沙盒传输、整合、共享数据的平台，实现数据互联与共享，强化信息披露，提高沙盒测试过程中的执法透明度。

（三）区分研发训练和商用提供阶段，建立训练数据“安全港”制度，引入科研和业务改进例外的数据合理使用制度

生成式人工智能训练阶段不可避免地会使用包含有版权内容、个人信息及已公开数据等数据集，为了满足促进人工智能研发、产业创新和业务改进的需要，建立数据合理使用制度就显得尤为关键。欧盟GDPR和我国《个人信息保护法》的立法之初都没有考虑机器学习、训练数据的场景，但欧美均将现有数据保护法延伸适用于AI领域，并重点强化数据源合规和数据处理透明度。虽然过于严格的个人信息保护规则与通用大模型研发、部署和应用存在一定的冲突，但仍需要加强训练数据集的数据源和数据处理的合规，合理设定生成式AI训练数据的数据保护规则的松紧度。目前生产式人工智能针对海量数据资料的训练性使用存在法律规定上的障碍，建议未来制定的《人工智能法》区分研发训练和商用提供阶段，借鉴早期互联网搜索引擎建设时应用的“安全港”制度，建立训练数据“安全港”制度，即使用人不知道数据来源是否合法，但是可以利用数据进行研发或应用，日后有人来提出相应权利主张，要按照法律的规定付费或补偿。进一步完善我国个人信息保护法律，可以借鉴欧盟GDPR、英国ICO的合法利益评估标准和新加坡PDPA项下的《关于在AI推荐和决策系统中使用个人数据的咨询指南》创设的科研例外和业务改进例外制度，即对于为了实现公共利益、科学或历史研究或统计目的处理，成员国的法律可以对访问、更正、限制处理和反对等部分个人信息权利进行克减，并可以成为拒绝删除的抗辩理由。建议在正修订的《中华人民共和国著作权法实施条例》中增加“文本或数据分析、训练、挖掘明确规定为著作权法的权利限制或例外的法定情形”的条款，为人工智能模型训练获取高质量数据集扫清法律障碍。

（四）进一步细化公开数据利用规则，加强数据质量管理，统一数据匿名化标准

人工智能模型训练离不开高质量的海量公开数据集，并不断强化数据质量要求。为了促进训练数据的可用数据集更好地利用公开数据资源，促进公开数据合法合规流通，有待在《中华人民共和国民法典》和《个人信息保护法》基础上进一步完善公开数据利用规则，通过《人工智能法》明确规定公开数据获取、使用、流通、处理的专门章节和相关具体条款，适当开放部分公共数据对外训练和使用，进一步加大公共数据的开放力度，推动数据采集、清洗、标注、存储形成统一标准，扫清大模型获取、利用公开数据的障碍；同时，加强数据质量管理，制定标准目标、数据格式、标注方法、质量指标等数据标注规则，并对标注人员开展必要培训，形成标准化的操作规程，制定质检方案，确保标注结果质量。

从技术标准角度，数据匿名化制度将成为数据进入生产和流通领域的重要制度出口。匿名化合理性标准应当是综合的，应贯穿在数据应用的全过程当中，包括数据的采集、处理、利用和再利用等。因此，建议统一数据匿名化标准，制定配套细则的数据匿名化处理的技术标准规范，遵循“合理匿名化”原则，即在当前技术条件下，正常理性人采用通常手段进行匿名化处理后不可回溯的，应被视为履行了匿名化义务。

（五）创建机器学习场景下处理数据的新权利和新规则

为进一步保护个人数据权利，解决数据匿名化失败带来的隐私保护问题，有待创建机器学习场景下数据处理的新权利和新规则，规定合成数据使用制度。未来的人工智能立法需要解决训练数据集的数据和隐私保护问题，因为数据保护和隐私是共享高质量数据的障碍，训练数据集存在第三方对数据集的权利，处理和使用数据必须获得权利人的许可；公司出于保护自己在训练AI模型方面的投资的动机，会通过合同、技术措施将数据集乃至整个数据库保密；对GDPR的恐惧明显阻碍AI和数据初创企业快速推出和扩大规模；数据合法财产权利存在不确定性，各利益相关者不知道谁是数据的合法所有者，也不知道数据持有者可以和不可以做什么。有待进一步完善生成式AI的数据隐私规则，直接规定允许使用合成数据。某种程度上，合成数据集优于传统的匿名化技术，合成数据可以解决匿名化失败问题。隐私法规要求不能泄露可识别个人身份的信息。合成数据集是通过添加统计上的相似信息，而不是通过剥离唯一标识符的方式来保护隐私。例如，英国ICO就采取扰动或添加“噪音”、使用合成数据、联合学习等增强隐私的方法。因此，建议通过我国未来《人工智能法》创建机器学习场景下处理数据的新权利和新规则，即创建允许访问、共享和重复使用数据的法律规则，构建访问、公平共享机器学习训练、测试和验证数据集的方法，引入为机器学习目的处理数据的权利，即在人工智能和物联网背景下处理数据权利，使得数据的访问、共享和再利用成为可能。

结语

生成式人工智能具有重要的战略意义，是未来科技竞争的制高点，也是重要的智能基础设施，需从国家竞争力战略高度重视。生成式人工智能仍在持续进化当中，其在提升提高生产效率、社会整体福利的同时，也带来了诸多政治经济、社会文化和法律伦理等多方面的风险挑战，各国在考虑各自社会状况和产业发展阶段的基础上，调整人工智能产业发展和法律规制的松紧度。现阶段，在宏观层面，我国应当升级更新人工智能发展促进政策，并将产业促进政策法制化，坚持包容审慎和分类分级监管立法导向，建立适合我国人工智能产业发展阶段的监管沙盒等实验性监管制度；在具体数据规则层面，区分研发训练和商用提供阶段，建立训练数据安全港制度，引入科研和业务改进例外的数据合理使用制度，进一步细化公开数据利用规则，加强数据质量管理，统一数据匿名化标准，创建机器学习场景下处理数据的新权利和新规则，合理地构建起我国生成式人工智能训练数据的数据治理体系。

丁道勤：生成式人工智能训练阶段的数据法律问题及其立法建议

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏