内容提要:人工智能的技术路线与应用方式极为庞杂。如何对人工智能实行适当的区分式治理,是人工智能立法中最为基础和关键的问题。法律需要对人工智能作出合适的区分,避免以单一、僵化的规则调整丰富多样的人工智能对象。在国内近期有关人工智能法治的学术讨论中,人工智能法的调整对象往往被有意或无意地假定为生成式人工智能乃至大模型,而实际上这只是整个人工智能的一个局部,远难覆盖人工智能技术与应用之全貌,以此为模板设计人工智能法律体系,极易出现“挂一漏万”或“削足适履”的后果。对此,应当根据人工智能不同技术路线的特点,推行多层级分支式治理架构,构筑我国人工智能法律治理的基本框架。
一、人工智能的“四层二分”框架
根据现行有效国家标准《信息技术人工智能术语》(GB/T 41867-2022,以下简称《术语》)的定义,人工智能系统是指“针对人类定义的给定目标 , 产生诸如内容、预测、推荐或决策等输出的一类工程系统”,而人工智能(在相关学科领域内)是指“人工智能系统相关机制和应用的研究和开发”。在人工智能的所有其他相关标准及已有行业实践中,人工智能都以这样一种广泛的含义被理解和运用。从人工智能发展史观之,人工智能最初是基于规则的人工智能(Rule-based AI)或“规则型”人工智能。此后,经过以神经网络为主要代表的联结主义的探索与实践,基于机器学习的人工智能(Machine Learning-based AI)或“学习型”人工智能崭露头角。根据《术语》的定义, “机器学习”是指“通过计算技术优化模型参数的过程,使模型的行为反映数据或经验”。机器学习向算法模型中引入了可训练的参数,也使得代码本身并不能以确定的规则揭示模型的决策逻辑,从而形成了所谓的“算法黑箱”,带来了棘手的治理难题。在采取机器学习路线的人工智能中,一部分模型只能在有限选择范围内作出十分明确的一类判断或决策结果,如人脸识别、形状检测;而另一部分模型则可根据输入的信息或指定的条件从十分宽广的选择范围内选择和组合元素以生成有意义的新信息,即生成式人工智能。在生成式人工智能的发展历程中,词嵌入技术的成熟和Transformer架构的运用,使语义处理技术实现了飞跃。大语言模型的诞生堪称人工智能发展史上里程碑式的革命,同时跨越不同领域、面向公众开放的通用大模型也对人工智能的法律治理带来了最大挑战。
(算法黑箱)
由此,人工智能的“四层二分”框架已清晰可见。首先,根据是否包含可学习和迭代的参数,人工智能可被分为学习型人工智能和规则型人工智能。其次,根据模型是否有能力生成事先未完全指定的信息,学习型人工智能可被分为生成式人工智能和非生成式人工智能。再次,根据模型生成信息的过程中是否对包含语义的载体(尤其是文本)进行编码、解码操作,生成式人工智能可被分为处理语义的人工智能和语义无涉的人工智能。最后,根据模型是否以一定强度学习了公开途径可得数据以外的知识及信息,处理语义的人工智能可分为公用模型和特殊用途模型。每一层的划分都以确定的技术特征为基础,也都具有相应的法律治理需求,可以导向治理规则的分层渐进设计,进而形塑人工智能法律体系之纲目。
二、各层分支的治理需求与制度设计
上述人工智能的“四层二分”框架中,风险发生逻辑、利益链条和治理思路最为简明的是规则型人工智能。在此基础上,每增加一项新的关键差异,就需要从制度层面形成相应的“治理增量”,回应相应层面的特殊治理需求,从而使我国人工智能立法形成切合人工智能技术与应用特性的多层级分支式治理框架。
(一)第一层分支:规则型人工智能与学习型人工智能
规则型人工智能通常采用决策树、线性回归、朴素贝叶斯分类器等“白箱型”算法,本质上是一个自动化决策系统。因此,规则型人工智能的治理规则可以参考对自动化决策系统的治理规则。民商事法律活动中,对(白箱型)自动化决策系统的应用本质上并不需要引入特别的法律规则,仅在涉及个人信息处理等领域时有所谓的拒绝自动化决策权等例外。涉及行政职能和公共服务领域,自动化决策系统的规制框架已有较多理论和实践探索,以“技术性正当程序”为代表的相关思路可以被用于构建自动化决策系统法治化的理论与制度框架。
学习型人工智能较之规制型人工智能增加了两项重要特征:一是“算法黑箱”的出现。如果模型采取堆叠单元连续函数的方式逼近目标函数,从而实现“万有逼近”(universal approximation)之能力,算法模型的黑箱型特征会更加明显。与此相应的法律治理需求就是算法解释制度群,即算法解释、算法可解释性、算法透明等制度。二是可训练参数的影响。在程序代码之外,可训练参数(权重+偏置)对结果的影响举足轻重。鉴于人工智能模型在作出决策时整个参数张量的状态与训练数据和训练过程密切相关,训练数据来源复杂,而训练后的参数张量是否隐含偏见、歧视或其他违反法治价值的数理结构,无法被简单直观衡量。由此新增的法律治理需求聚焦以下两点:其一,训练数据和训练过程合规,国外早已出现的建设“公平数据分析与分类系统”之类的主张即典型要求。我国人工智能治理方面的有关行政规章已关注此方面的制度建设,如《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)第7条即专条规定了训练数据处理的基本要求。其二,算法审计。算法审计不限于代码审计,尽管算法审计可以“着眼于全链条、全周期的治理”,但就目前全球范围内的主要实践来看,这一机制主要被用于发现经训练的算法模型所隐含的偏见或歧视。对于部分易受价值观影响的重要算法模型,应建立算法审计制度以防止其偏离我国法律规范所认可的价值观念。
(二)第二层分支:非生成式人工智能和生成式人工智能
算法解释制度群、算法审计、训练数据与训练过程合规等已可基本满足非生成式人工智能的治理需求,生成式人工智能新增的治理需求主要涉及网络信息生态内容治理,触发《暂行办法》和《互联网信息深度合成服务管理规定》(以下简称《深度合成规定》)的监管。生成式人工智能由于可以“生产”网络信息,进入网信部门的监管范围,由此而增加的治理需求及制度回应也已体现在网信部门制定的多部行政规章中。
《暂行办法》对生成式人工智能初步建立了较为完整的治理框架。其中,“服务规范”第9条要求生成式人工智能服务提供者“依法承担网络信息内容生产者责任,履行网络信息安全义务”,而“网络信息内容生产者责任”来源于国家网信办2019年制定的《网络信息内容生态治理规定》。生成式人工智能的应用同时也触发《深度合成规定》的规制。《暂行办法》第22条第(一)项将生成式人工智能技术定义为“具有文本、图片、音频、视频等内容生成能力的模型及相关技术”,而《深度合成规定》第23条第一款将深度合成技术界定为“利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术”,并以“包括但不限于”的方式列举了六类技术。因此,这一定义在应用上实际已覆盖生成式人工智能技术,一旦生成“网络信息”,即落入《深度合成规定》的调整范围。《暂行办法》亦认可《深度合成规定》对生成式人工智能的覆盖,如其第12条规定了“提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识”。因此,生成式人工智能因其“制作”网络信息的能力而触发一系列监管措施,但究其实质,其中不少治理增量实际上应由第三层分支承担。
(三)第三层分支:处理语义的生成式模型和语义无涉的生成式模型
生成式人工智能包含一个内容庞杂的谱系,基于 Transformer算法的大型语言模型只是生成式人工智能技术晚近发展出的技术路线。生成式人工智能早年的代表性算法如生成对抗网络、循环神经网络等,并不必然拥有处理自然语言文本的能力。如果一项生成式人工智能技术被用于生成无法对应现实世界的图像、纯音乐旋律、自然环境中的声音等,其引起的法律风险有限,甚至理论上并不需要触发整个针对生成式人工智能或深度合成的规制框架。然而,如果某项生成式人工智能技术有能力处理人类语言所表述的意义(典型技术如词嵌入)并使之包含于某种形式的输出中,则其可能导致的法律风险将显著提升。其不仅需要完整地接受本质上源于网络信息内容生态治理的现行多项规定的监管,还需要进一步建立和完善以测评为中心的系列治理机制,形成真正意义上的生成式人工智能生态治理体系。
在生成式人工智能中,语义无涉的生成式模型尽管可能生成违法或有害信息(如包含淫秽或暴力因素的图片),但却很少真正触及复杂的政治和社会问题。处理语义的生成式模型可以实现文本向量化(vectorization),主流的方法将文本正确地分割成标记(token),并嵌入到模型可以使用的密集浮点数表示中。这使得模型有可能学习文本中不同词符及词符组合之间的关系,进而塑造模型对语义的某种数值化“认知”。只有基于一定形式的文本向量化,模型才有可能学习和处理不同形式的命题,从而形成模型自身的某种“思维链”和“价值观”,而不仅仅是非生成式模型中存在的各种局限于特定分类的“歧视”或“偏见”。如果模型能够基于丰富多样的语义针对性地调整输出,在相当程度上依赖统计学方法的算法审计就可能力有不逮;而面对规模庞大的大模型,算法解释制度群的实施面临尚未完全解决技术可行性的问题。在模型应用范围和影响力达到一定水平的条件下,需要对模型进行系统性的测评,全面检测和评价模型在价值观、安全性和关键能力等方面的表现与缺陷,这是本层分支中最关键的增量治理需求。
在此基础上,目前我国呈现高度交叠的深度合成和生成式人工智能治理规则也可以被区分开来,实现“各司其职”。深度合成服务的法律治理机制足以承载语义无涉的生成式人工智能模型的治理需求,而具备语义处理能力的生成式人工智能模型则需要专门性的生成式人工智能治理法律体系,以全面应对模型在思维链和价值观等方面的复杂风险。当然,鉴于此类模型强大的综合能力和战略价值,支持和促进发展性质的引导措施必不可少;对于规模庞大、影响广泛、支撑业务众多的关键基础模型,还需要考虑以“新型数字基础设施”的定位为其提供制度保障。
(四)第四层分支:公用模型和特殊用途模型
当前,我国学界对具备语义处理能力的生成式人工智能已给予高度关注,但主要聚焦于对不特定免费或付费用户开放的公用模型,对于特殊用途模型缺乏关注。特殊用途模型可被广泛应用于国防、外交、司法、工业、公共安全、社会管理、科学研究等领域,其主要法律风险在于:第一,特殊用途模型可能通过专门训练数据、知识推理组件、基于模型的知识编辑等方式吸纳不开放乃至保密的知识和信息,不仅数据安全风险较公用模型突出,各种评估、认证、测评、审计等第三方治理机制的开展亦备受限制。第二,特殊用途模型往往有某些性能指标的刚性约束,与公用模型的训练目标不尽相同。例如,司法大模型对回答准确率有严格的要求,但不追求与公用模型同等的有效回应率;在其选择作出实质性回答的情况下,必须杜绝编造法条、捏造规则、混淆关键概念等源于“模型幻觉”的错误。受制于大模型的技术原理,证明偏差(attestation bias)与语料库频率偏差(relative frequency bias)等幻觉来源难以完全避免,此种要求在公用模型中难以实现,但在增加了控制组件的领域模型中却属可行。这就需要针对特殊用途模型建立专门性的治理机制。
特殊用途模型的治理机制主要应当是精心设计的隔离式治理机制,即保证在隔离敏感数据和专业知识的基础上,仍然尽可能实现模型的可靠与安全,以及对特定性能指标的满足。隔离式治理机制需要仔细厘定第三方专业机构(涉及国防、外交等敏感领域时甚至包括监管部门)可以介入的边界,通过模拟数据运行条件下的模型测评、算法影响评估和交付用户的参数与梯度显示功能、随机性程度调节功能、定制量化解释功能等共同实现风险治理与算法安全目标。如向模型引入的知识需要法律为其可靠性、准确性与时效性提供特殊保障,还需要建立针对张量空间的专门性监管规则,基于特殊用途模型是通过提示工程、参数编辑抑或控制组件等方法注入知识,要求采取相应的技术标准或达到特定的性能指标。
第二,在算力供给方面,应通过建立公共算力资源供给制度、推动公共算力资源平台建设与利用、加强算力科学调度等方式,解决企业尤其是中小型企业在人工智能研发过程中所面临的算力资源不足的问题。统筹算力资源既包括我国北京、上海、广州等地正在建设或已经建设的公共算力资源平台,也包括一些科研机构、大型企业为开发自有人工智能系统而筹集的算力资源。在互惠互利、公平合理的前提下,可以探索算力资源市场化交易,促进公共算力资源、私有算力资源的共享互通,提高算力资源利用效率。
第三,在支持算法创新方面,除了鼓励闭源模型的发展外,还要重视开源人工智能生态对人工智能技术创新的驱动作用。开源人工智能以开放式的知识共享机制为核心,不仅能够吸引中小规模研发者参与协作,也有助于大模型的优化完善。可以在立法中明确国家对建设、运营开源开发平台、开源社区的支持与鼓励,也可以探索设立开源人工智能基金,提供专项资金促进开源人工智能生态的繁荣,并可鼓励政府机关先行先试,应用符合要求的开源人工智能。
第四,出于激发人工智能创新活力、促进先行先试和控制负外部性的影响,还可以参考经济特区、浦东新区和海南自由贸易港的授权立法模式,在已有国家新一代人工智能试验区基础上作出更进一步的制度安排,选择人工智能发展要素聚集度好、立法能力强、治理水平高的“试验区”设立“人工智能特区”,建立授权立法机制。人工智能特区所在城市人民代表大会及其常务委员会,可以结合特区内人工智能创新发展实践需要,遵循宪法以及法律和行政法规的基本原则,就人工智能研发、提供、使用活动制定法规,在人工智能特区范围内实施。人工智能特区法规应当分别报全国人民代表大会常务委员会和国务院备案;对法律、行政法规的规定作变通规定的,应当说明变通的情况和理由。人工智能特区法规还可以就同一事项,与部门规章或特区所在省、自治区、直辖市的地方性法规、地方政府规章作出不同规定,并优先适用。
(二)防控安全风险的安全法
突出人工智能立法的安全法定位,主要是划定人工智能研发、提供过程中的安全底线,建立人工智能安全评估、审计和应急处置制度,科学区分人工智能全生命周期中各主体的安全义务。例如,就人工智能技术自身的安全风险,在设置负面清单对高风险人工智能实施更严格监管的基础上,还可以参考《个人信息保护法》对大型平台设置制定平台内规则、处置平台内违规行为等特殊义务的做法,要求基础模型研发者对自身研发模型的安全性负更高的注意义务,并应专门采取合规措施保障基础模型安全。此外,为落实一般主体的安全防范要求,也可以根据主体从事活动的不同,区分人工智能研发者、提供者,有针对性地设置不同义务。人工智能研发者应更加注重所研发的人工智能系统在技术上的安全风险,而人工智能提供者应侧重于及时向研发者和监管部门反馈人工智能运行过程中出现的问题,关注对使用者可能造成的影响。
当然,人工智能立法需要防范的安全风险不止技术自身的潜在风险,也包括人工智能技术发展应用过程中,外部因素干扰所带来的有害信息倒灌、产业链供应链受影响等安全风险。对此,人工智能立法应与《反外国制裁法》等法律法规形成制度衔接,设计对其他国家和地区不合理措施予以必要反制的法律依据。
三、人工智能多层分支式治理的法治价值
上述“四层二分”框架旨在建构我国人工智能法律治理的基础性制度架构。认知框架的主要作用是化约复杂性,此种多层分支式框架不仅契合人工智能的发展历程和技术原理,也最大限度地减少了不同分类维度交叠引起的认知混乱和治理措施组合失配。逐层加入的“治理增量”追求风险增量与治理增量的阶段性适配,有助于提升法律治理不同技术路线人工智能应用的规制精度及合比例性。
诚然,人工智能的技术和应用无疑还存在若干具备法治价值的分类,如人工智能模型总体上包括开源模型和闭源模型,生成式人工智能模型中也包括通用模型和专用模型,公用模型中还需要划分出关键模型和普通模型。其中,尤受瞩目的是关键基础模型的判别标准。当前欧美部分制度实践以训练时消耗的浮点数计算量或运行时需要的算力为判别标准,但我国盲目移植这一标准可能会产生“刻舟求剑”的后果,因为随着人工智能技术的发展,实现与当前大模型同等能力的模型所需算力可能继续上升还是转而下降尚未可知。人工智能立法必须将“技术飞速发展给调整对象带来的不确定性”作为重要考量因素。因此,尽管对于具有广泛用途和影响力的关键基础模型有作为新型数字基础设施加以特别保护的必要,也可能存在对此类可能引致重大风险的模型施加特殊规制的需要,但在相关判别标准和治理机制尚充满不确定性的情况下,此层划分尚需更多理论与实践探索,以求形成更完备的规则体系。
人工智能法治面临的难题,在于强烈的不确定性和高度复杂的生态制约了规则精度的上限,而在规则精度有限的前提下,框架结构上的重叠、缺漏与错位很难通过特殊规则的精准设计填补。“四层二分”框架不仅尽可能避免了各种复合型多维框架结构的缺陷,也有利于未来继续划分必要的层次和分支,还便于未来形成的各种人工智能治理机制顺利嵌入人工智能法制,避免新机制嵌入复合型框架中存在的跨维度定位难题。通过逻辑上无重叠而不遗漏的二分法,结合人工智能自身的技术原理和特点,采取多层二分支式的治理框架,或将是我国人工智能法治建设的有益抉择。