【摘要】 大数据确权即明确大数据的初始产权界定,包括明确大数据的权利性质、权利内容和权利归属。目前学界将“大数据”、“数据”与“个人信息”混为一谈,将注意力集中到人身权、隐私权研究,既忽视了财产性才是大数据的根本属性,又忽视了大数据在挖掘、云存储、云计算和应用等方面与一般数据的诸多客观区别。由于大数据是信息时代的新产物,所以在法律性质、权利内容、权利归属方面存在着诸多制度空白,进而导致了公地悲剧、市场垄断和逆向选择等负外部性的出现并阻碍社会福利最大化的实现。可以通过法律经济学对大数据确权进行比较制度分析,以解决大数据初始产权的界定问题。
【中文关键词】 大数据;云计算;产权;法律经济学
一、什么是大数据
法律视角中,什么是大数据?大数据和普通数据有什么区别?目前理论[1]、实务界[2]与立法者[3]出于现实考虑,默契一致地选择回避正面回答“什么是大数据”,而是采用了描述性的概念界定即众所周知的“4V标准”[4],将“大数据”定义为“大量(普通)数据的集合”。这样定义的优点是解释力强,符合法理学常识中的“法律原则的抽象程度与解释力成正比”,但缺点是“法律原则的抽象程度与可用性成反比”。“4V标准”的解释力与实用性相悖,将大数据与普通数据的区别定位为数量而非性质上的区别,进而导致大数据在世界范围内被拖入隐私权争论的泥淖之中——“既然归根结底是一般数据,当然应该参照个人信息保护规则”。同时也既无法被民法典或其他立法直接采纳也难以被司法直接适用。但“法律视角中,什么是大数据”是不应也不能闪烁其词的。不清楚大数据在法律上是什么,何谈确权?如何流转?如何保障?后续的法律和法律法规如沙滩城堡,如何稳定?
笔者认为,大数据是依确定目的而挖掘、处理的大量不特定主体的数字信息。
概念的提出是从“大数据”概念提出的背景与根本目的反推而来。大数据的重大意义已不需赘言[5]。但究其根本,大数据技术、大数据服务和大数据产业的根本目的在于精确预测{1}2。通过随机分析、回归分析等统计工具和计算机算法实现对个人、企业、政府或国家行为与效果的准确预测[6]。该定义由三个要件构成,分别是行为要件、行为对象和对象性质。
从行为要件来说,与一般数据不同,不具备“特定目的挖掘”主观要件和“挖掘、处理”客观要件而只是静置、沉睡的数据,种类和数量再多、处理速度和本身准确性再高也不会产生这种精准预测力,也不是“大数据”。好比档案馆,里边档案再丰富如果不进行有目的的挖掘和处理,也只是大量普通数据而非大数据。
从行为对象来说,“大量不特定主体”有两个意群,分别是“大量”“不特定主体”。“大量”即大数据的数量级门槛,也即“多大是‘大’”。由立法界定什么是“大”的制度效率低于司法界定和私法替代{2}65-66。这一方面是由于“摩尔定律”[7]的存在,“大量”必然是个动态的概念,另一方面是由于大数据应用领域宽泛导致各行业的数据总量和标准不同。“不特定主体”是借鉴了刑法对危害公共安全罪的犯罪构成要件思路[8],目的是为了区分侵犯商业秘密和信息盗窃。
从对象性质的角度来说,“数字信息”是“大数据”与“个人信息”的核心区别。目前,之所以欧美关于大数据的争论主要集中在宪法权利、隐私权、法律伦理等方面[9]并爆发了数次激烈的冲突{3}276-281,究其原因,主要是禀赋效应和信息不对称徒增的制度成本。而国内由于“大数据”提法的兴起与贩卖个人信息活动日益猖獗的周期高度重合、同步“流行”,使得国内舆论与研究者也将除大数据应用之外的主题放到了隐私权保障上[10],《个人信息保护法》的呼声也日益高涨[11]。但这和大数据的关系似是而非,主要是缺乏对大数据技术的进一步了解。之所以“似是”,是因为个体主义方法论下“大数据”的一切应用归根结底确是来自于具体自然人,最终也确实是应用到具体自然人,“取之于斯而用之于斯”。之所以“而非”是因为大数据要分析和处理的是海量数字化信息,个人信息并不是天然的计算机语言无法被直接运算,必须转化为数字信息才能产生最后“精确预测”的结果。这其中关于数据清洗、区块链存储、秘钥、分布式处理以及其他在大数据存储、分析的整个流程中,“个人信息”都不再以初始形式存在,大数据的内容是计算机语言表述的数字信息。
前述定义下的法律视角中的“大数据”和“隐私”、“个人信息”、“商业秘密”、“(一般)数据”各自范畴均已界定,这是明确“大数据确权”的前提。
二、什么是“大数据确权”
如开篇所述,大数据确权即大数据的权利性质、内容和归属。
传统法经济学在产权初始分配方面侧重于以交易费用为基础分析权利的归属问题,为什么此处的确权却要论及权利的内容与权利的性质?究其原因有二,从理论的角度来看经济学研究的基本假定是“其他条件确定”,所以无论是在“公地悲剧”、“火车烧柴”,还是在“蜜蜂神话”等经典模型中,产权的具体类型与性质是确定的,学界很少探讨过度放牧是否侵害了画家的写生权,也不关注火车是否还影响了农场主的夜间休息安宁权,更不会探讨什么是农场、火车。但在大数据问题上,如前所述理论与实务界对“什么是大数据”问题浅尝辄止、贪功冒进,并不存在经典模型中确定的研究基础。从实践的角度来看,法律框架下对调整对象法律性质的界定具有实际意义,意味着不同的资源稀缺性度、不同的市场竞争条件、不同的制度成本。将大数据界定为财产权和人身权意味着截然相反的资源稀缺度,将大数据界定为知识产权或物权也意味着截然不同的制度成本,前者限制交易而后者鼓励交易。而既然探讨大数据确权的目的在于产生最有效率的制度设计思路,那么对交易成本与制度效率有重要影响的要素就应当是题中之意。故而,大数据确权除探讨权利归属问题,有必要探讨权利性质与权利内容。
大数据确权的目的和必要性如何?从法律经济学来看,虽确权的具体目的包括鼓励创新以提高正外部性溢出、降低信息不对称的影响以满足有效需求最大化的实现等不一而足,但根本目的是为了无限接近科斯的“零交易成本世界”。大数据的一切具体应用的不二法门是开放与共享。医疗大数据应用可以降低误诊率、提高药物效用、提升整体居民健康水平,消费大数据可以促进供给侧改革的实现、发现和满足有效需求、降低库存和开发失败率、提升购物体验,金融大数据可以预防系统性金融风险、加强反洗钱效率、提高资金效率,这些都是为了降低由逆向选择、次品问题和道德风险产生的信息成本减损社会福利。大数据发展的指向应该是开放而不是封闭,是在个人权益与社会福利间谋求均衡,哪怕这种均衡不得不通过“卡尔多-希克斯最优”而非“帕累托最优”实现。
三、大数据的权利性质
从确定大数据权利性质的必要性而言,探讨大数据的权利性质即将目前法律性质不明的大数据界定为物权、债权还是知识产权的交易成本最低,制度效率最高。由于不同的法律性质意味着不同的保护模式,也就意味着不同的交易成本与制度效率。由于前述已言明大数据的本质属性是财产性而非人身性,故不将“隐私权”列入大数据权利性质的讨论范畴。
从确定大数据权利性质的可行性而言,大数据的法律性质之所以可以被选择主要是因为其性质未定。由于“大数据”是依确定目的而挖掘、处理的大量不特定主体的数字信息,显然不是天然存在而是人为加工的一种财产。故而其权利性质并不属于自然权利而是属于拟制权利。而大数据这一2012年开始“蹿红”的热点问题,2017年编纂的民法总则却对其权利性质问题刻意进行了回避[12]。究其原因,很大程度上是出于对大数据发展并未成熟与法典式立法必要的稳定性之间存在冲突,可能导致法律适用上的不当进而增加社会成本。故而其法律性质目前处于制度空白期,所以可以被选择。
既然是财产权,权利性质又可以被选择,那么大数据应该属于何种财产权的客体?我国民法典编纂的过程中,已颁布的《民法总则》在第五章“民事权利”的第一百一十三条“民事主体的财产权利受法律平等保护”后以第一百一十四条、第一百一十八条和第一百二十三条列明了财产权利的三个主要组成部分,物权、债权和知识产权。从法律经济学来看,大数据的权利性质确定过程可以被视为一种制度选择的过程,在前述在物权、债权、知识产权这三种路径的制度竞争间进行“成本-收益分析”,得出效率最高的制度效率。
债权路径带有明显的负外部性后果,促使垄断和不正当竞争的形成。债权路径中最主要的是通过契约意思自治来实现大数据确权,这是当前现实中最普遍的形式,比如贵阳和中关村的大数据交易中心所内进行公开交易以及企业间或企业内部进行的非公开数据交易[13]。互联网巨头正各自构建不同领域的互联网托拉斯,比如腾讯对于人们现在的衣食住行(分别对应京东、大众点评、58同城、滴滴打车)都持有相当股份,大数据确权存在制度空白的情况下,通过市场机制进行大数据交易的法律风险过高,进而导致交易成本高起。故而大数据企业选择企业机制,在关联企业内部流转大数据形成市场替代。但这种市场替代事实上是一种“数据壁垒”,导致大数据企业与关联企业得以迅速向行业垄断的方向发展。总的来说,如果过度依赖契约路径与放任大数据产权不明晰状态的持续则将产生市场失灵,其主要形态是垄断。届时小型互联网公司将不得不对大数据托拉斯缴纳高昂的市场进入税,直接损害社会福利。而微软公司的视窗系统,苹果公司的App Store都已经出现了这一问题。
知识产权路径则面临制度需求小、负外部性大的问题。大数据在技术方面类似计算机软件著作权,目前也确实在通过这一途径实现部分财产权益保障功能。从制度需求的角度看,知识产权法主要保护的是实现大数据的外在技术,而对于大数据本身的解释力有限。其解释力主要在于大数据分析和大数据应用,因为此阶段确实包含了大数据工程师的智慧成果。但是在大数据挖掘方面则很难解释,比如Cookies(电脑上网缓存)与网络痕迹,并不包含明显的智慧加工。同时由于诸如Hadoop、HDFS、Mapreduce等主流大数据开发和处理软件为了快速普及、降低开发成本、实现行业话语等商业考量基本都采取了开源的方式,即很大程度上放弃了智慧成果的专属权。故而如前所述,在大数据挖掘方面知识产权性体现的不明显。最关键的问题是知识产权法某种程度上说是以限制应用来鼓励创新。这与数据共享和零交易成本的“互联网+”方向相左。从卡尔多-希克斯最优的角度来说,应该以补偿大数据企业及其工程师的方式限制大数据的知识产权属性。
相较于债权、知识产权这两种路径,“物权路径”的制度效率最高,债权次之、知识产权最次。之所以“物权路径”制度效率最高,理由在于两方面。
第一是需要克服的制度禀赋难度低、制度改进成本小。若将大数据解释为一种物权客体,则现有物权体系中的无体物基本能够相融,从而更容易被立法者接受,克服制度禀赋难度较小。具体来说,物权的占有、使用、收益、处分四大权能较好对应大数据流程,占有对应大数据挖掘和大数据存储,使用对应大数据分析和大数据应用,收益和处分对应大数据交易,这方面明显优于知识产权路径;另外民法学界共识物权客体范围不宜过窄已成通说,在法律逻辑上的改动幅度小,不易触及民法成熟体系的历史禀赋,被民法典或其他私法部门法采纳的阻力小、可能性高。
第二是抑制制度负外部性,降低交易费用。这又具体分成三个角度,首先是物权路径不会直接导致因过度意思自治带来的垄断和不正当竞争以及其他市场失灵情形,甚至可以有效抑制垄断(应用阶段大数据产权公有化,下文详述)从而优于债权路径;其次是物权路径权责最为明晰,大数据产权的所有者与应用者即相关法律责任的承担者,相较于债权路径而言降低了因合同相对性与内外双重效力导致的“侵权无责”伤害社会福利的情形;最后是流转顺畅,相较于知识产权路径而言将大数据理解为一种无体物动产则没有复杂的登记与公示,更有利于大数据流转和信息的传播以及由此带来的激励创新等正外部性的产生。
四、大数据的权利内容
大数据的权利内容即哪些具体权利应该被法律明确规定、保障。大数据的权利内容从具体层面上讲,在诸如电商大数据、医疗大数据、金融大数据各有其差异,篇幅所限不宜赘述。但从产业链条上时间先后顺序来看大体包含大数据挖掘阶段、大数据存储阶段、大数据分析阶段、大数据应用阶段的权利内容四部分。当然,由于在技术创新和商业创新领域,非正式制度对正式制度发挥着类似企业机制对市场机制的有效替代作用。故而并非大数据的所有权利内容都适宜通过《民法分则》《个人信息保护法》或其他法律部门予以规制。以下说明的都是通过成文法尤其是民法典予以规制更具制度效率的大数据基本权利内容。
大数据挖掘阶段的权利内容主要包括有Cookies辅助数据、网站爬行数据和旁路采集数据等[14]。这三种数据分别涵盖了大数据中的静态数据(含线上、线下)和动态数据,如同在围棋中占了三点“边星”即锁定了大局。目前Cookies辅助数据、网站爬行数据的主要争论发生在学界而非实务界[15],大体流行三种说法即产生者所有说、挖掘者所有说和折中的必要契约说[16]。此类元数据是整个大数据产业的原材料,也是前述“大数据定义”中的“数字信息”。缺乏界定已经产生了高额外部性隐患,即Cookies等元数据处于公共产品状态,极低的平均可变成本使得腾讯、阿里等大型互联网企业在短时间内获取了10亿级的个人数字信息,企业在某些领域正在比他们的国家更了解他的人民。进一步的数据搜集将使得垄断加剧,新型企业不依托数据支持将很难进入相关领域,进而损害社会福利。这不能通过互联网公司参与制定的行业惯例与标准进行界定,成文法的比较制度优势必要发挥。
大数据存储、分析阶段[17]的权利内容主要包括清洁数据、区块链数据、Hadoop的MapReduce分散节点数据、用户行为模型数据等方面[18]。从法律经济学的角度来看,之所以区块链数据等大数据权利内容应该通过成文法进行规定,是因为目前大数据产品交易中存在较高的制度风险与制度成本。这种风险主要体现在商事私人谈判中违约收益过高,商业交易缺乏稳定性。比如甲公司购买乙公司挖掘并清洗的数据,或租赁了确定时间的区块链数据访问权限,在此过程中该如何解决复制了对方的数据后即违约或解约并转卖其数据库内容或算法的问题。由于数据摩擦微弱的技术特点,大数据复制的边际成本可以忽略不计。在现有区块链数据与清洁数据权属不明的情况下,合同违约存在行为激励。为此,大数据出赁方为规避合同违约风险就不得不选择加大投入开发保密技术或者提高出赁价格,这将使得生产者剩余与消费者剩余双双下降,进而妨碍社会福利的实现{4}24。以上事实说明靠契约解决大数据确权制度成本过高。应该依照规范的霍布斯定理,通过立法明晰大数据产权以促进合作。
大数据应用阶段[19]主要包括LBS数据、CRM数据等[20]。如前文对“大数据”的定义,大数据兴起的根本动因是精准预测,而LBS、CRM以及在可视化(VR)、人工智能等方面的大数据本质也都服务于这一目标。但诸如用户将自己的位置信息通过微信转发给朋友,接受京东商城等电商的个性化推送,抑或是医疗机构针对患者病史提出的转向医疗服务和意见,这些转发、推送、获取的大数据应用权属皆不明确。从法律经济学的角度分析这一方面导致逆向选择问题,用户相对于大数据应用运营者而言属于无信息乙方,无法观察到特征组合的不合意倾向,进而承担物品价高或质量低的风险,损害消费者剩余与社会福利。比如滴滴打车会在交通闲时推荐忙时路线(拥堵少但绕远),导致用户打车费用的增加,而用户却无法起诉滴滴损害了自己何种权益,若是根据合同主张滴滴没有履行诚实信用义务将自己按照最合适路程安全送达目的地,则一方面举证难度过高,另一方面又面临诉讼成本高于诉讼受益的“正义不及于一元钱”法律经济学困局,故而也需要法律明文规定权属。
五、大数据的权利归属
如前所述,在大数据定性的制度选择中,将大数据定性为一种物权更具有效率。在物权路径下更为具体的制度选择中,物权由占有、使用、转让、收益、处分等权能构成,故而在大数据各流程中又面临着哪些主体对大数据享有完整物权权能抑或不完整权能这两种路径之间的制度竞争问题,需要进一步分析。
(一)挖掘阶段的大数据权属
大数据挖掘阶段选择完整物权权能路径更有效率,应将Cookies辅助数据、网站爬行数据和旁路采集数据等大数据的物权归属于大数据挖掘者所有。
从占有权能的角度说,此阶段数据挖掘者占有大数据交易成本更低。对此,目前学界和社会公众中比较流行的看法是“大数据时代个人信息应归个人所有,用户对自己不愿意公开的信息享有被遗忘权”。这种“被遗忘权”虽然一般被认为属于知识产权法的范畴,但是从物权法与知识产权法的一般关系来看,“被遗忘权”本质上是默认用户对个人信息享有占有权的前提下产生的一种返还占有请求权,是典型的物上请求权。前文已经驳斥过大数据语境下主流观点所认为的“个人用户是数据产生者,网络经营者是数据应用者”。用户确实是个人信息的产生者和所有者,但是并不是被数字化、匿名化以及其他大数据技术处理后的个人信息的产生者与所有者。将挖掘阶段大数据的占有权归属于个人用户的制度设计是明显无效率性的。一方面是因为这增加了缔约成本,也即大数据挖掘有赖于与数据挖掘企业与用户订立契约并按照现行的合同法对格式条款要尽到充分的提示义务。数据挖掘经常是在几毫秒之间即完成的,但是由于占有权不明,部分企业考虑到用户对大数据具有占有权而用强制的“五秒倒计时”[21]提示隐私条款和数据挖掘许可条款,大大降低了数据挖掘效率。另一方面是增加了履约成本。如果占有权归属于用户,则用户依据返还占有请求权行使个人信息的“被遗忘权”。以全球大数据企业领头羊的Google在欧洲的遭遇为例,每年要收到数万份个人信息删除的请求。为此Google等公司成立了专家组和删除组去审核这些申请并予以回复、查询、删除。这种契约转让大数据占有权的法律逻辑极大推高了企业的履约成本,进而妨碍了生产者剩余和社会总剩余最大化的实现。
从使用、处分权能的角度说,由于信息成本过高,挖掘阶段的使用权人应该是大数据挖掘者而不是用户。“信息”是大数据产业的主要原材料,大数据挖掘的过程即信息获取的过程或生产大数据的过程,而这一过程目前成果过高。具体包括固定成本和可变成本等经济学基本逻辑内容。相较于企业而言,单个自然人用户进行数据挖掘的平均可变成本过高,既没有效率也缺乏可能。而目前由于租赁云服务(存储)和超级计算机的成本仍旧过高,规模经济以下的中小企业仍然无法充分利用大数据工具服务于生产。大数据目前的主要用户仍然是规模经济的大型企业或政府。相较于将挖掘阶段的大数据确权给自然人,确权给有挖掘能力及有效率的企业与政府则更有利于这一技术正外部性的拓展与实现。
从转让与收益的角度说,相对于用户而言,大数据挖掘者享有转让与收益权更有利于降低交易成本和促成私人谈判。大数据挖掘市场正处于非完全竞争状态,不同于新古典经济学基本假设中的“完全竞争”即无垄断、无摩擦、信息对称的自动均衡市场,大数据挖掘市场目前摩擦成本高起,信息不对称情况严重。由于“数据竖井”(数据壁垒)[22]的存在,非相关专业的元数据占有者(即用户)想要通过私人谈判实现元数据交易的成本过高,且削减这种成本促使个体用户直接交易缓存也无必要。反之,大数据最为流行的Hadoop平台核心步骤HDFS(分布式计算)极类似法律经济学中的私人谈判,由各节点依据协议分散运算并以最低的成本完成数据挖掘。进而企业或政府能够以更低的成本实现私人谈判与合作,最大限度加速大数据有效挖掘,进而形成全社会范围内有效的大数据流动和社会福利的增加。
(二)存储、分析阶段的大数据权属
该阶段权利应归委托人所有或依据契约进行产权确认。大数据存储、分析阶段也即“云计算”阶段,此时由于个人信息已被清洁和数字化,从而不再涉及用户所有权问题。故而制度选择方案即是在“云计算委托人”和“云计算受托人”之间进行确权,具体包括四种路径,即全部分配给委托人、全部分配给受托人、法定折中分配权利和契约意思自治。在进行制度选择之前首先有必要审视下“云计算”市场的真实状况,如果现行制度交易费用低下、制度运转高效、负外部性可控,那么现行制度并不存在制度改进空间。
“云计算”的核心资产是大型、超级计算机,核心竞争力是“4V”标准项下的“大量、多样、快速、准确”地运算。国内外提供云服务的企业主要包括Google、IBM、阿里、腾讯以及华为等互联网寡头,这些企业大都本身拥有10亿级别的大数据运算需求,所以本身都拥有自己的云服务软、硬件,比如阿里巴巴集团的“阿里云”,腾讯公司的“腾讯云”,都有自己的超级计算机中心。云服务是在满足自身大数据运算的过程中发现的对主营产品的替代商品,将“剩余运算能力”出售给其他公司实现企业资产配置效率的最大化。总而言之,现在“云市场”中云服务的主要生产者与消费者高度统一。
在这一过程中制度经济学的预言已然实现。科斯的观点,企业机制对市场机制发生替代作用的关键是市场交易成本高于企业内部交易成本,以及威廉姆森发展的交易费用理论“当资产具有高强度专用性或者高频率交易的情况下,由企业内部交易更有效率”{5}149-151完美地描述了现在的云服务市场现状。在占市场主导地位的互联网寡头中,基本都采取了企业内部云服务替代市场云交易。而由于近五年来国内云服务市场还在以每年30%左右的增速[23]拓展,目前云市场竞争较为充分,使用成本低廉,信息获取便利,没有明显阻碍私人谈判和抬高交易成本以阻碍社会福利的情况。另外,大数据的存储方式和分析技术随着产业革新而处于动态调整状态,通过描述性立法对该阶段的各项具体大数据权利内容的主体进行明晰,则面临频发的法律修订和高昂的立法成本{6}1331-1334。所以目前立法应该在云服务市场中保持“谦抑”,交由合同法与契约自治去解决存储、计算阶段的大数据确权问题。
(三)应用阶段的大数据权属
应用阶段的大数据应被界定为公有产权,属于全体社会成员所有,但需要法律对其边界加以具体限制。
前文已述,大数据的法律属性是一种物权,包括占有、使用、转让与收益、处分四种权能。其确权面临的制度选择是在公有产权路径与私有产权路径之间(包括运营商所有和用户所有)进行比较,将完整权能或部分权能赋予何者交易成本更低、制度效率更高。
从占有的角度来说,LBS数据、CRM数据等应用阶段的大数据事实上已归属于政府和运营商占有,而这种占用基于法律行为而产生,且目前并未产生足以降低社会福利的负外部性影响,故而暂时不需要调整。
从使用的角度来说,应用阶段的大数据不应私有化。主要原因在于这将抑制正外部性溢出并催生垄断。从供给侧改革的角度来看,应用阶段大数据若归属于少数大型互联网公司则意味着法律为价格歧视和无谓损失提供温床。其他企业在无力承担高昂运维成本时必须购买其大数据产权,否则将失去精确供给能力和市场竞争力。若购买则提升商品的边际成本,造成部分消费需求没有得到满足进而降低社会福利;若不购买则使得商品生存的过剩或不足{7}91-93,而无论是哪种结果都与供给侧改革相悖。从“大众创业,万众创新”的角度来讲,应用阶段的大数据确权将对无偿公开大数据成果产生负面激励,抬高企业创新与科学研究的成本,阻碍正外部性的产生与技术溢出。
从转让、收益和处分的角度来说,将应用阶段大数据界定为私有产权将导致交易成本陡然增加。这主要是通过增加合同履行成本以及削减社会有效需求而产生的。大数据根本追求是共享和开放,确权意味着应用阶段的大数据本身可以定价,即乘坐一次网约车要给运营商、导航、语音、搜索等多种企业支付对价,而非当下通过替代支付手段即通过使消费者接受广告而由广告主支付相关服务费用。比如规定LBS大数据应用归运营商所有,则百度地图、谷歌地图将有理由收费使用。关于企业选址、市政规划、个人出行的整体社会成本都会受到影响。
总而言之,应用阶段的大数据从社会总体福利的角度来讲应该参考土地制度,界定为公共所有并交由政府管理。对于应用阶段的大数据,与其说“凯恩斯主义”比起“奥地利学派”更有效率,不如说应该在宏观管制的框架下尽可能实施大数据的零交易成本流动。具体方式可以通过成立“中央大数据银行”{8}711-714对大数据市场实施“统而少治”{9}2。一方面限缩大数据的流动规模以保护国家信息安全和防治大数据的“新型国有资产流失”,另一方面限制大数据发展中的市场失灵,比如大型互联网企业大数据托拉斯的形成{10}1451。
【注释】 [基金项目]广东省社科领军人才项目(12000-42210231)。
[作者简介]周林彬,男,中山大学法学院教授,博士生导师,法学博士,中山大学法律经济学研究中心主任,中山大学法学院民商法研究所所长;马恩斯,男,中山大学法学院博士研究生。
[1]国内外经济学与法学期刊对于大数据的关注从2014年起呈现井喷式增长,检索HeinOnline和CNKI数据库中经济学、法学CSSCI期刊中以“大数据”为标题的论文共100篇,其中明确论及大数据定义的有71篇。该71篇对于大数据定义所引述的主要文献高度重合于以下四处,分别是麦肯锡在2011年的《大数据:下一个创新、竞争和生产力的前沿》报告中定义的“是容量大小超出一般数据软件所能采集、存储和分析的数据集”、畅销书《大数据时代:生活、工作与思维的大变革》中的“不是小部分的数据样本,而是人们能够运用和掌握的所有数据;不是精确的数据,而是比较混杂且为人们可以挖掘的数据”、美国国家科学基金会的“通过互联网交易、电子邮件、网络点击等形成的分布式数据集”以及下文中IBM定义的“4V标准”。并大都表达“虽然对大数据并未形成普遍接受的定义,但理论和实务界普遍接受了4V标准”。
[2]实务中大数据服务于“云计算”,云计算服务于“互联网+”,“互联网+”服务于“工业4.0”,大数据不依托云计算既无法挖掘,也无法存储分析,更没法应用和维护。所以大数据实务基本是云服务公司的一部分业务与工作。国内大数据产业发展颇有代表性的是阿里云、腾讯云和贵阳大数据交易所。阿里云的创设宗旨之一在于“云计算将数据变成生产资料和企业资产”;腾讯云在“TOD大数据处理”中表示“完成对海量数据的各种处理”;贵阳大数据交易所的定义“是对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。
[3]截至2017年4月,国务院及各部委共发布以大数据为调整对象的行政法规19部,地方法规规章201部。中央法规中明确定义“大数据”的仅有《国务院关于印发促进大数据发展行动纲要的通知》(下称《纲要》)一部,地方共有16部。其定义基本延续了《纲要》的定义“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合”,也即“4V”标准。他国政府或政府间国际组织也制定了多部以广义大数据为调整对象的法律法规,较有代表性的是欧盟1995年的《数据保护指令》、2015年的《通用数据保护条例》、澳大利亚的《隐私保护原则》、巴西司法部的《个人数据保护法》(草案)、日本的《个人信息保护法》和亚太经合组织(APEC)的《APEC隐私保护和框架》等。由于“大数据(Big Date)”的提法产生于2012年,早于前述大多数法律法规,故而对“大数据”进行明确的定义仍是空白。
[4]第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;第三,速度(Velocity),即处理速度快;第四,真实性(Veracity),即追求高质量的数据。
[5]国务院印发《促进大数据发展行动纲要》提出“全面推进大数据发展,加快建设数据强国”,将大数据的重要意义概括为“提升政府治理能力、优化民生公共服务、促进经济转型和创新发展”。这四方面可以具体理解到社会经济生活的方方面面,学界对大数据应用的潜在意义和发展前景已进行了汗牛充栋的论述,再次略去不述。
[6]比如淘宝网统计买家购买偏好以便进行CCM(定向广告投放),所以现在每个人看到手机或其他移动终端上的淘宝APP界面都是不同的。从2015年开始,淘宝在移动终端全面铺开个性化推送业务。阿里官方给出了推送参数近一百种,比如购物风格、年龄、地域、收藏店铺、浏览宝贝、平均购买力等等。比如男性的淘宝APP中基本不会出现唇彩的推送,女性用户的推荐里也不会出现剃须刀,再畅销也不会。
[7]当价格不变时,集成电路上可容纳的元器件的数目,约每隔18—24个月便会增加一倍,性能也将提升一倍。
[8]危害公共安全罪共四十七个罪名,如放火罪、爆炸罪、破坏交通工具罪等。该罪的犯罪客体是公共安全,即不特定的多数人的生命、健康和重大公私财产安全及公共生产、生活安全。犯罪的主观方面是行为人明知自己的行为危害公共安全,有可能造成不特定的多数人伤亡或者公私财产的重大损失,并且希望或者放任这种结果的发生。其本质特征表现为不特定性。比如明确要炸毁对方车队,虽然客观上造成了重大伤亡,则仍可能属于故意杀人罪,并不符合爆炸罪的主观方面构成要件。而如果想要爆破一条道路制造恐慌,哪怕仅炸毁了一辆汽车也可能成立爆炸罪。
[9]索引自HeinOnline,按照关键词“Big Date”搜索近五年下载量前一百的法学文献,占比如下:大数据的潜力26%,大数据隐私34%(其中援引第四修正案为27篇),大数据应用28%,大数据确权9%,其他3%。参见Lenard, Thomas M.,Rubin, Paul H. Big Data, Privacy and the Familiar Solutions[J]. Journal of Law, Economics &Policy, Vol.11,Issue 1(Spring 2015),pp.1-32.一篇较为全面的综述类论文。
[10]CNKI搜索“篇名”与“关键词”包含“大数据”的法学论文共计3796篇,其中以隐私权、个人信息保护为主题的共计1500篇,约占40%。
[11]自2009年起我国个人信息泄露案件激增,八年来屡禁不绝。包括全国人大财经委副主任委员吴晓灵、央行副行长陈雨露、奇虎360董事长周鸿祎在内的政企两界都认为制定《个人信息保护法》是一剂良药,截至2017年5月3日相关信息搜索量也已超过210万条。
[12]2016年7月的《民法总则(草案一审稿)》第一百○八条规定:民事主体依法享有知识产权。知识产权是指权利人依法就下列客体所享有的权利:(一)作品;(二)专利;(三)商标;(四)地理标记;(五)商业秘密;(六)集成电路布图设计;(七)植物新品种;(八)数据信息;(九)法律、行政法规规定的其他内容。同年11月,《民法总则(草案二审稿)》第一百二十条规定,知识产权是指权利人依法就下列客体所享有的权利:(一)作品;(二)发明、实用新型、外观设计;(三)商标;(四)地理标志;(五)商业秘密;(六)集成电路布图设计;(七)植物新品种;(八)科学发现;(九)法律规定的其他客体。删除了一稿中的“(八)数据信息”。而后正式颁行的《民法典总则》延续了二稿的表述,并在第一百二十七条中用“法律对数据、网络虚拟财产的保护有规定的,依照其规定”,放弃了对大数据确权问题的正面回答而采取了开放式规定。
[13]贵阳大数据交易所可以交易包括政府大数据、征信大数据、专利大数据在内的三十类数据交易品种。来自贵阳大数据交易所官方网站http: //www.gbdex.com/website/view/dataDeal.jsp,访问日期2017年4月3日。
[14]Cookies是让网站服务器把少量数据储存到客户端的硬盘或内存,或是从客户端的硬盘读取数据的一种技术,包含相当的用户信息,相当于确定网站中用户的身份证,其存在形式与一般意义上理解的“电脑缓存”近似。网站爬行数据是网站上发生一切变化的数据记录,其应用的典型例子“量子恒道”,在PC端淘宝店铺的左下角经常可以看到,是通过分析流量、销售、购买群、推广效果等买家、卖家在平台上发生的一切数据进行搜集整理从而进行优化店铺经营的辅助工具。旁路采集数据也叫旁路监听数据,是通过镜像交换机的方式将出口数据备份到指定服务器进行同态模拟、记录与分析而产生的数据。可以近似地理解为另一台服务器对用户在网上各种访问行为的镜像或者说实时录像。
[15]实务界也即互联网公司、数据服务公司等,由于前述三种数据或者有着严格的加密系统,或者时效性非常有限,或者专用性非常强(比如在淘宝量子恒道搜集的数据放到京东平台上意义并不直接,用户数据并不共享),所以实务界对于数据采集基本是“井水不犯河水”,争议不大。而2014年“北京百度网讯科技公司与朱烨隐私权纠纷案”经过二审,南京市中级人民法院认定“百度网讯公司的个性化推荐行为不构成侵犯朱烨的隐私权”,事实上认可了网络服务提供者对cookies数据拥有所有权,但有保护隐私的注意义务。国内学界有268篇论文讨论了cookie与隐私权的关系问题,大体分成了三派观点。尽管cookie辅助数据与网络爬行数据、旁路采集数据不尽相同,但同作为网络服务者挖掘用户数据的工具有相当的借鉴意义。
[16]产生者所有说认为cookie数据应属于用户所有,核心原因是cookie记载的是用户的各类身份信息。挖掘者所有说认为cookie数据应属于网络服务提供者所有,经典的举例是“好比一个人在别人的土地上留下了一串脚印,这串脚印当然属于土地所有权人”。折中的必要契约说认为cookie数据本身是属于用户所有,但是在访问网站时依据相关协议已经发生了所有权转移,属于依合同取得所有权的情形。篇幅所限,在此仅简单介绍。关于互联网各类计算机数据的产权问题目前大都属于法律空白领域,受制于法律人的计算机与统计学的专业水平,进展一直较为缓慢,使得互联网长期存在大范围的法外之地。
[17]广义上的大数据挖掘包含大数据存储和大数据分析,狭义的大数据存储即大数据数据库,大数据分析即根据大数据挖掘目标对已存储的大数据进行分析整理得出模型、结论或其他有价信息。大数据存储和大数据分析在实践中是云计算的静态和动态过程的统一,两者其实很难分得开。“分析”是“存储”的目的,不需要分析的数据也没必要存储。当然,由于单位硬件存储成本的飞速下降,“备而不用”的机会成本降低,“存储”也有了独立于“分析”而存在的现实。
[18]清洁数据、区块链数据、Hadoop的MapReduce分散节点数据、用户行为模型数据是大数据运作流程的各个步骤。简单来说,将cookie等包含丰富个人信息的一般数据进行重新编码,非个人信息化以实现数据清洁(也即原有的个人信息此时已经成了某种程序语言,非专业者看起来会觉得更像是乱码,不可辨认)。区块链数据简单来说可以比作大数据蜂房中的一个个六角形房孔,主要是用来保密存储个人数据(不是个人信息,至少不是以一般可辨认形式存在的个人信息)的,当然其应用范围在不断扩展其内涵的当下也远远不止如此。简单理解Hadoop的MapReduce分散节点数据就是前文提到的分散式运算存储在不同计算机节点中的数据,比如将10PB数据分配到一百台终端中进行存储和计算,每台终端中的数据即是。用户行为模型数据顾名思义,是大数据的核心目标之一,通过多方面搜集个体身份、年龄、购买力、信用度等尽可能多的信息准确预测个人行为以进行定价、精准广告推送、精准营销以及在人工智能、VR等领域无限的开发潜力。
[19]应用阶段主要是将大数据分析后的具体模型实际应用,最典型的是CCM也就是个性化广告推送。目前大数据应用的核心在于商业应用,商业应用利润的主要来源是精准营销收入,精准营销收入的主要方法是个性化广告推送和经营策略优化。这当然还比较初级,但是现实也很本质——大数据的核心目的是精确。前述大数据挖掘、存储和分析本质上就是个统计学的技术表现。一定意义上,大数据应用就是无数组个性化统计学报告的可视化——我经常去吃什么菜,最后在APP上呈现给我的就是什么饭店。所以这个问题的实质是问可视化的统计报告归谁所有。那按照一般的财产法思维,作为知识产权中的著作权自然归制作人所有。而制作人基本是公司雇佣的,和公司之间有协议,这也同样根据知识产权规则,委托制作开发则有约定按约定,所以归委托方所有,也就是大数据服务的提供者所有。
[20]LBS(location based services)基于位置的服务,比如手机定位、百度地图、微信位置分享、摇一摇等。CRM(customer relationmanagement)是客户管理系统,比如根据顾客消费金额及区间决定折扣力度等。
[21]比如安卓客户端百度的数据应用提示如下“您确定已知晓并同意下述服务改进计划条款(5)”,括号中的“5”是五秒倒数计时的第一个数字。
[22]Data Silo(DS),狭义上代指各公司数据库由不同软件公司开发所以很难将其整合。但是随着技术的发展,技术障碍已不再是主要矛盾。故而数据竖井向广义发展,近似于数据壁垒,指的是各企业、国家之间各自为战拒绝共享数据以促进社会和人类福利的最大化。
[23]参见《2015—2020年中国云计算行业前景调查及投资策略分析报告》。
【参考文献】 {1}[美]埃里克·西格尔.大数据预测[M].周昕,译.北京:中信出版社,2014.
{2}周林彬,董淳锷.中国商会立法刍议:从契约的视角[J].南开学报(哲学社会科学版),2007(02).
{3}[德]托马斯·舒尔茨. Google: 未来之镜[M].严孟然,陈琴,译.北京:当代中国出版社,2016.
{4}周林彬.市场经济法立法的成本效益分析[J].中国法学,1995(1).
{5}周林彬.法律经济学:中国的理论与实践[M].北京:北京大学出版社,2008.
{6}Krotoszynski, Ronald J. Jr. Reconciling Privacy and Speech in the Era of Big Data: A Comparative Legal Analysis[J]. William &Mary Law Review, 2015,56(4).
{7}魏建,周林彬.法经济学[M].北京:中国人民大学出版社,2008.
{8}Data Bank. Ownership of Demand Deposits[J]. Federal Reserve Bulletin, 1954,40(7).
{9}Sieben, Katie Clark. Labor Markets in 2040:Big DataCould Be a Big Deal for Jobseekers[J]. Monthly Labor Review, 2016,139(2).
{10}Price, W. Nicholson II, Big Data, Patents, and theFuture of Medicine[J]. Cardozo Law Review, 2016,3(4).
【期刊名称】《东北师大报(哲学社会科学报)》【期刊年份】 2018年 【期号】 2