去年以来,数据是一个很热的热点,从经济学的角度需要一个很好的分析框架,因为经济学中的生产要素分析是一个非常成熟的体系。我们现在把数据当成生产要素,这对经济学界的理论提出了很大的挑战,我们来探讨研究什么问题,才能称之为学术研究。
中国是首个把数据作为生产要素的国家,这在国际上是没有先例的。作为一种生产要素,确权、交易、收益等概念需要纳入分析框架中;作为一个产业,产业组织、生产消费、价格形成等概念需要纳入分析框架中;作为一个市场,创新、竞争、公共品等概念需要纳入分析框架中。考虑到数据的特点,还需要在分析中扩展框架和增加维度。并且,研究方向要呼应经济学的宗旨:研究社会资源配置的总体效率并尽可能合理分配。总之学术研究应该致力于知识体系的构建和完善。
当下关于数据要素市场的研究,比较集中在数据确权、定价、交易等领域,希望学术界整体在数据研究方面继续加强学术含量高的研究,来促进理论发展,服务实践,促进国际交流,这是过去一年多我在参与数据问题时非常深切的体会。
从经济学视角思考,数据研究涉及非常多的学术问题:
数据作为要素,配置效率怎么样,比如确权、交易和收益的制度安排,最终希望配置的效率最高;
数据作为产业,需要研究具体经济主体的行为及其市场影响,例如消费者和生产者行为、均衡价格、创新行为等;
数据作为市场,要研究数据市场的规则、行为和结构,特别是AI出现以后的巨型企业,对竞争规则、垄断的判定,政府的规制该怎么做,是非常具有挑战的问题;
数据作为半公共品,公共利益和市场效益如何权衡,政府供给和市场供给的组合怎么判断。
接下来举例来讲,数据要素我以确权、流通和收益为例,数据产业我用创新范式的改变作为例子,数据市场我们用规模递增下的竞争和垄断作为例子,公共数据以免费开发和收费开发的平衡作例子。
关于数据要素
数据是一个生产要素,又是一个非常特别的要素,面临的理论挑战非常多。数据的独特性质主要体现在以下几个方面:
首先是多主体生产因而确权困难,数据的生成过程错综复杂,常常是多方主体相互协作的结果,包含了不同主体不同程度的投入和贡献,因此确权困难。
其次是多场景复用方便,一组数据可以被不同主体以不同方式重复利用,在使用上不具有竞争性和排他性,不易清晰明确主张权力。
第三是数据中的敏感信息多,许多数据的内容多层次多元化,可能承载了需要保护的个人信息和商业机密,即使匿名化和去标识化,也有可能被挖掘出来。
第四是减损贬值快,绝大部分数据的价值在于实时性,有研究表明一年期以上的数据贬值达到98%以上,保值增值十分困难。各位想想,你经常点什么外卖,搜索过什么类型的服务、APP就会推荐推送给你相关的内容,这都是从即时数据中挖掘到的,几个月后可能你的口味发生了变化,按照现在数据推送就没有意义。
第五是具有交易和交互两类流通方式,特别是交互型流动即数据在不同主体间的非交易型流通使用,与其他生产要素流通使用的形态相比有显著不同。这个是我们后面要分析的重点问题。
考虑到上述问题,在“数据二十条”的起草制定中,针对数据要素这些与其他生产要素不同的特点,文件的重点是构建起主要架构,即所谓的“四梁八柱”,许多更具体的内容都需要不断探索发展,并从社会有较多共识、实践有迫切需求、符合数据要素特征、与理论体系有较好契合性这些角度排出工作的重点。
例如,在起步阶段不回避“所有权”,但更强调持有权、使用权、经营权,让数据先动起来用起来,就是现阶段中国特色数据产权制度的一个鲜明特点。再如,处理好场内交易和场外交易的关系也是现实针对性很强的问题。从实践看,数据流通使用既有通过数据交易所完成的“场内交易”,也有企业与企业之间直接发生“场外交易”,更有规模巨大的非交易型的数据交互。因此“数据二十条”并未强调以哪种流通方式为主,而是提出场内交易与场外交易相结合,不断探索创新。
在公共数据开放共享和开发利用、构建安全贯穿数据治理全过程的安全治理模式等方面,也都从理论与实践的结合出发,既提出长远发展方向,也明确当下工作重点。
理解了数据要素的特点,就能理解一年多来数据要素市场发展中的困难与问题。数据要素交易所在“数据二十条”出台前后特别是以后快速增长,但大体上是一个有市无价,或者有市有价无交易的情况,这在其他要素市场上很难看到。
各地数据交易所发展很快,到2023年10月已经超过48家。每个交易所都有成千上万家的数据服务商,也有些入场准备参与确权交易的数据供应方。但一年多下来(有些起步早的交易所尝试时间更长,有些已有十年之久)数据交易量非常少,整体上仍在尝试性起步阶段。
其实许多数据持有者都明白,数据交易很不容易,那他们为什么积极“入场”呢?企业期待数据入表,将数据资产化,进而能够去做金融创新、融资担保或资产证券化等。
下图是各个数据交易所表达自己平台能够做什么的逻辑:做数据资产登记、数据资产评估;然后发放数据资产凭证,进而入表;入表后的主线是去做金融创新、融资贷款等,其次是进行数据资产的交易。我和银行开玩笑,说“数据要素市场建设发展的接力棒交到了金融领域,你们迟迟不接棒”。金融业不敢往下做的原因之一,就是认为数据资产定价、交易方式特别是易贬损特点带来的挑战和风险都是新问题,需要积极而谨慎,发展与安全并重。
不过,虽然我们将数据纳入传统生产要素分析框架中有困难,但这是一个新事物,需要留给创新足够的时间和空间。而且我们不一定要将其“装”进我们熟悉的体系构建中间去,要允许探索。但从学术理论角度看,总要构建一个学术体系出来,这是一个非常有创新意义也有挑战的领域。
关于数据产业
数据产业链条中,各环节参与方的行为和以往不一样,这个方面要研究的新问题很多。因为最近我在做一项数字时代创新问题研究,就拿它举例。现在数据创新范式按照国内外的很多学者来说,进入了“数据密集型”的科研创新范式。我们能看到除了数字行业自身以外,生物医学、高能物理、地球科学、海洋科学很多都是以信息科学为支撑的基础研究领域,如果数据观测处理能力不高,它们的进展是非常困难的。
生命科学中,蛋白质怎么预测出来,不是生命科学自身的原创性发现,而是数字技术应用带来的结果,其中的原理早就知道,但就是算不出来。现在,世界进入数字时代,数字技术迅速发展和海量数据的产生不仅显著影响经济社会运行方式,而且推动着科研范式的深刻变革。这种变革不是原来创新范式内部因素和结构的调整,而是“数据”这个新要素和数据复杂交互形成的“数据关系”这些新变量加入所引发的创新要素、创新主体和创新组织的深刻变革。
我们现在讲到数据和数据关系,不光是数据量多少,主要是数据关系影响了创新的重要维度。我们现在AI发展相对滞后有很多原因,能够共享的信息的数量和质量比较差,是影响下一步人工智能非常重要的因素。数据和算力决定谁来创新,包括很重要的原始创新。
大模型的训练和调整需要极其巨大的数据、算力和算法的投入,Transformer架构进入主流以后,AI算力每两年增长275倍,在计算机本身有革命性的变革之前,只能靠扩量来增强算法的能力,所以目前只有大科技企业有雄厚的财力足以吸引大批顶尖的AI人才,从而以算力、算法和数据的最佳结合来推动人工智能前沿的突破,这就是最领先的AI大模型的变化。
如下图,2014年是一个转折点,AI系统不是高校研发后的产业转化,而是从最基本的数学算法开始,都由产业界来做,2023年32个重要的机器学习模型都诞生在产业界。
我们现在也经常讲国家创新体系,集中力量办大事,这方面也要考虑到数字时代的这种产业创新范式变革。这种海量的算力、数据以及人才迅速决策的能力、技术迭代的速度,完全是另外一种创新的组织架构,其中的变化是非常重要的。
关于数据市场
看待数据市场,需要研究市场的规则、行为和结构,特别是AI出现以后的“小规模企业+巨大市场”是非常具有挑战的问题,对规模递增下的竞争和垄断的分析也是我们的一个困惑。我们不能简单地认为市场从长期看会解决这个问题的,然后完全交给市场去处理。
规模递增并不是数据市场的独有特点,软件业也有这个特点,但开源模式限制了规模递增导致的大者愈大,因此垄断问题没有走向极端。虽然领先者有规模递增的能力,但是开源之后,更多的开发者和应用市场出现,目前没有导致规模递增一定会致使大者越大、强者越强的局面出现。
对于大模型,我们能期待这个趋势出现吗?仍是未知。如果理论不能有预测性的话,就没有价值。现在我们的知识能够想到OpenAI在AI时代,其产业组织、竞争垄断的格局最后会不会避免走向极端?也是未知。所以这个问题对我们是一个很大的新挑战。
关于公共数据
公共数据的性质有很多讨论,有观点认为数据本身具有公共品性质,公共数据又是政府掌握的数据,应该对社会开放。
公共数据对公众开放是国际共识。开放数据的定义是“公众可获取的、能够被用户完整观测和使用的数据”。2009年,美国的奥巴马政府颁布了《开放政府指令》(US Open Government Directive);2018年12月24日,美国国会通过《开放政府数据法案》,要求联邦机构必须以“机器可读”格式,即以方便公众在智能手机或电脑上阅读的数据格式,发布任何不涉及公众隐私或国家安全的“非敏感”信息。例如,纽约市的政府及分支机构所拥有的数据必须对公众实施开放,市民们使用这些信息不需要经过任何注册、审批的繁琐程序,使用数据也不受限制。
2011年,巴西、印尼、墨西哥、挪威、南非、菲律宾、英国和美国签署了《开放数据声明》,公共数据开放也是2011年成立的“开放政府合作伙伴”。迄今为止,全球已经有75个国家加入这一计划。
国内政府数据开放发展至今,发展和应用最好的主要还是地理位置信息的开放、公共设施的数据开放(图书馆、教育机构、公共wifi等)、涉及健康安全的数据开放(比如河流洪水水位、交通拥堵状况、空气指数等)、市场监管数据开放(企业信息查询、行政处罚查询等)。这些信息现已可以通过多种途径获得。
政府数据开放意义重大,但多年下来动力不够是普遍问题。作为数据提供者的政府机构并不能从中直接得到经济回报,相反承担着泄露商业秘密和个人隐私的巨大风险,即便对数据采取“脱敏”处理也无法完全消除隐患。
从道理上看,允许对数据开放并有一些收费也有合理性,例如有些原始数据不能直接开放共享,要做成数据产品;再如有些公共数据并不被广大公民和市场主体所需要,是某些企业的运营需要。公共品是为广大公民和市场主体服务的,对少数人服务“用者付费”这是公共品的基本原则。
今后,要寻求免费开放(开放共享)与收费开放(开发利用)的平衡。“数据二十条”里的提法是:“推动用于公共治理、公益事业的公共数据有条件无偿使用,探索用于产业发展、行业发展的公共数据有条件有偿使用”。
目前看,对公共数据有偿开发开了一个口子以后,政府和相关公共企事业单位动力更强劲,行动更迅速。各地政府纷纷成立国有数据运营公司开展政府数据的授权运营,还可以搞二级合作商,获取合理的收入,这是一个非常普遍的趋势。政府大规模出售公共数据,公共品性质的数据转化为商业化数据,需要学术理论给予分析和解释,至少对公共品理论的发展提出了要求。
总的来讲,中国是一个数据生产大国和使用大国,我们是首先提出数据要素概念的国家,其中的实践探索多元而丰富,期待学术界同仁共同努力,构建符合学术理论规范、包含数据实践主要问题、体现中国数据发展特色的学术体系。谢谢大家!