胡小明:数据价值再讨论

选择字号:   本文共阅读 1498 次 更新时间:2020-06-29 15:05

进入专题: 数据价值   大数据  

胡小明 (进入专栏)  


一、数据价值理念需要澄清

数据的价值不是数据自身的属性,是数据与应用环境互动的结果。

1.数据价值边界的研究

各地都在成立大数据局加快数据中心的建设,都在谈论数据的价值,值得注意的是,宣传越火热越容易出现概念越界,导致工作的失误,冷静探讨数据价值的理念很有必要。

2.数据的价值是生态环境的产物

经济学认为价值并非是数据的天然属性而是对数据应用有效性的估值,带有很大主观性的成分,价值是有立场的,同样的内容其价值因人而异,抽象的价值是不存在的,数据的价值是特定生态环境的产物,必须从数据与其应用环境的关系上去理解数据的价值。

3.数据的使用价值取决于使用效果

数据的使用价值是数据对用户目标贡献的主观评价,数据有无价值要看其贡献是否大于成本,这种评价标准与用户目标本身的价值相关,数据作为手段其价值是无法超过目标本身的,项目越重要数据价值会越高。数据价值还与用户的利用能力有关,缺乏数据处理手段、缺乏数据理解能力都会制约应用效果。对使用价值研究有助于降低成本,要有清晰的应用目标,目标不清是最大的浪费,要提升使用工具的能力并避免过量使用数据。

4.交换价值强调稳定的应用规模

人们常用石油来比喻数据资源,这是从交换价值视角强调数据资源的重要,数据资源的确很重要,但数据资源与石油资源的价值特点有很大不同,石油交易稳定且频繁能够形成价值共识,而数据资源易过时易复制且供需匹配很困难,难以形成数据价值共识,这是大数据交易中心无法成功的主要原因,数据资源长远价值的不稳定提醒大数据管理者,不是所有数据都有价值都值得保存,应当保存未来真正用得上的数据,避免垃圾数据的堆积。

二、数据价值随环境变化而改变

数据价值最大的制约因素是处理速度,信息技术的使用大幅度提高了数据处理的速度,使很多过去无法利用的数据都变得有用了。

1.数据处理的速度支撑数据价值

数据是作为工具来帮助人们实现目标,任何目标的实现都有时限,时间是数据处理最大的机会成本,时限内完不成的应用均无价值,数据处理的速度直接影响数据的价值。早期的统计数据由于是人工处理,除了汇总结果没有更多的用途,直到计算机出现数据价值才开始被人称道。

2.摩尔定律推动数据价值的提升

计算机的应用提升了数据处理的效率,摩尔定律使计算机的能力提高亿万倍才形成了社会对数据价值的重视。

3.统计数据价值的黄金期

在统计数据处理的黄金期,计算机不仅能够高效处理各种分类报表、排序等操作,还把统计数据带入统计分析阶段,统计分析软件如SPSS、SAS成为计算中心的必配软件,统计数据共享被提上日程,国家统计局对外宣称统计数据是一个巨大金矿。

4.数据库存储了数据间的关系

统计数据处理是一项工程并不是一项服务,用户必须有数据处理的能力才能使用统计数据,这使应用很难推广,数据库的发明解决了这一难题。数据库按照用户使用的方便对数据进行重组,不仅存储数据更存储数据之间的关系,用户关注的信息不仅体现在数值之中还体现在关系之中,数据间关系的存储极大提升了数据库使用的灵活性,使数据库备受欢迎。

三、互联网对数据价值的影响

互联网推动全球的数据共享,降低数据发布与数据服务的成本并把竞争带入到数据服务领域,降低了数据信息服务的价格。

1.管理信息系统与商用数据库

数据库提供的服务比统计数据处理更方便更有针对性,数据库公司把这种新型服务定义为信息服务,提出信息共享口号来推广数据库的应用,数据库最成功的应用有两类:一类是管理信息系统,该系统是利用数据库与局域网技术设计的专用业务管理系统,典型的例子是企业管理ERP系统;另一类是与广域网相结合形成的商用数据库的公开服务并大赚其钱,成为当时的明星产业。

2.互联网终结了商用数据库的辉煌

新技术不断推出新一代明星且终结了老一代明星。九十年代末互联网开始在全球大规模推广,此后再没有商业数据库明星出现了,被互联网企业明星取而代之,通用的互联网模式淘汰了商业数据库的专用网模式,使缺乏专用网壁垒保护的商用数据库深陷廉价信息的竞争之中,商业数据库的数据质量并没有降低,但是互联网竞争环境却使其收益大大降低了。

3.数据共享开创免费信息时代

互联网的最大贡献是推动了全球的数据共享,数据的发布成本几乎降为零,加上信息复制早已接近零成本,必然带来网上数据泛滥,必然带来信息服务价值下降,互联网开创了免费信息时代,越来越多的外部信息服务的竞争使政府内部信息服务的价值也下降了。

四、关于政府大数据应用

按照统计数据应用思路,以获取信息为目标的大规模数据应用才属于大数据应用;政府精细化管理所使用的传统业务数据不属于大数据应用。

1.大数据应用价值的出现

互联网推动网上数据流量大爆发,互联网巨头公司积累了超大规模的数据,开发出能够处理超大规模数据的软件工具,公司可以利用自己的大数据资源向社会提供服务。典型的例子如谷歌流感预测、阿里的市场预测等,大数据成为专有名词被用来推广这种应用及销售相关软件。

2.大数据对统计数据理念的冲击

英国人迈尔-舍恩伯格与库克耶合著的《大数据时代》对大数据的应用特点做了精辟的概括,认为大数据应用带来三大观念转变:

1.以全体数据替代随机样本;

2.强调数据规模允许数据不精确;

3.重视相关关系不追求因果关系。

大数据新观念提升了应用的效果,使之成为发现新规律新知识的重要工具。

3.相关关系对因果关系的挑战

大数据只重视相关关系的理念是对因果关系文化的挑战,原因之一是因果关系超出了大数据分析的范围;原因之二是工作改进依赖的是事实,并非都需要用因果关系来解释。机器翻译主要靠概率推算而不是语法推理,统计质量管理也是依赖数据相关关系改进质量而不依赖因果关系解释。

4.大数据分析决策的局限性

大数据分析有许多成功案例也有先天的弱点,首先是合适的大数据资源非常稀少不容易碰到;其次是大数据资源涉及的领域非常狭窄(大规模数据只能产生于专业化领域),数据量大并不意味所反映的信息就全面,大数据适合狭窄领域的决策而不适合政府的宏观决策。

五、政府精细化管理使用的数据

政府精细化管理目的是提高业务操作的效率,关注的是业务数据精准化与整体化,数据整合的任务就是把分散的管理数据组织成便于统一调用的系统,提升整体的驾驭能力。对政府业务数据的整合是数字政府的基础工作。

1.政府业务管理是数据的精准使用模式

政府使用数据通常有两种模式,一种是信息获取模式,该模式是对数据分析加工提取信息供领导层决策使用;另一种是管理操作型数据使用模式,该模式是系统直接利用数据进行操作,这是数据的精准使用模式,是面向政府业务管理操作应用,这种模式管理的是政府业务部门使用的工作数据,数据是不可替代的,这类数据的精准管理是政府精细化管理的基础。

2.数据整合的目的是实现政府数据整体化

政府数据的收集是分部门完成的,分散收集的数据必须组织成整体才能提升管理能力。这次疫情健康码的整合就是一个成功的例子,当事人的交通信息、进出商场、小区、医院等记录都通过身份证号码集中起来形成个人健康码记录,在疫情防护中发挥出重要作用。数据整合的任务是把分散的数据有效组织起来产生出数据的整体价值,业务数据跨部门调用的流畅性是政府数据整体化的标准。

3.实现数据逻辑统一是各部门的共同任务

数据的整体化效果来自跨部门数据调用的流畅性,影响数据调用流畅性的因素主要是逻辑障碍(数据名称、标准、计量单位、统计时间不一致等),实现各部门数据在逻辑上统一是数据整合的基础工作,它不是信息技术人员能完成的,它是领导层与各级工作人员的共同任务。

4.完善数据的质量维护机制

政府精细化管理依赖的是数据的精准处理,数据必须要准确,完善的数据质量维护机制必不可少,出现数据差错必须能立即追责及时修改,反馈修改机制的流畅是数据质量的保证。为方便数据共享,有些数据机构想把各部门数据集中统一管理,但是要考虑到数据质量维护责任不容易集中,考虑到牺牲数据质量维护的流畅性是否划算。

5.建立支持基层数据应用的数据服务

政府精细化管理主要实施者是基层工作人员,将整合好的数据送到基层是提高工作效率的关键,目前这项工作碰到的障碍还很多,从终端设施数据资源到管理手段都不连贯,必须建立完整的服务链才能达到数据服务向基层倾斜的效果。

六、网络数据服务引领数据价值革命

网络数据服务的重要贡献是把技术、网络、服务资源和用户群组合成大规模的社会服务云,利用动态化、互动化、共建化模式实现数据服务的升级换代。

1.公众最有获得感的数据服务系统

电子商务、手机支付、地理导航、网上查询等是公众最称道的系统,这些最有获得感的应用几乎都是大型网络数据服务系统,很多大数据分析的数据都是这些网络服务的数据副产品,产生大数据资源的主流业务(搜索、电子商务等)都要列入大数据业务,这些主流业务是大数据业务的真正支柱。

2.联网大数据服务构造了强大的服务云

规模是构成数据服务价值的核心因素,联网大数据服务创造了巨大的服务规模,形成了完整的产业链,包含云计算、互联网、数据资源、用户终端及大量的应用软件,构建了完整的服务体系,把众多服务资源供应方和用户群组织成完整的服务云,实现了大规模的社会服务,数据服务的价值因规模的膨胀而升级,这种模式已成为智慧城市网络服务的大方向。

3.动态数据让网络联机服务能力升级

使用动态实时的数据大大提升了系统服务的层次,对比联机与脱机的地理导航明显看出两者的服务档次不同,脱机的地理导航根本不知道车开到哪里,不知道路况的变化,无法绕过拥堵路段无法另选行车路线,实时在线服务则完全克服了这些障碍,实现了服务的全面升级,云计算与互联网的结合是推动实时服务的技术支柱。

七、数据价值理念小结

数据应用的价值是一个复杂的问题,本文从四个视角小结:

1.环境价值视角

数据的价值并不是数据自身的属性,它是数据与应用环境互动状态的缩影,数据没有与生俱来的使用价值,数据的价值与用户的应用目标及使用能力有关,能帮助目标实现的数据才有价值,用户能力不足即使有用的数据也会变得无用。环境价值论提醒我们,数据的价值受服务规模制约,规模越大效益越好,在大城市很成功的应用在中小城市却会亏本,数据应用必须要因地制宜。

2.操作价值视角

业务数据作为一种记忆工具其使用目的并不都是要提取信息,数据更多的应用场合是直接改进管理操作,使其更精准更有效率,政府精细化管理的核心任务是提高操作效率,这是基层工作改进的主要内容。

政府业务管理的数据是业务处理的记忆数据,是不可替代的,它没有交换价值只有使用价值,数据处理的速度是提高数据价值的关键,政府管理数据的价值取决于数据整体调用的精准与流畅,这是政府数据整合的主要目标。

3.信息价值视角

政府数据的另一个应用是提取信息改进决策。这种应用关注的是信息而非数据本身,数据不需要精准,数据源是可替代的,重要的是能够挖掘出有用的信息。数据分析产生的信息成果是供人脑使用,最后的决策还是由人脑完成。由于这种数据的可替代性,其价值必然受到市场竞争的冲击,网上数据泛滥使数据的价值不断下降,大数据应用提升了政府信息获取能力,并不意味着大数据分析无所不能,大数据涉及的范围太窄,只适合微观问题的决策而不适合政府的宏观决策。

4.规模价值视角

数据服务的价值与服务规模密切相关,公众的获得感要靠服务规模来支撑,扩大规模的关键措施是采取网络连机服务的模式,影响力最大的数据服务如手机支付、电子商务、地理导航等都是网络联机数据服务模式。网络联机服务是一个资源全面整合强有力的平台,能够将云计算人工智能等技术、数据与服务资源与网络用户群共同组织成为大规模的实时服务云,推动数据服务价值大幅度升级,这种大规模的网络服务云是智慧城市大数据应用的支柱。


胡小明 2020/6/28



进入 胡小明 的专栏     进入专题: 数据价值   大数据  

本文责编:frank
发信站:爱思想(https://www.aisixiang.com)
栏目: 科学 > 科学评论
本文链接:https://www.aisixiang.com/data/121884.html
文章来源:爱思想首发,转载请注明出处(https://www.aisixiang.com)。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2024 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统