胡小明:概念混乱影响大数据中心生存

选择字号:   本文共阅读 1222 次 更新时间:2018-09-03 15:56

进入专题: 大数据  

胡小明 (进入专栏)  


一、大数据概念混乱的由来

1.大数据热使人来不及思考

在政府有关部门的推动下,迅速到来大数据中心建设热席卷全国,人们来不及考虑大数据究竟能干什么,急忙成立大数据中心就是重视大数据应用的标志,对大数据应用的学习反而不重要了,缺乏认真思考成立的大数据中心必然会埋下可持续生存的麻烦。

2.政府所有数据业务都归入大数据

国家对大数据应用的支持对许多政府部门有很大的吸引力,为了得到更多的支持,一些政府官员有意无意地篡改了大数据的定义,将政府的所有数据都视为大数据,迅速成立的大数据局立即接管了全部数据的管理权,于是大数据与常规数据的界限被模糊了,大数据从"现有技术不能处理规模的数据"演变为"许多数据",而大数据带来的概念突破也因大数据定义的模糊化而不适用了。

3.概念混乱影响大数据中心的定位

大数据带来的三大突破:不用抽样数据用全部数据、不在意数据的模糊性、关注相关关系不在意因果关系,对修改后的大数据定义已经丧失了其存在理由,将政府全部数据都归入大数据范畴的结果是否定了大数据应用带来的全部创新,因为修改后的大数据概念等于原来的政府数据概念,这种基本定义的修改不仅排斥了大数据应用理念的应用可能性,而且对原有的常规数据处理的概念也受到冲击,数据中心更名为大数据中心对未来方向有何影响已经搞不清了。


二、大数据幻觉干扰数据中心

1.大数据统计应用新理念用不上

政府的数据应用通常分为两类,一类是数据处理,是对业务数据的精确使用,是具体办事;另一类是统计处理,是对全部数据的模糊使用,是挖掘信息;在《大数据时代》一书所讨论的大数据特点都是与传统的统计处理方法对比的,目前政府使用的数据都还处于小数据的状态,大规模的数据带来的三大突破:不用抽样数据用全部数据、不在意数据的模糊性、关注相关关系不在意因果关系,与政府的数据应用完全不相干。

2.过度宣传形成了大数据应用幻觉

过度宣传的大数据应用对政府的数据应用理念并没有什么提升,因为政府的数据应用并没有进入大数据应用的环境,政府的数据应用还处于常规数据规模(小数据)的环境,然而过度大数据宣传形成的幻觉却是存在着的,人们以为新技术可以收集到任何事情的全部数据,以为只要有了全部数据就可以实现科学的决策,如果能够实现科学决策就意味着能够建立城市大脑管理着城市的运行,这种大数据应用乌托邦已经流传很广,现在还被用于捞取政府的巨额投资。

3.获取全部数据是不可能的

大数据的获取并非没有代价,大数据是利用流程化业务生成的数据,这种业务本身就是有限的,不可能有太多的流程化业务,流程化业务的建设成本很高,不可能为了获取某种信息而专门设计大数据获取流程,面对要解决的问题,大数据资源是始终稀缺的。对于信息的聚集需要付出代价的,这种代价就是注意力,机构只能对少数目标集中注意力,而忽略其它方面,没有忽略就没有认识,大数据中心的数据收集也必须突出重点,汇聚信息并不是轻而易举之事。

4.大数据中心怎样迷失了方向

大数据幻觉对大数据中心的发展方向产生了很大的误导,首先收集城市全部的大数据资源本身就是不可能之事,对于政府城市治理而言,大数据始终是十分稀疏的,适用的大数据资源总是可用不可求,因此利用大数据资源就能科学决策是不现实的,更何况决策需要的许多信息都无法数字化,由计算机系统自动化处理只能是不切实际的幻想。


三、数据处理业务被忽视

1.业务数据处理的重要性被忽视

政府数据业务有两类,一类是对具体数据的精确处理,另一类是对数据集的统计处理(数据挖掘),大数据理念只与后一类应用相关,显然第一类应用被忽视了,而第一类应用恰恰是最重要的。

业务数据处理是政府日常业务中最重要的工作,政府通过这些业务实现对公众的各项服务与对城市的治理,公众对政府的满意度均由这些业务的效率来评价,公众的获得感直接来自这些服务的改进。大数据的片面宣传冲击了业务数据处理效率的改进,而这恰恰是当前电子政务改进的重点。

2.公共服务是对数据的精准处理

公共服务是对具体数据的精确处理,是用数据办事,是在数据层次上的操作,它与信息提取是完全不同的模式,而很多关于大数据的讨论并没有区分两种模式,以至于公共服务的数据应用模式被忽略了。很多大数据中心只考虑数据的统计应用模式,只想着如何数据挖掘,如何给政府提建议,而把如何提高公共服务的效率丢在脑后。

3.提高公共服务的效率最重要

在电子政务服务中,提高公共服务的效率最重要,国家强调"一号、一窗、一网"的服务及浙江省提出的"只跑一次"的口号都说明了提高公共服务效率的重要性,它比大数据改进决策更重要,我们不能让大数据的宣传冲击公共服务效率提高这一重要的任务。


四、认识数据应用两个层次

1.数据应用两种模式、两个层次不能混淆

本文反复强调政府数据应用的两种模式、两个层次,两种应用模式的混淆是很多工作缺乏效率的重要原因。在信息共享的讨论中,区分数据共享与信息共享是必要的,数据共享是业务系统与业务系统之间的数据合作,是流程型业务行为,而在决策研究业务中,研究者提出的是信息共享,是出于获取信息的目的,业务流程的数据共享追求的是效率,决策研究的信息共享追求的是更多信息,前者是系统对系统合作,后者是研究者个人对整个信息资源的有效利用,两种应用模式不一样,分属于不同的层次。

2.数据层次的业务特点

数据层次的应用是对具体数据的精确使用,是对数据的直接操作,政府的大部分具体办事业务都是这种模式,这种业务对数据的处理是规范的、流程化的,操作人员必须按既定的规则处理,个人没有自由量裁权,这样才能保持处理结果的一致性,才能形成大规模的业务。

3.信息层次的业务特点

信息层次的数据使用是为了获取数据集中包含的信息,并不关心每个具体数据的精准性,为了获取数据集整体包含的信息需要对整体数据进行统计分析处理,从大规模数据中提取信息也被称为数据挖掘,挖掘出来的信息供决策研究等应用。这是对数据的信息层次上的使用,从数据中提取信息是不确定性的,同样的数据不同的视角会得到不同的信息,利用这些信息再去分析决策又有更多不确定性,这是与数据层次业务的确定性极不相同的地方。

4.不同层次的应用效益

两种不同的数据应用模式其效益特点也大不相同,在政府业务数据处理模式中,业务本身是确定性的,这种业务的效益是业务的设计者事先设计好的,业务的执行者只需要按规定的流程办事,可以不必考虑效益问题,这种业务的效益也是确定性的。

在信息层次的数据应用中,效益问题有着很大的不确定性,从数据集中挖掘信息本身就有不确定性,不同的视角看到的问题是不一样的,利用同样的信息进行决策思考时结论也是不一样的,这种不确定性使得效益得不到保证。


五、两大方向不可得兼

1.确定性问题与不确定性问题的成功率

确定性问题有明确的效益标准,这种标准能引导执行中的反馈改进,因此确定性项目是容易成功的。政府的重要业务效益在系统设计时都已经设计好了,信息技术人员的工作主要是保证业务的可靠运行,这种业务的成功率是很高的。

不确定性问题的效益问题也是不确定的,因为其并没有明确的答案,对其评价不是对与错的问题,而是好与不够好的问题,而这是一个价值观的问题,不同人有不同的标准,在没有执行之前,很难判断什么是更好的方案,而且方案能否执行都不能确定,不确定性问题的效益很难估算,其成功率普遍很低。

2.大脑型业务与城市小脑型业务

现在很多城市都在规划城市大脑,城市大脑经常由大数据中心与城市运行管理中心构成,如何确定城市大脑的常规业务是一个关键问题,城市大脑一定要有效益,必须要选择可持续的业务,业务本身的确定性非常重要。

城市大脑必须要以确定性业务为主,而不能以不确定性业务为主,确定性的业务是数据层次上的业务,是对数据的直接处理,在整个流程中没有人脑的参与,自动化处理流程,以保证处理的高效率。这种规范化、流程化业务更像是小脑型业务,而不是大脑型业务。

大脑型业务是指在信息层次上的业务,经常用于支持决策,业务是不确定性的,同样的数据分析不同人提取的信息是不一样,每个人的知识背景不一样,阅历、经验、能力不一样,产生的建议也不一样,决策的创造性更不一样,这样的数据应用主要依靠的是人脑,这类业务才是大脑型业务。

城市大脑实际上是不适合做大脑型业务的,从实效出发城市大脑应当以小脑型业务为主,节约人的精力,以便从事更有创造性的工作。

3.系统性业务、专家型业务的规模效应

大数据服务的规模决定着影响力,大数据中心要能够在城市中有影响力,服务的规模不能小,服务规模与业务的性质密切相关,政府公共服务是系统性、流程型的业务,能够形成较大的规模,规模大了社会才会有获得感。

专家型业务更多依赖于专家的头脑,其不确定性很强,很难形成规模,而且专家也是一种稀缺资源,政府的决策分析研究工作很难形成规模,对社会也不容易产生太多的影响力。

4.实事求是的定位才能保长久生存

政府大数据中心必须根据自己的实际情况来确定自己的定位,定位是影响长远的决策,定位错了大数据中心很难翻身。如果机构的背景不是拥有许多经济学、管理学专家的话,还是要定位到以小脑型因为为中心的服务机构上,改善为公众的服务,让社会看到公共服务效率的提高,回产生更多的获得感,效益明确一分,大数据中心的可持续性就会增加一分。


六、概念清晰才能可持续生存

1.没有清晰的效益规划将麻烦不断

"人无远虑必有近忧",对于大数据中心远虑十分重要,目前很多大数据中心对未来定位并没有想好,大数据中心是在大数据热的气氛中匆忙成立的,来不及认真讨论其未来长久发展,很容易为流行观念所左右,而流行观念往往耸人听闻但并没有深刻的考虑,如果不能及时进行深入的思考,其未来的生存一定会出大问题。

2.共享交换平台为什么作用不大

在信息共享问题上我们一直缺乏深入的思考,致使投入很多但是成效不大,其原因是人们对信息共享认识很盲目,信息共享的作用被夸大了,人们信息共享的期望过高,在互联网时代,信息已经在很大程度上实现了共享,信息已经非常丰裕,这使得信息与共享的价值已经大幅度下降了,还在强调共享的重要已不合时宜,过高期望只能产生更多浪费。

在建立共享交换中心之时,没有区分业务系统的数据共享与认知过程中的信息共享也是一个重要失误,业务数据共享是规范化的业物流需要的,适合做成专用系统,而信息类共享是随机性应用,它是一个数据开放问题,以一个共享交换平台来集中两种差别很大的服务是很难高效的。

3.大数据交易中心市场并不成熟

现在我们对大数据应用尚未取得多少经验,一些地方就开始规划大数据交易中心,目前能够使用的大数据资源其实非常稀缺,而且数据的隐私保护问题远未解决,这时大数据交易很难进行,更困难的是大数据价值的评估,由于大数据的商业价值因人而言,缺乏可比性,因此交换谈判费时费力很难形成规模,没有足够的规模大数据交易中心难以生存,大数据交易市场离成熟还差得远。

4.只做效益清晰、目标明确的任务

对于大数据中心而言,重要的是如何生存下去,生存最重要的原则是要做效益清晰目标明确的任务,不要做想当然的事情,要做用户看得请的事情,用户看得请才会产生获得感,才会买账,大数据中心才有理由活下去。即使是公共服务系统没有直接的用户付费,公众的满意度也是能够转化为政府经费的支持的,如果目标犹疑,目标似是而非,那大数据中心的前景就黯淡了。

胡小明2017/2



进入 胡小明 的专栏     进入专题: 大数据  

本文责编:frank
发信站:爱思想(https://www.aisixiang.com)
栏目: 科学 > 科学评论
本文链接:https://www.aisixiang.com/data/112087.html
文章来源:作者授权爱思想发布,转载请注明出处(https://www.aisixiang.com)。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2024 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统