“不管数据有多大,人类很重要的目标还是要把隐藏在关联背后的因果关系找出来。”8月14日,2014夏季腾讯思享会“中国说”在北京正院公馆举办。其中主题为“大数据与社会变革”论坛版块由信息社会研究所所长王俊秀主持,邀请了电子科技大学大数据研究中心主任周涛、中国互联网发展重要的参与者谢文、数托邦创始人杨玥和著名社会学学者于建嵘跨界碰撞。作为舍恩伯格的《大数据时代》一书的译者,周涛在该环节第一个发言,他首先呼应主题演讲嘉宾刘德寰提出的“大数据可能变成大忽悠”的问题,指出大数据分析的核心问题是要在关联背后找到因果,“如果放弃了对因果的追求,就是放弃了人凌驾计算机之上的智力优势,是人类自身的放纵和堕落。”随后,他强调了大数据背后的大机会,以两个例子,介绍了大数据在社会学中的应用可以帮助反腐,而数据的集成共享则会促进众多商业的创新创业。以下为周涛发言实录:
嘉宾主持王俊秀:下面我们长话短说,有请电子科技大学大数据研究中心主任、也是舍恩伯格《大数据时代》一书的译者周涛先生,首先,我想就刚才刘德寰教授谈到的一个观点,先让周涛给我们讲一下他眼中的大数据,以及大数据现在在全球发展到什么阶段,给我们简单普及一下。
周涛(电子科技大学大数据研究中心主任、教授,《大数据时代》一书译者):非常高兴有机会和大家交流。首先,就刚才刘德寰老师提到的观点,刘老师讲不管是大忽悠、大风险还是关于抽样,关于因果,核心问题我们到底找因果还是找关联?我觉得我们可以从两个层面看这个问题。一个是从技术层面,我们的确需要找到因果,因为关联有的可能是假的关联,有的关联没有因果在背后是不能发现的。
举个简单例子,比如我们有很多运营商的数据,一个人上飞机起飞前和下飞机落地的时候打的几个电话,发的几个短信可能是特别重要的,但如果你没有人类的这些知识在里面,就很难从海量数据中发现这个关联关系。
第二,今天汪建老师也来了,是我们科大的老师,我学理论物理时,他就是我们的老师,我们在测量很多东西,比如测量基本粒子,和基因一样,都是一次实验产生巨大的数字,如果我们只是测量基本粒子的生命周期,它双向的周期和速度之间的关系,我们发现很多规律能找到一些关联,速度越快的话的越长,但光有这个关联对物理来说没有太大价值。只有有了相对论,有了因果上的原理,有了这个关联来解释和印证这个原理,它才显得特别重要。
实际上,如果几位老师站在哲学的角度,人类作为一个物种,一方面有形而下的需求,物质上的满足,主要获得健康和安全。另外他有更大的形而上的需求,精神上的需求。我们这个物种存在的价值是什么?人和神之间的区别有多远?找到这种因果关系是拉近了人和神的关系。我想大数据时代,不管数据有多大,我们人类很重要的目标还是要把隐藏在背后的因果关系找出来。如果放弃了对因果的追求,就是放弃了人凌驾计算机之上的智力优势,是人类自身的放纵和堕落。
俊秀老师让我普及一下,刚才很多老师讲了很多宏观的大方向,我是做技术的,我简单举两个例子给大家看一下大数据是怎么运用的,算是一个非概念性的普及。
大数据实际运用的第一件事儿,是我们通过分析数据获得一些价值。其中很大一部分,如刚才吴思老师所讲可以用到社会学。比如通过数据轨迹的分析,实际上可以帮助反腐的。因为通过GPS的定位和围栏技术能够对很多场所进行定位。比如今天我们在场所,当然还有比这更高级的场所,我们可以知道一个手机是不是经常进出这个会所,通过他的银行账号关联,知道他是不是经常购买奢侈品。还有医保,我们通过对大量的电子病例和医保单的详细分析,可以找出哪些药店搭售,也可以找出哪些诊室、医院,哪些具体的医生存在过度医疗或者做一些不正当的检测,包括知悉每种药物在医院不同病种的使用,找出哪个病种在这个医院不同检测和不同用药的分布,这样就能自动的帮助医保机构,节省医保基金,促进医疗资源的公平、公开的优化配置,这就是典型的通过数据分析、模式识别,异常检测的方式挖掘大数据的价值,解决一些社会问题,这只是一个初级阶段。
大数据应用更高级的阶段,实际上是来自于数据的集成共享,把集成和共享作为一种商业模式,促进全中国大数据的创新创业。我也举一个例子,我们和电力集团在做件什么好玩的事情呢?我们把大量人员的数据集中起来,这只是一个起点,为什么做这个事情呢?因为中国在全世界150个国家和地区做一些资源调配,我们需要通过大量的遥感和本地的勘探数据了解哪些国家的能源是供大于求,哪些国家是求大于供,这样我们可以做一些更好的资源调配。这就积累了大量的大数据,并且这个数据我们可以开放给中国两百多家单位,所以,不仅是我们自己,满足国家的需要,同时我们把数据接口开放出去。
有了这个一个数据还不够,我们还做什么?我们通过与气象局合作拿到一些气象数据就知道这个地方短期日照怎么样,风能怎么样,降雨怎么样,利用这个数据再和电力集团一起合作,我们就能实现这些能源短期的预测,能够把真正的风能、太阳能、水能这些能源负载平衡,放进电网中来,这样带来的价值也是千亿万亿的价值。
我们为了搞清楚能源,包括有色金属矿藏的分布,以前能源局下面电力集团没有这么好的数据,但中国基础信息和国家信息中心有更好的数据,通过十几颗遥感卫星把有色金属矿藏、水稻的分布都做得很好,又可以把这个数据合作起来,提供给电建和电力集团,来做矿藏和能源方面的思考。这些数据有一部分在短期内未来一两年内就可以看到,相关部分会开放给普通的民众,促进全中国大数据的创新、创业的生产。
最后,我想说一点,我同意刘德寰老师的观点,大数据里带有大的风险,恰如任何一个宏大概念背后有一些不怀好意的投资人一样,但是这样的大概念背后也必然有大机会,只要我们找准路子,大数据还是一个很有前途的方向。