数据掐架,感受悬殊,数字“虚胖”之下
拿什么拯救“幸福的计算器”
在“GDP减速,幸福提速”呼声渐高的当下,对每一个数字的解读,都充满着民意 的考量,以及对政绩观的反思。 雷人的指数,孱弱的数字,其实总被利益坚冰包裹。 虚假的数字需要阳光下的暴晒,正如同毒瘤在手术台上被解剖。 反刍这背后的情愫与动力,一切源自我们对真实性的敏感,对数字的洁癖。
被随意拨弄的收视率—— 利益坚冰,阳光一晒就融化
缠绕在我们身边的种种数据谜团,必须被推上手术台来解剖。这背后的情愫与动力,源自我们对真实性的敏感,对数字的洁癖。
8月4日,伦敦奥运会赛场,多国羽毛球选手的“假球风波”尚未平息。就在这一天,万里之外的中国,多家门户网站分别以《当事人实述收视率黑幕:希望司法介入》和《收视率黑幕当事人:5000万买前十,可定地区》为题,在版面醒目位置推出了揭露收视率黑幕的报道。
中视丰德影视版权有限公司董事长王建锋8月1日在其微博上爆出一个惊人内幕:“自从我们与新疆卫视合作‘热播剧场’后,就不断有电视研究机构要与我们合作以推广费换取收视率,而且免费让你看到只要交钱就可以轻而易举地获得至少全国收视率前10强的数据。”
自2010年《人民日报》带头揭露收视率数据作假后,有关“收视率数据存在重大问题”的声音一直在业界流传。“当事人王建锋讲述收视率可以花钱买高的黑幕,希望司法介入。早该介入了!”央视名嘴崔永元对此事的鲜明观点,再次触及我们对身边数据造假的憎恶感和所能承受的心理底线。
从各种见诸报端的数据,我们可以清晰地构筑起事件的发展脉络——内地电视台的收入70%以上来源于广告,而整个电视行业将近一千亿元的广告投放则主要依据收视率。面对巨额的广告诱惑,相对于竞争激烈的电视创新和靠内容来争取高收视率,“做收视率”成为一种迅速上位的快捷方式。
从来不题字的国务院前总理朱镕基,曾破例给国家会计学院题过词——“不做假账”。这就是对底线的重申。被随意拨弄的收视率,不经意间成为了利益天平上最温顺的那个砝码。禁锢真实并触碰了底线的利益坚冰,其实最害怕阳光下的暴晒。诸如收视率这样缠绕在我们身边的种种数据谜团,必须被推上手术台来解剖。这背后的情愫与动力,源自我们对真实性的敏感,对数字的洁癖。
指数与政绩相拥—— 虚荣之下,难断的灰色链条
在“GDP减速,幸福提速”呼声渐高的当下,对每一个数字的解读,都充满着民意的考量,以及对政绩观的反思。
在发达国家,哪个统计数据应该由哪个部门完成和发布,有着极为明确的规定,其他部门不能超越职权范围发布统计数据。但在国内我们却看到,统计局、住建部、发改委、房管局、国土局等等部门,似乎都可以发布有关房价的统计数据,这种状况导致有关部门争抢统计话语权。
多年前,国家统计局、北京市建委先后发布了北京房价指标,同一个城市,同一时段,国家统计局显示北京房价上涨7.3%,而北京市统计显示涨幅为17.3%。这样的情况也曾在广州发生,国家发改委和广州市针对房价得出了一涨一跌完全不同的结果。业内人士指出,差距如此之大,不仅在于统计方法和计算方式不同,更与部门利益密切相关,各个部门都希望自己提供的统计数据成为决策的参照,以引导有利于自己的政策出台。谈及指数“重灾区”,GDP是道绕不过的坎。而不出乎公众意料的是,今年一季度各地GDP汇总之和再次高出国家统计局公布的全国数据。根据国家统计局数据,一季度全国GDP总量为10.80万亿元,而据中国经济网记者汇总各地数据得出的结果是11.28万亿元,两者相差4800亿元。
行政干预导致某些地方存在数据虚高现象。多年前,我们已经看到,在“唯GDP”的国情里,虚荣之下,难断的灰色链条。而在“GDP减速,幸福提速”呼声渐高的当下,对每一个数字的解读,都充满着民意的考量,以及对政绩观的反思。
种类繁杂的“中国式数据”,依旧大多出自各类行政色彩浓厚的部门。透过表面虚荣,公众已踏上寻找幸福之路。而抛给数字制造者们的问题是,曾经孱弱的数字,又该怎样如履薄冰地走过?
数据掐架,感受悬殊—— 统计呼唤回归科学本位
“普查工作者并非居心叵测之徒,但并非所有的数据都产生于良好的环境,也并不是所有的数据都会附有对精确度的说明。”
2011年8月,铁道部网站发布消息称,截至当年7月31日,京沪高铁运营一个月以来,共开行动车组列车5542列,日均179列;运送旅客525.9万人,日均17万人,平均上座率107%。
网友“JungleGym”发微博称,每次坐高铁(次数不下50次)都有空座,沪宁高铁也是周末高峰时段才会满员。“我从未见过车厢里有站的乘客,不知107%数据从何而来?”
网友“来看看123”说,“看到这个消息着实让我吃惊,不知道这个平均上座率是如何计算的?我在7月26日乘坐G124次列车时,二等座车厢里最多不会超过30%的座位上有人坐,一等座人更少,商务座只有3个座位有人。”
湖北省统计局副局长叶青认为,铁道部高铁上座率算法有问题,其中有水分,不客观。从经济角度来讲,其上座率与票款收入也不对称。同样,也会让乘客产生误解。“107%的上座率听上去挺唬人,但是实际上没那么多人。”
“普查工作者并非居心叵测之徒,但并非所有的数据都产生于良好的环境,也并不是所有的数据都会附有对精确度的说明。”这句话出自1954年出版的美国统计学家达菜尔·哈夫的名著《统计陷阱》。
将近六十年前出版的这本类似画册的教科书,有必要再拿来让数据的“制造者”们重新温习一遍。因为在“指数化时代”里,我们依旧在雾里看花。
1.5%VS25%。这是2010年3月,国家统计局和国土资源部在房价涨幅上的数据“掐架”。媒体评论员王攀曾对此解读,任由数据打架最终会伤及统计部门的公信力。特别是在中国,统计还是一项权力,现实中存在着统计数据为政绩服务——“数字出官、官出数字”。统计部门应当及时调整统计方法,而不是像有些地方统计官员所说的“目前统计体系是完美的,数据是真实可靠的”那样,仍旧固守着目前备受质疑的统计体系。统计数据的误差和扭曲,也并非一个概念。
北京工商大学经济研究中心主任周清杰认为,指数发布的成熟和科学化需要多方努力,包括发布机构的运作更加规范,专业能力不断提升;机构之间形成良性竞争,优胜劣汰;媒体更加理性,真正有自己的判断,不跟风、不炒作、不曲解;政府加大官方相关数据发布的范围,提升公信力。他还建议对指数发布采取一些“硬约束”,如相关行业主管部门、监管机构制定一些规则,规范相关指数的发布;建立、健全相关行业协会和执业资格制度,提高行业门槛等。
一语点破
你所不知的 统计奥妙
在国家统计局调查样本中,自有住房户比重超过80%,极易给人造成全国80%的人有房住的幻觉。但事实上,“自有住房率”原本的意义是有多大比例的房子是私有的。按照联合国的统计资料,欧美发达和较发达国家的总自有住宅率普遍在60%至70%,中国在住房自有率上“超英赶美”,那是因为中国住房保障没有跟上,这是危机,而不是成绩。
一般在统计上关心的两种关系是因果和相关,前者例如缺水导致歉收,后者则相对复杂,比如身高越高体重相应越重,吃高脂肪食物越多,保持健康的几率越小等等。
2011年第一季度,中国GDP 同比增长为9.7%,相比上年一季度11.9%的增速有所回落,就有分析认为,这是汽车和住房市场调控产生的影响,但其实经济增速放缓与宏观调控仅仅具有相关性,而不是绝对的因果。
统计数字误导最常见来自抽样问题,首先要保证一定的样本容量。样本能很好的代表总体,避免调查受到社会倾向的影响,例如,恐怕很少有人愿意填写问卷承认自己歧视农民工,但实际言行显然是另一回事。
网上常见的所谓民意调查其结果是值得存疑,其原因就在于样本构成大有问题。某网站将调查放出,最可能看到这个调查的是这个网站的常客;某些话题更能引发人的兴趣,有些则只是很少的人关心。这都会导致最终参加调查的人是一个有偏的样本。结论代表了这些人群,却不能推广到全体。
要特别注意平均数这个危险概念,这类计算方法总是容易受到极端数据的影响。
回忆一下小学时老师对一个差生拉下全班平均分的愤懑表情,以及一个月收入五万的老板和五名月收入两千元的员工“合力”享受着一万元的月平均工资。研究表明,只有在处理一些呈现正态分布的形态特点的数据时,平均数才最有意义。