这几年,全国人民都知道北京的空气质量很差,来北京的朋友常说自己要到帝都吸霾去。今天早上,我看着郊外远方的群山想:今天的空气不错! 其实,我来北京的这三个月,感觉空气都不错。
此前,济南和哈尔滨的朋友常说:和北京相比,我们这里的空气差远了!而前些年北京空气污染的天数,比上海还要少。数据分析师的习惯之一就是时刻提醒自己:数据会撒谎!于是,我便开始了怀疑:
一种撒谎的方式是“会哭的孩子有奶吃”,人们往往把呼声高和严重性混为一谈。北京污染的名声比济南、哈尔滨大多了,部分原因是京城的人有更多的话语权。于是,我在朋友圈发了一段话:北京的空气差,是不是因为北京的段子手和大腕太多了?很快,我的朋友圈里有了40多条回复:
l 有朋友开玩笑说:这是你人品好,到了北京空气就好了。这个观点当然是错的。从数据分析师的角度看,这是混淆相关性和因果性。
l 有朋友说:今天这个气温不足以产生雾霾。这个说法显然是片面的:因为三个月来有各种天气。
l 有朋友说:三个月的时间短,数据还没法验证你的结论。换句话说,我的观察没有对比,不足以证明 “雾霾轻”的存在性。但马上就有人说了:过去雾霾是很重,去年银杏叶黄的时候,三天有两天雾霾。这等于说“雾霾轻”确实是个事实。但一个人的观点,可能有随机性。还好有更多人说:今年的雾霾天确实少了。也就是说:感觉“雾霾轻”的观点是“大概率事件”。于是,我们可以质疑,确定这是一个事实。
l 有人说:可能是环保力度增大了吧?显然,污染治理与雾霾少是个有因果关系的猜测。这个猜测怎么来的呢?显然是根据已有领域知识得到的:而不是朋友本人通过测量实际排放和污染的关系得到的。
l “最近几个月,河北的钢铁厂减少了大量的产能”、“最近燃煤锅炉改成燃气了”。这些事实支撑了一种说法:污染排放确实大大减少了。
l “最近没有雾霾,主要是今年风大”。显然,这又是另外一种解释。在大数据分析时,往往会有不同的解释。这种解释挑战了“雾霾少是环保的结果”。
l “今年的风也不是特别大”。另一位朋友的观点,否定了“风大是雾霾少的原因”。但这个观点本身是不是靠的住呢?要严格证明,就要找到几年来刮风的历史进行对比....其实,如果这样不断地质询下去,要严格证明一个结论,要花很大的代价。
到此为止,我想用这个案例说说大数据分析的一些道理:
数据分析的过程,其实是一个不断提出假设、不断进行验证或者修订的过程。修订和验证的原因,是因为存在很多种不同的解释。但是,要用数据严格证明一个结论,是非常难的,常常需要利用领域知识。
一般来说,对结论可靠度的要求越高,验证花费的代价就越大、要做的分析内容就越多。所以,数据分析工作往往只能适可而止。有人强调大数据分析是“关注相关非因果”,本质上就是要注意分析过程的代价、不要钻牛角尖。
而我们强调的却是:工业大数据不同于商业大数据,要“重视因果”。这个观点看似相反,本质上是说:工业对数据分析的可靠度要求高、论证结论时花的代价要适度大一些。事实上,用大数据分析的方法,永远得不到100%可靠的证明。所以,大数据分析一定是适可而止,只是止步的程度不一样。
来源:微信号 蝈蝈创新随笔
作者:郭朝晖
该作品已获作者授权,未经许可,禁止任何个人及第三方转载。
楼主最近还看过