Advertisement
Advertisement Advertisement
当前位置:
大数据理论中的三个基本思想:我的看法
回复 | 人气 | 打印
gchui 个人主页 给TA发消息 加TA为好友 发表于:2017-03-09 16:22:09 楼主

1、是全体样本,不是随机取样

 

我经常谈到这样一个观点:并非所有不确定性都适合用概率来描述。适合概率描述的事件,首先应该满足发生频度稳定的前提。因为这个原因,统计方法常常被滥用。

 

“从宝钢到浦东机场要花多长时间?” 这个问题本身就有点问题的。不仅是因为这段路上花的时间是不确定的,而且不适合用“概率分布”来描述:出行方式不同、选择的线路不同、时间和季节不同、气情况不同,时间会相差很多倍:可能是40分钟左右,也可能是10个小时左右。上午下午、今天明天的平均时间都会相差很远。当然,你可以用手头的数据硬算一个“期望值”,但这个值与你选择的数据有关——如果数据多而不具有代表性(比如都是工作日的统计),也没多大意思。

 

在大数据的背景下,就没有这么多头疼的问题了。有了全体样本的数据,你就有条件去判断:在哪些要素区间内,时间分布大体是稳定的。这样,就可能得到靠谱的结论。

 

2、是混杂性,不是精确性

 

在我看来,混杂性就是从各个不同方面得到相对独立性的信息。混杂的信息多了,问题就容易分析清楚了。

 

比如,如果某个人是“浙大博士”、“宝钢首席”、“山东人士”......等几个方面的信息,就很容易聚焦到本人的身上。尽管这些信息不需要特别精确:什么专业的博士?那年毕业的?导师是谁? 山东什么地方?

 

混杂就是独立性强。如果把上述信息换成“山东人士”、“济南人士”、“历城出生”.......三个条件并起来的人就多了。因为这三个条件不是独立的。


20多年前,我在硕士论文中就意识到这个问题了。可惜没有研究下去。

 

3、是相关关系,不是因果关系

 

和因果性相比,相关是一种较弱的关系。强调这一点的原因是:人们几乎不能单纯通过数据得到很强的因果关系。所以,强调相关非因果,意味着提醒大家:不要像“发明永动机”那样,做些做不到的事情、白白浪费时间。

 

然而,强调不搞永动机不能,并非意味着不能发明高效率的动力机械。我认为:搞大数据的分析人,当然要追求尽可能可靠的结果。如果仅仅止步于简单的相关性,岂不和算命先生差不多了? 我讲工业大数据的时候,强调:找更多证据、找更多独立的证据、数据证据与机理的结合、构造完整的证据链,就是要设法让分析结果逼近“因果性”。

 

抽象地看,自然科学都可以看成统计分析的结果,都没有绝对的因果。所以,理解“相关关系,不是因果关系”的要点,是要把握火候。既不能过于强调因果,让研究走火入魔;也不能只强调相关,随便给出分析结论。


  来源微信号 蝈蝈创新杂谈

  作者:郭朝晖

  该作品已获作者授权,未经许可,禁止任何个人及第三方转载。


收藏 回复 举报
Advertisement
wayaj 个人主页 给TA发消息 加TA为好友 发表于:2017-03-09 17:14:37 1楼
 

理论

理论

理论

  回复引用举报
sea 个人主页 给TA发消息 加TA为好友 发表于:2017-03-16 09:22:18 2楼
 

很有启发,感谢分享!!!

  回复引用举报

Advertisement