亲身从事过工业数据研究的人会有如下三点体会:
1、大数据研究发现的‘规律’,多数是错误的。
2、大数据研究发现的正确规律,多数是无用的。
3、大数据发现的有用规律,多数是不准确的。
郭某人这样说,不是为了夺人眼球吗。这种现象发生的背后,有规律性存在。
1、为什么多数规律是错误的。
首先,人们在工业领域研究了很多年,与经验相反的规律往往是小概率事件。如果把‘发现规律’理解为与人的认识不同,则规律的发现就往往是错误的。
其次,工业系统中多存在反馈,导致规律发生扭曲。例如,自变量x影响因变量y时,工业系统常常设计一个变量z,来抵消x变化的影响。这样一来,如果直接分析x和y的关系,可能会变成无关或者与规律相反:如果z正好抵消x ,则x与y无关;如果抵消得太多,则x与y的相关性就会发生定性的变化。这时,缺乏经验的研究人员,往往认为自己发现了新的规律。
2、为什么多数规律是无用的。
道理很简单:工厂的工程师不是白吃饭的。你能发现的规律,他往往老在就知道。
3、大数据发现的有用规律,往往是不准确的。
这是因为,大生产的数据,往往来自于个别‘工作点’附近。在一个工作点附近,信号的信噪比往往很低。这时,统计体现的规律就是被扭曲的(有兴趣的人可以研究一下最小二乘法的有偏估计问题)
以上三条,决定了大数据分析是个不容易的事情:要得到有用的结果,往往是要进行深入分析;而每一步的深入,都伴随假象和干扰。所以,缺少专业知识和数据分析能力的人,往往走不了几步就迷失了方向。最终得到的是似是而非或者基本无价值的结论。
多数情况下,要沉下心来干几年,才能培养出一个合格的数据分析工程师。高高在上的学者们,很难做好这种事;整天被效益考核搞得心神不宁的人,也做不成这事。而且,这活不是每个人都能干好的。当然,你也许很幸运,侥幸找到一个好的方向或题目。但这只能是例外,可遇而不可求。
来源 蝈蝈1968的博客
楼主最近还看过