当前位置:
工业大数据分析为什么不能只看相关性
回复 | 人气 | 打印
gchui 个人主页 给TA发消息 加TA为好友 发表于:2019-10-08 10:02:42 楼主

有人认为,大数据分析的核心思想之一是“是相关不是因果”。我则一直强调:这个观点不适合工业大数据分析。仅看相关性,往往会进入误区。下面谈几种现象和原因。

 

l数据分析结果呈现明显相关性的,工业人往往很早就知道;偶尔有一些“发现”是工业人不知道的:却往往是无用的。


导致这种现象的本质原因是:优秀的技术人员对生产过程和对象理解很深。所以,你发现的真正的“相关性”他往往是知道的。反之,他不知道的相关性,往往是没有因果关系的相关。比如,“统计数据表明:穿大鞋子的人智商高”——导致这种相关的原因是:有人统计了018岁的未成年人。在这些人中,年龄大的智商高、穿的鞋子也大。


现实中重要的因素,数据上可能没有相关性。


导致这种现象的原因很多。

第一个原因是范围限制。比如,如果人们知道某个工艺参数(X)对产品性能(Y)影响很大,就会试图控制X、让它基本保持稳定、让X的变化范围非常小。这时,工艺参数和产品性能的相关性就会非常小。

第二原因是X就设定在最优点附近。这意味着X变大或者变小都会让性能Y变差。于是,两者的相关系数接近于0.

第三个原因就是系统性干扰。工业对象往往是个系统。当一个参数X1的变化影响性能Y时,人们就可能会找一个变量X2来抵消这种波动。这时,X1X2都对Y产生影响,但相关系数都接近于0。例如,阀门作为保证流量稳定的控制手段时,管道堵塞会引起阀门开度增大。在管道堵塞不断加重的过程中,阀门开度持续变大、但流量基本不变。故而从数据上看,阀门与流量几乎不存在相关性。


分析结果符合预期,也未必能给出正确的指导。


假如两个变量XY存在显著的相关性,也确实存在线性关系。比如,通过回归,得到两者的关系是Y=K*X。但如果人们真的把X增加1Y一般不会增加K。特别是:当数据来自于某个工作点附近的时候。这时,自变量的检测误差往往不可忽视,从而导致“有偏估计”,应用时误差大。

 

懂得数据分析的人,首先要知道数据会骗人。如果这些常见的问题都不知道,会白白浪费大量的时间、还会影响自己的信誉。


数据分析的目的是为了获得新知识。如果知识不是新的,就没有价值。但新知识是相对“已有知识”而言的。由于工程师对生产过程和对象的理解,往往超出销售人员对市场的理解:工程师对生产的假设往往是确定性的,而销售人员对市场的假设往往是不确定性的。故而,工业大数据分析不同于商务大数据分析。

来源:微信号 蝈蝈创新随笔

作者:郭朝晖

该作品已获作者授权,未经许可,禁止任何个人及第三方转载。


分享到: 关注收藏 邀请回答 回复 举报


楼主最近还看过


周点击排行
周回复排行
最新求助