我们到厂里调研数据的时候,经常会问:这个数据有吗?如果对方说有,就以为万事大吉了。然而,如果我们从事数据分析工作,就会发现:许多令人“眼前一亮”的分析结果往往是假象,严重影响分析工作的效果,甚至会误导后续的工作。数据中有很多的坑,做数据分析的人必须关注到。我简单地罗列几条,欢迎大家补充。
1、认识数据误差。不要以为仪表的精度高,误差就可以忽略不计。如果数据采集于一个工作点附近,数据显示出来的波动,很大的比例可能来自数据采集过程的各种干扰,过程参数本身的变化可能是次要的。
2、数据采集条件。采集数据准确是有条件的。比如,红外的方式测量温度时,需要知道对象的黑度系数。测量对象发生变化时黑度系数可能会跟着变。这意味着,即便真是的温度不变,测量结果却可能会变。
3、数据代表性。数据往往代表对象或者过程的属性。但测量点不同,结果就不一样。所以,测量位置的参数稳定不代表整个过程稳定,测量位置的参数合格并不意味着整个对象的参数合格。
4、属性标准。有些物质属性测量很复杂,测量的数值与定义方法、测量过程关联度很高。例如,对于材料力学性能,试验制作过程不同、取样方法不同、测量的设备和环境不同,都会引起显著的差异。同一个属性名称,还可能会有不同的标准。比如,屈服强度就有多种标准。
5、数据对应问题。如果对象(主要是产品)是移动的(如在流水线上)、测量点是固定的,则测量结果和对象的对应就可能成为一个问题,有时候还非常严重。如果要通过数据研究因果关系,则时间的对应也是非常重要的。
6、采样频度问题。生产现场中的很多数据来自于仪表系统。采集数据的初衷可能是用来控制生产过程的。随着人们对数据价值的认识加深,会把数据传出来、用做监控、质量分析等。一般来说,控制系统的数据采样频度较高,但这个频度不等于传送、存储的频度。有时候,数据是批量传送的,而传送的间隔比采集间隔要长得多。有些数据的采集频度可能非常慢,你拿到的数据是很久之前采到的。
7、数据含义。数据在不同的场景下,可能代表不同的含义。最典型的就是:在正常和不正常情况下,同一个数据代表的意义可能是不一样的。比如,某个场景下,温度=400意味着温度测量失效了。
数据分析工作有点像探案推理,需要从蛛丝马迹中找到问题的根源,并尽量避免被数据误导。所以,我经常提醒自己:数据是测量的结果——其实是说:不要想当然地认为数据就是对象的属性,而是要把测量过程本身考虑进来。
来源:微信号 蝈蝈创新随笔
作者:郭朝晖
该作品已获作者授权,未经许可,禁止任何个人及第三方转载。
楼主最近还看过