做合格的工业数据分析师 点击:209 | 回复:2



gchui

    
  • 精华:2帖
  • 求助:0帖
  • 帖子:301帖 | 7回
  • 年度积分:6
  • 历史总积分:1018
  • 注册:2016年9月13日
发表于:2022-04-28 16:45:32
楼主

我估计:除了图像处理,从事工业大数据分析时,95%以上的工作都可以用线性回归、决策树、方差分析、频谱分析、最大似然估计、取平均数等基本的统计或数据处理方法完成。但是,人们讲到这些方法时,却往往会把重点放在深度学习、模式识别等。

 

现实中,这些高级方法往往是“杀鸡用牛刀”,反而不好用。因为这些方法,难以与人的知识和认识结合起来。人们乐于宣传这些方法的原因,除了便于发表文章,就是便于保密。从事相关工作的朋友必须明白;自己要对自己的时间负责。最好用简单的办法分析问题。

 

但是,做数据分析工作其实很不容易。即便对数学和统计学功底好的人来说,人才的“成才率”恐怕不会高于10%。那么,困难到底在什么地方?要理解这种困难,还是从《黑天鹅》中的那个故事谈起。作者问道:

 

一个硬币丢了99次,每次都是正面朝上。请问第100次正面朝上的概率是多大?

 

学霸的标准答案是:第100次正面朝上的概率与前面99次的结果没有关系。所以,概率是50%。而老油条的答案则是:前面连续99次都朝上了,你还会认为正面朝上的概率是50%吗?前提不成立了!

 

现实中,数据分析的难点,在于认清正确的前提。

 

错误使用统计分析方法的现象非常普遍。我在宝钢工作时,看到钢铁行业同仁们写的论文,就对办公室的年轻人说:真想把这些论文作为反面案例,告诉大家什么是错误的分析方法。在这些例子中,有的回归分析的前提不成立,有人在选取样本时犯了初级错误。

 

这种现象并不奇怪。

 

我参与研究生面试时,经常遇到这样的事情:给学生出一道复杂的计算题,基本上都能正确地计算出来。但是,如果问基本的概念,很多人就回答不出来了。更有意思的是:如果把计算题出得特别简单、不再需要采用复杂公式时,多数学生居然回答不出来了!

 

我们现在的教育,总是考核在“标准前提下,给出标准答案”。学生没有怀疑“前提”的习惯。这样的学生有知识,却不会用知识。

 

回到前面的问题。用线性回归可以清晰地分析一个变量的作用。但前提是其它变量的干扰较小、且具有随机性。解决这个问题的办法之一,是尽量固定其他变量。科学试验往往就是这么做。

 

但工业现场往往受各种约束,总会有很多干扰。而且,这些干扰并不是随机的。变量选择有问题时,小的非随机干扰,就会对分析结果产生很大的影响。所以,做数据分析时,必须时刻警惕非随机系统干扰的影响,并设法剔除它。

 

处理和发现非随机的系统干扰很难。原因是这样的因素太多。比如,任何一个变量的采集过程,都可能存在非随机系统干扰。而识别这些干扰,需要更多的数据项。这样,分析问题时面对的数据项就会越来越多。人的注意力就容易淹没在数据的海洋中。更糟糕的是:受数据条件制约,有些系统干扰可能就是不可见的。

 

现场中的有些干扰往往难以排除。我曾经遇到过这样一件事:

 

某钢种的性能波动非常大。强度700MPa级的钢种,波动的标准差就高达60MPa。我分析后认为:这是某环节的系统干扰导致的。于是,我就设计了一个实验室试验、设法避开这种干扰。后来,同事在实验室里做了这个试验。他们做了几十对试样,每对试样的强度差不超过3MPa.

 

对前提做出判断的时候,往往需要较为全面的专业知识。这是制约数据分析人才“成才率”提高的主要原因。

 

利用统计软件,做一次回归分析只要几秒钟的时间。数据分析师的绝大多数时间都用来对数据合理性进行分析。如果自己缺乏专业知识,可能几分钟就要去请教别人。别人岂不要烦死了?


合格的数据分析师,不仅要善于与数据打交道,更要善于理解物理对象和物理过程。


来源:微信号 蝈蝈创新随笔

作者:郭朝晖

该作品已获作者授权,未经许可,禁止任何个人及第三方转载。





楼主最近还看过



PLC生产

  • 精华:0帖
  • 求助:2帖
  • 帖子:10帖 | 109回
  • 年度积分:0
  • 历史总积分:347
  • 注册:2020年1月30日
发表于:2022-07-30 10:49:34
1楼

不错  学到了

yun2020

  • 精华:0帖
  • 求助:0帖
  • 帖子:0帖 | 491回
  • 年度积分:206
  • 历史总积分:742
  • 注册:2020年12月18日
发表于:2022-10-20 16:46:43
2楼

写得不错,关于游泳池水处理设备水处理设备滤料泳池游泳馆除湿机等,这些都是原水处理需要用到的~


热门招聘
相关主题

官方公众号

智造工程师