数据理解是个大学问 点击:171 | 回复:1



gchui

    
  • 精华:2帖
  • 求助:0帖
  • 帖子:299帖 | 7回
  • 年度积分:6
  • 历史总积分:1018
  • 注册:2016年9月13日
发表于:2019-06-17 10:14:26
楼主

这几天连续谈到一件事:分析工业数据时,对数据的理解至关重要。

 

前天,李院长谈到诊断高炉时,怀疑是某个地方的问题。但对应的参数却是正常的。后来他发现,原来数据的测量方式有问题。听到这里,我对李院长说:在做数据分析时,数据存在各种假象是一种常态。

 

昨天晚上和赵部长散步。他也主动谈起对数据的理解。让我想起离开宝钢前强调的一些观点:数据采集要用统一的时钟,工艺参数要与产品位置对应;控制目标依据的是特定检测条件下的检测值,并不等同于实际值,检测误差导致的分布式预报…

 

今天上午,听小罗做了一个报告。他谈到数据采集周期不同、检测数据不一致导致的问题。于是我想:很多人讨论数据建模,并不是解决机理不清楚的问题,而是解决检测误差、时间不同步、跑冒滴漏、数据缺失带来的问题。原则上讲,“数据集成”能够“把不确定性变成确定性”。但在这个过程中,测量数据本身的不确定性往往成为智能化和数据分析的瓶颈所在。

 

在CRISP_DM模型中有个工作叫“数据理解”。工业数据分析中遇到的各种问题,包括分析效率低、与机理难融合、错误结果多都与数据质量有关。当数据出现问题是,人们总是觉得“怎么这么怪呢”、“我怎么这么倒霉”呢? 而不是检讨自己在数据理解过程没做到位。

 

我突然意识到:“数据理解”其实是一门大学问。这门学问决定了智能化能否有效落地、决定了理论能否与实践相结合。但是,如何进行“数据理解”,却很少有人进行理论上的阐述(我策划《工业大数据分析指南》时有点意识,但只谈到一点点)。

 

前些日子和诗万聊天,谈到“任何软件和程序都是有BUG的”。而减少BUG、弱化BUG的影响是软件开发水平的体现。同样,任何数据都是有误差、有不足的;正确地认识数据中的误差和不足,才能发挥数据的优势、避免负面影响。数据理解是数据建模技术的关键所在,也常常是盲点所在。


来源:微信号 蝈蝈创新随笔

作者:郭朝晖

该作品已获作者授权,未经许可,禁止任何个人及第三方转载。




楼主最近还看过



我想好好学习

  • 精华:0帖
  • 求助:1帖
  • 帖子:24帖 | 418回
  • 年度积分:226
  • 历史总积分:1422
  • 注册:2014年1月08日
发表于:2019-06-17 11:24:13
1楼

学习了,能感觉得到但是抓不住


热门招聘
相关主题

官方公众号

智造工程师