郭朝晖：大视野下的工业大数据-专业自动化论坛-中国工控网论坛

郭朝晖：大视野下的工业大数据点击：569 | 回复：1

精华：2帖
求助：0帖
帖子：301帖 | 7回
年度积分：6
历史总积分：1018
注册：2016年9月13日

发表于：2017-02-15 14:46:54

楼主

1、数据的来源

有种观点认为大数据的来源是业务系统，大数据平台只是顺便把这些数据收集起来。这样做不为数据的收集产生额外成本、也不影响原有业务系统的运行。但是，各个业务系统中的数据，往往不是为了分析目的而建立的，关联关系是丢失的。这样，数据中很多的价值就失去了。本人的观点是，如果这种观点成立，建立业务系统的时候就要想到进行数据分析。否则，数据的价值就会大打折扣。未来，如果要让数据发挥大的作用，可能要花很大的时间对某些数据进行人工处理、讲专家头脑中的知识与数据结合起来，然后入库：如果等到分析数据的时候再做，很多信息早已丢失了。当然，这个过程本身的规范化要做好。否则甚至会把好数据变成垃圾。

2、有无明确的业务功能

工业大数据平台有没有明确的功能？多数观点认为：大数据的功能是事后分析挖掘。而针对事后分析，有两种态度：有什么数据用什么数据、为了便于分析收集数据。我们认为，从未来的角度看，后者应该是发展方向。这时，数据的质量、完整性就变得很非常重要。

在我看来，随着ICT技术的提升，大数据平台很可能会成为新一代的智能监控系统（GE对飞机发动机的设想应该就是）。与传统监控系统不同的是：平台能记忆大量的过往案例和处置方法。未来的这种监控，很可能是为无人化、少人化、移动监控服务的。如果是这样，就会对大数据平台的数据质量、传输的可靠性和实施性产生极高的要求。换而言之，智能制造与工业大数据的相互促进，会大大拓展这个领域的发展前景。

3、大数据能获得什么知识

人们很早就意识到：数据质量是决定于应用的目的。所以，在建立大数据平台之前，最好能够明确希望得到什么样的知识，而不是泛泛地强调分析知识。我想，这些知识的一端是企业关心的结果，如质量、效率、能耗、缺陷率、作业率、设备状态、完成时间，另外一端是与这些要素相关的原因。我们要得到的知识大概分成两类：最初级的分析是原因与结果的关系，比如A变量与B变量的关系。但现实中，这种关系往往是很不稳定的。其他要素变化的时候，这种关系也会发生变化。所以，进一步的知识是要知道：哪些要素固定下来以后，变量之间的关系是稳定的。这些知识可以用于提高生产组织的水平、考核相关人员、发现各种跑冒滴漏、明确优化的侧重点等。当然，理想的情况是分析多变量对多变量的关系。但遗憾的是，这样的分析结果往往是可遇不可求的。

4、知识发现的人机关系问题

发现知识的过程是认识渐进的过程、是对知识可靠性把握不断深入的过程。这个过程往往是人机交互实现的。首先，人要对可能的相关关系提出自己的想法；其次，可以通过计算机对人的想法进行筛选；接着，筛选过程中可能会出现大量难以解释、或无法确认的东西，又需要人进行深入的对比分析：必要时甚至需要试验和文献分析补充数据、乃至提出新的假设。我曾经想通过找到自动化的算法，把机理不清楚的问题搞清楚。这现实中是难以实现的。现实中最好的办法，往往只是“可靠性”的收敛速度比较快、人的工作量相对较小。我一直认为：人类分析复杂问题的能力，是计算机远远不及的。大数据时代我们有更多的素材，但要做得更好，需要更聪明的人来完成。当然，任何事情都有反例、特别是全体人类都非常关注的问题——这时，人类会不计代价，为机器智能做好各种准备工作。但对一般的企业，用机器代替人的分析，很可能是不合算的。

5、对概念的认识

研究工业大数据，不必纠结于数据的多少。我们关心的是：如何让数据创造商业价值。我一直认为，现在的统计理论，主要是针对小数据集合的，比如几十个样本以内；几十年前的数据挖掘方法，基本上停留在科学尺度，勉强进入技术尺度，很少成功进入商业尺度；现在的深度学习理论，则很难广泛地进入工业领域。

　　来源微信号蝈蝈创新杂谈

　　作者：郭朝晖

　　该作品已获作者授权，未经许可，禁止任何个人及第三方转载。

分享到：