参评“工业大数据分析”竞赛有感-专业自动化论坛-中国工控网论坛

参评“工业大数据分析”竞赛有感点击：464 | 回复：1

精华：2帖
求助：0帖
帖子：299帖 | 7回
年度积分：6
历史总积分：1018
注册：2016年9月13日

发表于：2019-07-23 14:30:46

楼主

昨天下午，我做某工业大数据创新竞赛评委。结束后总结一下：有预料之中，也有预料之外。

竞赛项目是关于设备健康诊断的，希望判断出哪个设备即将出现故障。在进入决赛的九个团队中，大约有三分之二是数据和机理的结合较深，有三分之一较浅。其中，第一名的项目就是机理和数据的完美结合。这些都是预料之中的。

但按照我一贯的观点：工业大数据分析一定要解决机理。结合较浅就有点意外了。其实，不论采取什么方法，建模竞赛都是“靠数据说话”、用验证数据来打分：机理用得少，并不意味着模型精度低。而机理的价值，在于提高可靠性、知识课复用性等，未必能用来提高精度。

在三个机理应用浅的团队中，有两个的思路可以归结为：“现在与过去不同，就可能发生故障”。其中一个客观分扣分的原因是：找到了发生故障的机器，这台机器发生的故障却不是题目要求找的那个。这是纯数据模型的短板——知道可能发生缺陷，却不知道是什么缺陷。当然，把这种“缺点”换个场景，也可能是“优点”。

与往年相比，这次竞赛水平有明显提高。但与我心目中的“工业大数据”还有一定差异：没有足够的案例数来消除模型判断的不确定性。这样，正确率的高低就会有一定的运气成分。然而，也正如我经常强调的：数据分析之所以困难，恰恰是因为我们总是在数据条件不理想的条件下工作。理想的场景，现在还是太少。

我反复在想：在现实的条件下，不必一概排除那些机理应用浅的做法。而是要设法取长补短、把它们用在合适的地方。纯数据模型最大的潜在风险，是泛化性差，工业应用受限。如果能避开这种场景，也就可以了。

很久之前，我就有过一个办法：让机器去自动地尝试许多简单模型。然后从中选出一个比较好的简单模型。模型简单了，泛化性就高了。我们自己在做数据分析的时候其实也是这么做的，计算机可能比人做得更快。如果分析问题能够被标准化、未来的计算机能力足够强，这种做法可能会有用的、甚至形成商品化的数据分析产品或标准算法。

第二种场景是：在数据量严重不足、产线刚刚开工的前提下，监控某些变量（或者是数据组合出来的特征）是不是发生趋势性的变化（与过去不同），也是一种可以用的办法——如果实在没有更好的办法，这就是一个可以采用的办法。但这个办法，要与持续改进结合在一起。如前所述，这次竞赛中有两个项目其实就是采用了这个思路。

第三种场景是：在其他模型的可靠度也不高的前提下，用纯粹的数据模型来“投票”。对于自变量的数目不是太多、问题不太复杂的情况下，这种办法还是有效的。但是，如果有了可靠的、基于机理的模型，“投票”方法反而会添乱。

第四种场景是对可靠性要求不高的。只需要给出一个提示就可以了。最终结果由人来负责。

但是，无论如何，我还是主张机理的应用尽量深入些。选择变量、特征、模型、算法的时候，就要想到便于人类专家的介入。比如，指标尽量要有物理意义、让人类专家判断趋势是否存在等。这样做可能会牺牲精度，但换来的是可靠性的提高——因为人类专家的判断依据，是数据之外的知识和信息。

对工业人来说，“可靠性”、“可解释性”是一种价值观：甚至比精度更重要。事实上，精度与这两者有时候是矛盾的：尤其是数据和过程本身不稳定的时候。模型精度往往只能说明过去,“可靠性”、“可解释性”则针对未来。在《工业大数据分析》白皮书中，我曾写入一句话：确定性是工业人追求的目标，不确定性是工业人的机会。这个观点，我今天仍然是坚持的。

来源：微信号蝈蝈创新随笔

作者：郭朝晖

该作品已获作者授权，未经许可，禁止任何个人及第三方转载。

分享到：

邀请回答

回复楼主

楼主最近还看过

gk2017

精华：0帖
求助：0帖
帖子：0帖 | 46回
年度积分：0
历史总积分：152
注册：2017年8月12日

发表于：2019-07-25 08:32:32

1楼


引用艾欣-MAY 的回复内容：厉害呀，这种把原本属于别人的客户争取过来更显营销功力！佩服反垄断呀，有竞争才有进步，最终受益还是客户，赞一个！

回复引用举报

热门招聘

﻿参评“工业大数据分析”竞赛有感 ﻿点击：464 | 回复：1

参评“工业大数据分析”竞赛有感点击：464 | 回复：1