昨天下午,我做某工业大数据创新竞赛评委。结束后总结一下:有预料之中,也有预料之外。
竞赛项目是关于设备健康诊断的,希望判断出哪个设备即将出现故障。在进入决赛的九个团队中,大约有三分之二是数据和机理的结合较深,有三分之一较浅。其中,第一名的项目就是机理和数据的完美结合。这些都是预料之中的。
但按照我一贯的观点:工业大数据分析一定要解决机理。结合较浅就有点意外了。其实,不论采取什么方法,建模竞赛都是“靠数据说话”、用验证数据来打分:机理用得少,并不意味着模型精度低。而机理的价值,在于提高可靠性、知识课复用性等,未必能用来提高精度。
在三个机理应用浅的团队中,有两个的思路可以归结为:“现在与过去不同,就可能发生故障”。其中一个客观分扣分的原因是:找到了发生故障的机器,这台机器发生的故障却不是题目要求找的那个。这是纯数据模型的短板——知道可能发生缺陷,却不知道是什么缺陷。当然, 把这种“缺点”换个场景,也可能是“优点”。
与往年相比,这次竞赛水平有明显提高。但与我心目中的“工业大数据”还有一定差异:没有足够的案例数来消除模型判断的不确定性。这样,正确率的高低就会有一定的运气成分。然而,也正如我经常强调的:数据分析之所以困难,恰恰是因为我们总是在数据条件不理想的条件下工作。理想的场景,现在还是太少。
我反复在想:在现实的条件下,不必一概排除那些机理应用浅的做法。而是要设法取长补短、把它们用在合适的地方。纯数据模型最大的潜在风险,是泛化性差,工业应用受限。如果能避开这种场景,也就可以了。
很久之前,我就有过一个办法:让机器去自动地尝试许多简单模型。然后从中选出一个比较好的简单模型。模型简单了,泛化性就高了。我们自己在做数据分析的时候其实也是这么做的,计算机可能比人做得更快。如果分析问题能够被标准化、未来的计算机能力足够强,这种做法可能会有用的、甚至形成商品化的数据分析产品或标准算法。
第二种场景是:在数据量严重不足、产线刚刚开工的前提下,监控某些变量(或者是数据组合出来的特征)是不是发生趋势性的变化(与过去不同),也是一种可以用的办法——如果实在没有更好的办法,这就是一个可以采用的办法。但这个办法,要与持续改进结合在一起。如前所述,这次竞赛中有两个项目其实就是采用了这个思路。
第三种场景是:在其他模型的可靠度也不高的前提下,用纯粹的数据模型来“投票”。对于自变量的数目不是太多、问题不太复杂的情况下,这种办法还是有效的。但是,如果有了可靠的、基于机理的模型,“投票”方法反而会添乱。
第四种场景是对可靠性要求不高的。只需要给出一个提示就可以了。最终结果由人来负责。
但是,无论如何,我还是主张机理的应用尽量深入些。选择变量、特征、模型、算法的时候,就要想到便于人类专家的介入。比如,指标尽量要有物理意义、让人类专家判断趋势是否存在等。这样做可能会牺牲精度,但换来的是可靠性的提高——因为人类专家的判断依据,是数据之外的知识和信息。
对工业人来说,“可靠性”、“可解释性”是一种价值观:甚至比精度更重要。事实上,精度与这两者有时候是矛盾的:尤其是数据和过程本身不稳定的时候。模型精度往往只能说明过去,“可靠性”、“可解释性”则针对未来。在《工业大数据分析》白皮书中,我曾写入一句话:确定性是工业人追求的目标,不确定性是工业人的机会。这个观点,我今天仍然是坚持的。
来源:微信号 蝈蝈创新随笔
作者:郭朝晖
该作品已获作者授权,未经许可,禁止任何个人及第三方转载。
楼主最近还看过