对工业大数据建模的一点看法-专业自动化论坛-中国工控网论坛

对工业大数据建模的一点看法点击：648 | 回复：1

精华：2帖
求助：0帖
帖子：299帖 | 7回
年度积分：6
历史总积分：1018
注册：2016年9月13日

发表于：2019-09-09 13:19:12

楼主

世界上两个著名法系：大陆法系和英美法系。前者重视条文，条文规定该怎么判就怎么判。后者重视案例，原则上根据过去的案例判罚。这两种做法，与两种数学建模方法类似。

第一种建模方法是要得到一个Y=F(x)。F是个固定的映射，输入X则可计算Y。就像大陆法系的做法。第二种方法则是要建立一些案例库；输入一个X后，从案例库中找一个和X接近的X’；计算Y的办法就是对X’对应的Y’进行修正。就像英美法系的做法。

大陆法系对立法质量要求别高，英美法系对法官的要求高。所以，如果法官水平不高，大陆法系更公平一些；而如果法官水平比较高，则英美法系更灵活一些，更容易做到与时俱进。

传统的建模如回归，属于第一类建模方法。要建好这种模型，最好对机理有较深的理解、自变量的数目一般不能太多。近邻方法、CBR方法（基于案例的推理），则属于第二类方法。但总体上来讲，过去人们用的比较多的还是第一种方法。然而，我觉得：工业大数据的优势，在于它第二类方法:让建模变得容易、灵活性增加。对这个观点，肯定会存在争议。但我根据经验，认为是这样的。

我曾经把工业大数据的优势进行总结。其中一种就是“样本=全体”。这是用近邻方法或CBR方法的基础：比较容易找到接近的案例。

但实践中，用好CBR、近邻方法并不太多。原因和“英美法系”的问题一样：对挑选案例的要求比较高。当自变量很多的时候，找到合适的近邻并不容易。这个时候，自变量的“权重”选择是一种艺术。好在权重的选择也有些办法，比如回归或机理。最好能够对机理理解得深一点。

在实践中，建模最大的困难在于数据质量：精度和完整性。如果建模的数据来自工作点附近，则数据的信噪比就会很低。用CBR、近邻方法时，显著的噪声干扰就会被带进来、导致误差很大。数据完整性指的是：系统性干扰不可见——某个案例非常特殊，但你不知道它为什么特殊。

当然，这两个问题在大数据的背景下也容易处理：对第一种问题，可以用一些简单的办法滤波。对第二种问题，可以依赖于大数据的完整性，总能找到原因。

所以我认为，在大数据背景下，CBR、近邻方法的应用会多起来。应用范围会很广。但用好这些方法，却是需要技巧的。

来源：微信号蝈蝈创新随笔

作者：郭朝晖

该作品已获作者授权，未经许可，禁止任何个人及第三方转载。

分享到：