对工业大数据建模的一点看法 点击:616 | 回复:1



gchui

    
  • 精华:2帖
  • 求助:0帖
  • 帖子:299帖 | 7回
  • 年度积分:6
  • 历史总积分:1018
  • 注册:2016年9月13日
发表于:2019-09-09 13:19:12
楼主

世界上两个著名法系:大陆法系和英美法系。前者重视条文,条文规定该怎么判就怎么判。后者重视案例,原则上根据过去的案例判罚。这两种做法,与两种数学建模方法类似。

 

第一种建模方法是要得到一个Y=F(x)。F是个固定的映射,输入X则可计算Y。就像大陆法系的做法。第二种方法则是要建立一些案例库;输入一个X后,从案例库中找一个和X接近的X’;计算Y的办法就是对X’对应的Y’进行修正。就像英美法系的做法。

 

大陆法系对立法质量要求别高,英美法系对法官的要求高。所以,如果法官水平不高,大陆法系更公平一些;而如果法官水平比较高,则英美法系更灵活一些,更容易做到与时俱进。

 

传统的建模如回归,属于第一类建模方法。要建好这种模型,最好对机理有较深的理解、自变量的数目一般不能太多。近邻方法、CBR方法(基于案例的推理),则属于第二类方法。但总体上来讲,过去人们用的比较多的还是第一种方法。然而,我觉得:工业大数据的优势,在于它第二类方法:让建模变得容易、灵活性增加。对这个观点,肯定会存在争议。但我根据经验,认为是这样的。

 

我曾经把工业大数据的优势进行总结。其中一种就是“样本=全体”。这是用近邻方法或CBR方法的基础:比较容易找到接近的案例。

 

但实践中,用好CBR、近邻方法并不太多。原因和“英美法系”的问题一样:对挑选案例的要求比较高。当自变量很多的时候,找到合适的近邻并不容易。这个时候,自变量的“权重”选择是一种艺术。好在权重的选择也有些办法,比如回归或机理。最好能够对机理理解得深一点。

 

在实践中,建模最大的困难在于数据质量:精度和完整性。如果建模的数据来自工作点附近,则数据的信噪比就会很低。用CBR、近邻方法时,显著的噪声干扰就会被带进来、导致误差很大。数据完整性指的是:系统性干扰不可见——某个案例非常特殊,但你不知道它为什么特殊。

 

当然,这两个问题在大数据的背景下也容易处理:对第一种问题,可以用一些简单的办法滤波。对第二种问题,可以依赖于大数据的完整性,总能找到原因。

 

所以我认为,在大数据背景下,CBR、近邻方法的应用会多起来。应用范围会很广。但用好这些方法,却是需要技巧的。

来源:微信号 蝈蝈创新随笔

作者:郭朝晖

该作品已获作者授权,未经许可,禁止任何个人及第三方转载。




楼主最近还看过



星孚赵誉程

  • 精华:0帖
  • 求助:0帖
  • 帖子:0帖 | 44回
  • 年度积分:0
  • 历史总积分:52
  • 注册:2016年3月02日
发表于:2019-10-05 12:05:51
1楼

感谢楼主分享


热门招聘
相关主题

官方公众号

智造工程师