刚才看到工信部征集工业APP优秀案例的通知,让我想起一件往事。在信通院余院长主持的一个会上,李义章先生和我都谈到,要搞工业APP这样的东西。我当时很兴奋:遇到知音了!后来阎大姐对我讲:宁总也是这个意思!大家真的是不约而同啊!一转眼六、七年过去了。
我在宝钢的20年,其实就是从事工业APP(数学模型)和数据建模的。总体上说,在线管控APP的开发还是比较难的。下面谈一点体会。
开发在线管控的工业APP时,经常需要数据模型。我们曾发现过一种现象:模型精度似乎有一个极限。接近这个极限很容易,但几乎不能超越。比如,精度达到60%~80%可能很容易,但增加5%就很难了。为什么呢?其实,精度很大程度上决定于数据质量,而不是建模的算法。
数据质量的内涵丰富。首先就是数据精度。显然,系统的输入精度不高、检测质量不高时,模型误差就不会太小。模型精度的“极限”,往往就是由输入数据的精度决定的。现实中,逼近这个极限往往非常容易。很多情况下,只要用线性回归模型就可以接近极限;更换其他算法时,精度的提高往往有限。所以,过度关注算法不是好的策略。解决这个问题的根本办法,就是提高数据的质量。
数据质量低的另外一个常见问题,是存在不规范的数据。比如,人工处理过的数据、生产不稳定时产生的数据、受到外部干扰的数据。一般来说,如果能把这些数据剔除,模型的精度就会比较高。这时,模型误差往往服从正态分布。要进一步提高模型精度,往往需要提高数据检测精度了。需要设法把输入的随机误差降低。特别需要指出的是:即便是模型本身完全正确,模型计算结果还是与实际值有差别的。这是因为:所谓的“实际值”其实是检测值,而检测过程是有误差的。
在线APP开发的另一个常见问题,就是模型精度的漂移。我们知道:模型针对的对象可能是个大系统。这个系统中有许多隐含的参数。这些参数并不直接在模型中表现出来,但却经常发生变化。模型的精度自然就会不断漂移、不断劣化。这个问题不解决,模型是无法实用化的。为了解决这个问题,人们需要不断地重新修订模型。为了减少修订的工作量,就需要引入自学习。其实,自学习的意义主要就在这里。
引入自学习的麻烦又是什么呢?同样是数据质量问题。人类建立模型时,会把不规范的数据剔除掉。剔除过程可以用到各种信息和知识,甚至可以靠经验。机器自学习的时候,自动剔除这些异常数据的难度就大了。错误数据可能会导致学习本身出现问题。为了解决这类问题,需要仔细研究自动剔除数据的办法,还需要把学习的速度降下来。
APP用于在线管控时,同样也面对实时干扰和数据误差。如果这些干扰或误差引发误操作,会带来很麻烦的后果。所以,APP中往往需要一个机制,防止误操作的产生。但是,防范工作也是有代价的:往往是使得系统的灵敏度降低、反应速度变慢。
所以,开发在线管控的工业APP时,数据质量是基础。数据质量不好,是一种常态。开发APP的水平,往往体现在如何处置质量不好的数据,而不是把所有精力都用在建模算法上。
来源:微信号 蝈蝈创新随笔
作者:郭朝晖
该作品已获作者授权,未经许可,禁止任何个人及第三方转载。
楼主最近还看过