做任何科技工作,正确认识前提和边界很重要。数学建模也不例外。
我看建模论文时,经常有这样的描述:“由于机理不清晰......”。这就是作者看到的前提。在作者们看来,前提是不证自明的:如果机理清楚,建模还有什么难度呢?
每次看到这样的描述,我却总是皱起眉头:有那么多机理不清楚的问题吗?我多次讲过,工业过程追求确定性。技术原理往往都能讲得明白。对一些传统的工业过程或对象,往往有公认的原理,怎么会“机理不清楚呢”? 要解决这个矛盾,就要回答前面的问题:如果机理清楚了,怎么还要我们来建模呢?
我认为,建模的前提往往是:机理基本清楚,但条件不理想。
“条件不理想”可以分成两类:一类与计算复杂性有关、一类与计算复杂性无关。随着ICT技术的发展,与计算复杂性有关的约束逐渐淡化,与复杂性无关的约束却一直存在。比如,模型所需的参数或者输入信息不精确、不充分等。建模过程的困难,往往因此而产生。
于是,建模的前提可以进一步描述为:从逻辑角度看,机理基本清楚;但从数据角度看,存在很多问题。我强调这个观点的潜台词是:从事数据建模或分析工作时,一方面要学会充分利用已有知识和经验,一方面要充分意识到数据本身的问题可能带来的麻烦。不要动不动地就采用纯粹的数值算法,也不要过度迷信数据。
我的经验是:要尽量把领域知识用到极致,数据分析方法要尽可能深地与领域知识融合。如果有些领域知识没有用上,模型很可能就有改进的余地。
参数不精确、输入信息不准确、不充分的时候,如何进行数据建模?这件事比较难说(俗称是一门艺术)。大体的思路是:尽量地把数据分析或建模过程转变成若干个确定参数、者系数或者单变量函数的过程。也就是我常说的:复杂问题简单化。我们了解的机理,就是用来划分问题的。这种方法遭遇的常见困难之一,是建模数据的分布问题。比如:如果两个自变量总是强相关,我们就很难搞清楚两者单独的租用。这个困难在大数据的相关假设下(我常说的全数据),可能会弱化。
10年前我参加工业与应用数学学会的常务理事会时,提出一个观点:现实中的模型,总是难以做到精确的。这是一个几乎无法克服的障碍,不能来硬的。按照孔子的说法,只有“不逾矩”才有可能“从心所欲”。
怎么才能“从心所欲”呢?办法很简单:就是要设法在应用的过程中不断修正、让精度不断提高。这时,需要动的脑子,是如何让修正的过程“不离谱”、能够逐渐聚焦、逼近于真实,而不能寄希望于一下子就得到好的模型。当然,这也很不容易。人的学习过程尚且如此,更何况机器呢?
来源:微信号 蝈蝈创新随笔
作者:郭朝晖
该作品已获作者授权,未经许可,禁止任何个人及第三方转载。
楼主最近还看过