你的逻辑是语文老师教的吗? 我想很可能是的。
30年前中学语文课上,老师讲过这样的道理:发现事物背后的原因,有两种基本做法:求同、求异。其实,现在的幼儿的早教课也包含求同、求异的内容。事实上,不论是语文老师还是幼儿园老师,只要他们教的是对的,就没啥不好意思的。我搞了多年的数据分析,本质上就是在做“求同、求异”。
谈到数据分析,很多人会重视相关性、聚类。这两种方法更偏重于“求同”、“异中求同”。在我看来,研究工业大数据时,规律的发现是“异常驱动”的。“正常”是常见的、已知的、往往也是没有价值的;异常则往往是未知的,常隐藏着特别有价值的规律。
但是,用数据表征的客观现实可能存在各种干扰,“正常”的现象会被打扮成“异常”的样子,而“异常”的现象也会被包装成“正常”的样子。所以,刚进入数据分析领域时,首先要学会认识“正常”——这就是我常说的:有了预料之中,才有预料之外。这就要对对象及其数据获取过程有个相对全面的理解。
即便在工业界,要得到靠谱的分析结果,数据量往往也必须有点“大”:大到一定程度,才能把正常和异常区分开来。当然,比“大”更本质的是:数据的分布要足够“散开”、不能聚集在一起,才能进行有效的分析。从某种意义上说,决策树就是一种偏重于求异的方法。
求同、求异的过程也会遇到很大的障碍。除了干扰之外,就是影响因素过多。因素过多时,需要比较的东西太多、往往得不到定论。这时,就可能要借用机理甚至实验。
来源微信号 蝈蝈创新杂谈
楼主最近还看过