郭朝晖:大数据分析的本质仍然是求同求异 点击:386 | 回复:2



gchui

    
  • 精华:2帖
  • 求助:0帖
  • 帖子:299帖 | 7回
  • 年度积分:6
  • 历史总积分:1018
  • 注册:2016年9月13日
发表于:2016-09-26 13:11:57
楼主

  你的逻辑是语文老师教的吗?  我想很可能是的。


  30年前中学语文课上,老师讲过这样的道理:发现事物背后的原因,有两种基本做法:求同、求异。其实,现在的幼儿的早教课也包含求同、求异的内容。事实上,不论是语文老师还是幼儿园老师,只要他们教的是对的,就没啥不好意思的。我搞了多年的数据分析,本质上就是在做“求同、求异”。


  谈到数据分析,很多人会重视相关性、聚类。这两种方法更偏重于“求同”、“异中求同”。在我看来,研究工业大数据时,规律的发现是“异常驱动”的。“正常”是常见的、已知的、往往也是没有价值的;异常则往往是未知的,常隐藏着特别有价值的规律。


  但是,用数据表征的客观现实可能存在各种干扰,“正常”的现象会被打扮成“异常”的样子,而“异常”的现象也会被包装成“正常”的样子。所以,刚进入数据分析领域时,首先要学会认识“正常”——这就是我常说的:有了预料之中,才有预料之外。这就要对对象及其数据获取过程有个相对全面的理解。


  即便在工业界,要得到靠谱的分析结果,数据量往往也必须有点“大”:大到一定程度,才能把正常和异常区分开来。当然,比“大”更本质的是:数据的分布要足够“散开”、不能聚集在一起,才能进行有效的分析。从某种意义上说,决策树就是一种偏重于求异的方法。


  求同、求异的过程也会遇到很大的障碍。除了干扰之外,就是影响因素过多。因素过多时,需要比较的东西太多、往往得不到定论。这时,就可能要借用机理甚至实验。


  来源微信号 蝈蝈创新杂谈




楼主最近还看过



潇湘琴话

  • 精华:1帖
  • 求助:0帖
  • 帖子:27帖 | 2161回
  • 年度积分:0
  • 历史总积分:8492
  • 注册:2003年7月22日
发表于:2016-09-26 15:28:14
1楼

呵呵。语文老师几乎都是亚里士多德的学生,一堆形式逻辑,最有名的是三段论了。2000多年没啥进步。大数据,完全是一堆草纸,不过几十年便堆积如山,如果只是"求同""存异",我们不知哲学概念会如何处理"异同"?最简单莫过于分成"0类"和"1类",简单是简单,但一无用处!

wayaj

  • 精华:30帖
  • 求助:95帖
  • 帖子:5269帖 | 8770回
  • 年度积分:0
  • 历史总积分:28783
  • 注册:2020年5月25日
发表于:2016-09-26 15:52:05
2楼

求同、求异的过程也会遇到很大的障碍。除了干扰之外,就是影响因素过多。因素过多时,需要比较的东西太多、往往得不到定论。这时,就可能要借用机理甚至实验。


热门招聘
相关主题

官方公众号

智造工程师