不要纠结于不当的大数据观点 点击:345 | 回复:0



gchui

    
  • 精华:2帖
  • 求助:0帖
  • 帖子:299帖 | 7回
  • 年度积分:6
  • 历史总积分:1018
  • 注册:2016年9月13日
发表于:2018-07-02 09:29:42
楼主

昨天在昆明开会,中国钢铁智能制造第一次会议。我在大会发言时谈了一个观点:现在流行的大数据观点很多是不恰当的。但由于时间关系,我没有展开讲。我认为现在不当的观点有三个:一个是纠结于“4V”特征,一个是纠结与“相关与因果”、一个纠结于数据分析。这几种说法的问题在于:让人们的注意力偏离价值创造的最终目的,而纠结于特定场景下的细节,见树木而不见森林。


 

第一个问题,纠结于“4V”。

 

纠结于“4V”让人们的注意力大数据的个别外部特征,而忽视了大数据的真正价值在于知识。


我从40年前我亲历的事情讲起。那时,父母单位有位尚未摘帽的“反革命”,一下子成了当地的红人。他每天晚上都会点上汽灯,在宿舍外教外语。听众是从附近村庄赶来的上百位的年轻人。这就是改革开放之初的“外语热”。 当时我很奇怪:中国人为什么要学外语? 有人告诉我:世界上多数科技文献都是外语写的,要实现科学技术现代化必须学外语。当年的外语热其实很像现在的“大数据热”。我们为什么要研究大数据?数据是计算机表达信息的“语言”,随着数字化工作的不断普及,越来越多的历史记录在数据中。人们要深入研究一个问题时,就必须学会利用数据;学会利用数据,就是要学会与计算机交流。

 

我们关心大数据的原因是数据里面蕴含知识和信息越来越多、越来越完善,以及这些知识和信息的价值越来越大。我们应该关心如何用大数据创造价值,何必关心它是不是“价值密度低”呢?我们关心大数据里面蕴含大知识,何必关心数据量有多少才算“大数据”呢?

 

“文以载道”,我们学外语是为了获得语言中蕴含的知识和信息。要实现这个目的,前提之一是:阅读和交流之前,先要有一定的领域知识。否则,即便每个单词都认识、连在一起就读不懂了。还要找到合适的书去读、与合适的人去交流——因为外语中同样也有糟粕。要从大数据中获得知识同样如此:要有足够的背景知识,才能读懂大数据里面的信息和含义;要构造好大数据的基础,让数据蕴含知识、容易提炼知识——这才是大数据技术最应该关注的问题。

 

 所以,我们观察大数据不应该只看表面的数据量大、数据种类多、产生速度快、价值密度低等特点。因为这些特点只是IT人员关心的、会给他们的工作带来麻烦;而对用户来说,只要数据处理不是障碍,就可以无视这些观点。这时,谈论4V就像谈论“回字有四种写法”一样无聊。

 

 

第二个问题,纠结于数据分析。

 

有些人认为,大数据就是用来做数据分析用的,也就是说是用来发现知识的。这个观点其实是完整的。

 

例如,某家居公司把各种房型和风格的家居设计都用数据保存起来。用户来了以后,先找到自己的房型,然后从自己喜欢的风格中挑选出合适的设计。这样,产品设计的过程,本质上就是客户挑选设计图的过程,或者说挑选数据的过程。而这些数据本身,就是人类研制出来的知识产品。

 

我经常说:有用的数据本身或者是信息、或者是知识;缺乏关联的碎片化数据是无用的垃圾。在笔者看来,大数据应用的场景,主要是用数据承载知识,而不是费劲地从信息中挖掘出知识。

 

我的老朋友、著名工人发明家孔利明先生曾经讲过一个故事:过去老师傅教徒弟调琴,要求做到“声音浑厚”。那么,什么是“浑厚”呢?很难说清楚、徒弟也很难明白。现在有了数字化就很好办了:把频谱分析出来,“浑厚”就一目了然了。这种“标准的频谱”就是数字承载的知识啊。在这样的例子中,大数据最重要的用途是用数据直接承载知识。在工厂里,大量的碎片化知识都可以用数据(不一定是程序代码)表达出来。

 

这些知识的特点是处于人的“预料之中”。工作的特点是把人头脑中的知识拿出来、用“数字化”这种“通用的语言”进行共享。这些知识常常是“可遇可求”的,“只要有播种,就会有收获”。数据分析也能得到的知识,但会受到各种不确定因素的干扰,知识的获取很可能是“可遇不可求”的。所以,我主张知识数字化而非数据分析作为大数据应用的主流。

 

 当然,对已有数据进行分析也是必要的。数据分析主要针对“意外”事件的发生,去研究分析结果。“意外为什么发生”的知识是很难事先准备好的——每次的原因可能都不一样,而预料之外的问题恰恰容易发生。这时,数据分析就是有必要的。

 

纠结于“数据分析”时,往往还容易犯一个错误:重视数据分析技巧、轻视数据基础建设。多年来,我的经验是:如果数据质量好,分析工作会非常简单;反之,如果数据条件不合适,分析工作可能是完全无法达到目的。

 

换个角度看:我的主张是强调用大数据直接承载知识,而数据分析强调的是从繁杂的信息中找到可重复性的规律,也就是探索出知识。前者只需要找到知识,后者则需要探索、评估、验证,麻烦得很。从数据中探索知识是必要的、却是不得已而为之的做法。从经济性和技术可行性上说,前者当然更好了。

 

 

第三个问题纠结于相关和因果。

 

大数据思维“是相关而不是因果”直接把人带入坑里,让人纠结起来:这个观点到底要告诉我们什么?笔者估计,这句话的原意是让数据分析师不久纠结于发现因果、只要发现相关性就可以了。

 

当然,有些相关关系很难找到因果解释。西方有句谚语:“taste no argument”,大体意思就是“萝卜青菜各有所爱,没什么理由”。发现这种相关性显然是有价值的。但是,如果把大数据的应用局限在这样的范畴内,岂不是太局限了?

 

当然,单纯从数据中基本不可能得到因果关系。一般情况下,数据不可能描述完整的事实,而只是客观事实在数据空间的投影。打个比方:数据描述的是木偶的动作,而因果则是后面的操作。强调相关非因果是让人不要钻牛角尖?事实上数据分析需要比较可靠的结果。为此,必须有因果分析才能保证结论的可靠性。

 

例如,工厂进行质量异常分析时,数据分析的过程就是确定哪个原因的概率最大、较大。人们最常遇到的是两类问题:一类是找不到相关性很强的因素;一类是相关的因素很多。事实上,即便找到唯一一个相关性很强的因素,也不能判断它就是真正的原因:因为真正的原因可能会遗漏掉。不论是哪种情况,人们都需要不断补充知识和数据、变换观察问题的角度,来进行论证和辨别。这其实就是一个追求因果的过程。

 

如前所述,大数据(其实是大知识)应用有两种方式:一种是从知识库中把需要的知识找出来,一种是从信息中提炼出知识。所谓“相关非因果”应该主要指的是从信息中提炼出知识,而不是把人们掌握的知识进行数字化。

 

我们举一个例子:你想知道哪条路到机场最快。我们可以用“大数据”的办法,搜索所有到机场的人,看哪条是最快的。这样,我们就得到了答案、也就是最快道路的知识。但这条知识是相关呢、还是因果?

 

我们知道:“相关”是数据之间体现出来的关系。发现相关关系,的确是数据分析的一个重要手段、也可以促进人的思考。但是,人们从事大数据工作的目的是为了解决问题;为了解决问题,用的知识和手段不限于数据和数据分析。纠结于“因果还是相关”容易把人们的视野局限在数据和数据分析过程本身。有必要吗?

 

如果让我提炼大数据的特征的话,我会赞同这样几种说法:

 

1、样本=全体。这意味着,最新发生的事件,很可能在历史上曾经发生过。换句话说,有历史经验和知识可以借鉴。这是在大数据背景下才有的优势。


2、混杂性。我的理解是:混杂性让我们能够通过多个角度和线索确认知识或者事实。换句话说,知识的真假和适用范围比较容易确认。

 

3、不拘泥于数据分析。大数据应用不拘泥于从数据中发现知识,更关注用数据承载知识。当然,这些知识未必是因果知识。如果把成功的案例、失败的教训记录下来、让数据本身承载知识;只要信息显对完整并经过适度的论证,就会对应用有参考价值。这时,只要能够设法找到这些知识,就能用来解决问题。也就是所谓简单方法能解决复杂问题。

 

总之,认识大数据的着眼点应该是如何让数字化的知识创造价值,而不是局限于某些过程和场景下的细节。以免造成“不识庐山真面目”的困惑、最该做的事反而被忽视了。


来源:微信号 蝈蝈创新随笔

作者:郭朝晖

该作品已获作者授权,未经许可,禁止任何个人及第三方转载。




楼主最近还看过


热门招聘
相关主题

官方公众号

智造工程师