不要纠结于不当的大数据观点-专业自动化论坛-中国工控网论坛

不要纠结于不当的大数据观点点击：379 | 回复：0

精华：2帖
求助：0帖
帖子：299帖 | 7回
年度积分：6
历史总积分：1018
注册：2016年9月13日

发表于：2018-07-02 09:29:42

楼主

昨天在昆明开会，中国钢铁智能制造第一次会议。我在大会发言时谈了一个观点：现在流行的大数据观点很多是不恰当的。但由于时间关系，我没有展开讲。我认为现在不当的观点有三个：一个是纠结于“4V”特征，一个是纠结与“相关与因果”、一个纠结于数据分析。这几种说法的问题在于：让人们的注意力偏离价值创造的最终目的，而纠结于特定场景下的细节，见树木而不见森林。

第一个问题，纠结于“4V”。

纠结于“4V”让人们的注意力大数据的个别外部特征，而忽视了大数据的真正价值在于知识。

我从40年前我亲历的事情讲起。那时，父母单位有位尚未摘帽的“反革命”，一下子成了当地的红人。他每天晚上都会点上汽灯，在宿舍外教外语。听众是从附近村庄赶来的上百位的年轻人。这就是改革开放之初的“外语热”。当时我很奇怪：中国人为什么要学外语？有人告诉我：世界上多数科技文献都是外语写的，要实现科学技术现代化必须学外语。当年的外语热其实很像现在的“大数据热”。我们为什么要研究大数据？数据是计算机表达信息的“语言”，随着数字化工作的不断普及，越来越多的历史记录在数据中。人们要深入研究一个问题时，就必须学会利用数据；学会利用数据，就是要学会与计算机交流。

我们关心大数据的原因是数据里面蕴含知识和信息越来越多、越来越完善，以及这些知识和信息的价值越来越大。我们应该关心如何用大数据创造价值，何必关心它是不是“价值密度低”呢？我们关心大数据里面蕴含大知识，何必关心数据量有多少才算“大数据”呢？

“文以载道”，我们学外语是为了获得语言中蕴含的知识和信息。要实现这个目的，前提之一是：阅读和交流之前，先要有一定的领域知识。否则，即便每个单词都认识、连在一起就读不懂了。还要找到合适的书去读、与合适的人去交流——因为外语中同样也有糟粕。要从大数据中获得知识同样如此：要有足够的背景知识，才能读懂大数据里面的信息和含义；要构造好大数据的基础，让数据蕴含知识、容易提炼知识——这才是大数据技术最应该关注的问题。

所以，我们观察大数据不应该只看表面的数据量大、数据种类多、产生速度快、价值密度低等特点。因为这些特点只是IT人员关心的、会给他们的工作带来麻烦；而对用户来说，只要数据处理不是障碍，就可以无视这些观点。这时，谈论4V就像谈论“回字有四种写法”一样无聊。

第二个问题，纠结于数据分析。

有些人认为，大数据就是用来做数据分析用的，也就是说是用来发现知识的。这个观点其实是完整的。

例如，某家居公司把各种房型和风格的家居设计都用数据保存起来。用户来了以后，先找到自己的房型，然后从自己喜欢的风格中挑选出合适的设计。这样，产品设计的过程，本质上就是客户挑选设计图的过程，或者说挑选数据的过程。而这些数据本身，就是人类研制出来的知识产品。

我经常说：有用的数据本身或者是信息、或者是知识；缺乏关联的碎片化数据是无用的垃圾。在笔者看来，大数据应用的场景，主要是用数据承载知识，而不是费劲地从信息中挖掘出知识。

我的老朋友、著名工人发明家孔利明先生曾经讲过一个故事：过去老师傅教徒弟调琴，要求做到“声音浑厚”。那么，什么是“浑厚”呢？很难说清楚、徒弟也很难明白。现在有了数字化就很好办了：把频谱分析出来，“浑厚”就一目了然了。这种“标准的频谱”就是数字承载的知识啊。在这样的例子中，大数据最重要的用途是用数据直接承载知识。在工厂里，大量的碎片化知识都可以用数据（不一定是程序代码）表达出来。

这些知识的特点是处于人的“预料之中”。工作的特点是把人头脑中的知识拿出来、用“数字化”这种“通用的语言”进行共享。这些知识常常是“可遇可求”的，“只要有播种，就会有收获”。数据分析也能得到的知识，但会受到各种不确定因素的干扰，知识的获取很可能是“可遇不可求”的。所以，我主张知识数字化而非数据分析作为大数据应用的主流。

当然，对已有数据进行分析也是必要的。数据分析主要针对“意外”事件的发生，去研究分析结果。“意外为什么发生”的知识是很难事先准备好的——每次的原因可能都不一样，而预料之外的问题恰恰容易发生。这时，数据分析就是有必要的。

纠结于“数据分析”时，往往还容易犯一个错误：重视数据分析技巧、轻视数据基础建设。多年来，我的经验是：如果数据质量好，分析工作会非常简单；反之，如果数据条件不合适，分析工作可能是完全无法达到目的。

换个角度看：我的主张是强调用大数据直接承载知识，而数据分析强调的是从繁杂的信息中找到可重复性的规律，也就是探索出知识。前者只需要找到知识，后者则需要探索、评估、验证，麻烦得很。从数据中探索知识是必要的、却是不得已而为之的做法。从经济性和技术可行性上说，前者当然更好了。

第三个问题纠结于相关和因果。

大数据思维“是相关而不是因果”直接把人带入坑里，让人纠结起来：这个观点到底要告诉我们什么？笔者估计，这句话的原意是让数据分析师不久纠结于发现因果、只要发现相关性就可以了。

当然，有些相关关系很难找到因果解释。西方有句谚语：“taste no argument”，大体意思就是“萝卜青菜各有所爱，没什么理由”。发现这种相关性显然是有价值的。但是，如果把大数据的应用局限在这样的范畴内，岂不是太局限了？

当然，单纯从数据中基本不可能得到因果关系。一般情况下，数据不可能描述完整的事实，而只是客观事实在数据空间的投影。打个比方：数据描述的是木偶的动作，而因果则是后面的操作。强调相关非因果是让人不要钻牛角尖？事实上数据分析需要比较可靠的结果。为此，必须有因果分析才能保证结论的可靠性。

例如，工厂进行质量异常分析时，数据分析的过程就是确定哪个原因的概率最大、较大。人们最常遇到的是两类问题：一类是找不到相关性很强的因素；一类是相关的因素很多。事实上，即便找到唯一一个相关性很强的因素，也不能判断它就是真正的原因：因为真正的原因可能会遗漏掉。不论是哪种情况，人们都需要不断补充知识和数据、变换观察问题的角度，来进行论证和辨别。这其实就是一个追求因果的过程。

如前所述，大数据（其实是大知识）应用有两种方式：一种是从知识库中把需要的知识找出来，一种是从信息中提炼出知识。所谓“相关非因果”应该主要指的是从信息中提炼出知识，而不是把人们掌握的知识进行数字化。

我们举一个例子：你想知道哪条路到机场最快。我们可以用“大数据”的办法，搜索所有到机场的人，看哪条是最快的。这样，我们就得到了答案、也就是最快道路的知识。但这条知识是相关呢、还是因果？

我们知道：“相关”是数据之间体现出来的关系。发现相关关系，的确是数据分析的一个重要手段、也可以促进人的思考。但是，人们从事大数据工作的目的是为了解决问题；为了解决问题，用的知识和手段不限于数据和数据分析。纠结于“因果还是相关”容易把人们的视野局限在数据和数据分析过程本身。有必要吗？

如果让我提炼大数据的特征的话，我会赞同这样几种说法：

1、样本=全体。这意味着，最新发生的事件，很可能在历史上曾经发生过。换句话说，有历史经验和知识可以借鉴。这是在大数据背景下才有的优势。

2、混杂性。我的理解是：混杂性让我们能够通过多个角度和线索确认知识或者事实。换句话说，知识的真假和适用范围比较容易确认。

3、不拘泥于数据分析。大数据应用不拘泥于从数据中发现知识，更关注用数据承载知识。当然，这些知识未必是因果知识。如果把成功的案例、失败的教训记录下来、让数据本身承载知识；只要信息显对完整并经过适度的论证，就会对应用有参考价值。这时，只要能够设法找到这些知识，就能用来解决问题。也就是所谓简单方法能解决复杂问题。

总之，认识大数据的着眼点应该是如何让数字化的知识创造价值，而不是局限于某些过程和场景下的细节。以免造成“不识庐山真面目”的困惑、最该做的事反而被忽视了。

来源：微信号蝈蝈创新随笔

作者：郭朝晖

该作品已获作者授权，未经许可，禁止任何个人及第三方转载。

分享到：

邀请回答

回复楼主

楼主最近还看过

热门招聘

﻿不要纠结于不当的大数据观点 ﻿点击：379 | 回复：0

不要纠结于不当的大数据观点点击：379 | 回复：0