大数据和AI：要警惕披着科学外衣的伪科学-专业自动化论坛-中国工控网论坛

大数据和AI：要警惕披着科学外衣的伪科学点击：204 | 回复：0

精华：2帖
求助：0帖
帖子：299帖 | 7回
年度积分：6
历史总积分：1018
注册：2016年9月13日

发表于：2017-07-26 17:19:40

楼主

最近，关于人工智能、大数据的很多案例近乎神话。在我看来，这些“神话”是违反科学的。有些朋友不理解，我大体说说我的想法。

科学原理的重要作用是告诉我们：什么是不可能的。根据万有引力定律，我们会知道：武侠小说中那些飞檐走壁、水上漂的大侠是不存在的。能量（质能）守恒定律告诉我们：能量只能发生转化，不可能凭空产生、也不可能无缘无故地消失。

更有意思的是热力学第二定律。它告诉我们：尽管能量可以转化，却不可以任意转化。例如，热量不可能自发地从温度低的物体传递到温度高的物体。但这种说法不严格，严格的说法是：孤立系统的熵永不减小。这个定律告诉我们：虽然“永动机”不违反能量守恒定律，现实中却是不存在的。

1948年，申农将统计物理中熵的概念，引申到通信领域并开创了“信息论”这门学科。申农的理论，不仅可以完美地描述热力学第二定律，还拓展了人们对物理世界的认识：对“麦克斯韦妖”的解释，将信息熵和物理学的熵完美地融合在一起。

对于智能制造，熵的概念应该有更大的用处。我认为：根据封闭系统“熵”不可能增加的原则，用通用算法处理数据，所包含的信息量不可能增加。

我们知道，数据分析和人工智能都与知识相关。其中，知识就是一种必然的联系。联系，就意味着变量不独立。例如，F=Ma意味着：用1牛顿的力推动1千克的质量，加速度就会为1。不独立，就意味着信息可以压缩。我们从大数据集合中发现知识，其实是在做“信息压缩”或者“降维”的尝试。如果这种“信息压缩”或者“降维”在大数据之外仍然合适，就可以看作一种知识。利用这种知识，就可以用少的信息获得更多的信息。

显然，信息是不是“可压缩”是客观规律决定的，非人力所谓。在《三国演义》中，司马懿看到蜀国大营中落下一颗流星，就判断“将星陨落”、诸葛亮死了。这种联系是不是客观规律，故而只能是迷信。

多少数据才能发现规律呢？理论上将，如果问题真的很复杂，所需数据应该是自变量的指数函数。这就是大数据能发挥作用的原因。所以，从数据中发现规律很难、相关因素越多越复杂。这里有个特例：一种是规律本质是简单的。另外，加入了人已有的认识，也会把问题简化——从某种意义说，相当于加入了新的数据进行降维处理。

现在回到文章的主题。我对大数据、人工智能领域的许多报道嗤之以鼻，一个重要的原因是：少量数据，一般得不到规律性的结果——除非这个问题本身就很简单。但如果问题本身就很简单、规律很明晰，过去的人就发现不了吗？我更倾向于另一种可能：这些文章是“高射炮打蚊子”，用复杂方法解决简单问题，就像任正非所言：用展示锄头代替种地。第三种可能就是把偶然联系当作规律，而不用科学的态度去论证。

有人自称他的数据分析方法用了阿尔法狗的算法，得到了规律。但阿尔法狗关键首先是计算量的问题、不是信息量的问题。信息不足是算不出来的。两者怎么能相提并论呢？我听到一种说法：现在的骗子都改名叫大师了。有些大师的工作，真的和算命差不多。

来源：微信号蝈蝈创新随笔

作者：郭朝晖

该作品已获作者授权，未经许可，禁止任何个人及第三方转载。

分享到：

邀请回答

回复楼主

楼主最近还看过

热门招聘

﻿大数据和AI：要警惕披着科学外衣的伪科学 ﻿点击：204 | 回复：0

大数据和AI：要警惕披着科学外衣的伪科学点击：204 | 回复：0