当前位置:
数据的采集、存储与使用:原则性的想法
回复 | 人气 | 打印
gchui 个人主页 给TA发消息 加TA为好友 发表于:2019-06-24 11:09:32 楼主

昨天在清华讲课,有几位同学问了同样的问题:应该如何采集、存储数据、利用?潜台词是:数据的采集、存储量很大,似乎难以入手。我对他们的场景不熟悉,只能给出些原则性的建议。

 

这个建议就是:首先需要搞清楚,采集数据的目的什么?希望解决什么样的业务问题?如果没有需要解决的问题,就不需要采集和存储数据。

 

要回答这个问题,不妨来几次头脑风暴,主要是让业务人员放开去想。需求想清楚之后,再由IT和DT(数据技术)的明白人去“定义问题”、“解决问题”——其中,所谓的定义问题,就是把需求中不合理的部分去掉、把需要建设的相关条件梳理出来。最后,再考虑如何用经济性和技术性好的办法来解决。这就是我在创新课上讲到的:遇到困难问题的时候,不妨分成几步去考虑。

 

需求清楚了,再确定采集和存储什么数据。

 

原则上讲,数据采集、存储越多,对解决问题越是有利;但数据采集和存储都是有成本的。这是一对矛盾。所谓的办法,就是解决这对矛盾。

 

常见的问题是:人们并不清楚需要采集、存储什么数据——这其实就是缺少知识。缺少知识就要设法获得知识。如果你在从事创新工作,或许就没有人能告诉你。不要抱有太多的幻想。获得知识都是有时间和资金成本的,这也是不可避免的。你能做的是如何更加高效、低成本地获得知识。没有特别能取巧的办法。

 

这时候,应该尊重人的经验:专家认为采集什么、什么是重要的。开一个会,排一个次序。如果有可能,再设法找些数据,分析一下这些专家观点是不是靠谱,再做出初步的决策。

 

这些决策合适吗?不一定。最终仍然需要实践的验证。比如,在样机上做实验,在第一批产品中验证。然后再逐渐修改原来的想法——我们要相信,实践决定认识。创新必然有这个过程。我们不是上帝,是算不清楚的。

 

下一个问题,数据如何存储(传送)?

 

也可以从经济性的角度去存储。无非是哪些数据存、存储的周期是多少、时间长度如何。除了尊重经验,也有很多技巧。比如,我在十多年前就提出一个想法:异常驱动的存储法。发现异常时,把此前相关一段时间的数据重点存储下来。否则,少存储或者不存储。这样,就把不必要存储减少了。

 

最后一个问题:有了数据怎么用?

 

数据的基本作用是用来获得或存储知识的。“怎么用”首先是怎么获得知识。这就要知道数据在什么时候能带来知识?否则,很可能是大海捞针,不得其法。

 

我的观点也是事件驱动:发生了特定事件后,再针对这些事件分析、获得知识。我强调的事件有两种:一种是预料之外、不希望发生的事件发生了,一种是预计可能会发生的事件没有发生。换句话说:只要和你想象的不一样,就是发现知识的机会。这些数据就要仔细分析了。这就是我常说的“异常问题驱动人类认识深入”。

来源:微信号 蝈蝈创新随笔

作者:郭朝晖

该作品已获作者授权,未经许可,禁止任何个人及第三方转载。


分享到: 关注收藏 邀请回答 回复 举报


楼主最近还看过


周点击排行
周回复排行
最新求助
Advertisement