我搞数据建模大体有两个阶段。
第一个阶段是90年代初读研究生的时候。那个时候算法都是自己搞的。那个时候用C或者FORTRAN自己编算法。所谓的研究,就是不停地根据结果改模型、改算法。有的时候算一次几十分钟,出来不满意再改。几乎每次改都要重新编码。无效的劳动时间很多。
第二个阶段就是到宝钢工作的时候。那时,宝钢引进了一个叫做SAS的分析软件,做起来就方便多了、无效劳动时间很短。
开始的时候有两点不爽:数据量大到一定程度的时候就非常慢,每次分析要等几十秒才能出结果。有时候,要把一个数据集分成几个、分几次来做。这样就比较耽误时间了,仍然有时间的浪费。
这个项目我先后做了12年,后来换过几次计算机,问题就好多了。后来做的时候,几乎是按下按钮就出结果;然后马上再做另外一个分析、进行对比。计算机已经不再耽误我的时间了。
有一次公司查贯标,要求我把分析过程记录下来。我说这很难做到:因为每天要做几百次的分析,很多结果就是看一眼就丢。如果要记录下来,就要把太多的时间用于记录。而且,这么多的分析结果,以后也不会有人看。无效劳动太多。所以,最后只能是把那些觉得特别有意思的结果和过程记下来。
现在回想起来,如果用90年代的做法,这个项目可能结束不了:按那个时候的条件,效率至少会低5倍。我不可能华60年时间完成一个项目吧?而且,90年代初的计算机内存只有640K,而我在宝钢的很多数据文件在10M以上,90年代的计算机根本就玩不转。
所以,计算机性能提高了以后,很多做不成的事情可以做成了。
昨天和两个学生通电话。谈到大数据的时候,我谈到一个观点:对数据分析师来说,大数据时代,是不必关心“数据大了怎么办”了的时代。在这个时代,你可以把全部精力用在如何分析数据上了。过去的数据分析师需要知道更多的IT知识。比如,用IBM PC 机的时候,你要知道数据超过64K以后怎么办。现在就不用知道这些了。
当然,“数据大了怎么办”也是一个问题,但这是平台的问题、是IT技术人员的问题,别人可以帮你去处理,而不是数据分析师的问题。在大数据时代,数据分析师和IT技术人员实现了更好的分工。数据分析师可以专注于对业务的理解、对数据特性的理解、对数据分析技巧的理解。
总之,对数据分析师来说,“大数据”是条件、而不是技术约束。在这个时代,更应该把自己的专业搞好。
来源:微信号 蝈蝈创新随笔
作者:郭朝晖
该作品已获作者授权,未经许可,禁止任何个人及第三方转载。
楼主最近还看过