商业数据分析一般分为5个步骤:收集、清洗、对比、细分、溯源。数据收集当我们在做数据分析时,第一步要解决的问题肯定就是数据源的问题。Allen通常把数据分为二大类。第一类是直接能获取的数据,通常都是内部数据。无非就是从网站后台或者是自己家的数据库里面导。第二类就是外部数据,需要经过加工整理后得到的数据。典型的数据来源有:百度指数、阿里指数、梅花网、cnzz等。2. 数据清洗清洗数据(筛选、清除、补充、纠正)的目的是从大量的、杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。清洗后、保存下来真正有价值、有条理的数据,为后面做数据分析减少分析障碍。3. 数据对比对比,是数据分析的切入点。因为如果没参照物,数据就没有一个定量的评估标准。通常情况下我们从二个点去切入进行数据对比分析:1.横向对比 2.纵向对比横向对比,与行业平均数据,与竞争对手的数据进行比对。举个粟子,比如你家的APP用户留存率是60%,而行业平均留存是70%或竞争对手的用户留存率是70%,那就说明你家的产品在留存率方面有待加强!纵向对比,与自家产品的历史数据进行对比,围绕着时间轴来对比。还是用用户留存率来进行举粟子吧,比如,APP改版前30天,新用户留存率是70%的,而新版APP发布后,新用户留存率降了10%或者升了5%,这就产生了问题,到底是那些因素导致数据产生了异常呢?4. 数据细分数据对比发现了异常,我们当然想知道是什么原因导致的。这里就要用到数据细分了,数据细分通常情况下先分纬度,再分粒度。何谓为纬度?按时间分类就是时间纬度,按地区分类就是地域纬度,按来路分类就是来源纬度,按受访页面分类就是受访纬度。今天APP访问量涨了5%,咋回事不知道,你细分一看,大部分网页都没涨,某个频道某个活动页涨了300%,这就清楚了,这就是细分最简单的范例,其实很多领域都通用。粒度是什么?你时间纬度,是按照天,还是按照小时?这就是粒度差异,你来路纬度,是来路的网站,还是来路的url,这就是粒度的差异;纬度结合粒度进行细分,就可以将对比的差异值逐级锁定问题区域,就可以更容易地寻找出发生问题的原因了。5.数据溯源通常情况下,通过数据细分就能分析出大多数问题的原因并推导出结论了。但也有特殊的情况,即使具体到粒度了也得不出有说服力的结论。这时候我们再进一步,通过数据溯源就能找出问题的原因。依据锁定的这个纬度和粒度作为搜索条件,查询所涉及的源日志,源记录,然后基于此分析和反思用户的行为,往往会有惊人的发现。