数据分析技能


数据分析技能简论

 

了解数据分析需要哪些工具和数学原理。今天,让我们谈谈数据分析技能。

首先是结论:业务第一,其次是工具和数学原理

为什么这么说?因为数据分析是为了解决业务问题。如果它与业务分离,那就什么都不是了。

比如:80%,单看这个数字是没有什么意义的。但是如果我们说某APP的次留是80%,就将这个单独的数字赋予了业务意义。

所以,数据分析必须与业务密切相关。下面我们就来说说必学的数据分析技能。

工具类技能

工具,必须要学习一下 SQL 和 Excel。

数据分析必须与业务密切相关。所有数据都是用于业务的。但前提是你必须得到数据,对吗。因此,SQL是一项必要的数据分析技能。这是我们获取数据的主要工具。

当我们获得数据时,我们当然需要映射、比较和处理数据。这里通常使用Excel。

其次,您肯定会想到Python和R语言。这些是更先进的工具。稍后,我建议您学习python,它更通用。

我们分别来说下这几个工具所需要了解的基础功能:

EXCEL:常用函数vlookup,match,index等,数据透视表功能,图表功能。

SQL:聚合函数,窗口函数,表格关联,数据倾斜优化等。

Python:循环、字典、字符串、pandas、numpy等常用包的使用。

理论类技能

关于理论,如果要划分一个常用的范围,那么就是数理统计和概率论。

数据有两种指标。一种是均值型指标,比如日活,NU,GMV;一种是比值型指标,比如注册率,渗透率。

这些指标,在AB测试中,所需要的检验方式也是不同的。这些就需要统计学的基础。

我们在依据历史数据预测未来数据时,会需要一些概率和数理统计的知识。

比如,某功能的渗透率是70%,如果我们想要提升至80%,可以选择哪些用户进行推广。这里,我们就需要计算不同用户组合下的渗透的概率。这时,我们就需要运用概率论,数理统计。

我们来说说统计学和概率论的基础知识:

1、统计推断:置信区间、置信度、假设检验(t检验、z检验、卡方检验),以及这些检验适用的数据类型及样本情况;

2、中心极限定律、大数定律、辛普森悖论等;

3、概率与概率的分布、统计量及抽样分布、参数估计等;

4、回归分析、方差分析、分类分析、时间序列等。

这些基础知识可以去看看浙大出版的《概率论与数理统计》,贾俊平老师写的《统计学》。

再往上,全概率公式、贝叶斯公式、马尔科夫链这些也需要深入的学习和思考一下。因为这些公式,在业务中的应用也非常多。

比如,我们某功能点击率下降了,我们想知道是新用户引起的,还是老用户引起的,我们就可以用全概率公式。

比如,我们在进行内容的小流量实验,想通过用户的点击,评估用户对内容的偏好,我们就可以用贝叶斯公式。

比如,我们想要对用户的APP使用进行引导,我们就需要选择最优使用路径,我们就可以用马尔科夫链。

… …

这些,就是比较进阶的内容。推荐看《概率导论》和《线性代数应该这样学》。

业务类技能

说到业务类技能,师兄认为,需要会拆,也要会比。

先说“拆”。大家应该都听过“人货场”,“5W2H”,“4P”这些常用的分析方法论。

这些方法论的本质是告诉大家一种业务上的通用拆分方法。

这些拆分方法可以让我们将业务拆分为几个相对独立的变量,让我们更好的了解及度量业务。

当然,我们也可以按照公式来拆。

比如,DAU = NU + 老用户;GMV = DAU * ARPU = NU * ARPU + 老用户 * ARPU 等等。

结合我们对业务的理解,以及从大到小的层级拆分顺序。我们可以将业务映射至不同的业务变量上,通过公式组合,得到最终的业务指标。

这样,当我们要解决某个业务问题,或者建立某个业务的指标时,我们可以非常清楚的知道每个业务变量在公式中的作用。

再说“比”。是指同比,环比,定基比。

为什么一定要对比?

举个例子:3月1日某APP日活100w。

这句话陈述了一个事实。但是这个事实是好还是坏,我们并不能有一个结论。

为什么?

与其他的APP比较:如果每个同类型APP的3月1日的日活都是1000w,那其实这个APP流量很小;如果每个同类型APP的日活都是10w,那这个APP的流量就很大。

与历史数据比较:如果2月1日日活是200w,那么其实预示着业务流量在下降;如果在2月1日日活是50w,那么业务是有增长的。

所以,我们在拆分之后,还需要去对比。

如果说,拆分是为了让我们更清楚的度量业务子变量,知道每个子变量对核心业务的影响,让我们能够有针对性的落地;那么,对比就是让我们知道业务当前的状况如何,发展是好是坏,我们最应该解决什么问题,给我们业务一个明确的发展方向。

当然,以上这些,都是一个数据分析师的基础技能。

无论是工具,还是理论,还是业务理解,最后都需要数据分析师们始于业务,之后高于业务,最后反哺业务。

当然,由于我们的拆分和对比,都是比较“数学”的过程,我们最后还需要会讲故事。将这些“数学过程“用业务的语言讲述出来,才算是一个“发现问题-拆解问题-实施策略-解决问题”的闭环。

我认为,数据分析师会有三个比较明确的阶段:

第一:助力业务阶段

这个阶段,就是俗称的SQL Boy,表哥表姐。因为我们没有很深的理解业务,对业务判断不清。我们所需要做的是支持业务同学或者更资深同学。

 

第二:指导业务阶段

这个阶段,我们已经较深入的了解了业务,我们可以通过数据判断出业务的状态,知道业务哪里有问题,需要从哪个方向去进行相关的优化,以及优化的步骤是什么,该如何进行实验,实验结果该如何评估。

 

第三:引领业务阶段

这个阶段,就类似于业务的操盘手。我们不仅要非常了解业务,我们也需要从众多的业务发展方向中选择更适合业务当前状态的方向。决策业务的未来道路。这个阶段,就可以称的上业务的专家了。

当然,百米高楼平地起。我们还是要一点一滴的积累,不断深耕业务,学习工具和理论。最后量变引起质变。不断提高自己的能力,扩大自己的影响力,成为一个优秀的数据分析师。