数据分析之数据加工


数据加工,根据分析目标和分析模型,提取指标,确定口径,结合已经准备好的数据的特点、逻辑,进行加工统计,并选择适合的分析模型,套用已经清洗好的数据,很方便地就能跑出模型结果。

当然,在实际工作中,确实有不少分析是描述型、简单统计意义上的了解,不需要使用模型。

数据清洗

数据清洗也可称ETL,对结构化的数据进行处理清洗。参考本公众号的文章《一个故事知道ETL是什么》,更好理解。清洗后的数据用起来就很舒服丝滑,不会总是被数据不干净打断进程。主要从以下几个方面进行数据清洗:

不同阶段的业务形态和逻辑,给予新标识或统一逻辑。

构造新字段(列),中间过渡的字段、新增维度字段等。

重新赋值转义字段,按统一标准修改。

异常值、缺失值,根据需要进行填充替换或不处理。

维度事件,分辨清晰,方便统计。

维度,通常指对象、状态等,数据会变化,事件发生后,事件发生时间前后的值会变化。分析时,就是各种查看的视角、对比的组别。

事件,发生的事情,数据不会再变化(当然有些是bug造成的数据,会修复变更),具有时序性。

指标统计

根据维度和事件,进行度量计算,生成指标。有加减乘除平方等,有计数、去重计数,有最大、最小、第几,有方差、标准差等度量方式,看到这会发现与Excel数据透视表中的计算类似——Excel没有去重计数要变通实现。对于新手来说,这样类比理解是很赞的方式。

哪些数据可以参与计算、采用什么度量方式、先计算什么再计算什么,这就涉及统计口径,是指标另一构成要素。DAU、GMV、AVC、LTV、CPM等,都是常用指标,你知道怎么实现吗?

指标由口径和度量构成,其组合方式极多(维度爆炸),造成指标极多,干扰分析。所以,在分析目标环节要理清出恰当的指标来支持分析。

特殊的维度,对指标进行分组(也叫分桶),比如某天用户打开首页的频次,值域分布1-n,通常就会增加一个分组字段,1次、2次、3-5次、5-10次、10次以上,这就构成了一个新的维度。

下图助于理解,理解了你就是真正的数据分析师了

数据加工,数据清洗,维度和事件,分析模型

模型实现

经典模型,R或Python都有实现好的工具包,学院派使用Matlab、SPSS、SAS等收费工具很便捷。有些模型用sql也能实现,但不建议,比较麻烦,况且R或Python也能方便地执行sql。

根据模型的输入项要求,从数据清洗(维度和事件)和指标统计(维度、指标)的结果选择字段(列),限制数据的维度(时间、地域、状态、对象等)范围(行)。

选择合适的模型可以让分析事半功倍。分析模型众多,怎么选呢?关注后续系列哦。

判断修正

根据统计指标和模型结果,结合分析目标环节给到的参考值,分析师进行初步判断,数据加工的结果偏差如何,是否支持分析,是否要修正。

若要修正,这个局面还是不想看到的。但有时,真是会推倒重来,在于前面的分析目标没做到位。除了数据本身的质量问题,还有分析师还不够成熟,对业务不够熟悉、对数据不够敏感,分析目标需求时出现了偏差。

修正虽然不想看到,但也不可怕。从分析目标需求开始,再走一遍。效率会比第一遍高,数据准备、数据加工都有很多复用,不是完全从零开始。


评论区(0)

评论