导图社区 数据分析基础
这是一篇关于数据分析基础的思维导图,强调了数据预处理的重要性,包括数据提取(如编写SQL语句)、数据清洗(如处理重复数据、缺失数据和异常数据)等步骤。还详细讨论了数据分析的基础概念,如绝对量指标、对比性指标、离散程度指标(如方差、标准差、四分位数等)以及协方差和方差的概念。还提到了数据分析的常规流程,包括分析数据、得出结论、验证结论和展示结论等步骤。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
数据分析基础
定义
合适的工具
统计学理论
数据预处理
高效决策
三大作用
现状分析
一、 现阶段的整体运营情况——分析各个关键指标
二、 各项分支业务的发展及变动情况
原因分析
1. 专题分析
针对某一现状进行原因分析
预测分析
通过上述的原因分析,针对性地实施策略。
分析的指标
总体概览指标(统计绝对数):反映某一数据指标的整体规模大小
某时间段内某些指标的绝对量
eg:销售额、订单量、购买人数 etc.
对比性指标:说明现象之间数量对比关系的指标
eg:同比、环比、差 etc.
集中趋势指标:反映某一现象在一定时间段内所达到的一般水平
平均数 or 加权平均数
众数
只有总体内单位足够多才有意义
中位数:基于位置的指标
离散程度指标:表示总体分布的离散(波动)情况
全距(极差)
问题:容易受异常值影响
引入四分位数的概念:由小到大排列,一分为四
最小的四分位数:下四分位数
中间的四分位数:中位数
最大的四分位数:上四分位数
方差:每个数值与均值距离的平方的平均值
标准差(方差的开方):表示数值与均值距离的平均值
相关性指标:反映数据整体内的变量之间的关系
相关系数r
Cov(X,Y):X与Y的协方差
Var[X]:X的方差
Var[Y]:Y的方差
具有相关关系的两者不一定有因果关系
数据分析的常规流程
熟悉工具
明确目的
希望通过数据分析得出什么
获取数据
1.需要什么指标
2.需要什么时间段的数据
3.数据怎么提取(自己写Sql?)
熟悉数据
1.有多少数据
2.数据是类别型还是数值型
3.每个指标大概有哪些值
处理数据
1.重复数据:一般做删除处理
2.缺失数据
缺失比例高于30%:放弃该指标
缺失比例低于30%:一般填充处理(使用0、均值或者众数等进行填充)
3.异常数据:结合具体业务进行处理
4.测试数据:一般做删除处理
分析数据
层层下钻
得出结论
验证结论
展示结论
数据可视化