导图社区 数据分析课程笔记
数据分析课程笔记的思维导图,如 大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
编辑于2023-07-13 18:00:54 广东数据分析
数据分析方法
业务分析三个阶段
现状分析-过去发生了什么
通过指标来衡量业务的运行和完成情况
原因分析-为什么会发生
确定业务变化的原因,并给出改进建议和应对措施
预测分析-将来会发生什么
对业务的未来发展趋势做出预测
常用的分析方法
描述性分析
探索业务运行和发展规律
对比/分布/结构/趋势/交叉
相关性分析
寻找影响业务的关键因素
相关/方差/列联
预测性分析
预测业务未来的发展趋势
回归/时序/逻辑回归/决策树/神经网络
推断性分析
利用样本估计总体特征的问题
概率分布/抽样估计/参数估计/假设检验/非参检验
专题性分析
解决特定场景的数据分析模型
精准推荐/市场细分/价值评估/产品设计/定价策略
常用统计指标
集中程度/整体水平
平均值
平均值能够利用所有已知信息,但易受极端值影响。一般常用截尾平均或分类平均代替平均值
中位数
排序后居于中间位置的数值。不能充分利用已知信息,但不受极端值的影响。
众数
出现最频繁的数值,代表分布中的高峰。离散型数值常用
离散程度/波动程度
极差
也叫全距:最大值与最小值之差,容易受极端值影响
标准差
实际值与均值的平均举例,度量离散程度。数据越分散,标准差越大,常用于正态分布
四分位距
IQR:上四分位数与下四分位数之差。较少受极端值的影响,适用于非正态分布
分布形态/分布趋势
偏度
说明分布的左偏和右偏程度,通过与标准对称分布的偏态系数比较来实现(越接近0偏斜程度越低)
峰度
说明分布的尖峰和扁平程度,通过与标准正态分布的丰台系数比较来实现(>0为尖峰/<0为扁平)
描述性分析
统计分析
数据类型
类别型
无序型
有序型
类别:用于对象分组
数值型
连续型
离散型
指标:用于计算指标
日期型
统计分析就是用分类和比较的方法来回答业务问题
统计分析三个步骤
统计
1找到恰当指标/2寻找全面类别/3按类别统计指标
绘图
1选择合适图形/2绘制图形元素/3调整优化图形
解读
规律/变化/结构/趋势/异常/关系
业务问题转化为数学问题 统计分析形成分析结果 分析结果总结形成业务策略
对比分析
将数据值进行比较,分析其中的差异和变化,从而揭示事物的发展变化和规律性
操作模式:类别→指标(常用柱状图)
作用:查看数据的差距,查看数据的变化
分布分析
用来了解数据的分布特征,探索业务层次
适合于对单个数值型变量做分析
操作模式:分段技术(数据段→计数)常用直方图表示
结构分析法
考察部分与总踢的对比关系,即部分占总体的比例,属于相对指标
操作模式:类别→指标/占比,常用饼图标识
饼图:静态/堆积百分比柱状图:动态
结构瀑布图:即可看到组成部分的差异,又可看出总体值的大小
变化瀑布图:即可看到组成部分的大小,游客看出总体值的持续变化
作用:评估结构的合理性
哪项内容需要重点投入?
各项占比是否达到预期?
趋势分析
主要探索时间对事物的影响,属于一种动态分析,得出数据的增减变化情况,时间颗粒度为年/季/月/周/日/时/分等
操作模式:时间段→指标,常用折线图表示
作用
探索季节周期性变化,识别淡旺季
发现数据的变化趋势,为预测未来提供方向
交叉分析
按照两个或多个属性对数据指标进行统计分析,来发现更系化的规律和特征,最常见的二维交叉表分析法
适用:从两个维度分析数据的特征规律
数据分析框架
分析思路/数据分析框架
从宏观角度指导如何做数据分析
将复杂的商业问题进行分解和细化,转化为数据问题
主要内容
分析维度:从哪些维度进行思考?要考虑哪些要素?
分析步骤:有哪些关键步骤?先做什么,再做什么?
业务问题:分解后的具体业务问题有哪些?
指标体系:涉及哪些核心指标
常用的模型
管理模型
PEST/波特五力/SWOT/PDCA
营销模型
STP/4P/5W2H
运营模型
AIDA/AIDMA/AISAS/AARRR
分析框架层级
业务目标,终极目标是什么?(粗粒度)
分析维度,即从哪些维度来思考?
业务主题,要回答的业务问题是什么?(细粒度)
支撑数据,从哪些类别来统计哪些指标?
数据分析过程
明确目的
确定分析目的
为什么要做数据分析
要解决什么业务问题
确定分析思路
分解任务,搭建分析框架
维度/步骤/核心指标
分析思路来源于业务模型
先决条件
业务数据化
收集数据
明确收集范围
名称/类型/时间范围
确定收集来源
数据库/互联网/出版物/市场调查/CRM/营销系统……
确定收集方法
怎样快速获得想要的数据/自动采集……
素材和依据
整理数据
数据清洗
去重/无效数据删除/填补缺失值/删除离群值
数据集成
多个数据集进行合并(数据追加/变量合并)
数据处理
数据行筛选/抽样/离散化
变量处理
数据列精简/变量/提取
形成适合分析地样式
分析数据
选择合适的分析方法
对比/分布/结构/趋势
构建合适的分析模型
相关/回归/聚类/决策树等
选择合适的分析工具
统计工具:Excel/Power BI/Tableau
挖掘工具:SPSS/Modeler
常用的分析语言
Python/R语言
数据呈现
数据分析结果的呈现
表格:更准确的描述数据
图形:更直观地表达观点
提取有价值地信息
数据信息化
形成结论
一般结构
背景目的
分析思路
具体分析
总结建议
报告种类
日常数据通报/综合分析报告/专题分析报告
形成结论
信息策略化
数据决策思维
大数据
指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据软件工具能力范围的数据集合
数据的本质
数据:一切事务的活动都会留下痕迹(数据足迹)
数据是对客观事物的描述和记录(属性/状况/变化)
销售数据-势对客户购买行为、产品受欢迎程度、公司收入贡献等描述
工厂数据-是对生产流程、工作状况、制造工艺、设备运行状态等的描述
交通数据-……
数据是用来探索事物发展和变化规律的高效工具
大数据的本质-从多维度/全方位对事物的描述
大数据不在于大、而在于全(多维性)
大数据决策的底层逻辑
探索规律
用户行为i规律/市场营销规律/企业发展规律
发现变化
业务指标变化/市场发展变化/企业运营问题
理清关系
影响因素关系/购买决策因素/资源最优配置
预测未来
客户行为预测/市场精准营销/行业趋势预测
大数据决策路径
逻辑
业务问题(转化)数学问题数据(数据分析)分析结果信息(形成)业务策略
数据决策三环节
业务数据化
将业务问题定义为数据可分析问题
数据信息化
分析数据,提取业务规律/特征信息
信息策略化
基于业务规律信息,形成最终业务策略
业务数据化
用户需求分析/用户消费习惯
统计问题(对比/分布……)
精准营销/风险控制
分类预测(决策树/神经网络)
市场定位/客户群细分
聚类问题(PCA/RPA模型……)
产品设计/销量提升
影响因素分析(相关/方差……)
跨越技术与业务的鸿沟
技术语言
道
数据思维
分析思路/框架
术
分析过程、步骤
分析方法
分析模型
分析/挖掘工具
业务语言
产品精准营销
影响因素分析
用户行为分析
客户行为预测
市场客户细分
客户价值评估
产品交叉销量
产品定价策略
你缺的不是一堆方法 而是系统性的思维
数据分析师综合能力
懂业务
熟悉行业知识,业务逻辑及KPI指标
懂理论
熟悉业务模型,会搭建系统全面数据分析框架
懂数据
了解分析过程,掌握分析方法及分析模型
懂工具
熟悉分析工具,如Excel/SPSS/PBI/Python等
可视化
掌握图标设计原则,绘图方法和技巧,直观呈现结果
案例
阿里如何预测经济危机
交易数据
交易量下降
交易金额下降
滞后性-危机已经来临
询盘数据
转化:询盘量与交易量存在正相关
领先:询盘数据发生在交易数据之前
经济危机要来了
数据采集 数据来源或种类不一样,能够表达的业务信息也不一样
客户需求分析
基本信息
客户标识/性别/生日/居住地……
兴趣爱好
百度:搜索关键词/点击链接/浏览网页
关注点
今日头条:阅读资讯/收藏文章/评论信息
产品偏好
搜索产品/点击产品/购买产品
渠道偏好
常用APP/常上网站/常逛商场
消费能力
银行存款/网购单价/消费理财
购买行为分析
WHY
用户需求:用户购买产品的目的
产品亮点:产品哪里吸引客户
竞品分析:与竞争对手相比的优势/劣势
WHAT
产品/品类的受欢迎?
产品质量
服务满意度
产品结构是否合理
WHO
谁是我们的用户?用户有何特征?
基本特征
消费能力
产品偏好
WHEN
销售时间:何时购买?淡旺季
活跃时间
重购周期:多久再次购买
WHERE
地域:用户喜欢在哪里购买/各产品的区域偏好
渠道:受欢迎的渠道/渠道偏好
HOW
支付:喜欢的支付方式i/影响支付的因素
促销:哪种促销方式好/促销投入,提升效果?
HOW MUCH
收入/变化/结构?
成本结构
利润空间
价格合理性
库存合理性
手机营销问题
方法论
精准营销-6R模型
正确地客户
恰当地信息+正确地产品
最佳的时机+合适地价格+合适地方式
分析思路
客户
新客户:无手机 旧客户:换手机
手机使用时长
挂失过/维修过
搜索过/咨询过
产品
精准匹配/品牌定位
历史用过的品牌
搜索过的品牌
各品牌用户特征(年龄/职业……)
价格
消费能力
工资/存款/理财账单等
消费档次
历史手机价格区间/客单价
相关因素
价格与消费水平/收入的关系
价格与(岗位/学历等)的关系
时机
需求时机
使用时长与终端生命周期比较
咨询/挂失/搜索/维修时间
促销时机
发薪日/节假日/新手机发布时间
渠道
常规渠道
实体店/外呼/短信等
网络渠道
常用APP/网站/购物平台
套餐
个性推荐/套餐偏好
历史套餐/流量/通话时长
套餐与星别/职业等的关系
建立分类预测模型
业务数据化
业务目标(粗粒度)
分析维度/关键步骤
业务问题(粗粒度)
喜欢赚“差价”的营业员
案例背景
每月额外5k-10k差价外块
会员享受8折扣,偷偷办理会员卡替代非会员结账
每月例行促销8折,把全价货物退货再按促销价重新开单
如何数据管理
定义指标:退货率/会员消费占比
定期统计,找出共性的波动规律
区域平均退货率
所有店铺的会员消费占比
找出指标异常店铺
退货率高的店铺
会员消费占比高的店铺定位
深入异常店铺进行核查
1明确目的 2收集数据 3分析数据 4形成策略