导图社区 大数据分析的道与术
大数据分析业务与操作方法,思考本身也是一种实践,使人对知识的掌握更加系统化和深入化;数据分析常用来验证思路和启发灵感,却不能代表思考本身,而对业务的理解和判断才是整件事情的灵魂。
编辑于2022-02-15 14:48:54大数据分析的道与术
道
数据分析关键
什么是数据分析
数据分析的价值
数据分析
革新业务模式
数据建模
增进业务效率
数据分析的应用场景
掌握业务状态
分析业务潜力
评估业务进展
如何做好数据分析
业务调研
理解业务
起点:从业务中来
创新思考
分析思路
竞争力:深度广度
逻辑推理
正确归因和判断
数据>结论
可行建议
改进建议与执行方案
结论>执行
业务调研
一线调研
创新思考
学
学科
经济学
研究人理性的一面,适用于众多商业产品相关的分析场景
心理学
研究人感性的一面,适用于众多用户产品相关的分析场景
统计学
有很多成熟的技术方法,如果能有效运用,会给分析带来诸多便利
思
思考的习惯
思考本身也是一种实践,使人对知识的掌握更加系统化和深入化
一个真正懒惰的人,不是不够勤奋,而是逃避思考
数据分析常用来验证思路和启发灵感,却不能代表思考本身,而对业务的理解和判断才是整件事情的灵魂
逻辑推理
逻辑陷阱
相关性误解
缺失或不匹配的比较
精心挑选的数据维度
基于个案的认知
过多脑补的推理
先入为主的偏见
可行建议
评价标准
及格线
事实
优秀线
分析
满分线
行动
补充:数据报告
神重于形:抛开PPT
以终为始:清楚自己的目标
专注+简单:讲一个故事
换位思考:考虑受众
化繁为简:形象化思维
擅用比喻:唤起记忆
术
起源
统计指标是怎么来的?
重启思维模式
独立思考,不要只学是什么,还要学为什么
统计的意义及指标
分布度量
概率分布表
直方图
位置度量
均值
中位数
散度度量
标准差
多元比较
相关系数
连续变量VS连续变量
身高和体重
连续变量VS离散变量
年龄和喜好
离散变量VS离散变量
城市规模和购物方式
模型评估
准确率
召回率
业务指标
相关性
统计图形是如何设计的
图表设计类型
成分
饼图
雷达图
排序
条形图
时序变化和概率分布
柱形图
线形图
关联性
散点图
统计图表三原则
目标原则
极简原则
不扭曲原则
图形化思考方法论
决策作图方案步骤
拆解内容维度
who\what
表达信息的主体、表达内容
how much
表达数量的多少
where
表达位置和布局关系
when
表达时间关系
how
表达完成一件事情的步骤
why
事情或现象的原因
确定图形类型
who\what
头像或图标
how much
统计图表
where
位置关系图形,布局图、线路图
when
时间计划甘特图
how
工作流程图
why
散点图或折线图
选择表达方式
simple
简单或精细,突出最主要的逻辑和理念
quality
定性或定量,定性的说明结论,定量的展示差距
vision
愿景或执行,描述设想蓝图,阐述到达目标的可行路径
individual
个别或比较,展示个别事物信息,还是突出几个事物之间联系
delta
现状或变化,展示事物当前状态,从过去到现在,从现在到未来的发展变化
信任
我们能相信统计吗?
统计可信吗
统计推断
从抽样的数据统计指标来推断整体数据的统计指标
数据分析
从观察到的数据中分析出本质规律,对新情况做出判断
数据建模
使用观测样本训练模型(拟合一条直线),对未知的样本做出预测
基于概率的信任
大数定律
既不是完全信任,也不是不信任,而是基于概率的信任
观测的样本越多,结论越发置信
如何实现基于概率的信任
概率分布与推测
概率的由来
概率用来描述“各种事件结果的发生可能性”
概率分布
一个事物(变量)存在多个可能取值,在不同取值上出现的概率称为概率分布
正态分布
当影响一个事物结果的各种因素随机发生,根据中心极限定理,它们的总和平均表现就是正态分布
通过概率分布来计算概率
变换成标准正态分布Z=(x-μ)/δ
均值
分布的中线
标准差
分布的高低
实现基于概率的信任
基础版
假设验证
进阶版
区间估计
应用理念:细致与置信的权衡之道
分类维度要足够细致,够细致才能准确地定位细分群体,不会淹没有效的信息
保证分类中含有足够样本量,样本量足够才能使大数定律发挥效应,得到置信的统计结论
评估:正确的认识世界
平行世界与同质对照组
原则1:保证同质
通过分层抽样,保证对照组的样本构成与实验组非常相似
原则2:避免偏差
选择样本数量足够大的实验组和对照组,使产生抽样偏差的概率变小
有偏差的抽样
设计统计方案中的方法论
以简为始,不断优化
理想蓝图,逐渐逼近
观察典型,启发思路
分清主次,化繁为简
需求出发,贴近应用
运用
统计分析的方法
样本
个案分析
个案分析
问题显著
数量巨大
统计归纳
异常分析
这些意外往往是启发新思路,推进产品改进的源泉,称为“异常分析”
分组分析
组内相近
组件相异
指标
分布分析
趋势分析
单指标的趋势分析
趋势
周期
异常
波动
多指标的趋势分析
基本元件
增强环
调节环
时间延迟
常见基模
饮鸩止渴
富者愈富
参考书籍
《第五项修炼》
《系统之美》
因素分析
横向因素拆分
采购环节
生产环节
销售环节
资本环节
纵向因素拆分
漏斗分析
消费者偏好和企业差异化战略
无差异曲线和差异化产品的经济价值
流通本质
生产需要专一,提升效率
消费需要多样,人类最需要的是多种消费品的合理组合,而不是一个消费品本身
多样性产生的价值
专注的价值:针对细分市场,用户需求更加鲜明,产品容易做的专业
差异化的价值:以相同的成本,实现对目标用户群更多的体验价值
企业差异化战略的设计步骤
确定细分市场
分析价值组合
结合企业优势的成本核算
最优战略的执行方案
细分市场和差异化产品案例:价格歧视
与领域相关的分析方法
领域1-项目安排:成本/收益
优先
低成本高收益
攻坚
高成本高收益
鸡肋
低成本低收益
抛弃
高成本低收益
领域2-时间管理:重要/紧急
重要紧急
马上去做
重要不紧急
有计划的去做
不重要紧急
尽量减少该类情况,改进流程优化
不重要不紧急
放弃这样的事情,或请人代劳
领域3-产品分析:广度/频度
广度大频率高
平台企业
广度大频率低
市场广,依赖长期广告宣传和流量导入
广度小频率高
专注特定人群,粘性高
广度小频率低
碎片化需求适合附着在某些平台化应用上
领域4-发展战略:占有率/利润率/发展率
核心
占有率高、利润率高、发展速度快
战略
利润率高、发展速度快但占有率低
转型
占有率高、利润率低
抛弃
利润率低和占有率低
高级
OLAP工具与机器学习
OLAP技术
核心概念
维度
度量
核心操作
“切片/切块”
“钻取/上卷”
应用场景
交互分析
万能报表
工具实践
Excel透视表
商业智能BI工具
Modrian
无监督学习模型
任务
分类任务
聚类任务
数据探索阶段
聚类分析
相近的A,会得到相近的B
关联规则
出现了A,高概率出现B
监督学习模型
预测任务
特征
输入已知信息X
预测值
输出预测结果Y
模型
代表Y-X之间的某种函数关系
样本
收集的记录或训练样本
判断是否监督学习模型
监督学习关键步骤
假设空间
优化目标
寻解算法
监督学习完整步骤
业务分析
将业务问题转化为算法问题,确定使用模型和输出Y
模型类型
回归
分类
排序
推荐
Y含义
数值
分类标号
概率
特征工程
探索有效特征
有效特征越多,模型预测能力越强
排除无效或冗余特征
减少模型计算的性能开销
排除无效特征对预测结果的干扰
样本处理
确保样本分布与真实分布一致
假设空间
圈定Y-X关系的可能范围
线性关系
平方关系
三角函数关系
指数函数关系
分段函数关系
优化目标
评价函数,关系好与不好的衡量标准
寻解算法
机器从假设空间中把最优优化目标的Y-X关系找出来
学习理论
研究模型真实预测能力
样本量
采用模型复杂度
模型评估
评估是否解决业务问题,明确下一步目标
释
拥抱大数据
组建团队