导图社区 《数据驱动》思维导图
大数据入门书籍《数据驱动》的核心知识框架分享给你!本思维导图包含第一到六章节的知识结构梳理,人工智能、车联网等展开的知识点。如果你想要了解学习《数据驱动》这本书、入门大数据,本思维导图对你很有帮助哦!
编辑于2019-08-26 03:00:38数据驱动
第一章-百度大数据工作经历
网页数据和用户行为数据
搜索引擎发张
内容相关性
网页链接关系
基于用户行为
用户行为分析践行
百度大数据分析平台
日志统计平台
用户数据仓库
数据资源管理
数据源与Event模型
数据采集
大全细时
第二章-大数据思维与数据驱动
数据思维
信息的层次
离散数据
信息,连接元素
知识,组织信息
智慧,应用知识
用数据消除不确定性
数据驱动理念与现状
价值
驱动决策
产品改进
运营优化
营销分析
商业决策
驱动产品智能
数据基础
算法基础
闭环反馈
现状
效率效果差
颗粒度不足
数据孤岛
理想
数据处理
数据接入
数据传输
数据建模
数据统计
数据可视化
条件
数据采集能力
移动互联网
传感器
数据处理能力
硬件发展
hadoop
spark
数据意识提升
第三章-数据驱动的环节
数据采集
采集途径
第三方统计工具
采集不完整,无法深度分析,SDK
统计不准,无法与业务数据匹配
数据安全顾虑
业务数据库
业务数据与统计数据耦合
无法进行批量操作
缺少必要的数据字段
Web日志统计
采集原则
前端操作+后端日志+业务数据
大
宏观的大,系统考虑
全
多种数据
时
细
科学采集及埋点
可视化/全埋点
SDK
代码埋点
前端埋点&后端埋点
导入辅助工具
数据准确性
不准的原因
网络异常
统计口径不同
代码质量
无效请求
具体策略
采集关键行为,后端卖点
统一口径
元数据管理,埋点管理
多维分析快速定位异常
数据建模
问题
报表难懂
性能问题
数据不全
多维数据模型
Event实体
who:ID
wnen
where
how
what
User实体
user profile
数据分析
行为事件分析方法
定义
研究某行为事件发生对企业组织价值的影响及影响程度
事件、维度、指标
特点与价值
事件定义与选择
5W2H
多维度下钻分析
解释与结论
与预期是否相符
应用场景
漏斗分析
定义
流程分析
特点与价值
各层级转化
识别瓶颈
不同用户漏斗比较
留存分析
定义
分析用户参与情况和活跃程度,衡量产品对用户价值高低
按初始行为事件分组的留存分析可消除用户增长对参与数据的影响
特点与价值
判断产品价值的标准,揭示保留用户的能力
把握用户生命周期长度及产品可改善之处
应用场景
找准流失点
新用户留存
分布分析
定义
在特定指标下的频次、总额等的归类展现
特点与价值
按时间、次数、事件、指标进行筛选
挖掘用户分布规律,优化产品策略
运营并持续产品生命力,增加客户回访率
快速识别核心用户群体,优化资源配置
应用场景
找到核心指标然后看分布
点击分析
定义
高亮显示页面区域中不同元素点击密度的图示,点击图
特点与价值
精准评估用户与产品交互背后的深层关系,按事件及用户进行删选
网页内跳转点击分析,逐层深入
与其他模型配合,探索数据价值,感知体验
应用场景
网页改版,结合分群用户,细化分析
单纯浏览者
信息收集者
购买需求强烈者
用户路径
定义
访问行为的顺序,桑基图
特点及价值
挖掘行为规律
定位影响主因
应用场景
APP首页设置内容
哪种路径的转化率低说明需要改善
用户分群
定义
用户信息标签化,用户画像
普通分群
预测分群
特点及价值
了解用户
精准定位目标
应用场景
高粘性与高频用户行为
精准营销,唤醒沉睡
属性分析
定义
用户自身属性对用户进行分类与统计分析
特点及价值
丰富用户画像维度,颗粒度更细
应用场景
按省份查看,按时间查看
数据指标
第一关键指标法
MVP
定性分析,用户访谈
增长
留存指标
引荐指标
growth hacking
病毒系数、病毒周期
NSP net promoter score,净推荐值
营收
LTV life time value生命周期总价值
CAC customer acquisition cost 用户获取成本
渠道分成比例
渠道用户盈利周期
海盗指标法pirate metrics AARRR
acquisition、activation、retention、revenue、referral
黏着式增长
重点在留存,反复使用
病毒式增长
重点在传播,有意愿
付费式增长
重点在营收,付费的目的是再投资
第六章-各行业实践过程
互联网金融
需求梳理
各业务条线近似
事件设计
在哪里收集数据
数据接入
接入方式
埋点方式
规范化:命名、时机、范围
应用场景
还原客户操作,化解投诉
最佳开屏主题
用户分群、精准推送、效果反馈
企业服务
找到好渠道
提高转化率,看每一步的情况
关注老客户
病毒性传播
传播系数
传播周期
净推荐比例
零售行业
打通三关
线上线下数据
用户行为与业务数据
全部门全场景的数据驱动
电商行业
第五章数据驱动产品智能
数据平台
接受
可靠、实时、统一
清洗
格式校验之后加标签标注是否非法
存储
持久高效,HDFS
计算
Spark批量计算
查询
API查询
SQL查询
统计分析类,pvuv
数据处理类
数据应用
常见应用
用户画像
个性化推荐
精准广告推荐
精准用户推荐
反作弊分析
搜索引擎点击模型
智能评价系统
流失用户预警
导航时间预估
常规方法
基于规则
业务经验
过去一个月活跃
浏览过类似产品
消费水平
浏览次数、注册时间
基于机器学习
常用算法
关联分析
A行为与B行为之间的关系,无监督
聚类算法
无监督算法
分类算法
有确定的分类答案,有训练样本,有监督
回归算法
自变量和因变量之间的关系,有监督
线性回归
因果关系
逻辑回归
子主题
子主题
多项式回归
生存模型
时间相关因素较多
随机森林
X-GBst
遗传算法
基本步骤
问题分析
数据清洗
特征工程
模型训练
模型验证
应用举例
用户画像
user persona
典型用户形象
基于调研
user profile
用户标签体系
基于真实累积
特点
反映真实需求
时效性
覆盖度
思路
结构化标签体系
由基本信息得出,有明确的层级,如电商物品
非机构化标签体系
各自为政,无层级 ,如搜索关键词
应用举例
视频网站推荐视频
用户在哪里
可能处于什么场景
观影记录,用户兴趣标签
类型覆盖,向量距离,用户新鲜度的需求标签
与兴趣同,存疑,用户召回
个性化推荐
架构
数据层
内外部数据
策略层
基础数据计算层
汇总
ETL
数据集市:user、item、Event
分析
召回与排序
协同过滤
奇异值分解
HMF混合矩阵分解
显式反馈,评分点赞
隐式反馈,点击播放
CTR测试
数据流
业务分析及模型选择
要对业务的关键指标有了解
HMF
深宽模型
实验迭代
第四章-数据驱动产品和运营决策
运营监控题
获取acquisition
线上线下打通,线下二维码
激活activation
误区
触达即激活
注册即激活
定义
体验产品核心功能,有足够的体验深度
条件
Aha moment
惊喜体验
magic number
某操作之后易忠实
10天交到7个朋友
关注30人
ID串联
途径
减少干扰
提升性能
增加引导
人工接入
留存retention
关注留存
LTV大于3倍的CAC
拉新成本是维老的5~10倍
提升留存,降低流失率
精准信息推送
薄弱环节的人群
合理的频率及内容
运用Magic number
流失用户挽回
利用留存,延长LTV
产品的影响力是用户数的平方
引荐referral
关注NPS
满意带来8个,不满意赶走25个
NPS保障良性利润
NPS=推荐客户数减去负面评论数
营收revenue
向谁收费,哪些部分收费,收多少,依据数据
产品改进
MVP之后以数据分析确定改进方向
灰度发布、A/B测试、数据验证
商业决策
决策内容、方式、时机、实施方法
管理者应建立起一种以客观数据为决策依据和衡量标准的价值观和制度体系
看到本质,降低沟通成本,赋予洞察力
主题
人工智能
机器学习
深度学习
神经元学习
通过大量的无效信息
模拟人的思考方式
没有记录即认为没有发生
车联网
信息终端
收集信息
媒体
发布
APP
下载改变
增换购
有需求
艺术
科学
工程
子主题
有目标
品牌忠诚
深度
近度
频度
额度
广度
关系的多层级
分解重组
决定的维度