导图社区 数据产品经理修炼手册
数据产品经理入门知识,不一定全但是很基础,大数据的4V特性: 体量巨大(Volume) 处理速度快(Velocity) 类型多种多样(Variety) 价值大(Value)
针对书中重要内容进行目录整理,从历史上说,信息显示出一种去物质化的趋势: 从与容器一对一的关系到与容器完全脱离(完全脱离数字信息正式如此)。
针对用户体验五要素进行简单的整理,具体有战略层 strategy、范围层 scope、结构层 structure、框架层 skeleton、表现层 surface,快来看看。
社区模板帮助中心,点此进入>>
互联网9大思维
产品立项报告
产品经理如何做好项目管理
经验分享:产品经理必懂的产品思维
产品诞生过程
产品周期图
开门红的思考
招创智搜
网易星球
教学教务系统
数据产品经理修炼手册
大数据的4V特性
体量巨大(Volume)
处理速度快(Velocity)
类型多种多样(Variety)
价值大(Value)
思维方式
归纳演绎思维
归纳一般性猜想,演绎法修正补充得到结论
数据思维
知识
信息
数据
用户思维
小白思维【极致产品】
产品思维
作为用户思维与工程思维的桥梁
工程思维
关注实现过程
其他思维
5W2H
SMART
任务拆解法
Todo list
优先级
二八原则
分析方法
常规分析
同比/环比分析&ABC法
同比增长率=(本期-同期)/同期*100%
环比增长率=(本期-上期)/上期*100%
以某一指标为对象,以该指标各维度数据与总体数据比重
统计模型分析
回归分析
寻找因变量,常用线性和非线性回归时间序列等。例DAU
分类分析法
决策树、朴素贝叶斯算法、KNN算法、神经网络算法等
聚类分析
选取聚类变量。例细分市场/用户群体。常用K均值聚类,分布估计聚类
关联分析
购物篮分析、属性关联分析
自建模型分析
根据自己需要的数据类型等建立相关分析模型
大数据概要
Hadoop三驾马车
HDFS(Hadoop distributed file system)
NameNode:管理文件元数据
DataNode:存储物理文件
client:获取各种文件的API
MapReduce
任务的分解和结果的汇总给
HBase
列式内存数据库
工具
原始数据层(ODS)
extra(抽取)、transfer(转化)、load(装载)
1、在业务系统和数据仓库形成一个隔离层 2、转移一部分业务系统细节查询功能 3、完成数据仓库中不能完成的功能 即数据仓库从宏观角度满足企业的决策支持要求 ODS层从微观角度反应的细节数据或低粒度数据查询
数据仓库(DW)
基础层:对ODS层数据轻度汇总
主题层:数据的高度聚合层,数据来源基础差&ODS层
数据集市:讲上述两层数据按需求聚合,生成宽表和Cube
数据埋点
埋点方式
前端埋点
代码埋点:通过触发某个动作后,程序发送数据
可视化埋点:记录前端设置页面元素与对其操作的关系,然后以截屏的方式统计数据,上报的行为信息有限。
元埋点:每一次触发接口上报数据
服务器后端埋点:只要有网络,即可实时生成
埋点事件
点击事件:每一次点击按钮记录
曝光事件:成功进入一个页面记录一次(包括刷新)
页面停留时长
一般采用key-value形式
指标字典
指标、量度、维度
基础指标、普通指标、计算指标
数据管理系统的功能
数据流管理--数据关系分析--表与表之间关系
任务管理--每张表完成时间
数据管理--展现数据仓库表信息
其他工具
Elasticsearch
云计算,实时搜索,稳定,快速,方便
Memcached
减轻数据库负载,key-value存储
Redis
持久性操作,将数据提前写入磁盘中
搭配使用
主流工具
spark
开源集群计算环境,与Hadoop互补,交互或者处理工作负载都不错
kafka
高吞吐量的分布式发布订阅消息系统。主要用于处理用户行为数据,具有时效性
storm
分布式数据处理。实时分析,在线机器学习,信息流处理,连续性计算,ETL等 运维简单,高容错
例:从PB级数据中寻找到证件号只需要零点几秒
HUE
cloundera的web可视化工具,简化用户与Hadoop交互
cozie
工作流调度系统
zookeeper
协调服务
YARN
保证不同的工具有序的在同一集群中运行
Hadoop体系架构
Zookeeper
HDFS
Chukwa
Hive
Pig