导图社区 数据产品-liqy
自助式分析平台:定义:敏捷的BI自助分析平台,通过数据源、单图、看板等功能,实现多主题数据自助分析,同时能展示多种图表样式,支持业务人员自助创建报表。
编辑于2022-07-13 20:19:29数据产品经理
什么是数据产品
认识数据产品
应用场景+数据+产品化=数据产品 (数据产品有利于搞笑获取数据,并且让决策更加科学)
数据产品成长史
初创期
EXCEL
引进期
引进第三方数据产品服务
此阶段业务优先
成长期
公司数据量达到百万以上,开始建设自己的数据平台;建立初期优先建立数据质量平台
成熟期
公司发展成熟,已建设各种数据平台;例如:数据质量平台、埋点平台、大数据分析平台等开始为业务赋能
此阶段需要关注,对数据产品规划要有节奏,要考虑需求,也要考虑各个产品的依赖关系
驱动期
此阶段需要融合公司的整个业务发展顺序,打通所有数据,形成中台体系,为各个业务提供数据交叉分析,帮助业务线快速成长
数据产品的分类
数据产品矩阵
数据产品例子
合格数据产品的要求
数据产品经理
定义及工作
狭义
负责实现数据产品工具,并用它去满足特定数据使用需求的岗位
实现产品类型
数据质量产品:实现数据质量管理平台,提供可靠准确的数据
数据工具产品:建设大数据分析平台等形式的数据产品,提高数据获取效率
数据应用产品:实现某个场景下的数据产品解决方案,驱动业务发展
数据产品能力差异
广义
数据产品经理不仅限于实现数据产品工具,还要完成数据分析、运营等数据相关工作,负责公司的数据服务
实现产品类型(包含狭义)
数据生产
写数据脚本
产出数据表
维护数据生产流程
数据提取
负责业务提出的数据需求提取数据
交付准确可靠的数据
数据分析报告
分析日常业务
产出分析报表
形成业务结论
数据运营
搭建指标字典
指标字典维护和运营
运营数据,排查问题
能力图谱
能力模型
工作流程
如何成为数据产品经理
数据产品经理核心技能
设计阶段
指标字典
定义:对业务指标成体系化的汇总,用来明确指标的口径、维度、指标取数逻辑等信息,并能快速获取到指标的相关信息
业务数据标准化的基础、对指标进行统一管理、方便统一修改、共享和维护
指标组成
维度
例:按照支付时间统计,不考虑订单是否取消
汇总方式
例:求和、求均值
量度
例:金额:元
指标类别
基础指标
指不能再拆解的指标,通常表达业务实体原子量化属性的且不可再分的概念
例:订单数、订总金额
复合指标
建立在基础指标之上,通过一定的运算规则形成技术指标集合
例:平均订单金额=订单总金额/订单数
派生指标
基础指标或符合指标与维度成员、统计属性、管理属性等相结合的指标
例:近30天订单金额=用户在过去30天完成支付的订单总金额
指标字典实例
如何设计指标字典
1.确定分析指标
运用GMS模型确定分析指标
1.识别目标
2.推导相应的用户表现
3.找出关键指标
2.明确指标的维度与口径
先从单维度、粗维度分析
再细拆维度,自外而内地看问题
3.指标评审
就正描述不明确或者有分歧的指标,达成一致
4.运营指标字典
指标字典培训
指标字典推广
例:专题活动效果,数据分析
确定分析指标
1.识别目标:分析专题活动效果,课程购买情况
2.表现:访问人数增加,用户粘性高,转化率提升
3.关键指标(3~5个):页面方位人数、用户停留总时长、用户平均停留时长、购买转率
明确指标维度和口径
指标:页面访问人数
指标口径:一段时间内,浏览活动页面的人数
维度:平台、应用版本、时间(日/月/年)
指标字典产品化
展示和搜索功能
更新记录和通知功能
指标留言回复功能
打通数据分析平台功能
可拓展性?
注入元数据中心
接入指标提取工具
自助完成查询分析
埋点
埋点方式
前端埋点
定义:在客户端采集前端数据,如:用户时间行为,界面变化等
埋点选择:需要分析与后端没有交互的前端行为
埋点方式
代码埋点
通过调用埋点SDK的函数,在需要埋点的业务逻辑功能位置用接口上报埋点数据
优点
设置自定义属性、自定义事件
控制发送的时机和发送方式
控制数据的准确性
缺点
工程量打,控制埋点都需要代码
人力成本搞,需研发工程师写代码
埋点更新或漏埋点
可视化埋点
把核心代码和配置、资源分开,通过部署在产品上的基础代码对产品的所有交互元素进行解析,并在可视化页面对埋点区域和事件进行设定,从而在记录用户操作行为
优点
简单、方便,快速埋点
无需版本更新,节省人力和更新成本
新增埋点在所有版本生效,不存在迭代问题
缺点
上报的行为信息有限
不能自定义交互事件属性
不支持可以不断加载的内容瀑布流交互
无埋点
通过SDK,前端自动全量采集全部事件并上报埋点数据,当用户触发任何事件时,会自动上报数据
优点
无需埋点
在解决数据回溯的问题上更有优势,适合做页面点击热力图
技术门槛低,部署简单
缺点
自定义数据不灵活,传输时效性差
数据形式非业务导向
增加服务器负载,兼容性不嫁,数据存储空间大
埋点方式对比
埋点方式选择
后端埋点
定义:在服务端采集数据,如:业务逻辑、接口调用、数据交互等
埋点选择
各行业中有特殊业务需求的数据,优先考虑后端埋点
追求进行话运营,需多维数据分析
包含重要业务数据的网站和APP
对数据安全要求比较高
设计埋点
设计原则
同种属性的多个事件要命名成一个埋点事件ID,并以Key-Value 的形式区分
不同属性的多个事件应该命名成多个埋点事件ID,此时也尽量不用Key-Value 的形式埋点
Key-Value形式的埋点设计原则
Key 标示某个事件
Value 代表相应的值
一个Key 可以对应一个Value 或多个 Value
埋点文档例子
活动实例
曝光事件
点击事件
页面停留时长
生产阶段(数据生产)
数据仓库
数仓定义
定义:DW,一个很大的数据存储集合,是为企业决策提供数据支撑而构建的集成化数据环境
不生产,不消费任何数据,数据来源于外部,并开放给外部应用
数仓特点
主题性
数据仓库按照一定主题进行组织,一般根据业务线情况划分
集成性
数据可能来自多个数据源,数仓会将所需数据进行提取、转化、清洗(ELT),再集成到数据仓库中
稳定行
数据仓库是不可更新的,主要为业务提供分析决策的数据,其数据具有不可修改
数仓需满足的需求
高效率
满足日、周、月等粒度的数据获取和查询效率
数据质量高
数仓进行ETL数据清洗,需要控制好数据质量,若出现脏数据,会影响数据仓库质量,也会影响决策
可拓展性
主要体现在数据建模的合理性,便于以后因业务规模发生变化而不用重复造轮子
数仓三层结构
基础层
定义:主要对ODS层数据进行轻度汇总
模型
产出:轻度汇总明细、维度表、事实表...
主题层
定义:数据高度聚合层,按照一定的维度和业务逻辑,对一类数据进行聚合,主要生成画像表和主题表;主题层的数据来源是基础层和ODS层
特点
产出:主题表A、主题表B、主题表C...
主题例子(电商):当事人主题(商家、用户、运营)、资产主题(商品、类目、SKU等)、商品主题、交易主题、事件主题、物流主题、财务主题、营销活动主题
数据集市层
将主题层和基础层的数据,按各业务需求进行聚合,生成宽表和Cube,并直接推送给数据分析和业务部门使用,有利于提升数据准确性和取数效率
特点
集市表A、集市表B、集市表C...
数据质量
数据应满足的要求
数据完整性
业务设计的数据应该是完整的,如:用户基本信息,应有用户ID、用户电话、地址等
数据准确、精准性
如:成交额是18W ,还是18.2W是两种精度
数据一致性
通知数据定义,保证不用业务用到相同指标,数据是一致的
数据可获取性
数据是方便检索和获取使用的
数据时效性
业务需要的数据应该是最新的,不是过期数据;数据更新也应该及时
机制上保证数据质量
建立数据质量评价体系
选取评估方向
完整性
一致性
正确性
时效性
用指标量化评估方向
完整性:记录数和唯一值
一致性:数据和数据定义是否一致,一致性的比率
准确性:数据值是否在预期范围、数据波动情况
时效性:数据产出时间
建立数据质量评价体系
对整个流遇链条上的数据质量进行量化指标输出,数据质量的预警
定位问题
问题定位与解决,避免质量问题扩大
实现数据质量信息的采集、分析与监控
在数据流转环节的关键点配置数据采集规则,设置埋点
采集数据质量监控信息,输出数据质量指标体系
分析数据处理流程的数据质量,评估数据质量
建立数据质量的持续改进工作机制
发现问题
信息问题
流程问题
技术问题
管理问题
追溯问题原因
形成机制
持续跟踪
优化机制
完善元数据管理
描述数据的数据,保障使用者准确地获取所需信息; 良好的元数据能为数据质量的采集、分析、监控、改进提供高效、有力的强大保障
分类
技术元数据
业务元数据
管理元数据
系统上如何保证数据质量(数据管理中心)
数据流管理
又称血缘分析,用以解释数据之间的相互影响
了解数据的使用与被使用情况,便于维护、定位与统一管理
任务管理
查看每天的任务执行情况,每张表的任务完成时间、任务延时情况,几延时原因
任务异常,快速联系数据表负责人
查看表间依赖关系、任务历史完成情况以及表的字段信息
数据表管理
展现数据仓库表的信息,包括所属数据库、存储类型、负责人、产出状态、数据库地址、标签、备注、所属业务组等,可快速检索、查看和编辑
数据分析方法
数据分析场景
预测产品在未来一段时间内的日活用户数,或按照什么趋势发展
预估一下DAU,开展活动的后,预测活动效果,用户参与度
对用户进行细分,到底哪类用户才是目标用户
在用户进行购买商品后,哪些商品同时被购买的概率更大
六大常用的分析方法
同环比分析法
根据数据的同比、环比数据的变化情况,分析数据的波动情况
同比:(本期数-同期数)/同期数 * 100%
环比:(本期数-上期数)/上期数 * 100%
使用场景:工作日报、周报、月报等;核心指标变化:DAU周环比变化,若数据变化幅度较大,就需要进行相应的数据分析
案例
ABC分析法
以某一指标为对象,进行数量分析,以该指标各维度数据和总体数据的比重为依据,按照比例大小顺序排列,并按照一定的比重或累计比重标准,
使用场景:二八法则
案例
回归分析
确定两种或两种以上变量间相互依赖的定量统计关系分析方法,常用有线性回归,非线性回归规划序列等
使用场景:通过确定自变量和因变量,根据历史数据确定数据关系,拟合回归分析模型,进行数据预测
案例
分类分析
研究对有关信息进行分类的方法,通过数据特点,将数据对象划分为不同类别,在针对具体类别进一步分析,挖掘事务的本质
常用的分类算法
朴素贝叶斯
逻辑回归
决策树
随机森林
支持向量机
...
使用场景:主要用途和场景是“预测”,基于已有的样本预测新样本的所属类别,如信用评级、风险等级、气炸预测等
聚类分析
根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别可能大的一种分类方式
常用的聚类分析算法
K均值聚类
分布估计聚类
...
应用
机器学习
数据挖掘
模式识别
图像分析
应用场景
电商,把具有相同浏览行为的用户进行聚类,然后用已知的用户浏览行为,对新用户的浏览行为进行预测或推荐更合适的服务
案例
关联分析
发现存在于大量数据集中的关联性和相关性,从而描述了一个食物中某些属性同时出现的规律和模式
常用的关联分析算法
Apriori
FP-tree
...
应用
商家营销策略
医疗
保险
证券等
案例
数据分析方法应用实例
同环比实例:《积分活动效果》活动对网站DAU和平均停留时长的影响
回归分析
第三方数据服务商
数据产品体系建设流程
规划
评估阶段
识别业务场景
GSM 模型
费用预算与收益评估
费用预算
安全性评估
选型阶段
客户情况
第三方服务商,有没有服务同行业的客户,案例
技术能力
子主题 1是否有强大的计算能力,在我们遇到问题中及时提供技术支持,快速修复
客户投入
我们需要投诉什么资源,能不能实现最小成本的投入
拓展程度
设计
收集业务需求
明确对象
明确访问形式
需求调研
筛选需求
挖掘需求
需求分类
需求排序
数据产品产品功能设计
了解功能
了解应用场景
需求与功能匹配
沟通协调
指标体系设计
数量数据指标体系
明确指标口径
埋点设计
梳理埋点文档
建设
数据接入
集成SDK
根据埋点文档开发埋点
调试查看埋点数据,确保数据质量
数据传输(第三方服务商)
数据建模\存储(第三方服务商)
数据查询
第三方服务进行数据正确性校验
进一步校验数据准确性
观察数据生产流程稳定性
数据可视化
梳理报表需求
产出数据
产出报表
权限管理
运营
数据运营
排查数据问题
推广第三方数据产品服务
业务沟通与支持
需求沟通
功能推荐
问题支持
应用场景探索
通过探索业务场景,找到业务的问题或者增长点
常见问题
如何保证数据的安全性
签署数据服务协议时,需提供保障数据质量的服务条例
需提供数据分布式的存储方案,重要数据有冗余存储
数据传送过程中提供加密服务
账号之间进行权限控制
出现数据指标不一致
明确双方的数据计算逻辑是否一致,明确指标口径
与第三方明确取数逻辑
协调公司内部排查数据,看源头是否出现问题
自建数据产品,如何过渡
自建数据产品服务的两个信号
数据量
数据量爆发式增长,用第三方数据产品服务成本高
产品功能
第三方数据产品服务不满足需求,需根据业务型号定制化
过渡方案
列出迁移数据的计划,自定义埋点模型,过渡期间两种埋点方案同时存在;针对自定义埋点上报数据,做数据仓库建设,产出数据集市
与第三方数据产品同时运行,业务核心需求通过自建数据产品实现
停掉第三方数据产品服务,平稳过渡到自建数据产品
数据分析平台
大数据分析平台
定义:企业一体化的数据分析和应用平台,为企业提供大数据分析与决策
作用
整合各类数据
数据可视化
分析、挖掘数据
典型产品
神策数据
BDP
GrowingIO
建设大数据分析平台的三种方式
在开源产品上搭建大数据分析平台
Airbnb - Superset
第三方付费大数据分析平台
神策等..
自建大数据分析平台
安全性:采取访问认证机制、重视系统自身安全性
可拓展性:平台功能设计、研发需具备可拓展性
灵活性:与其他应用系统的整合功能:实现多种类型的接口、灵活接入其他系统
可拓展的报表平台
传统报表平台
根据需求开发前端页面,并通过手动写数据接口来获取展示数据的一种定制化的报表平台
可拓展报表平台
通过查询适配器来转化查询语句获取数据,并由单图和看板展现数据的报表平台
图表类型
单图
数据分析平台中的最小可视化单元,它是基于某一个数据源构建的Chart,一般包含图片和筛选条件
特点
通过图表对指标进行各种样式的展现
可进行多维度的查询操作
功能
选择维度:可以选择多个维度,向下钻取
选择时间:选择OR 自定义天数:昨天、过去7天、过去30天、过去90天、过去180天、过去365天
选择图表样式:支持多种图表样式:折线图、横向柱状图、竖向柱状图、表格、地图、饼图
看板
把某些有业务联系的单图组织成一个数据可视化的模块,用来反映业务各方面的数据情况。它从多种数据源获取数据,实现支持多维度筛选的交互式界面
特点
通过看板的筛选条件,能交互式查询所有单图,多维度分析数据
通过看板中的单图,能从多个单图中发现关联,并深入分析单个图表
功能
看板可以供不同的业务人员实现不同的使用场景
例子
产品经理的看板主要是项目的核心指标
市场人员的看板主要是监控各个渠道来源指标以及转化率情况
销售人员的看板主要是观察潜在客户的活跃度
单图、看板常见可配置字段
数据源
数据的来源,是指提供某种应用所需要使用的数据库或者数据服务,它包含了数据的地址、端口、数据库格式、数据库、数据表等,是数据展现的基础
指标:指标相关信息
指标相关信息,包括指标的计算类型、指标的ID、指标名称、指标别名等
维度/group
维度相关信息,存储按照哪些角度和分组来查看数据等信息
过滤器/where
过滤器为前端报表实现筛选查询条件,它规定每个维度应该以何种规则过滤,是等于、不等于、大于、小于,还是包含关系,并明确维度信息中的查询字段和查询值
排序/orders
输出结果应该以哪一个指标排序通常按照使用时间段进行降序排序设置
系统架构
产品流程
数据产品经理的工作流程
可拓展报表平台问题
大量的报表需求存在一定的资源瓶颈,耗时长
报表需数据PM 和业务人员探讨,沟通成本高
不能随时调整和修改报表
直接使用可拓展报表平台的门槛高
自助式分析平台
定义:敏捷的BI自助分析平台,通过数据源、单图、看板等功能,实现多主题数据自助分析,同时能展示多种图表样式,支持业务人员自助创建报表
典型应用
BDP
tableau
主要功能
数据源
数据的来源,是提供某种业务需求数据的数据库或者数据库服务器;在数据分析平台中,可理解为一个或者多个数据表
形式
本地数据
线上各类数据库
第三方平台数据
功能列表
创建数据源
服务器地址:数据库IP/域名地址
端口号:数据库端口号
用户名:数据库用户名
密码:登录数据库的密码
数据库:“database”名称,数据库名称
编辑数据源
删除数据源
搜索数据源
单图
创建单图
数据源及字段选择区/计算字段
适用于当数据源中的字段不包含分析所需要的字段时,需用两个基础指标创建一个计算指标的场景
拖拽及可视化区域
test
test
test2
图标设置区域
系统功能页面
编辑单图
删除单图
搜索单图
收藏单图
单图排序
看板
智能分析平台
业务场景分析平台
移动端数据分析平台
子主题