导图社区 2025数据超市运营思路
这是一篇关于2025数据超市运营思路的思维导图,详细探讨了数据在运营中的理解、表征和收集,主要内容包括:感知数据,收集数据,理解数据,数据决策。
编辑于2025-03-11 19:25:152025数据超市运营思路
感知数据
转型:避免成为数据管道, 比业务更了解数据从而匹配出数据给他, 销售给业务超预期的数据质量 (核心数据、准确性、及时性、完整性、全面性)
1.业务觉得很重要——你给重要打分,你会打几分,你很紧急,你会打几分?——量转型
2.用一个指标来代表你最重要的数据是什么?说明清楚目的 ——找内核
3.这个值标准是多少?超过多少是正常/不正常? ——对齐标准阈值
背景
理解业务属性是什么
不断下钻,做转换,换算成对业务直接的帮助,可以是降低通均,可以是提高营收,找到一个基准
理解事情的相对情况,上下 前后 远近 快慢 大小 轻重
时间前后对比,环比,同比
假期节日 推出活动等特殊时期情况对比
江苏13地市情况,江苏在全网的对比,不同人群的对比,不同活动的对比等
理解业务的真实意图
海底捞68%占比,来自于公司治理制度,拥有2/3就有绝对控制权。
迪士尼满意度75%-80%,客户满意度口径是客户很满意,不包括比较满意,因此看似是满意度,其实是顾客忠诚度,因为很满意的客户忠诚度是比较满意的6倍
推理
案例,二战盟军通过一个60序号的车估算1942年8月生产了多少车,情报间谍估算1万多辆,统计学家估算327辆,德国真实产的是342辆。
数学推断
离婚率=离婚对数/结婚对数
离婚率上升要考虑分子、分母、以及分子分母变化幅度, 因此结论是离婚率高是结婚人数变少了,而不是婚姻幸福的人越来越少了
逻辑推理
斗地主推理 数独
切换视角
一次 2万VS一次1元*2万次
差异
生理结构不同
天安门十个柱子,看上去间隔一样,但实际离中心越远的柱子间隔越小, 视觉上特点用在建筑上。不同数据感知相同。
4张牌,哪几张可以正式,正面是偶数,背面一定是红色?翻版就是,借车加满油,哪个违反规定。——结论人的脑子是天生做社会题的
文化属性不同
价值立场不同
估算
芝加哥有多少架钢琴?黄桥星巴克店一年能卖出去多少杯咖啡?5分钟算出来 北京市一年用过的快餐盒,一件一件地铺在地上,能铺多大的地方呢
二八法则
盯住20%重要的
1%原则
买100万的东西,花1万研究
映射
镜子中的脸是一种一一对应的映射,数据到底是什么?是对现实世界实体的映射。 不同光线、角度拍的照片是数据源,但也只能反映实体的一部分。
获取数据的方法决定我们能获取什么数据,数据是在某种方法下对实体的数字化表达。
数据需要元数据来说明
单独的音乐没有信息,需要对这个音乐做出陈述:对象,日期,什么情况下创造的,风格等
葡萄酒模型
酒
数据,葡萄酒 啤酒 白酒
酒瓶
数据容器
特别注意区别:excel、纸张都是数据容器,但纸张上的文字才是数据。
酒窖
数据储存的地方
酒标
元数据,各种特征,品牌年份 产地等
喝到嘴的感觉
数据蕴含信息 华语歌词分析,词汇量不重复的,常用的字有哪些,积极的歌词占比等
难点!怎么使用数据?找到描写方法,才能让数据开口说话
收集数据
类型: 为什么要对数据区别对待?
三个不同层次概念
变量即维度,各个维度的集合是表格,维度所所对应的值叫数据
西游戏数据类型
唐僧数据-类别数据
不是好人就是坏人,没有中间状态》例如性别、婚姻状态等, 一是完备 二是排他 三是独立选择
沙和尚-次序数据
沙和尚层级汇报,有大小顺序》非常重要、重要、无所谓等
猪八戒-间隔数据
猪八戒九齿钉耙,间隔相等,智商分80 90 100等
孙悟空-比例数据
孙悟空金箍棒任意放大缩小,
具有向下兼容性
测量: 怎样定量把握一个事物?
盲人摸大象告诉大象是什么,有人摸到大象的牙齿说胡罗卜,有人摸到耳朵说大蒲扇; 一方面是我们常常看到的数据是不成体系的,另一方面已经知道前提了是大象,但现实中看得见员工敬业度吗?抓得住现代化吗?数据用的好看得见吗?怎么定量把握,是需要去测量的。 ——盲人面对的困境:构建评价体系
测量就是一个得到一组指标体系的过程: 》营商环境怎么体现? 世界银行衡量一个国家的营商环境的8个指标:创建一家企业的难易程度,取得营业执照的难易程度,雇佣工人的难易程度,解雇工人的难易程度,产权登记的难易程度,缴税的难易程度,跨境贸易的难易程度,关停企业的难易程度。
如何测量?
借助维度对各个属性进行拆分 反映你如何理解事情
选择指标、划分维度需要遵循的两个原则
边际效应最大化
指标不是越多越好 假设少一个有什么损失,多一个有什么好处
可靠性原则-信度
确保测量能得到稳定结果
例如,测量幸福度,你幸福吗?我姓孙。这种就不达标。
大家各自提出指标体系,相互竞争,迭代出共识的方案
评价指标有效性
考虑关联性
测量对联就是测量国学
考虑结构性
婚姻满意度与婚姻忠诚密切相关,那么测量婚姻满意度是有效的
考虑完备性
评价一个数据好用,没有评测对象好评维度,就不全面
抽样
当样本的各种特征大体接近总体的特征的时候,样本就具有代表性。
案例:总统大选,都是富人样本,不全面;后来用配额样本,穷人占比0.8,那么1000人里选800个穷人,但是这800个穷人没有概率性,跟样本量大小无关,二选一的民主党或共同党,量不用大,但疫苗安全性需要大量样本,而调研电视收视率投放广告在于精度的大样本。
非概率样本具备推论总体的能力
滚雪球的方式,受访者是XBOX的美国用户,预测12年总统大选,事后分层和分层回归技术
why
不要把抽样结果直接用在总体上, 真正的结果是一个带限制条件的范围 范围则隐含了一个误差水平的设定
女性比例是49%> 中国人的性别比例是女性占49%吗?
结论的正确表述是> “在95%的置信度之下,中国人的女性比例在46.8%到51.2%之间”
置信度是表达你对结论的信心 95%的置信度就是100次可能有5次错误
问卷
为什么说含金量最高的是操作化, 操纵对方意识回答你想要的问题。
概念操作化,用一i系列的问卷逼近感受
用户视角:1.考题里不能出现冰淇淋,因为很多农村小孩没吃过。 2.收入高的人是不是社会地位也高”。对方会怎么样?很可能会夸大他的收入,因为他不想让别人认为他的社会地位低。 3.您认为哪一位是20世纪最伟大的美国男运动员?这是一个封闭式的问题 4.谁是活跃在当今体坛上最伟大的运动员?这是一个开放式的问题
你的问法中藏着你的答案:就这个国家的犯罪和目无法纪的现象而言,更应该归咎于社会条件而不是个体。
经典案例,用操作化打败操作化
杜邦公司-涂层用料特富龙
设计问卷,以下品牌中是通用名称还是品牌名称,冰箱是通用名称,可口可乐是品牌名称68%的人认为特氟龙是品牌名称,因此,特氟龙是品牌
吉田公司生产拉链商标叫易富龙
通用而不是名称
实验
怎么确定因果性、相关性
大数据
不一样在哪里?
理解数据
表征
如何由表及里发现事物本质
这个指标能反映这个问题吗?真正的问题是什么?有没有其他指标?没有指标是否可以构造指标?
日活月活能代表APP质量吗?新课程上线
分类
谁是他要的?谁是她要的?
判别模型,用于精准客户分类贴标签,精打细算用户,比如高价值用户再细分
组内差异小,组间差异大
分解
权重,究竟哪个因素更重要
一个复杂的系统由多个因素决定,理清出关系,需要知道权重,除了123重要外,重要占比又是多少
因果
如何缓解反事实难题?
俩个变量是因果关系一定有相关性
确定因果关系,不能只看这两件事情之间,而必须看到世界运作的全景。要是你还没有能力看到全景,那么请再一次保持谦卑,慎重下结论。
俩个变量有先后,原因在前,结果在后,先有蛋 再有鸡
俩个变量不被第三方解释,买百合发动机号,买玫瑰发动机就不好
先建立所研究问题整体的运行图景,说明各个变量之间的联系。然后去收集数据,让数据逼近这个理论图景。再然后,用数据验证这个理论。如果验证通过,就对理论更相信一点。如果不通过,就改进理论或者收集新的数据,再次验证。如此循环下去
辛普森悖论
拆分项趋势增长,合并起来趋势下降。
数据决策
行动
用什么样的数据指导决策
如何理解你面对的挑战
交通拥堵-降低意外碰撞发生-车流量控制
如何建立决策模型
预测汽油需求量
超市库存比
如何找到决策模型中需要的数据
万物皆可量化,情绪,红色蓝色玻璃球数量
量化的实质是降低不确定性
可视化
塑造受众的感觉
玫瑰图
绿黄红
误导
识别数据中的认知陷阱
谁说的
他怎么知道
遗漏了什么
是否偷换了概念
资料有意义吗