导图社区 规范数据管理,才能高效数据分析
为什么别人做数据分析那么高效?为什么有人却各种加班处理数据?为什么有人要写出64层的if函数嵌套?其实数据处理及分析中的很多“疑难杂症”问题,都是由于你不懂得【规范管理数据】,但这却是数据分析的根基!
编辑于2022-04-22 09:10:38这是一篇关于《文明之旅》思维导图,公元1111年,大宋政和元年的某个清晨。天还没亮,几骑人马突然冲出皇宫东华门,沿着开封的街道一路高喊:“从今天起,‘当十钱’,只当三个小钱花!消息一出,整个开封城瞬间炸了锅。富人们从梦中惊醒,欲哭无泪——因为这一道诏令,他们手里的财富将在天亮时分凭空蒸发。就连皇帝内库里的私房钱,也会跟着缩水。很明显,这是一道朝廷砸自己脚的诏令。但,不砸也不行。所谓“当十钱”,就是用三枚小铜钱的铜料,铸成一个大钱,却硬规定它当十枚钱流通。三枚钱熔了,铸一个“当十钱”,转手就能当十枚花出去,平白多出七文。一时间,村村点火,户户冒烟,民间私铸成风。这种明摆着遗祸无穷的“当十钱”,背后的推手是蔡京。他只要一上台当宰相,马上卷起袖子大铸“当十钱”;只要一被罢相,“当十钱”又立刻被废。几起几落,这事已经折腾了好几回了。蔡京固然是奸臣,但他既不疯也不傻。他比谁都清楚,每推一次“当十钱”,就相当于给政敌送上一颗攻击自己的子弹。可为什么,他偏偏要反复地、几乎是自杀式地,推一项人人反对的货币政策?
这是一篇关于《文明之旅》公元1110年:人类为什么热衷拉名单思维导图,公元1110年,宋徽宗把章惇从"元祐党人名单"里放了出来。可问题是,章惇早就死了,而且当年他还激烈反对过徽宗即位。这到底是徽宗的宽宏大量,还是政治上的平反风向?这事得放到北宋新旧党争的大背景下看。司马光、苏轼、苏辙、黄庭坚这些变法反对派,被归为元祐党人,名字刻到了元祐党人碑上,遍布全国官署,像一道政治烙印。后来徽宗因为彗星示警,连夜派人砸掉了元祐党人碑。但蔡京冷冷地说了一句:石头可以砸,名字却还在。这句话当时听起来像一句狠话。但放到后来再看,几乎是一句预言。碑没了,名单还在。罪名可以改,身份还在。人可以从名单里出来,但名单留下的阴影,还会跟着人一辈子。这段历史真正值得留意的,不是帝王心术,而是一种反复出现的结构:名单一旦建起来,撕掉的永远只是纸,刻进人心里的东西,比石碑硬得多。这适用于每一个曾被标签定义过的人——被贴过"差生""失败者""不合群"的人。你可能早就翻篇了,但那些标签的回响,会在关键时刻冒出来,影响你的判断和选择。记住:名单是别人写的,但从名单里走出来这件事,得你自己完成。
这是一篇关于《文明之旅》公元1109年:宋徽宗是怎么耍弄权术的思维导图,公元1109年,是宋徽宗登基的第十年。瘦金体、瑞鹤图、茶艺、音律、园林……今天提起宋徽宗,总是绕不开“文艺范儿”的标签。比起皇帝,他更像一个柔柔弱弱、不谙世事的文艺青年,所以后人说他“什么都会,就是不会当皇帝”。但真的是这样吗?复盘一下宋徽宗登基后的头几年,会看到一幕令人脊背发凉的景象:反对他的章惇、跟他争位的蔡王、扶他上马的向太后、最得力的盟友曾布……所有挡在他面前的人,无论是仇人还是恩人,都像多米诺骨牌一样一个个倒下,被清退。而宋徽宗呢?一直温文尔雅,从不翻脸,他到底是怎么做到的?这绝非偶然,而是一场精心设计的“权力清洗”。宋徽宗并非不懂政治,相反,他是玩弄权术的高手。他深知皇帝作为系统的拱顶石,必须维持“威严、道德、掌控”的三维平衡。为了打破僵局,他利用了蔡京与曾布的矛盾,将蔡京这把“快刀”引入朝堂。蔡京为了夺权,疯狂构陷曾布,导致曾布被贬,朝堂制衡力量瞬间瓦解。紧接着,宋徽宗利用“御笔”这一非正式制度,绕过三省六部的繁琐流程,直接下达圣旨。这看似是皇权的延伸,实则是权力的“偷盗”——它让皇权脱离了官僚体系的监督,变成了皇帝个人的私器。更可怕的是他的“温水煮青蛙”策略。他并非一开始就重用蔡京,而是先利用蔡京打击政敌,待蔡京坐大后,又通过“恐惧管理”和“道德绑架”将其牢牢控制。他深知蔡京虽然能干但无底线,于是利用言官陈禾等人的直谏,既塑造了自己“纳谏”的道德形象,又借刀杀人削弱了蔡京的势力。这十年来,他就像一个高明的棋手,在“集权孤峰”上走钢丝。他用“御笔”凌驾于制度之上,用“三维平衡”驾驭群臣,将所有反对声音一一消解。他不是不会当皇帝,他是太懂了——懂得如何用最小的成本,换取最大的权力集中。只是他忘了,当权力失去制约,所谓的“艺术巅峰”,不过是帝国崩塌前最后的挽歌。
社区模板帮助中心,点此进入>>
这是一篇关于《文明之旅》思维导图,公元1111年,大宋政和元年的某个清晨。天还没亮,几骑人马突然冲出皇宫东华门,沿着开封的街道一路高喊:“从今天起,‘当十钱’,只当三个小钱花!消息一出,整个开封城瞬间炸了锅。富人们从梦中惊醒,欲哭无泪——因为这一道诏令,他们手里的财富将在天亮时分凭空蒸发。就连皇帝内库里的私房钱,也会跟着缩水。很明显,这是一道朝廷砸自己脚的诏令。但,不砸也不行。所谓“当十钱”,就是用三枚小铜钱的铜料,铸成一个大钱,却硬规定它当十枚钱流通。三枚钱熔了,铸一个“当十钱”,转手就能当十枚花出去,平白多出七文。一时间,村村点火,户户冒烟,民间私铸成风。这种明摆着遗祸无穷的“当十钱”,背后的推手是蔡京。他只要一上台当宰相,马上卷起袖子大铸“当十钱”;只要一被罢相,“当十钱”又立刻被废。几起几落,这事已经折腾了好几回了。蔡京固然是奸臣,但他既不疯也不傻。他比谁都清楚,每推一次“当十钱”,就相当于给政敌送上一颗攻击自己的子弹。可为什么,他偏偏要反复地、几乎是自杀式地,推一项人人反对的货币政策?
这是一篇关于《文明之旅》公元1110年:人类为什么热衷拉名单思维导图,公元1110年,宋徽宗把章惇从"元祐党人名单"里放了出来。可问题是,章惇早就死了,而且当年他还激烈反对过徽宗即位。这到底是徽宗的宽宏大量,还是政治上的平反风向?这事得放到北宋新旧党争的大背景下看。司马光、苏轼、苏辙、黄庭坚这些变法反对派,被归为元祐党人,名字刻到了元祐党人碑上,遍布全国官署,像一道政治烙印。后来徽宗因为彗星示警,连夜派人砸掉了元祐党人碑。但蔡京冷冷地说了一句:石头可以砸,名字却还在。这句话当时听起来像一句狠话。但放到后来再看,几乎是一句预言。碑没了,名单还在。罪名可以改,身份还在。人可以从名单里出来,但名单留下的阴影,还会跟着人一辈子。这段历史真正值得留意的,不是帝王心术,而是一种反复出现的结构:名单一旦建起来,撕掉的永远只是纸,刻进人心里的东西,比石碑硬得多。这适用于每一个曾被标签定义过的人——被贴过"差生""失败者""不合群"的人。你可能早就翻篇了,但那些标签的回响,会在关键时刻冒出来,影响你的判断和选择。记住:名单是别人写的,但从名单里走出来这件事,得你自己完成。
这是一篇关于《文明之旅》公元1109年:宋徽宗是怎么耍弄权术的思维导图,公元1109年,是宋徽宗登基的第十年。瘦金体、瑞鹤图、茶艺、音律、园林……今天提起宋徽宗,总是绕不开“文艺范儿”的标签。比起皇帝,他更像一个柔柔弱弱、不谙世事的文艺青年,所以后人说他“什么都会,就是不会当皇帝”。但真的是这样吗?复盘一下宋徽宗登基后的头几年,会看到一幕令人脊背发凉的景象:反对他的章惇、跟他争位的蔡王、扶他上马的向太后、最得力的盟友曾布……所有挡在他面前的人,无论是仇人还是恩人,都像多米诺骨牌一样一个个倒下,被清退。而宋徽宗呢?一直温文尔雅,从不翻脸,他到底是怎么做到的?这绝非偶然,而是一场精心设计的“权力清洗”。宋徽宗并非不懂政治,相反,他是玩弄权术的高手。他深知皇帝作为系统的拱顶石,必须维持“威严、道德、掌控”的三维平衡。为了打破僵局,他利用了蔡京与曾布的矛盾,将蔡京这把“快刀”引入朝堂。蔡京为了夺权,疯狂构陷曾布,导致曾布被贬,朝堂制衡力量瞬间瓦解。紧接着,宋徽宗利用“御笔”这一非正式制度,绕过三省六部的繁琐流程,直接下达圣旨。这看似是皇权的延伸,实则是权力的“偷盗”——它让皇权脱离了官僚体系的监督,变成了皇帝个人的私器。更可怕的是他的“温水煮青蛙”策略。他并非一开始就重用蔡京,而是先利用蔡京打击政敌,待蔡京坐大后,又通过“恐惧管理”和“道德绑架”将其牢牢控制。他深知蔡京虽然能干但无底线,于是利用言官陈禾等人的直谏,既塑造了自己“纳谏”的道德形象,又借刀杀人削弱了蔡京的势力。这十年来,他就像一个高明的棋手,在“集权孤峰”上走钢丝。他用“御笔”凌驾于制度之上,用“三维平衡”驾驭群臣,将所有反对声音一一消解。他不是不会当皇帝,他是太懂了——懂得如何用最小的成本,换取最大的权力集中。只是他忘了,当权力失去制约,所谓的“艺术巅峰”,不过是帝国崩塌前最后的挽歌。
规范数据管理,才能高效数据分析
来源:《数说》第四季开篇
数据不规范,对数据分析师意味着什么? 岁月、眼泪、头发......
什么是不规范的数据管理
不规范数据源的例子
看这公式,就问你晕不晕?
什么是数据源表:可直接关联成透视表、DAX、SQL、VBA的基础统计表
常见不规范数据源
合并单元格
数据源中,不要合并单元格
数据行有合并单元格
数据列有合并单元格
数据源表不用于展示报告,最重要的是好用。存在合并单元格,写公式会非常复杂,也会影响透视分析。
不要使用二维表
怎么区一维表和二维表?
上为二维表,下为一维表
一维表:同一列同一个属性,合理地合并属性
二维表:存在可合并属性的列(一维表通过透视,可以变成二维表)
数据类型不规范
什么叫数据类型,有哪些数据类型?
主要分为三个类型:文本、日期、数字。
数据源不规范的情况,主要是:文本型数字、文本型日期
文本型数字
文本型数字导致计算错误,需转换成数值格式。
文本型日期
常见三种文本型日期
文本型日期使“vlookup"函数无法匹配,透视表无法组合成【年】、【月】等日期维度,需转换成日期格式。
同样的数据结构以多个表独立存在
不同年份(月份)的同结构数据,分布在不同的表
不同类别(分公司、区域、店铺等)的同结构数据,分布在不同的表
正确的做法,应该是把同结构的数据合并
数据源表和报表混和在一起
很多分不清什么是数据源表,什么是报表!! 图中明明是一张数据源表,偏偏要加个汇总,唉!为什么要汇总?不就是为了看每天成交合计吗? 所以关注的这个按天汇总的数据,其实就是报表!报表的数据来源是数据源,报表是你关注的一些对象或指标!
正确的做法应该是把数据源、报表分离,上图关注的内容,直接透视就能轻松实现。
还可以做成透视图,实现可视化,更直观观察数据。
报表是通过函数、透视表、VBA或PQ、PP等技术去实现的对数据源的查询,如果中间有复杂的计算过程,可以添加一个辅助表,以便让各表的功能更清晰,也利于后期的维护!在日常数据分析中,数据源表一般是不更改的,切记!
最标准的数据源管理规范
最规范的数据管理方式是:数据库!数据库就是数据存储的仓库,是数据管理规范的最高标准!日常的数据分析中,处理的一般是从ERP、POS系统的关系型数据库导出来的。
这张图,作为分析的数据源,可以吗?答案是:可以!也不可以!
为什么可以?
如果使用的是函数、透视表的方法,这种数据源管理方法是对的。
为什么不可以?
这样的管理方法,会导致很多的行数据重复!什么意思呢?
S004、S002店铺,都是属于[北区],都在[上海], 数据源表中出现重复存储的数据,表会变得很大,很胖!
把总表拆分成三张独立表:订单表、门店表、产品表。三张独立表又可以相互关联。
拆分的做法是关系型数据库的做法,很好地避免数据冗余的问题!我们的ERP系统的数据库,也是以这样的形式去搭建存储的!
从数据分析的角度看:订单表是事实表,产品表、门店表就是维度表。
拆分成这样的表,Execl要如何做分析呢?用VBA+SQL可以直接处理多表关系,用Power Query也支持合并查询,用Power Pivot天然支持构建多表关系,所以这种多表存储方式可以非常高效地应用。
总结
1、常见的数据源不规范现象:合并单元格、二维表存储、数据类型错误、同结构的多个表独立存储、数据源+报表混成一张表,我们都应该有则改之,无则加勉!
2、学习关系型数据库的数据管理。如果用函数、透视表,则可以接受一个很的表;但是如果用PQ、PP、VBA+SQL等方法做分析的,一定要做成关系型数据表,分离事实表、维度表、再通过Key字段进行表间关系连接!
理论基础是必须的,有思维的驾驭,工具才能玩得更好!