导图社区 规范数据管理,才能高效数据分析
为什么别人做数据分析那么高效?为什么有人却各种加班处理数据?为什么有人要写出64层的if函数嵌套?其实数据处理及分析中的很多“疑难杂症”问题,都是由于你不懂得【规范管理数据】,但这却是数据分析的根基!
编辑于2022-04-22 09:10:38这是一篇关于《文明之旅》公元1104年:关羽是怎么变成关老爷的思维导图,想要深入探索公元1104年关羽是如何从三国武将摇身一变成为备受尊崇的“关老爷”吗?这份《公元1104年:关羽是怎么变成关老爷的?》的思维导图模板绝对是你的不二之选。关羽在真实历史里,不过是三国时期的一名武将,既不是帝王,也不是战无不克的大功臣,最后还大意失荆州,惨死敌手。可偏偏就是这样一位真实履历并不算耀眼的武将,为什么能在死后近千年里一路“升格”,最后变成一个国家大力推崇、儒释道三家都盖章认可的超级神明?更奇怪的是,后世的军人拜他,商人拜他,民间的各行各业也都拜他。求财找他、求平安找他、科举求成绩也找他,甚至连求姻缘,都能找到关老爷头上。一个历史人物,为什么会一步步演变成一个跨越阶层与行业、几乎无所不管的神明——关老爷?这背后,到底发生了什么?无论是历史爱好者想要系统了解关羽形象演变的历史脉络,还是教育工作者用于历史教学,帮助学生梳理复杂的历史知识点,亦或是文化研究者探究古代封神文化和社会现象,这份思维导图模板都具有极高的价值。
这是一篇关于《文明之旅》公元1103年:奸臣蔡京为何大搞国家福利思维导图,上一年,大宋朝堂风向剧变。宋徽宗放弃“建中靖国”的中间路线,全面倒向新法派,并启用蔡京为宰相。为此,朝野上下一片哗然。连当时的顺口溜都在骂:“大蔡小蔡,还他命债。”意思是说,要不是上辈子欠蔡京兄弟一条命,这辈子怎么会和他们生活在一个时代?真是倒霉透顶!但谁也没想到,蔡京上台后,大宋迅速建立起一整套社会福利体系:穷人老了,由“居养院”收养;生病了,有“安济坊”救治;死后无人安葬,还有“漏泽园”负责埋葬。对于历史爱好者来说,这是探索北宋政治、经济和社会福利制度的绝佳资料,满足他们对历史细节和背后原因的探究欲望;对于历史专业的学生和研究者而言,模板中丰富的信息,如宋徽宗任用蔡京的背景、蔡京推行福利的具体内容、推广范围与保障标准,以及福利体系不可持续的原因等,为学术研究和论文写作提供了详实的参考素材;对于教育工作者,它也是生动的教学辅助工具,有助于将枯燥的历史知识以更直观的方式传授给学生。
这是一篇关于《文明之旅》公元1102年:为什么中间道路很难走思维导图,宋徽宗刚即位时,摆在他面前的大宋朝廷,其实就是一个早已失控的烂摊子:新旧两党彼此缠斗,国家政策反复横跳,朝堂人心疲惫不堪。那该怎么收拾这个烂摊子,把那道巨大的政治裂痕重新缝合起来?这位20岁的年轻皇帝,给出一个听上去非常高明的方案:我不选边站,我要走一条“中间道路”。上一年,他特意改年号为“建中靖国”。这是中国历史上最后一个四字年号,它传达出的政治信号再直白不过:我当皇帝,你们都别吵了,把两边还能好好说话的人叫到一起,大家和和气气、有商有量地过日子,不好吗?而且,不只是喊口号,徽宗还实实在在搭了个“对半开”的宰相班子:一边是保守派领袖韩忠彦,一边是变法派代表曾布。新旧两党,各占一半。乍一看,这简直是教科书级的“和解方案”。对于历史爱好者而言,这段史实无疑是一段值得深入探究的精彩篇章,能让他们从中领略到北宋复杂的政治生态;对于政治学研究者来说,宋徽宗的这一举措为研究政治平衡、党争调和提供了典型案例;而对于企业管理者,亦可从中获得启发,在团队管理、平衡各方利益以达成和谐发展方面汲取经验教训。
社区模板帮助中心,点此进入>>
这是一篇关于《文明之旅》公元1104年:关羽是怎么变成关老爷的思维导图,想要深入探索公元1104年关羽是如何从三国武将摇身一变成为备受尊崇的“关老爷”吗?这份《公元1104年:关羽是怎么变成关老爷的?》的思维导图模板绝对是你的不二之选。关羽在真实历史里,不过是三国时期的一名武将,既不是帝王,也不是战无不克的大功臣,最后还大意失荆州,惨死敌手。可偏偏就是这样一位真实履历并不算耀眼的武将,为什么能在死后近千年里一路“升格”,最后变成一个国家大力推崇、儒释道三家都盖章认可的超级神明?更奇怪的是,后世的军人拜他,商人拜他,民间的各行各业也都拜他。求财找他、求平安找他、科举求成绩也找他,甚至连求姻缘,都能找到关老爷头上。一个历史人物,为什么会一步步演变成一个跨越阶层与行业、几乎无所不管的神明——关老爷?这背后,到底发生了什么?无论是历史爱好者想要系统了解关羽形象演变的历史脉络,还是教育工作者用于历史教学,帮助学生梳理复杂的历史知识点,亦或是文化研究者探究古代封神文化和社会现象,这份思维导图模板都具有极高的价值。
这是一篇关于《文明之旅》公元1103年:奸臣蔡京为何大搞国家福利思维导图,上一年,大宋朝堂风向剧变。宋徽宗放弃“建中靖国”的中间路线,全面倒向新法派,并启用蔡京为宰相。为此,朝野上下一片哗然。连当时的顺口溜都在骂:“大蔡小蔡,还他命债。”意思是说,要不是上辈子欠蔡京兄弟一条命,这辈子怎么会和他们生活在一个时代?真是倒霉透顶!但谁也没想到,蔡京上台后,大宋迅速建立起一整套社会福利体系:穷人老了,由“居养院”收养;生病了,有“安济坊”救治;死后无人安葬,还有“漏泽园”负责埋葬。对于历史爱好者来说,这是探索北宋政治、经济和社会福利制度的绝佳资料,满足他们对历史细节和背后原因的探究欲望;对于历史专业的学生和研究者而言,模板中丰富的信息,如宋徽宗任用蔡京的背景、蔡京推行福利的具体内容、推广范围与保障标准,以及福利体系不可持续的原因等,为学术研究和论文写作提供了详实的参考素材;对于教育工作者,它也是生动的教学辅助工具,有助于将枯燥的历史知识以更直观的方式传授给学生。
这是一篇关于《文明之旅》公元1102年:为什么中间道路很难走思维导图,宋徽宗刚即位时,摆在他面前的大宋朝廷,其实就是一个早已失控的烂摊子:新旧两党彼此缠斗,国家政策反复横跳,朝堂人心疲惫不堪。那该怎么收拾这个烂摊子,把那道巨大的政治裂痕重新缝合起来?这位20岁的年轻皇帝,给出一个听上去非常高明的方案:我不选边站,我要走一条“中间道路”。上一年,他特意改年号为“建中靖国”。这是中国历史上最后一个四字年号,它传达出的政治信号再直白不过:我当皇帝,你们都别吵了,把两边还能好好说话的人叫到一起,大家和和气气、有商有量地过日子,不好吗?而且,不只是喊口号,徽宗还实实在在搭了个“对半开”的宰相班子:一边是保守派领袖韩忠彦,一边是变法派代表曾布。新旧两党,各占一半。乍一看,这简直是教科书级的“和解方案”。对于历史爱好者而言,这段史实无疑是一段值得深入探究的精彩篇章,能让他们从中领略到北宋复杂的政治生态;对于政治学研究者来说,宋徽宗的这一举措为研究政治平衡、党争调和提供了典型案例;而对于企业管理者,亦可从中获得启发,在团队管理、平衡各方利益以达成和谐发展方面汲取经验教训。
规范数据管理,才能高效数据分析
来源:《数说》第四季开篇
数据不规范,对数据分析师意味着什么? 岁月、眼泪、头发......
什么是不规范的数据管理
不规范数据源的例子
看这公式,就问你晕不晕?
什么是数据源表:可直接关联成透视表、DAX、SQL、VBA的基础统计表
常见不规范数据源
合并单元格
数据源中,不要合并单元格
数据行有合并单元格
数据列有合并单元格
数据源表不用于展示报告,最重要的是好用。存在合并单元格,写公式会非常复杂,也会影响透视分析。
不要使用二维表
怎么区一维表和二维表?
上为二维表,下为一维表
一维表:同一列同一个属性,合理地合并属性
二维表:存在可合并属性的列(一维表通过透视,可以变成二维表)
数据类型不规范
什么叫数据类型,有哪些数据类型?
主要分为三个类型:文本、日期、数字。
数据源不规范的情况,主要是:文本型数字、文本型日期
文本型数字
文本型数字导致计算错误,需转换成数值格式。
文本型日期
常见三种文本型日期
文本型日期使“vlookup"函数无法匹配,透视表无法组合成【年】、【月】等日期维度,需转换成日期格式。
同样的数据结构以多个表独立存在
不同年份(月份)的同结构数据,分布在不同的表
不同类别(分公司、区域、店铺等)的同结构数据,分布在不同的表
正确的做法,应该是把同结构的数据合并
数据源表和报表混和在一起
很多分不清什么是数据源表,什么是报表!! 图中明明是一张数据源表,偏偏要加个汇总,唉!为什么要汇总?不就是为了看每天成交合计吗? 所以关注的这个按天汇总的数据,其实就是报表!报表的数据来源是数据源,报表是你关注的一些对象或指标!
正确的做法应该是把数据源、报表分离,上图关注的内容,直接透视就能轻松实现。
还可以做成透视图,实现可视化,更直观观察数据。
报表是通过函数、透视表、VBA或PQ、PP等技术去实现的对数据源的查询,如果中间有复杂的计算过程,可以添加一个辅助表,以便让各表的功能更清晰,也利于后期的维护!在日常数据分析中,数据源表一般是不更改的,切记!
最标准的数据源管理规范
最规范的数据管理方式是:数据库!数据库就是数据存储的仓库,是数据管理规范的最高标准!日常的数据分析中,处理的一般是从ERP、POS系统的关系型数据库导出来的。
这张图,作为分析的数据源,可以吗?答案是:可以!也不可以!
为什么可以?
如果使用的是函数、透视表的方法,这种数据源管理方法是对的。
为什么不可以?
这样的管理方法,会导致很多的行数据重复!什么意思呢?
S004、S002店铺,都是属于[北区],都在[上海], 数据源表中出现重复存储的数据,表会变得很大,很胖!
把总表拆分成三张独立表:订单表、门店表、产品表。三张独立表又可以相互关联。
拆分的做法是关系型数据库的做法,很好地避免数据冗余的问题!我们的ERP系统的数据库,也是以这样的形式去搭建存储的!
从数据分析的角度看:订单表是事实表,产品表、门店表就是维度表。
拆分成这样的表,Execl要如何做分析呢?用VBA+SQL可以直接处理多表关系,用Power Query也支持合并查询,用Power Pivot天然支持构建多表关系,所以这种多表存储方式可以非常高效地应用。
总结
1、常见的数据源不规范现象:合并单元格、二维表存储、数据类型错误、同结构的多个表独立存储、数据源+报表混成一张表,我们都应该有则改之,无则加勉!
2、学习关系型数据库的数据管理。如果用函数、透视表,则可以接受一个很的表;但是如果用PQ、PP、VBA+SQL等方法做分析的,一定要做成关系型数据表,分离事实表、维度表、再通过Key字段进行表间关系连接!
理论基础是必须的,有思维的驾驭,工具才能玩得更好!