导图社区 如何清洗整理数据
我们在做数据分析时,拿到的数据质量往往是参差不齐,各种垃圾数据,无效数据,我们首先必须要对数据源进行清洗处理,数据清洗往往占整个数据分析过程60%以上的时间。 那么到底应该怎么做好清洗数据?我们从“纯数据层面”和“业务层面”来介绍数据的清洗,让你的分析数据更干净!
编辑于2022-06-29 17:24:13公元1100年,中国历史上那位以亡国之君身份而广为人知的宋徽宗,正式登上了历史舞台。在继位之前,宋徽宗赵佶既非嫡子亦非长子,生母地位卑微且早早离世,缺乏强大的母族支持。按常理,这样的皇子在皇位继承的激烈角逐中,往往只能充当陪跑的角色。然而,命运弄人,这一年,他却意外地成为了最后的赢家。正月十一深夜,年仅25岁的宋哲宗突然驾崩,未留下子嗣、遗诏,甚至没有一句口信,大宋王朝陷入了前所未有的权力真空。这突如其来的变故,让朝廷上下措手不及,意见纷纭,难以统一。在这关键时刻,向太后站了出来,力挺端王赵佶继位。然而,这一提议却遭到了宰相章惇的坚决反对。章惇甚至直言不讳:“端王轻佻,不可以君天下。”这番话,在后人看来,无疑是对宋徽宗性格和治国能力的精准预言。但章惇的反对并未能阻挡宋徽宗继位的步伐。或许是因为向太后的坚定支持,或许是因为朝廷内部其他势力的权衡利弊,最终,赵佶还是坐上了那把至高无上的龙椅。然而,历史总是充满了讽刺。章惇虽然看透了赵佶的性格缺陷,却未能阻止他成为大宋的皇帝。而宋徽宗,这位曾经在继承之战中默默无闻的陪跑者,最终却以亡国之君的身份,永远地载入了史册。
在历史研究的广阔领域中,对特定历史事件背后深层原因的剖析一直是吸引众多历史爱好者和学者的关键。这张关于“公元1099年:西夏为什么不怕经济制裁?”的思维导图模板,为人们深入探究这一有趣的历史问题提供了清晰且系统的知识体系。你以为手握经济命脉,就能让对方跪地求饶?大宋在这件事上,天真了半个多世纪。公元1099年,西夏的小梁太后去世,宋夏正式签下新约,西夏终于被打服了!但是很少有人知道,在这场胜利之前,大宋曾陷入一个诡异的死循环:明明占尽经济优势,西夏的粮食、茶叶、布匹等物资几乎全靠宋朝供给。司马光甚至说过这么一句话:西夏就像个婴儿,宋朝一断奶,立马就活不下去。然而每一次宋朝祭出贸易制裁的大棒,不仅没有让西夏服软,反而换来更加猛烈的攻击。打仗耗不起,占地守不住,经济制裁还适得其反。大宋就这样被西夏生生折磨了半个多世纪。问题到底出在哪儿?为什么堵死一条危险的路,反而逼着对方走上另一条更危险的路?看上去最省力的办法,为什么反而把局面越推越险?对于历史爱好者来说,此模板能够帮助他们更深入地理解宋夏之间的经济与政治博弈,拓宽历史视野;历史学者可以借助该模板的结构和思路,进一步开展相关研究。
在历史文化的浩瀚海洋中,传国玉玺一直笼罩着神秘的光辉,而公元1098年关于假玉玺为何似有真魔力的探讨更是引人入胜。这张关于《公元1098年:假玉玺怎么有真魔力?》的思维导图模板,源自《文明之旅》第99期,由主讲人罗振宇呈现,为历史爱好者、文化研究者以及广大学生群体打开了一扇深入探索历史奥秘的窗口。系统梳理了传国玉玺的历史流变、政治功能与“共同知识”理论。内容涵盖传国玉玺从秦汉到明清的流传简史、1098年北宋哲宗时期咸阳百姓段义献玺事件、鉴定过程与朝堂争议,以及“假玉玺为何能产生真魔力”的深层政治逻辑。图中引入“共同知识”“预期协调”“信物效应”等概念,结合宋真宗“天书封禅”、辽朝科举命题、元朝皇位继承等历史案例,阐释政治象征物如何凝聚共识、构建合法性。适用于历史爱好者、政治学研究者、文化传播从业者、教育工作者及内容创作者,帮助理解中国古代政治运作中的符号力量与共识机制。对于历史爱好者而言,这张思维导图满足了他们对历史细节的探寻欲望,那些鲜为人知的发现过程、朝堂上的决策博弈都一一呈现。借助EdrawMind绘制的这张思维导图,将历史事件和人物关系以直观的图形展示出来,让读者能够轻松理解。
社区模板帮助中心,点此进入>>
公元1100年,中国历史上那位以亡国之君身份而广为人知的宋徽宗,正式登上了历史舞台。在继位之前,宋徽宗赵佶既非嫡子亦非长子,生母地位卑微且早早离世,缺乏强大的母族支持。按常理,这样的皇子在皇位继承的激烈角逐中,往往只能充当陪跑的角色。然而,命运弄人,这一年,他却意外地成为了最后的赢家。正月十一深夜,年仅25岁的宋哲宗突然驾崩,未留下子嗣、遗诏,甚至没有一句口信,大宋王朝陷入了前所未有的权力真空。这突如其来的变故,让朝廷上下措手不及,意见纷纭,难以统一。在这关键时刻,向太后站了出来,力挺端王赵佶继位。然而,这一提议却遭到了宰相章惇的坚决反对。章惇甚至直言不讳:“端王轻佻,不可以君天下。”这番话,在后人看来,无疑是对宋徽宗性格和治国能力的精准预言。但章惇的反对并未能阻挡宋徽宗继位的步伐。或许是因为向太后的坚定支持,或许是因为朝廷内部其他势力的权衡利弊,最终,赵佶还是坐上了那把至高无上的龙椅。然而,历史总是充满了讽刺。章惇虽然看透了赵佶的性格缺陷,却未能阻止他成为大宋的皇帝。而宋徽宗,这位曾经在继承之战中默默无闻的陪跑者,最终却以亡国之君的身份,永远地载入了史册。
在历史研究的广阔领域中,对特定历史事件背后深层原因的剖析一直是吸引众多历史爱好者和学者的关键。这张关于“公元1099年:西夏为什么不怕经济制裁?”的思维导图模板,为人们深入探究这一有趣的历史问题提供了清晰且系统的知识体系。你以为手握经济命脉,就能让对方跪地求饶?大宋在这件事上,天真了半个多世纪。公元1099年,西夏的小梁太后去世,宋夏正式签下新约,西夏终于被打服了!但是很少有人知道,在这场胜利之前,大宋曾陷入一个诡异的死循环:明明占尽经济优势,西夏的粮食、茶叶、布匹等物资几乎全靠宋朝供给。司马光甚至说过这么一句话:西夏就像个婴儿,宋朝一断奶,立马就活不下去。然而每一次宋朝祭出贸易制裁的大棒,不仅没有让西夏服软,反而换来更加猛烈的攻击。打仗耗不起,占地守不住,经济制裁还适得其反。大宋就这样被西夏生生折磨了半个多世纪。问题到底出在哪儿?为什么堵死一条危险的路,反而逼着对方走上另一条更危险的路?看上去最省力的办法,为什么反而把局面越推越险?对于历史爱好者来说,此模板能够帮助他们更深入地理解宋夏之间的经济与政治博弈,拓宽历史视野;历史学者可以借助该模板的结构和思路,进一步开展相关研究。
在历史文化的浩瀚海洋中,传国玉玺一直笼罩着神秘的光辉,而公元1098年关于假玉玺为何似有真魔力的探讨更是引人入胜。这张关于《公元1098年:假玉玺怎么有真魔力?》的思维导图模板,源自《文明之旅》第99期,由主讲人罗振宇呈现,为历史爱好者、文化研究者以及广大学生群体打开了一扇深入探索历史奥秘的窗口。系统梳理了传国玉玺的历史流变、政治功能与“共同知识”理论。内容涵盖传国玉玺从秦汉到明清的流传简史、1098年北宋哲宗时期咸阳百姓段义献玺事件、鉴定过程与朝堂争议,以及“假玉玺为何能产生真魔力”的深层政治逻辑。图中引入“共同知识”“预期协调”“信物效应”等概念,结合宋真宗“天书封禅”、辽朝科举命题、元朝皇位继承等历史案例,阐释政治象征物如何凝聚共识、构建合法性。适用于历史爱好者、政治学研究者、文化传播从业者、教育工作者及内容创作者,帮助理解中国古代政治运作中的符号力量与共识机制。对于历史爱好者而言,这张思维导图满足了他们对历史细节的探寻欲望,那些鲜为人知的发现过程、朝堂上的决策博弈都一一呈现。借助EdrawMind绘制的这张思维导图,将历史事件和人物关系以直观的图形展示出来,让读者能够轻松理解。
如何清洗整理数据
《数说/第3季》第41期
数据层面的数据清洗
1、缺失值
行记录的缺失
例如某门店的某一天的数据,确实是丢失了。丢失的原因可能是系统的原因,或者是人工误操作的原因等。
某些列字段数据的缺失
提的是某些行记录中,有些字段的数据是缺失的。产生的原因也有各种各样的,可能是人工没有收集,录入等,或者是机器故障等。
上图中第4和13行就是行记录的缺失,B9、B10、C9、D11就是列字段数据的缺失。
缺失值的处理方式
补全
直接有办法查证到缺失的数据,如能找到门店导购或小票,那就直接补全就好了。
也可以用统计学的一些办法,如用平均值、权重还原值、中位数等去补全。
丢弃
如果缺失的某行记录/列字段数据对我们的分析影响很小,我们可以直接丢弃它,即把整行或整列的数据删除。
如你的需求只是统计某店铺本月的销售业绩,如果某一天的数据缺失,而你通过了解得知该天的业绩金额很小,如当天的业绩仅占1%,对整月的业绩统计影响很小,可选择丢弃它。
2、重复值
数据记录完全相同,处理方式就是去重。
处理原则也是依据分析目的而去决定的。
3、异常值
极值法
我们可以看一组数据的最大值、最小值,看看它们是否异常。例如某门店,平均正常的日销售数量都在900-1200之间,但是11月11日销量达到10000件,而11月12日销量仅为250件,那么这2个值都属于异常值了。
箱形图
在箱形图当中,是将一组数据从小到大进行排列,同时能显示出这组数据的上限、下限、中位数,以及上/下四分位数,能让我们清楚地看到一组数据的离散情况。
上图分析了京东5大手机品牌旗舰店的销售价格,橙色的箱子里面,表示50%的手机零售价格介于1699-4787元之间,超过9098元的零售价格可以看成为零售价中的异常价格值,算绝对高端的价格了。
箱形图对于识别异常值点非常方便,只要在上了和下限以外的点,就可以识别其为异常,就需要我们进一步去判断异常原因。
趋势图
使用趋势线方便我们识别异常值,可以看极值点,也可以看拐点。
识别了异常值后,应该怎么进一步去处理?
首先,要找出异常的原因。如果是错误的数据,当然优先处理就是要修正了,如果修正不了,并且对分析结果不会很造成影响的话,也可以把异常值剔除。
还有一种可能这就是正常的业务数据,例如是双11当天搞了促销活动,所以销量大升,然后出现了缺货,12号的销量也受到了影响 。那就不需要特殊处理,直接保留。
业务层面的数据清洗
1、会员销售额大于总销售额
如果出现,那非会员的销售额就是负数。如果不是误操作,那就是销售人员,把非会员的销售转成了会员销售!这样销售人员就获得了其中的利益了。
2、订单数大于订单中的件数
销售的最小件计量单位是1件,如果出现订单数大于销售件数的情况,往往是因为有退货订单的存在,有退货订单会影响什么呢?
3、订单数大于客流数
订单数正常是不会大于客流数的,如果出现这种情况,要想想其中的秘密在哪里? 例如,销售人员可能会拆单录入,1个客人买了10件产品,拆成5单录入,每单成交件数为2件。销售人员为什么要这么做?为了凑件数,凑金额?冲单数?或是利用促销的一些漏洞,都有可能!
4、月初放松
5、月末踩刹车
当本月差不多要结束时,如果你发现怎么努力都没办法完成目标时,你会选择放弃努力。。或是早早地就完成了目标,月底真的是刹车。
6、数据还原问题
利用销售规律还原
某店铺某个月都在闭店装修,这样整个月都没有数据,但现在需要制定该店铺下一年的目标。这时我们就需要想办法还原数据,可用季节指数法,还原缺失月份的销售数据。
利用可对比对象还原
某店铺预计12月中旬开业,要制定来年的全年目标。这时可以用另一个方法解决,就是找可比店铺数据做参考。 怎么选择可比店铺?一些原则方向可以参考: 1、业态相同 2、商圈属性相同 3、客流量差不多 4、城市级别差不多 5、店铺位置可比 6、店铺面积可比 7、店铺资源可比