导图社区 如何清洗整理数据
我们在做数据分析时,拿到的数据质量往往是参差不齐,各种垃圾数据,无效数据,我们首先必须要对数据源进行清洗处理,数据清洗往往占整个数据分析过程60%以上的时间。 那么到底应该怎么做好清洗数据?我们从“纯数据层面”和“业务层面”来介绍数据的清洗,让你的分析数据更干净!
编辑于2022-06-29 17:24:13这是一篇关于《文明之旅》公元1108年:宋徽宗怎么敢纵容童贯思维导图,公元1108年,宋徽宗大笔一挥,给宦官童贯加封“开府仪同三司”,相当于宰相级别的待遇。北宋开国一百多年,还从来没有一个宦官在生前拿到过节度使的头衔。徽宗一高兴,规矩就这么破了。后来,童贯还被封为广阳郡王,成为整个中国历史上罕见的宦官王爵。东汉、唐朝的宦官之祸,血淋淋地写在史书里。宋朝的祖宗家法也对宦官严防死守:宦官不许结党,不许娶妻,不许多收养子。可即便如此,宋徽宗还是亲手打开了那个瓶子,放出了一个再也收不回去的魔鬼。本期《文明之旅》我们并不想对童贯进行道德审判,也不想对宋徽宗进行功过褒贬。因为童贯真正值得讨论的地方,不是他这个人有多坏、有多会钻营,而是他崛起背后所暴露出的一种组织困境:任何一套正式制度,都不可能完全覆盖现实中的所有事务。皇帝需要“自己人”,朝廷需要灵活通道,庞大的官僚机器也需要一些非正式的润滑机制。可以说童贯这类人的崛起,就发生在这种“正式制度”与“非正式制度”的博弈中。
这是一篇关于《文明之旅》公元1107年:北宋儒家是如何绝地反击的思维导图,公元1107年深秋,洛阳城一处冷清的小院里,寒风卷着落叶拍打窗棂,一位75岁的老人在寂静中走到了生命的终点。他叫程颐,曾经是宋哲宗的老师,也是北宋理学的奠基人之一。你可能对这个名字有些陌生,但你一定听过"程门立雪"——那位让学生杨时在门外恭敬等到大雪没过脚踝也不敢打扰的严师,就是他。然而,这位一代大儒去世时,门庭冷落得出奇,甚至连像样的葬礼都凑不齐人手。但900年后再回头看,这位"失败者"的离去,却意味着一个时代的落幕。周敦颐、邵雍、张载、程颢、程颐——后世尊称"北宋五子"的五位大儒,到这一年,已经全部谢幕。这五个人,生前几乎都谈不上显赫。周敦颐做了一辈子小官,最高不过通判;邵雍终身不仕,靠朋友接济过日子;张载辞官归里,穷到要靠学生众筹买地;程颢54岁便病逝,壮志未酬;程颐晚年更是被打成"奸党",著作被禁、学说被毁,死时连棺材都是学生凑钱买的。可偏偏就是这几个不起眼的人,做成了一件影响中国近千年的大事——他们打赢了一场决定中华文明底色的生死之战。这场战争的对手,不是金戈铁马的外敌,而是佛老之学对儒学长达数百年的侵蚀。他们用一生的清贫与孤独,重建了儒家的精神大厦,为后世中国人的价值观、伦理观和世界观奠定了根基。
这是一篇关于《文明之旅》公元1106年:怎样才能在时光中不朽思维导图,公元1106年正月,开封城的一个深夜。宋徽宗等不到天亮,就急匆匆派出宦官,把皇宫外的一块石碑,连夜砸毁。这块碑,历史上赫赫有名——“元祐党人碑”。碑上刻着309个人的名字:司马光、文彦博、苏轼、苏辙、范纯仁、黄庭坚……几乎囊括了那个时代最耀眼的一批士大夫。而宋徽宗和蔡京立碑的目的,也非常直接:就是要把这些人,永远钉在“奸党”的耻辱柱上。为了做到这一点,他们几乎动用了当时所有能想到的“封杀手段”:用最坚硬的石头刻碑;皇帝御笔书写;从京城到全国州县,层层立碑;禁止这些人的子孙在京城做官、居住,禁止与宗室联姻;焚毁苏轼、黄庭坚等人的文集和雕版,片纸只字不得流传。这几乎是一套“把一个人从历史中彻底抹去”的完整方案。然而,历史最后给出的结果,却荒诞得惊人——这份黑名单,后来变成了光荣榜;司马光、苏轼这些“奸党”,成为后世景仰的千古名臣;而主导立碑的蔡京,却成了铁板钉钉、遗臭万年的“奸臣”。
社区模板帮助中心,点此进入>>
这是一篇关于《文明之旅》公元1108年:宋徽宗怎么敢纵容童贯思维导图,公元1108年,宋徽宗大笔一挥,给宦官童贯加封“开府仪同三司”,相当于宰相级别的待遇。北宋开国一百多年,还从来没有一个宦官在生前拿到过节度使的头衔。徽宗一高兴,规矩就这么破了。后来,童贯还被封为广阳郡王,成为整个中国历史上罕见的宦官王爵。东汉、唐朝的宦官之祸,血淋淋地写在史书里。宋朝的祖宗家法也对宦官严防死守:宦官不许结党,不许娶妻,不许多收养子。可即便如此,宋徽宗还是亲手打开了那个瓶子,放出了一个再也收不回去的魔鬼。本期《文明之旅》我们并不想对童贯进行道德审判,也不想对宋徽宗进行功过褒贬。因为童贯真正值得讨论的地方,不是他这个人有多坏、有多会钻营,而是他崛起背后所暴露出的一种组织困境:任何一套正式制度,都不可能完全覆盖现实中的所有事务。皇帝需要“自己人”,朝廷需要灵活通道,庞大的官僚机器也需要一些非正式的润滑机制。可以说童贯这类人的崛起,就发生在这种“正式制度”与“非正式制度”的博弈中。
这是一篇关于《文明之旅》公元1107年:北宋儒家是如何绝地反击的思维导图,公元1107年深秋,洛阳城一处冷清的小院里,寒风卷着落叶拍打窗棂,一位75岁的老人在寂静中走到了生命的终点。他叫程颐,曾经是宋哲宗的老师,也是北宋理学的奠基人之一。你可能对这个名字有些陌生,但你一定听过"程门立雪"——那位让学生杨时在门外恭敬等到大雪没过脚踝也不敢打扰的严师,就是他。然而,这位一代大儒去世时,门庭冷落得出奇,甚至连像样的葬礼都凑不齐人手。但900年后再回头看,这位"失败者"的离去,却意味着一个时代的落幕。周敦颐、邵雍、张载、程颢、程颐——后世尊称"北宋五子"的五位大儒,到这一年,已经全部谢幕。这五个人,生前几乎都谈不上显赫。周敦颐做了一辈子小官,最高不过通判;邵雍终身不仕,靠朋友接济过日子;张载辞官归里,穷到要靠学生众筹买地;程颢54岁便病逝,壮志未酬;程颐晚年更是被打成"奸党",著作被禁、学说被毁,死时连棺材都是学生凑钱买的。可偏偏就是这几个不起眼的人,做成了一件影响中国近千年的大事——他们打赢了一场决定中华文明底色的生死之战。这场战争的对手,不是金戈铁马的外敌,而是佛老之学对儒学长达数百年的侵蚀。他们用一生的清贫与孤独,重建了儒家的精神大厦,为后世中国人的价值观、伦理观和世界观奠定了根基。
这是一篇关于《文明之旅》公元1106年:怎样才能在时光中不朽思维导图,公元1106年正月,开封城的一个深夜。宋徽宗等不到天亮,就急匆匆派出宦官,把皇宫外的一块石碑,连夜砸毁。这块碑,历史上赫赫有名——“元祐党人碑”。碑上刻着309个人的名字:司马光、文彦博、苏轼、苏辙、范纯仁、黄庭坚……几乎囊括了那个时代最耀眼的一批士大夫。而宋徽宗和蔡京立碑的目的,也非常直接:就是要把这些人,永远钉在“奸党”的耻辱柱上。为了做到这一点,他们几乎动用了当时所有能想到的“封杀手段”:用最坚硬的石头刻碑;皇帝御笔书写;从京城到全国州县,层层立碑;禁止这些人的子孙在京城做官、居住,禁止与宗室联姻;焚毁苏轼、黄庭坚等人的文集和雕版,片纸只字不得流传。这几乎是一套“把一个人从历史中彻底抹去”的完整方案。然而,历史最后给出的结果,却荒诞得惊人——这份黑名单,后来变成了光荣榜;司马光、苏轼这些“奸党”,成为后世景仰的千古名臣;而主导立碑的蔡京,却成了铁板钉钉、遗臭万年的“奸臣”。
如何清洗整理数据
《数说/第3季》第41期
数据层面的数据清洗
1、缺失值
行记录的缺失
例如某门店的某一天的数据,确实是丢失了。丢失的原因可能是系统的原因,或者是人工误操作的原因等。
某些列字段数据的缺失
提的是某些行记录中,有些字段的数据是缺失的。产生的原因也有各种各样的,可能是人工没有收集,录入等,或者是机器故障等。
上图中第4和13行就是行记录的缺失,B9、B10、C9、D11就是列字段数据的缺失。
缺失值的处理方式
补全
直接有办法查证到缺失的数据,如能找到门店导购或小票,那就直接补全就好了。
也可以用统计学的一些办法,如用平均值、权重还原值、中位数等去补全。
丢弃
如果缺失的某行记录/列字段数据对我们的分析影响很小,我们可以直接丢弃它,即把整行或整列的数据删除。
如你的需求只是统计某店铺本月的销售业绩,如果某一天的数据缺失,而你通过了解得知该天的业绩金额很小,如当天的业绩仅占1%,对整月的业绩统计影响很小,可选择丢弃它。
2、重复值
数据记录完全相同,处理方式就是去重。
处理原则也是依据分析目的而去决定的。
3、异常值
极值法
我们可以看一组数据的最大值、最小值,看看它们是否异常。例如某门店,平均正常的日销售数量都在900-1200之间,但是11月11日销量达到10000件,而11月12日销量仅为250件,那么这2个值都属于异常值了。
箱形图
在箱形图当中,是将一组数据从小到大进行排列,同时能显示出这组数据的上限、下限、中位数,以及上/下四分位数,能让我们清楚地看到一组数据的离散情况。
上图分析了京东5大手机品牌旗舰店的销售价格,橙色的箱子里面,表示50%的手机零售价格介于1699-4787元之间,超过9098元的零售价格可以看成为零售价中的异常价格值,算绝对高端的价格了。
箱形图对于识别异常值点非常方便,只要在上了和下限以外的点,就可以识别其为异常,就需要我们进一步去判断异常原因。
趋势图
使用趋势线方便我们识别异常值,可以看极值点,也可以看拐点。
识别了异常值后,应该怎么进一步去处理?
首先,要找出异常的原因。如果是错误的数据,当然优先处理就是要修正了,如果修正不了,并且对分析结果不会很造成影响的话,也可以把异常值剔除。
还有一种可能这就是正常的业务数据,例如是双11当天搞了促销活动,所以销量大升,然后出现了缺货,12号的销量也受到了影响 。那就不需要特殊处理,直接保留。
业务层面的数据清洗
1、会员销售额大于总销售额
如果出现,那非会员的销售额就是负数。如果不是误操作,那就是销售人员,把非会员的销售转成了会员销售!这样销售人员就获得了其中的利益了。
2、订单数大于订单中的件数
销售的最小件计量单位是1件,如果出现订单数大于销售件数的情况,往往是因为有退货订单的存在,有退货订单会影响什么呢?
3、订单数大于客流数
订单数正常是不会大于客流数的,如果出现这种情况,要想想其中的秘密在哪里? 例如,销售人员可能会拆单录入,1个客人买了10件产品,拆成5单录入,每单成交件数为2件。销售人员为什么要这么做?为了凑件数,凑金额?冲单数?或是利用促销的一些漏洞,都有可能!
4、月初放松
5、月末踩刹车
当本月差不多要结束时,如果你发现怎么努力都没办法完成目标时,你会选择放弃努力。。或是早早地就完成了目标,月底真的是刹车。
6、数据还原问题
利用销售规律还原
某店铺某个月都在闭店装修,这样整个月都没有数据,但现在需要制定该店铺下一年的目标。这时我们就需要想办法还原数据,可用季节指数法,还原缺失月份的销售数据。
利用可对比对象还原
某店铺预计12月中旬开业,要制定来年的全年目标。这时可以用另一个方法解决,就是找可比店铺数据做参考。 怎么选择可比店铺?一些原则方向可以参考: 1、业态相同 2、商圈属性相同 3、客流量差不多 4、城市级别差不多 5、店铺位置可比 6、店铺面积可比 7、店铺资源可比