导图社区 数据清洗思维导图
数据清洗思维导图,主要内容有:1.数据准备、⒉数据预处理、3.统一数据口径、4.缺失值补充、5.格式内容清洗、6.逻辑错误清洗、7.非需求数据的清洗、8.关联性验证。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
数据清洗
1.数据准备
数据爬取、获取
python以及其他进行爬虫操作,得到原数据(脏数据)
数据备份
进行数据处理前的必要操作,以便数据处理失误后可与原数据对照调整
2.数据预处理
数据导入
将数据导入处理工具,一般是建议使用数据库,但是就专业而言,excel应该已经可以处理目前我们所遇到的大部分数据
读懂数据
看元数据
看元素最重要的就是读懂数据字典,还有字段解释、数据来源;
抽取查看数据(一般不进行该操作)
抽取部分数据,人工查看,对数据做出直观了解,方便发现问题
3.统一数据口径
数据单位的统一
计数格式的统一
包括其中相同单位的字段,比如:销售金额与进口额
4.缺失值补充
1.确定缺失值的范围
2.去掉不需要的字段
在数据清洗时,认为该字段的重要性比较低,那就直接删除,但是但是但是一定要做好数据备份,或者在小规模数据上试验成功后再处理全局数据
3.填写缺失内容
经验推理填补缺失值
以同一指标的计算结果(均值,中位数,众数等等)
以不同指标的计算结果(线性拟合、logistics拟合等),当然还有根据前后字段进行填补,比如缺失年龄但是又存在身份证号码
重新取值,如果某项指标对于分析特别重要,那么就需要联系相关人员或者重新设置程序进行二次提取
5.格式内容清洗
可能会遇到的问题:时间、日期、数值、全半角等显示格式不一致
内容中存在不该存在的字符,比如中文名字之中存在英文字母
内容与该字段应有的内容不想符合,数据验证
6.逻辑错误清洗
去重,根据可以唯一标识的字段进行数据内容的查重去除,但也要注意空格内容导致的去重不匹配问题(比如刘禹汐和 刘 禹汐是不同的两个属性值)
去除不合理的值,比如年龄300岁,教师年收入100000000万
修正矛盾内容,有些字段之间是可以相互验证的,比如身份证号和年龄
7.非需求数据的清洗(我比较喜欢放在第一步做)
简而言之,就是把不要的字段删除。比如分析购物能力,不需要把出身地址也放进来分析
8.关联性验证
如果数据来源是多个来源地址,那么就有必要进行数据关联性的验证,比如线下购物的信息记录和客户问卷信息记录