导图社区 数据清洗
数据清洗思维导图:解决数据、质量问题、让数据更适合做挖掘或展示等内容。喜欢的小伙伴可以点个赞哦!
自媒体各种图片尺寸,主要包括:微信公众号、视频号/抖音、微博、小红书四部分内容。希望对你有所帮助!
职能型组织结构思维导图,包括:信息、简介、结构介绍、主要特点、结构缺点、适用性应用。希望对你有所帮助!
药店2.0时代思维导图,主要内容有:中国药店创新趋势报告、我国药店、我国药店行业、我国药店。
社区模板帮助中心,点此进入>>
项目时间管理6大步骤
互联网9大思维
项目管理的五个步骤
电商部人员工作结构
电费水费思维导图
D服务费结算
组织架构-单商户商城webAPP 思维导图。
暮尚正常运转导图
批判性思维导图
域控上线
数据清洗
解决数据质量问题
解决数据完整性
通过其他信息补全,如使用身份证件号码推算性别、籍贯、出生日期、年龄
通过前后数据补全,例如时间序列缺失数据可使用前后均值,缺失多了可使用平滑处理
实在补不全的,虽然很可惜,但也必须要剔除。但是不要删掉,没准以后可以用得上
解决数据唯一性
按主键去重,用sql或者excel“去除重复记录”即可
按规则去重,编写一系列规则,对重复情况复杂的数据进行去重
解决数据权威性
用最权威的那个渠道的数据(例如同一个指标出现多个来源的数据,目数值不一样)
解决数据合法性
设定强制合法规则,凡是不在此规则范围内的,判为无效,剔除
设定警告规则,凡是不在此规则范围内的,进行警告,然后人工处理
离群值人工特殊处理,使用分箱、聚类、回归、等方式发现离群值
解决数据一致性
指标体系(度量)
维度(分组、统计囗径)
单位
频度
数据
让数据更适合做挖掘或展示
解决高维度问题
降维(主成分分析、随机森林等等)
解决维度低或缺少维度问题
各种汇总,平均、加总、最大、最小等
各种离散化,聚类、自定义分组等
解决无关信息和字段冗示
剔除相关字段
解决多指标数值、单位不同问题
归一化
最小最大
0-均值
小数定标