导图社区 数据准备和预处理
数据准备和预处理,全面而系统地展示了数据分析和数据处理的完整流程及其关键步骤,为从事数据分析工作的人员提供了宝贵的参考和指导。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
数据准备和预处理
数据准备
数据清洗
缺失值处理
删除含有缺失值的记录
缺失值填充(均值、中位数、众数)
异常值处理
统计方法(Zscore、IQR)
规则方法(箱线图)
数据格式化
标准化
归一化
数据类型转换
文本到数值
分类数据编码(独热编码、标签编码)
数据集成
数据融合
合并数据集
数据对齐
冗余数据处理
相关性分析
主成分分析(PCA)
数据约简
维度降低
线性判别分析(LDA)
数据压缩
矩阵分解技术
哈希技术
特征选择
过滤方法
卡方检验
互信息
包裹方法
递归特征消除(RFE)
基于模型的特征选择
嵌入方法
基于惩罚的特征选择(L1正则化)
基于树的方法(随机森林特征重要性)
数据预处理
离散化
等宽离散化
定义区间宽度
分配区间
等频离散化
定义区间数量
分配数据到区间
基于聚类的离散化
使用聚类算法(Kmeans)
确定聚类中心作为边界
相关知识
数据预处理的目的
提高数据质量
减少噪声和不一致性
数据预处理的影响
对模型性能的影响
对数据解释性的影响
数据预处理技术的选择
根据数据类型和问题选择
根据模型要求选择