导图社区 数据科学处理
包含了探索性数据分析、目的、初步了解数据集,验证一些简单假设,为形成后续的假设、构建模型提供基础和数据等。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
数据科学处理
探索性数据分析
目的
初步了解数据集,验证一些简单假设,为形成后续的假设、构建模型提供基础和数据
流程
数据检查
1. 数据意义及规模
2. 特征类型及意义
数值型
排序型
类别型
逻辑型/布尔型
3. 初步排除数据泄露
数据预处理
缺失处理
丢弃
行丢弃:dropna(axis=0)
列丢弃:dropna(axis=1)
填充
字典填充
临近值填充:fillna(method='ffill')
异常处理:z-score/四分位距
冗余处理:drop_duplicates()
简单重复
一元线性依赖
多元线性依赖:PCA
数据初步分析
描述性统计
位置性测度:算术平均、中位数、p百分位数、众数
离散性测度:极差、方差、标准差、变异系数
图形化描述统计:直方图、箱型图
建模与性能评价
统计建模
假设检验:t检验、z检验、卡方检验
p-hacking
回归模型
线性回归
线性相关
逻辑回归
训练集/测试集
朴素贝叶斯模型
贝叶斯定理
高斯模型
多项式模型
伯努力模型
性能评价
混淆矩阵:ACC/TPR/TNR/PPV/NPV/F1
模型
决策树建模
K-means模型:K-means迭代算法
偏差-方差权衡
偏差-方差困境
过拟合/欠拟合
k-折交叉验证
2010851134 王雪昭