导图社区 数据挖掘全流程
这是一个关于数据挖掘全流程的思维导图,讲述了数据挖掘全流程的相关故事,如果你对数据挖掘全流程的故事感兴趣,欢迎对该思维导图收藏和点赞~
编辑于2022-10-17 20:45:33数据挖掘全流程
数据收集
网络爬虫
选择适当的爬虫工具
Python中的BeautifulSoup和Scrapy
JavaScript中的Cheerio和Puppeteer
设置爬虫的起始链接和相关参数
编写爬虫代码
数据库查询
SQL语句编写
查询结果导出
整理查询结果格式
API调用
查找合适的API接口
注册并获取API密钥
调用API接口并获取数据
数据清洗
缺失值处理
检测缺失值
使用统计方法
使用可视化工具
填充缺失值
使用均值、中位数或众数
使用插值法
使用机器学习算法
删除具有缺失值的样本或特征
数据去重
查找重复值
使用重复值检测方法
使用可视化工具
删除重复值
保留第一个或最后一个重复值
根据特定条件删除重复值
数据变换
特征选择
使用统计方法
使用机器学习算法
使用领域知识
特征缩放
归一化
标准化
对数变换
特征编码
类别型特征编码
独热编码
有序编码
文本型特征编码
词袋模型
词嵌入模型(Word2Vec、GloVe等)
数据分析
探索性数据分析(EDA)
数据可视化
散点图、直方图、箱线图等
饼图、柱状图、折线图等
热力图、散点矩阵等
描述性统计
均值、中位数、众数等
方差、标准差、极差等
相关系数、协方差等
建模与预测
选择合适的机器学习算法
分类算法
朴素贝叶斯、决策树、支持向量机等
回归算法
线性回归、岭回归、随机森林等
聚类算法
K-means、层次聚类、DBSCAN等
划分训练集和测试集
特征工程
特征提取
主成分分析(PCA)
线性判别分析(LDA)
特征选择算法
特征构造
组合特征
嵌入特征
模型训练与评估
建立模型,设置参数
交叉验证
模型评估指标
准确率、召回率、精确率等
均方误差、平均绝对误差等
模型优化与验证
调参
网格搜索
随机搜索
贝叶斯优化
模型集成
堆叠、投票、融合等
模型验证
使用新数据进行验证
使用交叉验证进行验证
结果解释与展示
结果解读
模型的预测能力和稳定性分析
模型的重要特征分析
模型的解释性分析
结果展示
报告撰写
可视化图表制作
演示文稿制作