导图社区 第三章 流程与方法
这是一篇关于第三章 流程与方法的思维导图,包括:基本流程、数据加工、数据科学项目管理、数据故事化、数据可视化、数据分析、数据审计、数据科学中的常见错误。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
流程与方法
基本流程
数据化
数据加工
干净数据
规整数据
数据规整化
探索性分析(EDA)
耐抗性
残差
重新表达
启示
数据分析与洞见
描述性分析
预测性分析
规范性分析
结果展现以及数据产品的提供
主要动机
数据质量要求
数据计算要求
步骤
数据清洗
缺失数据处理
冗余数据处理
识别
分析
过滤
噪声数据处理
分箱
分类
等深分箱
等宽分箱
具体模型
根据对原始数据集的分箱策略
根据每个箱内成员数据的替换方法
聚类
回归
数据变换
策略
平滑处理
特征构造(属性构造)
聚集
标准化(规范化)
离散化
数据集成
内容集成
结构集成
基本问题
模式集成
数据冗余
冲突检测与消除
数据脱敏
要求
单向性
无残留
易于实现
数据归纳
维归纳
值归纳
数据标注
语法标注
语义标注
数据科学项目管理
主要角色
项目发起人
项目经理
客户
数据科学家
数据工程师
操作人员
项目目标的定义
数据的获得与管理
模式/模型的洞见
模式/模型的验证和优化
结果的可视化与文档化
模式/模型的应用及维护
数据故事化
情景
还原情景
移植情景
虚构情景
地位
易于记忆
易于认知
易于体验
故事化描述与故事的展现方式
故事化描述是故事展现的前提条件
故事的展现对数据化描述的反馈作用
基本原则
忠于原始数据原则
设定共同情景原则
体验式讲述原则
个性化定制原则
有效性利用原则
3C精神原则
数据可视化
基本类型
科学可视化
信息可视化
可视分析学
涉及领域
科学/数据可视化
数据挖掘
统计分析
分析推理
人机交互
数据管理
流程
强调数据到知识的转换过程
强调可视化分析与自动化建模之间的相互作用
强调数据映射和数据挖掘的重要性
强调数据加工工作的必要性
强调人机交互的重要性
方法体系
方法论基础
基础方法
领域方法
视觉感知与视觉认知
可视化视角下的数据类型
定类数据
定序数据
定距数据
定比数据
视觉通道的选择方法
精确性
可辨认性
可分离性
视觉假象
可视化视图所处的上下文(周边环境)可能导致视觉假象
人眼对亮度和颜色的相对判断容易造成视觉假象
目标用户的经历与经验可能导致视觉假象
数据分析
主要采用描述性统计分析方法
诊断性分析
关联分析法
因果分析法
分类分析方法
趋势分析方法
运筹学
模拟与仿真技术
数据审计
发现问题
缺失值
噪声值
不一致值
不完整值
预定义审计
自定义审计
验证规则
变量定义规则
函数定义规则
可视化审计
数据科学中的常见错误
不检查数据
不理解数据
不评估数据
不测试模型
只有目标,没有假设
采用过时时效的模型
不评估最终结果
忽略业务专家的作用
选择过于复杂的模型/算法
模型或算法选择上的偏见
曲解基本概念和基础原理
低估目标用户的理解能力