导图社区 流程与方法
数据科学理论与实践第三章,包含数据加工、数据审计、数据分析、数据可视化、数据故事化、数据科学项目管理。
数据科学与大数据结构,数据科学和大数据产业链提供大数据分析类的技术支持,包括数据分析平台,数据科学平台,社会分析,机器学习等;数据资源代表的是生成数据的机构,包括孵化器,学校及研究机构。
数据科学理论与实践第二章,介绍了数据科学的学科地位、统计学、机器学习的知识,希望这份脑图会对你有所帮助。
社区模板帮助中心,点此进入>>
互联网9大思维
安全教育的重要性
组织架构-单商户商城webAPP 思维导图。
个人日常活动安排思维导图
域控上线
西游记主要人物性格分析
17种头脑风暴法
python思维导图
css
CSS
流程与方法
基本流程
数据化
捕获人们的生活,业务或社会活动,并将其转化为数据的过程
数据加工及规整化处理
干净数据
规整数据
数据加工的两个基本问题
探索性数据分析
EDA方法
耐抗性
残差
重新表达
数据分析与洞见
描述性分析
预测性分析
规范性分析
结果展现
数据产品的提供
数据加工
数据加工是指在对数据进行正式处理之前,根据后续数据计算的需求对原始数据集进行审计,清洗,变换,集成,脱敏,归约和标注的一系列处理活动
数据质量要求,数据计算要求
数据清洗
缺失数据处理
冗余数据处理
噪声数据处理
根据对原始数据集的分箱策略
根据每个箱内成员数据的替换方法
数据变换
平滑处理
特征构造
聚集
标准化
离散化
数据集成
内容集成
结构集成
模式集成
数据冗余
冲突检测与消除
数据脱敏
单向性
无残留
容易实现
数据归约
维归约
值归约
数据标注
语法标注
语义标注
数据审计
按照数据质量的一般规定与评价方法,对数据内容及其元素进行审计,发现其中的问题
缺失值,噪声值,不一致值,不完整值
预定义审计
数据字典
用户自定义的完整性约束条件
数据的自描述性信息
属性的定义域值域
数据自包含的关联信息
自定义审计
变量定义规则
函数定义规则
数据审计常用技巧
第一数字定律
小概率原理
语言学规律
数据连续理论
数据鉴别技术
可视化审计
数据分析
关注过去,回答已发生了什么
数据分析的第一步
描述性统计分析方法
诊断性分析
关注过去,回答为什么发生
关联分析法和因果分析法
关注未来,回答将要发生什么
采用分类分析法和趋势分析法
是规范性分析的基础
关注模拟与优化的问题,如何优化将要发生的问题
采用运筹学,模拟与仿真技术
可直接产生产业价值
数据可视化
基本类型
科学可视化
信息可视化
可视分析学
数据挖掘
统计分析
分析推理
人机交互
可视分析模型
强调数据到知识的转换过程
强调可视化分析与自动化建模之间的相互作用
强调数据映射和数据挖掘的重要性
强调数据加工工作的必要性
强调人机交互的重要性
方法体系
方法论基础
基础方法
领域方法
视觉感知与视觉认知
视觉感知
客观事物通过视觉感官器官在人脑中产生直接反应的过程
视觉认知
个体对视觉感知信息的进一步加工处理过程
可视化视角下的数据类型
定类数据
定序数据
定距数据
定比数据
视觉通道的选择方法
精确性
可辨认性
视觉假象
指给目标用户产生的错误或不准确的视觉感知,而这种感知与数据可视化者的意图或数据本身的真实情况不一致
可视化使徒所处的山下文周边环境,可能导致视觉假象
人眼对亮度和颜色的相对判断,容易造成视觉假想
目标用户的经历与经验可能导致视觉假象
数据可视化领域的六个著名实践及其源代码
计算宇宙的年龄
用地球的颜色渲染月球
纽约市13亿次的出租车旅行
通过17000个行程路线看世界
日食的格式化
吉米.亨德里克斯之体验
数据故事化
定义:数据转化为数据故事的过程,称为数据故事化
易于记忆
易于认知
易于体验
数据故事的模型
业务需求
数据
分析洞察
故事模型
故事叙述
受众行为
数据故事化的相关术语
数据驱动型故事化
可视故事化
分析型故事化
交互式故事化
用数据讲故事
数字化故事化
数据故事的作用
吸引
解释
启发
数据故事的认知
数据故事的感知
叙述者的故事化叙述,通过视觉感觉器官在人脑产生直接反应的过程
受众对故事化感知信息的进一步加工处理过程
数据故事的行动
受众在倾听数据故事后采取的行动
数据科学项目管理
主要角色
项目发起人
项目经理
客户
数据科学家
数据工程师
操作人员
项目目标的定义
数据的获得与管理
模式,模型的洞见
模式,模型的验证和优化
结果的可视化与文档化
模式,模型的应用和维护
数据科学项目中容易出现的错误
不检查数据就分析数据
不理解数据就分析数据
不测试模型就投入使用
数据科学分析工作只有目标,没有研究假设
数据模型没有与数据同步更新,采用过时的模型
对数据分析结果不进行讨论,就随便得出结论
缺少业务专家的参与
采用或训练过于复杂的模型算法
数据偏见的存在
对数据分析项目成果的呈现效果的重视不够
数据科学产品的用户体验的重视不足
高估或低估目标用户的理解能力