导图社区 数据科学导论
这是一篇关于数据科学导论思维导图,包含建模与性能评价、探索性数据分析、数据获取、问题与目标等。
马工程《西方经济学<下册>》(第二版)第12章思维导图,国民收入是一个泛指的总量概念,一般情况下将GDP看作国民收入。
马工程教材第十一章宏观经济的基本指标及其衡量思维导图,价格水平:是指经济体中特定范围内的产品和服务价格的总体平均水平,它是衡量货币购买力或货币所能购买的产品和服务数量的指标。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
数据科学导论
绪论
基本概念
数据:现实中某种事物或事物间关系进行数量或性质表征与记录的,都可以成为数据,数据是信息的载体
大数据:体量大、产生速度快而时效性高、类型繁多、高度真实与价值密度低
数据科学:应用科学的方法、流程、算法和系统从多种形式的结构化和非结构化数据中提取知识和洞见的交叉学科
数据科学项目流程
确定问题(定位精准)、制定目标(明确具体、可验证、可量化)、搜索数据、探索性数据分析、建立模型、性能评价(空模型指标)、结果展示、部署模型
问题与目标
用户层面的问题与目标
用户问题一般是一个现实世界中的具体问题
数据科学层面的问题与目标
关键是将现实中的问题抽象化
从数据科学的角度,现实问题可以抽象为:分类、预测、排序和打分、关联化、特征提取、聚类等(这里重点区分分类与聚类)
数据获取
前提设计与数据方案设计
前提假设 数据方案设计 数据获取的可行性分析 确定数据构成
总体与抽样
总体与个体 样本 无偏抽样 抽样偏差
混杂因素和A/B Testing
混杂因素和辛普森悖论
要依赖数据获得可靠结果,除了要做到无偏抽样,还要特别注意混杂因素的影响
混杂因素:这些因素不是我们考察的对象,但却可能对结果造成影响
双盲实验和A/B Testing
A/B Testing是指专门设计一些对比实验,在其它所有特征都匹配(或一致)的情况下,只观察一个变量(通常只有两个选项)的不同取值对于结果的影响
python基础语法
探索性数据分析
数据检查
数据的意义及规模 特征的数据类型及意义 初步排除数据泄露
数据预处理
缺失处理 异常处理 冗余处理
描述性统计
位置性测度 离散型测度 图形化描述统计
建模与性能评价
统计建模
常见的概率密度函数
参数估计
假设检验
p-hacking
回归模型
线性回归模型
线性回归模型性能评价
线性回归与线性相关
逻辑回归
训练集-测试集划分
应用非数值特征作为输入时的one-hot编码
朴素贝叶斯模型
贝叶斯定理
高斯模型
多项式模型
伯努利模型
分类模型的性能评价
混淆矩阵
指标权衡
应用举例
参数区分性能评价
决策树
决策树工作原理
分类任务决策树的建模过程
分类决策树应用举例
有监督学习模型与无监督学习模型
K—means 模型
两个基本概念
K-means迭代算法
偏差-方差权衡
偏差-方差困境
过拟合与欠拟合
K-折交叉验证
参数的网格搜索
集成学习
孔多塞陪审团定理
决策树集成
结果展示
区分面向对象的结果展示
展示过程中的可视化