导图社区 数据科学概论
大数据专业必备数据科学概论的知识导图,内容有数据科学概论、OLTP与数据服务、数据的深度分析(数据挖掘,机器学习)等。
编辑于2022-04-08 01:00:40数据科学概论
数据科学概论
1. 关系
Data> information> knowledge
2. 模型模型
数据库管理系统DBMS
数据库系统DBS
数据库管理员DBA
OLTP与数据服务
3.OLTP-联机事务处理
事物要么全部执行
要么不执行
4. 💓OLTP特点
① 用户请求作为一个事物进行处理
② 响应时间短
Sql--结构化查询语言
5. 事物具有
1. Atomicity原子性
2. consistency一致性
3.Isolution 隔离性
4.Durability持久性
☀️6.NoSQL的 CAP理论
一致性 Consistentcy (ACID(实施)
系统可用性 Availability
网络分区容忍性Network Partition Tolerance
CAP原则是 Nosql数据库的“基石”
7.一致性Hash 技术优点
某节点负载过重时,可以往集群里增加节点
可以把数据保存多份-以提高容错性
第三章OLAP 与结构化数据分析
8.💓OLAP-->联机分析处理
(在线分析处理)
多维分析(即汇总分析)
—OLTP(事物)
关系模型————————少量记录——可更新,删除 —————响应时间秒级——支持业务运行
—OLAP(分析)
量型及雪花模型(不绝对)——大量——追加 不删,极少更新——分钟级—————决策
-操作型事务处理——OLTP
-分析型事务处理——简单分析——OLAP 复杂分析——统计分析,数据挖掘,机器学习
9.OLAP 分为
MOLAP——性能高
ROLAP——占用空间有限,但都被重新执行,性能受影响(保存原始数据)
混合型OLAP-->HOLAP
10.高性能OLAP系统的关键技术
行存储——适合存取少量数据
列存储——(适合对数据进行分析,存取少量数据列) ——①减少磁盘占用 ②节约内存
11.———
位图索引是对数据仓库的索引形式
低基数字段可以建立Bit makes 索引
12.MMP(结构化数据分析工具介绍)
共享内存memory
共享磁盘disk
无共享
13.分布式数据库特点
将自治管理和集中式数据查询及操作巧妙结合
高访问速度
高并发能力
高拓展能力
第四章—数据清洗与数据集成
14.数据从数据库中抽取,转换,装载到数据仓库中(ETL操作)
若数据源存在异构性及不一致性——数据集成
若数据源数据质量较差——数据清洗技术
15.数据异常
语法类异常——词法,值域格式,不规则取值
语义类异常——完整性约束原则,矛盾、数据值重复,无效元组
覆盖类异常——值的缺失,元组缺失
16.清洗步骤
审计
方法
执行
检查
17.异构性
数据管理系统—异构性
通讯协议—异构性
数据模式—异构性
数据类型—异构性
取值——异构性
语义—异构性
第五章—数据的深度分析(数据挖掘,机器学习)
18.机器学习☀️
目的:分类和回归
按训练数据类型分类
有监督
无监督
半监督
19.信息增值:表示数据集D在特征A作用后,使用熵减少的值Gain(A)=Info(D)-Inf_A_(D)
20.K-means
☀️K-Means属于“聚类算法”,属于无监督算法
☀️KNN——分类算法
☀️AdaBoost——迭代算法
缺点
①K值难以估计
②先确定初始划分,再优化,对结果有影响
③时间开销大
21.核函数使数据“线性可分”,将低维数据点——映射到高高维☀️
22.置信度=P(BIA)=P(AB)/P(A)
23.规则的两个指标
支持度
置信度
24.对“推荐系统”分为
☀️基于内容
☀️ 基于人口统计学
☀️基于协同过滤
👧推荐系统分为
☀️个性化推荐系统
☀️大众化推荐系统
👧根据“推荐模型”的“基本原理”
① 基于用户对物体评价矩阵的推荐系统
② 关联规则
③ —规则
25.☀️KNN☀️
优点☀️
易理解
易实现
无须参数估计和训练过程
缺点☀️
计算量大
内存开销大
执行速度慢
💓💓💓
26.贝叶斯定理 p(BIA)=P(AIB)P(B)/P(A)
☀️☀️ P(类别I特征)=P(特征I类别)P(类别)/P(特征)
26.全概率法则 P(B)=(n/i=1 )P(BIAi)/P(Ai)
27.Adaboost迭代算法的步骤
初始化训练数据的权值分布
训练弱分累器
将各训练所得弱分类器组合成强分类器
28.人工神经网络
👧是模仿动物和人类神经系统特征进行分布式并行数据处理的数据模型
目的:对新数据进行处理(分类,预测等)目的
29.卷积神经网络
☀️是多层神经网络结构
多层为C层(卷积)
或 S层(子采样)
前馈神经网络深度学习中常用方法
交替使用“卷积层”☀️
最大值池化层(子采样层)☀️
☀️30.流数据特点
实时到达,持续到达
次序独立,不受应用系统控制,不能控制顺序
规模宏大
不保存
31.数据处理系统的查询处理
滑动窗口——优势
易理解
结果确定
强调最近的数据,数据权重高
✉️数据流的“最近数据元素”上执行查询
批处理——update足够快,但computerAnswer慢,牺牲了实时性
采样——computerAnawer快,但update 慢
梗概——updatae和computerAnswer都快
批处理,采样,梗概——处理“近似查询”的一种策略,使用某种可以“增量式维护”的数据结构
32.查询处理的基础算法
① 查方图
②布隆过滤器
③计数最小梗概
33.可视化的过程
过滤
映射
渲染
交互
☀️☀️☀️可视化的首要原则
准确☀️☀️
清晰☀️☀️
34.💓可视化要遵循的原则☀️
① 小空间,少图形,越简洁越好
② 可视化结果要阐明事物相互联系及变化趋势。
③ 用用户熟悉的事物
④ 构建实物场景
⑤考虑把交互方式和动画效果加入
35.云计算
34.云计算是“并行计算” “分布式计算”“网络计算”发展的新阶段
☀️特点
资源虚拟化
弹性分配
成本低
容错性和可靠性高
36.✉️✉️✉️核心技术—虚拟化
37.✉️✉️✉️云计算分为
"基础设施"作为服务LaaS☀️
"平台"作为服务PaaS☀️
"软件"作为服务SaaS☀️
☀️数据类型集成形式
物理式✉️✉️
逻辑式✉️✉️
39.流数据所特有的查询
一次性查询
持续查询
40.Python 是一种“面向对象”的,“解释型l”计算机程序设计语言