导图社区 大数据导论
大数据专业大一上大数据导论课知识思维导图,主要内容有大数据、驱动力、数据、数据处理的一般过程、数组表等内容。
计算机操作系统期末复习(仅归纳)不代表所有学校的考点,包括:第一章引论、第二章操作系统接口、第三章进程管理、第四章进程调度与死锁、第五章存储器管理、第六章文件管理、第七章设备管理。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
大数据导论
大数据
4V 特征
Volume 海量数据
Value 价值密度低
Variety 种类
Velocity 更新速度快
思维模式改变
采样→全样
精确→非精确
因果→关联
驱动力
获取:PB
B→KB→MB→GB→TB→PB→EB→ZB→YB
传输:Cisco
计算/ 存储:超级计算机
处理:IBM 算法性能
数据
结构化数据
半结构化数据
非结构化数据
数据处理的一般过程
数据采集
传感器
系统日志
网络爬虫
众包
数据管理
文件
数据库(关系型DB)
关系运算:选择,投影,除
综合运算:交,并,差,笛卡尔积
大数据存储
分布式文件系统
HDFS
Ceph:实时
GlusterFS
新型DB
NoSQL
横向扩展
放弃严格ACID
对数据进行容错
四类NoSQL数据库
键值对数据库
文档数据库
哈希表
列族数据库
图数据库
数据分析
统计数据分析
数据描述
箱型图(容易计算题)
回归分析
基于机器学习的数据分析
非监督学习方法
K-means算法
监督学习方法
决策树
KNN
神经网络
社会网络(图数据库)
最小生成树
Prim
Kruscial
中心性 (可能考计算题)
度中心性
接近中心性
中介中心性
相似性
欧基里德
曼哈顿
数据源
互联网
物联网
企业数据
自然语言中的数据分析
数据可视化与交互分析
数据集成
传统数据集成
模式匹配
数据映射
语义翻译
真值发现
跨界数据集成
基于阶段
基于特征
直接关联
基于深度神经网络(DNN)
基于语义
基于多视图
基于相似性
基于概率依赖
基于迁移学习
数据质量
一致性
完整性
精确性
时效性
实体同一性
不一致性修复(重要题型)
浮动主题
服务封装(应用级别)
处理
存储
数组表
邻接矩阵:时间快
邻接表:空间
另一种采集方式
批量采集
离线采集
离线计算 (数据仓库)
离线推荐
流式采集
实时采集
实时计算
实时推荐
价值
智慧
知识
信息