导图社区 大数据平台知识梳理
大数据平台知识梳理:选择用ES,在单机上做了一个简单的测试,大概三亿多条数据,用最坏的查询条件进行搜索,保证这个搜索是全表搜索(基于Lucence创建了索引,使得这种搜索更高效),整个查询时间能控制在几秒以内。
这是一篇关于番茄工作法花树图,间歇工作的总体效率高于连续工作,休息和工作交替进行。希望对你的工作效率有所帮助!
关于TK类电机设计审核思维导图,MacTK类电机的设计审核是一个全面评估电机性能、可靠性、成本等各方面要求的过程。
这是一篇关于设计心理学思维导图,包含日用品中的设计问题、日常操作心理学、设计中的挑战等。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
大数据平台
工作应用
业务相关
用户画像
风险控制
决策相关
数据科学的领域,了解统计学、算法
数据科学家
工程相关
如何实施、实现、解决什么业务
数据工程师
工程核心
数据源
特点决定数据采集和数据存储的技术选型
四种
内外部
内部主动写入
CRM
Hadoop
mongo
Apache Kafka
ORACLE
外部网络拉取
获得外部数据本身提供的api
调用api获取,如微信
写爬虫获取
特点
数据结构不一致,需要转换和清洗加工
ETL,由ETL进行数据提取、转换、加载,清洗、去重、去噪
结构化和非结构化数据
结构化偏向文件,NoSQL数据库
不变可添加数据,可修改可删除数据
前
增量同步策略
后
数据量大小
大
高延迟
batch处理方式
实时分析
流式处理
数据存储
相同数据多种表现形式,存储不同类型数据库中
poly-db数据冗余生态
按数据源分类
三种
数据源的类型和采集方式
采集后数据的格式和规模
分析数据的应用场景
场景
场景一
舆情分析
选择用ES,在单机上做了一个简单的测试,大概三亿多条数据,用最坏的查询条件进行搜索,保证这个搜索是全表搜索(基于Lucence创建了索引,使得这种搜索更高效),整个查询时间能控制在几秒以内
场景二:商业智能产品
对数据集进行分析(聚合运算为主)
Parquet列式存储
要求
既要满足大数据量的水平可伸缩
同时满足高性能的聚合运算
场景三:Airbnb大数据平台
数据来源
大量的事件
本身的业务数据
技术处理:
日志数据通过Kafka
线上通过Sqoop
为什么不是flume,这里是指已经得到后的考量?
数据存储选择HDFS
通过Presto对Hive表执行 即席查询
数据处理
业务角度
查询检索
数据挖掘
统计分析
深度分析
机器学习
神经网络
技术角度
Batch SQL
machine learning
Deep learning
编程模型
离线编程模型
内存编程模型
实时编程模型
Lambda架构