导图社区 大数据发展
大数据经历了一个曲折而漫长的发展阶段,在这个阶段之中,我们需要学习很多的技术,例如Java、Hadoop、Spark、Hbase、HDFS等技术,利用这些技术解决以往存在的问题,用大数据的思维解决问题。
想了解马克思主义国家学说的核心经典?这份书单不容错过!马克思、恩格斯和列宁的《哥达纲领批判》等著作构建了科学社会主义的理论基石:《资本论》系统阐述剩余价值学说,《法兰西内战》总结巴黎公社经验,《国家与革命》捍卫马克思主义国家学说,《帝国主义是资本主义的最高阶段》揭示帝国主义本质这些经典既包含无产阶级政党的首个纲领,也首次系统阐述历史唯物主义,更创新发展了社会主义革命理论,是理解马克思主义国家学说的必读之作。
揭秘出租车数据背后的城市脉搏!本项目基于Spark和MLlib技术,从时空双维度解析出租车订单数据:先通过探索性分析挖掘订单规律(如每小时/周/月趋势),再构建线性回归和随机森林模型预测车费(含降雪、湿度特征)同时利用Spark SQL和GeoPandas绘制机场车流热力图,实现从数据预处理(读取、清洗)到模型评估(统计可视化)的全流程闭环,为城市交通规划提供数据洞察。
19世纪后期,洋务运动以"自强""求富"为口号,创办新式学堂与早期工业,却因封建性依赖而随北洋海军覆没告终维新派随后发起变法图存运动,推动思想启蒙与政治改良,但因资产阶级软弱性及局限性失败两场运动虽未达目标,但开创学习西方风气,促进近代教育发展,其兴衰历程深刻揭示了封建体制转型的困境与民族觉醒的曲折道路。
社区模板帮助中心,点此进入>>
安全教育的重要性
个人日常活动安排思维导图
西游记主要人物性格分析
17种头脑风暴法
如何令自己更快乐
头脑风暴法四个原则
思维导图
第二职业规划书
记一篇有颜又有料的笔记-by babe
伯赞学习技巧
大数据发展
四个阶段
搜索引擎时代
数据仓库时代
数据挖掘时代
机器学习时代
Google
人们纷纷弃雅虎投Google
对单词进行词频统计
每一步都将人类技术的边界推向更高的高度
获得以前无法获得的数据结果
从大数据仓库中获得自己想要的结果
数据挖掘还可以用于人际关系挖掘
机器学习
使机器表现人特有的技能
统计人的驾驶行为
从RAID看垂直伸缩到水平伸缩的演化
解决大规模数据存储的问题
单机时代
RAID
分布式时代
分布式文件系统
主要需要解决的问题
数据存储问题
数据读写速度问题
数据可靠性问题
0
数据在从内存缓冲区写入磁盘时,根据磁盘数量将数据分成N份,这些数据同时并发写入M块磁盘,使得数据整体写入速度是一块磁盘的N倍
读取的时候也一样
因此RAID 0具有极快的数据读写速度
不做数据备份
N块磁盘中只要有一块损坏,数据完整性就被破坏了,其他磁盘的数据也都无法使用了
1
数据写入磁盘时
将一份数据同时写入两块磁盘,这样任何一块磁盘损坏都不会导致数据丢失,插入一块新磁盘就可以通过复制数据的方式自动修复,具有极高的可靠性、
结合RAID 0和1的方案构成了RAID 10
它是将所有磁盘N平均分为两份,数据同时在两份磁盘写入,相当于RAID 1;但是平均分成两份,在每一份磁盘里面,利用RAID 0技术并发读写
这样既可以提高可靠性,又可以改善性能
但是RAID 10的磁盘利用率非常低
移动计算比移动数据更划算
大数据技术更关注于数据
需要计算的数据量急速膨胀
互联网用户数远远超过传统企业的用户
相应产生了更大量的数据
以往被忽略的数据重新被发掘利用
例子
用户在一个页面的停留时间
鼠标在屏幕移动的轨迹都会被记录下载进行分析
传统的软件计算处理模型
输入
计算
输出
大数据计算处理针对的是网站的存储数量
网站大数据做的就是将这些统计规律和关联关系计算出来,并由此进一步改善网站的用户体验和运营决策
移动计算程序到数据进行计算是如何实现的呢
将待处理的大规模数据存储在服务器集群的所有服务器上,主要使用HDFS分布式文件存储系统,将文件分成很多块。以块为单位存储在集群的服务器上
大数据引擎根据集群里不同服务器的计算能力,在每台服务器上启动若干分布式任务执行进程
这些进行会等待给它们分配执行任务
使用大数据计算框架支持的编程模型进行编程
比如
Hadoop
MapReduce编程模型
Spark
RDD编程模型
都是在JVM环境中运行
打包出来的是一个Java的JAR包
应用程序编写好以后,将其打包
用Hadoop或者Spark的启动命令执行这个应用程序的JAR包
首先执行引擎会解析程序要处理的数据输入路径
根据数据输入量的大小
将数据分成若干片
每一个数据片都分配给一个任务执行进程去处理
大数据的平台集成
大数据分析与大数据仓库
Hive
Spark SQL
大数据挖掘与机器学习
Mahout
MLlib
TensorFlow
大数据批处理技术
MapReduce
大数据流处理技术
Storm
Flink
Streaming
NoSQL系统
HBase
Cassandra
大数据存储
HDFS