导图社区 1.5数据处理和可视化表达
2020粤教版高中信息技术必修一数据与计算第五章的思维导图,主要内容有大数据、数据的采集、数据的分析、数据的可视化表达。
2020粤教版高中信息技术必修二信息系统与社会第四章 的思维导图,主要内容有信息系统的工作过程、信息系统的软件及其作用、信息系统在社会应用中的优势及其局限性。
2020粤教版高中信息技术必修二信息系统与社会第三章 的思维导图,主要内容有信息系统与外部世界的连接方式、计算机网络、组建小型无线网络。
2020粤教版高中信息技术必修二信息系统与社会第二章 的思维导图,主要内容有信息系统及其组成、信息系统的功能、信息系统中的计算机和移动终端。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
亡羊补牢
外婆与姥姥的区别
css
CSS
计算机操作系统思维导图
计算机组成原理
数据处理和可视化表达
大数据
指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的信息集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的特征
互联网产生大数据角度
大量
数据体量巨大
多样
数据类型繁多
低价值密度
价值密度低
高速
变化速度快
互联网思维
样本渐趋于总体
精确让位于模糊
相关性重于因果
大数据存储与计算
分布式存储
分布式并行计算
大数据对日常生活的影响
大数据使人们日常生活更为便捷
方便支付
方便出行
方便购物与产品推介
方便看病和诊病
大数据对人们日常生活产生负面影响
个人信息泄露
信息伤害与诈骗
数据的采集
数据采集的方法和工具
基本方法
系统日志采集法
网络数据采集法
其他数据采集法
数据的存储和保护
存储数据
数据放在第三方公共或私有“云端”存储
数据存在本地内部
数据的存储
分布式文件
NoSQL数据库存储
数据的保护
数据安全保护技术
数据的隐私保护
隐私泄露解决方法
技术手段
提高自身的保护意识
要对数据使用者进行道德和法律上的约束
数据的分析
特征探索
主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
关联分析
分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
基本算法
1.扫描历史数据,并对每项数据进行频率次数统计
2.构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比
3.对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,从而形成频繁项集L1
4.对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或者最大频繁项集。
聚类分析
聚类分析是一种探索性的分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动对数据进行分类。
聚类分析的算法很多,其中K-平均(K-Means)算法是一种经典的自下而上的聚类分析方法。其基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择最近的点作为自己的中心点,再不断更新中心聚类点,以达到”物以聚类,人以群分”的效果。
1.从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。
2.对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。
3.重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。
数据分类
数据分析处理中最基本的方法,其通常的做法是基于样本数据先通过机器学习训练构建分类器(分类函数或分类模型),该分类器具有将待分类数据项映射到某一特点类别的功能,实现对未分类数据的分类。
贝叶斯分类技术
数据的可视化表达
方式
工具
Seaborn
Bokeh