导图社区大数据与空间挖掘思维导图

大数据与空间挖掘思维导图

大数据与空间挖掘思维导图，包含part2空间大数据、python基础1、part3大数据处理工具简介等。

编辑于2023-11-21 02:12:07

大数据
、python基础1

天降小晴宝宝

他的近期作品查看更多>>

大数据与空间挖掘思维导图
大数据与空间挖掘思维导图，包含part2空间大数据、python基础1、part3大数据处理工具简介等。

大数据与空间挖掘思维导图

社区模板帮助中心，点此进入>>

天降小晴宝宝

他的近期作品查看更多>>

大数据与空间挖掘思维导图
大数据与空间挖掘思维导图，包含part2空间大数据、python基础1、part3大数据处理工具简介等。

相似推荐
大纲

互联网9大思维
- 33.9k
- 907
- 2.4k
- 388
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 14.6k
- 3
- 184
- 10
Kacyun
域控上线
- 1.6k
- 162
- 11
- 4
jackrao
python思维导图
- 5.4k
- 525
- 242
- 7
(*^▽^*)
css
- 1.2k
- 1
- 43
- 3
A张舫
CSS
- 3.3k
- 262
- 188
- 33
journey
计算机操作系统思维导图
- 4.2k
- 334
- 203
- 18
journey
计算机组成原理
- 1.5k
- 98
- 70
- 8
journey
IMX6UL(A7)
- 512
- 40
- 5
- 0
Handler XU
考试学情分析系统
- 682
- 50
- 10
- 1
蒋龙

大数据与空间挖掘

part2 空间大数据

空间大数据是指用来表示空间实体的位置、形状、大小及其分布特征诸多方面信息的数据。它可以用来描述来自现实世界的目标，具有定位、定性、时间和空间关系等特性。空间大数据的类型包括矢量数据和栅格数据。

获取

遥感对地观测数据

基础地理信息数据

地理国情普查数据

地理国情监测变化数据

各类地面观测数据

各类专题调查于考察数据

社会经济统计数据

管理

Hadoop：Hadoop是一个开源的分布式计算框架，用于处理大规模数据存储和处理的问题。它基于Google的 MapReduce和Google文件系统(GFS)的论文实现，通过将数据分布在多个计算节点上进行并行处理，从而实现高效的数据处理和分析。

GIS Tools for Hadoop：GIS Tools for Hadoop是一组用于在Hadoop平台上处理地理信息系统(GIS)数据的工具。它是由Esri开发的开源项目，旨在将GIS分析和空间数据处理能力与Hadoop的分布式计算能力相结合。

Spark：Spark是一个开源的大数据处理框架，最初由加州大学伯克利分校的AMPLab开发。它提供了一种快速、通用、可扩展的大数据处理模型，并支持在分布式计算集群上进行高效的数据处理。

挖掘与分析

应用

python基础1

基本表达式包含算数运算符，比较运算符，逻辑运算符，复合赋值运算符，按运算符优先级进行运算

基本语法

变量命名规则: 名称第一字符为英文字母或者下划线名称第一字符后可以使用英文字母、下划线和数字名称不能使用python的关键字或保留字符名称区分大小写，单词与单词之间使用下划线连接

指向对象的值的名称就是变量，也就是一种标识符，是对内存中的存储位置的命名。

函数和方法：函数名是英文小写，单词之间加下划线，提高可读性。函数名不能与保留关键字冲突，如果冲突，最好在函数名后面添加一个后置下划线，不要使用缩写或单词拆减，最好的方式是使用近义词代替。实例方法的第一个参数总是使用self。类方法的第一个参数总是使用cls。

属性和类：类的命名遵循首字母大写(CapWords)的方式，大部分内置的名字都是单个单词(或两个)，首字母大写方式只适用于异常名称和内置的常量，模块内部使用的类采用添加前导下划线的方式。类的属性(方法和变量)命名使用全部小写的方式，可以使用下划线。公有属性不应该有前导下划线，如果公有属性与保留关键字发生冲突，在属性名后添加后置下划线。对于简单的公有数据属性，最好是暴露属性名，不使用复杂的访问属性或修改属性的方法。如果该类是为了被继承，有不让子类使用的属性，给属性命名时可以给它们加上双前导下划线，不要加后置下划线。为避免与子类属性命名冲突，在类的一些属性前，前缀两条下划线。比如: 类Faa中声明__a，访问时，只能通过Faa._Faa__a，以避免歧义。

模块和包：模块命名要使用简短的小写英文的方式，可使用下划线来提高可读性。包的命名和模块命名类似，但不推荐使用下划线。模块名对应到文件名，有些模块底层使用C或C++ 书写，并有对应的高层 Python模块，C/C++模块名有一前置下划线。

python基础2

条件语句

条件语句是用来判断给定的条件是否满足，并根据判断的结果(True或False)决定是否执行或如何执行后续流......程的语句，它使代码的执行顺序有了更多选择，以实现更多的功能。

基本结构： if 表达式1: 语句块1 elif 表达式2: 语句块2 ...... else: 语句块n

循环语句

for执行时，依次将可迭代对象中的值赋给变量，变量每赋值一次，则执行一次循环体。循环执行结束时，如果有else部分，则执行对应的语句块。else只有在循环正常结束时执行。如果使用break跳出循环，则不会执行else部分，且根据实际编程需求，else部分可以省略。

结构： for 变量 in 序列或迭代对象: 循环体(语句块1) else: 语句块2

组合数据

列表

列表(Lists)属于Python中的序列类型，它是任意对象的有序集合，通过“位置”或者“索引”访问其中的元素，它具有可变对象、可变长度、异构和任意嵌套的特点。

listname = [元素1, 元素2, 元素3, ......, 元素n]（列表内置函数p55）

元组

元组(Tuples)与列表一样，属于Python中的序列类型，它是任意对象的有序集合，通过“位置”或者“索引”访问其中的元素，它具有可变长度、异构和任意嵌套的特点，与列表不同的是:元组中的元素是不可修改的。

tuplename = (元素1, 元素2, 元素3, ......, 元素n)（内置函数p66

字典

字典(Dictionaries)，属于映射类型，它是通过键实现元素存取，具有无序、可变长度、异构、嵌套和可变类型容器等特点。

dictname = {键1: 值1, 键2: 值2, 键3: 值3, ......, 键n: 值n}（p79，80）

集合

集合(set)，是一种集合类型，可以理解为就是数学课里学习的集合。它是一个可以表示任意元素的集合，它的索引可以通过另一个任意键值的集合进行，它可以无序排列、哈希。集合分为两类:可变集合(set)，不可变集合(frozenset)。

使用大括号 { } 或者set()创建非空集合，格式为: sample_set = {值1, 值2, 值3, ......, 值n} 或 sample_set = set([值1, 值2, 值3, ......, 值n]) 创建一个不可变集合，格式为: sample_set = frozenset([值1, 值2, 值3, ......, 值n])

part3 大数据处理工具简介

Hadoop

高可靠性：Hadoop使用数据冗余的方式来保证数据的可靠性。它将数据划分成多个块，并在集群中的不同节点上进行复制存储，以防止数据丢失。

高效性：可以进行并行处理，采取数据本地性原则，使用内存计算技术

高扩展性：Hadoop可以通过增加计算节点来扩展集群的处理能力，从而适应不断增长的数据量和计算需求。它可以处理PB级别的数据，并且能够在短时间内完成大规模数据的处理和分析任务。

高容错性；Hadoop具有自动容错机制，可以在计算节点故障时自动恢复，并且能够保证任务的正确执行。如果一个任务失败，Hadoop会自动重新分配任务给其他可用节点，以保证整个计算流程的顺利进行。

低成本：开源免费，延迟硬件更新，弹性扩展

Linux 开源平台，同时支持多种编程语言

应用

Hadoop：大规模数据处理，数据仓库，搜索引擎，推荐系统，金融行业，医疗保健，零售业

GIS Tools For Hadoop：空间数据分析，地图制图，地理空间查询，空间数据可视化，空间数据挖掘

GeoSpark ：架构和平台，功能和算法，社区和生态系统，使用场景

part 1 数据

数据是对客观事件进行记录并可以鉴别的符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合，是可识别的、抽象的符号（与信息不同）

组织形式：文件与数据库

类型：文本，图片，视频，音频等

生命周期：由创建，修改，发布利用，归档销毁四步组成（需要对其进行管理）

数据使用：数据清洗，数据管理，数据分析

大数据时代的技术支撑：存储设备容量，cpu计算能力，网络宽带

大数据时代的发展进程：运营式系统阶段，用户原创内容阶段，感知式系统阶段（萌芽于上世纪90年代至本世纪初，成熟于本世纪前十年，大规模应用于 2010年以后）

大数据：数据量超过传统数据处理软件工具能够处理的范围，无法在可接受的时间内进行处理、管理和分析的数据集合。

大数据的特征：数据量大、速度快、种类多以及价值密度低。（被广泛应用于各个产业）

python内置数据类型：整形，浮点型，复数和字符串

获取到的数据需要进行数据清洗，数据清洗是指对原始数据进行处理，去除噪声、错误和冗余，以使数据更加准确、一致和完整。（包含缺失值处理，异常值处理，去重处理，格式统一，数据类型转换等）