导图社区 大数据与空间挖掘思维导图
大数据与空间挖掘思维导图,包含part2空间大数据、python基础1、part3大数据处理工具简介等。
编辑于2023-11-21 02:12:07大数据与空间挖掘
part2 空间大数据
空间大数据是指用来表示空间实体的位置、形状、大小及其分布特征诸多方面信息的数据。 它可以用来描述来自现实世界的目标,具有定位、定性、时间和空间关系等特性。 空间大数据的类型包括矢量数据和栅格数据。
获取
遥感对地观测数据
基础地理信息数据
地理国情普查数据
地理国情监测变化数据
各类地面观测数据
各类专题调查于考察数据
社会经济统计数据
管理
Hadoop:Hadoop是一个开源的分布式计算框架,用于处理大规模数据存储和处理的问题。它基于Google的 MapReduce和Google文件系统(GFS)的论文实现,通过将数据分布在多个计算节点上进行并行处理, 从而实现高效的数据处理和分析。
GIS Tools for Hadoop:GIS Tools for Hadoop是一组用于在Hadoop平台上处理地理信息系统(GIS)数据的工具。它是由Esri开发的开 源项目,旨在将GIS分析和空间数据处理能力与Hadoop的分布式计算能力相结合。
Spark:Spark是一个开源的大数据处理框架,最初由加州大学伯克利分校的AMPLab开发。它提供了一种快速、通 用、可扩展的大数据处理模型,并支持在分布式计算集群上进行高效的数据处理。
挖掘与分析
应用
python基础1
基本表达式包含算数运算符,比较运算符,逻辑运算符,复合赋值运算符,按运算符优先级进行运算
基本语法
变量命名规则: 名称第一字符为英文字母或者下划线 名称第一字符后可以使用英文字母、下划线和数字 名称不能使用python的关键字或保留字符 名称区分大小写,单词与单词之间使用下划线连接
指向对象的值的名称就是变量,也就是一种标识符,是对内存中的存储位置的命名。
函数和方法: 函数名是英文小写,单词之间加下划线,提高可读性。 函数名不能与保留关键字冲突,如果冲突,最好在函数名后面添加一个 后置下划线,不要使用缩写或单词拆减,最好的方式是使用近义词代替。 实例方法的第一个参数总是使用self。 类方法的第一个参数总是使用cls。
属性和类:类的命名遵循首字母大写(CapWords)的方式,大部分内置的名字都是单 个单词(或两个),首字母大写方式只适用于异常名称和内置的常量,模块内部 使用的类采用添加前导下划线的方式。 类的属性(方法和变量)命名使用全部小写的方式,可以使用下划线。公有 属性不应该有前导下划线,如果公有属性与保留关键字发生冲突,在属性名后添 加后置下划线。对于简单的公有数据属性,最好是暴露属性名,不使用复杂的访 问属性或修改属性的方法。 如果该类是为了被继承,有不让子类使用的属性,给属性命名时可以给它们 加上双前导下划线,不要加后置下划线。 为避免与子类属性命名冲突,在类的一些属性前,前缀两条下划线。比如: 类Faa中声明__a,访问时,只能通过Faa._Faa__a,以避免歧义。
模块和包:模块命名要使用简短的小写英文的方式,可使用下划线来提高可读性。 包的命名和模块命名类似,但不推荐使用下划线。 模块名对应到文件名,有些模块底层使用C或C++ 书写,并有对应的高层 Python模块,C/C++模块名有一前置下划线。
python基础2
条件语句
条件语句是用来判断给定的条件是否满足,并根据判断的结果(True或False)决 定是否执行或如何执行后续流......程的语句,它使代码的执行顺序有了更多选择,以 实现更多的功能。
基本结构: if 表达式1: 语句块1 elif 表达式2: 语句块2 ...... else: 语句块n
循环语句
for执行时,依次将可迭代对象中的值赋给变量,变量每赋值一次,则执行一次循环体。循环执行结束时,如果有else部分,则执行对应的语句块。else只有在循环正常结束时执行。如果使用break跳出循环,则不会执行else部分,且根据实际编程需求,else部分可以 省略。
结构: for 变量 in 序列或迭代对象: 循环体(语句块1) else: 语句块2
组合数据
列表
列表(Lists)属于Python中的序列类型,它是任意对象的 有序集合,通过“位置”或者“索引”访问其中的元素,它具有 可变对象、可变长度、异构和任意嵌套的特点。
listname = [元素1, 元素2, 元素3, ......, 元素n](列表内置函数p55)
元组
元组(Tuples)与列表一样,属于Python中的序列类型, 它是任意对象的有序集合,通过“位置”或者“索引”访问其中 的元素,它具有可变长度、异构和任意嵌套的特点,与列表不同 的是:元组中的元素是不可修改的。
tuplename = (元素1, 元素2, 元素3, ......, 元素n)(内置函数p66
字典
字典(Dictionaries),属于映射类型,它是通过键实现元素存取,具有无 序、可变长度、异构、嵌套和可变类型容器等特点。
dictname = {键1: 值1, 键2: 值2, 键3: 值3, ......, 键n: 值n}(p79,80)
集合
集合(set),是一种集合类型,可以理解为就是数学课里学习的集合。它是一 个可以表示任意元素的集合,它的索引可以通过另一个任意键值的集合进行,它可 以无序排列、哈希。 集合分为两类:可变集合(set),不可变集合(frozenset)。
使用大括号 { } 或者set()创建非空集合,格式为: sample_set = {值1, 值2, 值3, ......, 值n} 或 sample_set = set([值1, 值2, 值3, ......, 值n]) 创建一个不可变集合,格式为: sample_set = frozenset([值1, 值2, 值3, ......, 值n])
part3 大数据处理工具简介
Hadoop
高可靠性:Hadoop使用数据冗余的方式来保证数据的可靠性。它将数据划分成多个块,并在集群中的不同节点上进 行复制存储,以防止数据丢失。
高效性:可以进行并行处理,采取数据本地性原则,使用内存计算技术
高扩展性:Hadoop可以通过增加计算节点来扩展集群的处理能力,从而适应不断增长的数据量和计算需求。它可以 处理PB级别的数据,并且能够在短时间内完成大规模数据的处理和分析任务。
高容错性;Hadoop具有自动容错机制,可以在计算节点故障时自动恢复,并且能够保证任务的正确执行。如果一个任 务失败,Hadoop会自动重新分配任务给其他可用节点,以保证整个计算流程的顺利进行。
低成本:开源免费,延迟硬件更新,弹性扩展
Linux 开源平台,同时支持多种编程语言
应用
Hadoop:大规模数据处理,数据仓库,搜索引擎,推荐系统,金融行业,医疗保健,零售业
GIS Tools For Hadoop:空间数据分析,地图制图,地理空间查询,空间数据可视化,空间数据挖掘
GeoSpark :架构和平台,功能和算法,社区和生态系统,使用场景
part 1 数据
数据是对客观事件进行记录并可以鉴别的符号 ,是对客观事物的性质、状态以及相互关系等进 行记载的物理符号或这些物理符号的组合,是可 识别的、抽象的符号(与信息不同)
组织形式:文件与数据库
类型:文本,图片,视频,音频等
生命周期:由创建,修改,发布利用,归档销毁四步组成(需要对其进行管理)
数据使用:数据清洗,数据管理,数据分析
大数据时代的技术支撑:存储设备容量,cpu计算能力,网络宽带
大数据时代的发展进程:运营式系统阶段,用户原创内容阶段,感知式系统阶段(萌芽于上世纪90年代至本世纪初,成熟于本世纪前十年,大规模应用于 2010年以后)
大数据:数据量超过传统数据处理软件工具能够处理的范围,无法在可接受的时 间内进行处理、管理和分析的数据集合。
大数据的特征:数据量大、速度快、种类多以及价值密度低。(被广泛应用于各个产业)
python内置数据类型:整形,浮点型,复数和字符串
获取到的数据需要进行数据清洗,数据清洗是指对原始数据进行处理,去除噪声、错误和冗余,以使数据更加准确、一致和完整。(包含缺失值处理,异常值处理,去重处理,格式统一,数据类型转换等)