导图社区 汤国安《地理信息系统教程》第9章GIS空间统计分析
参考汤国安《地理信息系统教程》第9章GIS空间统计分析,帮助同学学习地理信息系统概论这一门课程
编辑于2022-12-31 14:03:09 江苏省GIS空间统计分析
空间统计概述
基本概念
空间数据的统计分析
着重于空间物体和现象的非空间特性的统计分析
解决的中心议题:如何以数学统计模型来描述和模拟空间现象和过程
即将地理模型转换成数学统计模型,以便定量描述和计算机处理,着重于常规的统计方法
尤其是多元统计分析对空间数据的处理
空间位置在分析中不起作用
虽然没有考虑抽样点的空间位置,但描述的仍是空间过程,揭示的是空间规律和空间机制
数据的空间统计分析
直接从空间位置、联系出发
研究既具有随机性也具有结构性,或具有空间相关性和依赖性的地理现象
不是抛弃了传统的统计学方法和理论,是在传统基础上发展起来的
区别于经典统计学的最大特点是
既考虑样本值的大小
又重视样本空间位置及样本间的距离
基础是空间对象间的相关性和非独立观测,他们与距离有关,并随着距离增加而增加
主要分析内容
基本统计量
是数据特征的反映
是统计分析的基础
探索性数据分析
能让用户更深入了解数据,认识研究对象,从而对其数据相关问题做出更好的决策
探索性数据分析主要包括
统计数据属性
探测数据分布
全局或局部异常值(过大值或过小值)
寻求全局的变化趋势
研究空间自相关
理解多种数据之间相关性
空间插值
基于探索性数据分析结果
选择合适的数据内插模型
由已知样点来创建表面并评估其不确定性,然后研究其空间分布
空间分类
基于地图表达,采用与变量聚类分析相类似的方法来产生新的综合性或简洁性专题地图
包括
多变量统计分析
主成分分析
层次分析
空间分类统计分析
系统聚类分析
判别分析
空间回归
研究两个或两个以上变量的统计关系
通过空间关系,包括考虑空间的自相关性,把属性数据与空间位置关系结合起来,更好地解释地理事物之间的关系
基本统计量
代表数据集中趋势的统计量
表述数据分布位置和一般水平
平均数
含义
特点作用
算术平均数代表了数据集的平均水平
可以作为比较分析的指标
还可以作为评价事物的客观标准
也可以用于图像处理中的平滑运算
加权算术平均数
含义

特点作用
与算术平均数大致相同
要考虑各数据点的贡献作用
几何平均数
含义
n个数据连乘开n次方
特点作用
用于分析和研究平均变化率、平均增长率、平均比定 ,
偏相关系数里也有应用
中位数
含义
特点作用
不受极端数值的影像,如果数据集中分布形状是左右对称的,则中位数就是平均数
数据的分布形状呈偏左或偏右,以中位数表示集中趋势比算术平均数更合理z
众数
含义
特点作用
是数据集中的某个值,代表了多数意见
不受极端值影响,在频数分布曲线上位居最高点,即曲线的峰值
代表数据离散程度的统计量
最大值和最小值
含义
特点作用
通过其可以了解数据的取值范围、分散程度,易于计算,便于理解
但都受极端数据影响,弱化了其他值的存在,无法精确地反映所有数据分散的情形,因此可能会有误导作用
极差
含义
最大值和最小值的差值称为极差,它表示数据集的取值范围
特点作用
在地形分析中,极差主要用于求取一定区域内的高差
对于两个不同地区,虽然他们的平均高程相同,但最高点、最低点及高差不同,说明这两个地区高程分布状况有差异
分位数
含义
将数列按大小排列,把数列划分为相等个数的分段,处于分段点上的数就是分位数
特点作用
剔除了极端值的影响
计算起来比较麻烦,且没有用到数据集中的所有数据点
分位数在数据分级中应用比较多
离差
含义
各数值与平均值的离散程度
等于某个数值与该数据集的平均值之差
特点作用
两个数据集的均值相同,但其离差可以有很大差别,说明数据集与平均值的离散程度不同
平均离差
含义
把离差取绝对值然后求和再除以变量个数
特点作用
克服恒等于0的缺点
消除负数,只剩正数,这样更易于描述离散程度
而且平方和得到的结果大,使离散程度更明显
离差平方和
含义
离差求平方然后求和
特点作用
用于相关分析中求取相关系数(回归分析/趋势面分析)
方差
均方差的简称,是以离差平方和除以变量个数而得到的
标准差
含义
对方差进行开方,即为标准差
特点作用
方差和标准差都可以应用于相关分析、回归分析、正态分布检验等
还可以用于误差分析、评价数据精确、求取变差系数、偏差系数和峰度系数
标准差还可以用于数据分级
变差系数
含义

也称离差系数或变异系数
是标准差与均值的比值
特点作用
用相对数的形式来刻画数据离散程度的指标
可以用来衡量数据在时间与空间上的相对变化的程度
用来求算地形高程变异系数
代表数据形态的统计量
偏度
含义
刻画数据在均值两侧的对称程度的参数,用偏度系数衡量
特点作用
表示数据的不对称性,刻画出向正的方向偏还是负的方向偏
峰度
含义
刻画数据在均值两侧的集中程度的系数,用峰度系数来衡量
特点作用
表示数据频数分布曲线峰形的相对高耸程度或尖平程度
这两个系数主要用于
分析数据的频率统计图以及评价正态分布性
当g1g2都等于0时,数据是标准的正态分布
其他统计量

探索性空间数据分析
概念
esda
首先分离数据的模式和特点
再根据数据特点选择合适的模型
还可以揭示数据对于常见模型的意想不到的偏离
既要灵活适应数据的结构,也要对后续分析步骤揭示的模式灵活反应
基本分析工具
直方图
对采样数据按一定的分级方案(等间隔分离、标准差分级)进行分级
统计采样点落入各个级别中的个数或占总采样的百分比,并通过条带图或柱状图表现出来
可以直观地反应采样数据分布特征、总体规律,可以用来检验分布和寻找数据离群值
正态QQ图
正态QQ Plot分布图
用来评估具有n个值的单变量样本数据是否服从正态分布
构建过程
首先对采样值进行排序
计算出每个排序后的数据的累计值
绘制累计值的分布图
再累计值之间使用线性内插技术,构建一个与其具有相同累积分布的理论正态分布图,求出对应的正态分布值
以横轴为理论正态分布值,竖轴为采样点值,绘制样本数据相对于其正态分布值的散点图
普通QQ Plot分布图
用来评估两个数据集的分布的相似性
通过两个数据集中具有相同累计分布值作图来完成
揭示了两个物体之间的相关关系
呈直线,说明两物体呈线性关系,可用一元一次方程拟合
呈抛物线,说明两物体可用二次多项式拟合
方差变异分析工具

作用
半变异函数和协方差函数把统计相关系数的大小作为一个距离函数,是地理学相近相似定理的定量化
半变异函数和协方差函数反应一个采样点与其相邻采样点的空间关系
对异常采样点具有很好的探测作用
在地统计分析中可以使用任一一个,一般采用半变异函数
半变异曲线图中重要的两个点
间隔为0时的点
半变异函数趋近平稳时的点
两个点产生4个相应的参数
块金值
采样点为0时
由于测量误差和空间变异产生的
两采样点非常接近时,半变异函数不为0
基台值
采样点距离增大时
从块金值达到的一个稳定常数
偏基台值
基台值与块金值的差值
变程
取值由初始的块金值达到基台值时
采样点的间隔距离
voronoi图(泰森图)
样点周围生成一系列多边形组成的
生成方法
多边形内任何位置距离距这一样点的距离都比该多边形到其他样点的距离要近
泰森多边形生成后,相邻的点就被定义为有相同连接边的样点
多边形值采用的分配和计算方法
简化
平均
模式
聚类
熵
中值
标准差
四分位数间隔
检验数据分布
可以通过直方图和正态QQ plot分布图完成
如果服从正态分布
直方图呈钟形
正态QQ Plot图数据近似呈一条直线
寻找数据的离群值
全局离群值
对于数据集中所有点来讲,具有很高或很低的值的观测点
局部离群值
对于整个数据集来讲,观测样点的值处于正常范围,但与其相邻测量点比较,它又偏高或偏低
寻找方式
利用直方图查找离群值
用半变异函数/协方差函数云图识别离群值
用泰森图查找局部离群值
全局趋势分析
表面组成
确定的全局趋势
随机的短程变异
作用
空间趋势反映了空间物体在空间区域上变化的主题特征
主要揭示了空间物体的总体规律,而忽略局部的变异
趋势面分析
根据空间抽样数据,拟合一个数学曲面,用该数学曲面来反映空间分布的变化情况
分为趋势面和偏差两大部分
透视分析
探测全局趋势常用的方法,准确判定趋势特征关键在于选择合适的透视角度
透视面的选择应尽可能使采样数据在透视面上的投影点分布比较集中
通过投影点拟合的趋势方程才具有代表性,才能更有效反应采样数据集全局趋势
空间自相关与空间关系建模
概述
全局自相关
局部自相关
空间权重矩阵
邻接标准
距离标准
莫兰指数

正的显著正相关
负的显著负相关
接近0没有相关性
Geray C指数

0到1正的相关
大于1负的相关
没有显著为1
常规统计与分析
空间数据分级统计分析
按使用分级方法的多少
单一分级法
复合分级法
按级差是否相等
等值分级法
等面积
等间距
分位数
不等值分级法
自然裂点法
标准差
平均值嵌套
按确定级差的方法
自定义分级法
模式分级法
等间距分级法
分位数分级
等面积分级

矢量
规则栅格数据
标准差分级
自然裂点法分级
其他分级方法
空间数据分区统计分析
概念
同一主题

对于栅格数据
对于矢量数据
不同主题
样方统计与核密度统计
样方法
随机抽样统计
利用所有值统计
核密度估计
比较平滑
空间数据插值
概述
根本是对空间曲面特征的认识和理解
具体到方法上,是3个问题
内插点邻域范围的确定
权值确定方法(自相关程度)
内插函数的选择
整体内插
内涵
在整个区域用数学函数
函数通常是高次多项式,要求地形采样点的个数大于或等于多项式系数的数目
采用最小二乘法求解,即要求多项式曲面与地形采样点间差值的平方和最小
属曲面拟合插值或趋势面插值,从而确定该曲面方程
优点
得到全局光滑连续曲面
充分反映宏观地形特征
常用来揭示整个区域内的地形宏观起伏势态
缺点
整体内插函数保凸性差
不容易得到稳定的数值解
多项式系数物理意义不明显
解算速度慢且对计算机容量要求高
不能提供内插区域的局部地形特征
局部分块内插
内涵
进行分块
每一块地形单独进行曲面拟合和高程内插,称为空间分块内插
优点
宏观上能很好表达地形起伏特征
微观上也能很大表达局部特征
缺点
计算量大
分块之间曲面连续性差
常用内插函数
线性内插和双线性内插

物理意义明确,计算简单
是基于 TIN和基于正方形格网分布采样数据 的DEM内插和分析应用的最常用方法
二元样条函数内插

样条曲面
优点
保留局部地形的细部特征
还能获取连续光滑的DEM
具有较好的保凸性和逼真性,同时也有良好的平滑性
缺点
地形不满足弹性力学条件
不是理想的数学模型
coons曲面与geomap曲面

多层曲面叠加内插法

优点
灵活性和可控性
缺点
计算量大且繁琐
不常用
最小二乘配置

测量数据三部分构成
趋势
信号
误差
配置包括
最小二乘内插
最小二乘滤波
最小二乘推估
核心问题
如何建立数据之间的协方差矩阵
如何解决信号的相关性规律问题
实践效果不好的原因
前提条件不保证,地形具有各向异性
解算是循环迭代的过程,计算量大
克里金法
概念
空间自协方差插值法
很有用的地址统计格网化方法
原理

与二乘法比较
也将变量的空间变化分为三个部分
最小二乘采用协方差矩阵,克里金法采用半方差,或者半变异函数
优点
数据点多时,结果可信度高
根据变量图来计算Kriging方法的权重,减少了人为因素赋予权重的不确定性
有限元内插

逐点内插法
内涵
就是以内插点为中心,确定一个邻域范围,用落在邻域内的采样点计算内插点的高程值
本质上是局部内插,但邻域范围大小、形状、位置乃至采样点个数随内插点的位置而变动
步骤
定义内插点的范围
确定落在邻域内的采样点
选定内插的数学模型
通过邻域内的采样点和内插计算模型计算内插点的高程
问题

内插函数
邻域大小和形状
邻域内数据点的个数
采样点的权重
采样点的分布
附加信息的考虑
反距离权重法

即距离倒数插值方法(IDW)
鸭蛋模型
空间统计分析与空间建模关系
空间分布特征统计
平均中心
中位数中心和中心要素
标准差椭圆
空间分布模式挖掘
全局模式分析统计量
平均最邻近度统计量
全局莫兰指数
G统计量
局部分析统计量
莫兰值指数
聚类和分析异常值
G-Statistics
空间关系建模与探测
地理加权回归
地理探测器
分异及因子探测
交互作用探测
风险区探测
生态探测