导图社区统计学

统计学

统计学的思维导图，统计工作：采用一系列方法，搜集整理分析统计资料的活动过程，每个数据成为总体单位或个体，也称为元素。

编辑于2023-08-18 16:40:06 山东省

EDv9GWUl

他的近期作品查看更多>>

高等统计学——多元统计学
探索数据背后的多维奥秘！这份高等统计学大纲带你深入多元统计学的核心：从矩阵理论奠基，到多元分布与高斯分布的性质解析从均值推断、方差分析等统计推断方法，到主成分分析（PCA）、因子分析等降维技术更有聚类分析、判别分析等实用模型重点涵盖协方差谱分解与PCA的关联、Fisher判别函数、系统聚类法等实战内容，助你掌握多维数据的数学本质与分析工具。
计算机网络与通讯
这是一篇关于计算机网络与通讯的思维导图,计算机网络与通讯是密切相关的领域，它们相互促进、相互发展。
统计学
统计学的思维导图，统计工作：采用一系列方法，搜集整理分析统计资料的活动过程，每个数据成为总体单位或个体，也称为元素。

统计学

社区模板帮助中心，点此进入>>

EDv9GWUl

他的近期作品查看更多>>

相似推荐
大纲

论语孔子简单思维导图
- 91.4k
- 957
- 1.1k
- 492
- 1
MindMaster
《傅雷家书》思维导图
- 136.5k
- 1.7k
- 2.7k
- 1.3k
- 0
MindMaster
《童年》读书笔记
- 47.0k
- 490
- 988
- 337
- 0
MindMaster
《茶馆》思维导图
- 14.1k
- 176
- 181
- 40
- 0
MindMaster
《朝花夕拾》篇目思维导图
- 27.1k
- 534
- 1.2k
- 300
- 0
MindMaster
《昆虫记》思维导图
- 36.2k
- 272
- 779
- 279
- 0
MindMaster
《安徒生童话》思维导图
- 20.4k
- 278
- 264
- 66
- 0
MindMaster
《鲁滨逊漂流记》读书笔记
- 23.1k
- 311
- 551
- 166
- 0
MindMaster
《这样读书就够了》读书笔记
- 100.2k
- 12.9k
- 9.0k
- 2.2k
- 0
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 11.8k
- 1.8k
- 413
- 38
- 0
Ethan

统计学

chap 01 导论

对统计的理解

统计工作：采用一系列方法，搜集整理分析统计资料的活动过程

统计工作的对象是总体

统计资料

原始资料：直接调查得到

次级资料：经过一定程度整理

统计科学

统计方法

描述性统计

内容：收集、展示、整理、描述性分析

目的：描述特征、找出基本规律

推断性统计

参数估计

假设检验

统计研究过程

提出问题

收集数据

整理/处理数据

分析数据

解释数据、得出结论

统计数据类型

按计量层次

类别型数据

顺序型数据

数值型数据

tips：类别型数据只能用来分类，不可用于计算有时会将类别型数据用数字代码的形式表示，但不可参与加减乘除运算

类别型数据层次最低，所含信息最少

顺序型数据次之，可以进行排序

数值型数据层次最高，可以进行运算

层次高的数据类型可以使用层次低的数据类型的统计量，反之则不可

按收集方法

观测数据

实验数据

可重复，有外部控制条件

按时间状况

时间序列数据

动态，单样本

截面数据

静态，多样本

面板数据

静态+动态

基本概念

总体

研究对象全部个体的集合

每个数据成为总体单位或个体，也称为元素

要求：同质性（每个个体至少有一个相同特征）、大量性（有规模，若容量太小则没有统计价值）、差异性（个体之间有差异性）

exam：当研究一批灯泡的寿命时，总体是这一批灯泡的集合，但由于我们只研究寿命其余不看，所以总体也可以是这批灯泡的寿命的集合

分为有限总体和无限总体

区别是抽样情况不一样

当个体数量特别大时可将有限总体近似看作无限总体

样本

总体抽取一部分元素

样本容量

样本中所含元素个数

抽样单位

每个样本元素即每次抽取的元素被称为抽样单位

抽样框

所有抽样单位的名单

样本可能个数

,此处n为总体容量，i为样本容量

参数

定义：描述总体特征的数字性度量

总体一旦定义，则总体参数即为一个常数，无论是已知还是未知

总体参数有无限个，但有用的只有有限个

我们常关心的总体参数

均值

标准差

总体比例

统计量

用来描述样本数据特征的数字度量

统计量是样本的函数，是随机变量

除了样本之外不含任何未知量

常用的统计量

样本均值

样本标准差

样本比例

变量

说明某种特征的概念，从一次观察到下一次观察会发生变化

变量表现为变量值

类型

按层次

分类变量

顺序变量

数值型变量

连续型

离散型

按随机类型

随机

随机变量占大部分

非随机

按推理方式

经验变量

从对周围环境的观察总结得出

正态分布、负指数分布

理论变量

使用数理结论推导而来

卡方分布、t分布

chap 02 数据的收集

数据的来源

间接来源（二手数据）

统计公报、年鉴相关部门资料图书馆、互联网相关资料财务会计资料期刊书籍资料

优点：搜集容易、采集成本低、范围较广、节省时间

缺点：时效性差、相关性差、可靠度低

直接来源（原始数据）

调查数据：通过调查得到，一般用于社会现象等的分析，是有限总体

实验数据：通过实验获得，一般是对自然现象等的研究，也广泛用于社会学中，是无限总体（可重复的），需要控制条件

二手数据的评估

谁收集的

为什么收集

如何收集

什么时间收集

调查数据/抽样调查

普查是不需要抽样的

但是当一个总体容量过大时，为了减少成本则需要抽取样本

如何抽样

概率抽样

特点

以随机抽样为原则

每个抽样单位被抽中的概率已知，可以计算

用样本进行总体估计

考虑每个样本单位被抽中的概率

考虑总体是怎么分布的

典型：简单随机抽样

从总体N个单位中随机选取n个单位作为样本

优缺点

优点

简单直接

计算方便，每个样本被抽取的概率相同

缺点

当N较大时难以构造抽样框

抽样单位分散

没有利用其它信息

其他：分层抽样、整群抽样、系统抽样、多阶段抽样

随机抽样的样本可以用于总体推断

非概率抽样

抽样时不依据随机原则，而是根据具体要求

典型：方便抽样

依据方便原则，自行确定入抽样本单位

优缺点

优点：操作容易，成本低

缺点：随意性，样本无法代表总体，难以进行总体推断

其他：判断抽样、自愿样本、滚雪球抽样、配额抽样

非随机抽样的最大缺陷

样本统计量分布不确定，无法用样本的结果进行总体推断

一般来说，在总体分布已知的情况下，随机抽样的样本统计量的分布可以得知，而非随机抽样的样本统计量的分布是未知的

收集数据的方法

自填式

方便，但是回收率低，容易不重视，而且不适合结构复杂的问卷

面访式

调查成本高，质量控制有难度

电话式

对于工具电话有所局限，电话访问时间不能过长

方法的选择

抽样框中有关信息

目标总体的特征

调查问题的内容

有形辅助物的使用

实施调查的资源

管理与控制

质量要求

实验数据

分组

对照组

实验组

chap 03 图表展示

数据的预处理

审核

原始数据

完整性

单位是否有遗漏，项目是否齐全

正确性

真实、符合实际、数据是否有错误、计算是否正确

二手数据

时效性

适用性

确认有无必要进一步加工处理

筛选

将某些不符合规定的或错误的数据进行剔除

将符合某些条件的数据筛选出来

排序

数据透视

从复杂数据中提取有用的信息，进行汇总和作图，形成联表

品质数据整理与展示

分类数据

列出类别

计算每一类别的频数、频率或比例

频数是指某一种类别的个数

比例是指某种类别占总体的比例

比率是指不同类别数值个数的比值(需要定义基准类)

形成频数分布表

选择适当图表展示

直观，但是重要

条形图/柱形图

用宽度相同的条形的高度或长度表示各类别数据

分为单式条形图/复式条形图

主要用于反映分类数据的频数分布（顺序和数值也可以）

条形图与直方图类似，但二者有区别

帕累托图

按频数多少排序后测绘的柱形图

右副侧轴线表示累计百分比

信息一般比柱状图丰富

第一个点可能不在柱上，取决于百分比轴的设计

饼图

环形图

顺序型数据

一些概念

累计频数

各级别频数按一定方向逐级累加

累计频率

将各类有序类别或组的百分比逐级累加下来

向上累积

从最低级的级别累加到最高级

向下累积

从最高级的级别累加到最低级

顺序型数据的频数分布表是有向上累积百分比和向下累积百分比的

数值型数据

数据分组

区间分组

将样本数据分成一个个小区间，一个小区间为一组

分为等距分组和不等距分组

原则

将变量值的一个区间作为一组

数据视作连续，或取值类别较多

”不重不漏“，即每一个数据属于且仅属于一个组

解决方案是上组限不在内即是如果数据刚好取到某一组上限，则该数据不在这一组内

方法

确定组数K

应该能够显示分布特征和规律

一般来说，

确定组距

组距是一个组的上限与下限之差

对于等距分组：

组距宜取5或10的倍数，便于下一步计算

统计出各组的频数并制作频数分布表

一般来说，我们可以用其中值表示每一个组

进行图表展示

使用直方图进行展示

是用矩形的宽度和高度表示频数分布（实质是用面积表示频数分布）

因此矩形的高度和宽度均有意义

直方图和条形图的区别

直方图的高度和宽度均有意义，而条形图只有条形的高度表示频数

直方图必须连续排列（不重不漏），而条形图分开排列（不同条表示不同类别）

直方图的宽度可能不一样（非等距分组），而条形图的宽度是一样的

条形图用于展示类别型数据及以上层级数据，直方图只能用于展示数值型数据

未分组数据使用茎叶图进行展示

高位数字作茎，低位数字作叶

箱线图

线最左是最小值，最右是最大值，箱的最左与最右分别为上四分位数与下四分位数，中间是中位数

箱占了全部样本的50%

若是箱线较小则可以认为数据分布较为集中

箱线图也可以用来大致了解数据分布特征，如是对称，左偏，右偏还是U形分布

时间序列型数据的图示

线图

横轴为时间，纵轴为观测值

纵轴的最下端应该为0，当观测值与0差值较大时，可以采取截断的方式

两个变量之间相关性的图示

二维散点图

多变量图示：气泡图

圆圈大小表示第三个变量的值

雷达图

用来研究多个样本间的相似程度

有p个变量，将一个圆p等分，每一个角表示一个变量的值

extra：关于分布

我们使用直方图的面积来表示频数的分布，而事实上，当直方图的组距被无限细分时，其直方图可以看作样本值的概率密度曲线

总体服从某种分布，也就是数据来源于一个服从于某种分布的随机变量

chap 04 数据的概括性度量

数据的集中性趋势度量

集中趋势：一组数据向其中心值靠拢的倾向程度

类别型数据

众数

一组数据中出现最多的值

一组数据中可能无众数

所有数据值的出现次数一样

一组数据中可能有多个众数

多个数据值出现次数一样且最大

一组数据中可能只有一个众数

顺序型数据

中位数

一组数据排序后位于中间位置的值

特点

不受极端值影响

确定方式

将数据进行排序得到x(n)序列

中位数的位置：d=(n+1)/2

数值

当n=2k+1时：Me=x((n+1)/2)

当n=2k时：Me=

此种对于数值型数据通用，顺序型数据可能不行

四分位数

四分位数将数据分为四等份

有三个

上四分位数：Qu

下四分位数：Ql

中位数：Me

不受极端值影响

确定

位置

du=

dl=

计算

以下四分位数为例

如果

上四分位数的计算同理

数值型数据

平均数

只能用于数值型数据

类别

简单算术平均数

公式：

加权算术平均数

加权算术平均数适用于分组数据

公式：

Mi指的是每一组的组中值，fi指的是每个组的频数

使用组中值和频数的乘积来近似代替求和，会有部分信息损失

实质上是求期望

几何平均数

公式：

适用于对比例数据的平均

例如平均增长率

数据偏斜程度较大也可以使用该平均数

调和平均数

公式：

适用于对速度等概念的平均的求取

对于各个统计量的比较和说明，特点及应用

众数

不受极端值影响

此处的极端值又称为离群值或奇异值

不唯一性

在数据偏斜程度较大及具有明显峰值时效果较好

当数据量较少时不宜使用众数

中位数

不受极端值影响

偏斜程度较大时使用

平均数

易受极端值影响

数学性质优良

对称分布或近似对称分布时使用

数据的离散程度度量

离中趋势

一组数据的远离中心值的程度，也即分散的程度

一组数据过于离散其中心值，则该组数据无意义

类别型数据

异众比率

不同于众数的其他数据所占的比率，用Vr表示（variation rate）

公式：

异众比率越大，众数代表性越差

顺序型数据

四分位差

也称为内距或四分间距

是上四分位数与下四分位数的差值

反映了中间50%的数据的离散程度

Qd=Qu-Ql

可以衡量中位数的代表性

四分位差越小，中位数代表性越强

不受极端值影响

数值型数据

极差

一组数据最大值与最小值之差

是数值型数据最简单的离中趋势测度值

易受极端值影响

未考虑样本值的频数分布

平均差

对于未分组数据

对于分组数据

平均差一般不常用

方差/标准差

反映了各个变量与平均值的平均差异

极其重要

有两类

总体方差

样本方差

这是总体方差的无偏估计，在概率统计里已经讲完了

标准分数/标准比值

某一个值在一组数据中的相对位置的度量

可以用于判断是否有离群点，也可以用于对变量的标准化处理

好处：考察多个指标时度量不一样，数据量级相差过大，容易产生病态矩阵

这样做可以保证zi的平均值为0，标准差为1

实质是对原数据的平移和压缩，只是进行了线性变换，并未改变原数据的形状

离散系数

标准差与均值之比

对数据的相对离散程度的测度

消除两组数据量纲的影响

用于对不同组别数据离散程度的比较

当标准差除以均值时，量纲同时也被消去

偏度与峰度的测度

偏度的度量

数值型数据

偏态是指数据分布的偏移程度

偏态系数SK

SK=0，对称

SK>0，右偏（正偏）

SK<0,左偏(负偏)

对于|SK|的大小

|SK|越大偏斜程度越高

|SK|>1,高度偏态

0.5<|SK|<1,中等偏态

|SK|<0.5,基本对称

峰度的度量

数据分布的扁平程度

K是与标准正态分布的峰度做对比

K=0，峰度适中

K>0，尖峰分布

K<0，扁平分布

K越大峰度越明显

chap 06 统计量及其概率分布

统计量

统计量是指由样本构建一个函数，其除样本以外不含任何未知量

统计量有无数个，但是有用的是很有限的

统计量是随机变量

依赖于所取样本

但是总体参数是既定的

样本统计量的概率分布是一种理论分布，由总体分布推导而来

exam：

样本统计量的概率分布是指在重复抽取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布

影响样本统计量概率分布的因素

简答可能

总体的概率分布

抽样方法的选取

统计量的选取

样本容量大小的选取

由正态分布得到的三大理论分布

卡方分布

卡方分布是一个右偏分布，且变量值大于0

卡方分布的属性：自由度n

t分布

t分布的属性：自由度n

t分布是一个对称分布

t分布自由度越大越接近于标准正态，一般n>=30就可以近似

F分布

F分布为一个右偏分布，类似卡方分布

F分布有两个自由度

样本均值的分布与中心极限定理

由上述exam可以推导出：当n变大时，统计量的方差在变小，由此进一步说明样本越大，统计量方差越小，即用样本统计量估计总体参数越准确

中心极限定理

样本均值的标准差被称为标准误

当样本容量大于等于30时，样本均值可近似看作以μ为均值，以标准误为方差的正态分布

样本比例的抽样分布

总体比例

样本比例

不重复抽样与重复抽样样本比例概率分布不同

样本方差的概率分布

来自正态分布的简单随机样本有

chap 07 参数估计

参数估计的分类

点估计

矩估计

利用原点矩和中心矩构造统计量进行总体参数的估计

极大似然估计

找出估计量使得样本出现的概率最大

区间估计

区间估计离不开点估计

估计量

用于进行总体参数估计的统计量

常用的估计量

均值

方差

比例

形式

一个总体

两个总体

点估计

用估计量的取值直接作为总体参数的估计值

优点：简单直接

缺点：未给出所给估计值与总体参数的接近程度

评价估计量的标准

无偏性

有效性

在满足无偏的条件下，估计量的方差最小

一致性

当样本容量增大时，估计量取值趋近于总体参数值

区间估计

在点估计基础上，给出一个总体参数的区间范围

基本形式：点估计量+-误差

是对总体参数的接近程度给出一个概率度量

需要有置信区间

本来在这一章没有置信区间的概念，这里是为了更好理解

置信区间是带有一定置信度的区间

置信区间通过样本构造出来，总体参数是确定的，但区间是随机的

置信水平：通过不同样本构造的多个置信区间中包含总体参数真值所占比例。记作1-α

此处的α可以被称为显著性水平

区间估计离不开点估计，其置信区间的中心便是点估计值

类型

一个总体的参数的区间估计

总体均值的估计

正态分布方差已知

使用Z估计量

大样本正态分布方差未知，或者大样本容量分布

使用Z估计量，但是方差使用样本方差近似代替

小样本正态分布方差未知

使用t估计量

tips:置信区间有很多个，一旦给定样本则给定区间，包含与未包含总体参数针织已经确定，但是包含参数真值的区间的比例是1-α

总体方差的估计

正态分布

使用卡方估计量来估计总体方差

总体比例的估计

总体服从二项分布，大样本条件下（np>=5&n(1-p)>=5）

使用Z统计量

这里在标准误中暂时使用了p来代替总体比例，因为总体比例未知

两个总体的参数的区间估计

好像不考

样本量的确定

根据显著性水平与区间范围长度进行样本量的确定

估计均值

方差已知时用总体方差，当大样本未知时，用s代替，当小样本正态分布方差未知时使用t统计量

估计总体比例

当总体比例未知时使用p去代替

预调研时，借助已有信息近似数据，若无信息的话取总体比例为0.5进行计算

因为当其他条件不变，总体比例为0.5时，n取最大值

当总体比例为0.5时，是最不确定的，无信息价值

chap 08 假设检验

假设：对总体参数或总体的非参数特征的一种看法

利用样本信息判断样本信息是否成立

特征

采用逻辑上的反证法

依据统计上的小概率原理

基本思想

提出假设

抽取样本

做出决策

利用抽取的样本统计量的值与临界值进行比较

假设检验流程

设置原假设与备择假设：原假设一般带等号，备择假设与原假设构成完备

选择适当的统计量

选择适当的显著性水平

取样本计算统计量的值

根据统计量的值作出统计决策

假设的提出

再一次抽样中，小概率事件不应该发生

H0：原假设，一般来说原假设总是有等号（=、≥、≤）

H1：备择假设，备择假设与原假设构成完备事件，也即备择假设不能有等号

两类错误

留假

本应该拒绝反而未拒绝，β类错误，也被称为第二类错误

风险未知

拒真

本应该留下反而拒绝，α类错误，也被称为第一类错误

犯错误的概率为显著性水平

两类错误的风险α与β此消彼长，但是其和并不为任何常数

增大样本容量可以同时减少犯两类错误的风险

选择适当的统计量

如何选择

根据问题需要

样本容量大小

抽样方法不同

总体分布

方差已知或未知

规定显著性水平α

也即原假设为真时，拒绝H0的概率

计算检验的统计量

可以根据检验的统计量和显著性水平的Z、t等分布的临界值进行比较，得出决策

也可以使用统计量值和分布函数进行p值的计算，与α进行比较，若小于α则拒绝原假设，反之不拒绝原假设

假设检验的形式

单侧检验

原假设一般用大于等于或小于等于

双侧检验

原假设一般用等于号

单尾检验

适用于：单侧检验/双侧检验但分布偏度较大

双尾检验

适用于：双侧检验/对称

单尾检验p值在一侧，双尾检验p值在两侧

一个总体参数的检验

均值的检验

正态分布方差已知或大样本

使用Z统计量

正态分布方差未知小样本

使用t统计量

比例的检验

大样本

Z统计量

方差的检验

正态分布

卡方统计量

常使用单尾检验，因为卡方统计量偏斜度大

chap 09 分类数据分析

检验观测数据的实际分布与理论分布的一致性

使用卡方统计量和列联表

此处的自由度为n-1

此处自由度：行为r-1，列为c-1，相乘得到(r-1)(c-1)

卡方检验使用单尾检验

chap 10 方差分析

适用于数值型数据

一些术语

因素

所要检验的对象，一般是类别型变量

水平

因素的具体表现，是因素的取值，具体到哪一种类别

观察值

在每个因素水平下的抽样取值

因素的每一个水平看为一个总体，一个水平是一个总体

检验多总体均值/其他参数是否相等

单因素总体

基本假定

每个总体正态分布

观察值来源于方差相同的正态分布

不同观测值之间相互独立

提出假设

原假设：不同因素水平参数相等

备择假设：不同因素水平参数不全相等

构造统计量

计算来自不同总体的各样本平均值

计算全部观测值的均值

计算三类平方和

总体平方和SST

SST=SSA+SSE

误差平方和SSE

只包含随机因素的方差，是各个水平内部的

因素平方和SSA

有系统误差的方差,是不同水平之间的

可以根据SST，SSE，SSA拿到对应的MST，MSE和MSA，其计算即是平方和除以其自由度

df(SST)=n-1

df(SSA)=k-1

df(SSE)=n-k

这里的n是观测值的个数，k是因素水平的个数

构造F统计量

进行显著性水平为α的单尾检验

根据样本统计量的值与显著性水平进行统计决策

双因素总体方差分析

研究两种因素对于数据的影响

情况

A B两种因素相互独立：无交互作用

相当于对两个因素分别做单因素分析，但是可以一次完成：减少犯第一类错误的概率

A B搭在一起产生新作用：交互作用

需要双因素分析

无交互作用的双因素分析

数据形式

由因素A与B及其观测值构成的二维列联表

提出假设

从A因素

原假设：不同水平参数相等

备择假设：不同水平参数不完全相等

B因素同理

计算统计量

准备（设A为行B为列）

计算平方和

总体平方和

行平方和

是行均值减去总均值的平方和

列平方和

列均值减去总均值的平方和

误差平方和

有SST=SSR+SSC+SSE

利用计算出的平方和除以其自由度计算出均方和

df(SST)=rc-1

df(SSR)=r-1

df(SSC)=c-1

df(SSE)=(r-1)(c-1)

构造F统计量进行检验

检验行

检验列

根据计算出的统计量值来看行因素与列因素是否对观测值有影响

有交互作用的双因素分析

数据形式

有多层二维列联表构成，行与列分别为两种因素，至少有三层观测值，层数设为m

准备

计算平方和

这是体现交互作用的平方和

根据自由度计算均方和

df(SST)=rcm-1

df(SSR)=r-1

df(SSC)=c-1

df(SSRC)=(r-1)(c-1)

df(SSE)=rc(m-1)

可以进行行因素、列因素与交互因素的分别单尾检验

chap 11 一元线性回归

变量间的函数关系与相关关系

函数：一个变量对应一个函数值

相关关系：不能用函数精确表达，取值无法用另一个变量唯一确定

相关关系是为了找寻因果关系，否则没有意义