导图社区应用统计考研笔记

应用统计考研笔记

贾俊平应用统计考研思维导图，包含了导论，描述统计，概率与概率的分布，数理统计，推断统计，统计量及其抽样分布等内容。

编辑于2022-05-06 13:50:46

Vito

他的近期作品查看更多>>

应用统计考研笔记

社区模板帮助中心，点此进入>>

Vito

他的近期作品查看更多>>

相似推荐
大纲

安全教育的重要性
- 8.6k
- 946
- 100
- 18
- 0
issen
个人日常活动安排思维导图
- 9.6k
- 0
- 84
- 0
- 0
少儿栏目外景策划波波老师
西游记主要人物性格分析
- 19.4k
- 1.4k
- 647
- 103
- 0
issen
17种头脑风暴法
- 213.6k
- 4.3k
- 11.9k
- 4.1k
- 1
MindMaster
马克思主义原理
- 22.2k
- 225
- 1.8k
- 318
- 0
yingqi
如何令自己更快乐
- 6.9k
- 31
- 99
- 4
- 0
wxb
头脑风暴法四个原则
- 4.1k
- 197
- 71
- 3
- 0
issen
思维导图
- 23.1k
- 2.4k
- 450
- 79
- 0
Jason
考研数学重点考点知识总结归纳！
- 6.2k
- 151
- 428
- 90
- 0
jiangzhengfool
数据结构
- 4.4k
- 91
- 150
- 19
- 0
jiangzhengfool

统计学

第1章导论

统计学

定义

收集、处理、分析、解释数据的科学

根据数据分析方法分类

描述性统计

数据的收集、处理、展示和分析

推断性统计

利用样本信息和概率论对总体信息推断

通过样本和总体数据探求总体的规律性

应用领域

数据类型分类

按计量尺度分类

定性数据/品质数据

分类数据

定类、分类尺度

顺序数据

定序/顺序尺度

定量数据/数量数据

数值型数据

定距/间隔尺度

定比/比率尺度

按测量尺度分类

定类、分类尺度

定序/顺序尺度

定距/间隔尺度

连续性

温度

百分制成绩

血压

离散型

人数

商品件数

0值存在

定比/比率尺度

体重

身高

0值不存在，只是被发明用来互相比较的

“0”表示“没有”或“无”

按收集方法分类

观测数据

实验数据

按收集状况分类

截面数据

时间序列数据

面板数据

结合了界面和时间序列

基本概念

总体与样本

总体

有限总体

无限总体

样本

样本量

个体

参数与统计量

参数

来自总体

统计量

来自样本

估计量

检验统计量

变量

基本分类

分类变量

顺序变量

数值型变量

根据取值不同

离散型变量

连续型变量

其他分类

随机变量

非随机变量

经验变量

理论变量

z、卡方、t、F

描述统计

第2章数据的收集

数据的来源

间接来源

二手数据的特点

搜集容易，采集成本低

作用广泛

分析所要研究的问题

提供研究问题的背景

帮助研究者更好地定义问题

检验和回答某些疑问和假设

寻找研究问题的思路和途径

搜集二手资料在研究中应优先考虑

局限性

资料相关性不够

口径不一致

数据不准确

时效性不足

二手数据的评估

数据是谁搜集的?

可信度评估

为什么目的而搜集的?

数据是怎样搜集的?

什么时候搜集的?

直接来源(原始数据)

调查数据

通过调查方法获得的数据

通常是对社会现象而言

通常取自有限总体

实验数据

通过实验方法得到的数据

通常是对自然现象而言

也被广泛运用到社会科学中

如心理学、教育学、社会学、经济学、管理学等

调查数据

好样本

针对研究问题而言的

针对于调查费用与估计精度的关系而言的

符合最好的性能价格比

概率抽样/随机抽样

概念

概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

特点

抽样时是按一定的概率以随机原则抽取样本。所谓随机原则就是在抽取样本时排除主观上有意识的抽取调查单位,是每一个单位都有一定的机会被抽中。

每个单位被抽中的概率是已知的,或是可以计算出来

当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。这就是说估计量不仅与样本单位的观测值有关,也与其入样概率有关。

方式

等概率

简单随机抽样

定义

从包括总体N个单位的抽样框中随机地、一个一个的抽取n个单位作为样本,每个单位的入样概率上相等的。

特点

简单

直观

计量方便

局限性

要求将包含所有总体单位的名单作为抽样框,当N很大时,构造这样的抽样框并不容易。

抽出的单位很分散,给实施调查增加了困难

没有利用其它辅助信息以提高估计的效率

分类

重复抽样和不重复抽样

抽签

直接抽选法

随机数表法

分层/类型/分类/抽样

将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本

又称

优点

保证了样本中包含有各种特征的抽样单位,样本结构与总体结构比较相近,有效地提高估计的精度

在一定条件下为组织实施调查提供了方便

既可以对总体参数进行估计,也可以对各层的目标量进行估计

等概率

各群规模相等

整群抽样

定义

将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查

特点

抽样时只需要群的抽样框,而不必要求具有所有单位的抽样框,大大的简化了编制抽样框的工作量

调查地点相对集中,节省调查费用,方便调查实施

弱点

估计的精度较差,要得到与简单随机抽样相同的精度需要增加基本调查单位

各单位规模相等

系统/等距/机械/抽样

定义

将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位

优点

操作简单,若有辅助信息,对总体内的单位进行有组织的排列,可以有效地提高估计的精度

缺点

对估计量方差的估计比较困难

非等概率

各群规模相等

整群抽样

各单位规模不相等

系统抽样

等不等都行

多阶段抽样

定义

采用类似整群抽样的方法,首先抽取群,然后再进一步抽样,从选中的群币抽取若干个单位进行调查,即二阶段抽样,群是初级抽样单位,第二阶段抽取的是最终抽样单位。将这种方法推广,使抽样的段数增多。

优点

保证样本相对集中,节约调查费用

需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开

在大规模的抽样调查中,是经常被采用的方法

每阶段抽样方法可以不同

非概率抽样

概念

是相对于概率抽样而言的,指抽取样本时不是依据随机原则,二是根据研究目的对数据的要求,采用某种方式从总体中抽取部分单位对其实施调查

类型

1. 方便、随意、偶遇抽样

定义

是调查过程中由调查员依据方便原则,自行确定入抽样本的单位

特点

容易实施,调查成本低

弱点

样本单位的确定带有随意性

2. 判断抽样

了解

定义

是指研究人员换据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本

方式

重点抽样

典型抽样

代表抽样

优点

成本较低,容易操作

弱点

主观性强,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性,且调查结果不能用于对总体有关参数进行估计

3. 自愿抽样

4. 滚雪球抽样

优点

容易找到那些属于特定群体的被调查者,调查的成本也比较低

5. 配额/定额抽样

定义

类似于概率抽样中的分层抽样,首先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位

特点

操作简单,而且可以保证总体中不同类别的单位都能包括在所抽的样本之中;使得样本结构和总体结构类似

概率抽样与非概率抽样的比较

1. 对总体参数进行估计

概率抽样依据随机原则抽取样本,可以根据调查样本对总体参数进行估计,对估计的精度要求较高。

非概率抽样不依据随机原则抽取样本无法使用样本的结果对总体相应的参数进行推断

2. 概率抽样的技术含量较高,要求有较高的统计学专业知识。非概率抽样则不需要。

3. 抽样误差

概率抽样

可计算和控制误差

非概率抽样

不可

4. 用途

概率抽样用来进参数及区间估计

非概率抽样用于探索性研究,为更深入的数量分析提供准备

5. 概率抽样比非概率抽样的成本高

搜集数据

1. 基本方法

1. 自填式

优点

管理相对简单

成本低

可以进行大范围的调查

作答时间方便

同时可以避免被调查者回答敏感性问题的压力

缺点

问卷的回收率比较低

不适合结构复杂的问卷

调查周期比较长

数据搜集过程中出现的问题难于及时采取调改措施

2. 面访式

优点

缺点

3. 电话式

优点

缺点

4. 观察式

2. 搜集数据不同方法的特点

3. 选择方法时需考虑的问题

1. 抽样框中的有关信息

2. 目标总体的特征

3. 调查问题的内容

4. 有形辅助物的使用

5. 实施调查的资源

6. 管理与控制

7. 质量要求

实验数据

了解

实验组与对照组

实验数据

基本逻辑

实验组

对照组

不做处理

实验中的若干问题

未考过

实验中的统计

实验的误差

抽样误差

定义

是由抽样的随机性引起的样本与总体真值之间的误差。

抽样误差并不是针对某个具体样本的检测结果与总体真实结果的差异而言的,

抽样误差描述的是所有样本可能的结果与总体真值之间的平均性差异。

影响因素

样本量大小

总体变异性

如果所有的单位完全一样,调查一个就可以精确无误的推断总体,抽样误差就不存在。

抽样方法

不重复抽样的误差小于重复抽样的误差

抽样的组织方式

分层抽样误差最小,整群抽样误差最大

非抽样误差

抽样框误差

回答误差

理解误差

记忆误差

有意识误差

无回答误差

随机性

通过增大样本量的方式解决

系统性

预防

出现后,分析原因,采取补救措施

调查员误差

误差的控制

抽样误差是由抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免,但抽样误差是可以计算的。一旦误差确定下来,就可以采用相应的措施进行控制,进行控制的一个主要方法是改变样本量,要求的抽样误差越小,所需要的样本量就越大。

非抽样误差与抽取样本的随机性无关,因而在概率抽样与非概率抽样中都会存在。引起的原因也很多,控制起来比较困难,非抽样误差控制的重要方面是调差过程的质量控制。主要包括:调查员的挑选与培训;对调查结果进行检验、评估等

第3章数据的图表展示

数据的预处理

不是考研的重点，但在实际应用中却是重点

数据的审核

目的

原始数据

完整性

准确性

二手数据

适用性

时效性

数据筛选

目的

数据排序

目的

发现特征或趋势

纠错

也可作为数据分析的内容

分类数据

字母型

升序

降序

汉字型

按拼音首字母

升序

降序

按比划多少

升序

降序

数值型数据

方式

递增

递减

顺序统计量

数据变换

标准化变换

数据标准化（指数化）

消除量纲

方法

标准分数Z

减均值除以标准差

只有原来正态，变换后是标准正态

极差标准化变换

最小-最大标准化

减均值除以极差

极差正规化变换

按小数定标标准化

0-1变换

减极小值除以极差

优点

消除量纲，便于不同变量的比较

缺点

受极端值影响，可能导致数据过于集中，画图不好看

改进

引入排名

使数据梯度相同，应用于机器学习的预处理

应用

画雷达图

概要

转换前后变量的分布形状不变

只是尺度变了

不能将不同变量变成相同分布

分类

趋同化处理

解决数据不同性质的问题

使所有指标对测评方案的趋同力一致

再加总

无量纲化处理

解决可比性问题

BOX-COX变换

改善

正态性

对称性

方差齐性

自相关问题

参数估计有两种方法

最大似然估计

Bayes方法

估计参数值，确定哪种变换形式

幂变换

自相关问题

对数变换

正态性

异方差

对称性

正态性检验

1. 图示法

1. P-P图

P-P图和Q-Q图的用途完全相同

只是检验方法存在差异

2. Q-Q图

1、检验一组数据是否服从某一分布。

2、检验两个分布是否服从同一分布

如果两个分布相似，则该Q-Q图趋近于落在y=x线上

。如果两分布线性相关，则点在Q-Q图上趋近于落在一条直线上，但不一定在y=x线上。

3. 直方图

4. 茎叶图

5. 箱线图

6. 小提琴图

7. 核密度图

2. 偏度峰度检验

趋于0，则正态

3. 非参数检验

在总体分布假定比较弱的情况下，统计推断的方法

1. Lilliefor

2. K-S

柯尔莫戈洛夫-斯米诺夫检验（Kolmogorov-Smirnov test）

检验2个经验分布是否不同

或1个经验分布与另一个理想分布是否不同

3. S-W（W）

8=<n<=50

夏皮洛-威尔克检验（Shapiro—Wilk test

4. E-P

n>=8

Epps-Pulley 检验

4. 正态概率纸

不精确

数据的整理与展示

数据层次由低到高：分类数据、顺序数据、数值型数据。适用于低层次的方法和图表适用高层次，但反之不行。（因为品质数据可以通过分组变成数值型）

整理方法

分类整理

品质数据

分类数据

概念

频数

比例

同一类别占全部数据的比值，<=1

百分比

比例X100%

比率

样本或总体中不同类别数据之间的比值，可能大于1

顺序数据

概念

累计频数

向上累积

向下累积

累计频率

分组整理

数值型

分组数据

概念

上限

下限

组距

组中值

分组方法

单变量分组

组距分组

分类

等距分组

不等距分组

注意

将变量值的一个区间作为一组

适合于连续变量

适合于变量值较多的情况

需要遵循"不重不漏"的原则

可采用等距组,也可不等距分组

分组步骤

1. 确定组数

5<=k<=15

2. 确定各组间距

(最大值-最小值）/组数

3. 根据分组数据整理频数分布表

连续变量

上下限重叠

左开右闭

上限用小数表示

离散变量

组限间断

最值与其他值差距太大

使用开口组

图表展示

品质数据

分类型

条形图

简单条形图

高度/长度代表频数

复式条形图

帕累托图

帕累托法则（二八定律）

必须按频数降序排列

重要的放前面

并列条形图

堆叠条形图

脊形图

马赛克图

两个以上变量

面积表示频数

饼图

复式饼图

扇形图

环形图

多个总体

多维频数表

多维列联表

区别

复式饼图

单总体

变量属性值展开对比

环形图

多总体

变量属性值不展开对比

顺序型

（累计）频率（分布）图

（累计）频数（分布）图

数值型数据

原始数据

茎叶图

优点

能看出分布

保留原始信息(不同于直方图)

随时记录添加

缺点

适用数据少的情况

箱线图

特征值、指标

1. 最大值

2. 上四分位数

3. 中位数

4. 下四分位数

5. 最小值

用途

1. 反映原始数据分布特征

2. 进行多组数据分布特征的比较

优点、使用

1. 中位数看平均水平

2. 箱子长短（四分位差）看离散程度

3. 中位数在箱子的位置看分布

简答题说这一句话就行了，不要说后面引起争议的话

贾书说法

分布类型

对称

左偏

中位数右偏，左箱子更长

右偏

U型

实际

只能看出是否对称

无法精准确定左偏还是右偏

要算偏态

精准看分布类型方法

看上下相邻值到中位数的距离

完整版

可剔除异常值

小提琴图

核密度和箱线图的结合

分组数据

直方图

组成

宽度

组距

高/长度

频率

面积

频数

作为分布密度估计的不足

密度函数不光滑

密度函数受子区间宽度影响很大

不同宽度得到的直方图结果会不一样

数据维数增加，有局限性

直方图粗糙，核密度曲线更精准

核密度曲线

面积是1

折线图

时间序列数据

线图

相关系数

判断样本关系能否代替总体关系

显著性检验

和回归分析的区别

回归分析XY不平等

Y被X解释

回归分析X不是随机变量

回归分析不仅可以描述关系还可以预测和控制

变量间的关系

判断变量之间是否存在关系

确定关系

函数关系

非确定关系

相关系数

简单相关系数

总体相关系数

样本相关系数（相关系数r）

表达式见茆

背，可能考

类似协方差除以两个标准差

又称

Pearson相关系数

线性相关系数

相关系数

性质

取值范围

对称性

r数值大小与x和y原点及尺度无关

r仅仅是线性关系的度量,不能用于描述非线性关系

不能说明x,y有因果关系

X 经验解释

该解释必须建立在对相关系数的显著性检验的基础上

中度或高度相关才能建模

见14年4题

相关系数

中度或高度相关才能建模

见14年4题

3. 建模

模型

方程

参数估计

4. 检验模型

拟合优度

显著性检验

5. 检验假定

经典假定

变量假定

x是固定的\非随机的

无完全共线性

模型中两个或两个以上的自变量彼此相关时

y正态分布

对每一个给定的x

独立

不同分布

方差

一样

均值不一样

误差项假定

0均值

均值不=0，只是影响截距

同方差/方差齐性

正态性

独立同分布

一般大样本都满足

无自相关性

自相关性

主要见于时间序列

无内生性（外生性）

x和误差项无关

内生性

修正

异方差

1. 原因

1. 省略了某些解释变量

2. 模型设定误差

非线性设成了线性

3. 测量误差

4. 截面数据

主因

2. 修正

1. 找到被省略的变量加到模型中

2. 结合实际找到合适模型

3. 通过事先手段减少此类情况

解决

123原因

4. 加权最小二乘

小方差加大权，大方差加小权

5. 异方差稳健标准误法

6. 模型的对数变换

Box-Cox的一种

解决

4.截面数据

3. 后果

最小二乘

仍有无偏性

不具有效性

大样本

没有渐近有效性

t检验

失效

预测

失效

4. 检验

图示法

XY散点图

残差图

统计检验法

思想

检验残差是否随x变化而变化

Spearman Rank（斯皮尔曼等级）

Gleiser戈里瑟

Park帕克

G-Q / Goldfled-Quandt哥的菲尔德-匡特

Levene（莱文）检验

观察x与残差

是否存在

线性关系

BP（Breusch-Pagan）

存在线性关系

则方差不齐

非线性关系

White怀特检验

自相关

1. 原因

1. 假自相关

遗漏解释变量

模型函数形式错误

2. 经济变量滞后

例如经济危机滞后影响

3. 蛛网现象

4. 数据加工错误

消除季节因素不恰当差分引起

5. 误差项本身自相关

2. 修正

一阶差分法

基于广义差分的迭代法

HAC异方差自相关一致性方差法

Box-Cox转换

3. 后果

最小二乘估计的

低估真实方差

有偏

预测精度降低

4. 检验

图示法

XY散点图

线图

统计检验法

D-W

杜宾-瓦特森统计量（Durbin–Watson statistic）

Durbin h

自相关系数法

几乎不用

多重共线性

原因

变量选择

少了

造成异方差自相关等问题

多了

造成共线性等问题

后果

使回归结果混乱

使参数估计值的

正负号产生影响

方差无限大

增减自变量

回归系数的估计量变化很大

显著性检验失去意义

某些回归系数的检验不显著

预测功能失效

最小二乘估计

仍然有效但不完美

检验

回归系数正负号与预期相反

检验是否存在

1. 自变量之间显著相关

2. 2个变量

散点图

相关系数

3. 多个变量

R^2大，F检验显著，t检验不显著

检验哪些变量间存在和程度

1. 算判定系数

1. 某自变量与其他自变量回归

1. 容忍度

<0.1

存在严重的多重共线性

2. 方差扩大因子

>10

存在严重的多重共线性

2. 剔除怀疑的自变量再回归

2. 特征值和条件指数

修正

贾书

删除相关的自变量

避免用t检验

既然处理不了问题,就处理发现问题的方法

对y值的推断限制在自变量样本值的范围内

变量选择

原则

引入统计量后进行F检验，看SSE是否减少

方法

向前选择

向后剔除

逐步回归

结合了向前选择和向后剔除

最优子集

采用有偏估计

岭回归

采用时间序列模型

异常值

回归分析领域的说法

原因

离群点

y/残差差异大

高杠杆点

x差异大

强影响点

子主题

XY共同影响

修正方法

删除残差

杠杆值

库克距离

检验

残差

标准化残差

学生化残差

内生性

修正

广义矩估计

工具变量

两阶段最小二乘

非正态性

后果

不影响最小二乘估计

影响F t检验

影响参数的区间估计

要用到t

修正方法

BOX-COX变换

bootstrap

一种抽样方法

从样本里再抽样

解决小样本问题

主要用于回归分析

检验

见数据的预处理和归纳

残差可以检验模型假定

正态性

独立性

方差齐性

线性假定

F里有残差

6. 效果评价

7. 预测

个别值

平均值

第11章一元线性回归

均值线性回归

建模

一元线性回归模型

回归分析解决的问题

1. 从样本数据确定变量间的数学关系式

2. 对关系式的可信程度进行检验，找出哪些变量影响显著

3. 根据关系式预测某一变量取值，并给出预测可靠度

回归模型

参数

回归系数

特指1

回归方程

β1表示x每变动一个单位，y的平均变动值

平均

有量纲

估计的回归方程

拟合值

又称拟合

参数的估计

最小二乘法/最小平方法

见茆

优良性质

假定

误差项

独立

同分布

0均值

同方差

无自相关

最大似然估计

利用yi的分布为正态分布

性质

线性

无偏

有效

渐近无偏

渐近有效

相合性

模型检验

回归直线的拟合优度

变差

x的取值不同造成

除x外的因素

x对y的非线性影响

测量误差

平方和

正面度量

判定系数

表示y的变差中有R^2比例是由x引起的

绝对的拟合效果的度量

侧面度量

估计标准误差,回归抽样误差，标准差σ

表示用x来预测y的平均预测误差

算预测区间和置信区间会用到

茆书

不用推，记住

它是对误差项的标准差的估计，可以看作排除了自变量对因变量的线性影响之后，因变量随机波动大小的一个估计量，即用该回归方程对总成本进行预测时，平均误差是3.51个单位。

失拟性检验

来判断回归模型是否可以接受的检验

看模型带来的误差（失拟误差）大小

显著性检验

反应在方差分析表

检验回归系数

线性关系F检验

均方回归

均方残差

步骤

提出假设

计算检验统计量

做出决策

回归系数t检验

提出假设

计算检验统计量

做出决策

一元回归中等价

俩个检验本质一样

变量只有1个，t和F检验自由度一样，t再平方就是F

检验总体相关系数ρ