导图社区 统计学
统计学 第八版 贾俊平,包含导论,数据搜集,数据的概括性度量,概率与概率分布等方面的内容。
编辑于2022-05-24 00:10:38第一章导论
统计学定义
统计学是关于数据的科学,他所提供的是一套关于数据收集、处理、分析、解释并从数据中得出结论的方法
统计数据的类型
计量尺度不同
分类数据
定义:非数字型数据;数据表现为类别, 用文字表达
无序分类数据
比如不同行业:制造业、旅游业、金融业等
有序分类数据
比如产品的品质等级:甲、乙、丙、丁
顺序数据(有序分类数据)
数值数据
连续数据
一个或多个区间取任何值的数据,他的数值是连续不断的。例如区间[1,4]
离散数据
取值有限,可以列举,如年龄:1,2,3,4岁等
数据收集方法不同
观测数据
通过观察或调查得到的数据,该类数据是在 对事物没有进行人为的控制下得到的(社会经济现象)
实验数据
实验中通过控制实验对象而得到的数据(自然科学现象)
按照被描述的对象与时间的关系
截面数据
2021年我国各地区的生产总值
时间序列数据
例如:2007-2021年我国的国内生产总值
统计学中的基本概念
样本和总体
总体
定义:包含所研究的全部个体(数据)的集合
例子
1.多个企业构成的集合
2.多个居民构成的集合
例题
根据包含的单位数目是否可数
有限总体
抽取一个单位后,会影响下一次的抽样结果
无限总体
抽取一个单位后,不会影响下一次的抽样结果
样本
定义:从总体中抽取一部分元素的集合,元素的数目称为样本量
参数和统计量
参数
定义:是用来描述总体特征的概括性数字度量
总体参数
总体平均数:μ;总体方差:σ;总体比例:π
总体方差通常未知
统计量
定义:用来描述样本特征的概括性数字度量
统计量
样本平均数:
样本标准差:
S
样本比例:
p
统计量不能含有未知成分
标志和指标
标志
定义:说明总体单位特征的名称或概念。
例子:例如,研究工人情况时,全部工人是一个总体,每一个工人是一个总体单位。如某工人的性别是男,年龄是32岁,月工资收入为100元,工种是车工等,均称为标志。性别、年龄、工种、月工资收入是标志的名称;男性、32岁,100元、车工则是这些标志的具体表现。标志名称及其具体表现,可以反映每个总体单位的具体情况
不一定汇总取得
标志一般不具备时间、地点等条件
标志既反映数量特征有反应品质特征
指标
定义:说明总体综合特征的名称或概念
例子:比如,经统计调查得知某企业固定资产原值为9.1亿元人民币,这就是指标,是说明总体综合数量特征的,它包括指标名称即固定资产原值、指标数值即9.1亿元人民币两个方面。
必须汇总取得
完整的指标具有时间、地点、范围的要求
指标只能用数值表示
许多指标由数量标志值汇总得到
变量
定义:是说明现象某种特征的概念,会发生改变。
数值变量和分类变量
分类变量
变量是否有序
无序分类变量
有序分类变量
数值变量
变量是否连续
离散变量
连续变量
第二章数据的搜集
数据的来源
间接来源(二手数据)
优点
1.收集方便 2.采集成本低 3.采集快 4.作用广泛
缺点
1.针对性不强,相关性不够 2.口径可能不一致 3.数据也许不够准确 4.时效性不强
搜集二手数据是研究者首先考虑并采用的。分析也应该从对二手数据的分析开始
使用二手数据必须要考虑的内容
1.是谁收集的? 2.为什么目的收集的? 3.数据怎么样收集的? 4.数据什么时候收集的?
直接来源(一手数据)
调查数据和实验数据
优点
1.针对性强
缺点
1.成本高 2.收集不便 3.采集慢
直接数据的调查方法
抽样采集数据的方式
概率抽样
特点
抽样时按照一定概率以随机原则抽取样本
每个单位被抽中的概率是已知的,或者可以计算出来
当用样本对总体目标量进行估计时,要考虑样本单位被抽中的概率
概率抽样的方式
简单随机抽样
优点
简单、直观
缺点
1.他要求将包含所有总体单位的名单作为抽样框, 当总体单位N很大时,构建这样的抽样框具有困难 2.采取这种方法抽出的单位很分散,增加调查难度 3.没有利用其他辅助信息,效率低
分层抽样
优点
1.样本的结构与总体的结构相似,可以提高估计的精度 2.方便调查者实施 3.既可以对总体参数进行估计,也可以对各层的目标量进行估计
缺点
暂无
整群抽样
优点
1.抽样时只需要构建群的抽样框,大大简化了编制抽样框的工作量 2.节省调查费用,方便实践
缺点
1.估计的精度较差
系统抽样
优点
1.操作简单 2.辅助信息,可以对总体单位进行有组织的排列,可以提高精度
缺点
1.对估计量方差的估计比较困难
多阶段抽样
优点
1.保证了样本量相对集中,从而节约了调查费用 2.不需要包含许多低阶段抽样单位的抽样框,缩减工作量 3.实行在抽样,使调查单位在更广的范围内开展
缺点
暂无
可以根据调查结果计算估计量误差,从而得到对总体目标量进行推断的可靠程度
非概率抽样
方便抽样
特征
1.自行确定样本单位 2.容易实施调查成本低 3.样本单位带有随意性
判断抽样
特征
1.有目的的选择样本单位 2.实施时根据不同的目的有重点抽样、典型抽样、重点抽样、代表抽样。 3.主观性强,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性。
自愿样本
特点
1.调研者自愿参加,成为样本中的一分子 2.自愿样本与抽样的随机性无关
滚雪球抽样
特点
1.往往用于稀少群体的调查 2.容易找到属于特定人群的被调查者 3.调查的成本比较低
配额抽样
特点
1.类似于分层抽样,所有单位先按一定标志进行分类,然后再进行方便抽样,或者判断抽样
概率抽样和非概率抽样的比较
非概率抽样
不依据随机原则抽选样本,不能使用样本结果对总体的相应参数进行估计
特点:操作简单、时效快、成本低
概率抽样
依据随机原则抽选样本,可以用样本的结果对总体的相关参数进行估计
特点:技术含量高,成本高
搜集数据的基本方法
自填式
面访式
电话式
数据搜集方法的选择
实验方法
实验组和对照组
数据误差
抽样误差
定义:是由抽样的随机性引起的样本结果与总体真值之间的差异
抽样误差描述的是所有样本可能的结果与总体真值之间的平均水平
总体的变异性越大,总体误差越大
抽样误差是一种随机性误差仅存在于概率抽样中
非常抽样误差
定义:是指除了抽样误差之外的其他原因引起的样本观测结果与总体真值之间的差异
抽样框误差
概率抽样和非概率抽样都存在非抽样误差
回答误差
理解误差
记忆误差
有意识误差
例题
第三章数据的图表展示
数据的预处理
数据审核
一手数据
完整性
1.调查的个体是否遗漏
2.所有的调查项目是否填写齐全
准确性
1.数据是否有错误
2.数据是否存在异常值
二手数据
适用性
时效性
数据筛选
找出符合特定条件的某类数据
数据排序
分类数据的整理与展示
分类数据的处理
计算出频数、频率、比例、比率
分类数据的图示
条形图(柱形图)
1.一个分类变量,可以绘制简单条形图
2.对于两个及以上分类变量可以绘制
3.主要为了展示分类数据
帕累托图
饼图
主要用于表示一个样本中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用
环形图
表示一个类比的构成,多个类别构成的多个嵌套在一起,主要用于对两个或多个分类变量的结构进行比较
数值数据的整理与展示
数据分组
目的:观察数据的分布特征
在数据分组中,一个组的最小值称为下限值,一个组的最大值称为上限值
制作频数分布表
结果取整:
在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为了避免漏值,应当采用开口组
1.将全部变量值依次划分为若干个区间,并将一个区间的变量值作为一组 2.适合用于连续变量 3.适合变量值较多的情况 4.尊重不重不漏的原则
数值数据的图示
直方图
1.用于展示数值数据分布的一种图形
2.矩形的宽度和高度来表示频数的分布
3.分数数据具有连续性,直方图的各矩形通常是连续排列
描述大批量数据的分布特征
箱型图
1.反映一组数据的分布特征,比较多组数据的分布特征
绘制箱线图
1.最大值
2.最小值
3.中位数
4.上下四分位数
四分位距
线图
1.时间序列数据可以绘制线图,线图主要用于反应现象随时间变化的特征
散点图
展示两个数值变量之间关系的图形
雷达图(蜘蛛图)
1.是展示多个变量的常用方法 2.显示或对比多个变量的数值综合时十分有用 3.显示相似程度
合理使用图表
统计表一般由表头、行标题、列标题、数据资料、附加几个部分组成
1.简洁明了,避免过多的不需要的修饰 2.图形的比例最好为4:3 3.图表应该有编号和标题
附录
开口数列
开口数列是指首组组距缺下限或末组组距缺上限的数列。
闭口数列
闭口数列是指首末两组的上、下限齐全的数列;
第四章 数据的概括性度量
集中趋势的度量
平均数
简单平均数
加权平均数
中位数
中位数是用一个点将全部数据分为两个部分,每部分包含50%的数据,一部分数据比中位数大,一部分数据比中位数小
四分位数
众数
1.众数是指一组数据中出现频数最多的数值 2.众数是一组数据分布的峰值点所对应的数值
几何平均数
是N个变量值乘积的N次方根
当数据为比率形式的时候,可以用几何平均数主要用于计算平均比率
众数、中位数和平均数的比较
对称分布(单峰分布)
左偏分布
右偏分布
中位数和众数是位置代表值不受极端值的影响
平均数易受极端值情况的影响
离散程度的度量
全距(Range)
全距又叫极差,易受极端值情况影响,不能全面反映一组数据的差异状况
一组数据中极大数和极小数的差
四分位距
反映的是中间50%数据的离散程度,数值越小,说明中间的数据越集中,数值越大说明中间的数据越分散
例题
方差
标准差
1.标准差是反应数据离散程度的绝对值,其数据大小受原始数据取值大小的影响 2.标准差与原始数据的计量单位相同,采取不同计量单位的数据,其标准差的值也就不同(不同单位的标准差没有可比性)
标准差和平均差的异同点比较
相同点
①计算方法相同,有简单平均法和加权平均法两种;
②范围相同,将所有变量都考虑在内;
③作用相同,以平均数为中心测定各变量值的离散程度。
不同点
①计算公式的依据不同;
②对正负离差综合平均的方法不同;
③说明同质总体的变异程度有差异;
④受极端值的影响程度不同。
加权方差
加权标准差
离散系数
1.离散系数也称为变异系数 2.消除了数值取值大小和计量单位对于标准差的影响 3.离散系数用于比较不同样本数据的离散程度 4.离散系数大说明数据的相对离散程度也大,离散系数小,说明数据的相对离散程度也小
异众比率
异众比率是指非众数组的频数占总频数的比例
标准分数
1.可以来测度每个数值在该组中的相对位置,并可以判断一组数据是否有离群点
切比雪夫不等式
经验法则
分布形状的度量
偏度系数
偏度是指数据分布的不对称性
对称分布时,偏态系数为0;大于0右偏,小于0左偏。
峰度系数
测量一组数据峰值高低的统计量
1.标准正态分布的峰度系数为0;当K>0时为尖峰分布,数据分布的峰值比标准正态分布高,数据相对集中;当K<0时为扁平分布,数据分布的峰值比标准正态分布低,数据相对分散
第五章 概率与概率分布
随机事件及其概率
离散型随机变量及其分布
略
连续型随机变量的概率分布
概率密度函数
正态分布
图像
第六章 统计量及其抽样分布
统计量的概念
定义:针对不同的研究目的而构造的样本函数,称为统计量
样本统计量是随机变量
样本统计量不唯一但是可以抽样计算而可知
统计量是样本的函数
估计同一总体参数可以用多个不同统计量
统计量是随机变量
常用的统计量
2.S(标准差)
3.P(比例)
由正态分布导出的几个重要分布
抽样分布
1.抽样分布、参数估计、假设检验 看做统计推断的三个中心内容。 2.研究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分布的性质
图1
图2
1.t分布的密度函数是一偶函数 2.t分布的密度函数曲线与标准正态分布N(0,1)的密度函数曲线非常相似,都是单峰偶函数 3.随着自由度的增加,t分布的密度函数越来越接近标准正态分布的密度函数。 4.一般当N≥30时,t分布与标准正态分布就非常接近了
F分布
定义:设随机变量Y与Z相互独立,且Y与Z分别服从自由度为m和n的卡方分布,随机变量X有如下表达式
图3
1.在F分布中,两个自由度的位置不可互换,这一性质在查表时有重要的应用 2.如果随机变量X服从t(n)分布,则X方服从F(1,n)的F分布。这在线性回归分析的回归系数显著检验中有用。
正态分布
样本均值的分布与中心极限定理
当总体分布为正态分布时,X的抽样分布仍为正态分布
图片
图片
样本均值分布的影响因素
当所抽取的样本为小样本时,样本均值的抽样分布不仅与样本量 n 有关,还与总体的分布形式有关;
小样本,总体为正态分布,样本均值为正态分布
大样本,无论总体为什么分布,样本均值都为正态分布
第七章 统计量及其抽样分布
统计量的概念
定义:针对不同的研究目的而构造的样本函数,称为统计量
样本统计量是随机变量
样本统计量不唯一但是可以抽样计算而可知
统计量是样本的函数
估计同一总体参数可以用多个不同统计量
统计量是随机变量
常用的统计量
2.S(标准差)
3.P(比例)
由正态分布导出的几个重要分布
抽样分布
1.抽样分布、参数估计、假设检验 看做统计推断的三个中心内容。 2.研究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分布的性质
图1
图2
1.t分布的密度函数是一偶函数 2.t分布的密度函数曲线与标准正态分布N(0,1)的密度函数曲线非常相似,都是单峰偶函数 3.随着自由度的增加,t分布的密度函数越来越接近标准正态分布的密度函数。 4.一般当N≥30时,t分布与标准正态分布就非常接近了
F分布
定义:设随机变量Y与Z相互独立,且Y与Z分别服从自由度为m和n的卡方分布,随机变量X有如下表达式
图3
1.在F分布中,两个自由度的位置不可互换,这一性质在查表时有重要的应用 2.如果随机变量X服从t(n)分布,则X方服从F(1,n)的F分布。这在线性回归分析的回归系数显著检验中有用。
正态分布
样本均值的分布与中心极限定理
当总体分布为正态分布时,X的抽样分布仍为正态分布
图片
图片
样本均值分布的影响因素
当所抽取的样本为小样本时,样本均值的抽样分布不仅与样本量 n 有关,还与总体的分布形式有关;
小样本,总体为正态分布,样本均值为正态分布
大样本,无论总体为什么分布,样本均值都为正态分布
第八章 假设检验
假设检验和参数估计
参数估计
参数估计讨论的是用样本 统计量估计总体参数的方法
假设检验
假设检验中,则是先对μ的值提出一个假设,然后利用总体样本信息去检验这个假设是否成立
假设问题的提出
假设问题的表达式
要把"着重考察的假设"确定为原假设
要把"支持旧方法的假设"确定为原假设
"后果严重的错误"定为第一类错误
两类错误
假设检验的流程
2.构建统计量
3.查表求临界值
4.计算检验统计量的值,并和临界值进行比较然后进行决策
利用p值进行决策
p值是反映实际观测到的数据和原假设H_0之间不一致程度的一个概率值
P值越小,说明实际观测到的数据与H_0之间不一致的程度就越大,检验的结果就越显著
简言之P值越小,拒绝原假设的理由就越充分
单侧检验
左单侧检验
右单侧检验
双侧检验
一个总体参数的检验
检验统计量
平均值假设
总体为正态分布,方差已知,或者大样本
采用Z统计量
总体为正态分布,小样本,方差未知
采用t统计量
方差假设
比例假设(只讨论大样本的情况)
采用z统计量
第九章分类数据分析
分类数据
数据按照计量尺度不同分为
分类数据
顺序数据
数值型数据
χ2 统计量可以对分类数据做拟合优度检验和独立性检验,可以用于测定两个分类变量之间的相关程度。
①χ2≥0,因为它是对平方值结果的汇总;
②χ2 统计量的分布与自由度有关;
自由度R为分类变量的个数
③χ2 统计量描述了观察值与期望值的接近程度.
两者越接近,即fo-fe 的绝对值越小,计算出的χ2 值越小;
反之,fo-fe 的绝对值越大,计算出的χ2 值也越大。χ2 检验正是通过对χ2 的计算结果与χ2 分布中的临界值进行比较,做出是否拒绝原假设的统计决策
χ2 分布与自由度的密切关系
自由度越小,χ2 的分布就越向左边倾斜;
随着自由度的增加,χ2 分布的偏斜程度趋于缓解,逐渐显露出对称性,随着自由度的继续增大,χ2 分布将趋近于对称的正态分布
列联分析:独立性检验
列联表
列联表是由两个以上的变量进行交叉分类的频数分布表。
将横向变量(行)的划分类别视为R,纵向量(列)的划分类别视为C,则可以把每一个具体的列联表称为R×C 列联表。
独立性检验
独立性检验就是分析列联表中行变量和列变量是否相互独立。也就是检验行变量与列变量之间是否存在依赖关系。
独立性检验的特点在于其理论频数不是预先确定的,而需要从样本资料中获得。
需要了解计算方法 P170
列联表中的相关测量
φ相关系数
φ 相关系数是描述2×2 列联表数据相关程度最常用的一种相关系数
特点
φ系数适合2×2 列联表
取值范围:0~1(2×2列联表);φ最大取值无上限
当φ=0,表明两变量相互独立;|φ|=1,表明两变量完全相关。
当列联表R×C 中的行数R 或列数C 大于2 时,φ 系数将随着R 或C 的变大而增大,且φ 值没有上限。
列联相关系数
列联相关系数又称列联系数,简称c 系数,主要用于列联表大于2×2 的情况
特点
两个变量相互独立时,系数c=0;并且他不可能大于1
可能的最大值依赖于列联表的行数和列数,且随着R和C的增大而增大
2×2列联表,c=0.707
3×3列联表,c=0.8165
4×4列联表,c=0.87
计算简便,且对总体的。分布没有任何要求,列联系数是一种适应性较广的测度值。
局限性:根据不同的行和列计算的列联系数不便于比较,除非两个列联表中行数和列数一致。
V 相关系数
特点
两个变量相独立时,V=0;当两个变量完全相关时,V=1,所以V的取值是0~1之间
如果列联表中有一维为2,即min[(R-1),(C-1)]=1,则V值就等于φ
条件百分比的方向
行百分比
列百分比
只有两个单元格,则每个单元和的期望频数必须大于等于5
第十章 方差分析
方差分析
方差分析引论
相比于假设检验,方差分析不仅可以提高检验的效率,同时由于它将所有的样本信息结合在一起,因此增加了分析的可靠性。
方差分析及其术语
方差分析的目的:
方差分析是检验多个总体均值是否相等的统计方法
本质上它所研究的是分类型自变量对数值型因变量的影响
方差分析就是通过检验个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响
检验对象
检验的对象称为因素或因子,因素的不同表现为水平或处理
方差分析的基本思想和原理
图形描述
误差分解
组内误差:水平内部的误差
反映一个样本内部数据的离散程度
组间误差:不同水平之间的数据误差
组间误差=随机误差+系统误差
反映不同样本之间数据的离散程度
在方差分析中,数据的误差用平方和来表示
总平方和(SST)
反映全部观察值的离散程度
组内平方和(SSE) 也称为误差平方和或残差平方和
即各个总体的误差平方和的和,详情请看 P192
反映每个样本内各观察值的离散状况
组间平方和(SSA)
反映样本均值之间的差异程度
误差分析P187
方差分析中的基本假定
每个总体都应服从正态分布
观测值是独立的
在上述假定成立的前提下,要分析自变量对因变量是否有影响,形式上也就转化为检验自变量的各个水平(总体)的均值是否相等。
问题的一般提法
单因素方差分析 P189
概念:单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响
数据结构
分析步骤
提出假设
构造检验统计量
1.计算各样本的均值
2.计算全部观测值得总均值
3.计算各误差平方和
总平方和(SST)
组内平方和(SSE) 也称为误差平方和或残差平方和
组间平方和(SSA)
总平方和(SST)=组间平方和(SSA)+组内平方和(SSE)
详情
4.计算统计量
均方(方差):由于各误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以它们所对应的自由度,这一结果称为均方,也称为方差。
三个平方和所对应的自由度分别为:
SST 的自由度为n-1,其中n 为全部观测值的个数;
SSA 的自由度为k-1,其中k 为因素水平(总体)的个数;
SSE 的自由度为n-k。
均方
SSA 的均方也称为组间均方或组间方差,记为MSA,
MSA=组间平方和/自由度=SSA/(k-1)
SSE 的均方也称为组内均方或组内方差,记为MSE
MSE=组内平方和/自由度=SSE/(n-k)
计算检验统计量
将MSA 和MSE 进行对比,即得到所需要的检验统计量F。当H0 为真时,分子、分母的数学期望都等于σ2,二者的比值服从分子自由度为k-1、分母自由度为n-k 的F 分布,即
F=MSA/MSE~F(k-1,n-k)
作出统计决策
方差分析表
“方差分析表”主要包括的项目:变差(方差来源)、均方(离差平方和及其分解)、自由度(各离差平方和的自由度)和F 统计量。
关系强度的测量 P197
第十一章 一元线性回归
变量之间的关系度量
函数关系
自变量和因变量一一对应
相关关系
变量之间存在不确定的数量关系
相关关系的描述和测度
描述
散点图
特点:直观
类型
线性相关
完全线性相关
非线性相关
相关系数
概念:是根据样本数据计算的度量两个变量之间线性关系强度的统计量
记作:r
相关系数r的特征
r的取值范围:[-1,1]
当r=-1,表示x与y处于完全负相关
当r=1,表示x与y处于完全正相关
当r=0时,表示二者之间不存在线性关系
当|r|=1时,表示y的取值完全依赖x
r具有对称性
r的数值大小与x和y的原点及尺度无关
r仅仅是x与y之间线性关系的一个度量,他不能用于描述非线性关系。
r=0,只表示两个变量之间不存在线性相关关系,并不能说明变量之间没有任何关系
当r=0时,不能得出两个变量之间不存在相关关系的结论,而应结合散点图作出合理的解释
r仅仅是x与y之间相关关系的度量,不意味着x与y一定有因果关系
相关关系的显著性检验
r的抽样分布
样本数据来自于大样本,随着n的增大,r的抽样分布趋于正态分布
r的显著性检验 P221
提出假设
计算检验统计量t
进行决策
一元线性回归
一元线性回归模型
回归模型
因变量:被预测,解释的变量
自变量:用来预测或解释因变量的变量
回归方程
估计回归方程
参数的最小二乘估计
估计回归方程
求解估计回归方程
第13章时间序列分析和预测
时间序列及其分解
时间序列(概念)
平稳序列
非平稳数列:包含趋势、季节性或周期性的序列
趋势
是时间序列在长期呈现出来的某种持续上升或持续下降的变动
季节性
也称季节变动,是时间序列在一年内重复出现的周期性波动
周期性
也称循环波动,是时间序列中呈现出来的围绕长期趋势的一种波浪或振荡式的变动
随机性
也称为不规则变动