导图社区 统计学第七版-数据分析使用方法
这是一篇关于统计学第七版-数据分析使用方法思维导图,包含推断统计方法、 描述统计方法等。希望此脑图对你有所帮助!
编辑于2023-12-29 15:22:40数据分析使用方法
推断统计方法
数值型数据
参数估计
估计量与估计值:描述总体参数的统计量成为估计量,描述估计量的数值称为估计值
区间估计:1.置信区间:由样本统计量所构造的总体参数的估计区间,包括置信上限和置信下限 2.置信水平:一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平,也称为置信度或置信系数。
当样本量给定时,置信区间会随着置信系数的增大而增大
总体均值的区间估计:样本均值x的抽样分布服从正态分布,其数学期望为总体均值μ,方差为总体方差/n
方差已知,服从正态分布或非正态分布,但是大样本
方差未知,服从正态分布,大小样本都行
总体比例的区间估计
总体方差的区间估计
如教材p119页
样本估计量的确定
估计总体均值是样本量的确定:如教材p128页
估计总体比例时样本量的确定:如教材p129页
点估计:就是用样本统计量的某个值直接作为总体参数的估计值。
评价点估计的标准:无偏性
评价估计量的标准
无偏性
有效性
一致性
假设检验
假设的表达式:H0:μ=μ0,H1:μ≠μ0,H0为原假设,H1为备择假设
两类错误:第一类错误:原假设为真被拒绝,叫α错误也叫弃真错误,第二类错误:原假设为伪我们却没有拒绝,叫β错误,也叫取伪错误。
如果减少α错误,就会增大犯β错误的机会,是两种错误都减小的办法就是增大样本量。
假设检验的流程:①提出原假设和备择假设②确定适当的检验统计量,并计算其数值③确定显著性水平,算出临界值④寻找拒绝域⑤计算z值,判断是否该拒绝。
进行假设检验利用的是小概率原理
单侧检验
左单侧检验:Z<Zα,则拒绝
右单侧检验:Z>Zα,拒绝
总体参数的检验
总体参数的检验和假设检验的步骤是一样的,总体均值的检验当方差已知时计算出z值,方差未知时,计算出t值;总体比例的检验计算出p值;总体方差的检验计算出卡方值,查表找到对应的拒绝域,做出判断。
样本量
样本量大,则使用z统计量
样本量小,则使用总体标准差
标准差已知,则使用z统计量
标准差未知,则使用t统计量
P值检验:根据数据计算检验统计量的实现值,从而计算P值,P>α,接受原假设,P<α则拒绝原假设。
P值是当原假设为真时,样本观察结果或更极端的结果出现的概率。
分类数据列联表的独立性检验
原假设H0:行变量与列变量有联系,H1:行变量与列变量没有关系。期望频数=总数×行数占比×列数占比=行合计数×列合计数/总合计数,计算出卡方,判断是否在拒绝域。
X 2 = Σ(OE) 2 / E
描述统计方法
收集
数据的来源
间接来源:一手数据
直接来源:二手数据
数据的调查
抽样误差可控制但不可避免,非抽样误差不可控制也不可避免
概率抽样
简单随机抽样
分层抽样
整群抽样
系统抽样
多阶段抽样
非概率抽样
方便抽样
判断抽样
自愿抽样
滚雪球抽样
配额抽样
数据的误差
抽样误差
非抽样误差
抽样框误差
回答误差
无回答误差
调查员误差
测量误差
处理
通过调查取得的原始数据,要从完整性和准确性两个方面去审核,二手数据要从时效性和适用性去审核。
数据审核
数据筛选
整理
分类数据
频数
频数分布
数值型数据
数据分组:在数据分组中,1.一个组的最小值称为下限值,一个组的最大值称为上限值。 2.组距:一个组上限和下限的差,开口组通常一相邻组的组距作为组距。 3.组中值:每一组中下限值与上限值中间的值
分析:数据的概括性度量
集中趋势:是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在
1.三者相等时,对称分布2.平均数<中位数<众数,左偏分布3.众数<中位数<平均数,右偏分布
平均数
中位数和四分位数
众数
离散程度
全距R(极差)
四分位距
方差和标准差
离散系数
标准分数
分布的形状
偏度系数:负值左偏,正值右偏
峰度系数:峰度>0,尖峰分布;峰度<0,扁平分布
浮动主题