导图社区 统计学第二章
本导图汇总了统计学第二章的展示内容,包括数据类型、统计数据的收集、整理与显示、综合指标与数据分布特征等。
编辑于2022-04-04 12:07:20第二章
数据类型
统计数据
数量性状资料
方法
计数法:计数资料(非连续变量资料
测量或度量:计量资料(连续变量资料
质量性状资料
统计次数法
评分法
统计数据的收集、整理与显示
统计数据的收集
统计调查方案
why、who、what、when、how
统计调查的组织形式
按调查对象所包括的范围
全面调查
普查、全面统计报告
非全面调查
抽样调查、重点调查和典型调查
按搜集资料的方法
询问法、观察法
按调查登记是否连续
经常性调查(间隔<1年)
一次性调查(间隔>1年)
按调查的组织形式
统计报表制度(自上而下布置任务,自下而上上报调查资料)
专门调查
普查、重点调查、抽样调查、典型调查
统计误差
登记性误差(任何一种调查)
代表性误差(非全面调查特有)
抽样误差(随机误差),无法避免但可计算和控制,随机抽样导致)
系统性误差,可以避免,非随机抽样调查导致
统计数据的整理
意义
根据统计研究的需要,将收集到的大量反映个体特征的数据进行科学的分类汇总、加工处理,或对收集到的次级资料进行加工,使之系统化,条理化,成为反映总体特征的综合资料
统计分组(分总体合个体)
作用
划分总体的类型
反映现象内部结构和比例关系
揭示现象之间的相互依存关系
原则
穷尽原则(任何一个个体都归属某一个组)
互斥原则(任何一个个体仅归属某一个组)
种类
按分组标志的性质
品质标志分组
数量标志分组
按分组标志的多少
简单分组
复合分组
分配数列
概念
将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组单位数在总体单位数中所占的比重
种类
品质数列(按品质标志分组)
变量数列(按数量标志分组)
单项式变量数列
一个变量值代表一组
适用于变异范围较小的离散变量
组距式变量数列
间断组距式分组、连续组距式分组(上限不在内)
等距分组、异距分组
组中值(上限+下限)/2
适用所有连续变量和变异范围大的离散变量
编制
确定分组的形式
确定组数
确定组距
计算各组组次
次数分布
钟型分布
“中间大,两头小”包括对称分布和偏态分布
U型分布
“中间小,两头大”又称倒钟型分布
J型分布
“一头大,一头小”包括正J型分布和倒J型分布
累计次数分布
向上累计(由变量小的组向变量大的组累加各组的次数或频率,直到该组的上限)
向下累计(由变量大的组向变量小的组累加各组的次数或频率,直到该组的下限)
统计数据的图表显示
统计表
选择合适的总标题(时间、空间、总体、指标)
合理安排统计表的结构(表中行列各栏一般按先局部后总体的原则排列)
若统计表栏数较多,加以编号
数字保持同一精确度、整齐,注明单位,不写“同上”,无数字时用“—”表示
必要时加注说明或注释
统计图
直方图
展示组距数列分布特征,适合描述定量数据分布
折线图
两个终点与横轴相交,所围成面积与直方图相同
茎叶图
类似于直方图,与直方图比较,其构造更容易且能显示变量的实际值;展示总体数据的主要分布特征,但掩盖了组内数据的主要差异
柱形图
既可以用来表示定性数据的分布,也可以进行同类现象在不同空间、时间的对比
饼图
表示各部分对于总体的比例,适合描述定性变量结构状况
曲线图
理论曲线,用来描述各种统计量和分布规律
帕拉图
类似于直方图,定性变量的次数分布条形图
散点图
用来分析两个变量之间的相关关系
综合指标与数据分布特征
平均指标
概念
又称平均数,是比同类现象在一定时间、地点、条件下所达到的一般水平
特点
将数量差异抽象画
只能就同类现象计算
能反映总体变量的集中趋势
数值平均数
概念
根据数据分布的全部标志值(或变量值)来计算的平均数,也称均值
算术平均数
分母是分子(标志值)的承担者
算术平均数=总体标志总量/总体单位总量
简单算术平均数
加权算术平均数
当各组的次数都相同时,即f1=f2=f3=…=fn 时,加权算术平均数等于简单算术平均数
单项式数列
组距式数列
根据组距式数列计算的加权算术平均数是假定各单位的标志值在组内的分布是均匀的,但实际上分布不可能是完全一致的,各组的组中值与组平均数总会存在一定程度的差异,因此组距式数列计算的算术平均数是一个近似值
影响因素
各组变量值的大小Xi
频数或频率
优缺点
优点
容易理解,便于计算
灵敏度高
缺点
易受极端值影响
在偏斜分布、U型分布中不具有代表性
调合平均数
含义:是算术平均数的变形。是各个变量值的倒数的算术平均数的倒数,故又称倒数平均数
简单调和平均数(未分组资料)
加权调合平均数(分组资料)
注意
调和平均数在应用时要求各个变量均大于零,否则无实际意义
调和平均数也易受极端变量值影响。但受影响程度比算术平均数要小
相比较而言,受极小值的影响比受极大值的影响更大
优缺点
优点
灵敏度高
在某种不能计算的条件下,可以代替算术平均数来计算
缺点
不容易理解
易受极端值影响
有零值时不能计算
几何平均数
含义:是若干项标志值连乘积的n次方根
用途
不是用于计算静态的单位标志值平均数,而是用于计算时间上相互衔接的比率或速度的平均数
也常用于产品合格率、银行复利利率的计算
简单几何平均数(未分组资料)
加权几何平均数(分组资料)
特点
如有标志值为0或负值则无法计算
受极端值的影响较算术平均数和调和平均数小
几何平均数主要应用于反映特定现象的平均水平,即现象的总标志值是各单位标志值的连乘积
三类数值平均数的数量关系
当各变量相等时,调和平均数=几何平均数=算术平均数
当各变量不等时,调和平均数< 几何平均数< 算术平均数
位置平均数
概念
根据数列中某些标志值所处的位置或地位来确定的
众数
是一个位置代表值,不受极端值的影响。求众数不需要对数据进行排序
如何确定
由未分组或单项式数列确定众数:只需找出出现次数最多的标志值
由组距式数列确定众数
找出频数(频率)最大的组,即“众数组”
按公式近似地计算众数值
特点
不受极值影响
无明显集中趋势时计算众数没有意义
不等距分组众数的位置不好确定
中位数
将总体各单位按其标志值大小顺序排列,处于数列中点的那个单位的标志值
如何确定
未分组的原始资料确定众位数
将标志值按大小顺序排列
确定中位数的位置—(n+1)/2
确定中位数
当n是奇数时,则处于中间位置的标志值就是中位数
当n是偶数时,则处于中间位置的两个标志值的算术平均数就是中位数
由已分组资料确定中位数
计算向上累计数(下限公式)或向下累计数(上限公式)
确定中位数所在组
按公式(内插法)计算中位数
特点
不受极端值和开口组的影响,稳定性好
各单位标志值与中位数离差绝对值之和最小
对某些不具有数学特点或不能用数字测定的现象,可以用中位数求其一般水平
众数、中位数和算术平均数的关系
区别
众数和中位数是由所处的特殊位置确定的,而算术平均数是由数列所有变量值计算的,所以算术平均数对数据的概括能力比众数、中位数强
算术平均数易受极端值的影响,中位数次之,众数几乎不受极端值的影响
联系
三者都是作为反映总体一般水平(或集中趋势)的平均指标
三者之间存在着一定的数量关系
皮尔生经验法则:分布在轻微偏斜的情况下
正确应用平均指标的原则
平均指标只能应用于同质总体
用组平均数补充说明总平均数
根据具体条件选择平均方法
平均数与典型值和分配数列结合分析
标志变异指标
定义:是反映同质总体内部各单位标志值的差异程度,即数列的离散趋势的指标
作用
衡量平均指标的代表性
反映现象变动的均衡性
是进行抽样推断等统计分析的一个基本指标(可以计算抽样平均误差)
全距(极差)
全距越大,数据的离散程度越大
指一组资料中的最大值与最小值之差,表明总体中标志值变动的范围
未分组资料
全距R=最大值-最小值
分组资料
最大组的上限-最小组的下限
对开口组
最大组的上限=前一组的上限+组距
最小组的下限=后一组的下限-组距
意义明确,计算简单;只考虑极值的大小而不考虑其他变量值的分布情况,会导致测定数列的离散程度不全面
四分卫差
四分位差越大,数据的离散程度越大
也称修正极差,它集中反映中间50% 的离散程度
平均差
平均绝对偏差,各单位的标志值与平均数的离差绝对值的算术平均数
未分组资料(简单)
分组资料(加权)
特点
概括地反映了所有单位标志值的变异程度,但因取绝对值,数学性质不理想,实际中较少用
标准差
方差与标准差是测量标志变异程度最常用的指标;数值越大,反映偏离程度越大
总体各单位标志值与其算术平均数的离差平方和的平均数的平方根。又称“均方差”
未分组资料
方差
标准差
分组资料
方差
标准差
步骤
确定各组组中值
计算平均数
算出离差
计算各组离差平方,乘以各组次数fi
求出分子离差平方和,带入公式得到结果
离散系数
也称变异系数,是各变异指标与其算术平均数的比值
极差系数
四分卫差系数
平均差系数
标准差系数
作用:消除现象由于不同计量单位、不同平均水平所产生的影响
利用全距、标准差等变异指标比较两数列离散程度的条件: 1.两数列的平均数相等 2.两数列的计量单位相同 如果不满足上述条件,则应用离散系数(变异系数)来判断
注意
关系及应用条件
加权算术平均数和加权调和平均数的关系:在权数选择合适时,加权调和平均数实际上是加权算术平均数的变形
加权算术平均数一般用于已知分母的情况下。即总体单位
加权调和平均数一般用在已知分子的情况下。即总体标志总量已知