导图社区 统计学
统计学知识总结,包括统计学的产生与发展、统计学的基本概念、统计数据的收集 整理与显示、抽样分布与参数估计、数据分布特征的描述等内容。
编辑于2021-11-16 16:28:13统计学
绪论
什么是统计
关于统计的含义
含义:统计是人们认识客观现象总体数量变动关系和变动规律的实践活动的总称 是人们认识客观世界的一种有力工具
研究对象特点
日常生活中统计的含义
统计研究的基本环节
统计设计
收集数据
整理与分析
描述统计:统计研究的基础 对采集的数据登记审核整理归类 计算出反映总体数量特征的综合指标 图表表示经过归纳分析所得信息 通过分组法和综合指标法得到现象总体数量特征
推断统计(归纳推理):在对样本数据进行描述的基础上 根据样本数据估计或检验总体的数量特征 是裸机归纳法在统计推理中的应用
统计资料的积累 开发与应用
统计学的产生与发展
统计学的主要流派
政治算数学派
国势学派
社会统计学派
数理统计学派
理论统计学和应用统计学
统计学:横跨社会科学和自然科学领域的多科性的科学
理论统计学
应用统计学
定义:以各个不同领域的具体数量为研究对象 特点:从所研究的领域或专门问题出发 视研究对象的性质采用适当的指标体系和统计方法 不仅要进行定量分析 还需定性分析 通常具有边缘交叉和复合型学科的性质 与不同领域的实质性科学相关 具体对象的方法论 应用:一般统计方法的应用&各自领域实质性科学理论的应用
社会经济统计学:以社会经济现象的数量方面为特定研究对象的应用统计学 测定社会经济现象←科学设置指标←对有关社会经济现象的质的研究←以经济与社会理论指导 特点:在质与量的紧密联系中研究事物的数量特征和数量表现 由于社会经济现象复杂性特殊性 需要一般统计方法与独特方法结合 重要性:国家宏观调控 企业了解市场 居民决策依据
互相促进 共同提高
统计学有关学科的联系与区别
数学与统计学的关系
统计学与相关实质性学科(经济学)的关系
统计学的基本概念
总体与总体单位
统计总体:根据一定目的确定的所要研究的食物的全体 由客观存在的 具有某种共同性质的多个个别事物构成的整体
总体单位:组成统计总体的各个个体 根据研究目的不同 可以是实物单位or非实物单位
总体和总体单位的概念是相对而言的 根据研究目的改变
样本
定义:由一定数量的单位构成的集合 当总体单位数量很多 不必或不能对构成总体的所有单位都调查 采取一定方式 从总体中抽取一部分单位 作为总体的代表
样本容量:样本包含的总体单位数
标志
定义:总体各单位普遍具有的属性或特征 如性别 年龄等
标志表现:标志在特定时间 地点条件下的具体表现
统计指标与指标体系
统计研究最终目的:通过对各单位标志的具体表现综合反映总体的数量特征
统计指标:反映统计总体数量特征的概念和数值 对客观事物认识过程的起点
要素
分类
数量指标(总量指标):反映现象总规模 总水平的统计指标 用绝对数表示
质量指标:反映现象相对水平or一般水平 是总量指标的派生指标 用相对数或平均数表示 反映现象之间的内在联系 对比关系或分布集中趋势
指标与标志的关系
标志:反映总体单位的属性和特征 个别 指标:反映总体的数量特征 整体
总体和单位的概念随研究目的的不同而变化 指标和标志的概念也是相对的
统计指标体系
统计数据
变量与变量值
变量:说明现象某一数量特征的概念 可变的数量标志和所有统计指标都是变量 统计数据是统计变量的具体表现
连续型变量:变量的取值在数轴上连续不断 无法列举 在一个区间内可以取任意实数值 如 温度 年龄
离散型变量:变量的取值是正数值 可以列举 如人数
变量取值是否确定:确定性变量 随机变量
变量值:变量的具体取值
数据的计量尺度
定类尺度
按照客观现象的某种属性对其进行分类 如性别男1女0 最粗略 计量层次最低 数值作为分类代码 不反应优劣 大小或顺序 对不同类别可以计算单位数 数学特征=or≠
定序尺度
客观现象各类之间的等级差或顺序差的测度 将研究对象分成不同的类别 且可以反映各类优劣 量的大小或顺序 如成绩优良中差 无法表明一个优等于几个良 但可以表明优高于良 主要数学特征是<或>
顺序性差异
定距尺度
对现象类别或次序之间间距的测度 可以用数表示现象各类别的不同和顺序上的差异 还可以用确切的数值反映现象之间在量方面的差异 计量单位一般为实物单位or价值单位 主要数学特征是+或- 总量指标是用定距尺度计量的
顺序性差异 绝对差异距离
定比尺度
在定距尺度的基础上 确定相应的比较基数 将两种相关的数加以对比而形成相对数 用于反映现象的结构 比重 速度 密度等数量关系 如生产效率 有绝对意义上的零点 既可以加减运算 也可以乘除运算
顺序性差异 绝对差异距离 相对差异
数据的类型
横截面数据(静态数据):同一时间对同一总体内不同单位的数量进行观察而获得的数据
时间序列数据(动态数据):不同时间对同一总体的数量表现进行观察而获得的数据
面板数据:同时在时间和横截面空间上取得的二维数据 如2005年到2021年四个省的人口数 固定年份是横截面数据 固定区域是时间序列数据
数据的表现方式
绝对数
通过计量 计数或汇总的方式取得 表现现象的总规模 总水平 计量单位:实物单位 价值单位(货币形式) 复合单位 如千瓦时
相对数
由两个互相联系的数值对比求得 如结构相对数 动态相对数 比较相对数
平均数
反映现象总体的一般水平或分布的集中趋势
统计数据的收集 整理与显示
统计数据的收集
统计数据的收集方法
统计数据收集:根据统计研究预订的目的和任务 运用科学的调查方法与手段 有计划 有组织地收集反映客观现实的统计资料的过程 是统计工作的基础环节
表现形式统计数据
原始资料:直接向调查对象收集的反映调查单位的统计数据
二手资料:已经加工 整理过的 说明总体现象的数据
试验数据:在既定的控制条件下进行试验 反映试验过程和结果的数据 适用于自然科学
调查数据:按既定的调查方法 通过统计调查所取得的数据 适用于社会经济现象
原始资料的收集方法
直接观察:调查人员到现场直接对调查对象观察点数和计量
报告式:由统计工作机构将调查表哥分发or电传给被调查者 被调查者根据填报的要求将填好的调查表格寄回
采访法:据被调查者的答复收集统计资料
口头询问:调查人对被调查人采访 当面填答
被调查者自填:调查人把调查表给被调查者 填写后交回
登记法:组织机构发通告规定当事人去机构登记填写材料
统计调查方式
收集调查数据 的形式和方法
调查单位的范围大小
全面调查
对调查对象的全部单位一一加以调查 如普查和全面统计报表 涉及面广 调查单位多 耗费较多的人力物力财力 时间长
非全面调查
对调查对象中的一部分单位进行调查 通过这些部分单位的调查来了解全面或一定范围的情况 调查单位少 可以节省人力物力财力
调查时间是否连续
经常性调查
随着被研究现象的变化 连续不断地进行登记 反映现象在一段时间内的全部发展过程
一次性调查
对时点现象进行定期或不定期的调查登记 反映现象在某一时点上的发展水平或规模
按调查的组织方式
统计报表
专门调查
定义:为了研究某些专门问题或为某一目的而对某些社会经济现象专门组织的登记和调查 多为一次性调查
普查
定义:专门组织的一次性全面调查
目的:掌握某些关系国情国力的重大事件的准确而全面的数据
作用:为抽样调查提供抽样框 搜集统计报表所不能提供的反映重大国情国力的基本统计信息
局限:需要大量人力物力财力 不宜经常进行
组织形式:经过组织的普查机构配备普查人员 对调查单位直接登记 如人口普查 利用调查单位的原始记录和核算资料结合清库盘点 调查单位自行填报调查表格
特点:非经常性 间隔时间长 最全面 掌握大量详细全面的统计资料
组织原则:确定统一的调查时点 调查时间尽可能短 普查项目必须统一 重大国情普查应按一致周期进行
抽样调查
性质:非全面调查
类别
概率抽样:按随机原则从调查对象中抽取一部分单位作为样本进行观察 根据样本数据推算调查对象的总体特征
非概率抽样:随便地或有意识地抽取单位进行调查 一般不用样本数据推断总体的数量特征 误差难以事先计算
重点调查
典型调查
定期报表制度 (统计)
定义:依照国家有关法律 自上而下地统一布置 以一定的原始记录为依据 按照统一的表式 统一的指标项目 统一的报送时间和报送程序 自下而上地逐级地定期提供统计资料的调查方式
特点:来源于各个基层单位的原始记录基础之上 基层单位可以利用资料监管 逐级上报汇总 各级领导部门都能获得管辖范围内的报表资料 经常性调查 相对稳定 利于积累资料 动态对比分析
统计调查误差及其防止
误差的概念和种类
概念:统计调查结果所获得的统计数字与客观事物实际数值的差别
种类
登记性误差(调查工作误差)调查登记以及资料汇总中由于主客观原因而引起的误差 如计算 抄录 汇总错误 在全面调查和非全面调查中都有
代表性误差:非全面调查中利用部分单位资料推断总体资料时所产生的误差
统计调查体系
定义:一个国家开展统计调查的方法和制度的总称
我国现行的统计调查体系:以必要的周期性的普查为基础 经常性的抽样调查为主体 同时辅之以重点调查 科学推算和部分全面报表综合运用的统计调查方法体系
科学推算:不能或不必通过调查取得资料时 据已有的资料 用统计方法估算
统计调查方案设计
定义:在背景分析的前提下 制定出一个周密的方案 用以指导调查工作的全过程
明确调查目的
要解决什么问题
确定调查对象和调查单位
调查对象:需要调查的现象总体
调查单位:所要调查的具体单位 所要调查登记的标志的承担者
报告单位(填报单位):负责向上报告调查内容 提交统计资料的单位 在行政上 经济上具有一定独立性的单位
可以一致也可以不一致
对抽样调查:确定调查对象即明确目标总体 是建立抽样框的前提 明确样本量大小 样本的抽取方式 抽取的组织形式
设计调查项目
调查项目:调查中所要登记的调查单位的特征 调查单位的标志
设计调查表格和问卷
调查表:将各个调查项目按照一定的顺序排列在一定的表格上
调查问卷:特殊形式的调查表格 常用于民意测验or市场调查
确定调查时间
调查时间:调查资料所属的时间 时期现象:明确规定调查资料所反映的起止日期 时点现象:规定统一标准时点
调查期限:进行调查工作的时限 包括收集资料报送资料的时间
组织实施调查计划
调查报告的撰写
二手资料的主要来源渠道
统计年鉴 有关期刊 有关网站 数据库
统计数据的整理
数据整理概述
统计数据整理的内容
(汇总性整理)含义:对统计调查所收集到的数据进行分类汇总
方案设计:确定对所研究总体的分组 确定描述统计总体数量特征的统计指标体系
数据整理的程序
原始统计资料的审核
按照性质与特点 对统计资料的分组与汇总
编制统计表或绘制统计图
统计资料的积累 保管和公布
统计分组
统计分组的概念与种类
概念
根据统计研究的目的和客观现象的内在特点 按某个标志把被研究的总体划分为若干个不同性质的组
分组标志:品质标志或数量标志
特点:兼有分(对现象总体)和合(对总体单位) 突出一种差异时必然掩盖其他差异
种类
分组标志的多少
简单分组:研究现象按一个标志分组 只能从某一方面说明 反映总体数量特征和变化规律 许多简单分组从不同角度说明同一总体 构成平行分组体系
复合分组:把两个及以上的分组标志层叠起来对研究现象所做的分组先按一个标志分组 在此基础上再按第二个标志分组 复合分组构成一个复合分组体系 如资产负债表
分组标志的性质
品质(属性)分组 数量(变量)分组
统计分组的原则与方法
原则
穷尽原则:总体中每一个单位都应有组可归 各个分组一起足以包容总体所有的单位
互斥原则:特定分组标志下 任何一个单位只能归属于某一组
品质分组的方法
简单:如按性别分组 复杂(分类):按职业 城乡划分等 国家统计部门制定统一的分类标准
数量分组的方法
单项式分组:用数量标志的每个取值作为组的名称
组距式分组:把数量标志的取值范围依次划分为若干个满足互斥原则和穷尽原则的区间 用这些数值区间作为组的名称
组限:上限:每组变量值中最大值 下限:最小值
间断型组距式分组:相邻两组的组限不相连大组距式分组
连续型组距式分组:相邻两组的组限相连(重叠)以同一数值作为相邻组的共同界限的组距式分组
组距:每组数值区间的距离
分类:等距分组:标志变动均匀时 不等距分组:标志分布不均匀/标志值相等的量具不同意义/标志值按一定比例发展变化
组距计算:上限-下限 组中值=(上限+下限)/2
开口组(xx以上)的组距与组中值:以相邻组的组距作为该组的组距 确定其下限或上限 再计算组中值
注意事项:各组数量界限的确定必须能反映实物质的差别 根据被研究总体数量特征 采用适当的分组形式 确定相应的组距组限
频数分布
频数分布的基本概念
定义
(次数分布)将统计总体按照某个标志分组 并将总体中的所有单位按组归类 计算各组的单位数的特殊分组
分布数列:各组名称与相应的次数结合在一起形成反映总体单位在各组之间分布状况的数列
品质数列:按品质标志分组
变量数列:按数量标志分组
分布数列的两个要素
变量x:总体按某标志所分的组 若总体按数量标志分组 分组标志在各组有不同的数量表现 形成的标志值数量
次数(频数)f:各组所出现的单位数
频率
各组频数与总体单位总数相除
性质:有界性 归一性
频数密度与频率密度:对于不等距分组 各组次数的多少还受到组距大小的影响
频数密度=频数/组距 各组频数密度与各组组距乘积只和等于总体单位数
频率密度=频率/组距 各组频率密度与各组组距乘积只和等于1
累计频数与累计频率
定义:在数量标志分布数列的基础上 将各组频数或频率依次累计得累计频数或累计频率
向上累计:先列出各种上限 由标志值低的组向标志值高的组依次累计 某一组的累计频数or频率是该组上限以下各组频数or频率的累计数
向下累计:先列出各种 由标志值低的组向标志值高的组依次累计 某一组的累计频数or频率是该组下限以上各组频数or频率的累计数
特点:开始累计第一组的累计频数or频率等于第一组本身的频数or频率 累计到最后一组的累计频数or频率等于总体的总频数or频率
统计数据的显示
统计类
统计表的定义和结构
定义
把统计数据按一定的顺序排列在表格上
结构
表式;:表头 行标题(竖向) 列标题(横向) 数字资料 附加
内容:主词(统计表所要说明的总体及其组成部分) 宾词(统计表用来说明总体数量特征的各个统计指标 如数字)
统计表的分类
按主词的结构分类
主词是否分组和分组程度
简单表:主词未经过任何分组的统计表
简单分组表:主词只按一个标志分组的统计表
复合分组表:主词按两个或两个以上标志复合分组的统计表
按宾词设计分类
宾词的排列方式
不增加统计总体的各组成部分 仅比较详细地描述总体已有的各个组成部分 从属于主词的要求 更详细地描述主词数量特征
统计表的设计
统计图
直方图
以横轴表示分组变量 纵轴表示频数或频率 组距为宽 频数或频率为高 绘制直立于横轴上的长方形 不等距分组:纵轴为频数密度或频率密度
折线图
频数多边形图
在直方图的基础上把直方图顶部的中电用直线连接起来 把原来的直方图抹掉
两个终点要与横轴相交折线图下所围成的面积与直方图的面积相等 二者所表示的频数分布一致
曲线图
把各组组距式分组分得无穷多 各组组距趋近于0 次数分布折线图演变成一条平滑的曲线 为分布曲线
条形图
用于显示离散型变量的次数分布 主要是现实品质数列频数分布
简单条形图
对总体不进行分组 用一个图形代表一个总体而构成的条形图
复合条形图
两个或两个以上的条形为一组 并列若干组条形构成的统计图 进行每组各条形图的比较和各组同类条形比较
圆形图(饼图)
显示定类变量的次数分布
环形图:中间有一个空洞 总体中的每一部分数据用环中的一段表示 与圆形图类似 区别:圆形图只能显示一个总体各部分所占的比例 环形图则可以同时绘制多个总体的数据系列 每一个总体的数据系列为一个环 可用于结构比例研究 展示分类和顺序数据
茎叶图
显示未分组的原始数据的分布
由茎和叶两部分构成 图形是由数字组成的 数据的高位数值作树茎 地位数字作树叶 树叶上只保留一位数字 类似横置的直方图 区别:直方图可观察一组数据的分布状况 但没有给出具体的数值 茎叶图即能给出数据的分布状况 又能给出每一个原始数据 保留了原始数据的信息
累计曲线图
绘制
洛伦茨曲线图
特殊的累计分布曲线图 研究社会财富 土地 收入等分配公平与否
方法:将分配对象(收入)和接受分配者(家庭)的数量用比重(频率)表示 并进行向上累计 纵轴和横轴均为百分比尺度 纵轴自下而上 用以反映分配对象的累计百分比 横轴自左向右 用以反映接受分配者的累计百分比 计算所得的分配对象和接受分配者的累计百分比 标出坐标点 连接
基尼系数
在洛伦茨曲线图的基础上计算得到 衡量收入分配的平等与否
用洛伦茨曲线与绝对平均线所包围的面积A 除以绝对平均线和绝对不平均线所包围的面积(A+B) Gini=A/(A+B)
值越小 越靠近绝对平均线 收入分配越平等 反之越大越不平等
频数分布图的类型
钟型分布
中间大 两头小
U型分布
两头大 中间小 如人口死亡率
J型分布
正J型 反J型 如供给需求
抽样分布与参数估计
抽样的基本概念与数学原理
有关抽样的基本概念
统计推断
对总体概率抽样 用有关分布 据样本数据估计/检验总体数量特征
样本容量与样本个数
总体参数与样本统计量
概率抽样及其组织形式
要求对总体的每一次观察(抽取)都是一次随机试验 并且有和总体相同的分布 要求对总体观测(抽取)n次 得到容量为n的样本
放回抽样与不放回抽样
抽样分布
(样本统计量的概率分布)从总体中随机抽取样本 每一个样本计算出样本统计量的观测值 所有可能的样本观测值和对应的概率 可能是精确地服从某种已知分布 也可能是以某种已知分布为极限分布
大数定律与中心极限定理
大数定律
定义:独立同分布的随机变量 具有相同的数学期望和方差 当n充分大时 独立同分布的一系列随机变量平均数与期望值的偏差有很大把握控制在给定范围内
表明:尽管个别现象受偶然因素影响 有各自不同的表现 但对总体的大量观察后平均 能使偶然因素的影响相互抵消 消除由个别偶然因素引起的极端性影响 从而使总体个别平均数稳定下来 反映出事物变化的一般规律
正态分布再生定理
变量X服从正态分布 从这个总体中抽出一个容量是n的样本 样本平均数也服从正态分布 平均数相同 标准差类似
总体变量服从正态分布 抽取的样本 样本平均数也服从正态分布
中心极限定理
样本平均数
若变量X的分布有期望值和标准差 则从这个总体抽取容量为n的样本 n趋近于无穷大时 样本平均数近似服从正态分布 平均数相等 标准差相似
无论总体服从什么分布 只要平均数与标准差客观存在 可以通过增大样本容量n的方式保证样本平均数近似服从正态分布
样本比例
任意总体比例为p 方差为p(1-p)的(0,1)分布总体中 抽取容量为n都样本 样本比例P的分布会随n的增大而趋近于平均数为p 标准差为roup的正态分布
抽样分布
样本平均数的抽样分布
期望值与方差
分布规律
当总体X服从正态分布时 据再生定理 样本平均数服从正态分布
当总体不服从正态分布时 据中心极限定理 样本容量n足够大 样本平均数仍近似服从正态分布
样本比例的抽样分布
期望值与方差
分布规律
中心极限定理表明n充分大时 样本比例近似服从正态分布 大样本条件nrou和n(1-rou)≥5
样本方差的抽样分布
子主题
参数估计
参数估计的定义与种类
定义:用样本统计量估计总体未知参数or参数的函数 估计量:用来估计总体特征的样本指标 总体参数:待估计量
特点:归纳推理 不确定的概率估计方法 存在抽样误差
形式
点估计
定义:从总体抽取一个随机样本 计算与总体参数相应的样本统计量 把该统计量视为总体参数估计值 优点:简单 缺点:无法控制误差 适用于对准确度可靠程度要求不高
方法
矩估计法:用样本矩估计总体矩 获得的估计量成为矩估计量
最大似然估计法:把待估的总体参数看做一个可以取不同数值的变量 计算当总体参数取上述不同数值的时候 发生我们当前所得到的样本观测值的不同概率 总体参数取哪一个数值的时候这种概率最大 便把这个数值作为对总体参数的估计结果
估计值的优良标准
多次试验or从抽样分布特点出发 推断这个估计量是否理想
无偏性:估计值的数学期望值等于原值 有效性(最小方差性) 一致性:随着样本容量不断增大 样本统计量接近总体参数的可能性越大 充分性:估计量包含了样本中关于 的全部信息
样本平均数是总体均值的无偏 有效 一致 且满足充分性的估计量
区间估计
定义:用两个互相联系的样本统计量给出区间 要求该区间将cigema包含在内的概率应达到一定的程度
精度和可靠性
精度要求:估计误差必须控制在一定的范围内 允许误差的最大值 可通过极限误差来反映 derta越小 精度要求越高(如航天器)
可靠性:估计结果正确的概率保证 用置信度反映 能够给出置信度的前提:能够证实估计量服从某种已知的常见分布
总体均值和方差的的估计
样本容量的确定
问题的提出
通过增加样本容量n有可能降低样本平均数的标准差 从而实现既保证一定的估计精度 又具有较高的置信度的目的 在给定的置信度与极限误差的前提下 样本容量n的取值
估计总体均值/总体比例
注意的问题:计算样本容量时总体的方差与成数未知 进行一次抽样调查 需要同时估计总体均值与比例 同时计算出两个样本容量 取较大的结果 小数进位
数据分布特征的描述
总量指标
(绝对数)定义:反映现象总体规模或水平的综合指数 即数量指标
定义
反映一个国家的国情和国力 一个地区或一个单位人力物力财力的基本数据 是认识社会经济现象的起点
计算其他综合指标的基础 相对指标和平均指标一般是由两个有联系的总量指标对比而形成的
加强社会经济管理 平衡供求关系 保证国民经济协调发展 全面提高社会经济效益的重要工具 是实现宏观经济调控和企业经营管理的基本指标
分类
按时间特征
按计量单位
按内容分类
总体单位总数:总体所包含的总体单位的数量 一个总体只有一个单位总数
总体标志总量:总体单位某一数量指标的标志值综合 可以有多个标志总量 由总体单位的数量标志值汇总而来
统计变量集中趋势的测定
测定集中趋势的指标及其运用
集中趋势定义
较大和较小的观测值出现的频率比较低 大多数观测值密集分布在中心附近 使得全部数据呈现出向中心聚集或靠拢的趋势
测度集中趋势的指标
数值平均数:根据全部数据计算得到的代表值 主要有算数平均数(均值) 调和平均数及几何平均数
位置代表值:根据数据所处位置直接观察 或根据与特定位置有关的部分数据来确定的代表值 主要有众数 中位数和四分位数 十分位数 百分位数
切尾均值
测定集中趋势的作用
反映变量分布的集中趋势和一般水平
比较同一现象在不同空间或不同阶段的发展水平:消除总体规模大小的影响 具有可比性 一定程度上使偶然因素的影响相互抵消
分析现象之间的依存关系
推断统计中的重要统计量 进行统计推断的基础
数值平均数
算术平均数X
定义:一组数据的总和除以这组数据的项数所得的结果 最常用的数值平均数
简单算术平均数
定义:把每项数据直接加总后除以它们的项数 通常对未分组数据计算算术平均数
公式
加权算术平均数
定义:对于分组数据不能简单平均 因为各组变量值得次数不等 为了体现各变量值轻重不同的影响作用 对各个变量值赋予不尽相同权数fi
权数:在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量 可以说绝对数形式 也可以是比重形式(频率) 比重形式更能直接表明权数权衡轻重的实质 因为影响作用的大小是相对的 权数完全相等时 加权算术平均数就是简单算术平均数
公式
由组距数列计算算术平均数
分组数据为组距数列时 计算算术平均数需加权 但各组变量值不唯一 是区间范围 具体数据被掩盖 所以各组变量值用组中值代表 假定条件是各组内数据呈均匀分布或对称分布 所得数据为近似值
对相对数求算术平均数
各个相对数的对比基础不同 需要适当加权 权数的选择须符合相对数本身计算公式 各组相对数的平均数实质上是总体的相对数 权数为该相对数的分母指标
算术平均数的主要数学性质
算术平均数与变量值个数的乘积等于各个变量值得总和 算术平均数可用于推算相应总量 各个变量值想加总和有意义时使用
子主题
各变量值与算术平均数的离差之总和等于0 算术平均数是一组数据的重心 一般水平 中心位置
子主题
各变量值与算术平均数的离差平方之总和为最小 衡量各变量与数据分布中心的差异最佳选择
子主题
调和平均数XH (倒数平均数)
定义:各变量值的倒数的算术平均数的倒数
加权调和平均数
简单调和平均数
应用:社会经济统计中所应用的调和平均数通常是加权算术平均数的变形 具有特定经济意义 而非一般意义 符合现象间内在联系 已知各组变量值x1和mi=xifi(分子数据)而缺乏fi时 加权平均数可以变形为调和平均数形式计算
比值的平均数的计算方法
子主题
几何平均数HG
定义:n个变量值连乘积的n次方根
简单几何平均数
子主题
加权几何平均数
子主题
应用:适用于各个变量值之间存在连乘积关系的场合 如平均发展速度 对环比性质的比率求平均
众数与中位数
众数M0
定义:是一组数据中出现频数最多 频率最高的变量值 代表最常见 最普遍的状况 对现象集中趋势的度量 测度定性和定量变量的集中趋势
确定方法:先找到众数组 根据众数组与其相邻两组的次数差来推算
众数组:等距数列:次数最多的组 异距数列:频数密度最大的组
子主题
应用:数据分布存在明显的集中趋势具有显著的极端值时适用 无众数or双峰分布or多峰分布 不适用
中位数ME
定义:将数据由小到大排列后位置居中的数值 表示居于中间水平的取值大小
确定方法
未分组数据中位数 单项数列中位数
组距数列中位数
先确定中位数组 即中间位置所在的组 假定中位数组内次数均匀分布
四分位数 十分位数 百分位数 分位数和其他指标结合 可以更详细的反映数据的分布特征
箱线图:由一组数据的最小值 第一四分位数 中位数 第三四分位数 最大值五个数值来绘成 可以观察数据分布的范围 中心位置和对称性等特征 进行多组数据分布的比较
子主题
众数 中位数和算术平均数的比较
切尾均值
排除极端值得干扰 去掉数据中最大和最小的若干项数值后计算的均值
子主题
统计变量离散程度的测定
测定离散程度的指标及其作用
离散程度:一组统计数据偏离其分布中心的程度 变异指标:离散程度的测定指标
变异指标的作用
极差 四分位差和平均差
极差R
定义:一组数据的最大值与最小值之差
对总体数据:极差(全距)是变量变化的范围或幅度大小 在组距数列中 极差≈最高组的上限-最低组的下限
缺点:未考虑数据的中间分布情况 易收极端数据影响
应用:质量控制
子主题
四分位差Qd
(内距)定义:第三四分位数与第一四分位数之差 表示占全部数据一半的中间数据的离散程度
适用于中位数测度数据集中趋势时
子主题
平均差A.D
定义:变量的各个数据与其均值的离差绝对值的算术平均数 反映各个数据与其均值的平均差距
含义清晰 能全面的反映数据的离散程度 但不方便
子主题
方差和标准差
方差
定义:各个数据与其均值的离差平方的算术平均数
总体方差
样本方差
数学性质
常熟的方差为零
变量的线性函数的方差等于变量系数的平方乘以变量的方差
子主题
分组条件下 总体方差=组间方差+组内方差
标准差
定义:方差的算术平方根
总体标准差
样本标准差(更多用)
标准化值
背景:对比来自不同均值和标准差的个体的数据 不能直接对比 需要转化为同一规格尺度的数据后比较
转化方法:将数据标准化 计算标准化值或标志得分
子主题
实质:将不同均值和标准差的总体都转化为均值为0标准差为1的总体 将个体的数据转化为他在总体中的相对位置
特点:标准化值比较时只有相对意义 没有绝对意义
计量单位相同
离散系数
背景:对不同变量(不同数据组)的离散程度进行比较时 当他们平均水平和计量单位都相同时才能用上面的变异指标 否则用离散系数
定义:极差/四分位差/平均差或标准差等变异指标与算术平均数的比率 以相对数的形式表示变异程度
种类
极差系数:极差与算术平均数对比
平均差系数:平均差与算术平均数对比
标准差系数:标准差与算术平均数对比 最常用
性质:离散系数越大 离散程度越大 平均数代表性越差
异众比率
定义:非众数数值的次数之和在总次数中所占比重
性质:主要衡量一组数据以众数为分布中心的集中程度 即衡量众数的代表性 异众比率值越小 数据集中程度越高 众数代表性越大 主要用于定性变量的离散程度
没有量纲