导图社区 经济师 经济基础 第23-27章: 统计
这是一篇关于经济师 经济基础 第23-27章: 统计的思维导图,介绍详细,描述全面,希望对感兴趣的小伙伴有所帮助!
编辑于2023-11-29 15:57:032024年最新教材,商业秘密是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息和经营信息等商业信息。
2024年最新教材,地理标志是指标示某商品来源于某地区,该商品的特定质量、信誉或者其他特征,主要由该地区的自然因素或者人文因素所决定的标志。它是由“原产地+商品名称”组成,是一种独立的知识产权类型,在属性上具有地方性特色。
2024年最新知识产权实务,商标权保护是知识产权法律体系中的重要组成部分,旨在保护商标注册人对其注册商标的独占使用权,防止他人未经许可使用相同或近似商标,造成消费者混淆和市场秩序紊乱。
社区模板帮助中心,点此进入>>
2024年最新教材,商业秘密是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息和经营信息等商业信息。
2024年最新教材,地理标志是指标示某商品来源于某地区,该商品的特定质量、信誉或者其他特征,主要由该地区的自然因素或者人文因素所决定的标志。它是由“原产地+商品名称”组成,是一种独立的知识产权类型,在属性上具有地方性特色。
2024年最新知识产权实务,商标权保护是知识产权法律体系中的重要组成部分,旨在保护商标注册人对其注册商标的独占使用权,防止他人未经许可使用相同或近似商标,造成消费者混淆和市场秩序紊乱。
经济基础
五、统计
23、统计与数据科学
统计学
一门关于数据的学科
统计学的两大分支(必考)
描述统计:数据 收集、整理、描述 eg:为了解与居民生活相关的商品及服务价格水平的变动情况,收集国家统计局发布的 CPI 数据,利用统计图整理展示 CPI变化,利用增长率计算描述CPI 的走势
24章详细讲解
推断统计:利用样本数据推断总体特征 参数估计(随机抽取客户调查) → 假设检验(检验总体特征是否成立)
数据来源(必考)
分类
【按收集方法:观测数据、实验数据】 观测 数据:调查、测量取得。社会经济领域,CPI、GDP 实验 数据:实验中取得。自然科学领域,寿命、新药疗效
【按使用者角度:一手数据、二手数据】
统计质量评价标准(必考)
数据挖掘(必考)
数据挖掘: 1)数据源必须是真实的、大量的、有噪声的; 2)发现的是用户感兴趣的知识; 3)发现的知识是可接受、可理解 、可运用的; 4)并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。
监督学习
指导学习/监督学习:已知变量与目标关系,通过数据挖掘,学习建模来解释 1、分类:有分类判断结果(与聚类 最大的区别) eg:用户的满意度,财务信息判断客户是否到期后续约,根据发件人,主题,内容,判断垃圾邮件。 分类方法:(逻斯归向决策树)逻辑斯特回归、决策树、随机森林和支持向量机 2、回归:特征变量x 确定观测单位因变量y取值 eg:根据钻石克拉数,颜色,工艺预测钻石价格。根据楼房面积,位置信息判断价格。 回归方法:线性回归、非线性回归、分位数回归
无监督学习
非指导学习/非监督学习:未知变量关系,通过数据挖掘,探索数据之间联系 1、聚类:有分类判断结果(与聚类 最大的区别) eg:用于客户细分、文本归类、结构分组、行为跟踪等问题 聚类方法:基于划分的方法(例如k-均值算法)、基于分层的方法、基于密度的方法、基于网格的方法、基于模型的方法 2、降维:特征变量x 确定观测单位因变量y取值 eg:根据客户的能力,品格,担保,资本,环境等特征,评价客户的信用等级。 回归方法:主成分分析法,因子分析法
半监督学习
变量和数据
变量
数据
统计调查(必考)
数据科学与大数据
数据科学
提出者:彼得·诺尔 研究对象:数据本身的特性和变化规律,而揭示自然界和人类行为的现象和规律 研究领域:统计学、机器科学、计算机科学、可视化、人工智能、领域知识
大数据
特征 4V
数据量大 Volume:起始计量单位是 PB(1024TB,大约 50 多万部电影)、EB(约 100 万 TB)或 ZB 数据多样性 Variet:结构化数据(二维表结构表达)、非结构化数据(文本、图片、报表、图像)、 半结构化数据(eg:员工简历,有的简历只有教育情况,有的简历包括教育、婚姻、户籍、出入境等很多信息 价值密度低 Value:大数据价值密度的高低与数据总量的大小成反比。eg:视频,在连续不间断的监控中,有用数据可能仅有一两秒 产生处理速度快 Velocity:要符合“1 秒定律
数据可视化
科学可视化:面向科学与工程领域的数据。eg:空间坐标和几何信息的三维空间测量数据、计算机模拟数据、医学影像数据。 重点探索以几何、拓扑、形状特征来呈现数据中蕴含的规律 信息可视化:处理对象是非结构化、非几何的抽象数据,eg:金融交易、社交网络、文本数据。 与数据挖掘的关联:大数据时代,信息可视化 面临的挑战是要在海量、动态变化的信息空间中,进行数据挖掘,辅助人类理解信息、发现知识
24、描述统计 收集、整理、描述
描述统计(必考)
集中趋势
均值
均值:平均数,集中趋势中最主要的测度值,受到极端值的影响 ——适用于 定量变量
中位数
中位数:n 为奇数,中位数位置是 (n+1)/2 ;n 为偶数,中位数位置是介于 n/2 和 (n+2)/2 之间,这两个数的均值 —— 适用于 定量变量、顺序变量
众数
众数:中出现次数(频数)最多的变量值 —— 适用于 定量变量、 定性变量
离散程度
方差 σ2 S2
方差:各数值Xi与均值离差平方的平均数。 方差越小,均值的代表性越好 方差的单位是原数据单位的平方,eg:身高的方差是 100(cm2)
标准差 σ S
标准差:方差的平方根
离散系数(考计算)
离散系数:标准差与均值的比值 eg:平均身高是 170cm,标准差是10cm ,离散系数=10cm/170cm
离散系数:用于比较不同类别数据 离散程度。消除了测度单位和观测值水平不同的影响,
分布形态测度(必考)
偏态系数
偏态:描述数据分布对称程度 分布偏态,取决于离差三次方的平均数与标准差s三次方的比值
偏态系数=0,数据分布对称 偏态系数>0,分布为右偏 偏态系数<0,分布为左偏 绝对值越大数据分布的偏斜程度越大
标准分数 Z(考计算)
标准分数:数值距离均值的相对位置
标准分数:用于比较每个数值相对于均值的位置
标准分数绝对值越大,距离均值越远 为正时,名列前茅 为负时,位列末尾
当数据的偏态系数为0(对称的钟形分布)时,标准分数: 1.约有 68%的数据,标准分数在[-1,+1]范围内。【168】 2.约有 95%的数据;标准分数在[-2,+2]范围内。【295】 3.约有 99%的数据;标准分数在[-3,+3]范围内。【399】
相关形式及系数(必考)
相关系数 r
相关系数r,其取值范围一般为-1<r<1 (线性相关:高、中、低;非线性相关:无) r=1 : 完全正相关 (完全线性相关) r=-1 :完全负相关 (完全线性相关) ps:注意=符号在小于数上 相关关系≠因果关系
散点图
考点: 散点图和相关系数通常会结合在一起考核,给出散点图需要知道相关系数的大致取值范围。 给出相关系数的范围也应能大致判断散点图的形状。重点考核正线性相关和负线性相关。
25. 抽样调查
总体、样本(必考)
总体:调查对象的全体 eg:1000名在职员工 样本:抽出的部分个体 eg:抽取200名员工 抽样框:供抽样所用的所有抽样单元的名单 eg:员工名录 总体参数:全体的数值计算 eg:1000名在职员工平均工资 样本统计量(估计量): 样本的数值计算 eg:200名职工平均工资,是1000名员工的平均工资估计量
抽样调查分类(必考)
概率抽样(随机抽样)
概率/随机抽样 特征: ①随机 ②抽中的概率已知、可计算 ③每个都有抽中概率(等概率、不等概率)
1、简单随机抽样: ①特点:最基本的随机抽样,每个单位的入样概率相同 ②分为:不放回简单随机抽样、有放回简单随机抽样 ③适用:没有更多辅助信息;调查对象范围不广;个体差异不大 ④eg:某校高三年级学生共 l000 人参加考试,将 1000 份试卷编好号码后,从中随机抽取 30 份计算平均成绩,此种抽样方法就是简单随机抽样 2、分层抽样: ①特点:类与类差距大,层间分层抽,层内随机,调查对象分布广 ③eg:在调查某部门平均工资时,先将该部门员工分为经理和普通职员两类,再采用随机原则分别在经理和普通职员中抽取样本,这种抽样方法属于分层抽样 3、系统抽样: ①特点:所有单元顺序排列,在规定范围内随机抽取一个初始单元,然后抽取其他样本单元,最简单的系统抽样是等距抽样,优点是操作简便 ②eg:调查一个小区 4000 户家庭人均收入,编号 1-4000,要抽取 40 户,在 1-100 号中随机确定 15 号,抽取的样本为 15;15+100;15+200;15+300;……15+3900 4、整群抽样: ①特点:群与群差异小,调查群的全部单元,未抽中群不调查 ③eg:在调查某城市小学教师亚健康状况时,从该城市的 200 所小学中随机抽取 40 所,每个被抽取小学中的所有教师都参与调查 5、多阶段抽样: ①特点:经过两个或两个以上抽样阶段才能抽到最终样本单位,每个阶段可以采用前4中概率抽样方法 ②适用:大范围的抽样 ③eg:某城市为调查居民对市政建设的满意度,先从该市所有居委会中随机抽取 20个居委会,再从每个被抽中的居委会中随机抽取 30 个居民家庭进行入户调查,该项调查采用 的抽样方式是多阶段抽样,第一阶段采用整群抽样,第二阶段采用了简单随机抽样
非概率抽样
非概率抽样:根据自己的方便或主观判断抽样
判断抽样:人为确定样本单元 → 平均型单元样本 方便抽样:“拦截式”调查 自愿样本:网上调查 配额抽样:先分类,再非严格抽样(区别于分层周扬,层间分层抽,层内随机)
概率抽样方法
抽样调查 步骤
调查问题确定 ↓ 调查方案设计:抽样方案、问卷设计 ↓ 调查实施过程:保证原始数据质量,调查过程有效管理监控 ↓ 数据处理分析:数据统计分析,总体参数评估 ↓ 撰写调查报告:调查的最终成果
抽样调查 误差
抽样调查误差:样本估计值和总体参数真值之间的差异
抽样误差:抽样的随机性造成的 非抽样误差:误差原因 ①抽样框误差: ②无回答误差:主观或客观运营没有取得样本的数据 ③计量误差:记录错误、作弊、理解偏差等
估计量 & 样本量
估计量
【 估计量 的3个标准 】 一致性(一致稳定于真值) 无偏性(所有样本均值无偏差的等于总体均值) 有效性(方差越小,越有效)
抽样误差 估计
【 抽样误差 估计 】方差越大,误差越大 (1)总体单位值之间差异越大,抽样误差越大 (2)抽样本量n越大,抽样误差越小 相关性: (3)抽样误差 & 抽样方式、估计量的选择 (4)有效辅助信息,可有效地减小误差
样本量
样本量的影响因素
1、调查的精度:要求的调查精度越高,所需要的样本量越大 2、总体的离散程度:总体的离散程度越大,所需要的样本量越大 3、总体的规模:大规模总体,对样本量没有要求;小规模总体,所需样本量大 4、无回答情况:无回答率越高,所需样本量越大 5、经费的制约:样本量需在调查经费与调查精度之间折中平衡 6、其他因素:调查的限定时间、实施调查的人力资源等
经济基础
五、统计
26、回归分析(必考)
回归模型
回归分析:用数学模型,来近似的表达变量间(因变量、自变量)的关系
【回归分析 & 相关分析】 区别:相关-方向、程度 回归-具体形式 ①相关分析依靠回归分析,表明相关的具体形式 ②回归分析依靠相关分析,表明变化的相关程度(高中低无) ③只有高度相关时,进行回归分析才有意义
分类
1、自变量的多少:一元回归模型、多元回归模型 2、回归模型是否线性:线性回归模型、非线性回归模型
一元线性回归模型
1、因变量 Y 是自变量 X 的线性函数(β0+β1X)加上误差项ε 2、β0 是回归直线的截距,β1 是回归直线的斜率,表示 X 每变动一个单位时,E(Y)
3、回归分析的重要应用-预测,预估因变量数值
最小二乘法
最小二乘法:利用样本数据,估计模型的未知参数β0 、β1 具体估计:使得因变量的观测值与估计值之间的离差平方和 最小
拟合效果测度-决定系数
对估计的回归方程,进行检验,包括: 1、是否符合经济理论、经验分析回 2、对模型进行假设检验 3、分析估计的模型对数据的 拟合效果
1、决定系数,也称为 R2,可以测度回归直线对样本数据的拟合程度 2、决定系数的取值在【0—1】之间,决定系数越接近 1,回归直线的拟合效果越好 R2=1,说明回归直线可以解释因变量的所有变化。 R2=0,说明回归直线无法解释因变量的变化,因变量的变化与自变量无关
27、时间序列
时间序列
时间序列:时间序列也称动态数列,是将某一统计指标,在各个不同时间(时间单位相等)上的数值按时间先后顺序,编制形成的序列
时间序列 分类 (必考)
分为:绝对数时间序列,相对数时间序列,平均数时间序列
时间序列 水平分析 (必考)
水平分析 (必考)
增长量(必考)
增长量
逐期增长量
逐期增长量 = 报告期水平 – 报告期前 1 期水平
累计增长量
累计增长量 = 报告期水平 – 最初水平
累计增长量 = 逐期增长量之和
平均增长量
平均增长量 = 累计增长量 /(时间序列中最末时间−最初时间)
平均增长量 = 逐期增长量的序时平均数
平均发展水平 /序时平均数
绝对时间序列 序时平均数计算
时期序列
【序时平均数】简单算数平均数
时点序列
连续时点
时点序列·逐日登记
【序时平均数】简单算数平均数
时点序列·变动时登记
【序时平均数】加权算数平均数 权数是每一指标值的持续天数
间断时点
时点序列·间隔相等
【序时平均数】两次平均 两次均为简单算数平均数
时点序列·间隔不等
【序时平均数】两次平均 第一次简单算术平均 第二次加权算术平均,权数为间隔长度
相对数/平均数时间序列 序时平均数计算
【序时平均数】分子和分母的序时平均数,相除
时间序列 速度分析(必考)
发展速度
发展速度 分为:定基发展速度、环比发展速度 定基发展速度:报告期水平与最初水平的比值 ps:定基发展速度 =各环比发展速度的连乘积 环比发展速度:报告期水平与其前一期水平的比值 ps:环比发展速度 = 相邻时期定基发展速度的比率
平均发展速度
n 为环比发展速度的时期数 几何平方根
增长速度
增长速度 分为:定基增长速度、环比增长速度 定基增长速度:定基发展速度-1 环比增长速度:环比发展速度-1
平均增长速度
平均增长速度=平均发展速度-1
平滑预测法
移动平均法
指数平滑法