导图社区 统计
统计的思维导图,包括数据的搜集、数据的展示、统计量及抽样、数据的度量等内容,内容充实,逻辑清晰,希望对大家有用。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
统计
数据
数据的搜集
数据的类型
分类数据--归位某一类别的非数值型数据;顺序数据--只能归于某一有序类别的非数字型数据;数值型数据--有数字尺度的数据
观测数据--通过调查或观测得到的数据;实验数据--在实验中控制实验对象而得到的数据
截面数据--在相同或相近时间点获得的数据;时间数据--不同时间搜集到的数据
数据的来源
直接来源--通过调查或实验得到的一手数据
间接来源--取自自然场景的二手数据
调查方法
概率抽样
也称随机抽样,有以下几个特点--按一定概率随机抽取样本;每个样本被抽中的概率是已知的;用于对总体进行估计时要考虑概率--注意等概率抽样和非等概率抽样是不同的。
随机抽样方法--随机抽样;分层抽样;整群抽样;系统抽样;多阶段抽样等
非概率抽样
相对于概率抽样,指不遵守随机原则,而是根据研究目的
方便抽样--无法代表总体,但可以建立初步认识;判断抽样-根据经验登有目的的选择样本;自愿抽样--自愿参加;滚雪球抽样--对稀少群体;配额抽样--类似分层抽样
搜集数据的基本方法--自填式;面访式‘问卷试;电话式;’
实验方法
实验组与对照组
数据的误差
抽样误差
由抽样的随机性引起的样本结果与总体之间的差异--与样本量关系最密切
非抽样误差
抽样框误差--抽样框指有关总体全单位的记录;回答误差--受调查者因各种原因给出的回答与真实情况不合;无回答误差---被调查者拒绝回答的情况;调查员误差--指由于调查员的原因产生的误差
数据的展示
统计量及抽样
卡方分布
t分布
F分布
数据的度量
集中趋势的度量
众数--一组数据中出现最多的变量值,M表示,不受极值影响
中位数和四分位数--一组数据排序后处于中间位置的数,用Me表示,四分位数同理
平均数--也称为均值,一组数据相加后除以个数,主要适用于数值型数据,是集中趋势最重要的度量值
离散趋势的度量
分类数据--异众比率,指非众数组的频数占总体的比例,主要用于衡量众数对一组数据的代表程度,异众比率越大说明众数代表率越低。
数值型数据--方差和标准差,测量数值型数据离散趋势常用极差,平均差,方差和标准差,其中最常用方差和标准差
极差--最大数减去最小数;平均差--各变量减去平均数离差绝对值的平均数,Md表示--反映了一组数据的离散情况
方差和标准差-方差是各变量与其平均数离差平方的平均数,标准差是方差开根;自由度--样本数据个数减1,即自由度=n-1
相对位置的度量
标准分数--变量值与其平均数的离差除以标准差的值,代表数据的相对位置
经验法则--对称分布数据中,±1个标准差内有68%的数据,±2个标准差内有95%,±3个标准差内有99%
切比雪夫不等式--非对称数据中,±2个标准差内75%,±3个标准差内有89%,±4个标准差内有94%
离散系数--CV,也叫变异系数,是一组数据标准差与其相应平均数之比,越大代表离散程度越大
偏态与峰态的度量
偏态--数据分布对称度的测度,SK表示,一组数据分布如果是对称的,偏态系数等于0,大于1或小于-1则是高度偏态,1是右偏,-1是左偏
峰态--数据分布的平峰或尖峰程度,相对于正态分布,正态分布峰态=0,本质是离差四次方的平均数除以标准差的四次方得到相对数,K>0为尖峰分布
概率
概率及概率分布
随机事件--在同一组条件下每次试验可能出现也可能不出现;必然事件--一定会出现的事件;不可能事件--一定不出现的事件;基本事件--如果一个事件不能分解成两个或更多个事件,则称之为基本事件。
离散型随机变量及其分布
如果随机变量X的值可以逐个列出来,则X为离散型随机变量l,如果
随机变量的度量
期望值--各可能值x和概率p的乘积之和为该随机变量的期望值;随机变量的方差--每一个随机变量取值与期望值离差平方的期望值,代表离散趋势,标准差同理;变异系数CV--标准差与期望值E(x)的比值
随机变量的分布
二项分布
有放回取球问题-贝努里实验,试验只有0,1两个结果,两个结果相互独立,概率相同;无放回取球问题--古典概型,超几何分布
泊松分布
在一指定时间或空间内一事件出现次数的分布
连续型随机变量的概率分布
可用函数描述的连续曲线,曲线下方面积即是概率p--正态分布函数中f(u)=方差
数据分析
假设检验
假设检验的基本问题
原假设和备择假设--原假设通常是最可能的,清晰那个假设;两类错误--α错误,指假阴性,贝塔错误指假阳性--因为一般α错误危害更大,所以一般首先控制α错误
假设检验的流程--提出假设意味着我们要讨论我们所感兴趣的某个值与标准值是否相等,通过接受或拒绝这个假设来得出结论,因此首先需要考虑数据是否正态分布,总体标准差是否已知,以及样本量来选择计算方式,如果统计量落入该分布的拒绝域,则拒绝原假设
一个总体参数的检验
总体均值的检验
总体比例的检验
总体方差的检验
两个总体参数的检验
两个总体均值之差的检验
方差相等--t检验
方差不等-t‘检验
两个总体比例之差的检验
两个总体方差比的检验
检验结果的解释
参数估计
参数估计的基本原理
参数估计的本质是用样本统计量去估计总体的参数,有点估计和区间估计--由样本统计量所构造的总体参数的估计区间称为置信区间,我们相信这个区间在某种程度上会包含真正的总体参数--区间估计的置信度=1-α
无偏性--指估计量抽样分布的数学期望等于被估计的参数;有效性-指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效,方差越小越有效;一致性--指随着样本量的增大,估计量的值越来越接近被估计的总体(一般是>30)
一个总体参数的区间估计
总体均值的区间估计
是否正态分布,总体方差是否已知,样本是否大样本
总体比例的区间估计
总体方差的区间估计
两个总体参数的区间估计
匹配样本
两个总体均值之差的区间估计
两个总体比例之差的区间估计
两个总体方差比的区间估计
样本量的确定
估计总体均值样本量
估计总体比例样本量
分类数据分析
分类数据与卡方统计
卡方常用于测定两个分类变量之间的相关程度
拟合优度检验
12
列联分析:独立性检验
列联分析的相关量
方差检验-又称变异数检验
方差分析
单因素方差分析
双因素方差分析
线性回归
变量间关系的度量
一元线性回归
多元线性回归
时间序列预测
指数问题
主题
子主题
数据收集--描述性数据--确认数据分布类型--获得统计量,完成假设检验-根据分布进行区间估计--
推理统计
描述统计