导图社区 第1章 核心统计概念
这是一篇关于第1章 核心统计概念的思维导图,主要内容包括:总体与样本(population and sample),参数与统计量(parameter and statistics),概率与频率(probability and frequency),误差(error),同质与变异(homogeneity and variation)。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
第1章 核心统计概念
一、 总体与样本(population and sample)
总体
定义
根据项目目的所确定的观察单位某项特征的集合
举例
我想研究新疆医科大学所有同学的平均体重
总体就是新疆医科大学所有学生体重数据的集合
分类
有限总体
上面的例子就是有限总体
无限总体
茫茫宇宙中星体的平均质量
运用“抽样”思想可以研究无限总体
样本
从总体中抽出的观察部分,观察单位某项特征的集合
特点
抽样过程中必须遵守随机化原则
一叶知秋、豹窥一斑
二、 参数与统计量(parameter and statistics)
参数
描述总体特征的指标
包括
总体均数(μ)
总体标准差(σ)
总体率(π)
总体相关系数(ρ)
统计量
描述样本特征的指标
样本均数(x̄)
样本标准差(s)
样本率(P)
样本相关系数(r)
统计学存在的核心价值
样本统计量→总体参数
三、 概率与频率(probability and frequency)
概率
概率(P)是用来反应某一事物发生可能性大小的一种量度
根据事物发生概率的大小分类
必然事件
P=1
发生概率为100%
不可能事件
P=0
发生概率为0
偶然事件
0<P<1
小概率事件
P值
P≤0.05
P≤0.01
实际应用意义
在一次试验、抽样或研究过程中不可能发生
意义
是统计推断的基础,非常重要
可能发生,也可能不发生
频率
我们进行了N次试验,其中一个事件出现的次数m与总的实验次数N的比值
作用
我们可以通过频率去估计概率
进一步理解两者的关系
频率是针对过去的→针对已经发生的样本的→就像是样本统计量
概率是针对未来的→针对尚不知晓的总体的→就像是总体参数
因此我们可以用频率去估计概率
四、 误差(error)
观察值与真值之差
通过一次实验得到的结果与真实结果的差值
根据产生原因分成四种
系统误差(systematic error)
试剂未校正或仪器没有调零等因素→研究结果倾向性增大或减小
体重计本身就有5kg底重,再怎么测都偏大
可以避免
随机误差(random error)
各种偶然的因素→造成观察值与真值之差
不可以避免,但可以减少
怎么减少?
多测几遍吧!
抽样误差(sampling error)
因为抽样→造成样本统计量与总体参数之间的差异
为什么存在抽样误差
科学研究的目标事件是不均匀分布的
不像舀一勺老母鸡汤尝尝咸淡,像是放进去盐而没有搅匀的状态
怎么减少
增大样本量
过失误差(gross error)
观察过程中的不仔细→造成的错误判断或记录
怎么避免
仔细一点啊!
总结
通过统计设计减少系统误差
通过统计学检验排除抽样误差
通过培训降低测量误差
通过质量控制消除过失误差
五、 同质与变异(homogeneity and variation)
同质
观察单位所受的影响因素相同
同质是相对的,不可能绝对相同
变异
观察单位在同质基础上的个体差异
天底下没有两片完全相同的树叶
这对概念对研究统计的意义
如果没有同质
就没有我们研究的总体或样本,我们不能把他们放在一起研究
如果没有变异
那就没有研究的必要了
一种药对不同人的差异性绝对存在
六、 随机化原则(random principle)
我们在选择受试对象、受试对象分组以及对受试对象施加不同的干预措施时,受试对象被抽到的概率、受试对象被随机分到各组的概率以及受试对象接受不同干预措施的概率是相等的
三种随机化的模式
随机化抽样
从研究总体中抽取样本,总体中任何一个个体被抽到的概率相等
随机化分组
获取研究样本后,每个受试对象均有相同的机会被分到各个研究组中去
随机化顺序
我们进行交叉试验时,随机分组后的研究组接受不同干预措施的顺序是随机的
七、 因素与水平(factor and level)
因素
可能对应变量有影响的变量
性别可能对性格有影响→性别就是因素
性格对某种疾病有影响→性格就是因素
如何判断因素
某个变量是不是因素,是由研究目的决定的
水平
因素的不同取值等级
性别有两个水平
男
女
血型有四个水平
A
B
AB
O
水平往往是统计学分组的依据
八、 变量
概念
观察单位的某项特征,通俗来讲就是我们研究的指标
人的身高、体重、性别、年龄···
根据变量特征的属性分类
计量变量
通过定量的方法检测出来的指标
表现形式
通常以阿拉伯数字呈现,具有单位,可以定量比较,支持加减法运算
身高(cm)、体重(kg)、血压(mmHg)···
别称
数值变量、连续性变量、定量变量
计数变量
反应互不相容的属性和类别
常通过计数的方式获得,变量之间支持不等号(≠)
血型(A、B、AB、O)、性别(男、女)、生肖、民族
分类变量、无序分类变量
等级变量
计数变量的性质+半定量比较的性质
病情(轻、中、重)、职称(初级、中级、高级)、学历(文盲、小学、初中、高中、本科)
这类变量各水平之间互不相容,但又有级别上的轻重关系
支持大于号和小于号(>/<)
变量之间的转换
反应受试对象信息能力的大小
计量变量>等级变量>计数变量
老大老二和老三
转化规律
只能从能力高的转向能力低的
生活例子
院长可以去当主任,可以当小医生,但是小医生不是想去当院长就能去当的
医学例子
收缩压180mmHg(计量变量)→高血压、正常、低血压(等级变量)→正常、异常(计数变量)