导图社区 医学统计学 第一章 各类概念
医学统计学绪论——希望这张思维导图可以帮到同为医学统计学发愁的小伙伴们,谢谢大家!
编辑于2020-04-29 20:03:35第一章 绪论
学习目标
掌握统计学基本知识、基本技能、基本概念、基本方法。建立逻辑思维方法和提高分析问题的能力
掌握统计工作的基本步骤
掌握统计研究资料的类型及相互转化
统计学的基本概念
总体
定义
根据研究目的所确定的性质相同的所有观察单位的某种变量值的集合
例子
调查某地1999年正常成年男子的红细胞数,则观察对象是该地1999年正常成年男子,总体就是该地1999年正常成年男子的血红细胞数。
分类
有限总体
有确定的时间、空间和有限个观察单位
无限总体
没有确定的时间、空间限制,观察单位数为无限
个体
可以是一个人、一个动物、一个家庭、一个地区、一份样品等,是科学研究的基本观察单位
样本
从总体中随机抽取的部分观察单位的某个变量的测量值所组成的集合
随机抽样
目的是用样本信息来推断总体特征,因此要保证样本的可靠性和代表性,使样本能够充分地反映总体的真实情况。这就要求抽样要遵守随机化的原则,并保证足够的样本含量。
随机抽样是保证总体中每一个观察单位均有同等机会被抽取。
样本含量
指样本中所包含的观察单位数
同质
定义
总体中的个体具有相同的性质称为同质性(homogeneity),它是进行统计分析的前提。统计分析是在一定数量的观察单位的基础上进行的,这一定数量的观察单位在研究的主要方面必须具有相同的性质。
例子
研究某地高血压病人的生活质量,研究对象必须是同质的,即都是同一地区的高血压病人
变异
定义
因个体差异引起的现象称为变异
特点
变异是绝对的、客观存在的,变异是生物界的基本特点,也是生物界随机现象的根本原因,统计学就是通过对变异的研究来探讨生物随机现象内在规律的一门科学。
例子
同一地区、同一年龄的男童的身高并非完全相同,而是千差万别、参差不齐的
变量
指我们观察或测量到的每个观察单位的特征或指标,对观察单位的各个变量的观察结果称为变量值或观察值,因为测量不同的观察单位会得到不同的观察结果
随机变量
正是因为变量的这种不确定性,概率论中将其称为随机变量
误差
定义
将观察值(实际值)与真实值(理论值)之差称之为误差
分类
过失误差
定义
由于观察者的错误造成的误差
例子
观察者有意或无意的记录错误,计算错误,数据核查、录入错误,度量衡单位错误,甚至故意修改数据导致的错误
改善
加强调查、录入和分析人员的责任心,完善检查核对制度等方法来避免和消除过失误差,以保证数据和结果的真实性
系统误差
定义
由于设计人员、受试者、观察者、研究者、仪器设备、研究方法及外部环境的非实验因素等原因的影响造成的有一定的变化规律的误差
改善
可以通过严格、科学的实验设计将其减小或控制在最小范围之内
随机误差
定义
排除过失误差、系统误差之后尚存在的误差,它由多种无法控制的因素引起的,大小和方向是随机变化的
分类
抽样误差
定义
在随机抽样研究中,由于抽样而引起的样本统计量和总体参数之间的差异
大小
主要取决于个体之间变异程度的大小和样本含量的多少,变异程度越大,样本含量越小,抽样误差就越大;反之亦然
随机测量误差
定义
指在同一条件下对同一观察单位的同一指标进行重复测量所产生的误差
改善
不可避免的,但其以零为中心呈正态分布,所以可以利用概率统计学的方法对随机误差进行估计
频率
定义
在n次随机试验中,随机事件A发生 了k次,记fn(A)=k/n,则称fn(A)为随机事件A在n次试验中出现的频率
概率
定义
当实验次数n逐渐增多时,fn(A)在一个常数附近摆动。摆动的幅度随着n的增大将愈来愈小,而逐渐稳定下来。这个常数是客观存在的,称为事件A的概率,记作P(A),概率表示随机事件发生可能性的大小
估计值
常用n→∞时的频率作为概率的估计值
特点
随机事件概率的大小在0 与1 之间
P 值越接近1,表示某事件发生的可能性越大
P 值越接近0,表示某事件发生的可能性越小
P=1,表示事件必然发生
P=0,表示事件不可能发生
小概率事件
习惯上将 P≤0.05,称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,可以视为很可能不发生
统计量
定义
通过对样本中的观察单位的变量值进行统计分析所得到的统计指标
例子
样本均数、样本回归系数、样本标准差、样本率等
参数
定义
反映总体特征的统计指标
例子
样本的统计量也称为参数的估计值
用样本均数、样本回归系数和样本率来估计总体均数、总体回归系数和总体率
统计工作的基本步骤
统计设计
研究设计(design)资料的收集、整理和分析的全过程进行总的设想和安排
收集资料
定义
采取措施取得准确可靠的原始数据
要求
准确、及时
来源
统计报表
经常性工作记录
专题调查或实验
整理资料
整理资料
分析资料
定义
计算指标,反映特征,揭示规律
分类
统计描述
利用统计指标、统计图表等,对资料的数量特征及其分布规律进行测定和描述
统计推断
包括如何抽样,以及如何由样本信息推断总体特征
研究资料的类型
计量资料
定义
由一组同质的定量变量所组成的资料
特点
定量变量
用仪器、工具或其它定量方法进行测定或衡量所取得的数据
数值变量
其变量值是定量的,表现为大小不等的数值,可以由区间尺度、比数尺度测得
定量变量一般带有度量衡单位
计量资料的各个观察值之间有量的区别,没有性质的不同
计数资料
定义
由同质的定性变量组成的资料
特点
定性变量
表现为无不相容的类别或属性,一般由名义尺度测得
分类变量
只能代表事物的某些属性或分类,不能反映程度上的差别
定性变量的属性指标的分类是无序的
分类
二分类变量
定义
如果变量只有相互独立的两种属性
例子
性别有男或女;检查乙肝表面抗原的携带情况,有阳性或阴性;给小白鼠注射药物,其结局有生存或死亡
多分类变量
定义
如果变量的观察结果表现为相互独立的多种属性
例子
血型分为相互独立的四类:A型、B型、O型和AB型,肺癌可分为腺癌、鳞癌、腺鳞癌、未分化癌、类癌和支气管腺癌等,各类之间只有性质的不同,没有大小和程度上的差别
等级资料
定义
由同质的顺序变量组成的资料
特点
顺序变量
可以体现程度上的不同,但是不能精确地测量相邻的两个变量值之间的差别
有序分类变量
所分的各组之间有等级的顺序,各个类别之间存在着大小和程度上的差别
连续性资料
定义
理论上在任何两个连续型数据之间都还有无穷多个数据,只要测量仪器足够精确,连续型数据可以精确到小数点后第无限位
例子
体重,在60.1和60.2kg之间理论上存在着无限多个数据
离散型资料
定义
往往是一种计数
例子
心率、脉搏、儿童龋齿个数、血小板数、某年某地交通事故死亡人数等,这种计数只能是0和正整数,不会是负数,也没有小数点
资料的转化
计量变量(g/L)-计数资料(正常和异常)-等级资料(重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高)