导图社区 医学统计学第10版 1-5章思维导图
绪论到统计图统计表,医学统计学是临床医学,基础医学,公共卫生学和医疗卫生服务研究中的一门基础学科,是关于收集数据,分析数据,由数据得出结论的一组概念、原则和方法。
编辑于2025-03-16 23:50:18第二章 定量数据的统计描述
频数表与频数分布分布图
定量数据:离散型或连续型
频数表
定义:当变量值个数较多时,对各变量值出现的频数(次数)列表,简称频数表。
编制步骤
求极差R或全距
确定组段和组距
组段数一般为10±;组距=R /组段数
最小组段包含最小值,最大组段包含最大值
组限:[下限,上限),一个数据只能归属于一个组
从小到大列出组段
清点各组段包含的观察单位数(频数)
整理成频数分布表
频数分布图
定义:频数分布表的图形表示
直条图
直方图
资料分布类型
对称分布
偏态分布
正偏态
负偏态
用途
1、揭示资料的分布类型 2、揭示分布的集中位置和变异程度 3、便于发现某些特大或特小的可疑值 4、便于进一步计算指标和统计分析
描述集中趋势的统计学指标
平均数
反映一组观察值的平均水平和集中趋势
算数均数
总体均数 样本均数
计算
加权法:直接将所有原始观察值相加,再除以总例数
直接法各相同观察值的个数(即频数f )与该观察值X的乘积相加,再除以观察值的总个数
应用
1、反映一组同质观察值在数值上的平均水平 2、当定量资料为对称分布时,均数是观察值最理想的代表值,作为代表值与同类数据进行比较 3、优点:充分利用数据信息 缺点:容易受异常值影响
几何均数G
数据特点:观察值间按倍数关系变化。如:抗体滴度、细菌计数、血清凝集效价、某些物质的浓度。
计算
直接法计算
频数表法
应用
1、应用于血清学和微生物学 2、适用于描述呈倍数关系的偏态分布资料,例如,抗体滴度、细菌计数、血清凝集效价 3、尤其适用于经过对数变换后呈正态分布或近似正态分布的资料 4、几何均数<算数均数
中位数M
中位数:指将原始观察值从小到大排序后,位次居中的那个数。
理论上有一半的观察值低于中位数,一半的观察值高于中位数。
计算方法:直接法和频数表法
应用
1、理论上可以用于描述任何分布资料的集中位置 2、常用于下面情况: 偏态分布资料 一端或两端无确切值的资料 分布不明确的资料 3、优点:不受极端值的而影响 4、对于对称分布资料,均数=中位数
百分位数
百分位数:指一组数据的频数分布左侧占全部观察值百分比为x%的位置。
计算
1、描述资料的观察值序列在某百分位置的水平 2、常用于明显呈偏态分布的资料 3、中位数是百分位数的一个特例 4、优点:多个百分位数结百分合说明特定问题 5、分散程度:P75-P25 6、医学参考值范围:P2.5和P97.5
注意事项
1、同质的资料计算平均数才有意义 2、根据资料的分布类型选用适当的平均数 均数:正态分布资料 几何均数:对数正态分布资料 中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。(偏态分布、分布不明资料、有不确定值的资料)
描述变异程度的统计学指标
极差R
计算: R=最大值-最小值
统计学意义:极差越大,变异程度越大
优缺点:比较粗略的变异度指标,反映数据的变动范围,一般不单独用其描述数据的变异程度。 常用于描述单峰对称分布小样本资料的离散程度,或用于初步了解资料的变异程度。
四分位数间距Q
通过P25、P50、P75这3个点将全部观察值等分为四个部分 四分位数间距:百分位数P75和百分位数P25之差,即 Q = P75 - P25
理论上总体中有四分之一的个体观察值比P25小,有四分之一的个体观察值比P75大,中间一半数据的极差
同类资料比较,Q越大意味着数据间变异越大
统计意义与应用范围
意义
表示中间一半数据的变动范围(极差) 四分位数间距越大,离散程度越大
范围
常用于描述偏态分布资料的离散趋势 1、一端或两端无确切值的资料 2、分布不明确资料
方差
离均差平方和除以自由度
方差越大,数据的变异度越大
计算
标准差
标准差:方差的算术平方根,为还原单位(方差的单位是观察值单位的平方)
标准差小,表示观察值之间变异小,即一组观察值的分布较集中,均数对其的代表性较好,反之亦然
变异系数CV
计算
相对离散趋势指标;没有单位(分子分母单位相同)
变异系数越大,变异程度越大,反之亦然
应用
量纲(单位)不同的变量间比较 均数差别较大的变量间变异程度的比较
医学统计学
第五章 统计表与统计图
统计表
以表格形式表达数据特征、统计分析的结果或事物间的关联
统计描述和结果解释的基本手段
调查表、登记表、统计表
统计表的结构
标题
标题位于统计表的上方正中 简明扼要地表达统计表的主要内容 必要时注明资料收集的时间地点 表格较多时,最好在标题上注明编号,编号与标题间空一个文字的距离。
标目
横标目
纵标目
总标目
线条
顶线、底线、总标目或纵标目分隔线、合计栏分隔线 横线不宜太多 “三线表” 不允许使用竖线与斜线
数字
数字必须准确无误 用阿拉伯数字表示 同一指标的小数位数保留一致,上下对齐 表内不留空格
备注
不是所有统计表都必须具备的要素
统计表的种类
简单表
复合表(组合表)
统计图
以图形(点的位置、线段的升降、直条的长短、面积的大小)表达统计数据和结果
常用统计图:直条图、百分条图、圆图、线图、直方图、箱式图、散点图、统计地图
统计图常由标题、图域、标目、图例和刻度5个部分组成
常用统计图
条图
横轴为分类轴(比较的对象或特征),纵轴为比较的指标 纵坐标必须从0开始,坐标尺度不能断开
适宜用于不同事物间某个指标进行比较
百分条图
百分条图适宜于表示事物内部各部分所占比重或比例(构成比资料)
圆 图
圆图适宜于构成比资料
直方图
即频数分布图,用矩形高度表示某个连续型变量的频数(频率)分布
通常根据频数分布表以横轴表示连续型变量的组段,以纵轴表示频数或频率
连续型变量或资料的频数或频率分布 纵轴表示频数或频率,必须从0开始
箱式图
用资料的五个数值(最小值、P25、中位数、P75、最大值)绘制
适用于描述定量数据的分布特征(集中位置和变异程度),可用于多组资料的比较
常用于描述偏态分布数据
作用
观察分布类型、分布特征 比较多组数据的分布 发现极端值
误差条图
线图
线图适宜于随时间连续变化的资料或连续型趋势的资料
横轴表示动态事物(时间、年龄、年份等),纵轴为数值,注意其尺度及单位
纵轴尺度可以不从0开始
单式线图和复式线图
普通线图: 纵轴的尺度为算术尺度 用线条的升降表示事物发展变化的趋势
半对数线图: 纵轴的尺度为对数尺度 用线条的升降表示事物发展变化的速度
散点图
适宜于描述两个变量间的相互关系
适宜于描述两个变量间的相互关系
横轴和纵轴都为数值尺度,可以不从0开始
统计地图
第四章:定性数据的统计描述
定性资料的频数表
定性资料:计数资料、等级资料 定性资料的原始数据的形式 定性资料的频数表 按类别或属性,分别清点各类别或属性的观察单位数(频数) 定性变量及相应的频数所组成的频数表,称定性资料的频数表 (又称为列联表)
常用相对数
定性资料的统计描述指标——相对数
相对数:是两个有联系的指标之比
绝对数的概念与意义
调查研究和实验研究得到的计数资料或等级资料经过整理,清点数目得到的数值称为绝对数。 如某病的发病人次数、医院收容人数、治愈人数等 绝对数反映一定条件下某种事物的规模或水平,是计划或总结工作的依据 绝对数是计算相对数与平均数的基础。 绝对数往往不便于比较。
常用的相对数指标
率
率是表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比 说明某现象出现的强度或频率
常以百分率(%)、千分率(‰)、万分率(1/万)、或十万分率(1/10万)等表示
通常是具有时间概念的指标,用于说明某一段时间内某现象发生的频率或强度
等于某事物或现象发生的实际数比某事物除以现象发生的所有可能数x比例基数
常用率的计算
死亡率
又称粗死亡率,表示某地某年每千人口中的死亡人数,反映当地居民总的死亡水平
年龄别死亡率
死因别死亡率
死因别死亡率
表示在一定期间内,一定人群中某病新发生的病例出现的频率,是反映疾病对人群健康影响和描述疾病分布状态的一项测量指标。
患病率
是指在一定时间患某病的人数在该调查人群中所占的比例。也称现患率,表示某一时点某人群人口中患某病的频率,通常用来表示病程较长的慢性病的发生或流行情况
病死率
病死率
表示某期间内,某病患者中因某病死亡的频率,表明该疾病的严重程度和医疗水平等,多用于急性传染病。
构成比
各组成部分的构成比之和等于1或100% 事物内部各组成部分之间,当其中某一组成部分构成比数值增大,其他组成部分构成比数值必然会减少,呈此消彼长。 说明事物内部各组成部分所占的比重,常用百分数表示。
常用的相对数指标
死因构成
也称相对死亡比,指全部死亡人数中,死于某死因者占总死亡数的百分比,反映各种死因的相对重要性。
相对比
相对比是两个有联系的指标之比,说明两者的对比水平。用倍数或百分数表示。
简称比,是两个有关联的指标之比值 用以说明一个指标是另一个指标的几倍或几分之几。 分子、分母可以性质相同,也可以性质不同,可以是绝对数、相对数或平均数
常用
变异系数 CV 性别比 每千人口的医生数 RR(相对危险度) OR(比值比)
使用相对数的注意事项
不要把构成比与率相混淆
使用相对数时分母不宜过小
正确计算合计率
注意资料的可比性
抽样误差
率的标准化
选用同一标准人口或人口构成作为参照,消除因人口、性别等因素构成不同对总率的影响,以增强可比性
目的:控制混杂因素的影响
直接标准化法(已知实际的各小组率时)
标准的选择: 选定两组之一,作为“标准” 两组合并,作为“标准” 选择全国、全省或全地区的对象,作为“标准”
应用标准化率的注意事项
若已知年龄别死亡率,可用直接法。 率的标准化,是为了消除各组内部构成不同的影响而对率作比较的一种统计方法,选择的标准不同,算出的标准化率也不同,比较的结论是一致的。 标准化后的标准化率,已经不再反映当时当地的实际水平,它只表示两组相互比较的资料间的相对水平。
第三章 正态分布与医学参考值范围
正态分布的概念和特征
正态分布的概念
正态分布曲线呈对称分布,在均数处最高,两侧不断降低,逐渐与横轴接近,但不会和横轴相交的钟形曲线
若指标或变量 X 的频率(或概率密度)曲线逼近数学上的正态分布曲线,则称该指标服从正态分布
正态分布的特征
正态分布曲线在横轴上方均数处最高
正态分布曲线以均数为中心,左右对称
正态分布的两个参数
均数μ ——位置参数 标准差 σ ——形状(变异度)参数
一对(μ 和σ )可确定一条正态分布曲线 变量X 服从正态分布常表示为:X~N( μ , σ2 )
正态分布曲线下横轴上面积有一定规律
(μ-1.96σ, μ+1.96σ) 占曲线下总面积的95% 即在该区间内包含95%的观察值; 此区间观察值出现的概率为95% (μ-2.58σ, μ+2.58σ) 占曲线下总面积的99% 即在该区间内包含99%的观察值; 此区间观察值出现的概率为99%
标准正态分布
标准正态分布与标准化变换
X~N( μ,σ2 ) 标准变化Z=X-μ/σ2 Z~N( 0,1 )
标准正态分布的特征
(-1.96,+1.96) 占曲线下总面积的95%
(-2.58, +2.58) 占曲线下总面积的99%
正态分布的应用
估计总体变量值的频数分布 制定医学参考值范围 质量控制 正态分布是许多统计方法的理论基础
正态分布的应用(医学参考值范围)
制定医学参考值范围
医学参考值范围:绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标观察值的波动范围 正常人:指排除了所研究指标的疾病和有关影响因素的同质人群 绝大多数一般指的为80%、90%、95%或99% 临床上用作判定正常和异常的参考标准
制定参考值范围的注意事项
确定同质的参照总体 选择足够例数的参照样本 控制检测误差 选择单双侧界值 选择适当的百分数范围 选择计算参考值范围的方法
制定医学参考值范围的方法
正态分布法
适用: 指标服从正态分布或近似正态分布
双侧95%参考值范围
单侧95%参考值范围
百分位数法
适用: 服从偏态分布或分布不明
双侧95%参考值范围: P2.5~P97.5
单侧95%参考值范围: <P95 (上限) 或>P5 (下限)
第一章绪论
概述
医学统计学是临床医学,基础医学,公共卫生学和医疗卫生服务研究中的一门基础学科,是关于收集数据,分析数据,由数据得出结论的一组概念、原则和方法。
作用
医学文献阅读、统计软件应用、医疗服务、新药研发等
研究对象:医学中具有不确定性结果的事物(随机事件)
基本内容
统计设计
数据收集整理与核查
统计分析
统计描述
统计表、统计图、统计指标
统计推断
参数估计
假设检验
同质与变异
同质:指观察单位和观察个体之间有相同或相近的性质
变异:同种测量总体在不同观察单位或个体上的差别
观察单位:研究对象的基本单位
总体与样本
总体
研究对象的全体,由所有同质观察单位某种观察值(变量值)的全体
根据研究目的的确定
有限总体
无限总体
同一总体内个体具有同质性
存在个体差异
样本:从总体中随机抽取一部分有代表性的个体组成的集合
样本含量:样本中包含的观察单位个数
代表性:随机抽取、保证足够的观察个体数量
抽样误差与抽样研究
观察值与真实值之间的差别
系统误差
固定因素产生,可纠正
人为误差
可避免
随机误差
估计
分类
随机测量误差
抽样误差
个体变异导致,抽样研究中样本信息与总体特征之间的差异
不可避免
属于随机误差,无方向性,重复抽样可以呈现一定的规律性
样本含量越大,抽样误差越小,样本统计量与总体参数越相近
抽样研究
从总体中抽取一部分有代表性的样本,通过对样本的分析获取总体信息
参数与统计量
参数:描述总体特征的统计学指标
希腊字母表示
如:总体均数
统计量:描述样本特征的统计学指标
英文字母或拉丁字母表示
如:样本均数
抽样研究的目的
由统计量估计或推断总体参数
变量与数据类型
变量:观察对象的特征和指标
变量值:变量的观测值即数据
数据:变量的观测值
类型
定量变量
连续性定量数据
年龄、体重
离散型定量数据
家庭人口数
数据的转化:定量数据——有序数据(半定量)——定性数据
概率和频率
概率
描述随机事件出现可能性大小的度量,大于等于零,小于等于一
P≤0.05为小概率事件
定性变量(分类变量)
无序变量
二项分类:性别
多项分类:血型、疾病分类
有序变量
学历分级
频率
样本足够大时可用频率估计概率
频率围绕概率上下波动,样本含量越大,波动幅度越小