导图社区 测量信度
心理与教育测量第四章,信度是指测量结果的稳定性程度。用同一测量工具反复测量某人的同一种心理特质,则其多次测量结果间的一致性程度就叫作信度(可靠性)。
编辑于2023-08-28 21:37:51 河南测量信度
信度概述
什么是信度
信度是指测量结果的稳定性程度。用同一测量工具反复测量某人的同一种心理特质,则其多次测量结果间的一致性程度就叫作信度(可靠性)
等价的信度定义
信度(信度系数)是一个被测团体真分数的变异数与实得分数的变异数之比。
信度是一个被试团体的真分数与实得分数的相关系数的平方
理论意义
信度是一个测验x(A卷)与它的任意一个"平行测验"x'(B卷)的相关系数
实际意义
描述测量一致性程度的指标还有信度指数(信度系数的平方根)
信度的作用
信度是测量过程中所存在的随机误差大小的反映。
测量中的系统误差与信度无关,系统误差只对测量结果产生恒定的影响,而不会使测量结果上下波动
信度可以用来解释个人测验分数的意义
测量的标准误
置信区间
信度有助于不同测验分数的比较
来自不同测验的原始分数必须转化成标准分数再进行比较。采用"差异的标准误"来进行差异的显著性检验
指出
一个测验可以有多个信度估计值,因而其误差估计值也会有多个,在实际工作中要注意选择
本理论假定同一个团体中所有人的测量误差都是相同的,但实际上水平高的人与水平低的人在做测量时会有不同的随机误差
测量的结果不能僵硬地看成一个点,而应看成以该点为中心,以测量的标准误的某个倍数为半径上下波动的一个范围(区间估计)
信度的估计方法
重测信度
含义及计算
重测信度是指用同一个量表对同一组被试施测两次所得结果的 一致性程度,其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数
x和x是第一次测量的实得分数及实得分数的平均值,y及y是第二次测量的实得分数及实得分数的平均值,rₓₓ是重测信度。
使用的前提条件
所测量的心理特质必须是稳定的
遗忘和练习的效果基本上相互抵消
在两次施测的间隔期内,被试在所要测查的心理特质方面没有获得更多的学习和训练
复本信度
含义
复本信度是指两个平行测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。
如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系数。等值性系数的大小主要反映两个复本测验的题目差别所带来的变异情况。
如果两个复本测验是相距一段时间分两次施测的,则称这种复本信度为稳定性与等值性系数
使用的前提条件
要构造出两份或两份以上真正平行的测验(即A、B卷)。
被试要有条件接受两个测验
尽量缩短间隔时间,排除记忆和练习的干扰
局限性
严格的平行测验是很难构造出来的
会受到练习和记忆等因素的影响
公式
误差来源
两个平行测验是否等值
被试的情绪波动、动机变化
测验情境的变化,偶发因素的干扰
分半信度
含义及计算
分半信度是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度(内部一致性系数)
被试在两半测验上得分的相关系数只是半个测验的信度,用斯皮尔曼一布朗公式加以校正
斯皮尔曼一布朗公式
弗朗那根公式
卢仑公式
使用的前提条件及范围
只能施测一次或没有复本的情况下使用
当一个测验无法分成对等的半时,不宜使用
由于将一个测验分成两半的方法很多(如按题号的奇偶性分半、按题目的难度分半、按题目的内容分半等),因此,同一个测验通常会有多个分半信度值。
有牵连的题目(如几个题目都是基于同个材料)要放在同一半,否则会高估信度
存在任意题或速度测验不宜用分半法
同质性信度
含义
同质性信度(内部一致性系数)是指测验内部所有题目间的一致性程度。
一致性
所有题目测的都是同一种心理特质
所有题目得分之间都具有较高的正相关
计算及适用范围
库—理(K-R₂₀)信度系数
克隆巴赫α系数
荷伊特信度
设有n名被试参加一个有K个项目的测试,测验分数的总变异可分解为被试间变异,项目间变异和人与试题交互作用变异三部分。用被试间变异的均方作为被试方差估计值,用人与题目交互作用的均方作为误差方差估计值
评分者信度
含义及计算
分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度
当评分者人数多于两个时,用肯德尔和谐系数 K是评分者人数,N是被评的对象数(通常是考生数,每个考生一份试卷),Ri是第 i个被评对象(考卷)被评的水平等级之和
若评分中有相同等级出现,则要使用以下公式求 W 值,n为相同等级的个数
分层α系数
包含着多种计分方式或涉及多种测评维度的试卷的测评信度,用分层α系数
成套测验合成分数的信度
假设某考生在成套测验上的合成总分等于其中k个分测验分数的加权之和
合成分数的信度估计
若所有分测验的标准差相等(如使用度量体系相同的量表分数),简化为
提高测量信度的方法
影响测量信度的主要因素
被试方面
单个被试而言,被试的身心健康状况、应试动机、注意力、耐心、求胜心、作答态 度等都会造成测量误差,因为这些因素往往会影响被试心理特质水平的稳定性
被试团体而言,整个团体内部水平的离散程度以及团体的平均水平都会影响测量信度。
主试方面
就施测者而言,若其不按指导手册中的规定施测,或故意制造紧张气氛,或给考生一定的暗示、协助等,则测量信度会大大降低。
就阅卷评分者而言,若评分标准掌握不一,或前紧后松,甚至是随心所欲,则会降低测量信度。
施测情境方面
实施测验时,考场是否安静、光线和通风情况是否良好、所需设备是否齐备、桌面 是否合乎要求、空间宽窄是否恰当,考试平台的质量、稳定性,以及考生使用机器的熟练程度
测量工具方面
试题的取样
斯皮尔曼一布朗预测公式
试题之间的同质性程度
如果一个测验内部的试题之间彼此异质(即测查不同的心理特质),则无法使测量的内部一致性系数提高。
试题的难度
如果测验的题目太难,则会引起被试的随机猜答,并使大部分人的得分偏低,整个分数的分布变窄,从而影响测量的信度。如果题目太容易,则大部分被试都将获得高分,同样会使测验分数的分布变窄,影响测量的信度。
两次施测的间隔时间
计算重测信度和稳定性与等值性系数(复本信度之一)时,两次测验相隔的时间越短,其信度值就越大;间隔时间越长,其他因素带来影响的机会就越多,因而其信度值就可能越小。
提高测量信度的常用方法
适当增加测验的长度
新增项目必须与试卷中原有的项目同质
新增项目的数量必须适度
使测验中所有试题的难度接近正态分布,并控制在中等水平
努力提高测验试题的区分度 区分度是测验题目的质量指标
选取恰当的被试团体,提高测量在各同质性较强的亚团体上的信度。
主试者要严格执行施测规程,评分者要严格按标准给分,施测场地要按测验手册的要求进行布置,减少无关因素的干扰。
对于时间取样的信度估计方法(重测信度和稳定性与等值性系数),两次施测时间间隔要适当
说明
各种信度计算方法仅适用于常模参照测验
目标参照测验的信度问题必须以测量的概化理论为基础才能进行较好的处理
估计速度测验的信度时,建议使用重测信度或决策一致性系数等方法,不使用分半信度或分层α系数
关于测量的信度要达到多高才被认为可靠,是一个比较复杂的问题。一般来说,标准化能力或学绩测验的信度应在0.90以上,人格测验的信度应在0.80以上,教师自编学绩测验的信度应在0. 60 以上。
测量信度
信度概述
什么是信度
信度是指测量结果的稳定性程度。用同一测量工具反复测量某人的同一种心理特质,则其多次测量结果间的一致性程度就叫作信度(可靠性)
等价的信度定义
信度(信度系数)是一个被测团体真分数的变异数与实得分数的变异数之比。
信度是一个被试团体的真分数与实得分数的相关系数的平方
理论意义
信度是一个测验x(A卷)与它的任意一个"平行测验"x'(B卷)的相关系数
实际意义
描述测量一致性程度的指标还有信度指数(信度系数的平方根)
信度的作用
信度是测量过程中所存在的随机误差大小的反映。
测量中的系统误差与信度无关,系统误差只对测量结果产生恒定的影响,而不会使测量结果上下波动
信度可以用来解释个人测验分数的意义
测量的标准误
置信区间
信度有助于不同测验分数的比较
来自不同测验的原始分数必须转化成标准分数再进行比较。采用"差异的标准误"来进行差异的显著性检验
指出
一个测验可以有多个信度估计值,因而其误差估计值也会有多个,在实际工作中要注意选择
本理论假定同一个团体中所有人的测量误差都是相同的,但实际上水平高的人与水平低的人在做测量时会有不同的随机误差
测量的结果不能僵硬地看成一个点,而应看成以该点为中心,以测量的标准误的某个倍数为半径上下波动的一个范围(区间估计)
信度的估计方法
重测信度
含义及计算
重测信度是指用同一个量表对同一组被试施测两次所得结果的 一致性程度,其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数
x和x是第一次测量的实得分数及实得分数的平均值,y及y是第二次测量的实得分数及实得分数的平均值,rₓₓ是重测信度。
使用的前提条件
所测量的心理特质必须是稳定的
遗忘和练习的效果基本上相互抵消
在两次施测的间隔期内,被试在所要测查的心理特质方面没有获得更多的学习和训练
复本信度
含义
复本信度是指两个平行测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。
如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系数。等值性系数的大小主要反映两个复本测验的题目差别所带来的变异情况。
如果两个复本测验是相距一段时间分两次施测的,则称这种复本信度为稳定性与等值性系数
使用的前提条件
要构造出两份或两份以上真正平行的测验(即A、B卷)。
被试要有条件接受两个测验
尽量缩短间隔时间,排除记忆和练习的干扰
局限性
严格的平行测验是很难构造出来的
会受到练习和记忆等因素的影响
公式
误差来源
两个平行测验是否等值
被试的情绪波动、动机变化
测验情境的变化,偶发因素的干扰
分半信度
含义及计算
分半信度是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度(内部一致性系数)
被试在两半测验上得分的相关系数只是半个测验的信度,用斯皮尔曼一布朗公式加以校正
斯皮尔曼一布朗公式
弗朗那根公式
卢仑公式
使用的前提条件及范围
只能施测一次或没有复本的情况下使用
当一个测验无法分成对等的半时,不宜使用
由于将一个测验分成两半的方法很多(如按题号的奇偶性分半、按题目的难度分半、按题目的内容分半等),因此,同一个测验通常会有多个分半信度值。
有牵连的题目(如几个题目都是基于同个材料)要放在同一半,否则会高估信度
存在任意题或速度测验不宜用分半法
同质性信度
含义
同质性信度(内部一致性系数)是指测验内部所有题目间的一致性程度。
一致性
所有题目测的都是同一种心理特质
所有题目得分之间都具有较高的正相关
计算及适用范围
库—理(K-R₂₀)信度系数
克隆巴赫α系数
荷伊特信度
设有n名被试参加一个有K个项目的测试,测验分数的总变异可分解为被试间变异,项目间变异和人与试题交互作用变异三部分。用被试间变异的均方作为被试方差估计值,用人与题目交互作用的均方作为误差方差估计值
评分者信度
含义及计算
分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度
当评分者人数多于两个时,用肯德尔和谐系数 K是评分者人数,N是被评的对象数(通常是考生数,每个考生一份试卷),Ri是第 i个被评对象(考卷)被评的水平等级之和
若评分中有相同等级出现,则要使用以下公式求 W 值,n为相同等级的个数
分层α系数
包含着多种计分方式或涉及多种测评维度的试卷的测评信度,用分层α系数
成套测验合成分数的信度
假设某考生在成套测验上的合成总分等于其中k个分测验分数的加权之和
合成分数的信度估计
若所有分测验的标准差相等(如使用度量体系相同的量表分数),简化为
提高测量信度的方法
影响测量信度的主要因素
被试方面
单个被试而言,被试的身心健康状况、应试动机、注意力、耐心、求胜心、作答态 度等都会造成测量误差,因为这些因素往往会影响被试心理特质水平的稳定性
被试团体而言,整个团体内部水平的离散程度以及团体的平均水平都会影响测量信度。
主试方面
就施测者而言,若其不按指导手册中的规定施测,或故意制造紧张气氛,或给考生一定的暗示、协助等,则测量信度会大大降低。
就阅卷评分者而言,若评分标准掌握不一,或前紧后松,甚至是随心所欲,则会降低测量信度。
施测情境方面
实施测验时,考场是否安静、光线和通风情况是否良好、所需设备是否齐备、桌面 是否合乎要求、空间宽窄是否恰当,考试平台的质量、稳定性,以及考生使用机器的熟练程度
测量工具方面
试题的取样
斯皮尔曼一布朗预测公式
试题之间的同质性程度
如果一个测验内部的试题之间彼此异质(即测查不同的心理特质),则无法使测量的内部一致性系数提高。
试题的难度
如果测验的题目太难,则会引起被试的随机猜答,并使大部分人的得分偏低,整个分数的分布变窄,从而影响测量的信度。如果题目太容易,则大部分被试都将获得高分,同样会使测验分数的分布变窄,影响测量的信度。
两次施测的间隔时间
计算重测信度和稳定性与等值性系数(复本信度之一)时,两次测验相隔的时间越短,其信度值就越大;间隔时间越长,其他因素带来影响的机会就越多,因而其信度值就可能越小。
提高测量信度的常用方法
适当增加测验的长度
新增项目必须与试卷中原有的项目同质
新增项目的数量必须适度
使测验中所有试题的难度接近正态分布,并控制在中等水平
努力提高测验试题的区分度 区分度是测验题目的质量指标
选取恰当的被试团体,提高测量在各同质性较强的亚团体上的信度。
主试者要严格执行施测规程,评分者要严格按标准给分,施测场地要按测验手册的要求进行布置,减少无关因素的干扰。
对于时间取样的信度估计方法(重测信度和稳定性与等值性系数),两次施测时间间隔要适当
说明
各种信度计算方法仅适用于常模参照测验
目标参照测验的信度问题必须以测量的概化理论为基础才能进行较好的处理
估计速度测验的信度时,建议使用重测信度或决策一致性系数等方法,不使用分半信度或分层α系数
关于测量的信度要达到多高才被认为可靠,是一个比较复杂的问题。一般来说,标准化能力或学绩测验的信度应在0.90以上,人格测验的信度应在0.80以上,教师自编学绩测验的信度应在0. 60 以上。