导图社区 测量效度
心理学测量第四章效度,包含效度的概念、效度和信度的关系、效度的分类、影响效度的因素、提高测量效度的方法、专题:加长测验长度与效度的关系。
编辑于2024-11-21 15:42:47测量效度
效度的概念
定义
指一个测验或量表实际能测出其所要测量的心理品质的程度,即测得准不准问题。
效度是一个相对的概念。
效度是相对于测量目的而言的。
效度有程度的高低之分,而无“全有”或“全无”之别。
效度是针对结果而言的。
效度是随机误差和系统误差的综合反映。
判断一个测量是否有效要从多方面搜集证据。
效度和信度的关系
信度高是效度必要而非充分条件。
效度高则信度高。
效度受信度的制约。
效度的统计定义:
信度的统计定义:
通俗解释:信度稳定性(一致性),效度准确性,
例如射门:射中同一柱子信度高,射中靶心效度高,
用称来量身高,称来称去一致数值,信度高,但是称的是体重不是身高,效度低。
效度的分类
内容效度/逻辑效度:用测量的内容来说明目的。
定义
一个测验实际测到的内容与所要测量的内容之间的吻合性程度。
应用范围
成就测验(学绩测验,职业测验)
因为成就测验的目的比较能以知识、技能、能力来阐述。
不适用于能力倾向测验和人格测验。
表面效度
最佳行为测验往往表面效度高,其他测验(例如,人格测验)则希望表面效度低。
表面效度不反映实际测量的东西,所以不能算是一种效度。
确定方法
逻辑分析法(主要方法)
工作思路
请有关专家对测验题目与原定内容范围的吻合程度做出判断。
步骤
明确欲测内容的范围,编制双向细目表。
包括知识范围和能力要求以及比例三个方面。
范围的确定必须具体,详细到各纲目。
对照双向细目表,确定每个题目所要测的内容和能力要求,做好记录。
制定评定量表,请多个有关专家确定每个题目是否符合编制者的设想,
例如制定5级评定量表,1代表较差匹配,5代表完美匹配。
统计分析法
从同一教学内容总体中抽取两独立的平行测验,用于同一批被试,求被试在两份试卷相关。
相关高,表明测验可能有较高的内容效度(除非两个测验取样偏向同一方面)。
相关低,则两个测验中至少有一个内容效度低
再测法
将有关教学内容的测验在教学前后对被试各施测一次
前后测试差异越大,后测分数显著高于前测分数
说明所测内容相对于教学内容有较高内容效度。
前提:教学是有效的。
结构效度/构想效度/构思效度:用心理学上的某种理论结构来说明目的。
定义
一个测验实际测到的心理特质与所要测量的心理特质的理论结构和特质相一致的程度。
适用范围
智力测验、人格测验等一些心理测验。
特点
结构的效度取决于事先假定的心理特质理论。假设不同不具有可比性。
测量资料无法验证我们的理论假设时,不一定是测验的问题,有可能是实验设计和理论假设的问题。
通过对测量内容选择的证据判定结构效度。
步骤
提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。
设计和编制题目组成测验进行施测。
对结果进行逻辑和实证分析,验证与理论假设的程度。
确定方法
从测验内部寻找证据法
测验的内容效度
内容效度高,往往构想效度高。
测验的内部一致性指标
同质性信度高,是结构效度高的必要而非充分条件。
分析被试者对题目的反应特点
例如,在人格测验中有这样一些题目:“当事情不顺利时,我时常发怒。”“我总避免对别人的言行提出批评”。由于题目包括了社会赞许和道德评判,因此测验的得分就不一定是反映被试行为的。此类题目如果过多,又不采取措施排除或控制道德因素的影响,用这样的测验来测量人格特质,其构思效度就不会大高。
从测验之间寻找证据法
相容效度法
一个是已有效度证据的成熟测验,一个是想研究其构想效度的测验,如果两者相关高(即相容效度高),构想效度高,反之,则构想效度低。
区分效度法
两个构思不同的测验,其相关为区分效度,如果区分效度低,则构想效度高;如果区分效度高,则不一定证明构想效度高。
考查测验的实证效度法
多种特质-多种方法矩阵法(P68)
即相容效度法与区分效度法的综合运用,求不同方法不同特质的测验两两间的相关。
如果测同一特质的不同方法测验间相关高(相容效度高)。
测不同特质的同一方法测验相关低(区分效度高)。
因素分析法
找到影响测验分数的共同因素。可采用探索性和验证性因素分析法。
实证效度:用工作实效来说明目的。
考察测验的实证效度法
若效标效度高,则根据效标区分为两组被试,然后比较两组被试在所编测验上的成绩,若测验分数能将两组区分开,则构想效度高。
根据测验分数将被试分成两组,分析其行为特点是否与理论构想相符,若相符则构想效度高。
考察心理特质发展:若测验分数能反映所测特质的发展规律,则测验的构想效度高。
定义
指一个测验对处于特定情境中的个体的行为进行估计的有效性。被估计的行为是检验效度的标准,即效标。因此,实证效度也叫效标关联效度。
分类(根据效标资料搜集时间的差异)
同时效度:测验所得的分数可与效标同时验证;通常与心理特征的评估与诊断有关。
预测效度:效标需要一段时间才能搜集到,通常用于选拔、分组。
注意:两类效标效度的根本差异不是来源于时间,而是来自测验的目的,前者与用来诊断现状的测验有关,后者与预测将来结果的测验有关。
效标的性质
①可得性:要将观念效标转化为实践中可获得的行为表现测量。
②可量化性:即行为表现要可以用数量表示其差异。
③公平性:使用的效标对所有被试都是公平的测度。
④可靠性:效标测量信度高,稳定性强。
⑤准确性:即确能代表要测的行为表现或心理品质的测量。
常用效标
①实际工作表现评定。
②学业成绩均分。
③临床诊断结果。
④权威测量结果。
⑤自我评定。
注意:一般来讲,学业成绩、教师的评定等常用作智力测验的效标;有经验精神科医生的诊断、教师或其他有关人员的评判可作为个性问卷或精神科症状评定量表的效标;特殊课程或特殊训练的成绩可作为能力倾向测验的效标。
确定实证效度的步骤
第一步:明确观念效标。
第二步:确定效标测量。要做到两点:
避免偏见影响效标测量。
防止效标污染,即指个人的效标因为评定者知道个体的测验分数(又称为预测源分数)而受到影响。
考察测量分数与效标测量的关系。
实证效度的估计方法
相关法
定义
是求测验分数与效标资料间的相关,这一相关又称为效度系数。它是评估效标效度最常用的方法
类型
积差相关:两个变量均为连续变量。
点二列相关:一个变量为连续变量;另一个变量为真正二分称名变量。
二列相关:一个变量为连续变量;另一个变量为人为二分称名变量。
贾斯朋多系列相关:一个变量为连续变量;另一个变量为等级变量。
等级相关:两个变量均为等级变量。
区分法
定义
区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。
计算公式
两独立样本的t检验公式。
缺点:易受团体大小的影响。
重叠量的分析
分布的重叠量可通过计算每一组内得分超过(或低于)另一组平均数的人数百分比得出(见图a)。另外,还可计算两组分布的共同区的百分比(见图b)。重叠量越大,说明两组分数差异越小,即测验的效度越差。
命中率法
正命中率、负命中率和总命中率。
总命中率高,测验的实证效度越高。
也有的测验只看正命中率,正命中率越高,测验效度越高。
正命中率随划分测验分数成功与失败的临界分数的高低而变化。临界分数高,则正命中率高
假阴性 (FN):测试未能识别出为阳性的个体(即,实际上是阳性且测试结果却为阴性的个体)。
假阳性 (FP):测试错误地识别为阳性的个体(即,实际上是阴性但测试结果为阳性的个体)。
实际阳性 实际阴性 ------------------|------------------ 阳性 | TP (真正阳性) | FP (假阳性) ------------------|------------------ 阴性 | FN (假阴性) | TN (真正阴性) ------------------|------------------
基础率、灵敏度和确认度。
三者之间关系
当基础率较低时,选用灵敏度高的测验才能比较有效。
当基础率很高时,选用确认度高的测验才能比较有效。
“优中选优”或“绝不放走一个坏人”时,测验的灵敏度应该要比较高。
在淘汰“无可救药”的员工,或“尽量不要冤枉一个好人”时,应选用确认度高的测量。
立论效度:认为效度检验乃是一个自己提出论点,然后通过收集大量论据来解读自己论点的过程。
解读的好坏取决于以下三个标准
分数解读是否明确
逻辑论证是否完整
推论和假定是否合情合理
整合效度:
效度证据的来源为八个方面
测验内容
答题反应过程
内部结构
测验与其他变量之间的关系
相容与区分证据
测验与效标之间的关系
推广范围
实测结果
影响效度的因素
测验的构成
试题样本不能较好地代表要测品质的内容和结构;试题编制质量差,测验长度不够。
测验的实施
实施规范,评分有误差。
被试因素
不同的被试在同一测验上会有不同的效度。
效标性质
效标本身质量优劣影响效度考察。
测验信度
信度低,导致效度低
提高测量效度的方法
精心编制测验量表,避免出现较大的系统误差。
妥善组织测验,严格按照指导手册进行操作,控制随机误差(例如,加长测验长度)。
创设标准的应试情景,让每个被试都能发挥正常的水平。
选择正确的效标、定好恰当的效标测量,正确地使用有关公式。
专题:加长测验长度与效度的关系
测验长度扩大K倍后,新测验效度估计公式
式中 是测验x增长为原来的K倍后,新测验与效标(y)的相关(效度系数);K为测验增长的倍数, 为原测验的效度系数; 为原测验的信度系数
注意:不可无限追求,且要保证加长部分效度不低于原测验效度。