导图社区 心理与教育测量
心理测量围绕心理量表这个核心主要分为测验理论和测验应用两大部分。学习理论部分内容时,应对每部分涉及的知识点进行整理和归纳,以系统的观点来学习和运用相关知识。
编辑于2022-05-31 07:25:58心理与教育测量
心理测量概述
性质
定义
定量描述,间接测量,对象是心理特质和教育成就
特征:间接性、相对性、客观性
基本要素2
参照点/测量起点/固定原点
绝对参照点0
相对参照点0
测量单位
有确定意义
有相等价值
量表4
称名量表
命题量表
类别量表
学号、性别
用于分析百分比、次数(f)、众数(Mo)、卡方检验
顺序/等级量表
名次、等级
用于分析中位数(Md)、百分位数(Pp)、等级相关系数、肯德尔和谐系数
等距量表
温度
平均数、标准差、积差相关系数、等级相关系数、t检验、F检验
比率量表
最完善的测量量表
长度、重量
几何平均数、变异系数
分类
测量对象
智力测验
斯坦福—比内量表
韦克斯勒智力量表
瑞文推理测验
能力倾向测验
潜在才能
一般能力测验GATB
特殊能力测验
成就/教育测验
学科成就测验
综合成就测验
认知测验
人格测验
自陈人格问卷
明尼苏达多项人格调查表
科特尔16种人格因素测验
埃里克森人格问卷
投射测验
夏洛克墨迹测验
主题痛觉测验
测量方式
个别测验,一对一
优
对行为观察仔细,获得额外信息
主被试建立好合作关系
特殊被试,幼儿、文盲
缺
浪费时间
测验手续复杂,要有较高水平人担主试
团体测验
优
节省时间
缺
不易有效控制被试行为,产生测量误差
内容表达和反应形式
文字(纸笔)测验
方便
受被试文化背景影响
非文字(操作)测验
少受文化背景影响
局限于个别被试,耗时
测验功能
成就测验和预测测验
难度测验和速度测验
描述测验和诊断测验
评价参照标准
常模参照测验
目标参照测验
潜力参照测验
测量要求
最高行为测验
典型行为测验
功能
理论研究功能
收集研究资料
建立和检验理论假设
实验分组
实际应用功能
人才选拔
人员安置
心理诊断和心理咨询
描述评价
心理测量的产生发展
中
教育测量
西周奴隶制时期,“国学”,世界上最早的教育测量
汉朝:太学考试、岁考制、使用“口试、策试、射试”,首开笔试先河
隋朝:科举制
人格测量
孔子3
董仲舒,画圆画方,世界最早的心理(注意)测验
刘邵《人物志》,研究能力的专门著作
七巧板——与发散思维测验一样;九连环——最早的创造力测验
西3
高尔顿
1869,《遗传的天才》,能力由遗传
1884,伦敦成立第一个“人类测量实验室”
发明许多测量仪器,高尔顿棒、笛
卡特尔
1890,首次发表《心理测验与测量》,首次提出术语“心理测验”
比内
1905,完成世上第一个智力测量表,比内—西蒙智力量表
发展
推孟,1916修订斯坦福—比内量表
1911,斯腾,用心理年龄和实际年龄的比值(心理商数)表示聪明程度
斯皮尔曼,二因素论
心理测量基本理论
经典测量理论CTT
特质
特有的、相对稳定的行为方式
对不同刺激做相同反应
可观测性,两个凡是,TT
真分数及其有关假设
义
真分数T,反应某种心理特质的真正水平的数值
观察分数X,实测分数
数学模型及假设
X=T+E
相关假设公理
用平行测验反复测量多次,X接近T值
T和E之间的相关为0,
各平行测验(测同一特质)上的误差分数间相关为0,
测量误差是完全随机的,服从正态分布,均值为0
CTT模型的方差关系
真分数变异分为与测量目的有关的变异Sv和与测量目的无关的变异Si
CTT优缺点
优
以随机抽样原理为基础,建立在简单的数学模型基础上,简单易推广
理论假设较弱,实施条件要求不严,适用广
多数情况下,CTT还是足够精确,测量结果可信
缺
信度估计精度不高,平行测验难实现
误差指标笼统单一,难以精确计算个体被试的独立误差
各种参数的估计对样本的依赖大,而获得代表性样本难
参数指标的配套性差,与被试水平参数间关系模糊
T与X间有线性关系的假定不合理
测量误差
义
与测量目的无关的变化因素,不准确、不一致的测量效应
随机误差,与测量目的无关、偶然因素、不易控制,既影响信度又效度
系统误差,测量目的无关,恒定有规律的误差,影响效度
来源
测验自身
测验编制过程,项目取样,代表性、长度、题目用词、难度
施测过程
环境
时间
主试因素,年龄、外表、性别
意外干扰
评分计分
被试方面
应试动机
测验焦虑
测验经验、练习效应
反应倾向
生理变化
控制
准备充分
施测各方面按标准化程序
认真编制题目
估计
标准误
信度
义
稳定性、一致性
一个被测团体真分数的变异系数和实际得分的变异系数之比
一个被测团体的真分数与实得分数的相关系数的平方
ρxT,信度指数
一个测验x与他的任意一个平行测验x'的相关系数
作用
信度是测量过程中所存在的随机大小误差的反应(反比)
用来解释个人测验分数的意义
有助于不同测验分数的比较
不同测验分数要具有相同尺度
估计
重测信度
义,同一量表对同一组被试施测两次所得结果的一致性程度
计算—皮尔逊积差相关系数
使用前提
所测心理特质必须是稳定的
遗忘和练习的效应基本抵消
两次测验时间间隔内,被试没有在该特质上学习训练
受时间影响大
误差来源
时间取样
复本信度
义
两个平行测验测量同一批被试所得结果的一致性程度
等值性系数,两平行测验同时连测,反映两复本差异所带来的变异情况
稳定性—等值性系数,不同施测时间
对信度最严格的检验,其值最低
用平衡设计抵消顺序效应
计算—大小等于两次测验分数的皮尔逊积差相关系数
使用前提
有条件构造两份或以上真正的平行测验
被试有条件接受两个测验
报告两次施测的时间间隔和被试的有关经历
误差来源
等值性—内容取样
稳定性—等值性——时间、内容取样
分半信度
义
将一个测验分成对等的两半,被试在这两半上所得分数的一致性程度
看成最短时距内的两个平行测验
内部一致性系数
计算—与等值复本的计算方式类似,但要校正
斯皮尔曼—布朗
弗朗那根
卢纶
使用前提
在只施测一次或没有复本的情况下使用,测验无法分半则不可用
测验分半的方法很多(奇偶,内容,难度),一个测验有多个分半信度值
误差来源
内容取样
同质性信度/内部一致性系数
义
测验内部所有题目间的一致性程度
所有题目都测同一种心理特质
所有题目得分间都具有较高的正相关
测量单一特性是同质性高的必要条件而非充分条件
计算
库—理信度系数
仅适用于(0,1)计分的测验
所有题目难度接近时使用
克隆巴赫a系数
a值是所有可能分半信度的平均值,只是测验信度下界的一个估计值,a大,信度高,a小却不能断定信度不高
荷伊特信度(方差分量比)
误差来源
内容的异质性
评分者信度
义,多个评分者给同一批答卷评分的一致性程度
计算
评分者人数多于2,用肯德尔和谐系数
误差来源
评分者之间的差异
信度的影响因素与改进
影响因素
测量信度随误差大学的反映,误差大,信度低
被试
个体,身心、应试动机、注意力、耐心等
团体,团体的同质性,团体平均水平太低或高都低估测量的真正信度
主试
施测情境
测量工具
试题取样
试题间同质性程度
试题难度
两次施测的时间间隔
越短信度越大
提高信度方法
适当增加测量长度
测验中的试题难度接近正态分布,控制在中等水平
努力提高测验试题区分度
选取适当的被试团体,提高测量在各同质性较强的亚团体上的信度
主试严格执行施测规程,按标准给分,减少无关因素干扰
标准化能力/学绩测验信度>0.9,人格测验>0.8,教师自编测验>0.6
效度
义
能否测量出其所要测的心理特质和准确测量到这种特质的程度
相对概念
相对于一定的测量目的而言
心理特质较隐蔽,不可能100%准确
效度是测量的随机误差和系统误差的综合反映
判断一个测验是否有效要从多方面搜集证据
理论定义,在一系列测量中,与测量目的有关的真实变异(有效变异)于总变异(实得变异)的比率,即由所测的特性造成的变异所占的比例
估计
内容效度
实际测到的内容与所要测内容间的吻合程度
区分表面效度,外行人对某个测验从表面上看好像是某种心理特质的现象,eg,最佳行为测试、能力测验,表面效度高
确定方法
逻辑分析法/专家评定/估计法
定性分析方法
复本法,克隆巴赫
一组被试在两复本测验上得分的相关系数进行估计
再测法
前测、后测
经验法
按经验判断
步骤
确定欲测内容范围,知识、能力范围
确定内个题目要测的内容,列双向细目表
制定评定量表
适用范围
成就测验,选拔、分类的职业测验
不适合能力、人格测验
结构/构想/构思/构念效度
义
实际测到所要测量的理论结构和特质的程度
测验分数能够说明心理学理论的某种结构或特质的程度
确定方法
测验内法,考察测验的同质性
测验间法
相容效度
计算被试在新旧两个同类测验上的分数之间的相关
相关高,测验所测的是相同的特质
区分效度
计算与测量不同构想的测验间的相关
相关高,效度可疑
因素效度
对一组测验进行因素分析,找到影响测验分析的共同因素,看每个因素在共同因素上的负荷量
校标关联法/实证效度法
求一个测验的实证效度
多种特质——多种方法矩阵法
MTMM
相容效度和区分效度的综合运用
原理
用极不相同的方法测统一特质所得相关系数很高,说明相容效度很高
用多种极为相似的方法测不同特所得相关系数很低,说明区分效度很高
用多种极为相似的方法测量相似(同一种)特质所得相关系数很高,则信度高
因素分析法
实证效度
义
测验处于特定情境中的个体行为进行估计的有效性
校标,被估计的行为是检验测验效度的标准,是衡量一个测验是否有效的外在标准
同时效度,诊断现象
预测效度,对团体能力的区分
确定方法
相关法(校标关联法)
计算测验分数与校标测量的相关系数
区分发(分组法)
命中率
总命中率,(合格人中合格的人数+淘汰的人中不合格人数)/总人数,比例越高效度越高
正命中率,测验选出人中后续工作合格的人数所占的比例,越高越有效
负命中率,被测验所淘汰的人中真正应该被淘汰的人数的比率
预期表法
功利率法
基础率、灵敏度、确认度
基础率,符合筛选要求的群体/整个人群总体
灵敏度,所有真正符合要求的人能被测验鉴别出来的人数比率,基础率低用
确认度,所有不符合要求的人能被测验正确淘汰的人数的比率,基础率高用
估计标准误
对目标的评价是否存在偏差
效度的影响因素与改进
影响因素
测验的构成
试题样本的代表性差,效度不高
题目语义,难度、数量
测验长度
测验的施测过程
被试情况
单个被试
团体被试
所选校标的性质
测量的信度
信度是效度的必要不充分条件
提高
精心编制量表,避免出现较大系统误差
妥善组织实验,控制随机误差
创设标准的应试情境
选择正确的校标,正确使用有关公式
信度效度关系
信度高是效度高度必要而非充分条件
信度系数的平方根是效度系数的最高上限
项目分析/测题分析
义
改善提高测验的信效度,组成测验前,对每个测题进行分析
题目难度
测验项目难易程度
计算
二分法计分项目的难度
通过率
不考虑猜测因素,用答对/通过该项目的人数百分比表示
通过人越多,P值越大,难度越小;反之
极端分组法
被试人数多,从高到低排。总分最高的27%为高分组,最低的27%为低分组,分别计算高分、低分组通过率
若人数过少。可用50%为高低分组分界点
非二分法计分项目难度
主观题/多选
校正公式
团体被试
单个被试
难度水平的确定
若测验目的是了解被试对某些知识的掌握情况,不需考虑难度
为了选拔录用人员,将项目难度控制在接近录取率
人格、态度、心理健康测验无需考虑难度水平
速度测验的难度不易太高,且每个项目的难度值基本相等
难度测验要难度值在0.50左右
对于选择题来说,P值一般大于概率水平
难度的等距变换
难度指标P是顺序变量,不具相等单位,无法表示难度间差异大小。通过ZOP表转化成Z分数
Z全距为正负三个标准差,所以△范围为【1,25】
难度对测验的影响
测验分数的分布形态
正偏态
负偏态
测验分数的离散程度
题目的区分度
对被试心理品质水平差异的区分能力,测验是否有效的指示器
范围【-1,1】
正值,积极区分;负值,消极区分;0无区分作用
具有积极区分作用的项目,D越大,区分效果越好
计算
项目鉴别指数法
鉴别指数,测验高低分两个极端被试组在该题通过率上的差异
两端各选27%
极端组划分
27%、33%、50%
相关法
项目分数与校标分数/测验总分的相关,相关越高,区分度越高
点二列相关
(0,1)计分,校标分数/测验总分是连续变量
二列相关
连续变量,但其中一个变量被认为分为两半
φ相关
两个变量都是二点分配的变量
积差相关
得分具有连续性,被试团体较大
难度与区分度关系
倒U型曲线,P=0.5时,区分度最高
区分度的相对性
不同计算方法所得区分度值不同
样本容量大小影响相关法区分度值的大小
分组标准影响鉴别力指数
被试样本的同质性程度影响区分度值的大小
题目的综合分析和筛选
看区分度大于0.3
看难度,0.3-0.65
选项分析
酌情修改,不轻易丢弃项目
项目反应理论
概述
义
题目反应理论/强真分数理论/潜在特质理论/现代测量理论,建立在潜在特质论的基础上
内容,反应行为与测验所测的被试潜在特质间的关系
基本假设
潜在特质空间单维性假设
潜在特质空间,对某一特殊行为的发展其作用的潜在特质的集合
相互独立的潜在特质数就是特质空间维度
测验项目的局部独立假设
项目间无相关
项目特质曲线(ICC)假设
被试对测验项目反应的概率遵循函数关系
优良性质
项目参数的跨群体不变性(减小抽样误差)
潜在特质量表的可选择性
参数设计的科学性
信息函数概念的引进与信息函数的可加性
应用
项目分析
成绩评估量表的设计
态度问卷的设计
题库的建设
计算机自适应测验的编制(CAT)
单维性假设与项目特征曲线假设
单维性假设
测验只能测量被试的某一种能力,忽略其他能力对测验的影响
项目特征曲线ICC
用能稳定反映被试水平的潜在特质变量代替卷面总分作为回归曲线的自变量,该回归曲线即为ICC
形态特点
人的潜在特质量表是定义在无穷的区域内
被试在试题上正确作答的概率,取值都在【0,1】
若试题测验质量好,则正确率应随特质水平提高而提高
参数意义
c为伪机遇水平,下渐近线与纵轴的交点值,试题质量越高,c越小
b为题目难度,拐点(中心对称点)的横坐标值。b越大,题目越难
a题目区分度,拐点处切线斜率的函数值,0.8-1.25
单、双、三参数模型
单参数模型
只有b一个参数,c=0,a=1
双参数模型
a、b,c=0
问答题、论文
三参数模型
项目信息函数与测验信息函数
项目信息函数
反应不同特性(参数)的项目在评价不同被试特质水平时的信息贡献关系
测验信息函数
项目信息函数的累加和
反应整个测验在评价不同被试特质水平时的信息贡献关系
概化理论
概化/概括化/拓化理论的基本思路
测验情境关系
测量目标
测量侧面
测量侧面的水平
任何测量都依赖于特定的测验情境关系
方差分量的估计
分解总体方差
目标主效应方差
测量侧面主效应方差
各种交互效应方差
用样本方差估计各种效应的期望均方MS
测量目标效应期望均方,是测量目标个体差异的描写量
测量侧面效应的期望均方,是个测量侧面不同水平间差异的描写量,误差描写量
交互效应期望均方,个测量侧面对测量牧宝的交互作用的交互干扰程度的描写量,测量误差
概化系数与可靠性指数
概化系数
用相对误差估计出来的信度系数
对常模参照测验的稳定性程度的度量
可靠性指数
用绝对误差估计出来的信度系数
对目标参照的稳定性和一致性两种程度的度量
G研究与D研究
G研究,测验的观察领域
D研究,决策研究
G研究在D研究之前做