导图社区 心理测量
心理测量知识大全,郑日昌老师的版本。比较齐全,个人整理,需要自取。有错麻烦提出来哦,十分感谢。
编辑于2021-02-16 21:46:10心理测量
心理测量的历史
中国古代
理论方面
孔子将人分为中人、中人以上以及中人以下
孟子“权,然后知轻重;度,然后知长短
刘劭《人物志》中”观其感变,以审常度“
实践方面
刘勰”左手画方,右手画圆“(世界上最早的心理测验)
周岁试儿
开科取士制度
七巧板、九连环
西方
高尔顿
《遗传的天才》:人的能力是遗传而来,并设想能力分布是常态,其差异可测量
设立了人类测量实验室
首次提到心理测验和测验两个术语
将统计的方法应用于心理测验数据资料的分析
卡特尔
在自己的实验室内编制测验五十个
1890年,发表《心理测验与测量》,首创“心理测验”这个术语
比奈(心理测验的鼻祖)
1886年第一部著作《推理心理学》
1889年同亨利·博尼创立第一所法国心理实验室
1895年创立第一份法国心理学杂志《心理学年报》
1898年在哲学杂志上发表《人格心理学中的测量》
1903年,出版《智力的实验研究》
1905年 与西蒙发表《诊断异常儿童智力的新方法》,介绍了世界上第一个科学的智力测验—比奈-西蒙量表。
产生背景
社会需要
建立社会收容所来护理智力落后者
对智力落后者和精神病人治疗和帮助的需要
对人的个体差异性的认可
实验心理学的诞生
心理测量是什么
定义
根据一定的法则用数字对人的行为加以确定。
基本假设:个体之间存在差异且可测
特点
间接性
相对性
客观性
局限:只能测量特定且局限的特性
要素
参照点
绝对参照点
有绝对零点
相对参照点
人为指定
心理测量中使用的参照点
不能以倍数的方式解释
单位
有确定的意义
同一单位在大家看来意义是相同的,不允许有不同的解释
有相等的价值
第一单位与第二单位间的距离等于第二单位与第三单位间的距离
心理与教育测量所用的单位不等值
工具
量表
事物特征数量化的数字连续体
分类
称名量表
区分性,无数量价值
无参照点和单位
无数学意义
顺序量表
区分性和顺序性
无参照点和单位
不可加减乘除
等距量表
区分性、顺序性和等距性
有相对零点和相等单位
可以加减,不可以乘除
比率量表
区分性、顺序性、等距性和等比性
有绝对零点和相等单位
可以加减乘除
测验
定义性特征
行为样本
标准化
测验内容
测验实施
测验时限
指导语
测验情景
全程记录
评分规则
测验解释
计分规则
种类
按测验功能分类
能力测验
实际能力
潜在能力
成就测验
学绩测验
人格测验
自陈人格测验
投射测验
按测验对象分类
个别测验
团体测验
按测验材料分类
文字测验
非文字测验
按测验难度和时限分类
速度测验
难度测验
按测验要求分类
最佳行为测验
典型行为测验
按测验标准化程度分类
标准化测验
具有普适性,项目固定,施测与计分,有常模
非标准化测验
教师自编测验
针对性强,项目可以增加或删除,施测与计分由老师决定,无常模
按测验结果的评价标准
常模参照测验
广泛能力
相对位置
标准参照测验
窄化能力
能否做到
心理测量中的误差
定义
在测量过程中,那些与测量目的无关的因素所导致的测量结果不准确或不一致的效应。
分类
随机误差
那些与测量目的无关的偶然因素引起的误差,使多次测量产生了不一致的结果,并且这些结果的方向和大小也是随机的。
既影响效度,又影响信度。
系统误差
由与测量目的无关的因素引起的一种恒定而有规律的效应。这种误差稳定地存在于每一次测量之中,尽管测量的结果比较一致,但实测结果与真实水平之间存在差异。
跨情境性
只与效度有关
来源
测量工具
系统误差
测量对象
测验动机
测验焦虑
学习、发展与教育
测验经验
练习效应
反应定势
生理因素
测量过程
测试环境
意外干扰
评分
必须标准化
主试方面
必须严格遵循标准化程序施测和评分,不得随意改动和发挥,同时要机智地处理各种意外情况。
真分数理论
基础概念
真分数(T分数)
反映被试某种心理特质真实水平的那个数值。
无数次测量结果的平均值
观察分数(X分数)
实测的分数
测量误差(E)
子主题
经典测量理论(CTT)
X=T+E
测量误差指的是随机误差,不包括系统误差
核心假设
测量误差本质上是随机的
三个假设公理
若某一个人的某种心理特质可以用平行的测验反复测量足够多次,则其平均误差为0,即观察分数的平均值会接近于真分数。
E(X)=T或E(E)=0
真分数和测量误差之间相互独立。
ρ(T,E)=0
各平行测验上的误差分数之间相关为零。
ρ(E1,E2)=0
S2X=S2T+S2E
S2X=S2V+S2I+S2E
测验分数解释与处理
分数
原始分数
从测量上得到的分数
导出分数
通过统计方法由原始分数转换到量表上的分数
意义
参照他人对其进行评价,标准化
提供可以比较的量度
根据测验类型分类
常模参照测验
关注相对位置
在分数解释时如果参照的是被试总体的分数分布(常模),则该测验为常模参照测验。
常模
标准化样本在某一测验上的平均成绩
常模团体的条件
必须有常模团体的确切定义
年龄、性别、地区、受教育程度、职业……
必须是所测群体(总体)的一个代表性样组
取样过程必须有详细描述
规模要有适当的大小
一般不少于30个或100个;全国统一性常模,一般应用2000~3000个
样本大小适当的关键是样本要有代表性
抽样方法
抽样大小
标准化样本是一定时空的产物
时效性
定期修订
尽可能采用最新的常模
尽可能采用与被试人群更接近的常模
分类
发展常模
把个体测验分数与不同年龄的发展水平进行比较,并转化为相应的等级水平。
组内常模
把个体测验分数与同一群体内其他人的分数进行比较,从而确定个体在群体内的相对位置。
全国常模
地区常模
年龄常模
年级常模
职业常模
总分常模
对一个测验分数解释时,可以使用的常模不止一个
测验使用者对何种常模总体感兴趣
常模样本代表总体的程度
分数解释
发展量表
年龄量表
用年龄做单位来度量智力
年级当量
把学生的测验成绩与各年级学生的平均成绩比较,看他相当于几年级的水平
顺序量表
以婴儿代表性行为出现的时间为衡量标准
商数
比率智商
IQ=(MA/CA)×100 MA为智龄 CA为实际年龄
教育商数(EQ)
成就商数(AQ)
百分等级
在一个常模团体中低于该分数的人数百分比
优点
容易计算,容易解释,外行人也能理解
对各种被试和各种测验普遍适用
缺点
缺乏相等单位,属于顺序量表,只具有区分性和顺序性
标准分数
线性转换
Z=(X-x̅)/Z
非线性转换
T分数
T=50+Z
标准九
以5为平均数,以2位标准差
离差智商
IQ=100+15Z
标准参照测验
关注是否达到相应水平
内容参照测验
掌握分数
定一个可接受的最低标准
正确百分数
被试答对题目的百分比
内容标准分数
成就测验、资格测验
把内容分数和常模分数结合起来使用
既能确定是否达标,又能评定达到哪个等级
等级评定量表
结果参照测验
用校标行为的水准来表示分数,适用于用测验来做预测的情况。
条件
测验分数必须与一个重要的校标具有高相关,即要具有校标证据
要有一个能把测验分数和校标成绩之间的关系结合起来的方法,即要有转换分数的图表
基本原则
主试应充分了解测验的性质与功能
对导致测验结果的原因的解释应慎重
必须充分估计测验的常模和效度的局限性
解释分数应参考其他相关资料
应以”一段分数“解释
对来自不同测验的分数不能直接加以比较
必须考虑
所用测验的性质(信效度)
被试的信息
当时测验的具体情况
如何向当事人汇报
使用当事人所能理解的语言
要保证当事人知道这个测验测量或预测什么
要使当事人知道他是和什么团体在进行比较
要使当事人认识到分数只是一个“最好”的估计
要使当事人知道如何运用他的分数
要考虑测验分数会给当事人带来什么心理影响
对测验结果应保密
对低分者解释应谨慎
心理测量中的使用与道德伦理问题
如何管理
编制和修订注意科学性
出版和发行要严加控制
使用者要具备一定的资格
如何选择
所选测验必须符合测量目的和对象
了解被试的特点
熟悉所选测验的特点
如何准备
事先告知被试(时间、生理准备、心理准备)
主试自身准备
实验材料的准备
如何标准化
测验内容
测验实施
测验时限
指导语
测验情景
全程记录
评分规则
测验解释
如何对被试要求
存在的社会问题
测验万能论
测验无用论
子主题
正确态度
正确运用时,测验是心理学研究的一种重要方法和做决策的重要辅助工具。
测验作为一种研究手段和测量工具还有待完善。
心理测量的编制
问卷
编制原则
精而简原则
语言精练
以访问对象为主,从被访问者角度出发
整体逻辑与顺序
便于被试作答
便于整理分析
避免“闭门造车”,可以借鉴他人
编制过程
确定目的与主题
具体可测量
搜集资料
确定编题计划
确定问卷类型
自填型/代填型
邮寄式、送发式、报刊、访问
编写题项:问题截止了当、无歧义
进行预测试
收集他人意见修改问卷
专题小组讨论
专家评估
被访问者意见
确定实施过程;选取代表性样本
编写指导语
量表
一般程序
确定测验目的
确定测量对象
年龄
受教育水平
文化背景
确定测量目标
确定测量用途
制定编题计划
编写题目
搜集资料
丰富
普遍性
趣味性
选择测题形式
最佳行为测验
客观形式
多选题
是非题
匹配题
主观形式
填空题
简答题
论文题
操作题
联想题
典型行为测验
二分法形式
Likert形式
两级形容词列表
编写修订测题
预测
预测对象应取自将来正式测验准备应用的群体
预测的实施过程与情景应力求与将来正式测验时情况相似
预测的时限可稍宽些,最好使每个受试者都能将题目做完,以搜集较充分的反应资料,使统计结果更为可靠。
预测过程中,应对受试者的反应情形随时加以记录。
项目分析
合成测验
排列方式
混合螺旋式排列
将各种类型的测题依难度分成若干不同的层次,将同难度水平但不同性质和类型的题目组合在一起,再依难度排列
并列直进式排列
将整个测验分为若干个分测验,每个分测验由易到难
直接递增式排列
直接由易到难排列
等值复本
测验测量的是同一种心理特性
测验具有相同的内容和形式
测验间不应有重复的地方
测验题目数量相等,并且有大体相同的难度和区分度。
各份测验的分数分布大致相同
标准化
内容
过程
评分
解释
鉴定测验基本特征
编写测验手册
测验目的、用途;背景、依据;使用方法、时限、注意事项;标准答案和评分方法;常模资料;信效度资料
指标
信度
是什么
一组测量分数的真变异数与总变异数(实得变异数)的比率
rXX=S2T/S2X
是一个被试团体真分数与实得分数的相关系数的平方
rXX=P2TX
是一个测验X(A卷)与它的任何一个“平行测验”X'(B卷)的相关系数
rXX=PX’X
注意事项
信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性
真分数的变异数是不能直接测量的,只能根据一组实得分数做出估计
信度是指测量工具所获得的“结果”的可靠性,而非指工具本身
每一个信度的估计值,仅指某一特定方面的一致性,而非泛指一般的一致性
作用
可以解释在测验分数变异中有多少比例是由真分数的变异决定的
可以帮助在不同测验分数之间进行比较
差异标准误SEd=S
可以用来解释个体测验分数的意义
测量标准误SE=SEM=SX
两个人在同一个测验上的分数之差必须大于测量标准误的两(1.96)倍以上 同一个人在两个测验上的得分之差必须大于差异标准误的两(1.96)倍以上
分类
重测信度
用同一个量表对同一组被试施测两次所得结果的一致性程度
大小等于两次测验所得分数的皮尔逊积差相关
测量时间取样的误差
需满足的假设
所测量的特质必须是稳定的
被试遗忘与练习的效果基本上相同或相互抵消
在两次施测的间隔时期内,被试的学习效果没有差别
初测和再测的间隔不超过六个月。年幼的儿童,两次施测的间隔应比年纪较大的被试短一些。智力测验间隔时间不能太短,成就测验间隔时间不能太长。
重测信度低,不意味着测验不可信,可能是被研究的特性发生了变化
复本信度
两个平行测验测量同一批被试所得结果的一致性程度
大小等于两次测验所得分数的皮尔逊积差相关
测量内容取样误差
前提
建构出两份真正的平行测验
在测验中,为了抵消施测的顺序影响,一般可以随机选出一半被试先做A卷后做B卷,另一半被试先做B卷后做A卷
局限性
测验的难度会由于重复而有所改变
会有偏高的倾向
等值稳定性信度
两个版本间隔一定时间施测
分半信度
将一个测验分成对等的两半后,所有被试在两半上所得分数的相关
能测量相同内容或心理特点的程度
测量由于测验分半而带来的内容取样误差
分半方法
奇偶分半法
难度分半法
随机分半法
内容匹配法
先根据测试的不同方面来进行分类,在分半
不同的分半方式会得到不同的分半系数
结果应校正
rXX=2rhh/(1+rhh)
同质性信度
测验内部所有题目间的一致性程度
指分数的一致。若测验的各个题目得分有较高的正相关时,不论题目内容和形式如何,测验都是同质的
一致性的受影响因素
内容取样
所研究行为的异质性
从相对同质性的测验上得出的测验分数,其意义较为明确
计算
克伦巴赫α系数
适用于二分计分或计分权重范围较广的情况
只是测量信度的下界的一个估计值
即α值大,信度一定高;α值小时,不能断定其信度不高
0.6~0.65最好不要;0.65~0.7最小可接受值;0.7~0.8相当好;0.8~0.9非常好
荷伊特信度
用方差分量比来衡量测验内部一致性的办法
评分者信度
测量由于评分者的差异而带来的误差
平均一致性达到0.90以上,才可认为评分是客观的
影响因素
被试因素
团体的异质性程度,越异质,信度系数越高
rnn=1-[S20(1-roo)/S2n] roo原来团体的信度,S0原来团体的标准差,Sn新团体的标准差
主试因素
有效施测
计分程度
测量工具因素
测验长度

测验难度
防止天花板效应和地板效应
估计信度的方法
时间间隔
被试的主观因素
提高方法
选取恰当的被试样本(尽量异质)
适当增加测验长度
新加的题目必须与测验中原有项目同质
测试时间控制得当
将难度控制在中等水平且接近正态分布
保证测量标准化
数值
高水平的信度
用于制定最终的决策
在相对较少的个体差异上将个体分为许多不同的类型
低水平的信度
用于最后粗的决策
用于以粗略的个体差异为基础将人分为少数几个类型
<0.7不予采用;0.7~0.85可用于团体比较;0.85以上可用于鉴别或预测或个人成绩作用
效度
是什么
是测验编制者或使用者收集证据以支持根据测验分数所做出各种推论的过程
是总变异中由所测量的特性造成的变异所占的百分比
是从多方面收集证据判断一个测验是否有效的过程
注意事项
效度是相对于测验目的
效度是相对于被试人群
对于推论需要明确界定
分类
内容效度
评估测验题目是否能够充分代表所要测量的内容范围,即测验题目对有关内容或行为范围取样的适当性
估计方法
专家评定法
克伦巴赫法(复本法)
再测法
前测--后测
怎样保证
确定好内容范围
保证项目的代表性
适用于
测量内容范围明确界定的情况
评价成就测验
对一些员工进行选拔与分类的职业测验
缺陷
缺乏理想的数量指标
表面效度
测验要求被试做的事情和被试对测验要测量东西的理解之间的互动
构念效度
用心理学上某种结构或特质来解释测验分数的恰当程度
目标
测验分数是否为一个具体的构想提供了优秀的测量
特点
构念效度的大小首先取决于事先假定的心理特质理论
当实际测量的资料无法无法证实理论假设时,并不一定就表明测验构念效度不高
多方面证据来检验构念效度
适用于
抽象属性的测验
人格测验、智力测验
评估方法
收集理论证据
测验内方法
内容效度
分析被试测量时的反应
测验的同质性—项目与总分之间的相关
测验间方法—多特质多方法矩阵
与其他测验的相关
发展变化
因素分析
效标关联效度
评价
促使研究者把着眼点放在提出假设、验证假设上,使得测验成为理论研究的重要工具。
缺点在于有些理论构想概念模糊,没有一致性定义,确定效度时没有明确的布置,缺乏单一指标来描述有效程度
效标关联效度
测验分数与某一外部校标之间的一致性程度,即测验结果能够代表或预测效标行为的有效性和准确性程度。
效标
效度标准—独立于测验结果,反映测验目的的行为参照,也称效标行为。通常是指我们感兴趣的行为,可以是任何行为。
分类
观念效标
理论定义
效标测量
操作定义
要求
有效性
实用性
可靠性
客观性
无污染
效标评估方法与测验评估方法不能高度一致
测验者与效标评定者严格分离
常用的效标
学习成绩、临床诊断和治疗;实际工作表现;特殊训练成绩;团体比较;已经具备效度资料的测验
当效标变得容易获得时,它的重要性及其与最终效标的接近程度也就降低了
应注意
在研究时间和经费范围内可靠地被测量到
与大多数测验使用者关注的最终效标相关
方法
验证策略
同时效度
现在状态
预测效度
将来的情况
最根本的区别在于预测效度系数是在必须制定为其决策的随机样本上获得的;同时效度系数是在预先选择的样本上获得的,可能与一般的人群存在系统性差异
计算方法
相关系数法
需要考虑
统计显著性
受样本数量制约
子主题
估计标准误
一个预测分数可能撒谎的范围
S=Sr
决定系数r2xy
效标分数由测验分数造成的变异数的百分比
区分法
两个独立样本的平均数差异的显著性检验T检验
正确率法
总命中率
总命中率=
正命中率
总命中率=
影响因素
测验本身的因素
项目质量
项目数量
测验实施和记分问题
被试的主观方面
取样方面因素
样本的代表性
样本规模
样本的异质性
效标的性质
提高方法
所有提高测验信度的方法均有助于提高测验效度
精心编制测验,避免出现较大的系统误差
进行标准化的测量
选择恰当效标,确定恰当的效标测量方法
选择具有代表性的被试群体
难度P
项目的难易程度
P值越大,表示题目越简单;P值越小,说明题目越难。
具有相对性,是根据样本水平来确定参照点的
计算方法
二分法计分
通过率法
P=
两端分组法
高分组与低分组各占27%
P=
非二分法计分
平均数估计
该项目平均分比上该项目获得的最高分
由于存在猜测问题需要校正
CP=
大小
效标参照测验、掌握测验
不考虑难度
选拔测验
难度接近录取率
选择题
难度一般大于猜测概率
要根据选项数来确定
P=
影响
难度过高或过低会使测验信度降低
难度越高或越低题目区分度就越低
区分度
测验项目对被试心理品质水平差异的区分程度,即鉴别力
数值
正值为积极区分
0.40以上-很好;0.30~0.39-良好,修改会更好;0.20~0.29-尚可,仍需修改;0.19以下-差,必须淘汰
负值为消极区分
不保留
0为无区分
是否保留看情况
区分度具有相对性
对于同一类型的项目必须采用同一种计算方法,结果才能相互比较
计算方法
相关法
项目分数与效标分数(或测验总分)的相关
D=P后测—P前测
D=P掌握—P未掌握
影响
信度随区分度的提高而增长
当难度为1或0时,区分度将是0;难度为0.50时,题目的潜在区分度达到最高
基本原则
信度好
效度高
难度适中
区分度强
浮动主题