导图社区 心理测量学
中科院:心理咨询师 - 心理测量学,包含基本概念、经典测验理论、心理测验质量指标等内容。
编辑于2024-01-31 16:23:53《全国计算机等级考试3级教程——信息安全技术(2022最新版本)》是一本全面介绍信息安全领域知识的教材,它依据教育部考试中心制订的《全国计算机等级考试3级信息安全技术考试大纲(2022年版)》编写。以下是该书的主要内容概述,方便您发布到社区共享给他人: 1. **信息安全保障概述**:包括信息安全保障的背景、基础、体系框架以及基本实践方法。涉及信息技术的发展阶段、影响、信息安全的发展阶段、含义、面临的安全风险、问题产生的根源、信息安全的地位和作用以及信息安全技术。 2. **信息安全基础技术与原理**:涵盖密码技术(包括对称密码与非对称密码、哈希函数、数字签名、密钥管理)、认证技术(消息认证和身份认证)、访问控制技术(访问控制模型和访问控制技术)以及审计和监控技术。 3. **系统安全**:探讨操作系统安全和数据库安全的基础与实践,包括操作系统和数据库的安全基础以及安全实践方法。 4. **网络安全**:包括网络安全基础(TCP/IP协议架构和网络协议)、网络安全威胁技术(扫描技术、网络嗅探、网络协议欺骗等)以及网络安全防护技术(防火墙、入侵检测系统和入侵防御系统、PKI、V。
《人工智能导论》是一本全面介绍人工智能基本概念、理论和技术的书籍。它详细阐述了人工智能的发展历史、基本原理和关键技术,以及其在各个领域的应用。本书内容涵盖了机器学习、自然语言处理、计算机视觉、语音识别、知识表示与推理等多个子领域。此外,还介绍了人工智能在医疗、金融、教育、交通等实际应用场景的案例。这本书适合对人工智能感兴趣的学生、研究人员和行业从业者阅读,帮助他们掌握人工智能的核心知识,推动相关领域的发展。
AI人工智能知识,涉及到计算机科学、数学、统计学、哲学、心理学等多种学科的知识 ,总体上归类于计算机学科之下。
社区模板帮助中心,点此进入>>
《全国计算机等级考试3级教程——信息安全技术(2022最新版本)》是一本全面介绍信息安全领域知识的教材,它依据教育部考试中心制订的《全国计算机等级考试3级信息安全技术考试大纲(2022年版)》编写。以下是该书的主要内容概述,方便您发布到社区共享给他人: 1. **信息安全保障概述**:包括信息安全保障的背景、基础、体系框架以及基本实践方法。涉及信息技术的发展阶段、影响、信息安全的发展阶段、含义、面临的安全风险、问题产生的根源、信息安全的地位和作用以及信息安全技术。 2. **信息安全基础技术与原理**:涵盖密码技术(包括对称密码与非对称密码、哈希函数、数字签名、密钥管理)、认证技术(消息认证和身份认证)、访问控制技术(访问控制模型和访问控制技术)以及审计和监控技术。 3. **系统安全**:探讨操作系统安全和数据库安全的基础与实践,包括操作系统和数据库的安全基础以及安全实践方法。 4. **网络安全**:包括网络安全基础(TCP/IP协议架构和网络协议)、网络安全威胁技术(扫描技术、网络嗅探、网络协议欺骗等)以及网络安全防护技术(防火墙、入侵检测系统和入侵防御系统、PKI、V。
《人工智能导论》是一本全面介绍人工智能基本概念、理论和技术的书籍。它详细阐述了人工智能的发展历史、基本原理和关键技术,以及其在各个领域的应用。本书内容涵盖了机器学习、自然语言处理、计算机视觉、语音识别、知识表示与推理等多个子领域。此外,还介绍了人工智能在医疗、金融、教育、交通等实际应用场景的案例。这本书适合对人工智能感兴趣的学生、研究人员和行业从业者阅读,帮助他们掌握人工智能的核心知识,推动相关领域的发展。
AI人工智能知识,涉及到计算机科学、数学、统计学、哲学、心理学等多种学科的知识 ,总体上归类于计算机学科之下。
心理测量
基本概念
心理测量及其基本性质
定义:依据一定的心理学理论,使用测验对人的心理特质进行定量描述的过程
心理测验(工具)实质是对行为样本的 客观性和标准化的测量,包含4要素
行为样本:行为域,即可抽取的行为总体
标准化:测验内容,施测条件(情境指导语,时长等),评分规则,测验常模(提供一个可以比较的参照点)
难度或应答率
信度(可靠性,一致性) 效度(有效性,准确性)
几个重要人物
高尔顿-定量研究;开创个别差异研究等 心理测验第一人
卡特尔-论文《心理测验与测量》 首次提出心理测验术语
桑代克-《心理与社会测量导论》 关于测验理论第一部著作
基本特性
应用的普遍性(可能性:能测的,可测的)
间接性(外界行为表现,例如 答题情况)
心理影响性—客观性(标准化问题,结果客观)
误差存在普遍性(所有测量都是以误差为前提的)
相对性(结果,位置具有相对性,eg:智商)
基本要素
参照点
绝对参照点:绝对零点,eg:体重,身高,反应时
相对参照点:人为确定的零点,eg:海拔,温度
单位
相等的价值,eg:1~2m&2~3m等值
等距:数值一样,实际含义也一样
不等距:数值一样,实际含义不一样 eg:讲师-副教授-正教授
确定的意义,eg:单位m,kg
量表类型
根据某一法则将事物数量化,即在一定单位和参照点的连续体上把事物的属性表现出来的这个连续体称为量表。
称名量表
定义-用数字代表事物的成分或对数字分类
无相等单位
无零点
不能计算
eg:性别的分类,学号的命名
统计方法:频数,众数,百分数,X2检验
顺序量表(等级量表)
定义-数字不仅能代表类别,而且能表明 不同类别的大小和等级,分类和排序
无相等单位
无零点
不能计算
eg:年级的分类排序,职称的评定
统计方法:中位数,百分位数, 等级相关,肯德尔和谐系数
等距量表
定义-不仅能够代表事物的类别和等级,而且有相等的距离和测量单位;分类,排序,+ -
有相等单位
相对零点
可+ - 运算
eg: 温度计,测海拔的,测分数
统计方法:平均数,标准差,积差相关系数, 等级相关,t检验,f检验
比率量表(等比量表)
定义-最完善的量表,除了有命名等级等 距的点,还有绝度零点;分类,排序,+ - x ÷
有相等单位
绝对零点
可+ - x ÷运算
eg:测身高的,体重秤,侧反应时
统计方法:等距+几何平均数变异系数
测验类型
按所测心理特质分类
能力测验
最佳行为测验
智力测验
比内-西蒙,世界第一个智力量表,1905年; 董仲舒一手画方一手画圆(注意测验) 孔子:学生个体数差异;智力分等级
能力倾向测验;包含:一般能力&特殊能力
抓周,唱歌,跳舞,画画 SAT,DAT
成就测验
eg:各种考试
补充:创造力测验
清代 七巧板、九连环(中国式迷津)
补充:教育测验
西周奴隶制-国学-最早教育测验
汉代-岁考制度-开启笔试先河
隋炀帝-科举制-延续1300多年
人格测验
典型行为测验
自陈人格测验
选择题-MMPI,16PF,EPQ,EPPS,YG性格测定
人格投射测验
罗夏克墨迹测验(第一个投射测验),主题统觉测验(TAT),房树人测验,沙盘
几个重要人物和补充
克雷佩林-最早使用自由联想测验诊断精神病人 人格测验的先驱
伍德沃斯-伍德沃斯个人资料调查表 第一个现代意义上的人格问卷
孔子-个性分3类 &刘邵个性分12类 属于 人格测验
按被试评价时所用的参照标准分类
常模参照测验(与一群人比)
以团体为参照背景,以个体在团体中的相对位置来评价个体发展水平的测验;表示一个人在群体中的能力或知识连续体上的相对位置,比如智力测验,能力测验,考研复试;
标准参照测验(与某个标准比)
以测验内容或具体行为标准水平为参照背景对个体做评价,是以个体水平是否达到该领域某一固定标准来评价个体发展水平的测验;只判断测验分数是否达到了某种标准,与他人分数无关;比如考研初试,驾照,心理咨询考试;考验绝对水平
按标准化程度分类
标准化测验-4点要求
测验编制过程标准化
测验实施标准化
测验评分标准化
测验分数解释标准化
非标准化测验
按照实测手段分类
基于计算机的测验(CBT)
计算机化自适应测验(CAT)
基于网络的测验(IBI)
其他分类
按测量方式分
个体测验,eg:斯坦福-比内量表,韦氏智力量表等智力量表,罗夏克墨迹,主题统觉测验;针对特殊群体选择个体测验
团体测验, eg:瑞文推理测验,陆军甲乙测验;自陈人格测验;追求高效经济的选团体测验
按表达内容和反应形式分
文字(纸笔)测验-斯坦福-比内量表/16PF
非文字(操作)测验 瑞文推理测验/罗夏克墨迹测验
按测验功能分
成就测验与预测测验
难度测验与速度测验
难度测验-难易程度-跳水
速度测验-分高稳定; 题易量大-反应时测验/百米赛跑
描述测验与诊断测验
按题目类型分
主观题测验-简答/论文/作文
客观题测验-单选/判断
按要求分
最佳行为测验——尽量答好,有正确答案 如能力测验
典型行为测——按答题习惯,无正确答案 如人格测验
经典测验理论
心理测量误差
含义
在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确也不一致的测量效应
种类
随机误差-由与测量目的无关的、偶然因素引起的不易控制的误差;多次测量结果不一致;方向和变化完全随机;若用一个测验/平行测验反复施测多次,只符合均值为0的正态分布;对测量结果表现不一致也不准确。
系统误差-由与测量目的无关的变量引起的一种恒定而有规律的效应;稳定的存在每测量中,多次测量结果一致;对测量结果表现为一致不准确。
来源
测量工具(系统误差)-以一套测验(问卷)为核心的刺激反应系统(通常称为量表)
题目取样不当
题目格式不妥
难度过高或过低
指导语用词不当
测量对象(随机误差-个体差异)-被试真水平是否得到正常发挥
情绪,动机,反应倾向等
施测过程(最容易控制和检验的)-偶然因素:物理环境,时间,意外干扰等
控制
标准化
测量对象
被试方面-被试接受测量的生理和心理状态稳定
主试方面-主试注意系统规范操作
测量工具
提高编制测验的科学性
注意搜集资料的丰富性和普遍性
注意项目取样的代表性
项目难度有一定分布范围
测验用语简单明了
施测过程
相同的施测情境
相同的指导语
相同的测验时限
评分要具有客观性,对测验结果解释标准化
经典测验理论模型
CTT
数学模型 X(观察分数)=T(真分数)+E(随机误差)
假设推论
若一个人的某种心理特质可以用平行的测验反复测量足够多次,则其观察分数的平均值会接近于真分数。即:E(X)=T或E(E)=0
假设E是服从正态分布的随机变量
真分数和误差分数之间的相关为零。 即:ρ(T,E)=0
假设在于说明E是个随机误差,没有包含在系统误差内
各平行测验上的误差分数之间相关为零。 即:ρ(E1,E2)=0
假设在于说明E是个随机误差,没有包含在系统误差内
方差关系
Sx²=St²+Se²
St²=Sv²+Si²
V测验有关的变异-实验处理 I测验无关的变异-系统误差 系统误差包含在真分数中
Sx²= Sv²+Si²+Se²
心理测验质量指标
信度
定义
文字定义
信度是指测量结果一致性和稳定性程度,即测验分数随时间地点等因素的变化所测结果的可靠性程度
梳理笔记:信度是指相同被试在不同时间和不同场合下,重复用同一种测量工具或等价工具测量某种心理特质所的结果的一致性程度
三种等价公式定义
信度系数:一组测量分数(一个被试团体)的真分数变异与实得分数变异之比(理论定义)
rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx²
信度是一个被试团体的真分数与实得分数的相关系数的平方(理论定义)
rxx=p² (xt)
信度是一个测验x与它平行测验x’的相关系数 (操作定义)
rxx=p(x,x’)
作用
信度是测量过程中随机误差大小的反映
rxx= St²/Sx² = (Sx²-Se²)/Sx²= 1-Se²/Sx²
Se越小,信度越大,Se越大,信度越小
信度不反映测量过程中系统误差的大小
信度可以用来解释个体测验分数的意义
两次测验分数的分数之差可以构成一个新的分布,这个分布的标准差就是测量的标准误SE,它是比测量中误差大小的客观指标,可以通过标准误对团体中任何一个人的测验成绩作出恰当的解释 即对真分数的区间估计
SE=Sx√(1-rxx)
考试一般会给rxx和Sx,先求SE再求T
X-Z*SE ≤T ≤X+Z*SE
信度可以帮助进行不同测验分数的比较
来自不同测验的原始分数是不能直接进行比较的,必须转化成标准分数再比较,具体办法是采用“差异的标准误”来进行显著性检验 观察分数x的差异性检验
SEd=S√(2-rxx-ryy)
t=(x1-x2)/SEd
估计方法分类
重测信度
再信测度/稳定性系数 指的是用同一个量表对同一组被试施测两次所得结果的一致性程度
1个测验,1组被试,测2次 比如:人格测验,速度测验
误差来源:时间;Eg:成长,成熟, 学习,训练,偶然因素,比如幸福感)
计算方法: 皮尔逊积差相关
使用条件
测量工具对测量的个体心理特质在时间上应该是相对稳定的
测量工具所测个体的心理特质应该不存在明显的练习效应和遗忘效应
在两次施测期间不应该进行专门的训练和培训
在报告重测信度时应报告间隔时间长度
复本信度
两个平行测验(复本测验)测量同一批被试所得结果的一致性程度
两个复本测验是连续同时施测,称为等值性系数
2个测验,1组被试,测1次
误差来源:题目内容
两个复本测验相距一段时间分别施测,称为稳定性与等值性系数(对信度严格的检验)
2个测验,1组被试,测2次
误差来源:题目内容&时间
适用:一般应用在量表的研究和研发阶段 不能做成就/成绩测验,因为被试只能做一套试卷,不能同时做2套
计算方法:皮尔逊积差相关
使用条件
能构造出两份及以上的真正平行的测验,即保证在题目内容,数量,形式,难度,区分度,指导语,时限以及所有的例题,公式等各方面都相同或相似
对同一批被试测两份平行测验需要进行合理的时间安排,避免受到练习效应和疲劳效应,迁移效应的影响
测试报告中,详尽说明两次测验的时间间隔,测试的顺序安排,测试过程中被试的有关测验经历(标准化)
内部一致性信度
定义-评价测验各随机组成部分之间是否测量了相同的心理特质,反映题目抽样内容的一致性
分半信度
把一个测验的所有题目随机地划分为成对半的两个部分,然后估计被试再这两部分题目上得分的一致性程度(被试做完整套后再对数据处理分半)
1个测验,1组被试,测1次 成就测验
计算方法:先用皮尔逊积差相关计算再用斯皮尔曼-布朗公式验证:rxx=2*rhh/(1+rhh);考试一般给ab积差rhh;eg,rhh=0.5,求rxx; rxx=2*0.5/(1+0.5)=2/3
使用条件
通常只能施测一次或没有复本情况下使用,而且要求被试在两个分半测验上的得分平均数和方差相等;Sa2=Sb2,否则用佛朗那根公式或卢伦公式
测验无法分半时不能用
测评长度越长,结果越稳定,测验信度越高
误差来源:内容,有关联的题目要求放在同一半,相关高,对内容的分半是否合理
同质性信度
内部一致性系数,测验内部所有题目间的一致性程度
1 个测验,1 组被试,测1 次 成就测验
库德-理查森信度
K-R20
仅适用(0,1)积=记分,单选题,判断题
误差来源:题目内容与心理行为特质的同质
K-R21
仅适用(0 ,1 )积= 记分,且要求所有题目难度接近,因为计算采用平均通过率,单选题,判断题
误差来源:题目内容与心理行为特质的同质
克龙巴赫alpha 阿尔法系数
适用(0,1,主观题-简答题,论述题等)
误差来源:题目内容与心理行为特质的同质
使用条件-要求测验对一批被试测试1次,是更一般化的测验内部一致性信度估计方法
内部一致性信度使用条件
所有题目测的都是同一种特质
所有题目得分之间都是具有较高的正相关
不适用速度测验
在评分测验信度时,不能仅依赖内部一致性系数,多种信度结合使用
评分者信度
多个评分者给同一批被试答卷 进行评分的一致性程度
误差来源:评分者本身
计算方法
2个评分者-皮尔逊积差相关/斯皮尔曼等级相关
3个评分者-肯德尔和谐系数
超过7个评分者-卡方检验x2=k(N-1),df=N-1
适用:主观题计分,eg作文 无法完全客观计分的测验, 比如创造力测验,投射测验
影响测验的信度和控制方法(提高方法)
影响信度因素
被试因素
单个被试:身体健康状况,应试动机,注意力,耐心,焦虑,求胜心,作答态度等会影响被试的心理特质的稳定性
被试团体:团体异质性和平均水平会影响主要以计算相关系数为估计途径的信度大小;团体水平数差异大(异质),高估信度值,同质低估信度值。
异质,全距宽,分布离散,rxx高
同质,全距窄,分布集中,rxx低
标准化改进:选取恰当的被试团体,提高测验在同质性较强的团体上的信度
主试因素
施测者:年龄,性别,外表,言谈举止,表情动作等给被试的印象/压力/暗示,包括不严格按照测验指导语,控制测验过程等会影响不同测验场景下被试的得分分布
评分者:计分不客观,计算分数时出错
标准化改进:主试严格执行施测规程,评分者要严格按照标准给分;标准化指导语,测验时间控制,题目施测顺序,对评分者进行必要的培训,严格控制评分误差,保证评价标准和评分结果的一致性
测量工具-测量工具是否稳定是测量成败的关键
试题取样,题目数量越多,信度越高
试题难度,难度偏低或偏高都不能测量个体间的差异,难度适中最合适最能提高测验的信度
试题间的同质性,同质性越高,信度越高
标准化改进:精心编制测验量表, 避免出现较大的系统误差
适当增加测验长度,增加数量适当,避免过长(过多)避免被试产生练习效应和疲劳效应
新增题目难度适中,控制在中等水平,使所有题目难度接近正态分布,得分分布有较宽的全距
提高题目区分度,使得被试得分分布有较宽的全距
新增题目与原测验内容同质
施测过程
施测环境
温度,光线,声音,空间大小,会影响被试作答的心理状态,测分不稳定,影响信度
意外干扰:停电,生病,试卷印刷错误
标准化改进:施测场地按测验手册要求进行布置,减少无关因素的干扰,比如控制噪声,气温等可能影响被试心理的因素
测验时间间隔
测验时间间隔短,可能会存在练习效应和疲劳效应,太长,被试群体本身行为特质可能有大改变;重测信度和稳定性与等值性系数时,间隔越短信度越高
控制误差来源,标准化
控制随机误差,提高信度的方法-简单总结
把上述影响因素都标准化 详见如上“标准化改进”
适当增加测验项目数量
因素分析(同质)和鉴别力分析(区分性) 加宽全距
控制测验项目难度-适当
选取恰当的被试团体-具有代表性
弱势矫正—控制误差
效度
定义
文字定义
一个测验或量表(测验工具)实际能测出其所要测的心理特质或行为特质的效果和程度-有效性,准确性,有用性
公式定义
一组测验分数中,与真分数有关的真实变异Sv²与总变异数Sx²的比率,用r²xy或V表示效度,rxy为效度系数,r²xy= Sv²/Sx ²
作用
效度是测量的随机误差E和系统误差I的综合反映
效度是个相对概念,是相对一定测量目的而言,测量只能达到某种程度的准确
当测验分数与效标分数成线性关系时,可运用线性回归的知识来通过测验分数对效标分数进行预测
效度与信度的关系
测量信度高是效度高的必要非充分条件
运用公式解释 X观察分数=T(真分数)+E(随机误差) =V(实验处理)+I(系统误差)+E Sx²= Sv²+Si²+Se²
rxx= St²/Sx²= (Sv²+SI²)/Sx²
V=r²xy= Sv²/Sx ²
rxx> r²xy(V)
rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx² 信度由随机误差E引起
效度由随机误差E和系统误差I引起
效度高,信度一定高,信度高,效度不一定高
效度类型
内容效度
定义
指一个测验实际测到的内容与所要测的内容之间的吻合程度(例如,347考研vs考试大纲)
特点
测量行为内容明确且取样具有代表性
权重合理
使用条件
必须定好范围,使测验全部项目均在此范围内
总险项目是已外定内内容范围的代表性样本
适用
具体属性的测验, 比如成就测验,职业测验(选拔& 分类)
不适合能力倾向测验和人格测验(抽象)
确定方法
逻辑分析法(专家评定法)
明确范围
编制双向细目表
eg:行:对考生的要求 列:对考生的考察内容
制定评定量表
常用方法
巴赫克龙法(阿尔法系数法)
求测量同一内容的两套平行测验分数之间的相关(复本信度)
再测法
也叫重测法,指学习某种知识前后参加同一个测验,若后测优于前测,有较高内容效度
经验法
不同被试团体在测验上得分和对每题反应存在差异
eg:一般认为高年级比低年级水平高,若总分随着年级增高而增高,则说明有内容效度
内容效度与表面效度的关系
表面效度的定义
外行人对某个人测验从表面上看好像是测某种心理特质的现象
表面效度会影响被试的动机,间接影响测验的效度,应当适当关注
成就测验要求较高的表面效度,使被试产生较强的动机,否则被试会不信任;人格测验要求较低的表面效应,否则会使被试作假
结构效度 构想效度
定义
指一个测验实际测到所要测的理论结构和特质的程度;或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度,指实验与理论之间的一致性,是以理论支持的假设
特点
结构效度的大小取决于事先假定的心理特质理论
实证资料无法证实理论时,不一定是结构效度不高,可能是理论假设不成立
结构效度是通过测量内容的选择积累起来确定的,即对于一个构念,可能有多种假设,因而不可能有单一数量指标结构效度
适用
抽象概念的测验 比如智力测验,人格测验,自我效能感测验
一般步骤
提出理论假设
推演有关测验成绩的假设——依据理论框架
用逻辑和实证的方法来验证假设
具体方法
测验内部寻找证据
内容效度
同质信度
考察内容效度,分析被 试答题过程,计算同质性信度
测验之间寻找证据
相容效度法
求新编测验与某个已知的能有效测量相容特质的旧测验之间的相关,若相关高,则内容效度高——新旧测验间的相关
区分效度法
求新编测验与某个已知的能有效测量不同特质的旧测验之间的相关,若相关高,则内容效度不高
几个测验中间的相户关联程度
实证效度法
根据效标将人分为两类,考察其得分差异,根据得分分为高低组,考察其效标差异,若差异显著,则结构效度高——考察行为状况
多种特质-多种方法矩阵法
相容效度和区分效度的的综合运用——MTMM
聚合效度-同质不同法
不同测验测量同一特质所得 相关系数高,则相容效度高
例如:用自陈和投射测人格的内倾
区分效度-同法不同质
相似测验测量不同特质所得 相关系数低,则区分效度高
例如:用自陈量表测被试的内外倾和责任
补充:相似测验测量相似特质所得 相关系数高,则信度高
因素分析法
用少量因子概括大量的观察数据;降维工作
CFA-confirmstory factor analysis 验证性因素分析
已知几个维度,施测,得到结果 再验证这几个维度是否正确
EFA-exploratory factor analysis 探索性因素分析
事先不知道几个维度,去探索
实证效度(效标关联效度) 准则关联效应
定义
一个测验对处于特定情境中 的个体行为进行估计的有效性
以实践效果作为检验标准
eg:研究生考试选拔,测验是考试,效标是科研能力,如果科研能力高,则说明效标高
效标
效标指被估计的行为是检验效度的标准,衡量一个测验是否有效的外在标准
效标污染
知道了被试的测验分数而影响 了对其有效分数的评定
选取条件
相关性
效标与目前所评价事物有相关
有效性
效标与所代表的特质之间高度一致
无污染
效标的度量不是基于正在评价的测量结果
客观性
由于效标是根据主观经验评定的, 所以要避免主观偏见
实用性
在有效性保证的前提下, 尽可能简单,省时,可操作
特点
独立存在的,可客观的相关行为特征表现
常用效标
学业成就,等级评定,临床诊断,专门的训练成绩,实际工作表现,对团体区分能力以及其他现成的有效测验
适用
预测结果,比如人事选拔
实证效度的类别
同时效度
效标资料和测验分数同时收集
诊断现状
预测效度
先测验,再根据测验分数确定效标
推测未来
确定方法
明确观念效标
确定效标测量
考察测量分数和效标测量的关系
具体方法
相关法
测验分数与效标测量的相关系数 积差相关,等级相关
区分法
回溯思路法 T检验
被试先接受测验,让其工作一段时间后再根据工作成绩好坏分组,再与之前的测验分数分析比对,差异若显著,则有较高的效度
功利率法
企业成本与效益测量
预期表法
用预测分数与效标分数制成双维图表,并将每个变量按水平分成若干档次,然后例出每个档次上的人数百分比,并从表中看出效标效度的高低
命中率法
测验分数与效标的解释
测验分数
高分(成功)
低分(失败)
效标
高能(成功)
低能(失败)
结果 分高是我们要的,分低的不要 选择了分高后再看效能是否匹配
高分高能=正确接受(A)
高分低能=错误接受(B)
解释:分高的录用了,科研能力却低,虚报
低分高能=错误拒绝(C)
解释:分高的,科研能力强, 我们却拒绝了,漏了个人才,漏报
低分低能=正确拒绝(D)
正命中率
该要的要=分高的
A/(A+B)
负命中率
不该要的不要=分低的
D/(C+D)
总命中率
正确选择的/总人数
(A+D)/(A+B+C+D)
基础率
高能的/总人数
(A+C)/(A+B+C+D)
灵敏度
高能中的高分占比
A/(A+C)
确认度
低能中de低分占比
D/(B+D)
影响效度的因素
所测量的心理特质本身的特点
相关研究不够深入
概念界定不清晰
测量工具结构不稳定
测量工具的构建过程
心里特质界定
测量题目的收集,预测试、题目的分析&筛选、测试质量分析、题目调整、正式测试
标准化,避免系统偏差
测量工具本身的信度
信度是效度的必要条件,测量工具不稳定,影响信度则效度也不能保证
效度验证的被试群体
同一个测量工具,可能会因为测量对象特性的不同而测量到不同的心理特质结构
被试群体越异质,得分分布全距越宽,信度越高效度越高
效标的选取
在验证测量工具的预测能力时,效标本身的信度及其有效性是非常关键的
其他因素
主试方面
不遵守指导语,评分计分出错会降低效度
被试方面
个体身心状态;团体的同质性,必要同质
测量工具
样本对预测内容和结构缺乏代表性
指导语不明,题目语义不清,难度过高过低都会降低效度,测验长度适当
施测过程
出现意外干扰,环境,物理因素
改进方法
标准化
主试方面
严格执行施测过程,评分者严格按标准给分
被试方面
取样有代表性且同质,创设标准应试情境,以让被试发挥正常水平
测量工具方面
精心编制测验量表,避免出现较大的系统误差
施测过程
妥善组织测验,控制随机误差
其他方面
保证测验信度
选好正确的效标
定好恰当的效标测量
正确使用有关公式
难度
定义
难度是指项目的难易程度,一般用通过率P来表示
难度分析主要用于最高行为测验,指在总体中,能够正确回答某项目的人数比率
应答率-典型行为测验
计算方法&公式公式
得分率法
所有被试在该题目上的平均 得分占题目满分的百分比 ,公式-
Pi取值(0,1)适用0,1计分题
极端分组法(0,1)计分 和非(0,1)计分都可以
将被试按测验总分分为高分组和低分组, 以两组得分率的平均值作为题目的难度。
当被试人数较多时可以分三组,采取最高的27%和最低的27%作为高分组和低分组,最后求两组得分率的平均值作为该项目的难度。
公式
P= (PH+PL )/2= (RH/NH+RL/NL )/2
PH ,PL 分别表示高分组和低分组的通过率 RH ,RL 分别表示高低分组的答对人数 NH ,NL 分别表示高低分组的总人数
人少-P=R/N,R为答对人数,N为全体被试数
(0,1)计分
非二分法计分项目中公式
P值越小,难度越大
合理难度分布及其控制
难度分布对测验的影响
难度对测验分数分布形态的影响
测验过难,分数分布呈正偏态
适合筛选性测验,比如英语竞赛
测验过易,分数分布呈负偏态
适合达标性测验,比如中考
难度中等,分数分布呈正态分布 (被试取样有代表性)
难度对测验分数离散程度和信度
难度过难,分数集中在低分端,全距小,信度低
难度过易,分数集中在高分端,全距小,信度低
难度集中在0.5左右最佳, 分数分布范围广,全距大,信度高
难度对测验区分度的影响
难度平均为0.5,这样就能把各水平的人都区分出来
难度位于食物链的顶端
P=0,难,区分度D=0,全距窄, 正偏,rxx小,r²xy小
地板效应
P=1,易,区分度D=0,全距窄, 负偏,rxx小,r²xy小
天花板效应
P=0.5,中等,区分度D=1,全距大, 正态分布,rxx大,r²xy大
难度水平的确定,取决于 测验的目的/项目形式/测验性质 要防止满分,因为满分的意义不明确
常模参照测验,合理项目难度为0.5左右,分布范围应该控制在(0.3-0.7)之间,0.3适合高水平做,0.7适合高水平做(理论上,测验中题目的难度控制0.5+/-0.2比较好)
标准参照测验——不需要难度测验, 因为是用来测验被试是否掌握
选拔性测验,难度控制在录取率,比如考研,考公
选择题难度,难度>猜测率
速度测验难度不宜过高,每个项目难度基本相等
合理难度分布的控制
对题目难度的控制
控制题目考核的知识点记能力 层次来达到控制题目难度
对试卷难度分布的控制
控制题目难度前提下控制不同难度题目的比例来达到所需要的难度分布
选择题的猜测矫正
进行猜测矫正是为了排除由于猜测而答对某些题目致使通过率增大的可能性
全体被试在某个项目数上的通过率的矫正
CP=KP-1/K-1
CP矫正后的通过率,K选项数目,P通过率
某个被试参加多个项目组成的测验的 测验分数的矫正
S=R-(W/K-1)
S为校正后的得分,R为答对的项目, W为答错的项目
区分度
定义
题目对被试特质差异的区分能力,用D表示
分类
D>0,积极区分,高分高能,低分低能
D<0,消极区分,高分低能,低分高能
D=0,无区分作用,无区分
计算方法
相关系数法
基本思想
若题目有好的区分度,高能总高分,低能总低分
基本假设 (题总相关)
项目分数与效标分数的相关作为项目区分度的指标,相关越大,区分度越大
两个计算方式
点二列相关
(0,1)记分,适用真正二分变量, 选择题,判断题
二列相关
(0,1)记分,适用2列连续变量,一列被人为分的两类
积差相关
适用于题目总分均是非二分法的记分相关研究
主观题
项目鉴别指数法
D=PH-PL
方差法
被试在某一项目上的得分越分散,方差越大,则该试题鉴别力越大
Ebel-伊贝尔指标
D>0.4
优秀
D=0.3-0.39
良好,修改后会更好
D=0.2-0.29
尚可,需修改
D<0.19
差,必须淘汰
影响区分度的因素
题目难度
题目难度过难过易都会导致被试在题目上的得分差异很小甚至没有,即区分度小
被试群体的同质性
被试越同质,水平和得分越接近, 差异越小,区分度低
测验各题所测心理特质的一致性
若不一致,测验总得分作为能力高低的人假设不成立,区分度低
题目本身的文字表达和内容质量
题目表述存在差异,题意不清,答案有误,均会降低题目区分度
提高区分度-区分度评价标准化
控制好题目难度
保证题目所测心理特质与 全测验所测心理特质的一致性=同质
题目的语言表述准确规范,题干及答案无歧义
借助选项分析提供的信息对不良选项进行修改
难度=(0.3-0.7)
区分度=Ebel指标