导图社区 第五章:测验的项目分析
这是一篇关于第五章:测验的项目分析的思维导图
编辑于2021-12-18 18:17:06第五章:测验的项目分析
项目分析
定义:项目分析就是对组成测验的每个项目进行分析。
分类
定性分析:内容效度、题目编写的恰当性和有效性;
定量分析:题目的难度、区分度、效度、组间相关及多重选择题的选项分析等。
应用
对项目进行编制、筛选和修订,可以提高测验的信度和效度;
建立试题库、计算机自适应考试。
测验项目的难度
意义——难度(指被试完成测验项目任务时所遇到困难的程度,通常以P来表示。)
能力测验——一个项目的难度或者容易程度;
兴趣、动机和人格——指标为“通俗性”或“流行性”水平,项目难度是指被试反应 符合项目答案的程度。
计算
二分法记分——得分或不得分 (以0、1记分)
通过率(不考虑猜测机率)——P=R/N(P:难度;R:通过该项目的人数;N:全体受测者人数)通过人数越多(即P值越大),难度越低。
极端分组法(以0、1记分人数较多时)——【1】P=(Ph+Pl)/2(P:难度;PH:在一题目上高分组的通过率;PL:在一题目上低分组的通过率)——【2】P=(Ph+Pl)/2n(P:难度;RH:在一题目上高分组答对的人数;RL:在一题目上低分组答对的人数;n:高分组(或低分组)的人数)
非二分法记分——得分在零分到满分间有多种结果:P=X平/Xmax(P:难度;X平:全体被试在该题上的平均得分;Xmax:该题的满分值)
整个测验的难度的计算——算术平均数或加权平均数表示。
测验难度水平的确定
目的——进行项目难度分析的主要目的是为了筛选项目,项目难度水平多高合适,取决于测验的目的以及测验的性质。
相关规则
希望将被试做最大限度的区分时,测验的难度分布宜广,但整个测验的平均难度应确定在0.50左右,而各题难度在0.50±0.20之间。
在标准参照测验或学科测验中,只关注被试的分数是否达到规定的标准,不需要在被试个体间作比较
选拔性测验,难度应接近录取率水平。
人格测验、态度测验以及心理健康测验,难度一般为0.1-0.3,以保证每个被试都能理解题的意思。
对于选择题,难度一般应大于猜测概率。 是非题0.75最为合适,四选一0.63最为合适。
速度测验难度不宜太高,且每个项目的难度都应该基本相等;难度测验要求难度值在0.50左右。
无论是速度测验还是难度测验,一般应防止被试得满分,因为无法了解被试的最高水平。
难度的等距变换
原因:1、P值与日常概念和习惯相反;2、P值没有相等的单位;3、当样本容量很大时,测验分数接近正态分布,可以P值作为正态曲线下的面积,将P值转换成具有相等单位σ 的Z值;4、Z分数:均值为0、标准差为1的标准分数。
转换:
1、当P值作为正态曲线下面积时,从右向左而行。 P值<0.5时,查(0.5-P) P值>0.5时,查(P-0.5),查出相应Z值后再加上负号。 2、转换后Z值越大,难度越高。
Δ=13+4Z(Δ:难度;Z:由P值转换得来的标准分数;Δ在1-25之间变动,平均数为14,标准差为4。Δ值越大,难度越高)
对测验的影响
测验分数的分布形态——一般中等难度的测验其分数分布呈正态,难度过难或过易都会导致分数分布的偏态。
测验分数的离散程度——难度在0.5左右时离散程度最大
测验难度影响测验的信度——难度在0.5左右信度也变得相对较高
测验项目的区分度
测验项目的区分度
意义:又叫鉴别力,指测验项目对被试心理品质水平差异的区分能力或鉴别能力,通常以D来表示。
具有良好区分度的项目,能将不同水平的被试区分开来。 区分度这个概念是针对题目/项目来说的,不存在“测验的区分度”。
作为评价项目质量、筛选项目的主要指标与依据。 必须寻找一个能够准确反映被试水平的客观标准,即效标分数。 一般采用被试的测验总分作为判断其水平的效标分数,作为内部效标,也可以采用外部效标。
D值在-1~+1之间。 D值为正值,称为积极区分。+1表示项目对被试的心理特质能完全区分。 D值为0,称为无区分,表示项目与被试心理特质水平无关。 D值为负值,称为消极区分。-1表示项目与被试心理水平相反。
计算
项目鉴别指数法——二分记法
D=Ph-Pl(D:项目鉴别指数;PH:高分组通过率;PL:低分组通过率)
极端组划分——极端分组时,如样本较大(n>100),一般按照前后25~33%(常见为各取27%)分组; 样本较小(n<100)时,取前后各50%分高低组。
方差法——方差越大,鉴别力越大
相关法——相关高,鉴别力高
点二列相关
适用范围;项目是0、1记分(或二分变量),而效标分数或测验总分是连续变量。
需进行显著性检验
二列相关——适用范围:两个都是连续变量,但其中一个变量被人为地分成两类。 项目分数是连续的,而效标分数或测验总分被分为高、低或及格、不及格两类; 效标分数或测验总分是连续的,而项目分数被分成对、错或通过、未通过两类。
φ相关
适用范围:两个变量都是二分变量
四格表:效标分数或测验总分的高分组与低分组,项目分数的通过与未通过。
积差相关
适用范围:两个变量都是连续变量。
如果采用测验总分,则项目分值越大,其区分度越大。
差异检验法——检验测验总分高分组与低分组的被试在各项目上的得分是否有显著差异,若差异显著,则该项目的区分度较好。
区分度与难度的关系
假如某项目的通过率为1或0,表明高分组或低分组全部通过或者没有人通过,那么此时D=0。
假如某项目的通过率为0.50,有可能是高分组都通过了,而低分组无人通过,那么此时D=1。
难度为1或0时,项目的潜在区分度越小,接近于0;难度为0.50时,项目的潜在区分度越大,接近于1。
难度的控制——若所有项目都完全相关(r=1),且都是0.50的难度水平,则测验结果呈U/V型分布。 实际编制测验时,最好使项目的难度分布广一些、梯度大一些,容易:中等难度:难=3:5:2,且平均水平保持在0.50左右。 一般来说,较难的项目对高水平被试区分度较好,较易的项目对低水平被试的区分度高。
区分度与信度的关系——区分度越高,信度越高
区分度的相对性——不同的计算方法,所得区分度不同; 样本容量大小影响相关法区分度值的大小; 分组标准影响鉴别指数值(D); 被试样本的同质性程度影响区分度值的大小
区分度是针对特定团体而言的。
猜测与项目功能差异分析
猜测与难度猜测校正
猜测误差:大量的猜测会对是非题和选择题的分数产生很大的影响,从而给测量带来误差。
猜测误差的来源
猜相对于不猜引起的误差;
猜测成功与否引起的误差,即猜测过程中因随机得分情况不同所引起的误差。
猜测校正公式(被试团体)CP=(KP-1)/(K-1)CP:校正后的难度;P:未校正的难度;K:备选答案的数目;比较两个选项数目不同的题目难度
得分校正公式(单个被试参加多个项目)S=R-W/(K-1)S:校正后的得分;R:被试答对的项目数;W:被试答错的题目数;K:项目的选项数目
多重选择题的项目分析
正确的备选答案被所有被试选择,说明题目太容易或题目可能提供了某种暗示。
错误答案没有一个被试选择,说明该选项不具迷惑性,错得过于明显。最少要有2%以上的人选择,否则这个备选答案要去掉。
如果被试都选择了同一错误答案,可能是编制测验时把正确答案定错了。
高分组被试的选择集中在两个答案上,二者选择率相近,说明该题可能有两个正确答案或在某种意义上另一个选择也有一定的意义
一个题目被试未作答的人数多(速度测验除外)或选择各个备选答案的人数几乎相等,说明该题可能过难或题意不清。
项目功能差异
项目功能差异表示两组被试在某项目上的表现差异。
功能是不一样的或对不同团体是不公平的。
检测方法
依据总分从两个团体中找出总分相等的受测者,检查他们在某项目上的得分,从难度和区分度方面进行比较,若差异较大,则认为该项目存在项目功能差异。
一旦检测出有项目功能差异,下一步的工作就是探索差异的性质和来源,做出修改或删除的决定。