国家5A级协会
全国先进社会组织
国家中小企业公共服务示范平台
当前位置:首页 > 测评认证 > SAAS测评系统

测评认证


测评中的效度与信度

发布日期:2017-10-10
       效度与信度是测评中的两个基本概念,效度指测量结果的有效性程度,信度指测量结果的一致性和稳定性。
       效度是任何一种测评必须解决的首要问题,一般说来,效度较高的测验,信度也会较高,信度较高的测验则不能保证效度也一定较高。因此,效度是“锦缎”,是关键性指标,信度是“鲜花”,是辅助性指标;先看效度,再看信度。
      好的测评应具有足够的效度和信度
      效度与信度这种“锦”与“花”的关系,使得测量工具的信效度有可能出现三种情况:一、可信且有效;二、可信但无效;三、不可信亦无效。一个好的测量工具,其测量结果应该既有效,又稳定一致,即具有足够的效度与信度。
效度数值的区间是-1到+1,好的个性测评问卷的效度值至少要达到+0.3。而在信度方面,信度系数的区间是0到1,对信度的要求因测验类别的不同而不同,人们通常对标准化测验的信度系数要求在0.90以上,而课堂测验的信度系数则以0.70-0.80之间为可接受。例如,TOEFL托福考试的信度大致为0.95。
       信度有两个主要用途,一是用来评价测验,二是用来对分数作解释。如果同一套测验在对同一测试对象(即受测者本身没有变化)进行的数次测试中,受测者的分数忽高忽低的话,说明该测验缺乏信度。在评价测验时,当信度<0.70时,测验不能用于对个人做出评价或预测,而且不能做团体比较;当0.70<信度<0.85时,可用于团体比较,但不能用于对个人做出评价或预测;当信度>0.85时,才能用来鉴别或预测个人成就或作为。
       五种信度系数
       信度可以视为测试结果受随机误差影响的程度,随机误差越大,信度越低。由于测验分数的误差来源不同,估计信度的方法也有所不同。一般有重测信度、复本信度、分半信度、同质性信度、评分者信度这五种信度系数。
       其中,重测信度又称为稳定性系数,所考察的误差来源是时间的变化所带来的随机影响。它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数即为重测系数;复本信度是以两个测验复本来测量同一群体,然后求得应试者在这两个测验上得分的相关系数;分半信度是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数;同质性信度是指测验内部的各题目在多大程度上考察了同一内容;评分者信度是指不同评分者对同样对象进行评定时的一致性,最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。
        如果测验的信度低,分析原因。以成就测验为例,它的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。成就测验的信度试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素,评分是否可靠则要看评分标准是否客观和准确。一般来说,在一个测验中增加同质的题目,可以使信度提高。需要注意的是,增加测验长度的效果应当遵循报酬递减原则。
       名词解释:信度 (Reliability)
       一个好的测量工具,对同一事物反复多次测量,其结果应该始终保持不变。这种不变的稳定性就是信度。信度主要是指测量结果的一致性和稳定性,即测验结果是否反映了被测者的稳定的、一贯性的真实特征。
        测验的信度与测验的效度有着密切的关系。一般说来,效度较高的测验信度也会较高,信度较高的测验不能保证效度也一定较高。也就是说,如果测量是完全有效的,此时测量必然是完全可信的;若测验的信度不足,它也不可能完全有效。如果测验是完全可信的,可以达到完全有效,也可能达不到,因为有可能存在系统误差,虽然缺乏信度必然缺乏效度,但信度的大小并不能体现效度的大小。信度是效度的必要条件,但不是充分条件。