测评中的效度与信度_SAAS测评系统

当前位置：首页 > 测评认证 > SAAS测评系统

测评认证

测评中的效度与信度

发布日期：2017-10-10

       效度与信度是测评中的两个基本概念，效度指测量结果的有效性程度，信度指测量结果的一致性和稳定性。
       效度是任何一种测评必须解决的首要问题，一般说来，效度较高的测验，信度也会较高，信度较高的测验则不能保证效度也一定较高。因此，效度是“锦缎”，是关键性指标，信度是“鲜花”，是辅助性指标；先看效度，再看信度。
      好的测评应具有足够的效度和信度
      效度与信度这种“锦”与“花”的关系，使得测量工具的信效度有可能出现三种情况：一、可信且有效；二、可信但无效；三、不可信亦无效。一个好的测量工具，其测量结果应该既有效，又稳定一致，即具有足够的效度与信度。
效度数值的区间是-1到+1，好的个性测评问卷的效度值至少要达到+0.3。而在信度方面，信度系数的区间是0到1，对信度的要求因测验类别的不同而不同，人们通常对标准化测验的信度系数要求在0.90以上，而课堂测验的信度系数则以0.70-0.80之间为可接受。例如，TOEFL托福考试的信度大致为0.95。
       信度有两个主要用途，一是用来评价测验，二是用来对分数作解释。如果同一套测验在对同一测试对象（即受测者本身没有变化）进行的数次测试中，受测者的分数忽高忽低的话，说明该测验缺乏信度。在评价测验时，当信度<0.70时，测验不能用于对个人做出评价或预测，而且不能做团体比较；当0.70<信度<0.85时，可用于团体比较，但不能用于对个人做出评价或预测；当信度>0.85时，才能用来鉴别或预测个人成就或作为。
       五种信度系数
       信度可以视为测试结果受随机误差影响的程度，随机误差越大，信度越低。由于测验分数的误差来源不同，估计信度的方法也有所不同。一般有重测信度、复本信度、分半信度、同质性信度、评分者信度这五种信度系数。
       其中，重测信度又称为稳定性系数，所考察的误差来源是时间的变化所带来的随机影响。它的计量方法是采用重测法：用同一测验，在不同时间对同一群体施测两次，这两次测量分数的相关系数即为重测系数；复本信度是以两个测验复本来测量同一群体，然后求得应试者在这两个测验上得分的相关系数；分半信度是通过将测验分成两半，计算这两半测验之间的相关性而获得的信度系数；同质性信度是指测验内部的各题目在多大程度上考察了同一内容；评分者信度是指不同评分者对同样对象进行评定时的一致性，最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求每份答卷两个评判分数的相关系数。
        如果测验的信度低，分析原因。以成就测验为例，它的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。成就测验的信度试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素，评分是否可靠则要看评分标准是否客观和准确。一般来说，在一个测验中增加同质的题目，可以使信度提高。需要注意的是，增加测验长度的效果应当遵循报酬递减原则。
       名词解释：信度 (Reliability)
       一个好的测量工具，对同一事物反复多次测量，其结果应该始终保持不变。这种不变的稳定性就是信度。信度主要是指测量结果的一致性和稳定性，即测验结果是否反映了被测者的稳定的、一贯性的真实特征。
        测验的信度与测验的效度有着密切的关系。一般说来，效度较高的测验信度也会较高，信度较高的测验不能保证效度也一定较高。也就是说，如果测量是完全有效的，此时测量必然是完全可信的；若测验的信度不足，它也不可能完全有效。如果测验是完全可信的，可以达到完全有效，也可能达不到，因为有可能存在系统误差，虽然缺乏信度必然缺乏效度，但信度的大小并不能体现效度的大小。信度是效度的必要条件，但不是充分条件。

【上一篇：】个性测评有效性的最佳指标
【下一篇：】胜任力模型构建过程中的常见误区