Un desafío de validez: usar las pruebas SEPA con los fines para los que fueron diseñadas

Por Johana Contreras

Es común que, al hablar de pruebas estandarizadas de aprendizaje, rápidamente se les asocie la palabra validez, incluso para cuestionar dicho atributo. Sin embargo, no siempre existe claridad respecto de lo que significa que un instrumento de medición sea “válido” o no.

En el campo de la medición psicológica y educacional, sería correcto referirse a la validez como una propiedad definitiva de un instrumento específico, como si fuera posible caracterizar una prueba usando los adjetivos “válida” o “inválida”. Lo correcto sería hablar de fuentes o evidencias de validez que, en concreto, constituyen argumentos y respaldos a las interpretaciones de los resultados promovidos desde una prueba para un determinado uso.

Un documento que reúne los consensos de la comunidad científica en torno a los estándares de la medición psicológica y educacional (AERA, APA y NCME, 2014), define la validez como “el grado en el cual la evidencia y la teoría apoyan las interpretaciones de los resultados de la prueba para sus usos propuestos”. Es decir, la validez depende de que las interpretaciones de los puntajes de una prueba concuerden con los usos propuestos.

En este sentido, cobra especial relevancia la acumulación de evidencia denominada de usos o consecuencias de la medición.[1] Dicho aspecto se ha vuelto aún más crítico en contextos en los cuales se han detectado usos no intencionados o no esperados de las pruebas estandarizadas de aprendizaje, por ejemplo: para la clasificación de escuelas, asociadas a incentivos o castigos, rankings, decisiones reduccionistas sobre lo que debe o no ser enseñado. Por esta razón, los estándares incentivan a los diseñadores de pruebas y a los responsables de programas de evaluación a explicitar las interpretaciones y usos para los que crean las pruebas.

Considerando lo anterior, una prueba que fue diseñada para evaluar el Estado del Aprendizaje en un momento, no debiese utilizarse para estimar el Progreso en el tiempo; una prueba de evaluación de desempeño de estudiantes no asegura ser un instrumento “válido”, en sí mismo, para evaluar el desempeño docente; un cuestionario de hábitos de vida saludable en la población general, no permite seleccionar a deportistas de alto nivel para ir a las olimpíadas. Esos serían usos e interpretaciones no válidas de los resultados de las pruebas en cuestión.

¿Qué hacemos en SEPA para respaldar la validez de usos y consecuencias de nuestras pruebas?

Distinguimos tres conjuntos de acciones desarrolladas desde SEPA con miras a fomentar un alineamiento entre sus propósitos y las interpretaciones o usos de parte de los beneficiarios.

En primer lugar, no es posible determinar ese alineamiento si las interpretaciones y usos promovidos por el programa no son lo suficientemente explícitos, específicos y basados en evidencia (Kane, 2016). En el caso de las pruebas SEPA, se ha realizado un trabajo de sistematización de las características de las pruebas, de su proceso de construcción, modelos de análisis, escala y datos obtenidos, por mencionar algunos, que se encuentra disponible en el Informe Técnico. Además, recientemente se implementó un estudio destinado a reconstruir la teoría de acción del programa, es decir la descripción del encadenamiento de procesos a través de los cuales el programa espera lograr los resultados propuestos (Patton, 2008; Wylie, 2017). Los resultados del estudio revelan que, si bien es necesario seguir avanzando en la acumulación de evidencia teórica y empírica, existe un discurso coherente y claro sobre los usos esperados y no deseados de las pruebas SEPA. Además, se intenta transmitir ese discurso a los usuarios actuales y potenciales; esfuerzo que no es trivial, pues es usual que la teoría de los programas evaluativos sea implícita o no sistematizada.

En segundo lugar, el programa incluye un acompañamiento en la lectura, uso y gestión de los resultados de las pruebas. Se realiza, así, una mediación orientada a promover interpretaciones y usos acordes con los propósitos del programa, evitando usos no deseados. Se promueven aquellos que se desprenden del enfoque de la evaluación para el aprendizaje (Black & Wiliam, 2009; Heritage, 2010), es decir, cuando los resultados de las evaluaciones se utilizan para la mejora de los procesos de enseñanza-aprendizaje, mediante la reflexión y la toma de decisiones sobre la planificación, preparación y desarrollo de estrategias pedagógicas. Por el contrario, el programa disuade usos relacionados con el establecimiento de rankings entre estudiantes, docentes o establecimientos; los incentivos o castigos materiales, consecuencias en términos de calificación o certificación; y la toma de decisiones no mediadas por la reflexión o, simplemente, el desaprovechamiento y uso limitado de la información evaluativa.

Por último, cada cierto tiempo, el programa implementa estudios destinados a recabar las experiencias y opiniones de los destinatarios de las evaluaciones sobre los usos que ellos les dan y las consecuencias que visualizan en su contexto.
El primer estudio, realizado en una fase inicial del programa (Hein & Taut, 2010), identificó diversos usos de las pruebas SEPA, así como los factores asociados a una alta y baja utilización de la información entregada por las pruebas. Por ejemplo, se constató que un alto uso estaba, generalmente, relacionado con la existencia de condiciones organizacionales propicias a una cultura de la evaluación y con una mediación de parte de un equipo externo al establecimiento. Un estudio más reciente -actualmente en fase de sistematización- permite identificar usos diversos de la información y agruparlos en perfiles según su alineamiento de los usos promovidos por el programa. De este modo, será posible acumular evidencia sobre las situaciones en las cuales exista una brecha entre los propósitos del programa y sus efectos, pero, también, respecto de las posibilidades con que cuenta el programa para avanzar en la reducción de esa brecha y la justificación y respaldo de su propia teoría de acción.

En síntesis, es preciso señalar que estas acciones forman parte de un proceso continuo, por tanto, siempre inconcluso de aseguramiento de la validez de usos y consecuencias. Este proceso, además de constituir un criterio de calidad técnica de los programas de evaluación, responde a lo que se ha llamado la ética de la responsabilidad (Weber, 1993), a saber: que el trabajo del programa de evaluación no solo se guíe por “buenas intenciones”, sino que se responsabilice por las consecuencias de sus acciones.

[1] Otras evidencias de validez necesarias de recabar son, por ejemplo: evidencia de que la prueba evalúa el constructo o referente que declara medir, evidencia de que existe cobertura de los contenidos a medir, de que se activan los procesos cognitivos implicados en la acción de responder, etc.

Referencias bibliográficas

– American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.
– Black, P. & Wiliam, D. (2009). Developing the theory of formative assessment. Educational Assessment, Evaluation and Accountability (Formerly: Journal of Personnel Evaluation in Education), 21(1), 5–31.
– Hein, A. & Taut, S. (2010). El uso de información evaluativa externa con fines formativos: el caso de establecimientos educacionales chilenos participantes de SEPA. RIEE. Revista Iberoamericana de Evaluación Educativa, 3(2).
– Heritage, M. (2010). Formative assessment: making it happen in the classroom. Corwin Press.
– Kane, M. (2016). Validation Strategies: Delineating and Validating Proposed Interpretations. En S. Lane, M. Raymond & T. Haladyna (Eds.), Handbook of Test Development (2^a ed., pp. 64-80). Nueva York, NY: Routledge.
– Patton, M. (2008). Utilization- focused evaluation (4a ed.). California: Sage.
– Wylie, C. (2017). Winsight ™ Assessment System: Preliminary Theory of Action. ETS Research Report Series, 2017(1), 1–17. https://doi.org/10.1002/ets2.12155
– Weber, M. (1993). El político y el científico, Madrid: Alianza Editorial [1967 en español].

Por Johana Contreras

¿Qué hacemos en SEPA para respaldar la validez de usos y consecuencias de nuestras pruebas?

[1] Otras evidencias de validez necesarias de recabar son, por ejemplo: evidencia de que la prueba evalúa el constructo o referente que declara medir, evidencia de que existe cobertura de los contenidos a medir, de que se activan los procesos cognitivos implicados en la acción de responder, etc.

Referencias bibliográficas

Contáctanos

Encuéntranos