Image
Image

EDICIONES UNIVERSIDAD CATÓLICA DE CHILE

editorialedicionesuc@uc.cl

Validez de evaluaciones educacionales en Chile y Latinoamérica

Derechos reservados

CIP-Pontificia Universidad Católica de Chile

1. Evaluación en educación – Chile.

2. Evaluación en educación – América Latina.

3. Calidad de la educación – Chile.

4. Calidad de la educación – América Latina.

I. Manzi, Jorge, editor.

II. García, María Rosa, editor.

III. Taut, Sandy, editor.

image

Diagramación digital: ebooks Patagonia
www.ebookspatagonia.com
info@ebookspatagonia.com

Image

CONTENIDO

INTRODUCCIÓN · Jorge Manzi, María Rosa García y Sandy Taut

Un libro sobre validez

Aportes conceptuales

Aportes técnicos

Capítulos que ilustran procesos de validación

Desafíos en torno a la validez

Para cerrar: estructura del libro

Referencias

¿ES LA VALIDACIÓN UN LUJO O UN BIEN INDISPENSABLE PARA LOS SISTEMAS DE EVALUACIÓN EDUCACIONALES? · Sandy Taut y Siugmin Lay

Resumen

La definición moderna de la validez y la validación

La historia del concepto de validez

Estándares para Pruebas Educativas y Psicológicas

La dimensión política de la validación

Referencias

I. VALIDEZ DE EVALUACIONES DE APRENDIZAJES DE ESTUDIANTES

¿CÓMO VELAR POR LA VALIDEZ DE LAS EVALUACIONES NACIONALES DE APRENDIZAJES? CRITERIOS PRIORITARIOS PARA LATINOAMÉRICA Y EL CARIBE · María José Ramírez y Gilbert A. Valverde

Resumen

Introducción

¿Qué significa validar las evaluaciones?

Criterios de validación

Dimensión de alineamiento de las pruebas con el currículum oficial

Dimensión de validez curricular de los niveles de desempeño

Dimensión de evidencia de validez consecuencial de las evaluaciones

Conclusiones

Referencias

PRÁCTICAS CONTEMPORÁNEAS EN LA VALIDACIÓN CURRICULAR DE EVALUACIONES NACIONALES DE APRENDIZAJES EN AMÉRICA LATINA: ESTUDIO COMPARADO DE CASOS DE CHILE, MÉXICO Y PERÚ · Gilbert A. Valverde y María José Ramírez

Resumen

Introducción

Metodología

Las prácticas de validación curricular en América Latina

Logros, desafíos e implicancias para una agenda de validación para el futuro

Referencias

SISTEMA DE EVALUACIÓN DE PROGRESO DEL APRENDIZAJE, SEPA: EVIDENCIA DE SU CONFIABILIDAD Y VALIDEZ · Andrea Abarzúa y Johana Contreras

Resumen

Introducción

Sistema de Evaluación de Progreso del Aprendizaje, SEPA

Agenda de validación rutinaria en SEPA

Agenda de estudios ocasionales de validación en SEPA

Conclusiones

Referencias

PROCESOS DE VALIDACIÓN DE LA EVALUACIÓN NACIONAL DE LOGROS EDUCATIVOS - ARISTAS: LA EXPERIENCIA DEL INEED (URUGUAY) · Carmen Haretche y Mariano Palamidessi

Resumen

La evaluación estandarizada en Uruguay y la creación y desarrollo del INEEd

Aristas, la Evaluación Nacional de Logros Educativos

Procesos de validación para el uso de los resultados de Aristas

Conclusiones: desafíos relativos al uso de la evaluación

Referencias

VALIDEZ Y LEGITIMIDAD SOCIAL DEL SIMCE: EL PAPEL DE LA EVIDENCIA Y DE LA DELIBERACIÓN · Lorena Meckes y María Angélica Mena

Resumen

Breve recuento de la historia del Simce

Las comisiones externas convocadas para revisar el Simce

Evidencias para apoyar la validez de las interpretaciones de los resultados del Simce

Sobre la legitimidad social y la viabilidad política del Simce

Conclusiones y discusión

Referencias

II. VALIDEZ DE PRUEBAS Y CUESTIONARIOS INTERNACIONALES

COMPARABILIDAD DE LAS PUNTUACIONES: UN COMPONENTE CLAVE DE LA VALIDEZ EN MEDICIÓN EDUCATIVA · Jorge González y René Gempp

Resumen

¿Qué es la comparabilidad y por qué resulta importante para la validez?

Consideraciones técnicas para la comparabilidad entre formas de una misma prueba: equiparación entre formas

Consideraciones técnicas sobre la comparabilidad entre mediciones realizadas en distintas ocasiones: grupos no equivalentes

Consideraciones técnicas sobre la comparabilidad entre pruebas nacionales e internacionales: alineamiento y concordancia entre puntuaciones

Conclusiones

Apéndice: lecturas sugeridas para profundizar en temas de comparabilidad

Referencias

MEDICIÓN DE INVARIANZA FACTORIAL EN PRUEBAS A GRAN ESCALA · Víctor Pedrero

Resumen

Introducción

¿Por qué es necesario medir invarianza en las pruebas a gran escala?

Medición de invarianza y sesgo de medición

Medición de invarianza y validez

Una aproximación al modelo de análisis factorial

Los niveles de invarianza factorial

Índices de bondad de ajuste para evaluar los niveles de invarianza

Otros aspectos sobre la medición de invarianza

Un ejemplo: medición de invarianza factorial de la escala de conciencia ambiental de PISA 2015

Conclusiones

Referencias

INVARIANZA DE LAS ESCALAS DE NIVEL SOCIOECONÓMICO EN ESTUDIOS INTERNACIONALES · Ernesto Treviño, Andrés Sandoval-Hernández, Daniel Miranda, David Rutkowski y Tyler Matta

Resumen

Introducción

Marco teórico

Metodología

Estrategia analítica

Resultados

Discusión

Conclusiones

Referencias

MEDICIÓN DE ACTITUDES HACIA LA IGUALDAD DE DERECHOS ENTRE GÉNEROS EN PRUEBAS INTERNACIONALES: IMPLICANCIAS RESPECTO A SU VALIDEZ · Juan Carlos Castillo, Daniel Miranda y Angélica Bonilla

Resumen

Introducción

El estudio Internacional de Educación Cívica y Ciudadana (ICCS) 2009

Estudios sobre actitudes de género en estudiantes

Datos, variables y métodos

Resultados

Discusión

Referencias

EL DESAFÍO DE ADAPTAR PISA PARA LOS PAÍSES DE INGRESOS BAJOS Y MEDIOS-BAJOS· Catalina Covacevich, Kelly Makowiecki y Tyler Leigh

Resumen

Introducción

¿Qué es PISA y qué mide?

Desafíos para los países de ingresos bajos y medios-bajos que participan en PISA

Cómo la OCDE está aumentando el acceso y la relevancia de PISA para los países de ingresos bajos y medios-bajos: PISA para el Desarrollo

Integración, revisión continua y actualización

Referencias

ASEGURANDO LA VALIDEZ DE LAS COMPARACIONES INTERNACIONALES EN LA ENCUESTA INTERNACIONAL DE ENSEÑANZA Y APRENDIZAJE (TALIS) · Pablo Fraser y Fabián Barrera-Pedemonte

Resumen

Introducción

Contextualizando TALIS

Comparación intercultural en TALIS: sesgo

Comparación intercultural en TALIS: equivalencia

Conclusiones

Referencias

Anexo

III. VALIDEZ DE EVALUACIONES CON FINES DE SELECCIÓN Y CERTIFICACIÓN

VALIDEZ DE SISTEMAS DE EVALUACIÓN PARA LA SELECCIÓN Y CERTIFICACIÓN · María Verónica Santelices

Resumen

Introducción

Instrumentos de medición de altas consecuencia: la importancia de definir sus usos

Pruebas de selección y estudios de validez predictiva

Pruebas de certificación, el proceso de fijación de estándares y su validez

Validez y sesgo en pruebas de altas consecuencias

Validez consecuencial: consecuencias no esperadas en pruebas de altas consecuencias

Cómo integrar evidencia sobre validez de pruebas de altas consecuencias

Conclusiones

Referencias

¿ES VÁLIDA LA PRUEBA SABER 11º COMO CRITERIO DE ADMISIÓN A LAS UNIVERSIDADES COLOMBIANAS? · Julián P. Mariño, Adriana Molina y Yadira Gómez

Resumen

Introducción

El examen SABER 11º

La validez de SABER 11º como criterio de admisión a la Educación Superior

Conflicto de validez de distintos usos

Conclusiones

Referencias

EVIDENCIAS DE VALIDEZ DE LA PRUEBA DE SELECCIÓN UNIVERSITARIA (PSU) · Jorge Manzi y Diego Carrasco

Resumen

Antecedentes generales de las pruebas de admisión universitaria en Chile

Usos de los puntajes de las pruebas

Dimensiones de la validez que son relevantes para este tipo de pruebas

Evidencia acerca de la validez de las PSU

Conclusiones y agenda futura

Referencias

VALIDEZ DEL EXAMEN ÚNICO NACIONAL DE CONOCIMIENTOS DE MEDICINA (EUNACOM) · Beltrán Mena

Resumen

Introducción

Usos del instrumento y habilidades consideradas

Marco de referencia

Confiabilidad

Validez

Evidencia de relación entre el examen teórico y práctico

Evidencia de relación entre Eunacom y PSU

Relación entre la acreditación de las carreras de medicina en Chile y el Eunacom

Conclusiones

Referencias

IV. VALIDEZ DE EVALUACIONES DOCENTES

EVALUACIÓN DOCENTE CON INDICADORES MÚLTIPLES: CONSIDERACIONES CONCEPTUALES Y METODOLÓGICAS EN TORNO A LA VALIDEZ · José Felipe Martínez y María Paz Fernández

Resumen

Introducción

Validez e indicadores múltiples en la evaluación docente: problemas conceptuales

Consideraciones metodológicas sobre validez e indicadores múltiples

Implicancias y consideraciones futuras

Referencias

¿CUÁN VÁLIDOS SON LOS RESULTADOS DE LA PRUEBAS DE CONOCIMIENTOS ESPECÍFICOS Y PEDAGÓGICOS DEL SISTEMA DE DESARROLLO PROFESIONAL DOCENTE EN CHILE? · Edgar Valencia, Martha Kluttig y Beatriz Rodríguez

Resumen

Introducción

Las P-CEP y el sistema de Carrera Docente

Consecuencias de los resultados de las P-CEP

Actores involucrados en el desarrollo de las P-CEP

Elaboración de las P-CEP

Validación de los resultados de las P-CEP

Discusión

Recomendaciones

Futuro

Referencias

PORTAFOLIO EN LA EVALUACIÓN DOCENTE EN CHILE: RECOLECCIÓN DE EVIDENCIA DE VALIDEZ COMO PARTE DEL PROCESO DE CONSTRUCCIÓN DEL INSTRUMENTO · David Torres y Álvaro Zapata

Resumen

Introducción

Usos del portafolio en la Evaluación Docente chilena

Recogiendo evidencia de validez

Modelamiento de constructos y la evidencia de validez

Desarrollo de instrumentos y evidencia de validez

Discusión

Referencias

INTRODUCCIÓN

JORGE MANZI

Pontificia Universidad Católica de Chile

MARÍA ROSA GARCÍA

Pontificia Universidad Católica de Chile

SANDY TAUT

Ministerio de Educación de Bavaria, Alemania

JORGE MANZI

Doctor en Psicología de la Universidad de California, Los Ángeles, Estados Unidos, y psicólogo de la Pontificia Universidad Católica de Chile. Actualmente es profesor titular de la Escuela de Psicología de la Pontificia Universidad Católica de Chile y dirige el Centro de Medición MIDE UC. Sus áreas de especialización son la medición educacional, la psicología social y la psicología política. Durante las últimas dos décadas ha contribuido al desarrollo de mediciones educacionales de alcance nacional en Chile, como la Prueba de Selección Universitaria (fue integrante del Consejo Técnico Asesor del Consejo de Rectores de las universidades chilenas), y el Sistema de Evaluación del Desempeño Profesional Docente. También ha formado parte de los equipos técnicos de pruebas estandarizadas internacionales, como el TERCE y ERCE de UNESCO.

jmanzi@uc.cl

MARÍA ROSA GARCÍA

Psicóloga y magíster en Psicología de la Pontificia Universidad Católica de Chile. Actualmente es profesora asistente adjunta de la Escuela de Psicología de esa misma universidad, y profesional del Centro de Medición MIDE UC. Ha realizado consultorías y docencia principalmente en temáticas relacionadas con la construcción de instrumentos de medición y la evaluación de aprendizajes.

rosagarcia@uc.cl

SANDY TAUT

Directora alterna de la Agencia de Calidad del Ministerio de Educación de Bavaria, Alemania. Doctora en Educación de la Universidad de California, Los Angeles (UCLA), y psicóloga de la Universidad de Colonia, Alemania. Ha trabajado e investigado en temas relacionados con evaluación educacional, calidad docente, instruccional y de escuelas, y validación de sistemas de medición y evaluación.

staut@uc.cl

Un libro sobre validez

Las mediciones educacionales han tenido un fuerte desarrollo en Latinoamérica en los últimos años. Casi todos los países de la región evalúan regularmente el logro de sus estudiantes, varios lo hacen también con fines de selección —por ejemplo, para el acceso a la Educación Superior— y también es cada vez más común el desarrollo de evaluaciones referidas al desempeño docente. Asimismo, las mediciones internacionales han tenido un fuerte impacto que se traduce en el aumento sostenido del número de países de la región que participa y utiliza resultados de PISA, TIMMS y ERCE. Los resultados de estas mediciones, además del uso directo que se les asigna según los propósitos declarados (formativo, de diagnóstico, selección, certificación y promoción), son un antecedente fundamental para juzgar el estado de avance de los sistemas educativos, como también para hacer comparaciones entre grupos (por ejemplo, hombres versus mujeres, grupos socioeconómicos, regionales, etc.), y para estimar tendencias de los logros educativos en el tiempo. En consecuencia, las mediciones se han transformado en herramientas centrales de la política educacional, e inciden fuertemente en la opinión que las elites y los ciudadanos se forman del sistema educativo.

En este contexto, las mediciones en la región han alcanzado un cierto nivel de madurez acompañado del desarrollo de capacidades técnicas para diseñar, implementar y utilizar los resultados de las evaluaciones. Al mismo tiempo, se le han otorgado usos cada vez más amplios que tienen mayor impacto a nivel individual, institucional y nacional. De esta forma, la pregunta fundamental que busca responder este libro es ¿La información que ofrecen estas pruebas y programas de evaluación tiene la calidad suficiente para que estas interpretaciones y usos propuestos sean útiles y defendibles?

Sabemos que no se debieran usar mediciones en el ámbito educativo que no cuenten con estudios que respalden la validez de la interpretación que se hace de sus puntajes, del uso que se da a tales pruebas, así como de la posibilidad de comparar sus puntajes en el tiempo o entre grupos. Sin embargo, sabemos que, a pesar del reconocimiento que usualmente se le otorga a la validez, relativamente pocos programas de medición educacional han acumulado suficiente evidencia para sustentar su interpretación y uso.

El problema es que sin evidencia de validez no es posible saber cómo deben ser interpretados los puntajes o tendencias que resulten de esas evaluaciones, y tampoco es posible respaldar los usos que se hagan a partir de los puntajes, incluso si están explícitamente comunicados o están consagrados en un cuerpo legal. En definitiva, la ausencia de evidencia acerca de la validez representa una seria amenaza para las mediciones, que compromete su valor, así como su viabilidad política y técnica.

En el marco de la revisión de los Estándares para la Medición Educativa y Psicológica, publicados en 2014 (AERA, APA & NMCE, 2014) este libro sistematiza aspectos conceptuales, metodológicos y aplicados a partir de esfuerzos realizados en varios países para validar distintos tipos de evaluaciones educacionales en gran escala, desde las tradicionales que miden logros de aprendizaje de los estudiantes, pasando por recientes mediciones de aspectos no cognitivos, evaluaciones de docentes y pruebas de certificación y selección. Adicionalmente, el libro recoge la experiencia de estudios de validez de los principales programas internacionales que tienen presencia en Latinoamérica (PISA, TIMSS, ERCE, ICCS). Por último, muestra los desafíos que deben ser tenidos en cuenta cuando las evaluaciones se usan para comparar países, grupos o tendencias de logro en el tiempo.

Este libro hace un aporte único en nuestra región por varias razones. Una de ellas es el hecho de que el concepto de validez se ha enriquecido, y este trabajo refleja una visión más contemporánea de este. De acuerdo con los Estándares, la validez refiere a cuánta evidencia existe para respaldar las interpretaciones particulares para los usos específicos que deseamos dar a los puntajes de la prueba. Por lo tanto, no se trata de establecer de manera general que una medición es válida, pues lo que se debe validar es la interpretación y uso de los puntajes en un determinado contexto y para una población definida.

En consecuencia, tal como lo ha planteado Kane (2006), la validación es un proceso que implica reunir evidencia que permita configurar (o refutar) un argumento de validez. La validación comienza al establecer explícitamente las interpretaciones y usos previstos. En este contexto, la validez es un concepto amplio y flexible. El libro ilustra este aspecto, incorporando capítulos que realizan un aporte conceptual a la validez, como se describe más adelante, y otros que revisan evidencia empírica de los puntajes de pruebas, pero también del proceso de construcción de los instrumentos de medición y de las consecuencias de las mediciones, mostrando así la amplitud en base a la cual se entiende actualmente la validez.

Otro aporte indiscutible de este libro se basa en que la validez actualmente se ha instalado como un requerimiento que debiera ser reconocido por quienes deciden crear y usar sistemas de evaluación. Los Estándares son claros respecto a este asunto y señalan que los desarrolladores de pruebas y aquellos que toman decisiones en función de sus resultados son responsables de llevar a cabo estudios de validación. Por tanto, es fundamental que la validez sea contemplada desde que se establece la conveniencia o necesidad de desarrollar un programa de medición, asegurando el presupuesto requerido para aportar suficiente evidencia que permita respaldar o refutar su interpretación y uso. Este requerimiento debiera ser consustancial al uso de mediciones en las políticas públicas, especialmente cuando se establezcan consecuencias de alto impacto para individuos, grupos o instituciones a partir de los resultados de mediciones educacionales.

En tercer lugar, este libro es un aporte invaluable porque ilustra cómo en distintos países se ha estado abordando la recolección de evidencia de validez en diversos sistemas de evaluación educacional. Así, pretende reafirmar la necesidad de que los tomadores de decisiones posean suficiente conciencia sobre esta materia, de manera de que el desarrollo y uso de evaluaciones, especialmente las que tienen más fuertes consecuencias, cuente con suficiente respaldo para las decisiones que se toman a partir de ellas.

A continuación, revisaremos con más detalle las principales contribuciones del libro, considerando: i) aportes conceptuales; ii) aportes técnicos; y iii) capítulos que ilustran procesos de validación a partir de múltiples evidencias o de evidencias específicas. De esta forma, se recorrerán los distintos capítulos de acuerdo con el aporte que realizan. Esta estructura no se corresponde con la tabla de contenidos del libro, la que se describe al final, dado que esta última se organiza en torno a las áreas de evaluación.

Aportes conceptuales

El libro contiene capítulos que constituyen importantes aportes conceptuales respecto a la validez, en determinados ámbitos. El capítulo de Taut y Lay, ¿Es la validación un lujo o un bien indispensable para los sistemas de evaluación educacionales? se destaca en esta línea, y es el que da inicio a este volumen. Comienza con una discusión conceptual sobre la validez, revisando la historia del concepto —tomando en consideración los aportes de los principales referentes: Messick (1989, 1994, 1995), Cronbach (1989) y Kane (1992)—, y situando la definición actual de este constructo basada en los Estándares internacionales para la medición educativa y psicológica (AERA, APA & NCME, 2014). De acuerdo con ellos, resume los cinco ámbitos en los cuales es posible recoger evidencias de validez asociadas a una evaluación: i) basada en el contenido de la prueba; ii) en los procesos de respuesta; iii) en la estructura interna; iv) en las relaciones con otras variables; y v) en las consecuencias de las pruebas. Respecto de esta última fuente de evidencia, los autores discuten la controversia que ha existido entre quienes argumentan que el estudio de las consecuencias asociadas a las evaluaciones no debiera formar parte del concepto de validez (Borsboom, Mellenbergh & van Heerden, 2004; Cizek, 2012; Maguire, Hattie & Haig, 1994; Popham, 1997; Wiley, 1991), y quienes, por el contrario, consideran que es sustantivo estudiar las consecuencias tanto previstas como imprevistas como parte de la validez, sobre todo en aquellas evaluaciones que tienen altas consecuencias para los evaluados (Kane, 2013; Lane, Parke & Stone, 1998; Lane & Stone, 2002; Linn, 1997; Messick, 1989; Messick, 1995; Shepard, 1997).

Este capítulo también aporta al explicar cómo se deben integrar estas diferentes evidencias en una línea de argumentación sobre la validez, y los distintos actores que requieren involucrarse en el proceso. Finalmente, las autoras analizan la dimensión política de la validación, señalando las principales dificultades que se enfrentan cuando la investigación, la política y la práctica convergen al generar una agenda de validación.

Otro capítulo que hace una importante contribución a nivel conceptual es el de Ramírez y Valverde, ¿Cómo velar por la validez de las evaluaciones nacionales de aprendizajes? Criterios prioritarios para Latinoamérica y el Caribe. Su lectura destaca por su aporte innovador en la guía y orientación para desarrollar estudios de validación en el ámbito de las evaluaciones de los aprendizajes de los estudiantes. Los autores proponen diez criterios o estándares de calidad prioritarios para la validación de las evaluaciones de aprendizaje en Latinoamérica y el Caribe (LAC). Y los organizan en tres dimensiones o fuentes de evidencia: i) dimensión de evidencia relativa al alineamiento de las pruebas con el currículum oficial; ii) dimensión de evidencia relativa a la validez curricular de los niveles de desempeño utilizados para reportar los resultados de las evaluaciones, y iii) dimensión de evidencia consecuencial o de impacto de las evaluaciones en la mejora del sistema educativo en general, y en la mejora de los aprendizajes en particular. Para cada una de las dimensiones, describen distintos criterios a considerar y entregan ejemplos de los aspectos que son relevantes de tener en cuenta.

Otro importante aporte conceptual del libro se encuentra en el capítulo de Santelices, Validez de sistemas de evaluación para la selección y certificación, quien aborda el estudio de la validez en contextos de evaluaciones con altas consecuencias a nivel individual, tales como los procesos de selección a la Educación Superior y las evaluaciones asociadas a certificación profesional. La autora discute y entrega ejemplos de los estudios de validez que examinan los usos más frecuentes para este tipo de evaluaciones: estudios de validez predictiva para el caso de la selección a la Educación Superior, y de la validez de estándares de desempeño para la certificación profesional, como es el caso de la Evaluación Docente en Chile. En este último, se describe el proceso de fijación de puntos de corte, a través del cual se define un puntaje (que se asocia a un nivel de desempeño) por encima del cual se considerará que un individuo posee las habilidades o conocimientos necesarios para desempeñar cierta tarea, y el análisis de evidencia respecto de la validez de esas categorías.

Tal como lo proponen los Estándares (AERA, APA & NCME, 2014), Santelices describe la necesidad de comenzar por explicitar los usos que se darán a los puntajes obtenidos en dichas mediciones, lo que puede hacerse por medio del estudio de la teoría de programa o modelo lógico. Posteriormente, analiza algunas de las más importantes limitaciones que presentan los estudios de validez predictiva, asociadas a definir la variable a utilizar como criterio y con la cual se relacionará el desempeño en el instrumento de interés y, también, un problema metodológico común en este tipo de estudios conocido como restricción de rango, que dice relación con la disponibilidad de la variable definida como criterio para la población de interés. Finalmente, discute la relevancia de estudiar como parte del argumento de validez, el sesgo y las consecuencias que los sistemas de selección y certificación puedan estar teniendo, especialmente aquellos no deseados. De particular relevancia son aquellos relacionados con la equidad, dado que inciden en la legitimidad social de la evaluación precisamente por las altas consecuencias asociadas al desempeño individual en estas pruebas.

Finalmente, el análisis de aspectos conceptuales de la validez se completa con el capítulo de Martínez y Fernández, Evaluación docente con indicadores múltiples: Consideraciones conceptuales y metodológicas en torno a la validez. Los autores analizan el estudio de la validez de los sistemas de evaluación docente, revisando los desafíos tanto conceptuales como técnicos que son enfrentados al definir, operacionalizar y medir los aspectos claves de un constructo tan complejo como la práctica docente. En este contexto, parten de la premisa que el objeto de validación no son los instrumentos o indicadores de la práctica docente, sino los juicios o inferencias que se derivan de ellos, y que esto requiere de evidencia de tipos y fuentes diversas. El capítulo considera por tanto los sistemas de evaluación docente que involucran indicadores múltiples, desde la perspectiva de validez de las inferencias sobre el desempeño docente, entregando guía y orientaciones acerca de cómo combinar estos distintos indicadores en un modelo.

Este capítulo realiza un aporte conceptual respecto de las evaluaciones docentes que utilizan múltiples indicadores para evaluar el desempeño, analizando los supuestos explícitos e implícitos que subyacen a los modelos y sistemas modernos de rendición de cuentas y evaluación docente, y sus implicancias para la determinación de la validez de las inferencias sobre el desempeño que se extraen de estos sistemas. Los autores discuten, en primer lugar, los propósitos de los sistemas de evaluación docente y los problemas conceptuales más relevantes relacionados con la definición y operacionalización de los constructos medidos; en segundo lugar, la elección y propiedades de los instrumentos usados para medir estos constructos; en tercer lugar, los enfoques para conceptualizar e investigar la confiabilidad y validez con indicadores múltiples; y, finalmente, las implicancias para el diseño y estudio de sistemas de evaluación docente orientados a mejorar la práctica de los maestros y el aprendizaje, basados en indicadores múltiples. De esta manera, este capítulo es un buen punto de partida para comenzar la lectura sobre los estudios de validez asociados a la evaluación de profesores, dado que ofrece una discusión conceptual enriquecida que permite comprender los principales dilemas y desafíos asociados al alcance de mediciones válidas en este contexto.

Aportes técnicos

Desde otra perspectiva, el libro incorpora capítulos que realizan aportes sustantivos a nivel técnico, respecto del estudio de la validez. En esta línea, González y Gempp, Comparabilidad de las puntuaciones: un componente clave de la validez en medición educativa, establecen la importante conexión entre validez y comparabilidad en pruebas educacionales. Si entendemos que la validez tiene que ver con la interpretación de puntajes, entonces la comparabilidad de los puntajes es una condición necesaria para realizar juicios en pruebas que parcialmente se renuevan en el tiempo, que poseen formas alternativas o cuyos resultados dan lugar a tendencias en el tiempo. El capítulo identifica los distintos tipos de comparaciones posibles, y establece diseños que deben ser considerados por los desarrolladores de mediciones para determinar su comparabilidad. Finalmente discute las metodologías más utilizadas para obtener puntuaciones comparables y entrega recomendaciones prácticas para el diseño de estudios de comparabilidad.

Por su parte, Pedrero, Medición de invarianza factorial en pruebas a gran escala, aborda el potencial problema de que las pruebas puedan poseer un significado diferente para examinados que pertenecen a distintos grupos. Aunque es usual que en la medición educacional se asuma que el constructo o dominio de interés puede ser evaluado en distintos grupos empleando un mismo instrumento, existe consciencia de que este supuesto puede no ser adecuado. El constructo puede poseer un significado diferente entre grupos sociales y culturales al interior de un mismo país, o puede funcionar de diferente manera cuando un instrumento es traducido a diferentes idiomas en estudios internacionales. Para abordar este problema, Pedreros presenta la técnica de la invarianza factorial. Con esta herramienta es posible juzgar el grado en que un instrumento posee un funcionamiento invariante para distintos grupos, caracterizando los niveles de invarianza que se han establecido. Evidentemente, la ausencia de invarianza representa una amenaza importante para realizar comparaciones válidas entre grupos. El capítulo ilustra la invarianza factorial con una escala tomada de un estudio internacional.

Finalmente, el capítulo de Fraser y Barrera-Pedemonte, Asegurando la validez de las comparaciones internacionales en la Encuesta Internacional de Enseñanza de Aprendizaje (TALIS), también aborda el riesgo de invarianza desde la perspectiva del proceso de construcción de escalas en el contexto de un estudio internacional (TALIS). El capítulo orienta hacia la prevención de sesgos en el proceso de construcción, mediante un conjunto de procedimientos que involucran, entre otros, el juicio de expertos, consultas con países participantes, estándares técnicos y análisis del estilo de respuesta. Estos procedimientos debieran aminorar problemas en la equivalencia entre escalas que se aplican en diversos países. La evaluación de esa equivalencia se realiza mediante análisis de la invarianza, tal como se expone en el mismo capítulo.

Capítulos que ilustran procesos de validación

En base a múltiples evidencias

Desde otra mirada, el libro reúne capítulos que se destacan por ilustrar procesos de validación que reúnen múltiples evidencias para emitir un juicio acerca de la validez de un programa o evaluación en particular. Ejemplos de lo anterior son, el capítulo de Valverde y Ramírez, Prácticas contemporáneas en la validación curricular de evaluaciones nacionales de aprendizajes en América Latina: Estudio comparado de casos de Chile, México y Perú, quienes realizan un estudio comparado de programas nacionales de evaluación de aprendizajes en estos tres países de Latinoamérica; el capítulo de Abarzúa y Contreras, Sistema de Evaluación de Progreso del Aprendizaje, SEPA: Evidencia de su confiabilidad y validez, pruebas de lenguaje y matemáticas que se aplican a los estudiantes de Educación Básica y Media del sistema escolar; el de Meckes y Mena, Validez y legitimidad social del SIMCE: el papel de la evidencia y de la deliberación, referente al sistema chileno de evaluación de resultados de aprendizaje escolar; el de Mena, Validez del Examen Único Nacional de Conocimientos de Medicina (EUNACOM), prueba que rinden los médicos chilenos y extranjeros para ejercer en el sistema de salud público en Chile; el capítulo de Valencia, Kluttig y Rodríguez, ¿Cuán válidos son los resultados de la pruebas de conocimientos específicos y pedagógicos del Sistema de Desarrollo Profesional Docente en Chile?, sobre las pruebas que rinden los profesores en el contexto de la Carrera Docente en Chile; y el de Torres y Zapata, Portafolio en la Evaluación Docente en Chile: Recolección de Evidencia de Validez como Parte del Proceso de Construcción del Instrumento, sobre el instrumento que recoge una grabación de clase, junto con artefactos usados por el profesor como parte de su práctica. A continuación, una breve descripción de cada uno.

Para comenzar, el capítulo de Valverde y Ramírez, realiza un estudio comparado de programas nacionales de evaluación de aprendizajes en Latinoamérica, profundizando en los casos de Chile, México y Perú. Los autores analizan en qué medida los programas de evaluación de estos tres países abordan en la actualidad: a) el alineamiento de las pruebas de su sistema de evaluación con el currículum oficial, b) la validez curricular de los niveles de desempeño que se usan para reportar los resultados en sus pruebas y c) la validez consecuencial de las evaluaciones. Para cada una de estas dimensiones, el capítulo explora diferencias y semejanzas en la práctica evaluativa de los países. El análisis se basa en una taxonomía de comparación de dimensiones (lineamientos, criterios y preguntas clave) para la validación de evaluaciones nacionales referida en el capítulo conceptual de estos mismos autores, antes presentado. Concluyen con la identificación de fortalezas y, en especial, de desafíos que faltan por resolver en la validación de evaluaciones nacionales en Latinoamérica.

El capítulo de Abarzúa y Contreras, muestra múltiples evidencias sobre la validez del Sistema de Evaluación de Progreso del Aprendizaje (en adelante SEPA), el que ofrece a sostenedores y directivos de establecimientos educacionales la medición del desempeño de los estudiantes en lenguaje y matemáticas, a lo largo de la trayectoria escolar, a través de pruebas estandarizadas basadas en el currículum nacional. Las autoras parten por describir este programa de evaluación, presentando sus principales propósitos y los tipos de información que produce, para luego proceder a revisar la validez, concebida tal como señalan los Estándares (AERA, APA & NMCE, 2014) como un proceso continuo de recolección de evidencia que sustente los usos e interpretaciones propuestas. De esta manera, revisan primero la agenda rutinaria de validación, que incluye evidencia respecto del contenido de las pruebas, de su estructura interna, y verificaciones de confiabilidad e imparcialidad. Posteriormente, exponen estudios de validez que son realizados de forma más espaciada en el tiempo, destinados a sustentar los argumentos sobre la relación con otras variables (evidencia convergente y discriminante), y sobre los usos y consecuencias de las evaluaciones. De esta forma, este capítulo es un buen ejemplo para ilustrar los distintos tipos de evidencia que, de acuerdo con los Estándares (AERA, APA & NCME, 2014), es posible reunir para juzgar la validez de las interpretaciones y usos de los resultados de una evaluación, en este caso, en el ámbito de los aprendizajes que logran y los progresos que alcanzan los estudiantes del sistema escolar.

Otro capítulo que discute variada evidencia de validez, y que además remite a la discusión conceptual de la validez, es el de Meckes y Mena. En particular, este capítulo se destaca conceptualmente al ampliar la noción de la validez siguiendo a Newton (2007). Este autor considera como parte de los criterios asociados a la validación de un sistema de evaluación, su legitimidad social y su viabilidad política y económica, dado lo gravitantes que pueden ser para la comprensión, instalación y continuidad de un sistema de evaluación. Las autoras utilizan este marco conceptual para analizar las consecuencias y cuestionamientos públicos del Sistema Nacional de Evaluación de Resultados de Aprendizaje escolar chileno (SIMCE). Para esto, revisan los aportes que han realizado comisiones de trabajo externas que han examinado el sistema en dos oportunidades, deliberando y concluyendo con un diagnóstico y recomendaciones para este. Se presenta el método seguido y el aporte de estas instancias no convencionales y complementarias de validación, para analizar el impacto de este sistema de evaluación, cuyas consecuencias para las escuelas no son menores. Este capítulo deja en evidencia la enorme complejidad que implica instalar y, al mismo tiempo, actualizar un sistema de evaluación de esta envergadura, que se mantiene por varias décadas ampliando sus usos a lo largo del tiempo.

Siguiendo esta misma línea, otro capítulo que ilustra diversos tipos de evidencia de validez es el de Mena, referente al EUNACOM. Este examen, que evalúa los conocimientos y habilidades suficientes para ejercer la medicina general, es un requisito legal para que los médicos titulados en Chile y en el extranjero puedan ejercer su profesión en el sistema público en Chile, así como para ser seleccionados en instancias de formación especializada. El autor revisa evidencia de confiabilidad y validez de este examen, considerando múltiples perspectivas relacionadas con su validez de contenido, con la estructura interna del examen, y con la relación con otras variables. Respecto a esta última, se analiza la relación del EUNACOM con: el desempeño de los examinados durante sus estudios universitarios; con antecedentes y exámenes de médicos titulados en el extranjero; con el puntaje en las pruebas de ingreso a las universidades chilenas (PSU); y con la acreditación de las universidades en que se formaron los examinados. Sumado a lo anterior, se revisa la relación entre las secciones teórica y práctica de este examen. La evidencia presentada muestra que existe un buen respaldo para la interpretación y el principal uso de este examen. De esta manera, este capítulo es otro ejemplo que resulta interesante de revisar para vislumbrar las múltiples evidencias de validez que pueden ser pertinentes de incluir como parte de una evaluación que, en este caso, tiene importantes consecuencias a nivel individual, al incidir en la certificación profesional de los evaluados de medicina.

Otro capítulo que muestra múltiples evidencias de validez en el contexto de la evaluación docente, es el de Valencia, Kluttig y Rodríguez. Los autores analizan la evidencia de validez de los resultados de las pruebas de conocimiento disciplinar y pedagógico que rinden los profesores que ejercen en las escuelas públicas en Chile, en el contexto del Sistema de Reconocimiento y Promoción del Desarrollo Profesional Docente chileno (más conocido como Carrera Docente). Como parte del estudio de validación, comienzan por definir los supuestos que subyacen al uso apropiado de los resultados para las decisiones que el sistema busca informar. Luego, sobre la base de evidencia empírica y teórica, argumentan cuán razonable es cada uno de los supuestos, ofreciendo un juicio inicial respecto de la validez de los puntajes de las pruebas. En este contexto, el capítulo constituye un buen ejemplo de referencia para guiar el estudio sobre la validez de un programa, tomando como base la conceptualización de la validez de acuerdo con la perspectiva de los Estándares, los que señalan que la validez refiere a cuánta evidencia existe para respaldar las interpretaciones particulares para los usos específicos que deseamos dar a los puntajes de la prueba (AERA, APA & NCME, 2014). Así, los autores muestran el proceso de validación, reuniendo evidencia para construir (o refutar) un argumento de validez, tal como señala Kane (2006).

Finalmente, un último capítulo que muestra diversas evidencias de validez para un programa de evaluación, también en el contexto de la evaluación docente chilena, es el Torres y Zapata. Los autores abordan la validez del portafolio, instrumento utilizado para evaluar a los docentes en Chile, no desde la perspectiva de los puntajes y resultados obtenidos, sino del proceso que da lugar a esos puntajes, es decir, a partir de la evidencia asociada al proceso de construcción de este instrumento. La relación entre el desarrollo del instrumento y la recolección de evidencias de validez es abordada desde el marco conceptual de Modelamiento de Constructos de Wilson (2005), en que relacionan las distintas fases de la construcción de un instrumento con distintas fuentes de evidencia de validez consideradas en los Estándares (AERA, APA & NCME, 2014) informando así un argumento de validez (Kane, 1992). De esta forma, el capítulo enfatiza el valor de entender el proceso de validación como una parte integral de la construcción de un instrumento de medición, no solo para documentar con posterioridad la evidencia que respalda los usos intencionados, sino también, para examinar la calidad del instrumento en un marco de mejoramiento continuo.

En base a evidencias específicas

Por otra parte, el libro reúne capítulos que presentan evidencia de validez más específica y acotada, asociada en general a uno de los tipos de evidencias propuestos en los Estándares (AERA, APA & NCME, 2014). Ejemplos de lo anterior son: a) presentar evidencia de validez asociada al proceso de construcción de instrumentos, como es el capítulo de Haretche y Palamidessi, Procesos de validación de la Evaluación Nacional de Logros Educativos - Aristas: la experiencia del INEEd (Uruguay); b) mostrar evidencia de relación con otras variables, en particular, asociada a la validez predictiva de pruebas de selección universitaria, como lo son los capítulos de Manzi y Carrasco, Evidencias de validez de la Prueba de Selección Universitaria (PSU), y el de Mariño, Molina y Gómez, ¿Es válida la prueba SABER 11º como criterio de admisión a las universidades colombianas?; c) abordar la invarianza como atributo sustantivo para apoyar la evidencia de validez, como son los capítulos de Castillo, Miranda y Bonilla, Medición de actitudes hacia la igualdad de derechos entre géneros en pruebas internacionales: Implicancias respecto a su validez, basados en la prueba internacional ICCS, o también, Treviño y autores, Invarianza de las escalas de nivel socioeconómico en estudios internacionales, quienes abordan la invarianza de este constructo en distintas pruebas internacionales (PISA, TERCE e ICCS); d) analizar los ajustes que se realizan a un programa de evaluación internacional para favorecer la validez de los resultados de la evaluación, dada la cada vez mayor heterogeneidad de los países participantes, como es el capítulo de Covacevich, Makowiecki y Leigh, El desafío de adaptar PISA para los países de ingresos bajos y medios-bajos. A continuación, describimos en más detalle el aporte de cada uno.

Haretche y Palamidessi, describen evidencia de validez asociada al proceso de construcción de los instrumentos de ARISTAS, la evaluación de logros que lleva adelante el Instituto Nacional de Evaluación Educativa (INEEd) en Uruguay desde 2017. Un aspecto interesante de resaltar de este capítulo, tiene relación con que ARISTAS evalúa el logro educativo desde una concepción amplia, que incluye no solo las dimensiones cognitivas asociadas al desempeño de los estudiantes en lectura y matemáticas, sino que además considera como logros del sistema educativo las mejoras en el entorno escolar, el desarrollo de habilidades socioemocionales, las actitudes hacia la convivencia y participación, y las oportunidades de aprendizaje que los docentes ofrecen a sus estudiantes en las aulas. Todas estas dimensiones son evaluadas en 3º y 6º de Primaria y en 3º de Educación Media. En el capítulo, los autores muestran evidencia de validez asociada al proceso de construcción de las pruebas para evaluar lectura y matemáticas, y de los cuestionarios para estudiantes que evalúan las habilidades socioemocionales, junto con evidencia sobre la estructura interna de ambos instrumentos.

Por otra parte, el capítulo de Manzi y Carrasco sintetiza la evidencia acumulada acerca de la validez del test con más altas consecuencias individuales en el contexto chileno: la Prueba de Selección Universitaria (PSU). El foco principal está puesto en la validez predictiva, aspecto que Santelices en su capítulo había resaltado como un requerimiento principal para pruebas de selección. Además de aludir a la evidencia predictiva centrada en el desempeño de los estudiantes en su primer año de estudios en la universidad, el capítulo incluye antecedentes que proyectan la capacidad predictiva más allá de dicho periodo, especialmente como predictor de la movilidad o deserción universitaria. Complementariamente, el capítulo también aborda la evidencia existente acerca del alineamiento curricular de las PSU, a partir de una revisión internacional de estas pruebas, y se analiza la evidencia referida a la validez y predicción diferencial de los puntajes, que permite abordar la posibilidad de que sus puntajes estén socialmente sesgados (en este caso, considerando el sexo y el tipo de establecimiento educacional de origen, que en el caso chileno se asocia estrechamente con el origen socioeconómico).

El capítulo de Mariño y autores revisa la evidencia de validez predictiva de la prueba SABER 11º, utilizada para la admisión a las universidades colombianas, en relación con el rendimiento académico que obtienen los estudiantes en la universidad. Los autores comparan la capacidad predictiva de las pruebas de conocimiento específicas usadas hasta ese momento como criterio de admisión a la universidad (ciencias sociales, lenguaje, matemáticas, biología, física y química), con las nuevas pruebas de conocimiento genérico (lectura crítica, razonamiento cuantitativo y competencias ciudadanas), en relación con su capacidad para predecir el promedio acumulado de notas obtenidas durante el primer semestre de la universidad. En el capítulo se muestra el análisis de las diferencias encontradas entre ambas pruebas (de conocimiento específico versus habilidades genéricas), fundamentando el cambio en el uso de pruebas de conocimiento genérico como criterio de admisión a las universidades colombianas. Asimismo, discuten acerca de la complejidad que representan los múltiples propósitos que tiene el examen, y las implicancias que esto representa para el estudio de la validez.

Por otra parte, otro ejemplo de capítulo que revisa evidencia específica de la validez es el de Castillo, Miranda y Bonilla. Los autores, analizan datos del International Civic and Citizenship Education Study (ICCS), que además de la medición de conocimiento cívico, considera una serie de instrumentos relevantes en el concepto de ciudadanía, orientados a la medición de actitudes, creencias y comportamientos. En particular, los autores analizan la evidencia de validez de la escala de actitudes respecto a igualdad de derechos entre hombres y mujeres, considerando para esto el estudio de invarianza factorial. Este capítulo realiza una importante contribución al libro, al problematizar el uso de las variables que incorporan las bases de datos de estos cuestionarios, que se basan en índices compuestos de escalas que abordan una misma temática, mostrando que no siempre cuentan con suficiente evidencia de validez. Los autores alertan sobre las consecuencias que tiene para la interpretación de resultados usar estas escalas tal y como vienen, y muestran los análisis que resultan relevantes de realizar para sustentar evidencia de validez.

Otro ejemplo es el capítulo de Treviño y autores, quienes a partir de los datos de tres estudios internacionales: PISA, TERCE e ICCS, analizan la invarianza de las escalas de NSE. En específico, buscan mostrar análisis que aseguren la validez de las comparaciones entre países. Estos análisis se vuelven cada vez más relevantes, en el contexto de que las mediciones internacionales han ido crecientemente incorporando países más diversos, de menores niveles de desarrollo, que son comparados en sus resultados con aquellos países de mayor progreso económico, para los que la medición fue originalmente concebida. Así, la contribución fundamental de este capítulo tiene relación con la comparación que hacen sobre el uso de estas escalas entre países similares, en este caso, América Latina, con la totalidad de países participantes, que tienen una diversidad de sistemas educativos. Los autores alertan sobre las dificultades que se encuentran al comparar a todos los países partícipes, sugiriendo, por tanto, que las comparaciones entre países deben realizarse con precaución.

Un último capítulo a ilustrar en esta línea es el de Covacevich, Makowiecki y Leigh, quienes describen el Programa para la Evaluación Internacional de Estudiantes (PISA) para el Desarrollo, un proyecto que la OCDE está llevando a cabo como una forma de responder a los desafíos que implica adaptar una medición internacional a una cada vez mayor heterogeneidad de países participantes. PISA está diseñada para evaluar si los estudiantes de 15 años de edad han adquirido el conocimiento y las habilidades necesarias para una participación plena y significativa en la sociedad. En sus inicios, contó con la participación de países de ingresos medios altos y altos, pero cada vez ha aumentado la presencia de países de ingresos bajos y medios bajos, lo que representa un desafío para la validez de los resultados de la evaluación, en cuanto a representar adecuadamente una gran heterogeneidad de puntajes y niveles de competencias existentes. Así, el proyecto PISA para el desarrollo refina las medidas estándar PISA de rendimiento académico y de contexto, pilotea una versión complementaria de esta evaluación dirigida a jóvenes no escolarizados y ofrece más apoyo para el desarrollo de capacidades para que los países administren la evaluación y analicen sus resultados. Los futuros ciclos de PISA incorporarán las mejoras, las lecciones y las adaptaciones de los instrumentos de PISA para el desarrollo, con el objetivo de aumentar la relevancia y validez de dicha prueba entre los países de ingresos bajos y medios, al tiempo que se mantiene la comparabilidad entre todos los países.

Desafíos en torno a la validez