Validez y confiabilidad

Clasificado en Otras materias

Escrito el en español con un tamaño de 11,76 KB

 

VALIDEZ Y CONFIABILIDAD

Validez

Proporciona una comprobación directa de qué tan bien cumple una prueba su función

Para determinarla se requiere de criterios externos e independientes de lo que la prueba intenta medir.

Tipos:

  • De constructo, teórica, estructural o factorial

Busca determinar si el test es coherente con el marco teórico en el que se basa, si es una buena operacionalización del constructo que se quiere medir.

Requiere de la acumulación gradual de diversas fuentes de información.

Para comprobarla se pueden citar correlaciones con otros instrumentos similares como evidencia de que la prueba mide la misma área de la conducta que otras que llevan el mismo nombre. Si la correlación es muy alta significa, sin embargo, que la nueva prueba es una repetición de otra.

Ej.: Si las tres dimensiones de la teoría de la ansiedad de tal autor, se ven en la empíria, si la técnica mide los tres niveles.

  • De contenido

Cuando trabajan los jueces expertos. Examen sistemático de los ítems, de su contenido. Es la única validez que se evalúa al principio, a partir de la elección de los reactivos que se van a usar y a partir de la especificación del área que se va a medir.

Permite determinar si la prueba cubre una muestra representativa del área de conducta que debe medir.

  • De criterio, empírica

Alude al uso práctico de la técnica en el campo de aplicación, indica la efectividad de la prueba para predecir el desempeño del individuo en actividades específicas.

Concurrente

Implica determinar que la técnica da la misma información que se podría obtener por otra vía midiendo el mismo atributo. Se necesita como testigo a otra vía. Para diagnosticar el estado actual más que para predecir resultados futuros.

El instrumento es válido porque proporciona un sustituto más simple, rápido y menos costoso.

Ej.: Tomografía (tumores) + Autopsias. Bender + Mirar a un nene 5 semanas, es una prueba válida porque ahorra tiempo.

Predictiva

Qué capacidad tiene una técnica que se toma ahora de predecir lo que ocurrirá con la variable en un futuro. Es la que menos se usa porque es difícil predecir en psicología y porque es difícil llevar estudios longitudinales de mucho tiempo. No siempre es necesario que se hagan.

Se usa mucho para las pruebas usadas en selección y clasificación de personal. 

La validez de criterio se interpreta mediante el "coeficiente de correlación". Correlación significa covariación entre variables, en que grado varían juntas. No significa causalidad.

    • Si ambas suben o bajan: correlación  +
    • Si una sube y otra baja: correlación  -
    • No hay relación entre las variables cuando r = 0
    • Hay total relación cuando r = 1. Cuanto r más se acerque a 1, más relación entre las variables hay.
    • Validez concurrente: puntuaciones obtenidas por el test en relación a las puntuaciones del criterio externo.
    • Validez predictiva: puntuación presentes y puntuaciones en un futuro.
  • Aparente

No se refiere a lo que la prueba mide, sino a lo que parece medir. Se estudia en el momento en el que la prueba está siendo aplicada al grupo pequeño, en la administración piloto. Se refiere a que la técnica sea válida a los ojos del sujeto, si no lo es puede que el sujeto no responda sinceramente. Se busca lograr una mejor actitud de respuesta por parte de los sujetos.

Para que a una persona que trabaja en una fábrica le parezca que el test es válido, es probable que haya que, por ejemplo, enunciar los problemas en términos de operaciones con máquinas.

No se puede suponer que al mejorar esta validez, mejore también la validez objetiva de la prueba!.

 
 

Confiabilidad

    • Confianza que se puede tener en los resultados obtenidos por la técnica, no ya en el constructo al que se refiere (validez)
    • Se refiere a la consistencia de las puntuaciones obtenidas por las mismas personas cuando se les aplica la misma prueba o una forma equivalente.
    • Muy relacionado al error de medición, ya que la medición de la confiabilidad permite qué proporción de la varianza total de las puntuaciones se debe a la varianza de error.
    • Se refiere a la calidad del test como herramienta de medición.
    • Métodos para evaluar la confiabilidad: cuantos más tenga una prueba mejor. Están descriptos en los manuales y cada vez que la prueba se toma en otro lugar que no sea en el de origen, deben volver a calcularse:
  • Administración de dos test
  • Test / Re-test: Tomar el mismo test al mismo grupo dos veces:
  • Sólo si el grupo es el mismo. 
  • Si no ha pasado nada que pueda afectar su conducta durante el intervalo y que el intervalo sea corto. Si es muy largo los sujetos pueden madurar o cambiar de situación y así cambiar el rendimiento.
  • Las correlaciones test / re-test disminuyen conforme aumenta el intervalo.
  • Pueden haber situaciones de aprendizaje de la técnica.
  • Se calcula el coeficiente de correlación entre los primeros resultados y los segundos.
  • Formas paralelas o equivalentes
  • Los diseñadores construyen un test paralelo que será tomado al mismo grupo: que mide de la misma manera, con la misma cantidad de ítems, con contenidos parecidos, con el mismo nivel de dificultad.
  • Se calcula el coeficiente de correlación.
  • Poco usado ya que es muy difícil crear un test paralelo.
  • Administración única
  • División por mitades

Se toma el test entero. Luego se ingresan los datos a la PC y se dividen por la mitad. Se calcula el coeficiente de correlación como si fueran dos test paralelos. Permite obtener dos puntuaciones del mismo sujeto en una sola aplicación.

Hay diferentes maneras de realizar la división que dependen de las características del test: al azar, por escala, en test de desempeño donde los ítems va de más fácil a más difícil se puede dividir entre pares e impares.

Cuanto más largo es un test más confiabilidad tiene porque evalúa más matices del constructo que quiero medir. Cuando un test es corto, el coeficiente de correlación va a dar bajo porque hay menos ítems, por ese se aceptan coeficientes bajos en este tipo de división.

  • Consistencia interna o covarianza entre ítems

Se refiere a la correlación entre un ítem con el resto de los ítems. De todos los coeficientes calculados se saca un promedio.

Este tipo de análisis se hace cuando no puede realizarse la "División por mitades", cuando, por ejemplo, los test son muy cortos o cuando las mitades no serían equivalentes.

  • Confiabilidad del puntuador

Es en realidad una manera de estandarizar los procedimientos. Se refiere a que dos puntuadores diferentes lleguen al mismo resultado.

Errores:

a. Sistemáticos, Sesgo

    • Relacionado a la validez
    • No es un error que sucede en un sujeto particular, sino que es un error del diseño de la prueba.
    • Impide la medición precisa
    • Como por ejemplo cualquier influencia en la aplicación de la prueba, por ello hay que cuidar los detalles.
    • Hace que el test funcione de diferentes maneras en diferentes grupos, entonces la probabilidad de éxito no es independiente de del subgrupo de población de pertenencia.
    • Ej.: en test clásicos de inteligencia chicos pobres de hoy dan como retrasados, ya que no están relacionados con los contenidos que la prueba plantea, si no conocen qué es un tv no podrán organizar la imagen.
    • Relacionado a las diferencias culturales y las adaptaciones de las pruebas posibles. Las adaptaciones tiene que haberse determinado equivalentes a nivel:
    • Conceptual: Demostrar que el constructo que se quiere medir tiene el mismo significado en ambas culturas. Esto se realiza mediante investigaciones empíricas, y es necesario porque los constructos no son universales.
    • Lingüística: Que todos los elementos incluidos (consignas, ítems, formas de respuesta), verbales o no, tengan el mismo significado en ambas culturas. Se puede ver en el juicio experto y en la administración piloto cuando los sujeto dicen "esta palabra no se entiende…"
    • Métrico: que las calificaciones que los sujetos obtienen en nuestros test sean válidas, confiables y ciertamente que equivalgan a la medición del constructo al mismo nivel que otra persona que tomó la prueba.Cuando un test es normativo hay que volver a hacer los baremos porque no podemos trabajar en Bs. As. con baremos de Uruguay, no son poblaciones equivalentes.
    • La validez del concepto o del instrumento está limitada por el grado de universalidad del mismo. Hay que tener en cuanta:
    • Ético: constructos con características panculares, aquellos que han demostrado características universales.
    • Emico: constructos con características específicas de un grupo cultural.

A nivel conceptual, la distinción entre lo émico y lo ético implica que si hemos de usar un constructo debemos de antemano cercionarnos de que el constructo tiene el mismo significado en la nueva cultura que aquel que se encuentra en la cultura donde se propuso inicialmente.

 
 

b. Aleatorios, Error de medición

  • Relacionado a la confiabilidad
  • No es un error de construcción del test, sino que es aleatorio. Se dan siempre pero por efectos del azar
  • Siempre presentes, pero no deben ser pensados como negativos.
  • Hace que no se pueda medir la puntuación verdadera, siempre hay errores, la puntuación se infiere
  • Fuentes posibles:
  • Examinado: cansancio, mal humor
  • Examinador: por sus actitudes frente al sujeto se puede modificar el rendimiento de los mismos
  • Ambiente: no es lo mismo trabajar con molestias que sin ellas
  • Cuanto más cuiden la condiciones de la toma del test, el rapport, los tiempos más se reduce la el error de medición.
  • El error se puede estimar y están informados en los manuales de las técnicas:
  •  
      Puntuación Verdadera = Puntuación Obtenida +/- Error

    Ej.: En un Test de inteligencia con un error +/- 5, se obtuvo una puntuación de 100, entonces la puntuación se estima en el caso individual:

    PV= 105/100/115