Conceptos Clave en Procesamiento de Datos y Modelado Estadístico

Clasificado en Matemáticas

Escrito el en español con un tamaño de 4,82 KB

Gestión de Datos Ausentes

Razones de los Datos Perdidos

  • Datos prescindibles
  • Datos censurados
  • Datos erróneos
  • Ausencia de código para la respuesta (Efecto cuestionario)

Estrategias para el Tratamiento de Datos Ausentes

  • Utilizar solo aquellos casos que estén completos.
  • Supresión del caso o de la variable.
  • Imputación: Sustitución de datos ausentes (por la media, por el caso más similar, por un valor constante o por regresión).
  • Enfoque de disponibilidad completa.

Outliers o Casos Atípicos

Los casos atípicos (o outliers) son observaciones con una combinación única de características identificables que les diferencia claramente de las otras observaciones. No pueden ser caracterizados a priori como problemáticos o beneficiosos, sino que deben ser contemplados en el contexto del estudio. Pueden distorsionar los test estadísticos, por ello, es importante entender su naturaleza.

Origen de los Outliers

  • Errores de procedimiento (ej. codificación de datos).
  • Observación que ocurre como consecuencia de un acontecimiento extraordinario.
  • Observación extraordinaria para la cual el investigador no posee explicación.
  • Datos fuera de rango.

Agregación de Variables

En encuestas como la Casen, que poseen dos unidades de análisis (persona y hogar), es posible agregar variables. Por ejemplo, utilizando un comando de agregación, podemos determinar cuántos hijos existen en un hogar específico.

Corrección de Resultados en Muestras

Cuando la muestra no es proporcional a la población, se utilizan mecanismos de corrección que permiten acercar los valores muestrales a los valores poblacionales:

  • Ponderador: Factor de corrección que asigna un “peso” al caso, para que sea representativo del valor de esa población específica.
  • Factor de expansión: Expande la cantidad de casos para simular el valor poblacional.

Análisis de Componentes Principales (ACP)

El Análisis de Componentes Principales (ACP) es una técnica de análisis estadístico multivariable para analizar la interdependencia entre variables.

Objetivos del ACP

  • Se busca combinar "p" variables observadas (o indicadores) en un número menor de "k" variables latentes (no observadas o factores, dimensiones, componentes).
  • El objetivo básico es descubrir diferentes dimensiones de variabilidad común existente en cierto campo de fenómenos que se hace operativo a partir de un grupo de variables, de manera de explicar la mayor cantidad de varianza total de las variables observadas, con la menor cantidad de componentes.

Aplicaciones del ACP

  • Evaluar validez de constructo.
  • Determinar el conjunto de dimensiones detrás de un conjunto de indicadores.
  • Explicar cómo se interrelacionan un conjunto de variables entre sí.

Evaluación del Modelo (ACP)

Matriz de Correlaciones

  • Se basa en variables estandarizadas.
  • Se requiere de varias correlaciones superiores a 0.3.

Criterio KMO (Kaiser-Meyer-Olkin)

Valores pequeños de KMO cuestionan el empleo del modelo factorial, dado que, en ese caso, las correlaciones entre pares de variables no pueden explicarse por otras variables.

Rotación de Factores

La rotación de factores se realiza para facilitar la interpretación de los valores que presenta la matriz factorial, tras la extracción de los componentes.

Las soluciones ortogonales y oblicuas no modifican las comunalidades de las variables ni determinan cambios en la cantidad de varianza explicada por ellas. Solo realizan una mejor distribución de los valores de la matriz de correlaciones original. Al comparar ambos tipos de rotaciones, el resultado no difiere significativamente y no se producen modificaciones en la interpretación de los factores apoyada en estas rotaciones.

Tipos de Rotación

  • Rotación Oblicua: Permite alta correlación entre factores.
  • Rotación Ortogonal: Mantiene baja correlación entre factores.

VARIMAX

VARIMAX es un método de rotación ortogonal que busca reducir el número de variables con pesos altos en un factor, lo que simplifica la interpretación de los factores.

Entradas relacionadas: