Introducción al análisis de correspondencias: una técnica de reducción dimensional

Clasificado en Matemáticas

Escrito el en español con un tamaño de 6,98 KB

Análisis de correspondencias

El análisis de correspondencias es un análisis factorial aplicado a datos no métricos. No hay diferencias de grado, sino de clase. No se puede partir de la matriz de correlaciones ni se puede aplicar el análisis factorial. Para ello se desarrolló el análisis de correspondencias, que trata de reducir dimensiones y comparte los objetivos, pero trabaja con variables categóricas.

Jean Paul Benzecri desarrolló el análisis de correspondencias (apenas tiene 50 años). Trata de reducir las categorías de las variables a un número menor de dimensiones, habitualmente no más de 2 o 3. El objetivo fundamental es la reducción dimensional. Para ello, hay que tomar alguna medida cuantitativa de las categorías, para lo cual usamos las frecuencias. El punto de partida, entonces, es una tabla de contingencia (tabla de correspondencias o frecuencias). Una tabla de contingencia es un conjunto de filas y columnas en donde se relacionan 2 variables, se busca que se cumplan 2 condiciones.

El análisis de correspondencias permite representar la posición relativa de cada una de las categorías de una variable en un espacio de k-1 dimensiones.

El punto de partida es una tabla de contingencia, el estadístico de prueba es X cuadrado. A la hora de reducir categorías a dimensiones hay varios procedimientos dependiendo de las categorías que cojamos:

Métodos de normalización

  • Principal por filas: solamente toma en cuenta las categorías de las variables de las filas.
  • Principal por columnas: solamente toma en cuenta las categorías de las variables de las columnas.
  • Normalización simétrica: toma en cuenta a la vez las categorías de las variables en filas y en columnas. Toma en cuenta la distribución de las categorías de ambas variables.

Cuando la tabla de contingencia es pequeña se puede ver cómo se asocian las diferentes categorías. Si hay pocas categorías, con una simple tabla ya se podría analizar la asociación entre las categorías. Pero cuando hay muchas categorías, no se puede basar solo en la tabla porque es muy complejo. El objetivo es la representación en 2 o 3 dimensiones de cada una de las categorías.

Tipos de categorías

Pueden distinguirse 2 tipos de categorías:

  • Las variables activas se utilizan para definir las dimensiones del espacio.
  • Las variables suplementarias son aquellas que se pueden representar en el espacio, pero no definen ese espacio.

La primera dimensión en el eje X establece mejor la diferencia entre las categorías: se establece mediante el concepto de inercia: tendencia de las categorías a ser neutras. La primera dimensión contiene mayor inercia, también se basa en el autovalor. El autovalor máximo es igual al total de las variables. La segunda dimensión iría en el eje Y, y si hay una tercera, en el Z. Hay un punto donde los valores se cruzan: el centroide. Ambas dimensiones son neutras.

Las categorías que estén más alejadas del centroide son las que mejor definen el contenido de cada dimensión. El número máximo de dimensiones que pueden extraerse es igual al número de categorías en la variable que menos categorías tenga menos uno.

Limitaciones

  • Es una técnica descriptiva como el ACP, no hay pruebas de significación, salvo X2.
  • No hay ningún criterio definitivo sobre cuántas dimensiones hay que extraer y sobre cómo denominarlas. (Hay ayudas, aun así).
  • Aquellas categorías en las que hayan pocos casos pueden distorsionar la distribución gráfica. La inercia depende del número de casos, las categorías muy numerosas estarán cerca del centroide y las poco numerosas estarán más alejado. Las categorías tienen que tener más o menos el mismo número de casos.

Pasos para realizar un análisis de correspondencias

  1. Objetivos: definimos objetivos.
  2. Diseño: delimitamos las condiciones relativas a las variables y al tamaño de la muestra, deben de ser categóricas y ordinales.
  3. Diseño: no se debe aplicar el ADC si una celda en la matriz tiene un valor inferior a 5. Hay que cerciorarse de la frecuencia de las variables. A veces se deben fusionar categorías, si se pudiese, con alguna otra.
  4. Supuestos: el ADC carece de supuestos previos. Las variables han de ser exhaustivas (a ser posible que no haya ningún caso que no pertenezca a alguna categoría) y excluyentes (un mismo caso no puede estar en 2 categorías a la vez). Las categorías tienen que ser comparables.
  5. Extracción: deben establecerse el número de dimensiones en la solución, la medida de la distancia (X2 o la distancia euclídea), el método de estandarización y el método de normalización.

Análisis de correspondencias múltiple

En el análisis de correspondencias múltiple hay que:

  • Discretizar aquellas variables que no contengan valores discretos.
  • Definir un tratamiento para las categorías sin ningún valor conocido (perdidas).
  • Definir el método de normalización (recomienda la simétrica).
  • Determinar si se determinarán categorías suplementarias.
  • Decidir el número de dimensiones que se van a extraer.

Hay que fijarse en:

  • Coeficiente Alfa de Cronbach: en qué medida cada una de las dimensiones representa la diferencia entre las categorías (0-1). Cuanto más alto, mejor representa la dimensión a las frecuencias de las categorías. Debería estar por encima de 0,5 o 0,6.
  • La inercia vendría a ser algo así como la varianza, pero relativa a las frecuencias. El nivel mínimo para extraer una dimensión debería ser igual o superior a 0,2.

En el ADCM estamos interesados en saber qué variables discriminan más. En los valores más altos de la tabla de SPSS de medidas de discriminación, los valores más altos discriminan más. (Discriminar: separar a los que pertenecen a una categoría de otra).

  1. Interpretación: hay que realizar 4 tareas:
    1. Analizar la asociación entre las categorías.
    2. Determinar el contenido sustantivo de cada una de las dimensiones, hasta llegar a denominarlas.
    3. Determinar grupos de categorías.
    4. Establecer la puntuación de cada caso en las dimensiones extraídas.

Perfiles multivariantes: conjunto de características que presentan los que pertenecen a una categoría. Dentro de cada categoría hay distintos perfiles. Pero hay una tendencia a que una categoría esté asociada con otra categoría.

Entradas relacionadas: