Segmentación de Preferencias en Cines: Metodología de Clustering y Validación Estadística

Clasificado en Matemáticas

Escrito el en español con un tamaño de 7,06 KB

1. Filtrado de Datos: Muestra Aleatoria

Este paso inicial consiste en la selección de una muestra aleatoria de casos para el estudio, asegurando la representatividad de los datos.

2. Objetivo del Estudio

El objetivo principal es identificar grupos de encuestados en categorías específicas, basándose en sus preferencias o en la importancia que otorgan a las diferentes características de los cines.

3. Variables Involucradas

3.1. Variables Principales (P13.1 a P13.5)

  • Escala: Intervalo.
  • Naturaleza: Directa (donde 1 significa "sin importancia").
  • Características: Escala forzada y no sesgada.

3.2. Variables Adicionales

Se incluyen las preguntas P14, P15 y diversas variables demográficas.

3.3. Clasificación de Variables

Las variables se clasifican en dos tipos:

  • Métricas: Variables de ratio o intervalo directo (ej. escala de 1 a 5, donde 1 es igual).
  • No Métricas: Variables nominales o dicotómicas.

4. Análisis de Resultados: Clustering Jerárquico

4.1. Uso de SPSS: Dendrograma

Mediante el dendrograma generado en SPSS, se procede a la identificación de clústeres:

  • Umbral 1 (línea vertical): Permite identificar 2 clústeres al intersectar horizontalmente.
  • Evaluación: Se recomienda evaluar al menos 3 umbrales diferentes para una comprensión completa de la estructura de los datos.

4.2. Selección del Umbral Óptimo

Para la determinación del número ideal de clústeres:

  • Se considera la posibilidad de 3 o 6 clústeres, dado el tamaño de la muestra (400 datos).
  • No obstante, debido al número limitado de variables (5), la solución se optimiza y se corre para 3 clústeres.

5. Análisis de Resultados: Clustering K-medias

5.1. Consideraciones Previas

Es crucial deseleccionar casos atípicos antes de ejecutar el algoritmo K-medias para asegurar la robustez de los resultados.

5.2. Uso de SPSS: Historial de Iteraciones

Se debe revisar el historial de iteraciones para verificar la convergencia del método:

  • Criterios de Convergencia: ¿El método converge? ¿En cuántas iteraciones? ¿En qué iteración específica se alcanza la convergencia?
  • Confirmación de Convergencia: En este caso, el método converge en la iteración 10, ya que todos los centroides muestran un cambio de 0.000, indicando estabilidad.

5.3. Verificación de Datos en Clústeres

Es importante verificar si existen clústeres con datos atípicos o perdidos.

5.4. Uso de SPSS: Tabla de Frecuencias de Clústeres

La tabla de frecuencias de clústeres permite evaluar la distribución de los casos. Se considera que no hay grupos con datos atípicos si todos los clústeres representan más del 5% del total de datos válidos.

Estructura de la Tabla:

  • Clúster
  • Frecuencia
  • % Válido
  • Total
  • Perdidos

6. Validación de Clústeres: ANOVA para Variables Métricas

Para validar las diferencias entre los clústeres en relación con las variables métricas, se aplica el Análisis de Varianza (ANOVA).

6.1. Aplicación y Prueba Post-Hoc

Se recomienda aplicar ANOVA para cada variable métrica. Si se detectan diferencias significativas, se debe utilizar la prueba post-hoc de Tukey para identificar qué pares de clústeres difieren.

6.2. Formulación de Hipótesis (Ejemplo: Importancia de Dulces)

  • Hipótesis Nula (H0): Mclúster1,dulces = Mclúster2,dulces = Mclúster3,dulces
    • Interpretación H0: "Los clústeres consideran igualmente importante la presencia de carritos de dulces en la sala."
  • Hipótesis Alterna (H1): Mclúster_i,dulces ≠ Mclúster_j,dulces
    • Interpretación H1: "No todos los clústeres consideran igualmente importante la presencia de carritos de dulces en la sala."

6.3. Tabla de Resultados ANOVA

Los resultados se presentan en una tabla con las siguientes columnas:

  • Variable
  • F-estadístico
  • Sig. (Valor p)
  • Conclusión
  • Nivel de Confianza (NC)

7. Validación de Clústeres: Chi-cuadrado para Variables No Métricas

Para las variables no métricas, se utiliza la prueba de Chi-cuadrado (χ²) para determinar si existen asociaciones significativas entre la pertenencia a un clúster y las categorías de estas variables.

7.1. Tabla de Resultados Chi-cuadrado

Los resultados se presentan en una tabla con las siguientes columnas:

  • Variable
  • Valor del estadístico
  • Sig. (Valor p)
  • Conclusión
  • Nivel de Confianza (NC)

8. Resumen de Resultados y Perfilado de Clústeres

Esta sección consolida los hallazgos para perfilar cada clúster de manera detallada.

8.1. Descripción de los Clústeres

Se proporciona una descripción cualitativa de cada clúster identificado.

8.2. Elementos del Grupo: Caracterización por Frecuencia

Para caracterizar cada clúster, se utiliza la tabla de frecuencias, mostrando la frecuencia absoluta y el porcentaje válido de cada categoría dentro del grupo.

8.3. Jerarquía de Importancia (de Menor a Mayor)

8.3.1. Para Variables Métricas (ANOVA y Tukey)

Se establece una jerarquía de importancia para las variables métricas:

  • Aplicar la prueba post-hoc de Tukey para comparar los clústeres (ej. clúster 1 al 3) para todas las preguntas relevantes.
  • Alternativamente, interpretar el ANOVA general si el valor de significancia es globalmente significativo.
  • Nota: Si hay tres clústeres y el intermedio no muestra diferencias significativas con los extremos, puede ser agrupado o su comportamiento se describe en relación con los otros.

8.3.2. Consideración Especial para Variables sin Diferencias Significativas

Si una variable métrica no muestra diferencias significativas entre clústeres (es decir, se comporta como un solo grupo), su importancia general (media total) se interpreta de la siguiente manera:

  • Valores por encima de 3 (en una escala de 1 a 5) indican alta importancia para todos los encuestados.
  • Valores por debajo de 3 indican baja importancia para todos los encuestados.

8.3.3. Para Variables No Métricas (Chi-cuadrado)

Para las variables no métricas, se presentan los porcentajes de la tabla de contingencia para cada clúster. Adicionalmente, se incluye el valor de significancia asintótica de la prueba Chi-cuadrado de Pearson para la variable total, indicando la asociación general.

Entradas relacionadas: