Proceso de análisis de cluster y CHAID para segmentación de datos
Clasificado en Informática
Escrito el en español con un tamaño de 1,7 KB
Proceso de análisis de cluster
F1: Planificación: se establece el objetivo, luego se selecciona las variables y finalmente las caracterizaciones de los objetivos que se van a agrupar.
F2: Preparación de la base de datos: se estandarizan las variables, se detectan datos atípicos, luego se comprueban los supuestos del análisis de cluster y se selecciona las medidas de similitud.
F3: Aplicación del modelo: se selecciona el algoritmo, puede ser jerárquico o no jerárquico.
F4: Interpretación de los conglomerados: se ve la calidad de la agrupación y las características de los conglomerados.
F5: Validación: remuestra o validación de experto.
CHAID
a) Definir las variables: Dependiente (cualitativa), K predictores (cualitativa)
b) Unir todas las categorías de la variable independiente que no se diferencian para la variable dependiente.
c) Realizar contraste de Chi-Cuadrado, en cada caso se obtiene un estadístico de contraste y un P-valor que indica el grado de relación entre variable D y cada uno de los predictores.
d) Se realiza la primera segmentación de la muestra, se realiza por el predictor que más influye en la variable dependiente. Con eso se generan tantos nodos como categorías tenga la variable dependiente por la segmentación.
e) Para cada uno de los nodos se repite el algoritmo desde el paso 2.
f) Criterios de parada: 1) Tamaño del nodo 2) Profundidad del árbol. 3) División muy pequeña. 4) No hay predictores significativos.