Clasificación de Datos con Conglomerados: Un Enfoque Metodológico Completo
Clasificado en Matemáticas
Escrito el en español con un tamaño de 3,65 KB
Conglomerados: Metodología y Aplicaciones en la Clasificación de Datos
Objetivos del Agrupamiento por Conglomerados
- Desarrollo de Tipologías o Clasificaciones: Se pueden trazar los perfiles o clasificar a las entidades en grupos de entidades semejantes.
- Investigación de Esquemas Conceptuales: Identificar esquemas conceptuales útiles para agrupar entidades.
- Generalización de Esquemas de Clasificación: Los esquemas de clasificación pueden generalizarse y aplicarse a una amplia variedad de estudios.
- Generación de Hipótesis: Mediante la exploración de datos. Si se generan agrupaciones inesperadas, esto sugeriría relaciones a investigar.
- Prueba de Hipótesis: Intentar determinar si los grupos definidos mediante otros procedimientos están de hecho presentes en los datos.
- Reducción de Datos: Se puede obtener una descripción más concisa y comprensible de las entidades con una mínima pérdida de información.
Fase de Diseño en el Agrupamiento por Conglomerados
- Selección de Variables: Se trata de seleccionar las variables con cuidado para evitar incluir variables altamente correlacionadas.
- Estandarización de Variables: Para calcular las distancias entre casos, es necesario convertir las variables a una misma unidad de medida.
- Detección de "Outliers": Detectar los casos con rasgos claramente diferentes a los demás.
- Determinación de la Medida de Distancia: Establecer qué tipo de medida se utilizará para calcular la distancia.
Supuestos Clave para el Agrupamiento por Conglomerados
Es conveniente que se cumplan dos condiciones:
- Representatividad: Los casos seleccionados representan a grupos "reales" en la población.
- Multicolinealidad: Se han eliminado variables que solo aportan información redundante.
Etapa de Extracción de Conglomerados
La etapa de extracción implica cuatro tareas:
- Método de Conglomeración: Hay que seleccionar un método de conglomeración.
- Determinación de las Distancias: Valorar las distancias que existen entre las entidades.
- Determinación del Número de Conglomerados: Establecer el número de conglomerados que van a formar parte de la solución final.
- Replanteamiento de la Solución: Examinar la estructura de cada conglomerado y decidir si hay o no que replantear la solución.
Fase de Interpretación de los Conglomerados
Una vez decidido cuántos conglomerados distinguir, la fase de interpretación implica dos tareas:
- Asignación a Conglomerados: Se trata de asignar las entidades a cada uno de los conglomerados de la solución final.
- Denominación de los Conglomerados: Hay que determinar cuál es el contenido sustantivo de cada uno de los conglomerados y, a partir de ahí, asignarles un nombre.
Validación de los Resultados del Agrupamiento
Se puede valorar en qué medida la presencia o no de una variable puede modificar la agrupación de entidades en conglomerados.
Para determinar en qué medida cada una de las variables contribuye a explicar la agrupación en conglomerados, se utiliza el análisis discriminante. Así, el análisis discriminante puede utilizarse para valorar la consistencia de los resultados de un agrupamiento por conglomerados.