Metodología para la Creación y Validación de Conglomerados
Clasificado en Matemáticas
Escrito el en español con un tamaño de 2,84 KB
Conglomerados
Es necesario estandarizar las variables, ya que las unidades de medida son similares. Por tanto, el peso de ninguna variable será excesivo o muy reducido, condicionando la formación de grupos en el análisis de conglomerados.
En lo que respecta a posibles outliers, en el análisis preliminar no se ha detectado ninguno. No obstante, por la propia medición de las variables, si se detectara alguno en fases posteriores del análisis, se trataría de un outlier legítimo y no deberíamos eliminar la observación.
Posteriormente, procederemos a realizar el análisis de conglomerados. Para ello, con base en lo que se recoge en la literatura, incluiremos todas las variables de escala disponibles, pues ninguna parece estar relacionada con las demás (de ser así, podríamos tener problemas asociados a la multicolinealidad).
Nuestro objetivo es establecer grupos donde la distancia entre los elementos del grupo sea lo menor posible y la distancia entre grupos sea lo mayor posible.
Procederemos a contrastar los resultados obtenidos del análisis de conglomerados utilizando, dentro del análisis de clústeres jerárquicos, dos métodos de agrupación en clústeres distintos, con el fin de obtener unos resultados lo más fiables posibles:
Método de agrupación
- Vinculación inter grupos: (medida de proximidad) distancia euclídea al cuadrado.
Después, una vez tengamos una idea sobre cuántas agrupaciones podrían formarse, llevaremos a cabo un análisis no jerárquico (K-medias) para valorar definitivamente el número de grupos que se establecen, así como describir y clasificar cada uno de ellos.
Resultados
Los resultados obtenidos nos hacen dudar entre si debemos establecer 3 o 4 grupos. Por tanto, vamos a realizar un análisis no jerárquico (K-medias), estableciendo 4 y 3 grupos respectivamente.
K=4
Hemos decidido descartar esta primera posibilidad, ya que los grupos no son homogéneos. El primer clúster está formado por sólo 4 observaciones, mientras que el tercero lo componen 12 individuos. Además, si atendemos a la composición de cada grupo, vemos que la media de varios grupos en muchas variables es muy similar. Por ejemplo, la media de participantes del grupo 3 y 4 es de 75 y 78 respectivamente.
K=3
Los grupos son más homogéneos respecto a las variables utilizadas en el estudio, ya que están compuestos por 11, 6 y 13 individuos respectivamente. Y, además, los grupos son heterogéneos entre sí, ya que el valor medio que adoptan las variables en cada uno es razonablemente distinto.
Hemos decidido establecer 3 clústeres. Las variables predominantes en cada uno de ellos serán:… (elegir la variable más alta y baja de cada conglomerado).