Descripción del Método K-NN y Conceptos de Machine Learning

Clasificado en Informática

Escrito el en español con un tamaño de 2,66 KB

Descripción del Método K-NN

La descripción del método K-NN debe contener al menos las siguientes características para que se dé por válida:

  • En tiempo de entrenamiento el método no hace nada.
  • En tiempo de test, se calcula la distancia de cada ejemplo a clasificar a todos los ejemplos de entrenamiento, quedándonos con los K más próximos.
  • Se asigna como clase, la clase mayoritaria.
  • Se puede utilizar cualquier distancia, no solo la euclidea.
  • Los K vecinos pueden no tener todos la misma importancia, ya que se pueden utilizar distintas estrategias de ponderación de vecinos.
  • Funciona bien en conjuntos caracterizados por no muchos atributos.
  • Es sensible al ruido.
  • ES NECESARIO normalizar, para evitar que unos atributos influyan más que otros en el cálculo de las distancias.

Sobreajuste en Modelos de Machine Learning

El sobreajuste se produce cuando el modelo construido se ajusta en exceso a los datos de entrenamiento, clasificando mal ejemplos no vistos. Para detectar si un modelo está sobreajustado hay que probar si al reducir la complejidad del modelo, el rendimiento al clasificar ejemplos de test, no vistos, mejora. Si se realiza el mismo procedimiento utilizando como test el conjunto de entrenamiento, si hay sobreajuste, el rendimiento del modelo empeorará cuando se reduce su complejidad.

Se produce sobreajuste cuando un modelo presenta un ajuste mucho peor en datos de validación (no usados durante el aprendizaje) que la estimación obtenida con los datos de aprendizaje.

Validación Cruzada

La validación cruzada es una de las opciones para evaluar la capacidad de generalización de un modelo y consiste en dividir el conjunto de instancias en k grupos de forma que el aprendizaje se hará k veces, cada vez se usarán k-1 de los grupos para generar el modelo y el grupo restante para validar. Este sistema permite adaptarse a distintos tamaños de instancias simplemente usando un valor de k apropiado. Sin embargo, el tener que repetir k veces el ajuste del modelo, el coste computacional será alto, especialmente con conjuntos de datos muy grandes.

Información Mutua (IG) y Ganancia de Ratio (GR)

La métrica GainRatio (GR) se define como la relación entre la InfoGain de la clase y una variable predictora dividido por el SplitInfo de esta variable, que es otro nombre para la entropía de la variable. Con esto, la métrica GR consigue paliar el sesgo de IG hacia variables con muchos valores y que conduciría a modelos con sobreajuste.

Entradas relacionadas: