Canasta, reglas de asociación, soporte, confianza, lift y más

Clasificado en Informática

Escrito el en español con un tamaño de 3,73 KB

Canasta:

Son los datos que se encuentran en un conjunto de datos, como en las enfermedades están los síntomas, nos ayuda a entender al individuo, su comportamiento, tomar acciones y generar insights.

Reglas de asociación:

Técnica utilizada para describir la relación entre elementos de un conjunto de datos relevantes. Su estructuración es X el antecedente, Y consecuente. La importancia de esto es que nos permite ver cómo se relacionan en nuestra BD para agregar o no datos a disposición.

Soporte:

% de transacciones en las cuales ocurre la regla. Soporte (A→B) = frecuencia(AB) / total

Confianza:

Probabilidad de una transacción de contener B, dado que se compró A. Confianza(A→B) = frecuencia(AB) / frecuencia(A)

Soporte(A):

% de transacciones en las cuales ocurre A. Soporte (A) = frecuencia(A) / total

Lift:

Cuánto aumenta la probabilidad de un suceso Y, dado la existencia de X. Confianza (X → Y) / Soporte (Y)

¿Cuál es la gracia de conocer el soporte o la confianza de las reglas?

Nos permite discriminar cuáles combinaciones son mejores que otras, ya que al conocer la confianza y el soporte nos permite rankear de mejor manera las reglas. La confianza y soporte no son buenos elementos por sí solos, estos se deben complementar, por lo que debemos utilizar LIFT.

Problema de balanceo:

Es el desbalanceo de clases, es decir, cuando no hay un número igual de muestras en cada clase. Esto es importante, ya que clasificar erróneamente implica costos extras.

Submuestreo:

Es una técnica que elimina muestra al azar de la clase mayoritaria, disminuyendo el conjunto de datos original. El problema de esto es que puede eliminar datos relevantes del conjunto de datos.

Sobremuestreo:

Es una técnica que selecciona al azar muestra de la clase minoritaria y la duplica y agrega en el conjunto de datos original. El problema es que esto provoca un sobreajuste en los resultados.

Sobreajuste:

Es cuando se sobreentrena el algoritmo para datos a los cuales no le conozco el resultado.

Árboles de decisión:

Modelo utilizado para predecir y clasificar, prediciendo a través de regresiones y clasificando a través de árboles. Predecir: anticipar. Clasificar: segmentar. Para poder predecir necesito entrenar el modelo, a través de marca/etiqueta, estas reflejan la categoría que se busca predecir o clasificar. Tipos: binario (tiene solo 2 respuestas sí o no) y N-WAYS (más de una respuesta).

Reglas de asociación:

Buscan expresar un conjunto de sucesos que ocurren en una secuencia, el cual mediremos en probabilidades.

Se debe trabajar con variables categóricas:

Al trabajar con variables continuas genera reglas muy pequeñas y poco significativas, por lo tanto se deben establecer cortes (entregados por B) permitiéndonos clasificar y obtener una mayor representatividad.

En el caso de tener variables continuas se debe:

  • Describir la variable
  • Aplicar estadística
  • Establecer cortes
  • Transformar cont → cat

Entradas relacionadas: