Árboles de decisión y regresión múltiple: técnicas, ventajas y pasos para modelado predictivo

Clasificado en Matemáticas

Escrito el en español con un tamaño de 6,37 KB

¿Qué son los árboles de regresión?

Los árboles de regresión son una técnica no paramétrica que permite predecir la respuesta en función de una serie de variables predictoras mediante una estructura en forma de árbol. En la práctica existen árboles orientados a regresión (para variables respuesta continuas) y árboles de clasificación (para variables respuesta categóricas). En términos generales, la metodología crea una serie de reglas basadas en las variables predictoras que permiten asignar una nueva observación a un valor (o a una clase) mediante divisiones sucesivas de los datos.

Características y propósito

Es una técnica discriminante en el sentido de que permite discriminar entre grupos o valores de la variable respuesta. Más importante que la interpretación de la relación entre la variable dependiente y las variables predictoras es la capacidad predictiva del modelo que generemos: dadas unas variables predictoras, ¿podemos predecir correctamente la variable respuesta?

Ventajas

  • Reglas simples y legibles: la interpretación de resultados es directa e intuitiva.
  • Robustez frente a valores atípicos: resiste observaciones extremas o mal etiquetadas.
  • Flexibilidad en la naturaleza de las variables: permite variables continuas, binarias, nominales u ordinales.
  • No paramétrico: no requiere supuestos estrictos sobre la distribución de las variables y tiene en cuenta interacciones entre variables de forma implícita.
  • Computacionalmente eficiente: en general son rápidos de ajustar y de interpretar.

Desventajas

  • Inestabilidad: las reglas de asignación pueden ser muy sensibles a pequeñas perturbaciones en los datos.
  • Elección del árbol óptimo: seleccionar la complejidad adecuada (poda, profundidad) puede ser difícil.
  • Pérdida de una función global: no ofrecen una función global simple de las variables, lo que dificulta la representación geométrica continua del modelo.
  • Requieren muchos datos: para asegurar que los nodos hoja contienen un número significativo de observaciones.
  • Objetivo en cada división: un árbol de clasificación suele buscar en cada nodo minimizar la devianza residual o, equivalente, maximizar la variabilidad explicada por esa división (split).

El ajuste de un árbol de regresión en R se hace utilizando la misma formulación que en modelos lineales o GLM (por ejemplo, y ~ x1 + x2 + x3 + ... + xn), pero no se suelen incluir términos de interacción explícitos entre variables, ya que las interacciones se capturan implícitamente mediante las divisiones del árbol.

Proceso de regresión múltiple

A continuación se presenta un flujo típico para el proceso de regresión múltiple (RLM):

  1. Recolección de datos.
  2. Chequeo de calidad de datos.
  3. Diagnóstico de relaciones fuertes entre variables X.
  4. ¿Se requieren medidas remediales?
  5. Si : aplicación de medidas remediales (transformaciones, exclusión de variables, etc.).
  6. Si no: selección y ajuste del modelo.
  7. Validación del modelo.
  8. Interpretación del modelo.

Análisis residuales

El análisis de residuos se realiza para validar los supuestos de la regresión lineal múltiple, que pueden presentar problemas como:

  • Los errores no tienen varianza constante (heterocedasticidad).
  • Los errores no son independientes (autocorrelación).
  • Los errores no están distribuidos normalmente.
  • Una o varias variables de regresión (X) no han sido consideradas en el modelo (variables omitidas).

Recomendaciones según problemas detectados

  • Varianza no constante (heterocedasticidad): transformar variables o elegir otros modelos como redes neuronales o modelos de varianza condicionada.
  • Errores correlacionados: transformar las variables independientes, incluir términos que capturen la estructura temporal o espacial, o excluir variables redundantes según corresponda.
  • Errores no normales: si existen diferencias relevantes respecto a la normalidad, considerar modelos no paramétricos o transformaciones; también puede recurrirse a modelos robustos o a redes neuronales.

Modelos no lineales transformables a lineales

Existen modelos no lineales que se pueden transformar para estimarse como modelos lineales. Una alternativa para mejorar el coeficiente de determinación (R²) consiste en usar no lineales y convertirlos a lineales; entre ellos se encuentran:

  • Modelo exponencial.
  • Modelo logarítmico.
  • Modelo doblemente logarítmico (log-log).
  • Modelo hiperbólico.
  • Modelo inverso.

Por último, para predecir la variable Y en su escala original, hay que aplicar la inversa de la transformación realizada.

Regresión logística

La regresión logística identifica el grado de pertenencia de un objeto a cada uno de los grupos analizados. El modelo estima la probabilidad de pertenencia; se asigna la observación al grupo cuya probabilidad sea mayor. Habitualmente se codifica con 1 el objeto que pertenece al grupo de interés y con 0 el objeto que no pertenece al grupo de análisis.

Variables explicativas

Las variables explicativas son las variables que sirven para discriminar entre los grupos y que determinan la pertenencia de un elemento a un grupo u otro. Pueden ser variables cuantitativas o cualitativas.

Resultado del modelo

El resultado del modelo es un valor numérico que indica la probabilidad de pertenencia de un elemento al grupo al que se le asignó el valor 1, es decir, el grupo objeto de estudio.

Notas finales

En todos los procesos de modelado es importante documentar las decisiones (transformaciones, exclusiones, criterios de validación) y contrastarlas mediante validación cruzada o conjuntos de prueba independientes para asegurar la robustez y generalización del modelo.

Entradas relacionadas: