Fundamentos Esenciales de Data Science y Machine Learning: Flujo de Trabajo y Métricas Clave

Clasificado en Matemáticas

Escrito el en español con un tamaño de 45,67 KB

Frameworks de Data Science y Exploración de Datos (EDA)

Los frameworks definen el flujo de trabajo estándar en proyectos de Ciencia de Datos:

  • KDD (Knowledge Discovery in Databases): Selección, Preprocesamiento, Transformación, Data Mining, Interpretación/Evaluación.
  • OSEMN: Obtain (Obtener), Scrub (Limpiar), Explore (Explorar), Model (Modelar), Interpret (Interpretar).
  • CRISP-DM: Business Understanding → Data Understanding → Data Preparation → Modeling → Evaluation → Deployment.
  • Ciclo de Vida de ML (ML Life Cycle): Project Scope → Data Preparation → Model Development → Model Deployment → Model Monitoring/Maintenance.

Roles Clave en la Industria de Datos

  • Data Architect
  • Data Scientist
  • Data Engineer
  • Data Science Manager
  • Data Analyst
  • Statistician
  • ML Engineer

Tipos de Datos y Conceptos Fundamentales

Tipos de Datos

  • Categórico: Ordinal, Nominal.
  • Numérico: Continuo, Discreto.

Entropía de Shannon

Mide la alta o baja incertidumbre (o impureza) de una distribución.

Problemas Comunes con los Datos

  • Datos Faltantes

    • MCAR (Missing Completely At Random)
    • MAR (Missing At Random)
    • MNAR (Missing Not At Random): Relacionada al valor de la variable misma.
  • Datos Incorrectos

    • OOR (Out Of Range)
    • Datos ruidosos
    • Inconsistencia de formato
  • Datos Inútiles

    • Features completamente concentrados (baja varianza).
    • Outliers unidimensionales y multidimensionales.
    • Skewed Numerical Features: Alta asimetría. Se recomienda aplicar transformaciones (ej. logaritmo).
    • Colinealidad entre Features: Alta correlación entre variables predictoras. En variables categóricas, se puede evaluar con χ².
    • Information Leakage: Variables relacionadas al objetivo (Y) que no deberían estar disponibles en el momento de la predicción.

Exploración Descriptiva de Datos (EDA)

  • Análisis Descriptivo Básico

    • Estudio de distribuciones: Moda, Skewness (Asimetría), Kurtosis (Leptocúrtica, Mesocúrtica y Platicúrtica).
  • Relaciones entre Variables

    • Correlaciones (para variables numéricas).
    • χ² (Chi-cuadrado) o V de Cramer (para variables categóricas).
  • Relación con el Objetivo

    • Prueba de Kolmogorov-Smirnov (para comparar distribuciones entre clases).
  • Análisis y/o construcción del target (variable objetivo).

Técnicas de Transformación de Datos

  • Variables Categóricas

    • Nominales: One-Hot Encoding, Dummy Encoding.
    • Ordinales: Pasar a representación numérica.
  • Variables Numéricas

    • Normalizar (para distribuciones asimétricas).
    • Escalar (para variables con escalas diferentes):
      • Min Max Scaler.
      • Estandarización (Z-score).
  • Feature Engineering (Ingeniería de Características)

    • Creación de nuevas variables.
    • WOE (Weight of Evidence) & IV (Information Value).
    • CatBoost Encoding.
    • Transformación de variables existentes.

Modelos de Machine Learning

  • Clasificación

    Regresión Logística, KNN, SVM, Random Forest → Gradient Boosting, Redes Neuronales.

  • Regresión

    Regresión Lineal, KNN, SVM, Random Forest (permite relaciones no lineales) → Gradient Boosting, Redes Neuronales.

  • Series de Tiempo

    • Estacionariedad: Media y varianza constante, ausencia de tendencia, autocorrelación constante. (Tests: Dickey-Fuller, KPSS).
    • Componentes: Tendencia + Estacionalidad + Ruido.
    • Modelos de Evolución: MA, AR, ARMA, ARIMA, SARIMA, SES, VAR, RNN.

Medidas de Performance y Evaluación de Modelos

  • Clasificación

    • Matriz de Confusión
      • Precisión (TP / TP + FP): Importante cuando los positivos deben ser altamente fiables.
      • Recall (Sensibilidad) (TP / TP + FN): Importante cuando los falsos negativos son más costosos que los falsos positivos.
      • Accuracy (Exactitud): Adecuada para conjuntos de datos balanceados.
      • F1 Score (2 * P * R / P + R): Promedio armónico de Precisión y Recall, útil en casos de desbalance de clases.
    • Curva ROC & AUC
      • Curva ROC: Representación gráfica de la habilidad del modelo para distinguir entre dos clases.
      • AUC (Area Under the Curve): Mide qué tan bien distingue el modelo entre clases en comparación con un modelo aleatorio.
  • Regresión

    • Diferencia Cuadrática Promedio (MSE)
      • Penaliza fuertemente los errores grandes.
    • Raíz del Error Cuadrático Medio (RMSE)
      • Mide la magnitud promedio de los errores. Permite comparar el error en la misma unidad que la variable dependiente.
    • Error Absoluto Medio (MAE)
      • Diferencia absoluta promedio. Menos sensible a valores atípicos que el MSE/RMSE.
    • Error Porcentual Absoluto Medio (MAPE)
      • Útil cuando el error relativo es más importante que el error absoluto.
    • R² (Coeficiente de Determinación)
      • Mide la proporción de la varianza de la variable dependiente explicada por las variables independientes. Métrica comprensible para stakeholders.
  • Series de Tiempo

    • MAE, MAPE, MSE, RMSE.


H28oa10TkXBAAAAAAElFTkSuQmCC

Visualización de Datos

Gráficos Descriptivos Comunes

  • Diagrama de Dispersión: Ideal para visualizar la relación entre dos variables numéricas.
  • Histograma: Muestra la distribución de una sola variable. Más claro que un diagrama de caja para evaluar la simetría.
  • Diagrama de Caja (Box Plot): Muestra la distribución y los outliers de una sola variable.
  • Gráfico de Barras/Líneas: Utilizado principalmente para variables categóricas o series de tiempo.

Entradas relacionadas: