Fundamentos Esenciales de Data Science y Machine Learning: Flujo de Trabajo y Métricas Clave
Clasificado en Matemáticas
Escrito el en
español con un tamaño de 45,67 KB
Frameworks de Data Science y Exploración de Datos (EDA)
Los frameworks definen el flujo de trabajo estándar en proyectos de Ciencia de Datos:
- KDD (Knowledge Discovery in Databases): Selección, Preprocesamiento, Transformación, Data Mining, Interpretación/Evaluación.
- OSEMN: Obtain (Obtener), Scrub (Limpiar), Explore (Explorar), Model (Modelar), Interpret (Interpretar).
- CRISP-DM: Business Understanding → Data Understanding → Data Preparation → Modeling → Evaluation → Deployment.
- Ciclo de Vida de ML (ML Life Cycle): Project Scope → Data Preparation → Model Development → Model Deployment → Model Monitoring/Maintenance.
Roles Clave en la Industria de Datos
- Data Architect
- Data Scientist
- Data Engineer
- Data Science Manager
- Data Analyst
- Statistician
- ML Engineer
Tipos de Datos y Conceptos Fundamentales
Tipos de Datos
- Categórico: Ordinal, Nominal.
- Numérico: Continuo, Discreto.
Entropía de Shannon
Mide la alta o baja incertidumbre (o impureza) de una distribución.
Problemas Comunes con los Datos
Datos Faltantes
- MCAR (Missing Completely At Random)
- MAR (Missing At Random)
- MNAR (Missing Not At Random): Relacionada al valor de la variable misma.
Datos Incorrectos
- OOR (Out Of Range)
- Datos ruidosos
- Inconsistencia de formato
Datos Inútiles
- Features completamente concentrados (baja varianza).
- Outliers unidimensionales y multidimensionales.
- Skewed Numerical Features: Alta asimetría. Se recomienda aplicar transformaciones (ej. logaritmo).
- Colinealidad entre Features: Alta correlación entre variables predictoras. En variables categóricas, se puede evaluar con χ².
- Information Leakage: Variables relacionadas al objetivo (Y) que no deberían estar disponibles en el momento de la predicción.
Exploración Descriptiva de Datos (EDA)
Análisis Descriptivo Básico
- Estudio de distribuciones: Moda, Skewness (Asimetría), Kurtosis (Leptocúrtica, Mesocúrtica y Platicúrtica).
Relaciones entre Variables
- Correlaciones (para variables numéricas).
- χ² (Chi-cuadrado) o V de Cramer (para variables categóricas).
Relación con el Objetivo
- Prueba de Kolmogorov-Smirnov (para comparar distribuciones entre clases).
- Análisis y/o construcción del target (variable objetivo).
Técnicas de Transformación de Datos
Variables Categóricas
- Nominales: One-Hot Encoding, Dummy Encoding.
- Ordinales: Pasar a representación numérica.
Variables Numéricas
- Normalizar (para distribuciones asimétricas).
- Escalar (para variables con escalas diferentes):
- Min Max Scaler.
- Estandarización (Z-score).
Feature Engineering (Ingeniería de Características)
- Creación de nuevas variables.
- WOE (Weight of Evidence) & IV (Information Value).
- CatBoost Encoding.
- Transformación de variables existentes.
Modelos de Machine Learning
Clasificación
Regresión Logística, KNN, SVM, Random Forest → Gradient Boosting, Redes Neuronales.
Regresión
Regresión Lineal, KNN, SVM, Random Forest (permite relaciones no lineales) → Gradient Boosting, Redes Neuronales.
Series de Tiempo
- Estacionariedad: Media y varianza constante, ausencia de tendencia, autocorrelación constante. (Tests: Dickey-Fuller, KPSS).
- Componentes: Tendencia + Estacionalidad + Ruido.
- Modelos de Evolución: MA, AR, ARMA, ARIMA, SARIMA, SES, VAR, RNN.
Medidas de Performance y Evaluación de Modelos
Clasificación
Matriz de Confusión
- Precisión (TP / TP + FP): Importante cuando los positivos deben ser altamente fiables.
- Recall (Sensibilidad) (TP / TP + FN): Importante cuando los falsos negativos son más costosos que los falsos positivos.
- Accuracy (Exactitud): Adecuada para conjuntos de datos balanceados.
- F1 Score (2 * P * R / P + R): Promedio armónico de Precisión y Recall, útil en casos de desbalance de clases.
Curva ROC & AUC
- Curva ROC: Representación gráfica de la habilidad del modelo para distinguir entre dos clases.
- AUC (Area Under the Curve): Mide qué tan bien distingue el modelo entre clases en comparación con un modelo aleatorio.
Regresión
Diferencia Cuadrática Promedio (MSE)
- Penaliza fuertemente los errores grandes.
Raíz del Error Cuadrático Medio (RMSE)
- Mide la magnitud promedio de los errores. Permite comparar el error en la misma unidad que la variable dependiente.
Error Absoluto Medio (MAE)
- Diferencia absoluta promedio. Menos sensible a valores atípicos que el MSE/RMSE.
Error Porcentual Absoluto Medio (MAPE)
- Útil cuando el error relativo es más importante que el error absoluto.
R² (Coeficiente de Determinación)
- Mide la proporción de la varianza de la variable dependiente explicada por las variables independientes. Métrica comprensible para stakeholders.
Series de Tiempo
- MAE, MAPE, MSE, RMSE.
Visualización de Datos
Gráficos Descriptivos Comunes
- Diagrama de Dispersión: Ideal para visualizar la relación entre dos variables numéricas.
- Histograma: Muestra la distribución de una sola variable. Más claro que un diagrama de caja para evaluar la simetría.
- Diagrama de Caja (Box Plot): Muestra la distribución y los outliers de una sola variable.
- Gráfico de Barras/Líneas: Utilizado principalmente para variables categóricas o series de tiempo.