Bondad de ajuste y estimación: R², MCO, Teorema de Gauss‑Markov, splines y GAM
Clasificado en Matemáticas
Escrito el en
español con un tamaño de 3,37 KB
T6. Bondad de ajuste
ST = TSS: Suma Total. Corresponde a la media como valor ajustado.
SR = RSS: Suma Residual. La del estimador MCO. Menor que ST, puesto que ST sería la SR si las pendientes estimadas fueran exactamente 0.
R2: Coeficiente de determinación. Proporción de ST que captura el modelo. 0 ≤ R2 ≤ 1.
Fórmulas: R2 = (ST − SR) / ST = 1 − SR / ST.
SE = ESS: Suma Explicada. SE = ST − SR = ∑(ŷ_i − ȳ)2.
ST: SR asociada a ȳ. SR: SR asociada a estimadores MCO.
Optimalidad (o no) del estimador MCO
Teorema de Gauss‑Markov
Se extienden los mismos resultados de los mínimos cuadrados lineales (MLS). Si la muestra procede de un Modelo Lineal Gaussiano (MLG) con esperanza condicionada nula y homocedasticidad, el estimador MCO (X′X)−1X′y es estimador lineal insesgado de varianza mínima (conocido en la literatura como BLUE).
Con heterocedasticidad, el estimador lineal insesgado de varianza mínima será el estimador por mínimos cuadrados ponderados (MCP) con ponderaciones inversas a la varianza.
Podría haber estimadores no lineales o sesgados con menor ECM. Si los datos no proceden de un MLG (y en la práctica casi siempre hay alguna desviación), los estimadores MCO pueden ser sesgados.
Máxima verosimilitud
Máxima verosimilitud. Si además ε procede de una distribución normal, la función de verosimilitud logarítmica correcta es:
log l(β, σ2) = −(n/2) log(2π) − (n/2) log(σ2) − (1 / (2 σ2)) ∑(y_i − x_i′ β)2.
El estimador de máxima verosimilitud (MV) coincide entonces con el estimador MCO. Además, bajo los supuestos normales, sería un estimador consistente con varianza asintótica mínima (eficiencia asintótica).
Splines
SPLINES
Funciones polinomiales definidas por tramos (definidos por nodos). Pueden imponer condiciones de continuidad y de continuidad de las primeras y segundas derivadas en los nodos. De este modo, presentan las ventajas de ajuste de los polinomios, pero sin los inconvenientes del ajuste global: cada spline se centra en su tramo.
GAM
GAM
GAM: modelado mediante funciones suaves. Por ejemplo, si(x_i): función suave estimada a partir de los datos (smoothing spline).
- Las funciones se construyen valorando el ajuste y penalizando la segunda derivada.
- Existen distintas opciones de base: tp (thin‑plate splines), cs (spline cúbico), etc.
- El propio algoritmo suele escoger el grado de complejidad: no es necesario especificarlo manualmente.
- Permite interacciones con factores: por ejemplo, argumento by=factor genera una spline distinta para cada nivel del factor; ti permite añadir interacciones tensoriales entre variables.
Los GAM son modelos muy flexibles e interpretables: permiten estimar el efecto marginal de una variable controlando por las demás.