Análisis de datos y modelos estadísticos

Clasificado en Economía

Escrito el 20 de Enero de 2024 en español con un tamaño de 23,24 KB

Aplica - IN4402 - Luis Gutiérrez

•Construct validity: Whether variables accurately reflect or measure the construct of interest

•Internal validity: If A->B, how sure we are that A->B. Whether conclusions can be drawn about the causal effects | Cómo la consigo? -> Random Assignment

•External validity: Whether results are generalizable to the populations and settings of interest |Cómo la consigo? -> Random Sampling

EDA: Exploratory Data Analysis Tipos de variables: Nominal (Género) / Ordinal (Nivel Educacional) / Intervalo (Ingresos)

Qué interp: Signo / Magnitud / Estadístico (signif) / Intervalo de Confianza (!) Al ser loglog se analiza elasticidad

Estimadores BLUE (Best Linear Unbiased Estimator) | Minimun Variance | unbiased: E(β_gorro)=β | Consistant: β_gorro ->β cuando n->Inf | Estimador + Eficiente -> - Varianza - Error standar

Linear model: Method of Ordinary Least Squares (OLS), minimiza la suma de los residuos cuadradaos | lineal en los parametros, Random Sampling, No multicolinalidad, dado x E(ui|x)=0, Homoscedastic or var(ui|X)=σ^2

p-value is a measure about the evidence you have against the null hyp --> sample

ITT (Intention - To - Treat) es el efecto causal de LA ASIGNACIÓN del tratamiento (independiente si el tratamiento fue o no recibido)

????????????_d corresponde a la proporción de individuos que son tratados cuando han sido asignados al grupo de control, menos la proporción de quiénes habrían sido tratados incluso si hubiesen sido asignado al grupo de control. ????????????_d = ????[????_i(1)] − ????[????_i(0)]

CACE (Complier Average Causal Effect) es el efecto causal del tratamiento en los compliers.

CACE = ITT/ITTd o ???????????????? = ????[(????_i(???? = 1) − ????_i(???? = 0))|????_i(1) = 1]

ITTd = Compliers/Total asignados = E[di(1)] - E[di(0)] ITT = Yi(z=1) - Yi(z=0)

One - Sided: Aquellos que estando asignados al grupo de tratamiento, NO reciben el tratamiento (los del grupo de control tampoco lo reciben) se cunmple que ITTd = E[di(1)], ya que E[di(0)]=0

Non Compliance: Aquellos que no cumplen con lo que tenía asignado o no reciben lo que estaba planificado.

Two - Way Non Compliance: Aquellos que asignados al grupo de tratamiento deciden NO participar (Never Taker), y las personas asignadas al grupo de control encuentran la forma para participar y tomar el tratamiento (Always Taker)

Casos de Endogeneidad: Omisión de variables: el efecto de estas variables estará capturado en el error del modelo, lo que podría implicar violar los supuestos de OLS.

Error de medición: cuando existe un error sistemático en la recopilación de datos, la correlación entre X e Y no es clara y podría llevar a una subestimación (sobreestimación) del coeficiente ????.

Causalidad reversa (simultánea): existe un problema cuando se elabora un modelo donde A causa B, cuando en verdad B causa A o existe una variable C que causa ambos. Es decir, siempre que la variable dependiente (Y) también este causando las variables independientes (X).

Supuestos de relevancia y exogeneidad en el estimador de VI

Relevancia (????????????(????J????) ≠ 0): el instrumento utilizado (????) debe estar correlacionado con la variable que queremos instrumentalizar (????). Esto se puede testear a través de la primera etapa de este tipo de regresión.

Exogeneidad (????????????(????J????) = 0): el instrumento utilizado (????) no debe estar correlacionado con el error del modelo (????), es decir, la única razón para la relación entre el instrumento (????) y la variable dependiente (????) es la primera etapa. Este supuesto no es testeable y solo es posible dar argumentos con una sólida base teórica.

El test de Hausman consiste en el siguiente procedimiento:

Estimar por OLS, donde existe una variable end&oacutegena (????_=:): ????_: = ????₀ + ????₁????_1i + ????₂????_2i + ????_i
Estimar la primera etapa de VI, incluyendo un instrumento (????_:): ????_1i = ????₀ + ????₁????_2i + ????₂????_i + ????_i
Estimar por OLS, incluyendo residuos de primera etapa (Vi): ????_i = ????₀ + ????₁????_1i + ????₂????_2i + ????₁???? i+ ????_i
Testear ????₀: ????₁ = 0. Si se rechaza ????₀ se utiliza VI, en caso contrario, se utiliza OLS.

El test de Hausman busca testear si ????AOLS= ????AIV. Para ello se busca una forma de testear si ????_: y ????_: están correlacionados, lo que implicaría que la variable ????_1iefectivamente es end&oacutegena y, por lo tanto, se deben usar variables instrumentales.

2OLS: 1. Y= Bo + B1X + u 2. x' = αo + α1z(intrumento) + e 3. Y = Bo + B1x' + u.

Dif en dif (Lo importante es que el coeficiente de la interacción es el efecto real del programa)

Es para estudiar el efecto diferencial de un tratamiento en un "grupo de tratamiento" versus un " grupo de control " en un experimento natural.
Se conidera el modelo dond Yist es la variable dependiente, Dst es una variable ficticia que indica el estado del tratamiento y ???? es el efecto del tratamiento

RD: Se realiza un corte para estimar los efectos de un tratamiento en un grupo. Linear: Ya = a + bDa + gAge + Ua

Quad: Ya = a + bDa + gAge + g' age^2 + ua Inter: Ya = a + bDa + g (A-Ao) + d [(A-Ao)Da] + ua
Inter Quad: Ya = a + bDa + g(A-Ao) + g' (A-Ao)^2 + d[(A-Ao)Da] + d' [(A-Ao)^2*Da] + ua

Panel Data: ???????????? = Bo + B1Xit + ai + uit con ai error fijo, y uit error idiosincratico. cov (xit, uit)= 0 es lo que necesitamos.

FE: Errores fijos e intercepto se eliminan al comparar a través del tiempo, por lo que existe menor error. Asumimos cov(xit -xbi, uit - ubi) = 0. metodo, añadir una dummy por cada var, y año.

Poder estadístico: Probabilidad de no cometer error tipo II. Cuando se tienen muestras de proporciones, el error estándar conjunto se puede calcular como wHv6VUK5WR8JwAAAABJRU5ErkJggg== , donde p y q son proporciones de muestras independientes. Puede asumir n0BPACFMQ1U9DZohwAAAABJRU5ErkJggg== . Ecuacion --> PE: donde, ↑B => ↓ prob de cometer error tipo II (no ver donde hay efecto)Attrition/desgaste: No hay output para todos al final del exp, ¿Cómo calcular el efecto? Rellenar obs con casos extremos y observar cambios. Se soluciona con cotas.

sup= [Yw* πw + Y'w

Series de Tiempo: Sirven para predecir, y para entender efectos de la estacionalidad, las tendencias y los periodos de rezago.

Detrend: Agregar var. temporal t. Yo = βo + β1 T + et

Lagged: Agregar periodos de rezago (efecto visitas pag web en ventas): Yo = βo + δoZt + δ1Zt-1 + δ2Zt-2 + ut (long run d1 +d2 +d3)

DeSeason: Medir efecto estacionalidad. Yo = βo + b1Zt-1 + b2Zt-2 + δ1Febt + --- +δ11Dect + u (N-1 var).

Detecting autocorrelation.

DW test: d≈ 2(1-ρ), Where Ho: ρ = 0, H1: ρ>o (positive autocorrelation).
if d Reject Ho, if d>du --> Fail to reject Ho, if dl Inconclusive evidence.

BG test: Ho: ρ1 = ρ2 = ρp = 0, H1: Al menos un ρx es ≠ de 0. (Hay autocorrelación)

Medir error del pronóstico

Ecuacion

MAPE: Por cuanto me estoy equivocando en promedio (porcentualmente)

MAD: Por cuanto me estoy equivocando en promedio (en unidades)

MSD: Error cuadrático medio. (más preciso pero más difícil de interpretar)

Entradas relacionadas:

Etiquetas: