Fundamentos de Estadística: Variables, Muestreo e Inferencia
Clasificado en Matemáticas
Escrito el en español con un tamaño de 14,06 KB
Estadística
La estadística es un mecanismo útil para procesar la evidencia, resumirla, entenderla y obtener conclusiones a partir de la interpretación de resultados. Permite manejar rápidamente grandes volúmenes de números. Debe siempre estar acompañada de teoría, poniendo a prueba modelos teóricos mediante modelos estadísticos. La teoría es lo que permite la interpretación de los resultados obtenidos.
IMPORTANTE: Como toda técnica, la estadística está repleta de consensos arbitrarios que deben cuestionarse y considerarse. Por ello es discutible su objetividad y precisión.
Bases de Datos
- Sistematizan información.
- Pueden componerse de datos primarios o secundarios.
Tipos de Variable
Representan las propiedades de las unidades observadas, pudiendo tomar 2 o más valores.
Según su nivel de observación:
- Observadas: son aquellas que pueden ser registradas empíricamente y de forma directa.
- Latentes: son aquellas que no son observadas directamente, sino mediante sus manifestaciones en otras variables.
Según su objetivo:
- Cuantitativas: indican cantidad.
- Cualitativas: indican características.
Según sus valores posibles:
- Dicotómica: son binarias, sólo toman dos valores.
- Politómica: toman tres valores o más.
Según su dominio:
- Continua: pueden tomar valores infinitos entre dos números enteros.
- Discreta: toman sólo valores enteros.
UNIVERSO: conjunto de elementos que definen al sujeto de estudio.
POBLACIÓN: total de sujetos por los que se interesa la investigación, constituyendo el marco desde el que se seleccionará la muestra. Es la definición operacional del universo. Está sujeta a criterios prácticos de acceso a la información (ej. Chilenos de 18+ años censados el 2017).
MUESTRA: es un subgrupo de sujetos de la población por el que se busca la representación de la totalidad, (ej. 1250 personas seleccionadas aleatoriamente).
Estimación o Inferencia Estadística
Es decir, se quiere obtener el parámetro poblacional a partir de un estadístico muestral, mediante una estimación.
Nivel de Confianza y Error
- Error muestral: se debe a la aleatoriedad de la muestra seleccionada respecto a las muestras posibles, así como al tamaño de la muestra. A mayor tamaño de la muestra menor es el error muestral.
- Error de medición o no muestral: refiere a la diferencia entre el valor medido y el valor real, producto de problemas de digitación o formulación de las preguntas. Se puede identificar si es sistemático o aleatorio, lo que permite controlarlo.
- Nivel de confianza: probabilidad de que la muestra sea representativa de la población en el marco de un error definido a priori por el investigador. En ciencias sociales se utiliza 95% por consenso.
Estimación de Punto vs. Intervalo de Confianza
- Estimación de punto: cuando la única información que se dispone respecto a un parámetro de la población es el estadístico de la muestra, se puede usar este estadístico como estimación puntual del valor poblacional.
- Intervalo de confianza: rango en el que se encuentra el estadístico muestral en la población.
La distribución de los estadísticos (distribución muestral) se asume normal (n>=120) o t de student (n<120).
Con un 95% de confianza es posible afirmar que el parámetro poblacional se encuentra en este intervalo. Considerando que el IC varía según la muestra seleccionada y que el parámetro poblacional es un valor estático, se puede decir que en un 95% de las muestras posibles el IC comprenderá el verdadero parámetro.
Amplitud de los IC
Varían según:
- Variabilidad de la población: desviación estándar (s). A mayor s, mayor amplitud del IC.
- Tamaño muestral (n): a mayor tamaño muestral, menor amplitud del IC.
- Nivel de confianza (Z): a mayor nivel de confianza establecido, mayor amplitud del IC.
Interpretación (para una categoría): Ante los valores obtenidos, no se puede afirmar, con un 95% de confianza, que la proporción poblacional de sujetos que declaran que la democracia funciona regular, sea mayor a la mitad de la población, debido a que el parámetro poblacional se encuentra entre el 49% y 55% de los casos.
Interpretación (para dos categorías): Ante los valores obtenidos, se puede afirmar con un 95% de confianza que la proporción poblacional de sujetos que declaran que la democracia funciona muy mal es mayor que la proporción de sujetos que declaran que la democracia funciona muy bien, pues sus intervalos no se entrecruzan, encontrándose en un intervalo mayor el parámetro poblacional de la categoría muy mal.
Hipótesis Estadística
Hipótesis estadística: traducción estadística de la hipótesis sustantiva que se desea poner a prueba mediante test de hipótesis.
- Hipótesis nula (H0): hipótesis que es testeada directamente. En general señala la no existencia de relación entre variables o la igualdad de la distribución de una variable en dos distintos grupos. Usualmente es la que el investigador desea refutar.
- Hipótesis alternativa (H1): incluye los elementos contrarios a la hipótesis nula. En general señala la existencia de relación entre variables o la desigualdad de la distribución de una variable en dos distintos grupos. Usualmente deriva del modelo teórico puesto a prueba por el investigador, por lo que refiere a lo que se desea concluir.
Si la probabilidad de que la hipótesis nula sea verdadera es muy baja se la rechaza, con lo que se acepta la hipótesis alternativa.
Si la probabilidad de que la hipótesis nula no es tan baja no es posible rechazarla.
Nunca se “acepta” la hipótesis nula, pues no existe evidencia a favor de ella, simplemente tampoco existe evidencia en su contra.
Los test de hipótesis permiten, entonces, señalar si existe o no relación entre dos variables de interés investigativo.
Significación Estadística y Valor P
Valor p: probabilidad de que la H0 sea cierta dados los resultados de la muestra.
Nivel de significación (a): máxima probabilidad de rechazar la H0 cuando esta es verdadera. Marca el límite de la zona de rechazo de la H0. En este sentido, todo valor p inferior al nivel de significación implica el rechazo de la H0 y, por tanto, la existencia de relación entre variables.
Probabilidad de Error
El nivel de significación indica el porcentaje de error. error tipo I (a).
Están inversamente relacionados.
Error tipo I (a): Rechazar una H0 cuando es verdadera.
Error tipo II (ß): No rechazar una H0 cuando es falsa.
Para reducir ambos errores se requeriría aumentar el tamaño de las muestras y mejorar la precisión de las medidas.
Hipótesis de una o dos colas
Prueba de una cola: Algunos estadísticos, como chi2 concentran la zona de rechazo en solo una cola de la distribución muestral.
Prueba de dos colas: Otros estadísticos rechazan la H0 (t de student) a/2, que se concentra en cada uno de los extremos de la distribución muestral.
Prueba T para Diferencia de Medias
Supuestos:
- La variable independiente debe ser dicotómica.
- La variable dependiente debe ser cuantitativa de intervalo o de razón.
- Si la muestra es superior a 100 casos por grupo no requiere suponer normalidad al interior de cada uno.
Fuerza de la Relación en Prueba T
- No señalan la intensidad con la que las variables se relacionan, sino sólo que existe evidencia de que lo hacen.
- Para conocer la intensidad se calculan estadísticos de fuerza de la relación, en el caso de la prueba t se utiliza el estadístico de D de Cohen.
- Toma valores de 0 a 1.
- Interpretación:
0,8-1 = gran efecto.
0,5-0,79 = efecto moderado.
0,2-0,49 = efecto bajo.
- 0,2 = efecto poco relevante.
Prueba ANOVA
Se utiliza cuando se quieren comparar más de dos grupos. Es una generalización de la prueba t.
Su estadístico es F de Snedecor.
Hipótesis:
H0: Todos los grupos tienen igual media.
H1: Al menos un grupo tiene media diferente.
No entrega el resultado de cuál de los grupos tiene media diferente.
- Al igual que en t, ANOVA tiene un estadístico de fuerza de la relación. Se denomina ETA.
- ETA toma valores entre 0 y 1 y su interpretación es similar a D de Cohen.
- ETA2 indica el porcentaje de varianza explicada, es decir, el porcentaje de la varianza de la variable dependiente que es explicado por la variable independiente.
Normalidad
- Muchas pruebas en estadística tienen como supuesto el uso de variables que distribuyan normal, sobretodo en el uso de muestras pequeñas.
- Las variables sociales suelen ser complejas y estar influidas por múltiples factores, es por ello que muchas no distribuyen normal.
- La normalidad puede comprobarse a partir de gráficos y revisando la asimetría y curtosis de las variables, aunque existen dos pruebas que permiten comprobar el supuesto.
- Prueba Kolmogorov-Smirnov (K-S)
- Prueba Shapiro-Wilk (S-W):
Problemas de los Modelos Predictivos
- No permiten comprender lo subjetivo tras los datos, pues la medición y estadística requiere simplificar la realidad para operarla matemáticamente.
- No siempre es posible operar con toda variable.
- Por lo anterior es relevante interpretarlos a la luz de teorías que permitan leer los resultados en el marco de conceptualizaciones amplias, dando explicaciones a los resultados.
- Uso instrumental: permiten probar relaciones entre variables y, por tanto, comprobar hipótesis teóricas.
Variable dummy: ausencia o presencia de la característica. Toma valores 0 y 1.
Causalidad en los Modelos Estadísticos
Que exista relación entre una variable X y una Y no implica necesariamente que X cause Y, eso se determina por teoría. La causalidad podría ser inversa.
Existen mecanismos estadísticos que ayudan a determinar la existencia de causalidad, como la utilización de predictores de Y en periodos anteriores o el empleo de variables control.
De esta forma se comprueba que X precede a Y y que Y no es causada por otras variables distintas a X.
No obstante, la causalidad nunca es estadísticamente asegurable.
Para la correcta aplicación de una regresión lineal múltiple se requiere cumplir una serie de supuestos que garantizan la precisión del análisis:
- Tamaño muestral elevado.
- Muestras probabilísticas: aleatoriedad, igual probabilidad de ser seleccionados.
- Respecto al tamaño: Afifi & Clark (1990): 10 casos por variable independiente, Tabachnick & Fidell (1989): 20 casos por variable independiente.
- En cualquier caso, debe considerarse el tamaño muestral eliminando los casos perdidos mediante lisewise.
- En general, si la eliminación de casos perdidos mediante lisewise es inferior al 10% de la muestra inicial, puede afirmarse que no se pierde información relevante.
- Variable dependiente cuantitativa.
- Variables independientes relevantes.
Principio de parsimonia: los modelos deben incluir el menor número de variables independientes.
- Linealidad.
- La relación entre la variable dependiente y cada variable independiente debe ser lineal, debe ajustarse a una recta.
- La relación puede ser creciente (+) o decreciente (-).
- Normalidad multivariante.
- Las variables independientes y dependiente deben distribuir normal.
- Gracias al Teorema de Límite Central sabemos que en muestras grandes es probable que se cumpla este supuesto, la problemática se da comúnmente en muestras pequeñas.
- Solución: el problema puede solucionarse transformando las variables a su forma logarítmica o cuadrática. Aunque solo se recomienda cuando los datos se alejan mucho de la curva.
- Homocedasticidad.
- Implica que la varianza de los valores de la variable dependiente sea equivalente a la de las variables independientes.
- En términos prácticos, esto significa que la varianza de la variable dependiente no debe concentrarse en valores específicos de las variables independientes, pues implicaría errores de estimación.
- Ausencia de multicolinealidad.
Las variables independientes no pueden estar correlacionadas.
Correlación problemática arriba de 0.6.
Correlación de Pearson (r):
- Variables intervalares o de razón.
- Es sensible a casos atípicos.
Correlación Policórica (rho):
- Variables ordinales, supone continuidad.
Correlación Tetracórica:
- Variables dummy (0 y1), supone continuidad.
- Independencia de los términos de error.
Comprobación: Gráfico de residuos (Y) e Y predicho (X). Se espera que los residuos sean aleatorios, que no sigan un patrón.
R2
En general, un R2 de 0,4 indica un buen ajuste, mientras que si este es superior a 0,8 es muy bueno. Valores inferiores a 0,2 hacen cuestionar la capacidad predictiva del modelo.
Significación de los Coeficientes
- Usualmente se utiliza Test de Wald.
- Se efectúa un test por coeficiente.