Conceptos Clave de Estadística Descriptiva e Inferencial y Modelos de Regresión

Clasificado en Matemáticas

Escrito el en español con un tamaño de 5,69 KB

Población y Variables Aleatorias

Población: Conjunto de todos los individuos que constituyen el objeto de un determinado estudio sobre los que se desea obtener ciertas conclusiones.

Variable aleatoria: Cualquier característica que puede constatarse en cada individuo de una población (característica aleatoria). Cuando se expresan numéricamente, se denominan variable aleatoria.

  • Variables discretas: Cuando los valores de una variable aleatoria son finitos o infinitos numerables (ejemplos: sexo, partidos votados).
  • Variables continuas: Características que se miden sobre una escala de naturaleza continua (ejemplos: altura, tiempo). Vienen caracterizadas por su función de densidad f(x), que indica la probabilidad asociada a cada valor posible de x.

Variables k-dimensionales: Cuando sobre cada individuo de una población se estudian k variables diferentes.

Datos estadísticos: Valores observados para la variable aleatoria en los individuos que forman la muestra.

Estadística Descriptiva e Inferencial

Estadística descriptiva: Pretende sintetizar la información existente en un conjunto de datos, poniendo de manifiesto sus características más relevantes a partir de la utilización de tablas, gráficos y del cálculo de ciertos parámetros de resumen.

Inferencia estadística: Utiliza la muestra como medio para obtener conclusiones de la población de la que han sido extraídos los datos muestrales, con un margen de error lo más pequeño posible.

Coeficientes de Asimetría y Curtosis

Coeficiente de asimetría: El promedio de los cubos de las desviaciones respecto a la media dividido por N-1 y todo esto dividido por la desviación típica al cubo. Obtenemos con ello un coeficiente adimensional.

Coeficiente de curtosis: Indica la presencia de datos anómalos.

  • Leptocúrtico: Si presenta valores muy alejados de la media con mayor frecuencia de la que cabría esperar para unos datos normales que tuvieran la misma desviación típica. Valores elevados de curtosis suelen ser síntoma de que entre los mismos se incluyen observaciones anómalas.
  • Platicúrtico: Valores alejados de la media aparecen con una frecuencia menor que la que cabría esperar si los datos siguieran una distribución normal con la misma desviación típica. La platicurtosis excesiva puede revelar que los datos han sido censurados (para eliminar valores extremos).

El coeficiente de curtosis se calcula como el cociente entre el promedio de las cuartas potencias de las desviaciones respecto a la media (dividido por N-1) y la desviación típica elevada a 4, todo ello menos un valor constante (generalmente 3). Un conjunto de datos será:

  • Leptocúrtico si su CC es mayor que 0.
  • Platicúrtico si su CC es negativo.

Coeficiente de curtosis estandarizado: CC / estimación de la desviación típica.

Diagramas Box-Whisker

Diagramas BOX-WHISKER (Diagramas de Caja y Bigotes): Representación gráfica de un conjunto de datos. No requieren un número elevado de datos para su construcción.

  • La caja comprende el 50% de los valores centrales (entre el primer cuartil (C1) y el tercer cuartil (C3)).
  • La línea central corresponde a la mediana.
  • Los bigotes se extienden desde el menor al mayor de los valores.
  • Puntos aislados: Se consideran aquellos que están a una distancia de 1.5 veces el rango intercuartílico (o más) de los bordes de la caja.

Sirven para comparar las pautas de variabilidad existentes en distintos conjuntos de datos.

Tablas de Frecuencias Cruzadas y Diagramas de Dispersión

Tablas de Frecuencias Cruzadas (o Tablas de Contingencia): Recogen la frecuencia con que se ha observado cada combinación de valores posibles de las dos componentes cualitativas de una variable aleatoria bidimensional. Permiten realizar un estudio descriptivo de la relación existente entre las dos componentes cualitativas de la variable aleatoria bidimensional.

Diagramas de dispersión: Sirven para describir gráficamente las relaciones constatadas entre dos variables. Se representan mediante un punto en el plano cuya abscisa es el valor de la primera variable y cuya ordenada es el valor de la segunda.

Covarianza y Coeficiente de Correlación

La covarianza y el coeficiente de correlación sirven para cuantificar en un índice numérico el grado de relación lineal que existe en una variable bidimensional. La covarianza es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.

La covarianza se representa por sxy o σxy. La covarianza indica el sentido de la correlación entre las variables:

  • Si σxy > 0, la correlación es directa.
  • Si σxy < 0, la correlación es inversa.

Modelos de Regresión

Modelos de Regresión: Permiten analizar las posibles relaciones entre la pauta de variabilidad de una variable aleatoria y los valores de una o más variables de las que la primera depende (o puede depender).

Recta de regresión: Predice el valor que, en promedio, corresponde a una variable Y cuando otra variable X tiene un valor determinado.

Entradas relacionadas: