Fundamentos de Estadística Descriptiva: Medidas, Tablas y Relaciones

Clasificado en Matemáticas

Escrito el en español con un tamaño de 8,43 KB

Tablas Unidimensionales

Las tablas unidimensionales se utilizan para organizar datos de una sola variable (X) junto con sus frecuencias (fi).

Cálculos Esenciales en Tablas Unidimensionales

  • fi · xi: Producto de la frecuencia absoluta por el valor de la variable.
  • Fi (Frecuencia Acumulada): Es la suma acumulada de los valores de fi.
  • fi · xi²: Producto de la frecuencia absoluta por el cuadrado del valor de la variable.

Medidas de Centralización

  • Moda: El valor de la variable que presenta la mayor frecuencia (el que más se repite).
  • Media Aritmética (Promedio): Se calcula como la suma de (fi · xi) dividida por la suma total de las frecuencias (Σfi).
    Media = Σ(fi · xi) / Σfi
  • Mediana: Para localizarla, se calcula N/2 (donde N es la suma total de las frecuencias, Σfi). La mediana se encuentra en el primer valor de Fi (frecuencia acumulada) que sea igual o superior a N/2.
  • Recorrido (Rango): La diferencia entre el valor máximo de X y el valor mínimo de X.
    Recorrido = X_máx - X_mín

Medidas de Dispersión

  • Varianza (s²): Mide la dispersión de los datos respecto a la media. Se calcula como la suma de (fi · xi²) dividida por la suma total de las frecuencias (Σfi), menos el cuadrado de la media.
    Varianza = (Σ(fi · xi²) / Σfi) - Media²
  • Desviación Típica (s): Es la raíz cuadrada de la varianza. Proporciona una medida de dispersión en las mismas unidades que la variable original.
    Desviación Típica = √Varianza
  • Coeficiente de Variación (CV): Mide la dispersión relativa de los datos, útil para comparar la variabilidad entre conjuntos de datos con diferentes medias.
    Coeficiente de Variación = Desviación Típica / Media

Tablas Bidimensionales (X e Y)

Las tablas bidimensionales analizan la relación entre dos variables, X e Y.

Cálculos Adicionales en Tablas Bidimensionales

Se calculan las columnas adicionales:

  • X²: Cuadrado de los valores de la variable X.
  • Y²: Cuadrado de los valores de la variable Y.
  • XiYi: Producto de los valores de X e Y.

Medidas de Centralización

Media:

  • Media de X: Se divide la suma de los valores de X entre el número total de datos (N).
  • Media de Y: Se divide la suma de los valores de Y entre el número total de datos (N).

Medidas de Dispersión

Desviación Típica respecto a X:

qF0E8Xz2YU3nmlvkT2U1zGHimaIhH9UA2cYjJYFNMR0H7SKLG6MupHZYl-tt7zzW7lZAsJIixYLcpw64oww8cp4MfbuKg_56TFSLsoNgE0vgBOPzDrh_x4OhFc83XWaVREc6hlB-z1hcZDboDve8mJktCXi8PQyjYn2zyHe8wf9-VHxxt74mNXQqgQjRPQ

Desviación Típica respecto a Y:

Se calcula de manera análoga a la desviación típica de X, pero utilizando los valores de Y.

Covarianza (Sxy):

Mide la relación lineal entre dos variables. Se calcula como la suma de (Xi · Yi) dividida por el número total de datos (N), menos el producto de la media de X por la media de Y.

Covarianza = (Σ(Xi · Yi) / N) - (Media de X · Media de Y)

  • Si la covarianza es mayor que 0 (Sxy > 0), existe una relación directa (proporcionalidad directa) entre las variables.
  • Si la covarianza es menor que 0 (Sxy < 0), existe una relación inversa (proporcionalidad inversa) entre las variables.
  • Si la covarianza tiende a 0 (Sxy ≈ 0), no hay una relación lineal clara entre los datos.

Coeficiente de Correlación (r)

El coeficiente de correlación de Pearson (r) mide la fuerza y dirección de la relación lineal entre dos variables. Su valor oscila entre -1 y +1.

r = Covarianza / (Desviación Típica de X · Desviación Típica de Y)

Interpretación del Coeficiente de Correlación:

  • r entre 0 y 0.4 (excluyendo 0): Correlación nula o muy débil.
  • r entre 0.5 y 0.7: Correlación débil.
  • r entre 0.7 y 0.85: Correlación fuerte.
  • r entre 0.85 y 0.99: Correlación muy fuerte.
  • r = 1 o r = -1: Correlación lineal perfecta (directa o inversa, respectivamente).

Recta de Regresión

La recta de regresión permite predecir el valor de una variable a partir de otra, asumiendo una relación lineal.

Hay dos tipos principales de rectas de regresión:

  • La Y sobre la X (Y = a + bX): Predice los valores de Y basándose en los valores de X.

8Bocpj-C1HtRIOJh76P7d_tQ4tjKNls5jeo-S1C14Osjyjo6C0o4cpEkQNtSd0QpTu7y7ETJugImTPBk0oxkdp_d-0jVsyW7MvedGeDYPYBe6r6hr3Al_Z6ICCCCHqxmLkDxDPkF2VvsPn7Glr9tzl0-v5dBUYPkkwiNGFg6jIzXMJPCri7sWZD_l9gKNg

  • La X sobre la Y (X = a' + b'Y): Predice los valores de X basándose en los valores de Y. La metodología de cálculo es análoga a la regresión de Y sobre X, intercambiando los roles de las variables.

Tablas de Contingencia

Las tablas de contingencia se utilizan para analizar la relación entre dos o más variables cualitativas o categóricas, aunque también pueden incluir variables cuantitativas agrupadas.

Distribuciones Marginales

Las distribuciones marginales muestran la distribución de cada variable por separado, como si fuera una tabla unidimensional.

  • De la Variable X:

    Se toman los datos de la variable X y sus totales respectivos. Se calculan las columnas fi · xi y fi · xi².

  • De la Variable Y:

    Si se trata de variables cualitativas, solo se puede calcular la moda. Si se trata de variables cuantitativas, se procede de manera similar a la variable X, calculando fi · yi y fi · yi².

Distribuciones Condicionadas

Las distribuciones condicionadas muestran la distribución de una variable para un valor específico de la otra variable. Dependiendo del requisito del ejercicio, se seleccionan los datos pertinentes y se calculan las frecuencias (fi), así como fi · xi y fi · xi² para la variable condicionada.

Variables Independientes

Para determinar si una variable es independiente de otra en una tabla de contingencia, se compara la distribución condicional de una variable con su distribución marginal. Si las distribuciones son idénticas (o muy similares), las variables se consideran independientes; de lo contrario, son dependientes.

Un método común implica comparar las frecuencias observadas con las frecuencias esperadas bajo la hipótesis de independencia. Si la frecuencia relativa de una categoría de la primera variable (Hi) es igual a la frecuencia relativa de la misma categoría en la distribución total de la segunda variable, se infiere independencia.

Tablas de Contingencia con Variables Cuantitativas

Cuando las tablas de contingencia involucran variables cuantitativas, se pueden calcular medidas adicionales:

Se preparan tablas auxiliares para X e Y:

  • Para la tabla de X:

    Se incluyen columnas para fi (suma de los datos de las columnas o filas correspondientes a X), fi · xi y fi · xi².

  • Para la tabla de Y:

    Se incluyen columnas para fi (suma de los datos de las filas o columnas correspondientes a Y), fi · yi y fi · yi².

Para calcular la covarianza en este contexto, es fundamental calcular previamente el sumatorio de (xi · yi · fij), donde fij es la frecuencia conjunta de la celda (xi, yi). Este sumatorio se obtiene multiplicando cada valor de xi por cada valor de yi y por su frecuencia conjunta correspondiente, y luego sumando todos estos productos.

Entradas relacionadas: