Fundamentos de Estadística Descriptiva: Frecuencias, Gráficos y Métricas Clave
Clasificado en Matemáticas
Escrito el en español con un tamaño de 9,17 KB
Conceptos Fundamentales de Frecuencias en Estadística
Frecuencia Absoluta (fi)
fi: Corresponde al número de veces que aparece un determinado valor o sujeto en la categoría i dentro de un estudio.
- La suma de todas las frecuencias absolutas es igual al número total de observaciones (n).
Frecuencia Relativa (hi)
hi: Corresponde a la proporción de veces que aparece un determinado valor o sujeto en la categoría i respecto al total.
- Se obtiene dividiendo la frecuencia absoluta (fi) de cada categoría por el número total de observaciones (n): hi = fi / n.
- Si se multiplica por 100, se obtiene el porcentaje por categoría.
La suma de todas las frecuencias relativas es igual a la unidad (1) o al 100% si se expresan en porcentaje.
Frecuencia Acumulada (Fi)
Fi: Se conoce como frecuencia absoluta acumulada y representa el número de observaciones que son menores o iguales al valor de la categoría i.
- Se calcula sumando la frecuencia absoluta de la categoría actual más las frecuencias absolutas de las categorías anteriores.
Frecuencia Relativa Acumulada (Hi)
Hi: Se conoce como frecuencia relativa acumulada.
- Representa la proporción de observaciones que son menores o iguales al valor de la categoría i respecto al total.
- Se puede obtener dividiendo la frecuencia acumulada (Fi) por el número total de observaciones (n), o sumando las frecuencias relativas de la categoría actual y las anteriores.
- Se expresa comúnmente en porcentaje multiplicándola por 100.
Nota: Tanto la frecuencia relativa como la frecuencia relativa acumulada se pueden expresar en porcentaje para una mejor interpretación.
Elaboración e Interpretación de Tablas de Frecuencias
¿Cómo se calcula el Rango?
El rango (también llamado recorrido) es una medida de dispersión que indica la amplitud total de la variación en un conjunto de datos.
- Se calcula restando el dato menor del dato mayor: Rango = Valor Máximo - Valor Mínimo.
- Ejemplo: Si el valor máximo es 73 y el valor mínimo es 1, el rango es 73 - 1 = 72.
¿Cómo se obtienen los Intervalos o Clases?
Cuando se trabaja con una gran cantidad de datos, especialmente cuantitativos continuos, es útil agruparlos en intervalos o clases.
- Primero, se decide el número de intervalos deseados (k). Por ejemplo, agrupar en 8 intervalos.
- Luego, se calcula la amplitud o tamaño de cada intervalo (A): Amplitud (A) = Rango / Número de intervalos (k).
¿Para qué sirve la Tabla de Frecuencias?
La tabla de frecuencias organiza y resume los datos, permitiendo responder preguntas como:
- ¿Cuántas personas tienen entre 31 y 40 años?
- Se utiliza la fi (frecuencia absoluta del intervalo correspondiente): Representa la cantidad de veces que se repite un dato o el número de observaciones dentro de ese intervalo.
- ¿Cuántas personas tienen 60 años o menos?
- Se utiliza la Fi (frecuencia absoluta acumulada hasta el intervalo que incluye los 60 años): Es la suma de las frecuencias absolutas hasta el intervalo que se necesita.
- ¿Cuál es la probabilidad de que una de las personas encuestadas tenga entre 11 y 20 años?
- Se utiliza la hi (frecuencia relativa del intervalo correspondiente): Indica la probabilidad de pertenecer a cierta categoría o intervalo.
- ¿Cuál es la probabilidad de que una de las personas encuestadas tenga 50 años o menos?
- Se utiliza la Hi (frecuencia relativa acumulada hasta el intervalo que incluye los 50 años): Es la probabilidad de observar un valor menor o igual al límite superior del intervalo en estudio.
Representaciones Gráficas de Datos Estadísticos
Diagramas de Sectores y Barras
- Ambos tipos de gráficas se utilizan para representar las frecuencias absolutas o relativas.
- Son especialmente útiles para variables cualitativas.
- Para variables cuantitativas discretas con pocos valores distintos también podrían ser utilizados.
- El diagrama de sectores (también conocido como gráfico de torta o circular) muestra la proporción de cada categoría como un sector de un círculo.
- El diagrama de barras representa cada categoría con una barra cuya altura es proporcional a su frecuencia.
Histogramas y Diagramas de Caja (Box-Plot)
- Estos gráficos son utilizados principalmente para datos cuantitativos continuos (ejemplos: colesterol, glicemia).
- El histograma representa la distribución de frecuencias de una variable cuantitativa mediante barras contiguas, donde el área de cada barra es proporcional a la frecuencia del intervalo que representa.
- También puede ser realizado para variables cuantitativas discretas con un amplio recorrido de valores, aunque no es su uso más común.
- El diagrama de caja (box-plot) resume la distribución de los datos mostrando la mediana, los cuartiles y los posibles valores atípicos.
¿Qué son las Medidas Descriptivas en Estadística?
La tabla de frecuencias y los gráficos son una primera aproximación al resumen de los datos. Sin embargo, los datos cuantitativos pueden ser explorados de forma más profunda mediante medidas numéricas.
- Estas medidas pueden indicar la localización (tendencia central) y la dispersión (variabilidad) de los datos.
Medidas de Tendencia Central
Las medidas de tendencia central proporcionan información sobre la posición o localización alrededor de la cual se agrupan los datos.
- Aquí encontramos la media, la mediana y la moda.
Media
- La media aritmética (comúnmente llamada solo media) es la medida de tendencia central más utilizada.
- Se interpreta como el promedio de los datos.
- Se calcula sumando todos los datos y dividiendo por el número total de observaciones. Se construye a partir de todos los datos obtenidos.
Mediana (Me)
- La mediana es el valor central de un conjunto de datos ordenados. Es una alternativa robusta a la media, especialmente cuando hay valores extremos (outliers).
- Se obtiene ordenando los datos (de menor a mayor); la mediana es el valor que deja el mismo número de observaciones a su derecha y a su izquierda.
- Si el número de observaciones es par, la mediana es el promedio de los dos valores centrales.
Moda (Mo)
- Por definición, la moda es el valor o categoría que aparece con mayor frecuencia en un conjunto de datos.
- Un conjunto de datos puede no tener moda, tener una moda (unimodal), dos modas (bimodal) o más (multimodal). Esto refleja que la moda no siempre es única.
- No siempre es la medida de resumen más representativa, especialmente si los datos son muy dispersos o si hay múltiples modas con frecuencias similares.
- Se considera, en algunos contextos, la medida de tendencia central menos robusta en comparación con la media y la mediana, pero es la única aplicable a datos cualitativos nominales.
Medidas de Dispersión
Las medidas de dispersión indican cuán esparcidos o concentrados están los datos alrededor de un valor central.
Rango o Recorrido
- Permite cuantificar la dispersión total de los datos de forma sencilla.
- Este rango se obtiene calculando la diferencia entre el valor mayor y el menor de los datos observados. Ejemplo: una diferencia de 36 kg entre el mayor y menor peso observado.
- ¿Es sensible a valores extremos? Sí, es muy sensible, ya que si los valores extremos cambian, el rango se modifica considerablemente, pues solo depende de estos dos valores.
Varianza (s2 o σ2) y Desviación Típica o Estándar (s o σ)
- Son las medidas de dispersión más utilizadas.
- Involucran todos los datos para su cálculo.
- Proporcionan una medida resumen de la distancia promedio (o cuadrática promedio, en el caso de la varianza) de cada dato respecto a la media. La desviación estándar es la raíz cuadrada de la varianza y se expresa en las mismas unidades que los datos originales.
- Cuanto mayor es su valor, más alejados están los datos de la media, lo que indica una mayor dispersión.