Conceptos Estadísticos: Variables, Frecuencias, Medidas y Coeficientes
Clasificado en Matemáticas
Escrito el en español con un tamaño de 4,99 KB
Variables
Variable: Cualquier característica que podemos medir objetivamente de un individuo. De forma general, una variable la denotaremos en mayúscula, usualmente como X, Y o Z.
- Variable cualitativa: Es aquella en que el resultado de la medición no es un valor numérico.
- Variable cuantitativa: Es aquella en que el resultado de la medición es un valor numérico. Distinguimos en este caso entre:
- Variable cuantitativa discreta: La variable toma un número contable de valores numéricos entre dos valores cualesquiera.
- Variable cuantitativa continua: La variable puede tomar infinitos valores numéricos entre dos valores cualesquiera.
Frecuencias
- Frecuencia absoluta: El número de veces con que aparece cada valor.
- Frecuencia relativa: Valores que se obtienen cuando dividimos la frecuencia absoluta por el tamaño del conjunto de datos.
Medidas de Localización
Sirven para identificar en qué zona de valores se encuentran los datos.
- Media: Es un valor numérico que mide el valor central de las observaciones y se calcula como el valor promedio de las observaciones.
- Mediana: Es el valor que deja el 50 % de los datos a su izquierda y a su derecha y se denota por Me. Mientras que la media es más apropiada para distribuciones simétricas, en el caso de distribuciones asimétricas, la medida de localización más apropiada es la mediana. Para su cálculo debemos distinguir si el número de observaciones es par o impar:
- En el caso de un número de observaciones, n, impar, basta tomar de la muestra ordenada el dato que ocupa el lugar (n + 1)/2.
- En el caso de un número de observaciones, n, par, hemos de tomar el valor medio de las observaciones que ocupan los lugares n/2 y n/2 + 1 de la muestra ordenada.
- Percentil p: Es el valor que deja el p×100 % de los datos a su izquierda y el restante (1−p)×100 % a su derecha. Se denota por Qp. Observamos que Q0,50 = Me. De especial interés es el caso de p = 0,25 y p = 0,75, que reciben el nombre de cuartil inferior y superior, respectivamente, que se suelen denotar por Q1 y Q2. Para su cálculo procedemos a buscar el valor i tal que i/n ≤ p < (i + 1)/n. Si tenemos que i/n = p entonces Qp = x(i). En caso contrario distinguiremos dos casos:
- Si x(i) = x(i+1) entonces tomaremos Qp = x(i).
- En caso contrario, lo obtendremos por interpolación lineal entre los valores ordenados x(i) y x(i+1).
Medidas de Dispersión
Indican lo dispersas que están las observaciones, usualmente respecto de la media, y es un indicador de la variabilidad que hay en el conjunto de observaciones.
- Rango o recorrido: Es la diferencia entre los valores máximo y mínimo de la muestra. Viene dado por R = x(n) − x(1).
- Varianza: Mide el promedio de las diferencias al cuadrado entre las observaciones y su valor medio.
- Desviación típica: La varianza y la desviación típica son siempre valores positivos o cero. La desviación típica está en las unidades de la variable.
Medidas de Asimetría
Se trata de ver si a la izquierda y a la derecha de la media tenemos un reparto de frecuencias similar o si a un lado se presentan más datos que en el otro. Cuando las frecuencias absolutas son similares a un lado y a otro decimos que hay simetría, si hay más a la derecha que a la izquierda decimos que hay asimetría negativa y si es al revés decimos que hay asimetría positiva.
- Coeficiente de asimetría de Fisher: Uno de los valores más usados para medir la asimetría de los datos. Si el coeficiente es próximo a cero los datos presentan simetría y si es positivo (negativo) entonces los datos presentan asimetría positiva (negativa). Si los datos presentan una fuerte asimetría, la media no es muy representativa como valor central de los datos y es más recomendable usar la mediana como medida de localización central.
Medidas de Concentración
El objetivo es medir si esos recursos o bienes están repartidos de forma equitativa o de forma desigual.
- Índice de Gini: El índice de Gini es un valor, entre 0 y 1, extensamente usado para medir la concentración en un conjunto de datos.