Conceptos Fundamentales de Estadística Descriptiva: Muestreo, Variables y Medidas de Posición

Enviado por flavorous y clasificado en Matemáticas

Escrito el en español con un tamaño de 11,75 KB

Tipos de Muestreo Probabilístico

El muestreo probabilístico es una técnica en la que las unidades son seleccionadas al azar, asegurando que cada elemento de la población tenga una probabilidad conocida y no nula de ser incluido en la muestra. Esto permite inferir resultados a la población con un nivel de confianza estadístico.

  • Muestreo Aleatorio Simple (MAS): Se elige al azar una muestra de tamaño n de una población de tamaño N, donde cada posible muestra de tamaño n tiene la misma probabilidad de ser seleccionada.
  • Muestreo Aleatorio Estratificado: La población se divide en subgrupos homogéneos (estratos) según alguna característica relevante. Luego, se elige una muestra de cada estrato utilizando el Muestreo Aleatorio Simple (MAS).
  • Muestreo Aleatorio por Conglomerados: La población se divide en grupos heterogéneos (conglomerados) que son representativos de la población. Se seleccionan aleatoriamente algunos conglomerados completos para la muestra. Ejemplos incluyen productos en cajas o encuestas en ciudades.
  • Muestreo Aleatorio Sistemático: Se utiliza cuando la población fluye de forma ordenada o está listada. El primer elemento se elige al azar dentro de un intervalo, y los siguientes se seleccionan a intervalos regulares. Por ejemplo, para evaluar la contaminación de un río, se podrían tomar muestras de agua cada cierta distancia fija a lo largo de su curso.

Definiciones Clave para el Muestreo Sistemático

  • N: Cantidad total de elementos en la población.
  • n: Número de elementos en la muestra.
  • k: Primer elemento elegido al azar (entre 1 y el intervalo de muestreo).

El intervalo de muestreo se calcula como I = N/n. Si k es el primer elemento seleccionado aleatoriamente (1 ≤ k ≤ I), los elementos subsiguientes de la muestra serán:

k, k + I, k + 2I, ..., k + (n-1)I

Escalas de Medición

Las escalas de medición determinan la naturaleza de los datos y las operaciones estadísticas que se pueden realizar con ellos.

  • Nominal: La población se divide en categorías sin un orden inherente. Solo permite clasificar y contar. Ejemplos: calidad (bueno, regular, malo), procedencia (nacional, importado), quintil (Q1, Q2, Q3, Q4, Q5).
  • Ordinal: Las categorías tienen un orden natural, pero las diferencias entre ellas no son cuantificables. Permite clasificar y ordenar. Ejemplos: calidad de productos (excelente, bueno, regular, malo), quintiles socioeconómicos (más bajo, bajo, medio, alto, más alto).
  • De Intervalo: Posee las características de la escala ordinal, y las diferencias entre los valores son significativas y cuantificables. El cero es arbitrario y no indica ausencia de la característica. Ejemplos: temperaturas (en grados Celsius o Fahrenheit), puntajes de pruebas.
  • De Razón: Posee todas las características de la escala de intervalo, y además, existe un cero absoluto que indica la ausencia total de la característica. Las razones entre los valores son significativas. Ejemplos: peso, duración de productos, ingresos.

Variables Estadísticas

Las variables son las características o atributos que se observan y miden en los elementos de una población o muestra.

  • Discreta: Toma un número finito o contable de valores restringidos, generalmente enteros. Ejemplos: edad (en años cumplidos), número de hijos, número de empleados.
  • Continua: Puede tomar cualquier valor dentro de un intervalo real. Ejemplos: peso, duración de productos, porcentajes.
  • De Atributo (Cualitativa): Los valores son categorías o cualidades, no numéricos. Ejemplos: calidad, tipo de producto.

Tabulación de Datos

La tabulación es el proceso de organizar los datos en tablas de frecuencia para facilitar su interpretación.

Para Variable Discreta y Variable de Atributo

Se organiza en columnas que muestran el valor de la variable (yi), la frecuencia absoluta (ni) y la frecuencia relativa (hi).

yi (Valor de la variable) | ni (Frecuencia Absoluta) | hi = ni / n (Frecuencia Relativa)

Para Variable Continua (Datos Agrupados)

Se agrupan los datos en intervalos de clase.

[Yi-1' - Yi') (Intervalo de Clase) | Yi* (Marca de Clase) | ni (Frecuencia Absoluta) | hi (Frecuencia Relativa)

Cálculo de Parámetros para Tabulación de Variables Continuas

  • n: Total de datos.
  • Xmax: Valor máximo de los datos.
  • Xmin: Valor mínimo de los datos.
  • L = Xmax - Xmin: Rango de dispersión (amplitud total de los datos).
  • m = 1 + 3.3 * log(n): Número de subintervalos (regla de Sturges). Se redondea al entero más cercano.
  • Ci = L / m: Amplitud del subintervalo (ancho de clase inicial).
  • Ci*: Amplitud del subintervalo ajustada. Si Ci = 0.52, se ajusta a 0.6 para facilitar la agrupación.
  • L* = Ci* × m: Rango ajustado.
  • d = L* - L: Diferencia entre el rango ajustado y el rango original.
  • k* = d / 2: Ajuste para el límite inferior del primer intervalo.

Construcción de Intervalos

  • Y0' = Xmin - k*: Límite inferior del primer intervalo.
  • Y1' = Y0' + Ci*: Límite superior del primer intervalo.
  • Y2' = Y1' + Ci*: Límite superior del segundo intervalo, y así sucesivamente.

Marca de Clase

La marca de clase (Yi*) es el punto medio de cada intervalo y se utiliza para cálculos en datos agrupados.

Yi* = (Yi-1' + Yi') / 2

Estadígrafos de Posición

Los estadígrafos de posición son medidas que describen la ubicación central o la posición de los datos en una distribución.

Media Aritmética (Promedio) - X̄

Es la suma de todos los valores dividida por el número total de valores.

  • Para Variable Discreta:

    X̄ = [ ∑ (yi • ni) ] / n

  • Para Variable Continua (Datos Agrupados):

    X̄ = [ ∑ (Yi* • ni) ] / n

Moda (Md)

Es el valor o la clase con la mayor frecuencia en un conjunto de datos.

  • Para Variable Discreta y de Atributo:

    Md = yk, donde nk es la frecuencia máxima.

  • Para Variable Continua (Datos Agrupados):

    Se identifica la clase modal (la que tiene la mayor frecuencia, nk).

    Md = Yk-1' + Ck × [ (nk - nk-1) / ((nk - nk-1) + (nk - nk+1)) ]

    Donde:

    • Yk-1': Límite inferior de la clase modal.
    • Ck: Amplitud de la clase modal.
    • nk: Frecuencia de la clase modal.
    • nk-1: Frecuencia de la clase anterior a la modal.
    • nk+1: Frecuencia de la clase posterior a la modal.

Mediana (Me)

Es el valor que divide la distribución en dos partes iguales, de modo que el 50% de los datos son menores o iguales a ella y el 50% son mayores o iguales.

  • Para Variable Discreta (Datos No Agrupados):

    Primero, se calcula la posición de la mediana: n/2.

    Se calcula la frecuencia acumulada (Ni).

    Se busca el primer Nj que sea mayor o igual a n/2. La mediana es Me = yj.

    Si n/2 es un número entero y Nj = n/2, entonces la mediana es el promedio de yj y yj+1:

    Me = (yj + yj+1) / 2

  • Para Variable Continua (Datos Agrupados):

    Se identifica la clase mediana (la primera clase cuya frecuencia acumulada Nj es mayor o igual a n/2).

    Me = Yj-1' + Cj × [ (n/2 - Nj-1) / nj ]

    Donde:

    • Yj-1': Límite inferior de la clase mediana.
    • Cj: Amplitud de la clase mediana.
    • n: Número total de datos.
    • Nj-1: Frecuencia acumulada de la clase anterior a la mediana.
    • nj: Frecuencia absoluta de la clase mediana.

Percentiles (Pm)

Los percentiles dividen la distribución de datos en 100 partes iguales. Pm es el valor por debajo del cual se encuentra el m% de los datos.

Percentiles para Datos No Tabulados

Los datos deben estar ordenados de forma ascendente.

  • P25 (Primer Cuartil):
    • Si n/4 no es un número entero: P25 = X(n/4 + 1)
    • Si n/4 es un número entero: P25 = [ X(n/4) + X(n/4 + 1) ] / 2
  • P50 (Mediana):
    • Si n/2 no es un número entero: P50 = X(n/2 + 1)
    • Si n/2 es un número entero: P50 = [ X(n/2) + X(n/2 + 1) ] / 2
  • P75 (Tercer Cuartil):
    • Si 3n/4 no es un número entero: P75 = X(3n/4 + 1)
    • Si 3n/4 es un número entero: P75 = [ X(3n/4) + X(3n/4 + 1) ] / 2

Percentiles para Datos Tabulados

  • Para Variable Discreta:

    Se busca el primer Nj que sea mayor o igual a n × m / 100.

    • Si Nj ≠ n × m / 100: Pm = yj
    • Si Nj = n × m / 100: Pm = (yj + yj+1) / 2
  • Para Variable Continua (Datos Agrupados):

    Se identifica la clase percentil (la primera clase cuya frecuencia acumulada Nj es mayor o igual a n × m / 100).

    Pm = Yj-1' + Cj × [ (n × m / 100 - Nj-1) / nj ]

    Donde:

    • Yj-1': Límite inferior de la clase percentil.
    • Cj: Amplitud de la clase percentil.
    • n: Número total de datos.
    • m: Percentil deseado (ej. 25 para P25).
    • Nj-1: Frecuencia acumulada de la clase anterior a la percentil.
    • nj: Frecuencia absoluta de la clase percentil.

Entradas relacionadas: