Estatística Descritiva: Cálculo de Parámetros e Fórmulas en Folla de Cálculo

Clasificado en Matemáticas

Escrito el en español con un tamaño de 9,52 KB

1. Preparación de Datos Agrupados e Cálculo de Parámetros

Para o cálculo de variables como a idade, os anos ou os minutos de lectura, deben determinarse os seguintes parámetros na folla de traballo:

  • Mínimo (Valor máis pequeno): $V_{min} = \text{MIN}()$
  • Máximo (Valor máis grande): $V_{max} = \text{MAX}()$
  • Tamaño da Mostra (Número total de datos): $N = \text{COUNT}()$
  • Número de Intervalos: $k \approx \sqrt{N}$
  • Amplitud Total: $A_{total} = V_{max} - V_{min}$
  • Amplitud de cada Intervalo: $A_{intervalo} = A_{total} / k$

2. Táboa de Distribución de Frecuencias

Na folla de resultados, defínense e calcúlanse os seguintes compoñentes:

Definicións e Cálculo de Frecuencias

Frecuencia Absoluta ($f_i$)
Número de veces que se repite un valor dentro dun intervalo. Para o primeiro intervalo, é o reconto directo. Para os seguintes, pode calcularse como a diferenza entre a frecuencia acumulada do intervalo actual e a do anterior.
Frecuencia Relativa ($h_i$)
Frecuencia correspondente dividida polo total da frecuencia: $h_i = f_i / N$.
Frecuencia Acumulada ($F_i$)
Suma das frecuencias absolutas ata ese intervalo. En folla de cálculo:
=CONTAR.SE(columna de datos; "<=" & segundo número do intervalo). (Exemplo: para o intervalo 0-10, usaríase 10; para 10-20, usaríase 20).
Frecuencia Relativa Acumulada ($H_i$)
Frecuencia acumulada dividida polo total da frecuencia: $H_i = F_i / N$.
Amplitud do Intervalo ($A_i$)
O valor que abrangue o intervalo (Exemplo: 0-10 sería 10; 5-8 sería 3). Todos os intervalos deben ter a mesma amplitud.
Marca de Clase ($x_i$)
O punto medio do intervalo (Exemplo: para 10-20, a marca de clase sería 15).
Densidade de Frecuencia ($d_i$)
Frecuencia relativa dividida pola amplitud: $d_i = h_i / A_i$.

Notas sobre Totais e Representación Gráfica

  • Só se calcula o total (suma) da Frecuencia Absoluta e da Frecuencia Relativa (que debe sumar 1 ou 100%).
  • Para a creación dun Histograma, é necesario engadir unha fila sen datos por riba da primeira fila con datos e por debaixo da última fila con datos.
  • Se a representación se fai con columnas, débese ampliar o rango de datos ao máximo. Se se fai con liñas, non é necesario.

3. Medidas de Tendencia Central (Cálculo Manual)

Operacións realizadas sen o uso directo de funcións predefinidas:

  • Media Aritmética (Promedio)

    Suma de todos os valores da variable dividida polo número total de valores ($N$).

    Exemplo: $(12+6+5+4+3+3+2+2+2+1+1+1) / 20$.

  • Media Acotada (Trimmed Mean)

    Calculada eliminando unha porcentaxe dos valores extremos (os máis pequenos e os máis grandes) antes de calcular a media.

    Exemplo de Media Acotada ao 30%: Determinar o número de valores a eliminar (Total de valores $\times 0.3$) e despois calcular a media dos valores restantes.

  • Mediana

    O valor que se atopa no medio do total dos valores unha vez ordenados. Se o número de valores é par, é a media dos dous valores centrais.

  • Moda

    O valor que máis se repite na distribución.

4. Fórmulas de Estatística Descritiva en Folla de Cálculo

As seguintes funcións aplícanse xeralmente a todos os valores da mostra ou poboación:

Medidas de Tendencia Central e Conteo

  • Conteo: COUNT, CONTAR.
  • Promedio (Media Aritmética): AVERAGE. (Cálculo manual: =SUMA(valores) / CONTAR(valores)).
  • Media Acotada: TRIMMEAN. (Sintaxe: TRIMMEAN(todos os valores; porcentaxe). A porcentaxe debe indicarse en formato decimal, por exemplo, 0.5 para o 50%).
  • Mediana: MEDIAN.
  • Moda: MODE.

Medidas de Posición (Cuantís)

  • Cuartil: QUARTILE. (Exemplo: Cuartil 1: QUARTILE(todos os valores; 1)).
  • Percentil: PERCENTILE. (Sintaxe: PERCENTILE(valores; k), onde k é a posición desexada).
  • Decil: PERCENTILE(valores; casilla correspondente / 10).
  • Quintil: PERCENTILE(valores; casilla correspondente / 5).
  • Centil: PERCENTILE(valores; casilla correspondente / 100).

Medidas de Dispersión

  • Mínimo: MIN.
  • Máximo: MAX.
  • Rango: $R = \text{MAX} - \text{MIN}$.
  • Rango Intercuartílico: $RI = \text{Cuartil 3} - \text{Cuartil 1}$.
  • Desviación Media: AVEDEV, DESVPROM.
  • Varianza Poboacional: VAR.P (só para poboación).
  • Cuasivarianza Mostral: VAR.S (só para mostra).
  • Desviación Típica Poboacional: STDEV.P, DESVEST.P (É a raíz cadrada da varianza poboacional).
  • Cuasidesviación Típica Mostral: STDEV.S, DESVEST.M (É a raíz cadrada da cuasivarianza mostral).
  • Coeficiente de Variación: $CV = \text{Desviación Típica} / \text{Media}$ (para poboación).

Medidas de Forma

  • Coeficiente de Asimetría de Fisher: SKEW, COEFICIENTE.ASIMETRIA.
  • Coeficiente de Curtose: KURT, CURTOSIS.

5. Traballo con Mostras e Poboacións

Preparación de Datos

  • Poboación: Asígnase un nome á columna de datos. As fórmulas aplícanse usando ese nome (Exemplo: PROMEDIO(Poboacion)).
  • Mostra: Para seleccionar unha mostra aleatoria, créase unha nova columna e úsase unha función de aleatoriedade (Exemplo: =SE(ALEATORIO() < 0.1; "Mostra"; "Non")).

Cálculo de Frecuencias e Porcentaxes

  • Para calcular o número de veces que aparece un valor: CONTAR.SE(poboacion; valor que se quere saber). O total desta columna debe coincidir co total da poboación.
  • Para calcular a porcentaxe correspondente: (Valor da cela anterior / Total da columna de poboación). O total destas porcentaxes debe ser 100%.

Representación Gráfica

Na representación gráfica (diagrama de barras ou histograma):

  • O eixe vertical (Y) representa o número de individuos da poboación (normalmente, encuestados).
  • O eixe horizontal (X) representa os valores da variable (Exemplo: número de irmáns).

6. Cálculo Detallado de Momentos e Asimetría

Cálculo de Desviacións

Para calcular as columnas necesarias para os momentos e a asimetría:

  1. Columna de Desviacións con respecto á Media

    Diferenza entre o valor respectivo e a media (promedio), fixando a media con $.

    Fórmula: $d_i = \text{Valor} - \text{Media}$

  2. Columna de Valor Absoluto das Desviacións

    Valor absoluto da columna anterior: ABS(valor da desviación).

  3. Columna do Cadrado das Desviacións

    Valor da desviación con respecto á media multiplicado por si mesmo: $d_i^2 = d_i \times d_i$.

  4. Columna do Cubo das Desviacións

    Valor da desviación con respecto á media elevado ao cubo: $d_i^3 = d_i \times d_i \times d_i$.

Coeficientes de Asimetría

  • Coeficiente de Asimetría de Pearson

    $$A_p = \frac{\text{Media} - \text{Moda}}{\text{Desviación Típica}}$$

  • Coeficiente de Asimetría de Bowley

    $$A_b = \frac{(Q_3 - Q_2) - (Q_2 - Q_1)}{\text{Rango Intercuartílico}}$$

  • Coeficiente de Asimetría de Fisher (Baseado en Momentos)

    Calcúlase como a media do cubo das desviacións dividida pola desviación típica ao cubo.

    $$\text{Desviación Típica ao Cubo} = \text{Desviación Típica} \times \text{Desviación Típica} \times \text{Desviación Típica}$$

Interpretación da Asimetría

A asimetría indica a dirección da cola da distribución:

  • Asimetría Positiva (Dereita): A cola esténdese cara aos valores máis altos. A media é maior que a mediana e a moda.
  • Asimetría Negativa (Esquerda): A cola esténdese cara aos valores máis baixos. A media é menor que a mediana e a moda.
  • Simétrica: A distribución é equilibrada. Media $\approx$ Mediana $\approx$ Moda.

Exemplos de distribucións:

  • 3, 4, 4, 4, 10 $\rightarrow$ Positiva, porque o 10 está máis afastado da media.
  • 1, 5, 5, 5, 9 $\rightarrow$ Simétrica.
  • 0, 6, 6, 6, 7 $\rightarrow$ Negativa, porque o 0 está máis afastado da media"

Entradas relacionadas: