Comandos básicos de R para estadística descriptiva y regresión lineal

Clasificado en Matemáticas

Escrito el en español con un tamaño de 3,73 KB

Análisis estadístico descriptivo en R

A continuación, se presentan algunos comandos básicos en R para realizar un análisis estadístico descriptivo:

  1. Introducir variable:

    var <- scan("archivo.txt")
  2. Resumen estadístico:

    summary(var)

    Este comando proporciona el mínimo, máximo, cuartiles, mediana y media de la variable.

  3. Varianza:

    var(var)
  4. Desviación típica:

    sd(var)
  5. Tamaño de la muestra:

    length(var)
  6. Rango:

    Rango <- max(var) - min(var)
  7. Rango intercuartílico (RIC):

    RIC <- IQR(var)

    El RIC se calcula como Q3 - Q1.

  8. Histograma:

    hist(var)
  9. Crear intervalos y calcular frecuencias:

    var.f <- cut(var, breaks = seq(66, 84, 2))
    str(var.f)

    Estas órdenes dividen la variable en intervalos de 66 a 84, con una amplitud de 2.

    frec.abs. <- table(var.f) # Frecuencias absolutas
    frec.rel. <- frec.abs. / length(var) # Frecuencias relativas
    frec.abs.acum. <- cumsum(frec.abs.) # Frecuencias absolutas acumuladas
    frec.rel.acum. <- cumsum(frec.rel.) # Frecuencias relativas acumuladas
    tab.est. <- cbind(frec.abs., frec.rel., frec.abs.acum., frec.rel.acum.) # Tabla de frecuencias
  10. Diagrama de caja y bigotes:

    boxplot(var)

    Este diagrama muestra la distribución de los datos, incluyendo la mediana, los cuartiles y los valores atípicos. Los valores atípicos se calculan como aquellos que son menores que Q1 - 1.5*RIC o mayores que Q3 + 1.5*RIC.

  11. Identificar datos atípicos:

    marca.atip.menor <- as.double((quantile(var, 0.25)) - 1.5 * IQR(var))
    marca.atip.mayor <- as.double((quantile(var, 0.75)) + 1.5 * IQR(var))
    var[var < marca.atip.menor] # Datos atípicos por debajo
    var[var > marca.atip.mayor] # Datos atípicos por encima

Regresión lineal en R

Para realizar un análisis de regresión lineal en R, se pueden utilizar los siguientes comandos:

  1. Introducir vector:

    x <- c(10, 28, 12, 31, 30, 19, 24, 5, 9, 15)
  2. Diagrama de dispersión:

    plot(x, y)
  3. Coeficiente de correlación:

    r <- cor(x, y)

    Si r es mayor que 0.9, el ajuste mediante la recta de regresión es muy bueno.

  4. Coeficiente de determinación:

    coef.deter. <- r^2

    Si el coeficiente de determinación es mayor que 0.9, existe una relación lineal entre las variables x e y.

  5. Recta de regresión:

    lm(y ~ x)

    Calcula la recta de regresión de y con respecto a x.

  6. Dibujar la recta de regresión:

    abline(lm(y ~ x))
  7. Calcular los residuos:

    e <- y - (a * x + b)

    Donde y = a * x + b es la ecuación de la recta de regresión.

  8. Relación entre las varianzas:

    var(y) * (1 - coef.deter.)
    var(e)

    Se cumple la siguiente relación:

    Var(e) = Var(y) * (1 - coef.deter.) = Var(y) * (1 - cor(x, y)2)

Entradas relacionadas: