Comandos básicos de R para estadística descriptiva y regresión lineal
Clasificado en Matemáticas
Escrito el en español con un tamaño de 3,73 KB
Análisis estadístico descriptivo en R
A continuación, se presentan algunos comandos básicos en R para realizar un análisis estadístico descriptivo:
Introducir variable:
var <- scan("archivo.txt")
Resumen estadístico:
summary(var)
Este comando proporciona el mínimo, máximo, cuartiles, mediana y media de la variable.
Varianza:
var(var)
Desviación típica:
sd(var)
Tamaño de la muestra:
length(var)
Rango:
Rango <- max(var) - min(var)
Rango intercuartílico (RIC):
RIC <- IQR(var)
El RIC se calcula como Q3 - Q1.
Histograma:
hist(var)
Crear intervalos y calcular frecuencias:
var.f <- cut(var, breaks = seq(66, 84, 2)) str(var.f)
Estas órdenes dividen la variable en intervalos de 66 a 84, con una amplitud de 2.
frec.abs. <- table(var.f) # Frecuencias absolutas frec.rel. <- frec.abs. / length(var) # Frecuencias relativas frec.abs.acum. <- cumsum(frec.abs.) # Frecuencias absolutas acumuladas frec.rel.acum. <- cumsum(frec.rel.) # Frecuencias relativas acumuladas tab.est. <- cbind(frec.abs., frec.rel., frec.abs.acum., frec.rel.acum.) # Tabla de frecuencias
Diagrama de caja y bigotes:
boxplot(var)
Este diagrama muestra la distribución de los datos, incluyendo la mediana, los cuartiles y los valores atípicos. Los valores atípicos se calculan como aquellos que son menores que Q1 - 1.5*RIC o mayores que Q3 + 1.5*RIC.
Identificar datos atípicos:
marca.atip.menor <- as.double((quantile(var, 0.25)) - 1.5 * IQR(var)) marca.atip.mayor <- as.double((quantile(var, 0.75)) + 1.5 * IQR(var)) var[var < marca.atip.menor] # Datos atípicos por debajo var[var > marca.atip.mayor] # Datos atípicos por encima
Regresión lineal en R
Para realizar un análisis de regresión lineal en R, se pueden utilizar los siguientes comandos:
Introducir vector:
x <- c(10, 28, 12, 31, 30, 19, 24, 5, 9, 15)
Diagrama de dispersión:
plot(x, y)
Coeficiente de correlación:
r <- cor(x, y)
Si r es mayor que 0.9, el ajuste mediante la recta de regresión es muy bueno.
Coeficiente de determinación:
coef.deter. <- r^2
Si el coeficiente de determinación es mayor que 0.9, existe una relación lineal entre las variables x e y.
Recta de regresión:
lm(y ~ x)
Calcula la recta de regresión de y con respecto a x.
Dibujar la recta de regresión:
abline(lm(y ~ x))
Calcular los residuos:
e <- y - (a * x + b)
Donde y = a * x + b es la ecuación de la recta de regresión.
Relación entre las varianzas:
var(y) * (1 - coef.deter.) var(e)
Se cumple la siguiente relación:
Var(e) = Var(y) * (1 - coef.deter.) = Var(y) * (1 - cor(x, y)2)