Manual de Comandos Esenciales en R para Estadística y Ciencia de Datos
Clasificado en Matemáticas
Escrito el en
español con un tamaño de 3,88 KB
Manipulación de Matrices y Vectores
- A[filas, columnas]: Selecciona filas y columnas de un objeto para formar una matriz.
- c(2:6): Genera un vector con los números especificados.
- cbind: Combina vectores y matrices por columnas.
- rbind: Combina vectores y matrices por filas.
Gestión del Entorno y Exploración de Datos
- dir: Lista los objetos en el directorio de trabajo.
- class: Muestra la clase de un objeto.
- simple_n: Muestra el tamaño de la muestra.
- slice: Selecciona datos según su posición.
Transformación y Limpieza de Datos (Tidyverse)
- filter: Filtra observaciones según una condición (ej.
filter(municipio == "Viti")). - select: Selecciona columnas (variables) específicas.
- mutate: Añade nuevas variables o modifica las existentes.
- summarise: Resume datos (ej.
summarise(Manu = sum(pob))). - arrange: Ordena datos de forma ascendente o descendente (
arrange(desc(pob))). - group_by: Agrupa datos por variables categóricas.
- spread / gather: Cambia el formato de los datos entre forma larga y ancha.
- separate: Separa una columna en varias.
- left_join: Une tablas añadiendo variables de una a otra.
Estadística Descriptiva y Funciones Matemáticas
- mean: Calcula la media aritmética.
- median: Calcula la mediana.
- quantile(X, 0.25): Obtiene un cuartil específico.
- df_stats: Obtiene estadísticos descriptivos especificando la variable y el grupo (
df_stats(variable ~ grupo)). - Base: Permite cambiar la base para el cálculo de logaritmos.
Visualización de Datos con ggplot2
- aes: Define la estética (mapeo de variables) para
ggplot. - geom_boxplot: Crea un diagrama de caja (ej.
ggplot(aes(x=Sexo, y=Salario)) + geom_boxplot()). - geom_density: Dibuja la función de densidad empírica.
- stat: Realiza transformaciones estadísticas antes de graficar.
Modelado Estadístico y Regresión
- lm(y ~ x): Realiza una regresión lineal.
- glm(y ~ x, data = ...): Ajusta modelos lineales generalizados (ej. modelo logit).
- gam(y ~ s(x), data = ...): Ajusta modelos aditivos generalizados (requiere librería
mgcv). - Modelos autorregresivos:
lm(y ~ lag(y), data = y)para series temporales. - solve: Calcula la inversa de una matriz.
- anova(m1, m2): Compara modelos.
- vcovHC: Calcula la matriz de varianzas-covarianzas robusta ante heterocedasticidad.
- confint(M, level = 0.90): Calcula intervalos de confianza.
- rstudent(M): Calcula residuos estandarizados.
- hatvalues(M): Identifica valores atípicos e influyentes.
Inferencia y Distribuciones
- rt(n, df): Genera una muestra de una distribución t-Student.
- qt(0.05, df): Obtiene el valor crítico de la distribución t.
- pt(valor, df): Calcula el p-valor.
- Simulación:
M = do(1000) * lm(...)para remuestreo. - lht(M, R, ...): Realiza pruebas de hipótesis lineales (test de Wald).