Manual de Comandos Esenciales en R para Estadística y Ciencia de Datos

Clasificado en Matemáticas

Escrito el en español con un tamaño de 3,88 KB

Manipulación de Matrices y Vectores

  • A[filas, columnas]: Selecciona filas y columnas de un objeto para formar una matriz.
  • c(2:6): Genera un vector con los números especificados.
  • cbind: Combina vectores y matrices por columnas.
  • rbind: Combina vectores y matrices por filas.

Gestión del Entorno y Exploración de Datos

  • dir: Lista los objetos en el directorio de trabajo.
  • class: Muestra la clase de un objeto.
  • simple_n: Muestra el tamaño de la muestra.
  • slice: Selecciona datos según su posición.

Transformación y Limpieza de Datos (Tidyverse)

  • filter: Filtra observaciones según una condición (ej. filter(municipio == "Viti")).
  • select: Selecciona columnas (variables) específicas.
  • mutate: Añade nuevas variables o modifica las existentes.
  • summarise: Resume datos (ej. summarise(Manu = sum(pob))).
  • arrange: Ordena datos de forma ascendente o descendente (arrange(desc(pob))).
  • group_by: Agrupa datos por variables categóricas.
  • spread / gather: Cambia el formato de los datos entre forma larga y ancha.
  • separate: Separa una columna en varias.
  • left_join: Une tablas añadiendo variables de una a otra.

Estadística Descriptiva y Funciones Matemáticas

  • mean: Calcula la media aritmética.
  • median: Calcula la mediana.
  • quantile(X, 0.25): Obtiene un cuartil específico.
  • df_stats: Obtiene estadísticos descriptivos especificando la variable y el grupo (df_stats(variable ~ grupo)).
  • Base: Permite cambiar la base para el cálculo de logaritmos.

Visualización de Datos con ggplot2

  • aes: Define la estética (mapeo de variables) para ggplot.
  • geom_boxplot: Crea un diagrama de caja (ej. ggplot(aes(x=Sexo, y=Salario)) + geom_boxplot()).
  • geom_density: Dibuja la función de densidad empírica.
  • stat: Realiza transformaciones estadísticas antes de graficar.

Modelado Estadístico y Regresión

  • lm(y ~ x): Realiza una regresión lineal.
  • glm(y ~ x, data = ...): Ajusta modelos lineales generalizados (ej. modelo logit).
  • gam(y ~ s(x), data = ...): Ajusta modelos aditivos generalizados (requiere librería mgcv).
  • Modelos autorregresivos: lm(y ~ lag(y), data = y) para series temporales.
  • solve: Calcula la inversa de una matriz.
  • anova(m1, m2): Compara modelos.
  • vcovHC: Calcula la matriz de varianzas-covarianzas robusta ante heterocedasticidad.
  • confint(M, level = 0.90): Calcula intervalos de confianza.
  • rstudent(M): Calcula residuos estandarizados.
  • hatvalues(M): Identifica valores atípicos e influyentes.

Inferencia y Distribuciones

  • rt(n, df): Genera una muestra de una distribución t-Student.
  • qt(0.05, df): Obtiene el valor crítico de la distribución t.
  • pt(valor, df): Calcula el p-valor.
  • Simulación: M = do(1000) * lm(...) para remuestreo.
  • lht(M, R, ...): Realiza pruebas de hipótesis lineales (test de Wald).

Entradas relacionadas: