Estadística Descriptiva y Visualización de Datos para Modelamiento Geológico

Clasificado en Matemáticas

Escrito el en español con un tamaño de 3,41 KB

Exploración de Datos: Aplicaciones y Variables

La exploración de datos se puede aplicar en:

  • Modelos geológicos
  • Dominios de estimación

¿A qué variables se aplica?

Variables categóricas y continuas.

Visualización de Datos: El Histograma

El histograma es una cuenta de muestras agrupadas en clases (o bins). Es fundamental para la estadística de muestras.

Características clave

  • Importancia de los Outliers o valores erráticos.
  • La media es sensible a los Outliers.
  • La mediana es sensible a los gaps (vacíos).

Histograma Acumulado

Es útil para visualizar la totalidad de los datos en un solo gráfico y localizar la distribución mediante el cuantil seleccionado (ej. cuartiles).

Identificación de Distribuciones

  • Una línea recta en escala aritmética indica una Distribución Normal.
  • Una línea recta en escala logarítmica indica una Distribución Lognormal.

¿Cómo construir histogramas?

  1. Dependiendo del número de muestras, escoger un número de clases.
  2. Desplegar el rango importante de los datos (las colas afectan la forma).
  3. Desplegar estadísticas con un número razonable de decimales.

El Concepto de Cuantil

Un Cuantil es el valor de la variable que corresponde a una frecuencia acumulada dada.

  • Primer cuartil: Cuantil 0.25
  • Segundo cuartil (Mediana): Cuantil 0.5
  • Tercer cuartil: Cuantil 0.75

Se puede leer cualquier cuantil, así como los intervalos de probabilidad, directamente desde el gráfico de frecuencia acumulativa.

Medidas de Posición y Dispersión

Medidas de Posición

Incluyen:

  • Media, mediana, moda
  • Mínimo y máximo, rango
  • Cuartiles, deciles, percentiles y cuantiles

Medidas de Dispersión

Incluyen:

  • Varianza
  • Desviación estándar
  • Rango intercuartil
  • Coeficiente de variación

Estadísticas Descriptivas Adicionales

Coeficiente de Aplanamiento (Kurtosis)

Da una idea del aplanamiento de la distribución (relación entre la altura y el ancho de la campana). Su valor es 3 para distribuciones normales (Gaussianas).

Distribución Normal, de Gauss o Gaussiana

Es la distribución de probabilidad de variable continua que con más frecuencia se aproxima a fenómenos reales.

Propiedades

  • Completamente definida por su media y varianza.
  • Tiene una descripción matemática concisa.
  • Es favorable para enfoques teóricos de estimación.

Distribución Lognormal

Una población es lognormal si los logaritmos de los datos están distribuidos como una normal.

Propiedades

  • En Ciencias de la Tierra es común encontrar variables cuya distribución es cercana a una lognormal.
  • Su relación con la distribución normal la hace fácil de utilizar.
  • También es favorable para enfoques teóricos de estimación.

Función Aleatoria y Variable Regionalizada

La Función Aleatoria es el conjunto de las variables aleatorias en un dominio.

La Variable Regionalizada es una realización de la función aleatoria.

Entradas relacionadas: