Estadística Descriptiva y Visualización de Datos para Modelamiento Geológico
Clasificado en Matemáticas
Escrito el en
español con un tamaño de 3,41 KB
Exploración de Datos: Aplicaciones y Variables
La exploración de datos se puede aplicar en:
- Modelos geológicos
- Dominios de estimación
¿A qué variables se aplica?
Variables categóricas y continuas.
Visualización de Datos: El Histograma
El histograma es una cuenta de muestras agrupadas en clases (o bins). Es fundamental para la estadística de muestras.
Características clave
- Importancia de los Outliers o valores erráticos.
- La media es sensible a los Outliers.
- La mediana es sensible a los gaps (vacíos).
Histograma Acumulado
Es útil para visualizar la totalidad de los datos en un solo gráfico y localizar la distribución mediante el cuantil seleccionado (ej. cuartiles).
Identificación de Distribuciones
- Una línea recta en escala aritmética indica una Distribución Normal.
- Una línea recta en escala logarítmica indica una Distribución Lognormal.
¿Cómo construir histogramas?
- Dependiendo del número de muestras, escoger un número de clases.
- Desplegar el rango importante de los datos (las colas afectan la forma).
- Desplegar estadísticas con un número razonable de decimales.
El Concepto de Cuantil
Un Cuantil es el valor de la variable que corresponde a una frecuencia acumulada dada.
- Primer cuartil: Cuantil 0.25
- Segundo cuartil (Mediana): Cuantil 0.5
- Tercer cuartil: Cuantil 0.75
Se puede leer cualquier cuantil, así como los intervalos de probabilidad, directamente desde el gráfico de frecuencia acumulativa.
Medidas de Posición y Dispersión
Medidas de Posición
Incluyen:
- Media, mediana, moda
- Mínimo y máximo, rango
- Cuartiles, deciles, percentiles y cuantiles
Medidas de Dispersión
Incluyen:
- Varianza
- Desviación estándar
- Rango intercuartil
- Coeficiente de variación
Estadísticas Descriptivas Adicionales
Coeficiente de Aplanamiento (Kurtosis)
Da una idea del aplanamiento de la distribución (relación entre la altura y el ancho de la campana). Su valor es 3 para distribuciones normales (Gaussianas).
Distribución Normal, de Gauss o Gaussiana
Es la distribución de probabilidad de variable continua que con más frecuencia se aproxima a fenómenos reales.
Propiedades
- Completamente definida por su media y varianza.
- Tiene una descripción matemática concisa.
- Es favorable para enfoques teóricos de estimación.
Distribución Lognormal
Una población es lognormal si los logaritmos de los datos están distribuidos como una normal.
Propiedades
- En Ciencias de la Tierra es común encontrar variables cuya distribución es cercana a una lognormal.
- Su relación con la distribución normal la hace fácil de utilizar.
- También es favorable para enfoques teóricos de estimación.
Función Aleatoria y Variable Regionalizada
La Función Aleatoria es el conjunto de las variables aleatorias en un dominio.
La Variable Regionalizada es una realización de la función aleatoria.