Fundamentos y Metodología del Exploración de Datos en Geoestadística
Clasificado en Matemáticas
Escrito el en
español con un tamaño de 4,07 KB
Importancia del AED
El Análisis Exploratorio de Datos (AED) permite la detección de fallos en el diseño y toma de datos, el tratamiento o evaluación de datos ausentes, la identificación de valores atípicos (outliers) y la comprobación de los supuestos requeridos por las técnicas geoestadísticas.
Etapas del Análisis Exploratorio de Datos
- Realizar un examen gráfico de las relaciones entre las variables y un análisis descriptivo numérico que cuantifique el grado de interrelación existente entre ellas.
- Evaluar supuestos básicos subyacentes a muchas técnicas estadísticas, por ejemplo: normalidad, probabilidad, correlación y linealidad.
- Identificar posibles valores atípicos (outliers) y evaluar el impacto potencial que puedan ejercer en análisis estadísticos posteriores.
- Evaluar el impacto potencial que pueden tener los datos ausentes (missing data) sobre la representatividad de los datos analizados.
Herramientas para el Análisis Exploratorio
- Estadística univariada
- Estadística multivariada
- Regresión lineal y mínimos cuadrados
Estadística Univariada
Se divide en tres grandes capítulos:
- Teoría de Probabilidades: Estudia modelos matemáticos que formalizan elementos de regularidad mediante axiomas lógicos, produciendo teoremas o proposiciones.
- Estadística Descriptiva: Se ocupa del estudio y disposición de datos para su análisis o inspección.
- Inferencia Estadística: Rama aplicada que trata las relaciones entre el modelo matemático y la práctica, incluyendo la asignación y manejo de probabilidades.
Conceptos fundamentales
- Esperanza matemática (E[X]): Generalización de la noción de media ponderada por la frecuencia de ocurrencia.
- Población o Universo: Conjunto completo de individuos, objetos o medidas con una característica común observable.
- Muestra: Subconjunto o porción de la población.
- Variable: Característica o fenómeno de una población o muestra que puede tomar diferentes valores.
- Datos: Números o medidas recopiladas como resultado de la observación.
- Estadístico: Medida calculada para describir una característica a partir de una muestra.
- Parámetro: Característica cuantificable de una población.
Medidas de Dispersión y Variación
- Desviación Estándar: Medida de dispersión más común que indica qué tan dispersos están los datos respecto a la media.
- Error Estándar: Describe el grado de conocimiento de los datos y se calcula mediante: ε = √ σ² / n.
- Coeficiente de Variación (CV): Medida de variación relativa calculada como CV = S / Xm.
Pruebas Estadísticas
- Prueba Chi-Cuadrado: Utilizada para determinar si la distribución es normal, lognormal o de otro tipo.
- Prueba t-Student: Utilizada para determinar si en una distribución bimodal las medias de las poblaciones son estadísticamente diferentes.
Interpretación del Box-plot (Diagrama de Caja)
El box-plot es una herramienta visual esencial que proporciona la siguiente información:
- Resumen de cinco números: Muestra una medida de posición robusta (mediana) y una medida de dispersión robusta (distancia intercuartil).
- Simetría: Permite estudiar la distribución de los datos.
- Detección de anomalías: Identifica puntos anómalos o outliers.
- Longitud de las colas: Indica la dispersión con sesgos a la derecha e izquierda.