Fundamentos de Modelado y Clasificación de Datos: Desnormalización, Schemas y Big Data
Clasificado en Informática
Escrito el en
español con un tamaño de 3,17 KB
Conceptos Clave en la Gestión y Modelado de Datos
1. Desnormalización de Bases de Datos
La desnormalización consiste en combinar tablas de una base de datos normalizada para optimizar consultas en sistemas analíticos (como los usados en Business Intelligence - BI). Se utiliza para mejorar el rendimiento al costo de duplicar información.
Ejemplo Práctico
En lugar de tener una tabla de clientes y otra de ventas, se desnormaliza creando una tabla única que incluye cliente, producto y ventas.
2. Clasificación de Ficheros de Datos
Los datos se clasifican según su estructura y el tipo de procesamiento al que están sujetos:
- Datos Estructurados: Datos organizados en filas y columnas (como hojas de cálculo Excel o bases de datos relacionales). Ejemplo: Tabla de clientes.
- Datos No Estructurados: Datos no organizados, sin un formato definido. Ejemplo: Correos electrónicos, imágenes, videos.
- Datos Tratados con BI: Datos estructurados o semi-estructurados (como ventas o KPIs) que se usan para la generación de informes y análisis.
- Datos Tratados con Big Data: Grandes volúmenes de datos, a menudo no estructurados (como logs de sistemas o datos de sensores IoT), procesados con herramientas especializadas como Hadoop o Spark.
3. Modelos en Estrella y en Copo de Nieve
Estos modelos son fundamentales en el diseño de almacenes de datos (Data Warehousing):
- Modelo en Estrella (Star Schema): Consiste en una tabla central de hechos conectada directamente a tablas de dimensiones. Es un modelo más simple y rápido de consultar.
- Ejemplo: Una tabla de "ventas" conectada a "clientes", "productos" y "tiempo".
- Modelo en Copo de Nieve (Snowflake Schema): Similar al modelo en estrella, pero las dimensiones se descomponen en tablas adicionales (normalización de dimensiones). Es más complejo de gestionar, pero puede ahorrar espacio de almacenamiento.
- Ejemplo: Tabla de "ventas" -> "clientes" -> "ciudad" -> "país".
4. Las 4 V's del Big Data: Definición y Alcance
Las características esenciales que definen el concepto de Big Data son:
- Volumen: Se refiere a la cantidad masiva de datos generados.
- Velocidad: Se refiere a la rapidez con la que se generan y procesan los datos.
- Variedad: Se refiere a la diversidad en los formatos de datos (estructurados, semi-estructurados y no estructurados).
- Veracidad: Se refiere a la calidad y precisión de los datos.
Nota sobre procesamiento: Grandes volúmenes de datos no estructurados (logs de sistemas, datos de sensores IoT) son procesados con herramientas como Hadoop o Spark.