Comparativa Data Warehouse y Data Mart: Fundamentos Esenciales del Modelado Dimensional
Clasificado en Informática
Escrito el en
español con un tamaño de 4,5 KB
Data Warehouse (DW) vs. Data Mart (DM): Diferencias Fundamentales
Data Mart
- Alcance: Departamento o área específica.
- Tiempo de implementación: Meses.
- Temas: Único.
Data Warehouse (DW)
- Alcance: Toda la organización.
- Tiempo de implementación: Meses a años.
- Temas: Múltiples.
Consideraciones sobre Normalización y Consistencia de Datos
Cuando se realiza un modelo de datos enfocado en la implementación relacional, es muy relevante contar con estructuras normalizadas para evitar la redundancia y, por lo tanto, disminuir la posibilidad de falta de integridad. Esto se debe a la alta probabilidad de modificaciones inconsistentes cuando los mismos datos se repiten en muchas tablas.
En un modelo para un Data Warehouse (DW), se puede desnormalizar, ya que la información será para consulta y, por lo tanto, no habrá modificaciones que pongan en peligro la consistencia de los datos.
Estructuras Fundamentales en el Diseño de un Data Warehouse
En el diseño de un DW, las estructuras fundamentales son igualmente tablas, ya que se va a construir una base de datos. Sin embargo, esas tablas se pueden clasificar en tipos particulares fundamentales para estos ambientes:
Tablas Fact o de Hechos
Guardian medidas o parámetros del negocio (ej. ventas, operaciones bancarias, unidades de producto vendidas, llamadas realizadas, etc.). Se acceden a través de dimensiones.
- Existen como snapshots (instantáneas) de los sistemas OLTP en un punto de tiempo determinado.
- Las claves primarias son compuestas.
- Pueden contener campos con información derivada o calculada.
- La cantidad de información de tipo Fact es la que va a afectar el tamaño del DW y determinará las estrategias de almacenamiento y acceso para lograr un mejor desempeño.
- La data contenida puede ser de alta granularidad o de baja granularidad. Hay que definir cuán a menudo se refrescan y/o se sustituye su contenido.
- Los atributos incluidos en una tabla Fact pueden ser aditivos, semi-aditivos o no aditivos.
Tablas Summary o de Totalizaciones
Los datos son pre-calculados antes de almacenarse en estas tablas. Son tablas Fact con información sumarizada para lograr una mayor eficiencia en las consultas:
Comparación de Consultas
Sin tablas de totalizaciones: SQL → Dimensiones → Tabla Fact → Cálculos de grupo sobre todas las filas seleccionadas (posiblemente muchos miles de filas).
Con tablas de totalizaciones: SQL → Dimensiones → Tabla Summary → Tabla con data ya calculada.
Nota: No es lo mismo tener totales de órdenes de compra diarias para una sucursal que tener totales vendidos por año en una sucursal (diferente nivel de agregación).
Tablas de Dimensiones
A través de las dimensiones se especifican los criterios y condiciones posibles de las consultas. Son tablas, usualmente, mucho más pequeñas que las Fact y con valores discretos poco volátiles.
Deben ser actualizadas cuando la información asociada sufra alguna modificación.
Tablas de Datos de Referencia
Son características complementarias de las dimensiones. Por ejemplo, si se tiene una dimensión Producto, guardar el nombre del producto es suficiente para preguntar. Sin embargo, se puede guardar más información, como si está vigente o no, características adicionales y otros.
Al separar esta información, se pueden realizar las búsquedas en la dimensión y, eventualmente, enlazar a la tabla de referencia cuando sea necesario.
Tablas de Metadata
Es información sobre el DW en sus tres aspectos relevantes:
- Metadata del proceso de ETT (Extracción, Transformación y Transporte/Carga).
- Metadata para el usuario.
- Metadata operacional.
Modelos Comunes Utilizados en Soluciones de Data Warehouse
A continuación, se presentan los tipos de modelos que, usualmente, se utilizan para soluciones de DW:
Modelo Constelación (Galaxy Schema)
Agrupa varias estrellas si tienen dimensiones comunes. Es utilizado para mostrar en un solo diagrama tablas Fact y Summary que comparten dimensiones.