Data Warehouse definición: El almacenamiento de datos es el almacenamiento electrónico de una gran cantidad de información por parte de una empresa u organización. Los Data Warehouse son un componente vital de la inteligencia empresarial que emplea técnicas analíticas sobre datos empresariales.
Según nuestro partner Oracle, un Data Warehouse es «Es un tipo de sistema de gestión de datos que está diseñado para habilitar y respaldar las actividades de inteligencia empresarial (BI), especialmente las analíticas. Los Data Warehouse están destinados únicamente a realizar consultas y análisis y, a menudo, contienen grandes cantidades de datos históricos. Los datos dentro de un Data Warehouse generalmente se derivan de una amplia gama de fuentes. Como por ejemplo, archivos de registro de aplicaciones y aplicaciones de transacciones».
Oracle nos entrega la Arquitectura de un Data Warehouse:
- Sencillo: Todos los Data Warehouse comparten un diseño básico en el que los metadatos, los datos resumidos y los datos sin procesar se almacenan dentro del repositorio central del almacén. El repositorio se alimenta de fuentes de datos en un extremo y los usuarios finales acceden a él para análisis, informes y minería en el otro extremo.
- Sencillo con una zona de preparación: Los datos operativos deben limpiarse y procesarse antes de colocarse en el warehouse. Aunque esto se puede hacer mediante programación, muchos Data Warehouse agregan un área de almacenamiento para los datos antes de que ingresen al warehouse, para simplificar la preparación de los datos.
- Hub & Spoke: Agregar mercados de datos entre el repositorio central y los usuarios finales permite que una organización personalice su Data Warehouse para atender varias líneas de negocio. Cuando los datos están listos para su uso, se mueven a la despensa de datos correspondiente.
- Sandboxes (aislamiento de procesos): Son áreas privadas y seguras que permiten a las empresas explorar de manera rápida e informal nuevos conjuntos de datos o formas de analizar datos sin tener que cumplir con las reglas formales y el protocolo del Data Warehouse.
Principales funciones:
Data Warehouse definición
- Un Data Warehouse está diseñado para ejecutar consultas y análisis de datos históricos derivados de fuentes transaccionales con fines de inteligencia empresarial y minería de datos.
- El Data Warehouse se utiliza para proporcionar una mayor comprensión del desempeño de una empresa al comparar datos consolidados de múltiples fuentes heterogéneas.
- Posee la capacidad de analizar datos de múltiples fuentes y negociar diferencias en el esquema de almacenamiento mediante el proceso ETL (Extract, Transform and Load).
Diferencias entre una Base de Datos y un Data Warehouse
Los Data Warehouse utilizan un diseño diferente al de las bases de datos operativas estándar. Estas últimas están optimizadas para mantener una precisión estricta de los datos en el momento actualizando rápidamente los datos en tiempo real. Los Data Warehouse, por el contrario, están diseñados para brindar una visión de largo alcance de los datos a lo largo del tiempo. Intercambian el volumen de transacciones y, en cambio, se especializan en la agregación de datos.
- Las bases de datos son más útiles para las transacciones atómicas pequeñas. Los Data Warehouse son los más adecuados para preguntas más amplias que requieren un mayor nivel de análisis.
- Las bases de datos deben estar disponibles las 24 horas del día, los 7 días de la semana, los 365 días del año. Esto que significa que el tiempo de inactividad es costoso. Los Data Warehouse no se ven tan afectados por el tiempo de inactividad.
- Las bases de datos están optimizadas para ser ultrarápidas para las operaciones CRUD (crear, leer, actualizar y eliminar). Los Data Warehouse están optimizados para un número menor de consultas más complejas en varios Data Warehouse grandes.
Lea nuestra última entrada «Colombia sufrió más de 7 billones de intentos de ciberataques en 2020».