14_Introducción a los almacenamientos de datos en Microsoft Fabric

Cuando hablamos de análisis de datos, hay una pieza que sigue teniendo un papel central: el almacenamiento de datos relacional.

Porque sí, hoy hablamos mucho de Lakehouse, de Delta, de streaming y de arquitecturas modernas. Pero cuando llega el momento de estructurar datos para análisis, reporting y consumo empresarial, el Data Warehouse sigue siendo una pieza muy seria.

Y ahí es donde entra el almacenamiento de datos en Microsoft Fabric. No como una reliquia del pasado, sino como una versión moderna del enfoque clásico, integrada dentro del mismo ecosistema donde conviven Lakehouse, Power BI, Spark y el resto de cargas de trabajo.

Qué es un almacenamiento de datos en Fabric

Un almacenamiento de datos en Fabric es un repositorio analítico basado en un modelo relacional, pensado para trabajar con SQL y organizado para facilitar consultas, análisis e informes.

La idea no cambia demasiado respecto al concepto tradicional: centralizar datos procedentes de distintos sistemas y ponerlos en una estructura que tenga sentido para analizarlos después.

La diferencia está en cómo lo hace Fabric.

Aquí no hablamos de un almacén aislado del resto de la plataforma. Hablamos de un componente que vive dentro del mismo entorno que el Lakehouse, que se apoya en OneLake y que además permite trabajar con semántica completa de T-SQL, incluyendo inserciones, actualizaciones y borrados.

Es decir, mantiene lo mejor del enfoque relacional, pero dentro de una arquitectura moderna.

Qué papel juega dentro del análisis de extremo a extremo

Un almacenamiento de datos no existe por sí solo. Tiene sentido dentro de un flujo más amplio.

Normalmente, ese flujo pasa por varias etapas:

ingestión de datos desde los sistemas origen
almacenamiento en un formato preparado para análisis
transformación y preparación
consumo mediante consultas, informes o modelos analíticos

Fabric permite cubrir todo ese recorrido en un mismo entorno. Y ahí está una de sus mayores ventajas: no obliga a saltar entre herramientas para completar el ciclo.

Puedes ingerir, transformar, consultar y visualizar sin salir de la plataforma.

Almacenamiento de datos frente a Lakehouse

Aquí conviene parar un momento, porque esta es una de las dudas más habituales.

Un Lakehouse y un Data Warehouse en Fabric no son lo mismo, aunque convivan y estén estrechamente relacionados.

El Lakehouse está más orientado a archivos, flexibilidad, trabajo con Spark y grandes volúmenes de datos semiestructurados o no estructurados. El almacenamiento de datos, en cambio, pone el foco en la capa relacional, en SQL y en una estructura más clásica pensada para análisis tabular y modelos dimensionales.

Dicho de otra manera: el Lakehouse te da una base flexible. El Data Warehouse te da una estructura más controlada y optimizada para consumo analítico relacional.

Y en Fabric, lo interesante es que no tienes que elegir uno contra el otro. Puedes usarlos de forma complementaria.

La lógica del modelado dimensional

Cuando entras en el mundo del almacenamiento de datos, hay un concepto que sigue siendo fundamental: el modelado dimensional.

La mayoría de los almacenes de datos bien construidos se organizan en torno a tablas de hechos y tablas de dimensiones.

Las tablas de hechos contienen los números que quieres analizar: importes, cantidades, unidades, ventas, costes. Suelen tener muchas filas y representan eventos de negocio.

Las tablas de dimensiones aportan contexto: cliente, producto, fecha, almacén, canal… Son las que permiten segmentar, agrupar y entender esos hechos.

Y aquí ya entramos en una forma de pensar muy orientada a análisis, no a operación. Porque el objetivo no es registrar transacciones, sino responder preguntas.

Hechos, dimensiones y claves

Dentro de ese diseño, las dimensiones suelen llevar dos tipos de clave.

Por un lado, una clave suplente, que es la clave interna del almacén y que sirve para mantener consistencia y control dentro del modelo.

Por otro, una clave alternativa o de negocio, que conecta con el sistema origen y permite trazabilidad.

Esto puede parecer un detalle técnico, pero no lo es. Es una parte esencial de cómo se construye un almacenamiento de datos serio, sobre todo cuando necesitas mantener histórico, controlar cambios o integrar múltiples fuentes.

Dimensiones especiales

No todas las dimensiones son iguales.

Hay algunas que aparecen casi siempre y que tienen un papel especialmente importante. Una es la dimensión de tiempo, imprescindible para poder analizar por año, trimestre, mes, semana o día con coherencia.

Otra son las dimensiones de cambio lento, que permiten mantener el histórico cuando cambian atributos como la dirección de un cliente, la categoría de un producto o cualquier otro valor descriptivo que puede variar con el tiempo.

Y aquí está una de las grandes diferencias entre simplemente guardar datos y construir un modelo analítico con criterio.

Esquema estrella y copo de nieve

En la práctica, la organización de estas tablas suele resolverse mediante dos patrones conocidos: esquema de estrella y esquema de copo de nieve.

El esquema de estrella es el más habitual. La tabla de hechos se relaciona directamente con las dimensiones y el modelo es más simple, más legible y normalmente más eficiente para consumo analítico.

El esquema de copo de nieve introduce normalización adicional en algunas dimensiones. Puede tener sentido cuando hay jerarquías complejas o información compartida entre entidades, aunque a cambio introduce más relaciones y algo más de complejidad.

Como casi siempre en datos, no se trata de que uno sea “el bueno” y el otro “el malo”. Se trata de entender qué necesita el modelo y qué equilibrio buscas entre simplicidad, mantenimiento y flexibilidad.

Cómo se materializa esto en Fabric

En Fabric, el almacenamiento de datos permite construir esta capa relacional directamente dentro del entorno.

Puedes crear el warehouse desde un área de trabajo, generar tablas, definir vistas y trabajar con T-SQL desde la propia interfaz. Y, además, puedes consultar tanto datos del propio almacenamiento como datos del Lakehouse mediante consultas entre bases de datos.

Esto es importante, porque reduce mucho la necesidad de duplicar información entre capas cuando solo necesitas consultar, no modificar.

En otras palabras: Fabric te da la capa relacional, pero sin aislarla del resto del ecosistema.

Ingesta de datos en el almacenamiento

Los datos pueden llegar al almacenamiento de datos de varias maneras.

Puedes usar canalizaciones, flujos de datos, consultas entre bases de datos o comandos como COPY INTO para cargar información desde archivos externos hacia tablas del warehouse.

A partir de ahí, puedes organizar procesos de carga más clásicos, apoyándote en tablas de staging para limpiar, validar o consolidar antes de llevar los datos a su destino final.

Este enfoque sigue siendo muy útil. Porque no todo debería entrar directamente en hechos y dimensiones finales sin pasar antes por una capa de control.

Staging y proceso de carga

Las tablas de almacenamiento provisional o staging siguen teniendo mucho sentido en este mundo.

Permiten cargar datos desde distintas fuentes, aplicar validaciones, hacer transformaciones intermedias y preparar el terreno antes de poblar las dimensiones y los hechos definitivos.

Un flujo bastante habitual sería:

ingerir datos desde el origen
cargarlos en staging
actualizar dimensiones
poblar hechos
optimizar después de la carga

Es un patrón clásico, sí, pero sigue funcionando porque resuelve bien un problema muy real: cómo mantener el orden cuando los datos llegan desde muchos sitios y con distintas calidades.

Creación y administración de tablas

Una vez dentro del almacenamiento, puedes trabajar con las tablas mediante SQL o directamente desde la interfaz de Fabric.

Esto incluye la creación de tablas, la carga de datos y también la posibilidad de crear clones de tabla. Los clones son especialmente interesantes porque permiten duplicar la estructura lógica sin duplicar físicamente los datos, reduciendo así el coste de almacenamiento.

Esto puede resultar muy útil en escenarios de pruebas, validación, recuperación o análisis histórico sin necesidad de replicar grandes volúmenes de datos.

Consulta y transformación de datos

Fabric permite trabajar con el almacenamiento de datos tanto desde un editor SQL como desde un editor visual.

Si vienes del mundo SQL, el editor de consultas te resultará familiar: T-SQL, intellisense, validación, vistas, procedimientos… todo dentro del mismo entorno.

Si prefieres un enfoque más visual, también puedes construir consultas mediante una experiencia de arrastrar y soltar.

Y esto es interesante porque hace que el warehouse no sea solo un espacio para ingenieros. También lo acerca a perfiles analíticos que quieren explorar y preparar datos sin entrar tan de lleno en código.

Preparación para análisis e informes

Aquí es donde el almacenamiento de datos empieza a conectar claramente con el mundo Power BI.

Fabric genera un modelo semántico asociado al almacenamiento, que luego puede utilizarse para análisis e informes. A partir de ahí, puedes crear relaciones, definir medidas, ocultar campos innecesarios y preparar una capa de consumo mucho más amigable para negocio.

Es decir, el warehouse no se queda en almacenar tablas. También se convierte en base para construir una experiencia analítica completa.

Y si ya estás acostumbrado a Power BI, esta parte te resultará bastante natural.

Modelo semántico predeterminado

Cada vez que creas un almacenamiento de datos en Fabric, se genera automáticamente un modelo semántico predeterminado.

Ese modelo se mantiene sincronizado con el warehouse, lo que simplifica bastante el trabajo posterior. Además, puedes ampliarlo o crear modelos personalizados si necesitas cubrir necesidades más específicas.

Esto vuelve a reforzar la idea central de Fabric: no son piezas desconectadas. Todo forma parte del mismo flujo.

Visualización y consumo

Una vez que el modelo está preparado, el siguiente paso es el consumo.

Fabric permite generar informes en Power BI directamente desde el almacenamiento de datos, sin salir de la experiencia. Esto facilita mucho la transición entre preparación, modelado y visualización, sobre todo cuando estás validando si la estructura que has creado responde realmente a las preguntas de negocio.

Y eso, aunque parezca pequeño, ahorra muchísimo tiempo.

Seguridad y monitorización

Como cualquier pieza central en una arquitectura de datos, el almacenamiento de datos necesita control.

Fabric ofrece varias capas de seguridad: permisos por área de trabajo, permisos a nivel de elemento, acceso vía SQL, cifrado, integración con Entra ID, MFA y herramientas de monitorización.

Además, puedes apoyarte en vistas de administración dinámica para analizar conexiones, sesiones y consultas activas, lo que resulta especialmente útil para supervisar rendimiento, detectar sesiones problemáticas o identificar consultas de larga duración.

Aquí ya estamos en terreno de administración seria, no solo de modelado.

Conclusión

El almacenamiento de datos en Microsoft Fabric representa una evolución bastante lógica del enfoque clásico del Data Warehouse.

Sigue apoyándose en principios muy conocidos: SQL, modelado dimensional, hechos, dimensiones, staging, procesos de carga… pero ahora dentro de un entorno unificado donde convive con Lakehouse, Spark, Power BI y el resto de piezas del ecosistema.