06_Comienza con Lakehouses en Microsoft Fabric

Cuando hablamos de datos, durante mucho tiempo parecía que había que elegir entre dos mundos. Por un lado, el lago de datos, flexible y preparado para guardar prácticamente de todo. Por otro, el almacén de datos, más estructurado y orientado al análisis.

El problema es que en la práctica casi nunca necesitas solo uno de los dos. Necesitas flexibilidad, sí, pero también necesitas poder consultar, modelar y analizar con criterio. Y ahí es donde entra el Lakehouse en Microsoft Fabric.

Porque el Lakehouse viene precisamente a unir esos dos enfoques en un mismo entorno.

Introducción a Lakehouse en Microsoft Fabric

La base de Microsoft Fabric se apoya en OneLake y en motores como Spark y SQL. Sobre esa combinación se construye el Lakehouse, que no deja de ser un entorno donde conviven archivos y tablas dentro de una misma arquitectura.

La idea es sencilla: almacenar datos con la flexibilidad de un lago, pero con capacidades de análisis más cercanas a un almacén de datos.

Esto permite trabajar con datos estructurados y no estructurados, distintos formatos y diferentes orígenes, todo dentro de la misma plataforma. Y eso resulta especialmente útil cuando una organización ya no trabaja solo con datos transaccionales clásicos, sino también con logs, archivos, APIs o datos externos.

Qué aporta realmente un Lakehouse

Un Lakehouse no es solo un sitio donde guardar datos. Aporta una serie de capacidades que explican por qué se ha convertido en una pieza tan importante dentro de arquitecturas modernas.

Por un lado, permite trabajar con Spark y SQL sobre los mismos datos, lo que facilita tanto el procesamiento a gran escala como el análisis más tradicional. Por otro, admite tablas en formato Delta, lo que añade transacciones ACID, consistencia y control sobre los datos.

Además, el esquema no tiene que definirse rígidamente desde el principio. Se puede trabajar con un enfoque mucho más flexible, algo muy útil cuando los datos llegan desde múltiples fuentes y no siempre con la misma estructura.

Y quizá una de sus mayores ventajas es que se convierte en un punto común para ingenieros de datos, analistas y científicos de datos. Todos pueden trabajar sobre la misma base, sin ir saltando entre plataformas distintas.

Carga de datos en un Lakehouse

Una vez que tienes claro qué es, la siguiente pregunta es evidente: ¿cómo llegan los datos ahí?

En Fabric, un Lakehouse puede recibir datos desde muchos sitios distintos: archivos locales, bases de datos, APIs o incluso orígenes externos conectados mediante accesos directos. La ingesta puede hacerse con distintas herramientas según el perfil y la necesidad.

Puedes cargar archivos directamente, usar flujos de datos Gen2 si prefieres un enfoque visual con Power Query, apoyarte en cuadernos con Spark para procesos más técnicos o usar canalizaciones de Data Factory para orquestar todo el proceso.

Aquí no hay una única puerta de entrada. Y eso es precisamente parte de su valor.

Qué se crea al generar un Lakehouse

Cuando creas un Lakehouse en Fabric, no aparece solo un repositorio de datos. Se generan tres elementos que conviene entender bien.

Por un lado, el propio Lakehouse, donde vas a ver archivos, carpetas, tablas y accesos directos. Por otro, un modelo semántico predeterminado, pensado para facilitar el consumo desde Power BI. Y además, un punto de conexión SQL Analytics, que permite consultar las tablas con SQL en modo de solo lectura.

Esto es importante porque deja claro desde el principio que el Lakehouse no es solo almacenamiento. También es una puerta de entrada al análisis.

Ingesta de datos en archivos y tablas

Dentro del Lakehouse, los datos pueden aterrizar como archivos o como tablas. Y esta decisión no es menor.

En algunos escenarios tiene sentido cargar primero los datos en crudo como archivos y después transformarlos. En otros, puede interesar llevarlos directamente a tablas de staging o incluso a tablas finales, dependiendo de cómo esté planteado el proceso ETL.

Fabric permite ambas opciones. Y además admite tanto cargas puntuales como procesos más complejos, incluso con trabajos de Spark para ejecutar lógica de transformación avanzada o cargas batch y streaming.

Lo importante aquí no es solo meter datos, sino decidir bien cómo quieres que entren y cómo se van a usar después.

Acceso a datos mediante accesos directos

Otra funcionalidad especialmente interesante en Fabric son los accesos directos.

Los accesos directos permiten trabajar con datos que realmente están almacenados fuera del Lakehouse, pero hacerlos visibles como si estuvieran dentro. Es decir, integras sin duplicar.

Esto es muy útil cuando los datos están en otra cuenta de almacenamiento, en otro Lakehouse o incluso en otros servicios dentro del ecosistema de Fabric. OneLake se encarga de gestionar permisos y credenciales, y el acceso se realiza respetando la seguridad del origen.

En otras palabras: puedes ampliar el alcance del Lakehouse sin mover datos innecesariamente.

Exploración y transformación de datos

Una vez que los datos están dentro, o al menos accesibles, toca trabajar con ellos.

La transformación puede hacerse con las mismas herramientas usadas para la ingesta. Los perfiles más técnicos suelen sentirse cómodos con notebooks y Spark. Los perfiles más cercanos a Power BI o Excel suelen preferir flujos de datos Gen2 con Power Query. Y si lo que necesitas es organizar todo el proceso, las canalizaciones ofrecen esa capa de orquestación.

Lo interesante es que Fabric no obliga a un único camino. Cada perfil puede trabajar con la herramienta que mejor encaje con su forma de trabajar, pero siempre sobre la misma base de datos compartida.

Análisis y visualización sobre el Lakehouse

Una vez que los datos ya están preparados, el Lakehouse se convierte en un punto de consumo para distintos perfiles.

Los científicos de datos pueden usar notebooks para explorar y entrenar modelos. Los analistas pueden consultar las tablas mediante el punto de conexión SQL Analytics. Y los desarrolladores de informes pueden trabajar con el modelo semántico para construir informes en Power BI.

Es decir, el Lakehouse no se queda en la parte técnica de almacenamiento e ingesta. También conecta directamente con el análisis y la visualización.

Y ahí está una de sus grandes fortalezas: no obliga a sacar los datos de la plataforma para empezar a generar valor.

Seguridad y gobernanza

Como todo elemento central en una arquitectura de datos, el Lakehouse también necesita control.

En Fabric, el acceso puede gestionarse a nivel de área de trabajo o a nivel de elemento. Los roles de área de trabajo están más pensados para quienes colaboran activamente, mientras que el uso compartido a nivel de elemento encaja mejor en escenarios de solo lectura o consumo.

Además, el Lakehouse puede integrarse con capacidades de gobernanza como etiquetas de confidencialidad y herramientas como Microsoft Purview, reforzando el control y la trazabilidad.

Porque centralizar los datos está muy bien, pero hacerlo sin gobernanza suele salir caro.

Conclusión

El Lakehouse en Microsoft Fabric no viene a sustituir simplemente un lago de datos o un almacén de datos. Viene a cubrir ese punto intermedio que durante mucho tiempo ha sido una fricción constante: querer flexibilidad sin renunciar al análisis.

Permite almacenar, transformar, consultar y compartir datos dentro del mismo entorno. Acerca a ingenieros, analistas y científicos de datos a una misma base. Y reduce bastante la necesidad de mover información de un sitio a otro para poder trabajar con ella.