Seguimos con la preparación del examen, y hoy nos vamos a centrar en qué es un Lakehouse.
¿Alguna vez has sentido que tus datos están dispersos y que cada equipo usa su propia herramienta? ¿Que los datos estructurados están en una base de datos y los no estructurados andan por ahí en la nube, en sharepoint, en el ordenador de la máquina en planta? Ahí es donde entra en juego Microsoft Fabric y su poderoso Lakehouse.
Imagina un lugar donde podemos almacenar y analizar todos nuestros datos, sin importar el formato ni el origen, todo en un solo entorno. Fabric reúne lo mejor de ambos mundos: la flexibilidad de un lago de datos y el poder analítico del almacenamiento SQL.
Es el “centro de mando” perfecto para cualquier organización que quiera explotar al máximo sus datos.
Introducción a Microsoft Fabric y Lakehouse
Microsoft Fabric está basado en un Lakehouse creado sobre la capa de almacenamiento escalable OneLake, utilizando motores de procesamiento de Apache Spark y SQL. Este almacén combina:
- La flexibilidad y escalabilidad de un lago de datos.
- Las capacidades de consulta y análisis de un almacenamiento de datos estructurado.
La idea central es que Microsoft Fabric permite que datos estructurados y no estructurados puedan gestionarse y analizarse en un solo lugar, sin las limitaciones de los sistemas de almacenamiento tradicionales. Esto es especialmente útil para empresas que manejan datos de distintos formatos y fuentes, como sistemas transaccionales y redes sociales, buscando análisis integral para una toma de decisiones mejorada.
![]() |
Imagen creada con IA |
Exploración del Almacén de Lago de Microsoft Fabric
El Lakehouse en Fabric se presenta como una base de datos, combinando el análisis SQL relacional con la flexibilidad de un lago de datos, soportando datos en formato Delta y múltiples formatos (CSV, JSON, etc.). Es una solución en la nube que permite:
- Escalabilidad automática, alta disponibilidad y recuperación ante desastres.
Ventajas del Lakehouse:
- Procesamiento a Gran Escala: Utiliza motores Spark y SQL, ideal para aprendizaje automático y análisis predictivo.
- Esquema Flexible: Organiza los datos en un formato de lectura, definiendo el esquema solo cuando es necesario.
- Transacciones ACID: Utiliza el formato Delta Lake, asegurando coherencia e integridad de los datos.
- Acceso Único para Profesionales de Datos: Permite que ingenieros, científicos y analistas trabajen juntos en el mismo entorno de datos.
Usos y Beneficios:
Un almacén de lago es ideal para escenarios que requieren análisis a gran escala con consistencia de datos y acceso compartido. En Microsoft Fabric, este almacén se puede integrar en áreas de trabajo de nivel Premium, soportando múltiples fuentes de datos, cargas de datos automatizadas y accesos directos a datos externos.
Lakehouse en Microsoft Fabric: Creación y Funcionalidades
Microsoft Fabric permite crear un Lakehouse en cualquier área de trabajo de nivel Premium, permitiendo:
- Carga de Datos de Múltiples Orígenes: Se pueden cargar datos desde archivos locales, bases de datos o API.
- Automatización con Canalizaciones de Data Factory: Data Factory Gen2 permite ingestas automatizadas y flujos de datos para exploración y transformación.
- Accesos Directos a Datos Externos: Puedes crear accesos directos para integrar datos externos sin moverlos, tanto de Azure Data Lake Store Gen2 como de otros lagos de datos en Microsoft OneLake.
Exploración y Transformación de Datos
Una vez que los datos están en el almacén de lago, Fabric permite explorar y transformar datos usando cuadernos (notebooks) o flujos de datos. Las canalizaciones de Data Factory pueden orquestar actividades de transformación usando Spark y otras herramientas, con opciones para inteligencia en tiempo real y análisis en Power BI.
Trabajo Práctico con el Lakehouse en Microsoft Fabric
Al crear un Lakehouse, se generan tres componentes importantes:
- Lakehouse: La interfaz donde se interactúa con archivos, carpetas y tablas.
- Modelo Semántico Predeterminado: Modelo para crear informes de Power BI desde el almacén.
- Punto de Conexión SQL de Análisis: Punto de solo lectura que permite realizar consultas SQL con Transact-SQL.
Modos de Trabajo con el Lakehouse
- Interacción Directa: Agregar y gestionar tablas, archivos y carpetas.
- Consultas SQL: Mediante el punto de conexión SQL, es posible consultar y administrar el modelo relacional.
Opciones de Ingesta de Datos en el Lakehouse
Hay varias maneras de cargar datos en el Lakehouse:
- Carga Directa: Subir archivos o carpetas locales y convertir los datos en tablas.
- Flujos de Datos (Gen2): Importación y transformación de datos desde múltiples fuentes usando Power Query.
- Cuadernos: Utilizar notebooks para ingerir y transformar datos directamente.
- Canalizaciones de Data Factory: Orquestar la ingesta y procesamiento de datos con actividades de transformación complejas.
Acceso a Datos mediante Accesos Directos
Los accesos directos permiten integrar datos de almacenamiento externo sin duplicarlos. Estos accesos sirven para acceder a datos en otras cuentas de almacenamiento o incluso en otros proveedores de nube. Estos accesos directos funcionan como carpetas en el lago de datos y son gestionados por OneLake, controlando permisos y credenciales para un acceso seguro y autorizado.
Herramientas para Exploración y Transformación en el Lakehouse
Microsoft Fabric proporciona diversas herramientas para explorar y transformar datos en el almacén de lago:
Apache Spark: Disponible para cuadernos y trabajos de Spark, permite procesamiento en múltiples lenguajes (Scala, PySpark, Spark SQL).
- Cuadernos: Interfaz interactiva para leer, transformar y escribir datos.
- Trabajos de Spark: Scripts ejecutados bajo demanda o programados.
Punto de Conexión SQL: Permite ejecutar Transact-SQL para consultas y filtrado en tablas del almacén.
Flujos de Datos (Gen2): Pueden usarse para transformar datos con Power Query y volver a cargarlos en el almacén.
Canalizaciones de Datos: Permiten crear flujos complejos de transformación de datos con Spark y flujos de datos, ideal para lógica avanzada de procesamiento.
Análisis y Visualización en el Lakehouse
Los datos del almacén de lago pueden incluirse en un modelo semántico que define un modelo relacional. Este modelo se puede personalizar para definir medidas, jerarquías y agregaciones, siendo la base para crear informes en Power BI. Al unir las capacidades de visualización de Power BI con el almacenamiento centralizado y el esquema tabular del almacén, es posible implementar un análisis completo de extremo a extremo en una sola plataforma.
Conclusión
Así que, después de este recorrido, ¿quién dice que gestionar datos complejos debe ser complicado? Que sí, que lo es, que no te voy a engañar y lo sabes, pero con Microsoft Fabric y su Lakehouse estos procesos están diseñados para simplificar y potenciar el análisis de datos, desde estructurados hasta no estructurados.
¿Que tienes datos en un montón de formatos diferentes? No hay problema, Fabric los unifica. ¿Que necesitas escalabilidad y procesamiento a lo grande? Ahí entran Spark y SQL al rescate. ¿Que quieres visualizaciones interactivas? Power BI lo hace posible (eso sí, no olvidemos modelar y modelar...)
Al final, Microsoft Fabric nos ofrece un "todo en uno" que va más allá de la simple gestión de datos: es una plataforma donde ingenieros de datos, científicos y analistas colaboramos estando todos en el mismo equipo. Y todo sin duplicar datos ni perder tiempo buscando herramientas aquí y allá.
Así que, la próxima vez que alguien te diga que gestionar datos es un rompecabezas, enseñale qué es un Lakehouse y quizás puedas ayudar a simplificarle la vida.