10_Almacenamiento de datos en Microsoft Fabric

Aspectos Básicos del Almacenamiento de Datos

El almacenamiento de datos moderno implica cuatro fases principales:

Ingesta de datos: Transferencia desde sistemas de origen a un almacenamiento de datos.
Almacenamiento: Guardar datos en un formato optimizado para análisis.
Procesamiento: Transformación en datos listos para análisis.
Análisis y entrega: Generar informes e información empresarial a partir de los datos.

Microsoft Fabric permite realizar este proceso de forma integral, desde la ingesta hasta la visualización, mediante herramientas accesibles y tradicionales o de bajo código.

Características del Almacenamiento de Datos de Fabric

El almacenamiento en Fabric:

Es relacional y totalmente gestionado.
Soporta T-SQL completo para operaciones transaccionales como inserciones, actualizaciones y eliminaciones.
Es compatible con SQL y Spark para consultas y procesamiento avanzado, como la creación de modelos de Machine Learning.
Facilita la colaboración entre ingenieros y analistas de datos sobre datos almacenados en un único lago de datos (OneLake).

Diseño del Almacenamiento de Datos

Diagrama de un diseño de esquema de estrella en el que se muestra una tabla FactSales con cinco dimensiones que adoptan la forma de una estrella.

https://learn.microsoft.com/es-es/training/modules/get-started-data-warehouse/2-understand-data-warehouse

Tablas de hechos y dimensiones: Se organizan siguiendo el modelo dimensional:
- Tablas de hechos: Contienen métricas numéricas como ventas o ingresos.
- Tablas de dimensiones: Ofrecen contexto descriptivo sobre datos de las tablas de hechos, como cliente, fecha o producto.
Claves:
- Clave suplente: Identificador único generado internamente.
- Clave alternativa: Identificador del sistema de origen.
Tipos especiales:
- Dimensiones de tiempo: Facilitan análisis temporal.
- Dimensiones de variación lenta: Rastreo de cambios históricos como precios o direcciones.

Esquemas del Almacenamiento de Datos

Esquema estrella: Tablas de dimensiones directamente relacionadas con una tabla de hechos.
Esquema copo de nieve: Normalización adicional al dividir tablas de dimensiones en tablas más específicas.

Experiencia de Almacenamiento en Fabric

Creación del Almacenamiento:
- Se crea un almacén vacío en Fabric donde se añaden tablas, vistas y otros objetos.
Ingesta de Datos:
- Se pueden usar canalizaciones, flujos de datos o comandos como COPY INTO para importar datos desde múltiples orígenes.
- Clonación de tablas: Réplicas eficientes de tablas para desarrollo, pruebas o recuperación de datos.
Carga y procesamiento:
- Uso de tablas provisionales para limpieza, validación y transformación antes de cargar datos definitivos.

Consultas y Transformaciones

Editor de consultas SQL: Soporta T-SQL con características como IntelliSense.
Editor de consultas visuales: Experiencia de arrastrar y soltar, similar a Power Query.
Modelos semánticos:
- Crean relaciones entre tablas y definen medidas (cálculos DAX) para análisis.
- Pueden ser modelos semánticos personalizados o predeterminados que se sincronizan automáticamente con el almacenamiento.

Visualización y Reportes

Fabric permite explorar datos en tiempo real o generar informes de Power BI desde el almacenamiento.
Los informes reflejan los modelos semánticos creados, facilitando análisis empresariales.

Seguridad y Supervisión

Seguridad:
- Control de acceso basado en roles (RBAC).
- Cifrado SSL y Azure Storage Service Encryption.
- Autenticación multifactor (MFA) para mayor protección.
Permisos:
- Roles en áreas de trabajo para acceso global.
- Permisos específicos de elementos para acceso detallado.
Supervisión:
- Uso de Vistas de Administración Dinámica (DMV) para monitorear conexiones, sesiones y consultas:
  - sys.dm_exec_connections: Información de conexiones activas.
  - sys.dm_exec_sessions: Sesiones autenticadas.
  - sys.dm_exec_requests: Solicitudes activas.

Optimización y Solución de Problemas

Identificación de consultas largas con sys.dm_exec_requests.
Finalización de sesiones problemáticas con el comando KILL.
Monitoreo proactivo para asegurar rendimiento óptimo y seguridad de los datos.