El proceso de carga de datos en Microsoft Fabric es esencial para garantizar la integración de datos en un único repositorio. Este paso afecta directamente a la precisión del análisis, clave para la toma de decisiones en tiempo real. Si no tenemos bien cargados o a tiempo, nuestras decisiones no serán correctas ni a tiempo.
![]() |
https://learn.microsoft.com/es-es/training/modules/load-data-into-microsoft-fabric-data-warehouse/2-explore-data-load-strategies |
Operaciones de Ingesta y Carga de Datos
Ingesta de Datos:
- Movimiento de datos sin procesar desde múltiples orígenes hacia un repositorio central.
- Utilizado para alimentar almacenes de datos o almacenes de lago en OneLake, con el formato Delta Parquet.
Carga de Datos:
- Transferencia de datos transformados hacia el almacenamiento final.
- Optimizado para análisis e informes empresariales.
Tipos de Estrategias de Carga de Datos
Carga Completa:
- Se realiza la carga inicial de todos los datos en el almacenamiento.
- Características:
- Trunca y recarga todas las tablas.
- Simple de implementar.
- Recomendado para configuraciones iniciales o actualizaciones completas.
Carga Incremental:
- Actualización continua de datos basándose en los cambios desde la última carga.
- Características:
- Conservar el historial de datos.
- Requiere mecanismos como Captura de Datos Modificados (CDC).
- Ideal para actualizaciones periódicas (diarias o por horas).
Claves en Almacenamientos de Datos
Clave Empresarial (Natural):
- Identificador del sistema de origen con significado comercial (por ejemplo, ID de cliente).
- Garantiza la trazabilidad entre los datos del origen y del almacenamiento.
Clave Suplente:
- Generada automáticamente en el sistema (normalmente, valores enteros).
- Mantiene la integridad y precisión al consolidar múltiples orígenes.
Carga de Tablas de Dimensiones
- Proporcionan contexto descriptivo a los datos de hechos.
- Dimensiones de Variación Lenta (SCD):
- Tipos principales:
- Tipo 1: Sobrescribe datos existentes.
- Tipo 2: Conserva versiones históricas.
- Tipo 3: Agrega datos históricos en columnas adicionales.
- Tipos principales:
Carga de Tablas de Hechos
- Las tablas de hechos suelen cargarse después de las tablas de dimensiones.
- Los datos incluyen claves empresariales que deben buscar sus claves suplentes correspondientes.
- Es crucial sincronizar datos históricos con el estado válido de las dimensiones.
Uso de Canalizaciones de Datos
Definición:
- Servicio basado en la nube que permite mover, transformar y programar datos de forma eficiente.
- Integra características de Azure Data Factory para construir flujos de datos.
Opciones de Configuración:
- Asistente para copiar datos (interfaz paso a paso).
- Conexiones personalizadas con orígenes y destinos.
Programación:
- Se pueden programar cargas automatizadas para ejecutarse a intervalos definidos.
Carga mediante T-SQL
Comando
COPY
:- Carga masiva desde Azure Blob Storage hacia el almacenamiento de datos.
- Soporta formatos como CSV y Parquet.
- Opciones avanzadas:
- Especificar varios archivos con caracteres comodín.
- Manejo de errores mediante archivos de registro (ERRORFILE).
Consultas entre Almacenes:
- Permite combinar datos de diferentes recursos de un área de trabajo.
- Uso de
CREATE TABLE AS SELECT (CTAS)
para crear nuevas tablas transformadas.
Dataflow Gen2 para ETL
Definición:
- Herramienta de flujo de datos que simplifica la creación de procesos ETL.
- Compatible con Power Query y diseñado para entornos de poco o ningún código.
Funcionalidades Clave:
- Importar datos desde archivos locales o en la nube.
- Transformar datos con operaciones predefinidas o con Copilot.
- Cargar datos en múltiples destinos (SQL, Lakehouse, Synapse Analytics).
Publicación y Reutilización:
- Permite encapsular transformaciones para reutilizarlas en futuras cargas.
Transformación y Análisis de Datos
Modelos Semánticos:
- Estructura relacional que define relaciones y cálculos entre tablas.
- Facilita la creación de informes en Power BI.
Transformaciones Automatizadas:
- Uso de herramientas como Copilot para simplificar transformaciones complejas.
Recomendaciones para una Carga Eficiente
- Combinar estrategias de carga completa e incremental según el volumen y las necesidades de los datos.
- Usar áreas de almacenamiento provisional para optimizar el rendimiento del almacenamiento de datos.
- Automatizar y programar canalizaciones de datos para flujos de trabajo consistentes.
- Implementar controles de calidad y seguimiento de errores en las cargas de datos.