El proceso de carga de datos en Microsoft Fabric es esencial para garantizar la integración de datos en un único repositorio. Este paso afecta directamente a la precisión del análisis, clave para la toma de decisiones en tiempo real. Si no tenemos bien cargados o a tiempo, nuestras decisiones no serán correctas ni a tiempo.


Diagrama de la secuencia de pasos en el proceso de ciencia de datos.
https://learn.microsoft.com/es-es/training/modules/load-data-into-microsoft-fabric-data-warehouse/2-explore-data-load-strategies

 


Operaciones de Ingesta y Carga de Datos

  1. Ingesta de Datos:

    • Movimiento de datos sin procesar desde múltiples orígenes hacia un repositorio central.
    • Utilizado para alimentar almacenes de datos o almacenes de lago en OneLake, con el formato Delta Parquet.
  2. Carga de Datos:

    • Transferencia de datos transformados hacia el almacenamiento final.
    • Optimizado para análisis e informes empresariales.

Tipos de Estrategias de Carga de Datos

  1. Carga Completa:

    • Se realiza la carga inicial de todos los datos en el almacenamiento.
    • Características:
      • Trunca y recarga todas las tablas.
      • Simple de implementar.
      • Recomendado para configuraciones iniciales o actualizaciones completas.
  2. Carga Incremental:

    • Actualización continua de datos basándose en los cambios desde la última carga.
    • Características:
      • Conservar el historial de datos.
      • Requiere mecanismos como Captura de Datos Modificados (CDC).
      • Ideal para actualizaciones periódicas (diarias o por horas).

Claves en Almacenamientos de Datos

  1. Clave Empresarial (Natural):

    • Identificador del sistema de origen con significado comercial (por ejemplo, ID de cliente).
    • Garantiza la trazabilidad entre los datos del origen y del almacenamiento.
  2. Clave Suplente:

    • Generada automáticamente en el sistema (normalmente, valores enteros).
    • Mantiene la integridad y precisión al consolidar múltiples orígenes.

Carga de Tablas de Dimensiones

  • Proporcionan contexto descriptivo a los datos de hechos.
  • Dimensiones de Variación Lenta (SCD):
    • Tipos principales:
      • Tipo 1: Sobrescribe datos existentes.
      • Tipo 2: Conserva versiones históricas.
      • Tipo 3: Agrega datos históricos en columnas adicionales.

Carga de Tablas de Hechos

  1. Las tablas de hechos suelen cargarse después de las tablas de dimensiones.
  2. Los datos incluyen claves empresariales que deben buscar sus claves suplentes correspondientes.
  3. Es crucial sincronizar datos históricos con el estado válido de las dimensiones.

Uso de Canalizaciones de Datos

  1. Definición:

    • Servicio basado en la nube que permite mover, transformar y programar datos de forma eficiente.
    • Integra características de Azure Data Factory para construir flujos de datos.
  2. Opciones de Configuración:

    • Asistente para copiar datos (interfaz paso a paso).
    • Conexiones personalizadas con orígenes y destinos.
  3. Programación:

    • Se pueden programar cargas automatizadas para ejecutarse a intervalos definidos.

Carga mediante T-SQL

  1. Comando COPY:

    • Carga masiva desde Azure Blob Storage hacia el almacenamiento de datos.
    • Soporta formatos como CSV y Parquet.
    • Opciones avanzadas:
      • Especificar varios archivos con caracteres comodín.
      • Manejo de errores mediante archivos de registro (ERRORFILE).
  2. Consultas entre Almacenes:

    • Permite combinar datos de diferentes recursos de un área de trabajo.
    • Uso de CREATE TABLE AS SELECT (CTAS) para crear nuevas tablas transformadas.

Dataflow Gen2 para ETL

  1. Definición:

    • Herramienta de flujo de datos que simplifica la creación de procesos ETL.
    • Compatible con Power Query y diseñado para entornos de poco o ningún código.
  2. Funcionalidades Clave:

    • Importar datos desde archivos locales o en la nube.
    • Transformar datos con operaciones predefinidas o con Copilot.
    • Cargar datos en múltiples destinos (SQL, Lakehouse, Synapse Analytics).
  3. Publicación y Reutilización:

    • Permite encapsular transformaciones para reutilizarlas en futuras cargas.

Transformación y Análisis de Datos

  1. Modelos Semánticos:

    • Estructura relacional que define relaciones y cálculos entre tablas.
    • Facilita la creación de informes en Power BI.
  2. Transformaciones Automatizadas:

    • Uso de herramientas como Copilot para simplificar transformaciones complejas.

Recomendaciones para una Carga Eficiente

  1. Combinar estrategias de carga completa e incremental según el volumen y las necesidades de los datos.
  2. Usar áreas de almacenamiento provisional para optimizar el rendimiento del almacenamiento de datos.
  3. Automatizar y programar canalizaciones de datos para flujos de trabajo consistentes.
  4. Implementar controles de calidad y seguimiento de errores en las cargas de datos.