02_Orquestación de procesos y movimiento de datos con Microsoft Fabric

Hasta ahora hemos visto cómo traer datos y cómo transformarlos. Pero hay una pregunta que siempre aparece cuando empiezas a escalar:

¿Quién se encarga de que todo esto ocurra en el orden correcto… y sin que tengas que estar pendiente?

Ahí es donde entran las canalizaciones en Microsoft Fabric.

Porque una cosa es tener procesos, y otra muy distinta es orquestarlos.

¿Qué es una canalización?

Una canalización no deja de ser un flujo de trabajo. Una secuencia de pasos que se ejecutan en un orden determinado para mover y transformar datos.

Por ejemplo:

extraes datos de un origen
los cargas en un Lakehouse
ejecutas una transformación
y, cuando termina, lanzas otro proceso

Todo esto, encadenado y automatizado.

Si vienes de Azure Data Factory, esto te sonará mucho. De hecho, el concepto es el mismo: actividades conectadas que definen un proceso completo.

Cómo funciona realmente

Una canalización se compone de actividades. Y aquí es donde empieza la lógica.

Tienes actividades que mueven o transforman datos, como copiar información de un origen a un destino o ejecutar un flujo de datos Gen2. Pero también tienes actividades que controlan el flujo: condiciones, bucles, decisiones… lo que necesitas para que el proceso sea algo más que una simple secuencia lineal.

Es decir, no solo defines qué hacer, sino también cuándo y en qué condiciones hacerlo.

El concepto clave: actividades

Cada pieza dentro de una canalización es una actividad. Y cada actividad puede terminar bien, fallar o simplemente finalizar. En función de ese resultado, decides qué ocurre después.

Esto te permite construir procesos bastante complejos sin necesidad de escribir apenas código.

Puedes, por ejemplo:

copiar datos
limpiar una tabla antes de cargarla
ejecutar un notebook de Spark
lanzar un procedimiento SQL

Y todo dentro del mismo flujo.

Parámetros: la clave para reutilizar

Aquí hay un punto importante que muchas veces se pasa por alto.

Las canalizaciones se pueden parametrizar. Es decir, puedes definir valores que cambian en cada ejecución. Por ejemplo, el nombre de una carpeta, una fecha o una ruta de destino.

Esto hace que no tengas que crear una canalización para cada caso. Creas una… y la reutilizas.

La actividad más usada: Copiar datos

Si hay una actividad que vas a usar sí o sí, es la de copiar datos.

Es la forma más directa de ingerir información: coges datos de un origen y los llevas a un destino. Sin transformaciones, sin complicaciones.

Y aunque suene simple, es la base de muchos procesos.

Puedes usarla sola o combinarla con otras actividades. Por ejemplo:

borrar datos existentes
copiar los nuevos
transformar después con Spark

Todo dentro de la misma canalización.

¿Y si necesito transformar?

Entonces entran en juego los flujos de datos Gen2.

Puedes integrarlos dentro de la canalización y aplicar transformaciones más complejas usando Power Query. Es decir, no compiten… se complementan.

La canalización orquesta.
El flujo de datos transforma.

Plantillas: empezar sin partir de cero

Fabric incluye plantillas de canalización para escenarios habituales. No tienes que construir todo desde cero.

Seleccionas una plantilla, la adaptas y la ajustas a tu necesidad.

Esto acelera mucho el desarrollo, sobre todo cuando ya sabes lo que quieres hacer pero no quieres perder tiempo en la estructura inicial.

Ejecución y control

Una vez tienes tu canalización, puedes ejecutarla manualmente o programarla.

Y aquí viene algo clave en entornos reales: puedes ver qué ha pasado en cada ejecución.

si ha fallado
en qué paso
con qué configuración

Esto es fundamental cuando trabajas con datos en producción. Porque no todo va a salir bien siempre… y necesitas saber por qué.

Conclusión

Las canalizaciones no transforman datos por sí solas. No limpian, no modelan, no analizan.

Pero hacen algo igual de importante: coordinan todo lo demás.

Son la pieza que conecta la ingesta, la transformación y la carga. La que convierte procesos sueltos en un flujo coherente y automatizado.

Ahora bien, como todo en datos, automatizar algo mal diseñado solo hace que el problema ocurra más rápido.

Porque al final, no se trata solo de mover datos de un sitio a otro.