5 Tips para la modelización de modelos Import en Power BI

¡Jueves de post! Hoy traigo un post un tanto diferente.. Y no es más que la ponencia que dí el pasado sábado 29 en los Power BI Days de Bilbao. Una experiencia inolvidable y adictiva, ya que estoy deseando que llegue la siguiente... Agradecer a Inés Pascual, Cristina Tabarabi-Castellani, Nagore Landa por la perfecta organización del evento y por haberme dado la oportunidad de estrenarme en el mundo speaker :). Fue un verdadero honor conocer en persona a Ana Maria Bisbé, Ricardo Ricon, Miguel Egea, Ruben Pertusa, Nelson Lopez, Diana Aguilera, Ivan Arribas, Alex Ayala, Jose Manuel Pomares... y muchísimos más profesionales del mundo de los datos. ¡GRACIAS!

Los siguientes Power BI Days son en Madrid los días 25 y 26 de Noviembre y si podéis ir, os recomiendo ir encarecidamente ya que participan los referentes de la comunidad tanto a nivel nacional como internacional. Os dejo aquí el link por si os animáis.

Vamos los post.

Tip 1: Modelar, modelar, modelar...

En la imagen inferior, es uno de mis primeros “modelos” qué realicé en Power BI hará unos 5 años… Es como esa foto de la adolescencia que todos tenemos escondida en un cajón… pues aquí está la mía.

Es un informe completamente funcional, con datos válidos, correctos, y además ha estado en servicio hasta hace relativamente poco debido a “Tengo que optimizarlo… pero ahora no tengo tiempo”.

Aunque como he dicho, es un informe funcional, también es una fantástica agrupación de todas las malas prácticas que uno debe evitar a la hora de realizar un modelo y que va en contra de todo lo que os voy hablar hoy...

Como se puede ver, el tamaño del archivo pbix es de 341 Mb y mientras que el tamaño del modelo llega a 1,85 Gb… que necesito de memoria y que algo con una licencia Pro no puedo subirlo. Su tiempo de actualización se iba a casi 45 minutos (y no, no es un mega modelo).

Aunque no lo parezca, este esquema es el mismo informe que el anterior, pero con un correcto modelado (y más técnicas de optimización que veremos más adelante).

Las diferencias son abismales entre ambos, ya no sólo a nivel de rendimiento, que es lo que buscamos, sino que, a nivel de interpretación, están bien diferenciadas las tablas de dimensiones y las tablas de hechos. Por qué creerme que me acordé en el Javi del pasado cuando me puse a optimizar el modelo…

Conseguimos pasar de un modelo que solamente el pbix ocupaba 341 Mb a 17 Mb

De 68 tablas y 1103 columnas a 11 tablas y 87 columnas…

¡Y de un tamaño de 1,85 Gb a 87 Mb!

Por lo que, una vez claro el impacto que tiene modelar, saber que debemos definir correctamente las tablas de dimensiones y las tablas de hechos. Para ello voy a nombrar una frase del libro Fundamentos de modelado en estrella de Toni Jurado:

“Cualquier cosa que queramos poner en una fila o columna de una tabla o en un eje de un gráfico DEBE SER un atributo de una dimensión y cualquier cosa que se deba representar como valor, tanto en una tabla como un gráfico, debe estar en una tabla de hechos.”

¿Cómo llegamos a un resultado como este? De la siguiente manera:

Intentar llegar siempre que podamos a un modelo en estrella.
Definir las relaciones correctamente entre tablas, es decir, la cardinalidad.
Definir correctamente las granularidades, por ejemplo, si el análisis del modelo va a ser semanal, la granularidad del modelo debe corresponderse con la misma y no ser diaria, o a nivel de segundos como era el caso del modelo ya que recogía las producciones de las plantas productivas. Este punto también va muy de la mano con el tercer tip.
Optimizar los tipos de datos de las columnas, es decir, una correcta identificación del tipo de dato ayudará al motor VertiPaq a la compresión de las columnas.

Esta parte son los cimientos de nuestro modelo, de nuestra casa, y es donde debemos dedicarle el máximo mimo y cuidado. Nos ahorrará mucho tiempo en el futuro…

Conclusión: No por traernos todas las tablas al modelo sin modelar, este va a rendir mejor.

Tip 2: Desactivar la inteligencia de tiempos automática

¿Por qué desactivar la inteligencia de tiempos automática? Por qué Power BI “Nos va a crear una tabla de fechas oculta en nuestro modelo para cada CAMPO (Columna) que tenga un tipo de datos de fecha o fecha y hora.

¿De verdad que es necesario este ajuste para optimizar el modelo? ¿Tanto ocupan esas tablas ocultas? Veámoslo con un ejemplo.

Podemos ver que dependiendo de la cantidad de históricos que sean necesarios traernos, puede llegar a ocupar más 50% del modelo, en este caso, estamos hablando de casi un 40% de espacio. Y esto implica podemos moverlo con un tipo de licencia u otro… Como se suele decir, cada mega, cuenta.

Para desactivar la inteligencia automática para la fecha y la hora en Opciones y Configuración – Opciones

Y lo podemos hacer tanto a nivel global:

o de proyecto:

Conclusión: No por tener la fecha y hora automática, perdemos funcionalidades. Desactivándolas, nuestro modelo ocupa menos y puede marcar la diferencia entre qué tipo de licencia tendremos que usa.

Tip 3: Eliminar columnas/filas innecesarias

Lanzo una pregunta, si en mi modelo no uso X columnas o filas, ¿para qué me las voy a traer a mi modelo? Sólo me van a ocupar espacio y no aportan valor a mi modelo ni responden preguntas de negocio.

¿Cómo eliminamos o evitamos tener columnas o filas innecesarias en nuestro modelo?

En nuestro proceso de extracción de la información, si nuestro origen nos lo permite, trayéndonos la información ya filtrada mediante sentencias SQL, DAX,.. Por ejemplo, si nuestro origen de datos es una base de datos relacional en SQL Server, podemos escribir la consulta para que se ejecute en origen y nos traiga las columnas que queremos, incluso, podemos generar nuestras vistas si nuestro DBA no nos la genera en DWH.

Si nuestro origen no nos permite la opción de filtrado, estas debemos eliminarlas mediante Power Query lo antes posible. Para ello, en el menú de Power Query, disponemos de las opciones Elegir Columnas y Quitar Columnas. Si hacemos click sobre “Elegir Columnas” se nos despliega un menú en el que seleccionamos las columnas necesarias para nuestro modelo.

Nota: Como buena práctica se recomienda usar el paso de “Elegir Columnas” ya que nos permite volver y reajustar las opciones de filtrado cosa que si optamos por “Quitar Columna” no nos lo permite.

Si tenemos columnas que son el resultado de la combinación de otras y que podemos calcularlas mediante métricas, no nos aportan, por lo que podemos prescindir de ellas. Por ejemplo, las columnas “TotalCost” y “SalesAmount” son el resultado del producto UnitCost por Quantity y UnitPrice por Quantity por lo que las podemos eliminar y calcularlas mediante iteradores.

La granularidad de la información. Otra técnica eficaz para reducir el tamaño de nuestro modelo es la posibilidad de agrupar/resumir los datos de nuestro modelo. Si el requisito del modelo es un análisis por ejemplo semanal y los datos en nuestra tabla de hechos esta con una granularidad de día, podemos agruparlo por semana reduciendo el nivel de detalle de la información y considerablemente el peso de nuestro modelo.

Conclusión: No por traernos toda la información, nuestro modelo va a ser menos funcional.

Tip 4: Métricas VS Columnas Calculadas

Una columna calculada no está tan optimizada como una columna nativa que nos traemos desde origen. Generalmente tienen una tasa de compresión más baja en comparación con las columnas nativas de la tabla porque no participa en el algoritmo que usa VertiPaq para encontrar el orden de clasificación óptimo de los datos en cada segmento.

Muy importante a tener en cuenta que si puede evitar una columna calculada creando el mismo valor con una columna nativa en el origen de datos al completar la tabla, por ejemplo, mediante una instrucción SQL o una transformación de Power Query, debemos implementarlo.

Una vez dicho esto, las columnas calculadas se calculan en tiempo de actualización, es decir, una vez terminado la carga de datos al modelo y se almacena en el modelo de datos en memoria mientras que las medidas o métricas se calculan dinámicamente, o lo que es lo mismo, no consumen casi casi memoria sino CPU.

Por ejemplo, en la imagen podemos ver nuestra tabla de hechos con 2 métricas y con 2 columnas calculadas, como podemos ver, el hecho de disponer de 2 columnas calculadas el modelo ha aumentado en 10 MB en una tabla de sólo 12 millones de registros.

Ojo, con esto no quiero demonizar a las columnas calculadas, ya que, si por el hecho de hacer una columna calculada nos puede ahorrar una métrica DAX súper compleja y laboriosa, la podemos hacer, pero a poder siempre en el origen o en Power Query.

Las buenas prácticas para cuando las columnas calculadas deben considerarse opciones viables generalmente en estas dos situaciones:

Agrupar o filtrar datos: si una columna calculada devuelve un valor utilizado para agrupar o filtrar datos, no hay otra alternativa que crear el mismo valor antes de importar datos al modelo de datos.
Precalcular fórmulas complejas: una columna calculada puede almacenar el resultado de un cálculo complejo que no es sensible a los filtros realizados en el momento de la consulta

Conclusión: Cuantas menos columnas calculadas con DAX en nuestro modelo, mejor.

Tip 5: Uso de Variables

Hasta ahora, casi todo lo que hemos visto estaba orientado a la optimización de modelo en cuanto a espacio, ahora vamos a ver qué podemos hacer para la experiencia del usuario con el informe sea completamente satisfactoria. Y es el uso de variables.

Las variables tienen 4 objetivos, que son:

Rendimiento mejorado: las variables pueden hacer que las medidas sean más eficaces porque eliminan la necesidad de que Power BI evalúe varias veces la misma expresión.

Mejora de la legibilidad: las variables tienen nombres cortos y autodescriptivos (o deberían), y se usan en lugar de una expresión ambigua de varias palabras. Al usar variables, es posible que le resulte más fácil leer y comprender las fórmulas.

Depuración simplificada: puede usar variables para depurar una fórmula y probar expresiones, lo que puede resultar útil durante la solución de problemas.

Complejidad reducida: las variables no requieren el uso de las funciones DAX EARLIER o EARLIEST, que son difíciles de comprender. Estas funciones eran necesarias antes de que se introdujeran las variables y se escribieron en expresiones complejas que incorporaban nuevos contextos de filtro. Ahora que puede usar variables en lugar de esas funciones, puede escribir menos fórmulas complejas.

Vamos a verlo con un pequeño ejemplo:

En la primera medida que vemos, la medida [Cantidad Productos] se va a calcular 4 veces cada vez que queramos obtener la Demanda de Productos, en cambio, si generamos una variable con la cantidad, esta se va a calcular una única vez cada vez que queramos obtener la Demanda de productos. ¿Y esto en que se traduce? Un diferencia en la duración de la consulta, en este modelo de Contoso que he utilizado prácticamente no es significativo, pero llevado a un modelo mucho mayor esto puede dar como resultado una experiencia de usuario no óptima.

Conclusión: Cuantas menos veces anidemos una medida dentro de otra… mejor será el rendimiento y por tanto la experiencia de usuario.

Y hasta aquí fue mi exposición del pasado sábado... espero que os sea útil.

¡Nos vemos en los datos!