Datamart: caso práctico de uso (II)

¡Jueves! Primer post del año 2023 y continuamos con la serie de datamart. Este post tocaba la semana pasada pero ya me perdonaréis, pero me estuve preparando para examinarme de la certificación DP-500: Azure Enterprise Data Analyst Associate (¡y la aprobé! J). Ya os contaré en otro post como ha sido mi experiencia con esta certificación.

Recapitulemos, en el post anterior hablamos de cómo creábamos un datamart, su carga de datos, el query folding y unos tips con buenas prácticas, si te lo perdiste, te dejo aquí el link. En este post veremos el proceso de transformación, carga y claves para un correcto modelado. Como suelo decir, este proceso son los cimientos de nuestro modelo.

Antes empezar con todo el proceso de transformación, debemos de tener claro el objetivo de nuestro modelo y las preguntas de negocio a las que tenemos que dar respuesta:

· Analizar las ventas temporales por:

o Producto, categoría y subcategoría.

o Promociones aplicadas.

o Continentes, países y tiendas con más ventas

o Medio por el que se han realizado las ventas.

o Empleados con más ventas.

Una vez obtenidos los requerimientos de nuestro modelo, lo que a mí me gusta realizar, es la identificación de las tablas, es decir, identificar las tablas de hechos y las de dimensión. Para ello creamos un grupo para cada uno de ellas:

Y a las tablas de hechos les añadimos el prefijo “Fact_” y las arrastramos al grupo recién creado:

Y realizamos casi el mismo proceso para las tablas de dimensión, pero sin añadir aún el prefijo “Dim_” que lo haremos más adelante, y se nos queda el siguiente esquema, que, aunque no será el definitivo, nos aporta una visión más clara de nuestro modelo:

Os estaréis preguntado por qué no le he puesto el prefijo “Dim_” a las tablas, bien, el motivo es que no todas las tablas las consideraremos como dimensión, sino que algunas serán atributos de las tablas de dimensión, y puede que no sea necesario cargarlas a nuestro modelo. Acordaros que nuestro objetivo siempre que podamos, será llegar a un modelo en estrella. Como dice Toni Jurado, “Sigue el camino de la estrella” (y qué mejor que la noche de los Reyes Magos ... J )

Uno de los requerimientos del negocio, es el análisis de los datos por producto, categoría y subcategoría. Vamos a analizar las tablas, para ello seleccionamos la tabla de Categoría:

Vemos que tiene 6 columnas que son:

ProductCategoryKey (Clave de negocio o clave Principal) à Tipo número entero.
ProductCategoryLabel à Tipo texto
ProductCategoryName à Tipo texto
ProductCategoryDescription à Tipo texto
ETLLoadID à Tipo número entero
LoadDate à Tipo fecha y hora
UpdateDate à Tipo fecha y hora

De este primer análisis, debemos eliminar las columnas que no sean necesarias para nuestro modelo, y estas son: ProductCategoryLabel, ETLLoadID, LoadDate y UpdateDate.

¿Por qué no son necesarias? Porque no son un requisito para el análisis de nuestro modelo y, por tanto, no las necesitamos.

Nota: las columnas LoadDate y UpdateDate son columnas de tipo fecha y hora, si para nuestro modelo las necesitásemos, recordar que deberíamos separarlas en dos columnas, una con la fecha otra con la hora ya que se comprimen mejor.

Ahora, vamos a la tabla ProductSubcategory:

ProductSubcategoryKey (Clave de negocio o clave Principal) à Tipo número entero.
ProductSubcategoryLabel à Tipo texto
ProductSubcategoryName à Tipo texto
ProductSubcategoryDescription à Tipo texto
ProductCategoryKey à (Clave secundaria) à Tipo número entero
ETLLoadID à Tipo número entero
LoadDate à Tipo fecha y hora
UpdateDate à Tipo fecha y hora

De este análisis, debemos eliminar las columnas que no sean necesarias para nuestro modelo, y estas son: ProductSubcategoryLabel, ETLLoadID, LoadDate y UpdateDate.

Una vez ya hecho el trabajo de limpieza de estas dos tablas, podemos combinarlas entre ellas. Para ello, vamos a Combinar consultas y seleccionamos la columna por la que queremos combinarlas:

Como dato importante, vemos que de los 44 registros de la tabla ProductSubcategory, hay 44 coincidencias. ¿Esto qué significa? Que para cada fila de las 44 de la tabla ProductSubcategory, hay una coincidencia exacta en la tabla ProductCategory. O lo que es lo mismo, cada subcategoría tiene una categoría asociada.

A continuación, expandimos la tabla combinada y seleccionamos las columnas que necesitamos:

Si nos fijamos en los pasos aplicados en la consulta, el plegado de consultas se mantiene:

¿Y por qué se mantiene el plegado de consultas? Por qué no lo hemos roto en la tabla ProductCategory. En cambio, si lo hubiésemos roto, al combinarla con la tabla ProductSubcategory, el plegado estaría roto. Por eso, salvo que sea indispensable, debemos mantener el plegado hasta el final.

Si os fijáis en la parte de las consultas, en la tabla ProductSubcategory, nos ha aparecido un icono de un rayo, ¿qué significa?

Significa que es una entidad calculada, o lo que es lo mismo, realizar cálculos en almacenamiento. En nuestro caso, no queremos cargar al modelo la tabla ProductCategory, ya que la hemos combinado con la tabla ProductSubcategory, por lo que deshabilitamos la carga de la misma y acto seguido nos desaparece el icono del rayo:

Ahora vamos a la tabla Product y realizamos el mismo proceso que hemos hecho en las otras dos tablas que son: seleccionamos las columnas que queremos y combinamos la tabla con ProductSubcategory.

Ahora ya tenemos nuestra tabla de dimensión completa… ¿Seguro? Sí pero no, ya que es recomendable coger el hábito de crear nuestras propias claves subrogadas, que son claves que generamos nosotros mismos y que no tienen relación con el modelo del negocio. ¿Con que objetivo?

Evitar las claves que no sean numéricas. (en este caso lo son, pero muchísimas veces no lo son)
Posibilidad de tener SCD (Dimensiones lentamente cambiantes)

Antes de generar la columna índice, debemos asegurarnos de que no tenemos ningún registro duplicado en nuestra tabla de dimensión dado que la relación con la tabla de hechos va a ser 1 a varios. Para ello, seleccionamos la tabla completa, haciendo click en la zona superior izquierda de la tabla:

Si hubiésemos quitado duplicados seleccionando una columna, sólo quitaría los duplicados de esa columna. Como podemos ver, nos sigue manteniendo el plegado de consultas J.

Ahora, ¿cómo generamos una clave subrogada? Vamos a la opción Agregar columna y seleccionamos “Columna de índice”, y que comience desde 1.

Y automáticamente, Power Query nos ha generado una columna que será la que usemos como clave subrogada.

En este paso, podemos aprovechar y cambiarle el nombre sin añadir un paso extra. Para ello, en la barra de pasos, escribimos el nombre que le queremos dar a la columna nueva, en este caso “IsProductCategory”:

Y podemos ver que el nombre de la columna se ha modificado correctamente y en la parte de pasos aplicados no se ha añadido uno nuevo.Pero fijaros que hemos roto el query folding con este último paso, por lo que este paso no se evaluará en el origen sino en destino.

Ahora, para tener la vista de consultas más limpia, creamos un grupo nuevo para mover las tablas que son los atributos de dimensión.

Tal y como podéis ver en la siguiente imagen:

Y por último y a modo de limpieza y orden del modelo, una vez ya modelizada nuestra tabla de dimensión Product, le añado el sufijo “Dim_” para que de un vistazo rápido se distingan rápidamente las tablas.

Y con esto, ya tenemos nuestra tabla de dimensión producto, preparada para ser utilizada.Y por hoy, hasta aquí ya está bien que sino me lío y os tengo aquí hasta mañana.

¡Nos vemos en los datos!