Analisis con Tableau: Novedades en Tableau 10 (I): Análisis cluster (clustering)

domingo, 28 de agosto de 2016

Novedades en Tableau 10 (I): Análisis cluster (clustering)


Tal vez sea una de las novedades que la comunidad de Tableau esperaba con más ganas después de que se anunciara en una de las últimas conferencias: la posibilidad de realizar un análisis cluster de forma nativa en Tableau sin necesidad de utilizar ninguna aplicación de terceros. Pero ¿en qué consiste un análisis cluster? básicamente se trata de un método de estadística multivariante que clasifica un conjunto de elementos (datos) en un número reducido de grupos (clusters) de forma que los elementos que pertenezcan a un mismo grupo sean muy similares entre sí y diferentes de los elementos de otro grupo.
El método utilizado por Tableau para realizar el análisis cluster es el de k-medias (k-means), validando el número de clusters por medio del índice Calinski-Harabasz. A mayor valor del índice más cohesión existe dentro de un cluster (menos varianza intra-cluster) y más diferenciación entre cada uno de los clusters (mayor varianza inter-cluster). Para los que estén más interesados en conocer los detalles de como realiza Tableau el análisis, podéis consultar este enlace o este otro.

¿Cómo realizar un análisis cluster en Tableau?
Supongamos que queremos analizar los productos que vendemos en nuestra empresa, y agrupar en diferentes grupos en base a las ventas totales y al beneficio de cada producto. Un primer paso sería visualizar dicha información para hacernos una mejor idea de la relación de ambas variables para cada producto. Podríamos por tanto arrastrar ventas a columnas y beneficio a filas, a continuación la dimensión con el nombre del producto al campo de detalle, cambiar el tipo de marca a círculos y reducir ligeramente la transparencia del color hasta el 80% (para diferenciar algo mejor puntos que estén superpuestos), y obtendríamos un gráfico similar a este:


Clustering 01

Realizar ahora el análisis cluster es bien sencillo. Tan sólo tenemos que ir a la pestaña de Análisis (Analytics), a continuación arrastrar soltar la opción Cluster en el apartado de Modelos y soltarla sobre nuestro gráfico. Automáticamente Tableau realizará el análisis e identificará cada uno de los clusters con un color distinto e incluirá una variable llamada “Clusters” en el campo de color.

Clustering

Durante este proceso, nos aparecerá una ventana emergente en la que podemos definir las variables que queremos incluir en nuestro análisis cluster (en nuestro caso Ventas y Beneficio, pero podrían ser otras distintas aunque no formen parte del propio gráfico), el tipo de agregación a utilizar en cada una de dichas variables (en nuestro caso hemos utilizado la suma de ventas y la suma del beneficio, pero podríamos utilizar la media o la mediana de cada producto por ejemplo) y el número de cluster, que por defecto se encuentra en automático (optando por el número de clusters con el máximo valor del índice Calinski-Harabasz) aunque podemos modificar el número de clusters manualmente (de nuevo, quien quiera conocer más en detalle el proceso de selección del número adecuado de clusters, puede encontrar más información en este enlace).
Una de las grandes ventaja de realizar el análisis cluster directamente en Tableau es que el cáculo, y por tanto la clasificación, es dinámica. En nuestro ejemplo se puede observar que hay un producto especialmente atípico tanto en ventas como en beneficio. En concreto el producto Canon imageCLASS 2200 Advanced Copier.

Clustering 02

Sería tal vez interesante filtrar ese producto y volver a realizar el análisis cluster y ver cuál sería el resultado. Si hubiéramos realizado el análisis cluster con un programa diferente, tendríamos que ir a dicho programa, filtrar dicho producto, volver a realizar el análisis, exportar la base de datos y ver el resultado. En cambio, podemos simplemente hacer click derecho en dicho producto, excluirlo para filtrarlo, y el análisis cluster se actualizará automáticamente sin tener en cuenta dicho producto.

Clustering 02

Como se puede ver, una vez filtrado dicho producto, obtenemos tres clusters diferentes en lugar de los dos que obteníamos anteriormente.

Clustering 05

¿Qué limitaciones tiene el análisis cluster en Tableau?


Es importante destacar que no podremos utilizar el análisis cluster en los siguientes casos:

  • Cuando estemos utilizando un cubo (base de datos multidimensional) como base de datos.
  • Cuando estemos utilizando una combinación de datos (blending) en la visualización actual.
  • Cuando no haya en la visualización variables que puedan ser utilizadas como inputs.
  • Cuando, utilizando algún tipo de agregación, no haya ninguna dimensión en nuestra visualización.

Además, hay que tener en cuenta que los siguientes campos no pueden utilizarse como inputs para el análisis cluster:

  • Cálculos de tabla.
  • Cálculos utlizando combinación de datos (blending).
  • Cálculos ad-hoc (aquellos que hemos escrito directamente en la visualización y no se encuentran en el menú de dimensiones o medidas).
  • Valores de latitud y longitud generados automáticamente por Tableau.
  • Grupos, sets, agrupaciones de una medida (bins), parámetros, fechas, nombre de medidas (measure names) ni valores de medida (measure values).

Por último y tal vez una de las limitaciones más importantes, es que el análisis cluster podremos realizarlo sólo en la versión de escritorio de Tableau, no en Tableau Server ni en Tableau Online ¿Cómo podemos entonces visualizar un cluster en Tableau Server o Tableau Online?

¿Cómo guardar los clusters y utilizarlos en Tableau Server?

Aunque el análisis cluster no puede utilizarse en Tableau Server o Tableau Online, lo que sí podemos hacer es guardar la agrupación que Tableau a creado y utilizarla como si se tratase de una dimensión agrupada cualquiera. Tan sólo hay que arrastrar la variable “Clusters” que Tableau ha creado y arrastrarla donde se encuentran el resto de nuestras dimensiones en el panel de datos de la barra lateral. Creando así una nueva dimensión que podremos utilizar como si se tratase de cualquier otra dimensión agrupada.

Clustering 03

¿Cómo obtener información adicional del análisis cluster?

En caso de que queramos obtener información adicional sobre el análisis cluster, podemos hacer click derecho en la variable cluster que Tableau creó en nuestro gráfico inicial, donde encontremos dos opciones referentes a los clusters: editar clústeres (en caso de que queramos modificar el número de clusters o las variables a considerar en el modelo) y describir clústeres. Haciendo click en esta última aparece una nueva ventana con dos pestañas, Resumen y Modelos donde encontraremos información estadística adicional sobre el modelo y comprobar si validez. Para más información sobre la infórmación disponible en la descripción de los clusters, recomiendo visitar este enlace del menú de ayuda de Tableau.

Clustering 04

En resumen, si quieres realizar un análisis cluster en Tableau, ahora tan sólo tienes que crear tu gráfico, ir al menú de análisis de la barra lateral, arrastrar y soltar la opción cluster sobre el gráfico. Sin olvidarnos claro de ver el detalle del modelo para validar los clusters obtenidos. En total: 4 o 5 clicks de ratón.

No hay comentarios: