Analisis con Tableau: El proceso tras una Viz

sábado, 23 de abril de 2016

El proceso tras una Viz

Pocos temas son tan amplios como el que ha elegido Tableau para su primer concurso Iron Viz de este año: la comida. Precisamente por esa inmensa amplitud cuando vi por primera vez el post anunciando el concurso pensé "no va a ser nada fácil". Y efectivamente no lo ha sido, ya que podríamos hablar de la producción, el transporte, consumo, precio, disponibilidad, hábitos... a la escala global o local y de forma general o para productos concretos. Por eso para este post que acompaña a mi visualización para participar en el concurso quería no sólo hablar de la visualización en si, si no de todo el proceso de creación de la visualización y especialmente en los cuatro principales retos del mismo: la elección del tema a analizar y búsqueda de datos, la decisión sobre el enfoque a desarrollar, el análisis y finalmente la visualización de datos. Va a ser un post poco habitual por su extensión, pero espero que lo encontréis interesante. También puedes encontrar una versión ene ingles de este post aqui. Vamos allá.


 1. Centrando el tema


Al principio pensé que la simple elección de que quería analizar relacionado con alimentación me iba a llevar mucho más tiempo del que finalmente me llevó, y a ello contribuyó que tuve bastante claro el enfoque que quería para la visualización casi desde el primer momento. No quería analizar lo que sucedía en un país concreto y menos aún explotar la información que podría recuperar cuando durante unos meses estuve monitorizando lo que comía en un ejercicio de yo cuantificado. Quería un enfoque lo más global posible y centrarme en las diferencias existentes entre los distintos países del mundo en cuanto la alimentación.

El problema habitual con este enfoque es que, en general e independientemente del tema a tratar, no es fácil encontrar bases de datos que incluyan información sobre todos o la mayoría de países del mundo, en un mismo periodo temporal y sin que haya muchos valores perdidos. Tras unas primeras búsquedas en Google sin demasiada suerte, me acordé de la FAO y empecé a echar un vistazo a su sección de estadísticas. Buena decisión. En la web disponen de muchísima información y muy detallada sobre producción, comercio, precios, emisiones de la agricultura, indicadores medioambientales y profundizando en la web parecía que con datos bastante robustos en cuanto a temporalidad y países incluidos. Ahora el reto era decidirse por una parte de toda esa información que me atrajese para analizar. Una de las cosas que más me apasionan del análisis de datos es pensar que puede ayudar a mejorar cualquier cosa ya sea contribuyendo a que la gente se forma una opinión sobre un tema, decida tomar partido por algo al conocerlo con más detalle, tome conciencia o se interese por algo. 

El primer paso para cambiar algo es tener conciencia de ello, y para mi, generar conciencia de algo es uno de los objetivos clave del análisis de datos.

Por este motivo cuando entre toda la información disponible en la FAO descubrí los datos de Balances Alimentarios, las cuales incluyen cifras de suministro de alimentos en kcal/capita/año (conviene aclarar que estas cifras representan únicamente el suministro medio disponible para la población total y no indican necesariamente lo que consumen las personas en realidad), desglosado por producto y país desde los años 60 hasta 2013 lo tuve bastante claro: ahí tenía la información a analizar. 


2. Decidiendo entre los grandes números y el detalle


Ya tenía mi base de datos, pero antes de comenzar a analizar la información y debido a la gran variedad disponible (suministro de unos 100 productos, en casi 200 países y durante 40 años) tenía que hacerme algunas preguntas:

  • ¿Centarme en las grandes cifras globales a nivel mundial, analizar las principales diferencias entre regiones o países o profundizar en posibles diferencias concretas y más sutiles con productos específicos?
  • ¿Profundizar en diferencias a lo largo del tiempo o analizar un periodo concreto?
  • ¿Analizar un poco de todo lo anterior que permita hacernos una idea general del suministro de alimentos en el mundo pero sin entrar demasiado en detalle o perder el enfoque más general y ganar profundidad?

Decidir qué historia contar con la amplitud de datos disponible era un punto importante especialmente por la falta de tiempo disponible para analizar y visualizar que sabía que iba a tener. Además, tras mi visualización del año pasado este año quería ceñirme a un sólo dashboard y en una única pantalla, por lo que sabía que iba a tener mucha información interesante e insights que no iba a poder incluir ya tampoco quería sobrecargar la visualización. 

Es en este punto es fácil perderse entre todos los datos disponibles y comenzar a analizar sin orden ni sentido, por lo que es importante recordar el enfoque que me había planteado al principio: un enfoque global a nivel mundial mostrando diferencias generales entre los países. 


3. El analisis como clave para la visualización


Tenía los datos y tenía claro el enfoque, por lo que es el momento de comenzar a realizar preguntas y tratar de darles respuesta. Las primeras preguntas que me vinieron a la cabeza en este sentido fueron, ¿qué paises y continentes...

  • ... Disponen de un mayor suministro de calorias actualmente?
  • ... Concentran el suministro en menos productos?
  • ... Y cuáles tienen una mayor variedad?
  • ... Han experimentado mayores cambios en el suministro total a lo largo de los años?
  • ... tienen una composición similar de suministro de alimentos?

Personalmente intento siempre tener una lista de varias preguntas a responder antes de comenzar el análisis. Es una buena forma de mantenerme centrado en el enfoque y los objetivos que me había planteado, especialmente cuando el tiempo es limitado y tengo total libertad a la hora de crear la visualización, eso sí, sin centrarme exclusivamente en las preguntas planteadas inicialmente. Estas deben servir como punto de partida, pero el propio proceso de análisis debe hacer plantearse preguntas adicionales y nuevos puntos de vista sobre los que profundizar. Una pregunta siempre tiene que llevar a otra pregunta, a una nueva forma de analizar la información o una profundización sobre los hechos que los datos nos están mostrando.

Es por tanto el momento de interrogar a los datos, y para ello a día de hoy no conozco ninguna herramienta mejor que Tableau. La gran ventaja de Tableau es que permite interrogar a los datos de prácticamente todas las formas que se me ocurran y hace especialmente sencillo otro de los aspectos que considero importantes para crear una visualización interesante: tratar siempre de dar una vuelta de tuerca más al análisis incluso cuando creo que he encontrado lo que quería. Eso si, siempre asegurándome de que cuento con suficiente tiempo para el diseño en sí de la visualización.


4. Visualizando desde distintas perspectivas


Para mi es fundamental visualizar la misma información desde el máximo de puntos de vista posibles: evoluciones, agregados en un periodo, totales, medias, porcentajes, cambios anuales, casos extremos, tendencias... Cuantos más puntos de vista tengo suele hacerse más difícil decidirme por uno u otro, pero también me sirve finalmente para ir generando en mi cabeza el esqueleto de lo que quiero contar, encontrar la mejor forma de transmitir un mensaje o descubrir hechos interesantes que inicialmente no me había planteado. Así, si mi visualización tiene 5 gráficos, posiblemente habré creado antes 10 veces más. 

Aqui un par de ejemplos de gráficos finalmente incluidos en la visualización y otra versiones que finalmente descarté:



Especiales dudas tuve con el mapa, ya que el mapa con hexágonos muestra mucho mejor la situación de las pequeñas islas del Caribe, de Oceanía y los países del Este de Europa al anular el efecto del gran tamaño de países como Rusia, China, Canada o EEUU.

Además, durante el análisis y visualización tuve que tomar algunas decisiones adicionales que hacían la visualización algo más fácil de seguir. Por ejemplo, la base de datos incluye datos desde los años 60, pero finalmente centré el análisis a partir de 1993. El motivo principal fue la ausencia de datos en varios países antes de 1993. El reducido número de países con información disponible en 2012 y 2013 me llevó también a filtrar esos dos años.

Los grupos de alimentos los cree utilizando como fuente esta información de la FAO, teniendo que agrupar todos los productos uno a uno. Mientras que los países los agrupé creando un mapa con un punto señalando cada país y agrupando los continentes con la herramienta de lazo.

A analizar las diferencias entre cada una de las regiones destaca un suministro mucho menor en Africa que en Europa o en el Norteamerica, por lo que quise realizar un análisis algo más complejo y tratar de ver las diferencias no en total, sino para cada uno de los 97 productos. Pero en lugar de ver tan solo la cantidad en kcal/capita/dia disponible, me pareció más interesante analizar las diferencias en cada país respecto a todos los demás. Así que realicé la siguiente tabla para visualizar el suministro para cada producto frente a la desviación típica de todos los países y ver así en cada país que productos cuentan con un suministro significativamente superior, o aun más interesante, inferior a la media de todos los países.




Destaca que en los países africanos hay un mayor número de productos con un suministro inferior a la media. Además, en general los suministros disponibles, aunque no indiquen estrictamente consumo, reflejan de forma bastante precisa la dieta de cada país. En España, por ejemplo, destaca un mayor suministro de aceite de oliva, carne de cerdo, naranjas, patatas, huevos, tomates, cebollas, cerveza y vino, entre otros. Decidí además llevar a un segundo plano todos los productos que se encuentren en los límites de la desviación típica, para destacar aún más los que se encuentran por debajo y por encima. El cálculo para crear esta tabla es el siguiente:

IF [Total per country per year] > WINDOW_AVG([Total per country per year]) + WINDOW_STDEV([Total per country per year]) THEN "above" ELSEIF [Total per country per year] < WINDOW_AVG([Total per country per year]) - WINDOW_STDEV([Total per country per year]) then "below" ELSE 'within limits' END
Especificando en la configuración que se realice el cálculo al nivel de país y repitiendolo para cada producto.


Por último, quería añadir algunos insights que destacaban tras el análisis de datos, pero ante la falta de espacio decidí optar por una alternativa. En vez de mostrar los insights escritos directamente, cree una nueva hoja  invitando al usuario a pasar el cursor sobre ella y mostrandolos entonces en una ventana emergente. Me pareció además una forma en la que el usuario posiblemente preste más atención a dichos mensajes si decide leerlos.



Click aqui para ver la visualización final:



Ahora a ver si hay suerte y gano el concurso. No olvideis de votar en twitter.

No hay comentarios: