Analisis con Tableau: Herramientas de Alteryx para la preparación de datos I: Sample

lunes, 16 de noviembre de 2015

Herramientas de Alteryx para la preparación de datos I: Sample

Tras el primer post en el que hablé de Alteryx, llega el momento de  entrar,por fin, en materia. En este post voy a realizar un breve repaso a una de las herramientas que más utilizo a la hora de preparar, limpiar o depurar un fichero de datos: Sample.


Sample es una herramienta que uso especialmente con archivos Excel o csv que quiero utilizar posteriormente en Tableau. Normalmente, si se trata de un único archivo tal vez no merezca la pena, pero cuando has descargado varios ficheros Excel con datos o cada cierto tiempo se actualiza un fichero y todos estos archivos necesitan siempre la el mismo proceso de preparación, crear un workflow en Alteryx puede ahorrarte muchas horas de trabajo.  

En un primer momento su nombre puede dar lugar a error, ya que no debemos confundir esta herramienta con Random % Sample, esta última efectivamente nos sirve para crear una muestra aleatoria, pero Sample tiene una función significativamente diferente. Lo que Sample permite es extraer una específica porción de registros de nuestro fichero de datos, lo que resulta muy útil para limpiar las primeras o últimas filas de archivos Excel que no contienen datos con los que queramos trabajar. He de decir también que es una herramienta que utilizo especialmente con archivos no inmensamente grandes y cuando necesito realizar el mismo proceso en varios archivos. Pero este tipo de operaciones es bastante habitual cuando descargo bases de datos en Excel de Naciones Unidas, el INE, Eusostat y organismos similares. Las distintas funciones del menú de configuración de esta herramienta son las siguientes:


  • First N Records: Devuelve los primeros N registros del fichero.
  • Last N Records: Devuelve los últimos N registros del fichero.
  • Skip 1st N Records: Devuelve todos los registros después de N, es decir, se "salta" los registros hasta N incluido.
  • 1 of every N Records: Devuelve 1 de cada N registros.
  • Random 1 in N Chance for each Record: Selecciona aleatoriamente 1 de cada N registros. Hay que tener en cuenta que Alteryx usa en este caso una metodología totalmente aleatoria, pero tal como se indica en la ayuda del programa, N es una aproximación. Por tanto podemos finalmente contar con un número distinto de la N indicada.
  • First N% of Records: Devuelve el N porcentaje de registros especificado. En este caso Alteryx primero calculará el número total de registros y luego devolverá el porcentaje especificado.


La opción de seleccionar un campo o campos en los que agrupar, Alteryx devolverá N registros para cada grupo seleccionado.

Personalmente, de todas estas opciones las que realmente son útiles para preparar y depurar ficheros son las 3 primeras, pero las demás no las he utilizado nunca. De este modo, partiendo de un fichero que tiene este formato (como decía, muy habitual en los ficheros de muchos organismos e instituciones):


Podemos utilizar la herramienta Sample para saltarnos las primeras 8 líneas (Skip 1st N records, y seleccionar 8 en la N) y tendremos este resultado:


Para un fichero puede no tener demasiado sentido, pero si tienes 5, 10 o 100 ficheros en los que tienes que realizar esta depuración es realmente útil. Además, no hay que olvidar que Alteryx no realiza cambios en el fichero inicial, sino que posteriormente podemos exportar nuestro resultado a otro archivo excel o un archivo TDE para trabajar directamente en Tableau, pero mantendremos nuestros ficheros originales sin cambio alguno.

No hay comentarios: