Analisis con Tableau: Alteryx
Mostrando entradas con la etiqueta Alteryx. Mostrar todas las entradas
Mostrando entradas con la etiqueta Alteryx. Mostrar todas las entradas

domingo, 17 de julio de 2016

Como leer múltiples archivos a la vez con Alteryx

El primer paso cuando queremos trabajar con una base de datos en Alteryx es siempre utilizar la herramienta Input para leer nuestra base de datos. A través de dicha herramienta elegimos el archivo con el que queramos trabajar y podemos entonces comenzar a preparar o analizar nuestro fichero. Pero, ¿qué ocurre si no tenemos varios archivos con la misma estrucutra en una carpeta o incluso en varias subcarpetas? Imaginemos por ejemplo que queremos leer a la vez una serie de archivos y no uno solo, como se por ejemplo en la siguiente imagen, ya que nuestros datos están separados en distintos ficheros, y no integrados en uno solo.


La primera opción sería utilizar tantas herramientas Input como archivos queramos leer y a continuación utilizar la herramienta Union para unir todos los ficheros en un único archivo. No obstante, esto requeriría en muchos casos una significativa cantidad de tiempo, especialmente si tenemos decenas y decenas de archivos ¿Cómo podemos entonces leerlos todos de una sola vez?

Muy sencillo. Dentro de la configuración de la herramienta Input en vez de indicar la ruta y el nombre de un archivo concreto, no tenemos más que indicar la ruta y a continuación un asterisco seguido del tipo de archivo que queramos leer. Así por ejemplo, en lugar de tener esta configuración, habitual cuando queremos leer un archivo concreto (fijaros en la siguiente imagen, en el nombre del archivo indicado en la parte superior del menú de configuración Connect a File or Database). :


Lo que haremos es indicar la carpeta donde se encuentran los archivos y a continuación \*.csv ya que en este caso queremos leer todos los archivos CSV dentro de la carpeta, ya que la estructura de los mismos es la misma. Podríamos incluso marcar la opción Search SubDirs si quisieramos leer archivos adicionales que se encuentran dentro de subcarpetas en ese mismo directorio.


De esta forma tan sencilla evitaremos utilizar varias herramientas Input, pudiendo leer de un plumazo decenas o cientos de archivos en pocos segundos.

miércoles, 1 de junio de 2016

Preparar y visualizar datos de encuestas con Tableau y Alteryx

Tras 9 años trabajando en institutos de investigación de mercados, una de las primeras ideas que me vino a la cabeza cuando descubrí Tableau fue sus posibilidades a la hora de visualizar datos de encuestas. Es cierto que por la forma que tiene Tableau de tratar los datos, la estructura de los ficheros de encuestas con los que habitualmente se trabaja no es la más idónea. Los ficheros de encuestas normalmente cuentan con un registro (una fila) para cada encuestado y una dimensión (columna) para cada una de las variables o preguntas del cuestionario. Es decir, se trabaja con ficheros que habitualmente tienen muchas columnas, mientras que en Tableau es más conveniente tener ficheros con un gran número de registros (filas) y menor número columnas. Esto hace que de primeras, trabajar con archivos de encuestas en Tableau no sea tan intuitivo como podríamos esperar.

No obstante, preparar dichos ficheros y que sea más sencillo visualizar encuestas en Tableau es algo que podemos hacer fácilmente utilizando Alteryx. Para el siguiente ejemplo he utilizado datos de la European Social Survey que cuenta con acaba de actualizar la encuesta realizada en 2014 incluyendo varios países adicionales, entre ellos España, Portugal y Reino Unido y he creado el siguiente workflow en Alteryx:


viernes, 8 de enero de 2016

Herramientas de Alteryx para la preparación de datos II: Filter

Después de un largo tiempo sin hablar de Alteryx, hoy vamos a hablar rápidamente de otra de las herramientas más sencillas de utilizar: Filter (Filtrar)


La herramienta filtrar se encuentra, al igual que Sample en la pestaña de Preparación de datos (Preparation) y como su propio nombre indica nos permite filtrar nuestra base de datos de forma rápida y sencilla, dividiéndola en dos. Por un lado tendremos el output "T" o "True" (es decir, los registros de la base de datos que cumplen la condición que indiquemos) y el output "F" o "False" (aquellos registros que no cumplen dicha condición).

Al arrastrar la herramienta sobre la zona de trabajo y hacer click sobre ella, veremos las siguientes opciones de configuración: 


La herramienta Filter, como se puede observar, tiene dos opciones básicas, Basic Filter (filtro básico) y Custom Filter (filtro personalizado).

La opción básica cuenta con 3 campos clave, en el primero de ellos seleccionaremos la cabecera o columna sobre la que queremos filtrar. En el segundo, a través del menú desplegable, definiremos el tipo de instrucción que queremos para el filtro (si es mayor que, menor que, igual a, no es nulo, contiene ciertos caracteres, etc.) y en el último de ellos estableceremos la condición concreta para filtrar.

Cabe destacar que dependiendo del tipo de columna de que se trate (numérica, cadena / texto o fecha) las opciones que tendremos en el menú desplegable serán diferentes. Así, si se trata de un campo numérico, las opciones que tendremos son igual, distinto, menor, menor o igual, mayor, mayor o igual, es nulo o no es nulo:


Si se trata de un campo de texto, las opciones que tendremos son igual, no es igual, antes de, después de, contiene, no contiene, es nulo, no es nulo, vacío o no es vacío:


Y si se trata de un campo con formato Fecha, obtendremos las mismas opciones que en el caso de un valor numérico, pero pudiendo definir la fecha a través de un calendario desplegable:


Si con los filtros básicos no tenemos suficiente, podemos entonces seleccionar el filtro personalizado, En el filtro personalizado tenemos dos zonas clave, la superior donde podemos seleccionar los distintos campos disponibles en la base de datos, ver las funciones disponibles o las expresiones que hayamos guardado previamente, y la zona inferior, donde definiremos la expresión que se utilizará para filtrar la base de datos.


Las funciones se encuentran además agrupadas por tipos, disponiendo así de distintas funciones según queramos crear un filtro condicional, un filtro de fecha, en base al fichero, financiero, matemático, espacial, de texto, etc. Pudiendo además hacer doble click en una expresión, de forma que aparecerá directamente en el apartado inferior de "Expresión", y pudiendo definir el campo a utilizar y la condición concreta. Así, por ejemplo, podemos definir un filtro mucho más especifico, y filtrar sólo los consumidores cuyas primeros 5 caracteres en el nombre sean "David".


De este modo, en el output "T" (Verdadero) de la herramienta Filter tendremos todos aquellos registros en los que los 5 primeros caracteres del campo Customer Name sean "David", es decir, aquellos en los que se cumple la condición establecida. Mientras que en el output "F" (Falso) tendremos el resto de registros que no cumplen dicha condición.

En resumen, una herramienta muy sencilla de usar, pero que permite crear filtros avanzados rápidamente, con la ventaja además de contar con 2 outputs distintos con los que seguir trabajando a posteriori.

lunes, 16 de noviembre de 2015

Herramientas de Alteryx para la preparación de datos I: Sample

Tras el primer post en el que hablé de Alteryx, llega el momento de  entrar,por fin, en materia. En este post voy a realizar un breve repaso a una de las herramientas que más utilizo a la hora de preparar, limpiar o depurar un fichero de datos: Sample.


Sample es una herramienta que uso especialmente con archivos Excel o csv que quiero utilizar posteriormente en Tableau. Normalmente, si se trata de un único archivo tal vez no merezca la pena, pero cuando has descargado varios ficheros Excel con datos o cada cierto tiempo se actualiza un fichero y todos estos archivos necesitan siempre la el mismo proceso de preparación, crear un workflow en Alteryx puede ahorrarte muchas horas de trabajo.  

domingo, 18 de octubre de 2015

Alteryx: el software para tratamiento de datos y análisis avanzado del que oirás hablar en el futuro

A partir de hoy y en la medida en la que el escaso tiempo libre me lo permita ampliaré la temática del blog para hablar, además de Tableau, de Alteryx.

Para quien no lo conozca, Alteryx es un software que permite de forma intuitiva y a través de una multitud de herramientas, el tratamiento, integración y análisis avanzado de datos. Aunque dispone además de algunas herramientas de visualización, los puntos fuertes de Alteryx se encuentran en otros temas, como el análisis predictivo, espacial y la preparación de datos.

Su mayor ventaja se encuentra en la sencillez de uso, arrastrando y soltando cada una de las herramientas que queramos utilizar y conectándolas de forma secuencial para el tratamiento de los datos, pudiendo además ver lo que hemos realizado en cada paso y todo ello sin modificar nuestra base de datos inicial, sino modificándola en el proceso y permitiendo exportarla posteriormente en multitud de formatos. Y todo ello con una fuerte integración con R pero sin la necesidad de aprender a programar en dicha plataforma y permitiendo operaciones complejas en pocos segundos.

Generar nuevos campos en nuestra base de datos con fórmulas, filtrar, crear muestras, identificar registros duplicados, uniones de varios ficheros, transponer, crear medias ponderadas, tratamiento de archivos espaciales, tablas de contingencia, regresiones lineales, logísticas, árboles de decisión, redes neuronales, ARIMAs, descarga de datos utilizando una API o la creación de macros totalmente personalizables (y sin picar código) son algunas de las herramientas de Alteryx. 

Otra de las grandes ventajas es que permite exportar posteriormente los resultados directamente a un archivo .tde de Tableau para su visualización.

Podeis ver aquí un breve video de la empresa por si queréis haceros una mejor idea del funcionamiento del programa: