UNIDAD 4: VISUALIZACIÓN DE DATOS:1.Visualización, análisis visual de datos
Visualización de Datos para el Proyecto PEI · El “diagrama de la Visualización de...
Transcript of Visualización de Datos para el Proyecto PEI · El “diagrama de la Visualización de...
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
Visualización de Datos para el Proyecto PEI
El siguiente documento es un resumen de lo expuesto en la sesiones de trabajo remotas realizadas conjuntamente con miembros del equipo de diseño y desarrollo del Proyecto PEI. Además, incluye una serie de recomendaciones para que el equipo pueda tomar decisiones más informadas de cara a diseñar y desarrollar visualizaciones lo más funcionales posibles para el objetivo del proyecto.
El presente documento asume que el propio equipo de desarrollo del Proyecto PEI tomará las decisiones más oportunas en relación a las sugerencias expuestas, adaptándolas a las necesidades y al alcance del proyecto.
Qué es la Visualización de Datos El diagrama de la Visualización de Datos
Tipos de análisis y visualizaciones Análisis temporal
Gráfico de barras Gráfico de líneas
Análisis de proporciones y ranking Pie chart Treemap
Análisis de relaciones Scatter plot
Análisis multidimensionales Radar chart Coordenadas paralelas Heatmap
Análisis espaciales Consideraciones generales Cómo asistir al usuario en la realización de visualizaciones
RAW Tableau Sofware Recomendaciones generales a seguir
Lecturas recomendadas
1
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
Qué es la Visualización de Datos La Visualización de Datos o Visualización de Información es la disciplina que se encarga de generar representaciones visuales de datos abstractos. En general, se puede definir como:
“The use of computer-supported, interactive, visual representations of abstract data to amplify cognition”
Card et al. 1999
La diferencias entre “Visualización de Datos” y “Visualización de Información” son mínimas, pero en cierto modo pueden llegar a ser importantes. Como se podrá observar, la diferencia reside en los conceptos de “dato” e “información”. Mientras los “datos” son esencialmente números o incluso texto sin procesar ni manipular; la información es aquello que se obtiene al hacerlo. Además, podemos decir que la información es básicamente datos estructurados y puestos en contexto . 1
Por lo que se refiere a la definición de visualización, lo más importante es tener en cuenta que, generalmente, nos encontramos con datos abstractos, que no tienen forma. Representarlos visualmente mediante metàforas visuales ayuda a nuestro cerebro a pensar más rápido y mejor, favoreciendo la generación de conocimiento.
El diagrama de la Visualización de Datos
El diagrama de la Visualización de Información por J.C. Dürsteler y Y. Engelhardt (adaptado por J. Pérez )
1 El artículo “Difference between data and information tiene una buena descripción de estos dos concpetos. https://blog.udemy.com/difference-between-data-and-information/
2
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
El “ diagrama de la Visualización de Información ” creado por J.C. Dürsteler y Y. Engelhardt en el año 2000 explica el proceso que se debe seguir cuando se visualizan datos. En él podemos ver como el conjunto de datos inicial debe de ser filtrado y procesado para poder llegar a tener información, algo que será más útil para realizar nuestro análisis. Esta información deberá ser representada en imágenes, en nuestro caso, eminentemente interactivas, que serán consumidas por un usuario influido por su percepción e interpretación. Estos dos factores se ven afectados por el esquema notacional del mismo. Esto significa que no todo el mundo interpretará del mismo modo todas las representaciones visuales, sino que la experiencia, el contexto y la cultura adquirida a lo largo del tiempo nos ayudarán a entender mejor algunas de ellas. Del mismo modo, es siempre muy importante tener en cuenta que el diseñador de la visualización puede tener otro esquema notacional distinto a los usuarios finales. Para ello, es muy importante poder definir el perfil del usuario consumidor de las visualizaciones para así poderlo estudiar y desarrollar soluciones que se adapten a su contexto y cultura. Finalmente, el diagrama muestra cómo el usuario puede influir en cada uno de estos pasos mediante la interacción. Es decir, hay que tener en cuenta que en algunos sistemas el usuario podrá decidir que representación visual quiere aplicar a los dos, o como limpiar y procesarlos para conseguir información.
Tipos de análisis y visualizaciones El Proyecto PEI tiene como objetivo permitir la exploración visual de cualquier dataset, ya sea proporcionado por el propio sistema, o proporcionado por el mismo usuario. A continuación se definirán los principales tipos de análisis visuales que existen, enfatizando aquellas visualizaciones más importantes a tener en cuenta.
Análisis temporal En este tipo de análisis se busca entender y descubrir los patrones que pueden tener los datos en el tiempo como por ejemplo ver si una métrica en cuestión crece o decrece, o si existen ciclos estacionales.
Existen dos tipos principales de visualizaciones para poder hacer este tipo de análisis. Elegir una u otra dependerá básicamente del volumen de datos que se disponga y de la extensión temporal que estos contemplen.
Gráfico de barras Éste uno de los tipos de representaciones visuales más comunes. Se usa para comparar distintos valores y es muy eficaz puesto que el ojo humano es muy bueno comparando alturas.
En este caso, la disposición de las barras se deberá hacer de izquierda a derecha, que es como convencionalmente se representa la evolución del tiempo.
3
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
Generalmente utilizaremos este tipo de gráfico cuando dispongamos de datos discretos. Los datos temporales pueden ser categorizados entre discretos o continuos. En el caso de los discretos, los valores que se disponen se refieren a bloques específicos de tiempo, y existe un número finito de valores.
Evolución temporal del número de hot dogs comidos en un concurso en USA. Fuente: Visualize This, Nathan Yau
Consejo: Permitir a los usuarios marcar o colorear barras, como en éste último gráfico, puede dar un gran valor añadido a la herramienta puesto que permite remarcar valores relevantes en el dataset Consejo: El gráfico de barras es una muy buena visualización para comparar todo tipo de valores (temporales o no). En el caso de los valores no temporales, valdrá la pena hacer el gráfico horizontal, en lugar de vertical para permitir una mejor legibilidad de los nombres correspondientes a cada barra
Gráfico de barras horizontal. Permite leer y posicionar mejor las etiquetas de cada barra. Fuente:
https://fluidsurveys.com/university/use-different-chart-types/
4
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
Gráfico de líneas En el caso del análisis de datos, generalmente no se dispone de datos continuos puesto que, nuestro volumen de datos siempre es finito (a no ser que dispongamos de un modelo que nos dé una estimación de un valor en cualquier punto en el tiempo). Sin embargo, consideraremos que disponemos de datos continuos cuando tenemos un nivel de granularidad muy grande. Por ejemplo, cuando tenemos el número de visitas a nuestro sitio web a nivel de hora. Al acumular estos valores a lo largo de muchos días, podremos considerar que disponemos de datos continuos.
El mejor gráfico para representar esta continuidad es el gráfico de líneas.
Gráfico de lineas de la tasa de desempleo en USA. Fuente: Visualize This, Nathan Yau
Es importante ver la principal diferencia que existe entre el gráfico de barras y el gráfico de líneas: mientras el primero indica claramente que los datos temporales que se disponen corresponden a un bloque en el tiempo (por ejemplo, cuando tenemos datos de un día en total, pero no sabemos lo que ha pasado en cada hora); el segundo indica continuidad, de modo que cualquier punto de la línea tiene una interpretación en un momento concreto en el tiempo.
Finalmente, también es muy importante, ser consistente del “aspect ratio” de nuestros gráficos. El “aspect ratio” es la proporción que existe entre la anchura y la altura del gráfico. Aunque no existe evidencias científicas que nos digan cual es el mejor “aspect ratio” en cada caso, será importante buscar tamaños que no allanen demasiado nuestro gráfico (ocultando
5
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
posibles outliers en la tendencia) o que no lo exageren (dando la sensación que pequeños outliers son mucho mayores de lo que son).
Aspect ratio con más altura, marca mucho más los picos dando la sensación que los cambios son más bruscos
Aspect ratio con más anchura, allana los picos dando la sensación que los cambios han sido menores
Análisis de proporciones y ranking Dos de los tipos de análisis más utilizados son la comparación de un conjunto de valores que forman parte de un todo y su ranking u ordenación por valor. Por ejemplo, en el dataset de Incidencia Delictiva , sería deseable ver qué porcentaje del total ocupa cada tipología de delito (delitos patrimoniales, homicidios, lesiones, …), y cual de ellas es la más importante.
Pie chart Los pie charts o gráficos de sectores son una de las visualizaciones más clásicas para este tipo de análisis. Sin embargo, presentan una serie de problemas que los hacen ser poco útiles en la mayoría de los casos. Y es que los pie charts se leen comparando los ángulos y el área de cada sector entre sí, mientras que el ojo humano no está preparado para esta tarea. Dados los problemas perceptuales que estos presentan, se recomienda utilizarlos únicamente cuando
6
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
se disponga de menos de 7 valores, y cuando sea muy importante poder comparar sumas de valores. Por ejemplo, en el siguiente pie chart, podemos ver como el valor de “Dogs” es mayor que la suma de “other pets” y “Fish”.
El valor de dogs es mayor que “Fish” y “Other pets” sumados
La alternativa a este tipo de gráficos es el bar chart. Éste, por defecto, no tiene la capacidad de comprar la suma de valores. Sin embargo, a nivel de percepción es mucho mejor y nos ayuda a poder ordenar los valores fácilmente, además de ayudarnos a descubrir las diferencias más sutiles.
Los mismos valores representados con un pie chart y un bar chart. El pie chart muestra que los cinco valores son
muy parecidos, pero el bar chart es mejor para ver mejor las diferencias. Fuente: “Understanding Pie charts” Consejo: En general, no se recomienda la implementación de pie charts para el Proyecto PEI dado el gran número de problemas que presentan, y dado que solo funcionan bien en casos muy concretos
7
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
Treemap Otra alternativa para poder visualizar proporciones, o valores que forman parte de un todo, es el Treemap. Este tipo de representación visual es cada vez más común, y tiene la potencia de poder representar jerarquías utilizando el máximo de espacio disponible para el gráfico. La siguiente imagen muestra un ejemplo de jerarquía, y como ésta se representa mediante la técnica del treemap.
Ejemplo de jerarquía y de su representación en forma de Treemap
Como se puede observar en la siguiente imagen, el treemap permite tener un buen “overview” de un conjunto de datos. En este caso concreto, se está utilizando el tamaño de los rectángulos para representar el volumen de facturación de una empresa, y el color para indicar si sus acciones están subiendo o bajando. La potencia del Treemap es que visualmente permite agregar valores, de modo que, a simple vista, también podemos ver que sector tiene un volumen de facturación más alto (Oil & Gas y Financials parecen los sectores con mayor volumen en la imagen) y qué sector está aumentando sus ganancias (según la imagen, Oil & Gas tiene un color más verde, mientras que hay una empresa con una gran subida en sus acciones en el sector Tecnológico).
8
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
Treemap de la desaparecida web SmartMoney.com con el valor de distintas empresas en la bolsa. Fuente: imagen
extraida del antiguo Map of the Market the SmartMoney.com Es muy importante tener en cuenta, una vez más, que el Treemap nos “obliga” a comprar valores mediante la comparación de rectángulos. Ésta es una tarea difícil para nuestros sistemas visual y cognitivo, con lo que esta representación no es la más adecuada si necesitamos identificar muy fácilmente las diferencias entre los valores. Por ejemplo, en la imagen, resulta difícil saber si el tamaño de “Oil & Gas” es mayor o menor que “Financials”. Sin embargo, el hecho de poder agrupar datos y de disponer de dos atributos visuales (tamaño y color) para representar los datos, da una gran flexibilidad que le hace ser una muy buena herramienta para visualizar jerarquías.
Análisis de relaciones A menudo lo que se desea de un dataset es descubrir qué relaciones existen entre dos o más variables que lo forman. Para ello, una de las mejores representaciones visuales que existen es el gráfico de dispersión o scatter plot.
9
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
Scatter plot Éste tipo de gráfico es muy fácil de entender y ayuda al usuario a detectar muy fácilmente la existencia de correlaciones. En el siguiente ejemplo, es muy interesante ver como ambos ejes disponen de un “combo box” de selección que permite seleccionar qué variables representar.
GDP y esperanza de vida de los países en el mundo. Fuente: Gapminder.org
Además de las dos dimensiones correspondientes a sus dos ejes, los gráficos de dispersión permiten utilizar el tamaño y el color para identificar valores de otras métricas. Es muy importante tener en cuenta que el mapping entre valores y tamaño del círculo se debe realizar a través del cálculo del área, y no a través del cálculo del radio. Más concretamente, supongamos que queremos representar los valores 50 y 100 con dos círculos. A menudo, de manera intuitiva, da la sensación que si al primero le damos un tamaño de radio X para representar el círculo, al segundo le deberemos asignar un radio de 2X. Sin embargo, dada la fórmula del área de un círculo (A = � * radio 2 ), esta será una práctica incorrecta puesto que el área del segundo círculo será cuatro veces mayor que la del primero.
10
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
El mapping entre valor y tamaño del círculo debe hacerse a través del área (imágen izquierda), y no del radio
(imagen derecha) Consejo: a veces un outlier muy grande en el dataset hace que el resto de valores en un gráfico de dispersión queden muy juntos, dificultando la comprensión de los valores. Las escalas logarítmicas son un recurso para evitar este problema. Sin embargo, no son fáciles de entender para todo el mundo. Se recomienda la lectura del artículo “ When Should I Use Logarithmic Scales on my Graphs and Charts ”
Análisis multidimensionales Con el gráfico de dispersión hemos visto como podemos ver relaciones entre dos variables o dimensiones de un dataset, especialmente en aquellas dimensiones que colocaremos en los ejes X e Y. Sin embargo, a veces lo que queremos es poder ver relaciones entre más de dos dimensiones. Aunque este es, a menudo, un problema complejo, existen algunas soluciones fácilmente aplicables.
Radar chart El radar chart sitúa cada dimensión en un eje con coordenadas polares. Cada eje tendrá su valores máximos y mínimos, y un registro del dataset se representará uniendo de manera circular cada uno de sus valores en las dimensiones.
11
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
A pesar de ser una de las visualizaciones más conocidas para representar datos multidimensionales, el radar chart presenta una amplia serie de problemas. El más importante y relevante es su difícil legibilidad cuando se disponen de más de 5 o 6 registros a visualizar y más de 4 o 5 dimensiones. Consejo: En general, se desaconseja el uso de los radar charts .
Coordenadas paralelas Otra alternativa más compleja a nivel visual, son las coordenadas paralelas.
Coordenadas paralelas de universidades. Fuente: Imagen de elaboración propia
Este tipo de representación es parecido al radar chart, pero utilizando un único plano donde los se sitúa un eje por cada métrica. De este modo, cada uno de nuestros registros se representará con una única línea que uniremos a través del valor que tiene en cada eje o dimensión. Las coordenadas paralelas ayudan a descubrir patrones, pero su verdadera potencia radica cuando se utilizan como sistema de filtraje automático como se puede ver en este ejemplo . Arrastrando el mouse en cualquier eje podremos seleccionar, de forma totalmente visual aquellos elementos que están en un un rango concreto de una dimensión.
Heatmap Los heatmaps o mapas de calor son tablas donde sus celdas están coloreadas en base al valor que albergan. En la siguiente imagen con un dataset de jugadores de la NBA, podemos observar lo fácil que es encontrar outliers gracias a las diferencias de color.
12
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
Hay que tener en cuenta que, para maximizar el potencial de un heatmap y poder comparar las distintas dimensiones entre sí, será necesario normalizarlas. Una opción podría ser convertir cada celda en el % que supone de su propia columna, o incluso “centrando” cada cada valor en la media de la columna utilizando técnicas como el z-score .
Heatmap que muestra distintas métricas de jugadores de baloncesto. Fuente: Flowingdata.com
A pesar de su sencillez, los heatmap siguen presentando problemas para poder descubrir visualmente dos o más filas que tienen aproximadamente los mismos valores. Para
13
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
proporcionar heatmaps más útiles, es interesante utilizar algoritmos de clustering que nos ayuden a agrupar aquellas filas más similares, garantizando así que la propia visualización trasladará ese concepto.
Los mismos datos representados en dos heatmaps. El segundo tiene las filas y las columnas ordenadas en función del resultado de un algoritmo de clustering. Gracias a eso se consiguen patrones de color que ayuden a entender y
descubrir patrones en los datos. Fuente: “ Points of View: heatmaps ”
Consejo: Dada las grandes limitaciones de los radar charts, y la complejidad de las coordenadas paralelas, se recomienda proporcionar heatmaps a los usuarios del Proyecto PEI puesto que su versatilidad y facilidad de uso es mucho mayor.
Análisis espaciales Los mapas son el mejor sistema visual para hacer análisis de datos espaciales. Parte de la importancia del mapeo de valores en un mapa depende de la proyección que se utilice. Aquí se pueden ver las más conocidas. Sin embargo, la más utilizada es la de Mercator . Es muy importante tener en cuenta que, el mero hecho de disponer de datos geográficos no significa que la mejor representación a utilizar sea un mapa. Por ejemplo, en el caso de los choropleths , el distinto tamaño de los países crea, claramente, diferencias notables de por sí en la percepción visual. Aunque se le otorgue un color muy prominente, si un país o estado es muy pequeño, tendrá muy poca relevancia en un mapa. Este problema es ya muy conocido, e incluso se han hecho propuestas que deforman el tamaño de los países en base al valor que se representan. Sin embargo, estas soluciones son más atractivas que no analíticas.
14
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
. Mapa del mundo deformado en base a la población de cada país. Imagen extraida de http://www.worldmapper.org/ Consejo: es muy importante trasladar a los usuarios que un mapa “solo” es útil cuando se quieren descubrir patrones geográficos en los datos
Consideraciones generales A continuación se lista un conjunto de recomendaciones generales a tener en cuenta:
● Añadir tooltips: los tooltips son “burbujas” de información que aparecen cuando el usuario señala un artefacto visual. Éstos son de gran utilidad para permitir al usuario ver valores concretos sin que estos “ensucien” el espacio del gráfico
● Añadir etiquetas: a parte de los tooltips, sería deseable que el usuario pueda añadir etiquetas que apunten a zonas específicas de una visualización. Esto ayuda mucho a mejorar la legibilidad del gráfico y a entender qué cree el propio autor más interesante de los datos.
15
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
Consumo de agua en Edmonton. En este gráfico, las etiquetas nos ayudan a entender la historia que se esconde
tras los datos
● Evitar el uso de gráficos en 3D: a pesar de que suelen ser espectaculares, los gráficos en 3D generan grandes problemas de comprensión que se derivan de la perspectiva, además de la oclusión que se genera entre objetos que tienen distinta profundidad. En general, jamás se deben utilizar gráficos en 3D cuando se plasman en pantallas de dos dimensiones
● Dar opciones informadas, minimizar los errores: en general, el Proyecto PEI tiene una
oportunidad única a nivel didáctico de enseñar a aquellos usuarios menos expertos el correcto uso de los datos. Es por ello que, además de proporcionar visualizaciones que formalmente sigan convenciones básicas comentadas en este documento, éstas deben intentar minimizar el número de errores. Por ejemplo, si se desarrolla un scatter plot con combo boxes para seleccionar qué métrica va en el eje de las X, y cual en el de las Y, al estilo de Gapminder.org , estos combo boxes solo deberían mostrar aquellos valores numéricos del dataset, excluyendo aquellos que contengan texto o fechas
● Utilización correcta del color: existe una extensa literatura alrededor del color. El
concepto principal a tener en cuenta es que existen dos tipos principales de escalas de color:
○ la numérica, para representar valores numéricos. Ésta está generalmente formada por un único color, la saturación del cual cambia en función del valor a representar. En el caso de disponer de números centrados en un valor, se utilizará un color para aquellos valores por debajo, y otro color para los valores por encima. A esto se le llama escala divergente
16
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
● la categórica, para representar distintos grupos entre sí. Para ello se deberán buscar
colores que sean lo suficientemente distintos entre sí para poder distinguir los elementos que forman parte de cada uno de los grupos.
Consejo: el color es un elemento muy importante en las visualizaciones. Se recomienda utilizar las escalas de color proporcionadas por D3.js . Se recomienda también la lectura del artículo “ Choosing colors for data visualization ”.
Cómo asistir al usuario en la realización de visualizaciones Un punto clave del Proyecto PEI es cómo permitir que los usuarios visualicen fácilmente y, lo más importante, de manera correcta sus datos. Para ello será importante tener un sistema de navegación que les ayude en esta tarea. En este caso, nos fijaremos en dos sistemas ya existentes:
RAW Ésta es una herramienta online que permite a cualquier persona visualizar su dataset utilizando visualizaciones de un catálogo que pretende ir más allá de las representaciones más típicas. Es el sistema de visualización público más parecido al Proyecto PEI. RAW proporciona tres pasos fundamentales:
- Carga de datos: en este caso, la única opción que da la herramienta es pegar un archivo en formato CSV en un text box
- Selecciona el tipo de metáfora visual a utilizar: en este caso, se proporciona un listado
de visualizaciones, cada una de ellas con una descripción de como funciona
- Mapea tus dimensiones: en base a las necesidades de la visualización seleccionada, el sistema permite arrastrar las distintas dimensiones que tiene el dataset utilizado a cada uno de los atributos visuales que dispone la representación
En general, RAW es una herramienta interesante cuyo principal objetivo es el de permitir a los usuarios realizar visualizaciones que van más allá de lo convencional, fácilmente realizables con softwares como Microsoft Excel o Google Sheets. Los pasos proporcionados son adecuados. Sin embargo, presenta una problemática principal, y es que los usuarios no están guiado durante el proceso, de modo que es difícil saber qué
17
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
representación es la más adecuada para un dataset o tarea determinada. Otro problema importante es que, para cambiar de visualización, el usuario debe repetir todo el proceso.
Tableau Sofware Esta herramienta es una de las más populares hoy en día. Aunque va mucho más allá del alcance del Proyecto PEI, tiene algunas cosas interesantes que se podrían considerar para complementar aquellas debilidades comentadas en el sistema RAW. Tableau proporciona el siguiente flujo de trabajo:
- Carga de datos: En su versión gratuita, Tableau facilita acceso a ficheros CSV y Excel. Además, en su versión profesional, proporciona una larga lista de conectores a todo tipo de bases de datos y sistemas de análisis
- Selecciona las métricas y dimensiones a visualizar: Tableau sigue un enfoque
interesante. Divide las columnas de nuestro dataset en métricas (valores numéricos) y dimensiones , que son aquellas columnas que ofrecen una “descripción” de los datos. Por ejemplo, si tenemos un dataset con nuestros productos, la columna con el nombre del producto será una dimensión , y la columna con el precio será una métrica . La categoría a la que pertenece el producto será también una dimensión . Además, las métricas podrán ser consideradas como discretas o continuas . Estas dos distinciones ayudan al sistema a crear un amplio abanico de visualizaciones basándose en su paleta de representaciones principal
- Selecciona el tipo de visualización: es muy interesante remarcar que Tableau, por
defecto, intento visualizar cualquier métrica o dimensión seleccionada. Eso es porque incorpora un sistema muy complejo que decide, en base a los datos proporcionados, cuál es la mejor visualización a utilizar. Mientras esta es una tarea muy compleja, si que es muy interesante ver el catálogo de visualizaciones proporcionado en la misma herramienta y, sobretodo, los requerimientos a nivel de dimensiones y métricas que tiene cada una.
Como se puede observar en la siguiente imagen, una vez se dispone de un dataset, el sistema puede inferir las visualizaciones que son posibles, y las que no. Por ejemplo, si nuestro dataset no contiene datos geográficos, no activará la posibilidad de utilizar un mapa o, si no disponemos de datos temporales, no se podrá utilizar el linechart. Esta característica es muy útil ayudar a los usuarios no expertos a no generar malas visualizaciones que afecten en el proceso de interpretación de los datos.
18
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
El catálogo de visualizacines en Tableau está siempre accesible en la interfaz de la herramienta, permitiendo
cambiar de gráfico en cualquier momento
Recomendaciones generales a seguir Vistas estas dos herramientas, parece claro que para el Proyecto PEI lo ideal será desarrollar algo parecido a RAW, pero aprendiendo de las buenas prácticas que dispone Tableau. Por ejemplo la distinción entre métricas y dimensione y la identificación de cuantas de ellas son necesarias en cada visualización ayuda a generar, de manera relativamente fácil, recomendaciones de qué visualizaciones son las más adecuadas. Además, permitir al usuario cambiar de visualización, haciendo que el sistema recoloque las métricas donde toque permite que el usuario pueda ver a simple vista cual es el mejor resultado visual para sus datos. El primer enfoque propuesta para el Sistema PEI es el de mostrar una previsualización de como se vería cada una de las representaciones visuales con el dataset que el usuario está trabajando. De este modo, unos posibles pasos a considerar podrían ser:
1. El usuario carga un dataset (preferiblemente un CSV o un xls) al sistema ○ Aquí el sistema debería ocultar aquellas visualizaciones que seguro no serán
posibles con los datos que se disponen
2. El usuario selecciona las métricas que le interesan
19
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid
http://www.vpascual.org @vpascual
31/07/2015
○ El sistema deberá, una vez más, ocultar aquellas visualizaciones que no serán posibles con las columnas seleccionadas
○ El sistema muestra una previsualización de cada representación con los datos seleccionados
3. El usuario puede, en tiempo real, cambiar el gráfico que quiere visualizar
Como se puede observar, esta manera de trabajar es completamente distinta al funcionamiento de RAW. Sin embargo, es posible que la complejidad que implica decidir automáticamente si una variable es una dimensión o una métrica , haga que este sistema de recomendaciones no sea factible. En este caso, un segundo enfoque del sistema se basaría en ofrecer amplias y claras instrucciones de como funciona cada visualización, y en qué casos se debe utilizar. En este caso, sería interesante también mostrar ejemplos com datasets del propio Proyecto PEI para que el usuario tenga una mejor idea de como maximizar la comprensión de la representación visual que está a punta de generar. En ambos enfoques, el Proyecto PEI puede convertirse en una herramienta que ayude a los usuarios a hacer visualizaciones correctas.
Lecturas recomendadas Automating the Design of Graphical Presentations of Relational Information , Jock D. Mackinlay. ACM Transactions on Graphics, 5(2, April) Polaris: A System for Query, Analysis and Visualization of Multi-dimensional Relational Databases , C. Stole & P. Hanrahan Dynamic Workload Driven Data Integration in Tableau , SIGMOD ‘12, K. Morton et al. Design for Informtion , I. Meirelles, Rockport Publishers, 2013 Now You See It , S. Few, Analytics Press, 2009
20