Ebook: Herramientas de visualización de datos

26
Herramientas de visualización de datos 01 02 03 La caja de herramientas del científico de datos Cinco herramientas de visualización de datos Saca provecho a los datos con estos cuatro tutoriales

description

Cada día en el mundo digital se genera una gran cantidad de información y en este ebook descubrirás las mejores herramientas para mejorar su visualización.BBVA Open4U lanza una serie de ebooks para recopilar la información más interesante para un desarrollador emprendedor. El primero de estos números se centra en las herramientas de visualización de datos.Si eres desarrollador y quieres sacar el máximo provecho a las herramientas de datos, en este ebook se recopilan tres análisis en profundidad con las mejores herramientas y las más populares entre los científicos de datos.En este ebook puedes encontrar todos los elementos que un desarrollado debe tener en su “caja de herramientas”, sobre todo en el campo de la visualización de la información.

Transcript of Ebook: Herramientas de visualización de datos

  • Herramientas de visualizacin de datos

    01

    02

    03

    La caja de herramientas del cientfico de datos

    Cinco herramientas de visualizacin de datos

    Saca provecho a los datos con estos cuatro tutoriales

  • La ciencia del dato se erige en nuestros das como una profesin

    multidisciplinar. Esta pretende ser una gua bsica de recursos en

    cada una de las facetas desempeadas por estos profesionales.

    La caja de herramientas del

    cientfico de datos

  • 01. CAJA HERRAMIENTAS

    La ciencia del dato se erige en nuestros das

    como una profesin multidisciplinar en la

    cual conocimientos tcnicos de diversas

    reas se solapan formando un perfil ms

    propio del Renacimiento que del

    superespecializado siglo XXI.

    HERRAMIENTAS

    Y LENGUAJES

    SQL

    Sqlite

    SQlite3

    RSQlite

    Toad

    Tora

    RapidMiner

    Knime

    Pentaho

    RODBC

    RJDBC

    pyODBC

    mxODBC

    SQLAlchemy

    pandas

    data.table

    XML

    Jsonlite

    json

    Dada la escasez de formacin

    estructurada en la materia, los

    cientficos de datos se ven obligados a

    ir coleccionando conocimientos,

    habilidades y herramientas que les

    permitan desarrollar de forma ptima

    sus competencias.

    Este artculo pretende ser una

    gua bsica no exhaustiva de

    recursos en cada una de las

    facetas desempeadas por

    estos profesionales.

  • Gestin de datosParte del trabajo del cientfico de datos es la

    captura, depuracin y almacenamiento de la

    informacin en un formato adecuado para su

    tratamiento y anlisis.

    El caso ms frecuente ser el acceso a una rplica

    de los datos para una captura puntual o peridica.

    Ser necesario conocer SQL para acceder a la

    informacin almacenada en bases de datos

    relacionales. Cada base de datos tiene una consola

    01. CAJA HERRAMIENTAS

    de comandos para ejecutar las sentencias SQL,

    aunque son mayora los que prefieren un entorno

    grfico con informacin sobre tablas, campos e

    ndices. Entre las herramientas ms valoradas estn

    Toad, versin comercial para plataforma

    Microsoft y Tora, versin libre multiplataforma.

    Una vez extrados los datos podemos guardarlos en

    ficheros de texto plano que luego cargaremos en

    nuestro entorno de trabajo para machine learning o

    utilizar una herramienta como SQlite.

  • 01. CAJA HERRAMIENTAS

    SQlite es una base de datos relacional ligera, sin

    dependencias externas y que no necesita la

    instalacin en un servidor. Transportar una base de

    datos es tan fcil como copiar un solo fichero. En

    nuestro caso, cuando vayamos

    a procesar la informacin lo haremos sin necesidad

    de concurrencia ni de mltiples escrituras en los

    datos origen, lo cual se adapta perfectamente a las

    caractersticas de SQlite.

    Los lenguajes que utilizaremos para nuestros

    algoritmos tienen conectividad con SQlite (Python a

    travs de SQlite3 y R a travs de RSQlite) por lo

    que podemos optar por importar los datos antes de

    preprocesarlos o hacer parte en la base de datos,

    lo cual nos evitar ms de un problema a partir de

    un volumen medio de registros.

    Otra alternativa para la captura en lotes de los

    datos es la utilizacin de una herramienta

    que incluya el ciclo ETL completo (extraccin,

    transformacin y carga), entre las que destacan

    RapidMiner, Knime y Pentaho. Con ellas podremos

    definir el ciclo de captura y depuracin de los datos

    de manera grfica mediante conectores.

    Cuando tengamos garantizado acceso al origen de

    datos durante el preproceso podemos optar por

    una conexin ODBC (RODBC y RJDBC en R y

    pyODBC, mxODBC y SQLAlchemy en Python) y

    beneficiarnos de realizar uniones (JOIN) y

    agrupaciones (GROUP BY) utilizando el motor de la

    base de datos e importando posteriormente los

    resultados.

    Para el procesado externo a la base de datos

    pandas (librera de Python) y data.table (paquete de

    R) son primera eleccin. En el caso de R, data.table

    permite soslayar uno de los puntos dbiles de ste,

    la gestin de la memoria, realizando operaciones

    vectoriales y agrupaciones por referencia, es decir,

    sin tener que duplicar temporalmente los objetos.

  • 01. CAJA HERRAMIENTAS

    Un tercer escenario sera el acceso a

    informacin generada en tiempo real y que

    sea transmitida en formatos como XML o

    JSON. Seran proyectos denominados de

    incremental learning entre los que se

    encuentran los sistemas de recomendacin,

    publicidad online y trading de alta

    frecuencia.

    Utilizaremos herramientas como XML o

    jsonlite (paquetes para R) o xml y json

    (mdulos de Python). Con ellos haremos

    una captura en streaming, calcularemos la

    prediccin, la devolveremos en el mismo

    formato y actualizaremos nuestro modelo

    una vez el sistema de origen nos facilite,

    ms adelante, el resultado observado en la

    realidad.

  • Si bien las reas de business intelligence, data

    warehousing y machine learning son objetos de

    la ciencia de datos, es esta ltima la ms

    diferencial en el sentido que necesita de un

    nmero mayor de utilidades especficas.

    En cuanto a lenguajes de programacin,

    imprescindibles en nuestra caja de herramientas

    son R y Python, los ms utilizados para el

    aprendizaje automtico.

    Anlisis de datos

    01. CAJA HERRAMIENTAS

    Para Python destacamos la suite scikit-learn que

    cubre casi todas las tcnicas, salvo quizs las redes

    neuronales. Para estas tenemos varias alternativas

    interesantes, como Caffe y Pylearn2. Pylearn2

    utiliza como base Theano, una interesante librera

    de Python que permite definiciones simblicas y

    uso transparente de los procesadores GPU.

  • 01. CAJA HERRAMIENTAS

    Si necesitamos modificar algn paquete de R requeriremos C++ y disponer de utilidades que nos permitan

    volver a generarlos: Rtools o devtools facilitan todos los procesos relacionados con el desarrollo.

    Data.table: Lectura rpida de ficheros texto,

    creacin, modificacin y borrado de columnas

    por referencia, unin de tablas por una clave

    comn o agrupacin y resumen de datos.

    Foreach: Ejecucin de procesos en paralelo

    contra un backend previamente definido con

    alguna utilidad como doMC o doParallel.

    Bigmemory: Manejar grandes matrices y

    compartirlas entre varias sesiones o ejecuciones.

    Caret: Comparacin modelos, control de

    particiones de datos (splitting, bootstrapping,

    subsampling) y ajuste de parmetros (grid

    search).

    Matrix: Manejo de matrices dispersas y

    transformacin de variables categricas a

    binarias (onehot encoding) mediante la funcin

    sparse.model.matrix.

    Utilidades que nos harn la vida ms fcil en R:

    Gradient boosting: gbm y xgboost.

    Ensamblado de rboles de regresin y

    clasificacin: randomForest y randomForestSRC.

    Mquinas de soporte de vectores: e1071,

    LiblineaR y kernlab.

    Regresin con regularizacin (Ridge, Lasso y

    ElasticNet): glmnet.

    Modelos generalizados aditivos: gam.

    Clustering: cluster.

    Entre los paquetes para R ms utilizados destacan:

  • 01. CAJA HERRAMIENTAS

    Una mencin especial requieren los entornos distribuidos. Si hemos trabajado con datos procedentes de una

    entidad o empresa de cierto tamao probablemente tengamos experiencia con el denominado ecosistema

    Hadoop. Hadoop es en su origen un sistema distribuido de ficheros (HDFS) dotado de unos algoritmos

    (MapReduce) que permiten realizar procesamiento de la informacin en paralelo.

    Vowpal Wabbit: Mtodos para online learning

    basado en gradiente descendente.

    Mahout: Suite de algoritmos entre los que

    destacan los sistemas de recomendacin,

    clustering, regresin logstica, random forest.

    h2o: Quizs la herramienta en fase de mayor

    crecimiento, con un gran nmero de algoritmos

    paralelizables. Puede ejecutarse desde un

    entorno grfico propio o bien desde R o Python.

    Algunas de las herramientas de aprendizaje automtico que conviven con Hadoop:

    Interesar tambin al cientfico de datos estar al

    corriente de las nuevas tendencias de cambio

    generacional de Hadoop hacia Spark.

    Spark tiene varias ventajas sobre Hadoop para el

    procesamiento de la informacin y la ejecucin

    de algoritmos. La principal de ellas la velocidad,

    dado que es hasta cien veces mayor debido a que,

    a diferencia de Hadoop, Spark utiliza la gestin en

    memoria y slo escribe a disco cuando es

    necesario.

  • 01. CAJA HERRAMIENTAS

    Spark puede ejecutarse de forma

    independiente o puede convivir como un

    componente ms de Hadoop, de forma

    que la migracin puede planificarse de

    manera no traumtica. Puede por

    ejemplo utilizar HBase como base de

    datos, aunque Cassandra se est

    imponiendo como solucin de

    almacenamiento por su redundancia y

    escalabilidad.

    Como muestra de los aires de cambio,

    Mahout desde el pasado ao trabaja para

    integrarse con Spark, distancindose de

    MapReduce y Hadoop, y H2O.ai ha

    lanzado Sparkling Water que es la versin

    de su suite h2o sobre Spark.

  • Para terminar una breve referencia a

    la presentacin de los resultados.

    Las herramientas ms utilizadas en R

    son sin duda lattice y ggplot2 y en

    Python Matplotlib, pero si necesitamos

    presentaciones profesionales

    integradas en entornos web la mejor

    opcin sin duda es D3.js.

    Entre los entornos integrados de

    business intelligence, con un enfoque

    claro a la presentacin, destacar

    Tableau, el ms conocido, y como

    alternativas para la exploracin grfica

    de datos, Birst y Necto.

    Visualizacin

    01. CAJA HERRAMIENTAS

  • Te presentamos algunas de las mejores herramientas de

    visualizacin de datos que puedes usar en tu negocio para sacar

    el mayor provecho a la gran cantidad de informacin que se crea

    cada da en el mundo digital.

    Cinco herramientasde visualizacin de datos que no debes perder de vista

  • 02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

    Hoy en da, el universo digital est alcanzado nuevos umbrales. La cantidad de datos generada, tanto por usuarios particulares como por las empresas, est aumentando a un ritmo vertiginoso. De hecho, segn un estudio de IDC y EMC, el universo de datos digitales est doblando su tamao cada dos aos y, en 2020, se habrn generado 44 zettabytes de informacin o, lo que es lo mismo, 44 trillones de gigabytes de datos estructurados y desesctructurados.

    El hecho de crear y acceder a una pgina web, participar en un blog, aumentar nuestro nmero de seguidores, escribir comentarios, mandar un tuit o simplemente, navegar por internet, produce toda una serie de datos que, si se saben aprovechar correctamente, pueden ofrecer un gran valor para las empresas.

    NDICE DE HERRAMIENTAS

    DE VISUALIZACIN

    Google Fusion Tables

    CartoDB

    Tableau Public

    iCharts

    Smart Data Report

  • 02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

    El gran reto, no obstante, es dar sentido a todos

    esos datos. Es decir, ser capaces de captar,

    relacionar, analizar y extraer su verdadero valor, de

    forma que la informacin se pueda presentar de

    manera atractiva, clara, concisa y comprensible. El

    objetivo es facilitar la toma de decisiones dentro de

    tu negocio. Explorar y analizar visualmente los

    datos de clientes puede llevarte, adems, a

    descubrir nuevas vas para llegar hasta ellos,

    segmentarlos mejor, personalizar ofertas de

    productos o servicios y crear ideas innovadoras,

    entre otras muchas posibilidades, que pueden

    mantener el engagement entre tu marca y tus

    usuarios a lo largo del tiempo.

    Por dnde empezar

    Puede que el primer paso dentro de la visualizacin

    de datos resulte intimidante. Por fortuna, al igual

    que el crecimiento de datos avanza, tambin lo

    hacen las herramientas que nos ayudan a sacar su

    valor. Te presentamos 5 herramientas

    recomendables para iniciarse en este mundo.

  • Google Fusion Tables

    02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

    Es una excelente herramienta para principiantes

    o aquellas personas que no saben de

    programacin. Adems, para los usuarios ms

    avanzados, existe una API que permite producir

    grficas o mapas a partir de informacin.

    Una de las ventajas de esta aplicacin es la

    diversidad de representaciones de datos que

    hay a disposicin del usuario. Adems, ofrece la

    posibilidad de crear grficos o mapas de manera

    relativamente rpida, incluyendo funciones GIS

    para analizar datos por geografas.

    Esta herramienta es muy utilizada por The

    Guardian para producir mapas de una manera

    rpida y detallada.

  • CartoDBSe trata de un servicio open source dirigido a

    cualquier usuario, independientemente del nivel

    tcnico que tenga, con una interfaz muy amigable.

    Permite crear una gran variedad de mapas

    interactivos, lo que permite elegir entre el catlogo

    que el mismo servicio ofrece, incluir mapas

    de Google Maps, o agregar a la lista tus propios

    mapas personalizados.

    Lo ms interesante es que es posible tener acceso a

    los datos de Twitter para ver cmo los usuarios

    reaccionan ante una marca, una determinada

    campaa de marketing o un evento. Un buen

    ejemplo de ello lo podemos ver en el mapa de

    seguimiento de tuits que se cre el pasado ao con

    motivo del lanzamiento del ltimo lbum

    de Beyonce en el que, claramente, se puede

    observar los lugares donde ms impacto tuvo. Toda

    una fuente de informacin visual para los

    profesionales del marketing y de negocio.

    Tambin hay que destacar su activo grupo de

    desarrolladores que aporta gran cantidad de

    documentacin y ejemplos. Adems, el carcter

    abierto de su API hace que continuamente se estn

    desarrollando nuevas integraciones y aumentando

    las capacidades de la herramienta con nuevas

    libreras.

    02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

  • Tableau Public

    02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

    Con Tableau Public puedes crear mapas

    interactivos, grficos de barras, tartas, etc. de forma

    sencilla. Una de sus ventajas es que, al igual que

    con Google Fusion Tables, es posible importar

    tablas de Excel para facilitar tu trabajo. En cuestin

    de minutos, puedes crear un grfico interactivo,

    embeberlo en tu pgina web y compartirlo. Por

    ejemplo, el medio de comunicacin Global

    Post cre una serie de grficos sobre cules son los

    mejores pases para hacer negocios en frica.

    Recientemente, lanzaron su versin 8.2. En ella

    tambin podemos encontrar la nueva

    herramienta OpenStreetMap que permite generar

    mapas muy detallados a partir de datos locales,

    como cafeteras o tiendas. Tableau Public es una

    herramienta gratuita, aunque existe tambin una

    versin de pago.

  • iChartsCon esta herramienta puedes iniciarte en el mundo

    de la visualizacin de datos. iCharts cuenta con una

    versin gratuita (Basic) y dos de pago (Platinum y

    Enterprise). Con esta herramienta puedes crear

    visualizaciones en pocos pasos exportando

    documentos de Excel y Google Drive, o aadir

    datos manualmente.

    A travs de esta herramientas tambin es posible

    compartir tus grficos con tus colaboradores de

    forma privada, adems de poder editar y actualizar

    dichos grficos con nuevos datos a travs de su

    servicio de cloud computing. Incluso, puedes

    compartirlos con tus clientes a travs de mensajes

    de correo electrnico, boletines de noticias o redes

    sociales.

    Entre las empresas que utilizan este servicio nos

    encontramos con la prestigiosa consultora IDC, que

    utiliza iChart para ofrecer un aspecto visual a los

    datos ms relevantes de sus informes.

    02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

  • Smart Data ReportFinalmente, queremos destacar la solucin Smart

    Data Report que, aunque no sea tan potente como

    las anteriores, tiene la ventaja de ser una solucin

    de visualizacin de datos asequible para

    emprendedores y pequeas empresas cuyos

    trabajadores no disponen de mucho tiempo en su

    da a da.

    Esto se debe a que entre los servicios que te ofrece

    esta web se incluye el anlisis de datos gratuito y la

    generacin de informes que pueden enviarse por

    email, sin que sea necesario que lo haga uno

    mismo. Una vez el servicio ha preparado tu

    informe, se generan un cdigo HTML para poder

    embeberlo en tu web corporativa o en tus artculos.

    02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

  • Mapear datos, visualizarlos en apps geoespaciales y aplicar el

    aprendizaje automtico. Ponemos en prctica nuestros

    conocimientos con la ayuda de estos vdeos tutoriales.

    Saca provecho a los datos con estos

    cuatro tutoriales

  • Mapear datos

    03. TUTORIALES

    CartoDB nos explica cmo convertir los datos de localizacin en conocimiento para tu negocio. En este

    tutorial podrs aprender a analizar, visualizar y construir aplicaciones de datos a travs de su herramienta.

  • Aprendizaje automtico

    03. TUTORIALES

    Ahora que se acerca el verano, Andrs Gonzlez, responsable de soluciones de Big Data y Data Prediction en

    Clever Task, nos ensea cmo hacer predicciones de los datos en un caso muy concreto: el sector turstico.

  • Apps geoespaciales

    03. TUTORIALES

    Y si lo que quieres es aprender a crear aplicaciones con datos geoespaciales no te puedes perder este

    tutorial, tambin de CartoDB, en el que se explica cmo puedes sacar provecho de una API, en este caso la

    que abri BBVA para el concurso InnovaChallenge, y as poder crear apps y visualizaciones.

  • Buenos ejemplos de visualizacin

    03. TUTORIALES

    Por ltimo para cerrar esta recopilacin, Alberto Cairo, profesor de visualizacin de datos en la Universidad

    de Miami, nos ensea las buenas prcticas en visualizacin de datos. Es bueno aprender de nuestros errores

    y de los aciertos de otros.

  • compartir

    TE PUEDE INTERESAR

    Innovation Edge Big Data: generar

    valor de negocio con los datos

    Emerging Tech: la visualizacin de

    datos ms all del ruido

    Infografa: las claves de Big Data

    segn DJ Patil

    Infografa Big Data: el presente y el

    futuro de los datos

    Caso de xito de visualizacin de

    datos: Illustreets y CartoDB

  • Regstratepara estar al da de las ltimas tendencias

    conversa con nosotros en:

    BBVA no se hace responsable de las opiniones publicadas en este documento.

    www.bbvaopen4u.com