Familiarización básica a métodos y herramientas para soluciones de Big Data

40
Familiarización básica a métodos y herramientas para soluciones de Big Data @tiango lo

description

Presentación de una de las conferencias sobre Big Data dadas en SENASoft - Colombia, el evento sobre TIC más importante de Colombia organizado por el SENA sobre tecnologías de la información y la comunicación. Por: Sebastián Ramírez Twitter: @tiangolo

Transcript of Familiarización básica a métodos y herramientas para soluciones de Big Data

Page 1: Familiarización básica a métodos y herramientas para soluciones de Big Data

Familiarización básica a métodos y herramientas

para soluciones de Big Data

@tiangolo

Page 2: Familiarización básica a métodos y herramientas para soluciones de Big Data

¿Quién les habla?

Sebastián RamírezSENSETA

Inteligencia Artificial sobre Big Data

@tiangolo

Page 3: Familiarización básica a métodos y herramientas para soluciones de Big Data

¿Por qué “Big Data”?

@tiangolo

Page 4: Familiarización básica a métodos y herramientas para soluciones de Big Data

Crecimiento exponencial de datos

90% en últimos 2 años

@tiangolo

Page 5: Familiarización básica a métodos y herramientas para soluciones de Big Data

¿Qué es Big Data?

@tiangolo

Page 6: Familiarización básica a métodos y herramientas para soluciones de Big Data

3 V de Big Data• Volumen • Velocidad • Variedad

@tiangolo

Page 7: Familiarización básica a métodos y herramientas para soluciones de Big Data

VolumenTamaño en disco, Bytes

@tiangolo

Page 8: Familiarización básica a métodos y herramientas para soluciones de Big Data

VelocidadNuevos datos rápidamente

@tiangolo

Page 9: Familiarización básica a métodos y herramientas para soluciones de Big Data

VariedadMúltiples formatos

@tiangolo

Page 10: Familiarización básica a métodos y herramientas para soluciones de Big Data

¿Cómo se usa?

@tiangolo

Page 11: Familiarización básica a métodos y herramientas para soluciones de Big Data

Hadoop

2005Open SourceMap Reduce

HDFS

@tiangolo

Page 12: Familiarización básica a métodos y herramientas para soluciones de Big Data

Cluster Hadoop

@tiangolo

Page 13: Familiarización básica a métodos y herramientas para soluciones de Big Data

Hadoop HDFSHadoop Distributed File System

@tiangolo

Page 14: Familiarización básica a métodos y herramientas para soluciones de Big Data

Hadoop Jobs

@tiangolo

Page 15: Familiarización básica a métodos y herramientas para soluciones de Big Data

Nodos Hadoop

@tiangolo

Page 16: Familiarización básica a métodos y herramientas para soluciones de Big Data

Hadoop Map Reduce

@tiangolo

Page 17: Familiarización básica a métodos y herramientas para soluciones de Big Data

Map function

Reducefunction

Input Splits

Fase “Map” Fase “Reduce”

Map Reduce

@tiangolo

Page 18: Familiarización básica a métodos y herramientas para soluciones de Big Data

“Ecosistema” Hadoop

@tiangolo

Page 19: Familiarización básica a métodos y herramientas para soluciones de Big Data

Herramientas adicionales para Big Data

@tiangolo

Page 20: Familiarización básica a métodos y herramientas para soluciones de Big Data

Distribuciones Hadoop

@tiangolo

Page 21: Familiarización básica a métodos y herramientas para soluciones de Big Data

Distribuciones de Hadoop(“Ecosistema” Hadoop)

@tiangolo

Page 22: Familiarización básica a métodos y herramientas para soluciones de Big Data

Hive - SQL

@tiangolo

Page 23: Familiarización básica a métodos y herramientas para soluciones de Big Data

Facebook

• 300 Analistas•Acceso tipo SQL•Base de Datos corporativa no resistía

@tiangolo

Page 24: Familiarización básica a métodos y herramientas para soluciones de Big Data

Hive

•Tipo SQL•Schema on-read (al leer)•Estándar para Bases de Datos en Hadoop

@tiangolo

Page 25: Familiarización básica a métodos y herramientas para soluciones de Big Data

Hcatalog - SQL

@tiangolo

Page 26: Familiarización básica a métodos y herramientas para soluciones de Big Data

HCatalog

•Estructura de tablas para múltiples herramientas•Abstracción de ubicaciones•Sopota RCFile, CSV, JSON, y SequenceFile

@tiangolo

Page 27: Familiarización básica a métodos y herramientas para soluciones de Big Data

Pig - Script

@tiangolo

Page 28: Familiarización básica a métodos y herramientas para soluciones de Big Data

Pig

•Combinación: Script y SQL•Secuencias de flujos de datos•ETL, transformación•Extensible

@tiangolo

Page 29: Familiarización básica a métodos y herramientas para soluciones de Big Data

HBase - NoSQL

@tiangolo

Page 30: Familiarización básica a métodos y herramientas para soluciones de Big Data

HBase

•NoSQL•Columnar•Tiempo Real•Billones de registros•Millones de columnas•No JOINs

@tiangolo

Page 31: Familiarización básica a métodos y herramientas para soluciones de Big Data

Sqoop - Importar

@tiangolo

Page 32: Familiarización básica a métodos y herramientas para soluciones de Big Data

Sqoop

•Importar - Exportar•Hive, Hbase…•MySQL, Postgre, Oracle•Extensible

@tiangolo

Page 33: Familiarización básica a métodos y herramientas para soluciones de Big Data

Solr - Búsquedas

@tiangolo

Page 34: Familiarización básica a métodos y herramientas para soluciones de Big Data

Solr

•Búscquedas en “Tiempo Real”•Indexa JSON, XML, CSV•Búsquedas avanzadas

@tiangolo

Page 35: Familiarización básica a métodos y herramientas para soluciones de Big Data

Spark – En memoria

@tiangolo

Page 36: Familiarización básica a métodos y herramientas para soluciones de Big Data

Spark

•En memoria•Machine Learning y Data Science•Procesos iterativos (repetitivos)

@tiangolo

Page 37: Familiarización básica a métodos y herramientas para soluciones de Big Data

Ambari – Administración

@tiangolo

Page 38: Familiarización básica a métodos y herramientas para soluciones de Big Data

Ambari

•Open Source•Monitoreo•Administración

@tiangolo

Page 39: Familiarización básica a métodos y herramientas para soluciones de Big Data

Otras herramientas…

•MongoDB

•Cassandra

•Impala

•ElasticSearch

•Python Disco…

@tiangolo

Page 40: Familiarización básica a métodos y herramientas para soluciones de Big Data

¡Gracias!

Sebastián Ramírez

Twitter: @tiangolo

Linkedin: http://lnkdin.me/p/tiangolo