UNIDAD 1 ESTUDIO DE UNA APLICACIÓN DISTRIBUIDA: HADOOP HDFS PARA EL ALMACENAMIENTO DE BIG DATA 1.
-
Upload
estela-monforte -
Category
Documents
-
view
221 -
download
0
Transcript of UNIDAD 1 ESTUDIO DE UNA APLICACIÓN DISTRIBUIDA: HADOOP HDFS PARA EL ALMACENAMIENTO DE BIG DATA 1.
UNIDAD 1ESTUDIO DE UNA APLICACIÓN DISTRIBUIDA: HADOOP HDFS PARA
EL ALMACENAMIENTO DE BIG DATA
1
2
ÍndiceIntroducción
Big Data
Arquitectura HDFS
Proceso de Lectura de datos
Proceso de Escritura de datos
Q&A
1
2
3
4
5
6
3
Generamos más datos que nunca
4
Usos potenciales
• Análisis de negocio• Recomendaciones de producto• Previsión de demanda• Seguridad ciudadana• Estadística• …
5
Big Data
Toda esta enorme cantidad de información que se genera cada día y los sistema preparados para procesarla con el objetivo de ayudar en la toma de decisiones o análisis estadístico es lo que se conoce como Big Data.
6
Dificultades técnicas principales
• Almacenamiento• Procesamiento• Heterogeneidad de los datos
7
Almacenamiento
Aumento de capacidad de almacenamientoDisminución del precio por MBAumento de ratio de transferencia en porcentajes muy inferiores
8
Almacenamiento - Contención
9
Procesamiento
• Tradicionalmente para aumentar la capacidad de procesamiento se ha optado por aumentar los recursos disponibles en un servidor o adquirir otro de mayor capacidad.
• Sin embargo, es posible repartir el trabajo a realizar distribuyéndolo entre servidores de menor capacidad con un almacenamiento propio y un conjunto de datos único, evitando contención, SPOF y abaratando costes.
10
Procesamiento
“ In pioneer days they used oxen for heavy pulling, and when one ox couldn’t budge a log, we didn’t try to grow a larger ox.”
Grace Hopper, early advocate of distributed computing (1906-1992)
11
Heterogeneidad
Las soluciones tradicionales de almacenamiento y tratamiento de los datos (RDBMS con herramientas de Business Intelligence o Data Mining) no son
válidas, pues es difícil homogeneizar toda esta información en un modelo de datos que permita almacenarlo de manera estructural 
12
HadoopPara cubrir esta necesidad surgió en 2005 Hadoop.
Hadoop es todo un ecosistema de aplicaciones que permite el procesamiento distribuido de largas cantidades de datos repartiéndolos entre todos los nodos de un cluster de servidores usando modelos de
programación sencillos (MapReduce)
13
Arquitectura Hadoop HDFS
• BloquesBloques de gran tamaño replicados
• NameNodesMetadatos
• DataNodesDatos
14
Operación de lectura
15
Operación de escritura
16
Más información

Oracle Big Data (https://www.oracle.com/bigdata/index.html)
Hadoop: The Definitive Guide
Cloudera (http://www.cloudera.com)
17
Q&A