Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande,...
Transcript of Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande,...
Sistemas de Información Gerencial
Tema 7: BIG DATA
1
Ing. Francisco Rodríguez Novoa
Índice
Big Data. Big Data Science
¿Por qué Big Data? Google crea el
Modelo de Programación MapReduce
Aplicaciones de BIG DATA
Comentarios Finales
3
Nuestro mundo gira en torno a los datos Ciencia
Bases de datos de astronomía, genómica,datos medio-ambientales, datos de transporte, …
Ciencias Sociales y Humanidades Libros escaneados, documentos históricos, datos sociales, …
Negocio y Comercio Ventas de corporaciones, transacciones de mercados,
censos, tráfico de aerolíneas, …
Entretenimiento y Ocio Imágenes en internet, películas, ficheros MP3, …
Medicina Datos de pacientes, datos de escaner, radiografías …
Industria, Energía, … Sensores, …
Big Data
4
Big Data: La explosión de los datos
15
¿Qué es Big Data?Las 8 V’s de Big Data
Big Data
Volumen
Velocidad
Variedad
Veracidad Valor
Variabilidad
Validez
Volatilidad
16
No hay una definición estándar
Big data es una colección de datos grande,
complejos, muy difícil de procesar a
través de herramientas de gestión y
procesamiento de datos tradicionales
“Big Data” son datos cuyo
volumen, diversidad y complejidad
requieren nueva arquitectura,
técnicas, algoritmos y análisis
para gestionar y extraer valor y
conocimiento oculto en ellos ...
¿Qué es Big Data?
Big data se refiere a cualquier problema o
característica que represente un reto para
ser procesado con aplicaciones
tradicionales
¿Qué es Big Data?
18
¿Quién genera Big Data?
Redes sociales y multimedia (todos generamos datos)
Dispositivos móviles
(seguimiento de objetos)
Instrumentos científicos(colección de toda clasede datos)
Redes de sensores(se miden toda clase de datos)
El progreso y la innovación ya no se ven obstaculizados por la capacidad de recopilar datos, sino por la capacidad de gestionar, analizar, sintetizar, visualizar, y descubrir el conocimiento de los datos recopilados de manera oportuna y en una forma escalable
¿Qué es Big Data?
Data Science combines the traditional scientific method with the ability to explore, learn and gain deep insight for (Big) Data
It is not just about finding patterns in data … it is mainly about explaining those patterns
(Big) Data Science
22
What Happens in an Internet Minute in 2018?
¿Por qué Big Data?
23
Problema: Escalabilidad de grandes cantidades dedatos
Ejemplo:
Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días
Exploración en un clúster de 1000 nodos = 33 minutos
Solución Divide-Y-Vencerás
¿Por qué Big Data?
Una sola máquina no puede gestionar grandes
volúmenes de datos de manera eficiente
24
¿Por qué Big Data?
Problema: Escalabilidad de grandes cantidades de datos
Ejemplo:
Exploración 100 TB en 1 nodo @ 50 MB/sec = 23días
Exploración en un clúster de 1000 nodos = 33minutos
Solución Divide-Y-Vencerás
• ¿Cómo podemos procesar
1000 TB or 10000 TB?
25
Escalabilidad de grandes cantidades de datos
Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días
Exploración en un clúster de 1000 nodos = 33 minutos
Solución Divide-Y-Vencerás
¿Qué ocurre cuando el tamaño de los datos aumenta
y los requerimientos de tiempo se mantiene?
Hace unos años: Había que aumentar los recursos de
hardware (número de nodos). Esto tiene limitaciones de
espacio, costes, …
Google 2004: Paradigma MapReduce
¿Por qué Big Data?
26
Escalabilidad de grandes cantidades de datos
Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días
Exploración en un clúster de 1000 nodos = 33 minutos
Solución Divide-Y-Vencerás
MapReduce
– Modelo de programación de datos paralela
– Concepto simple, elegante, extensible para múltiples
aplicaciones
• Creado por Google (2004)
– Procesa 20 PB de datos por día (2004)
• Popularizado por el proyecto de codigo abierto Hadoop
– Usado por Yahoo!, Facebook, Amazon, …
MapReduce
MapReduce
MapReduce es la aproximación más popular para Big Data
Fragmentación de datos con Procesamiento Paralelo
+ Fusión de Modelos
MapReduce
MapReduce es el entorno más popular para Big Data
Basado en la estructura Valor-
llave.
Dos operaciones:
1. Función Map : Procesa bloques de información
2. Función Reduce function: Fusiona los resultados previous de acuerdo a su llave.
+ Una etapa intermedia de
agrupamiento por llave (Shuffling)
input inputinputinput
mapmap map map
(k , v)(k , v)(k , v) (k , v)
(k’, v’) (k’, v’) (k’, v’)
Shuffling: group values by keys
(k’, v’)
k’, list(v’) k’, list(v’) k’, list(v’)
reduce reduce reduce
v’’ v’’ v’’
output output output
map (k, v) → list (k’, v’)
reduce (k’, list(v’)) → v’’
31
Características
Paralelización automática:
Dependiendo del tamaño de ENTRADA DE DATOS se
crean mutiples tareas MAP
Dependiendo del número de intermedio <clave, valor>
particiones se pueden crear varias tareas REDUCE
Escalabilidad:
Funciona sobre cualquier cluster de nodos/procesadores
Puede trabajar desde 2 a 10,000 máquinas
Transparencia programación
Manejo de los fallos de la máquina
Gestión de comunicación entre máquina
MapReduce
MapReduce
Resumiendo:
Ventaja frente a los modelos distribuidos clásicos: El modelo de programación paralela de datos de MapReduce oculta la complejidad de la distribución y tolerancia a fallos.
Claves de su filosofía: Es
escalable: se olvidan los problemas de hardware
más barato: se ahorran costes en hardware, programación y administración (Commodity computing).
MapReduce no es adecuado para todos los problemas, pero cuando funciona, puede ahorrar mucho tiempo
Data Science Model
building
Predictiveand descriptive Analytics
Data Preprocessing
Big Data Analytics:Big Data Preprocessing
¡Se requieren datos de calidad para diseñar modelos de calidad!.
Big Data
Inteligencia de Negocios y el Big Data
• Inteligencia de Negocios es un conjunto de procesos, tecnologías y
personas que tienen la capacidad de transformar los datos en
información y la información en conocimiento, con el objetivo de
optimizar la toma de decisiones empresariales y facilitar la gestión a
través del seguimiento de patrones de conducta y
transaccionalidad.
• La BI abarca un amplio rango de tareas que comprenden la
recolección y consolidación de bases de datos centralizadas a
través de los conceptos de ETL y Datawarehouse; la gestión de
herramientas para el aprovechamiento de la información, basadas
en analítica y minería de datos; junto con un conjunto de
herramientas de visualización y reporte, que incluye tecnologías
como OLAP (On Line Analitical Processing).20
Inteligencia de Negocios y el Big Data
21
• Big Data es el aprovechamiento de grandes volúmenes de
información para tomar decisiones empresariales y optimizar
procesos de negocio. Es notable que las similitudes conceptuales
con la BI permitan generar alguna confusión. En tal sentido, el Big
Data también precisa algunos elementos técnicos de consideración.
• La integración de datos de negocio que no hacen parte del
ecosistema de bases de datos de la empresa (el Datawarehouse),
como por ejemplo datos de fuentes secundarias, implica que se
tengan repositorios de información particulares para la gestión de
Big Data. Muchos de estos datos, trabajados adecuadamente,
pueden llegar a integrarse al datawarehouse. En fases iniciales o en
el trabajo con datos cotidiano, estos pueden ser integrados a
repositorios especiales, conocidos como Datamarts.
Inteligencia de Negocios y el Big Data
22
• Algunas de las distancias puntuales que podrían marcarseentre estos dos temas están dadas por que el concepto de BigData no alude directamente a los procesos o a las personas:es un concepto centrado en los algoritmos y metodologíasque permiten extraer el conocimiento de los datosprocesados.
• Estos datos, a su vez, pueden provenir de una ampliavariedad de fuentes, y bien pueden ser estructurados, comose estila tradicionalmente en las bases de datos de negocio, ono estructurados, lo cual abarca desde datos textuales hastacontenidos multimedia.
Inteligencia de Negocios y el Big Data
23
• También podemos evidenciar que el componente analítico dela BI se potencia desde el Big Data, pero que a su vez, unaconcepción holística y aplicada del Big Data, demanda de lascualidades de la BI. En tal sentido, suponer un escenario dedatos más completo, más abierto y con muchas máscapacidades para procesar, integrar, analizar y distribuirinformación solo puede ser positivo y no debe ser óbice paragenerar diferencias en sus aplicaciones
Inteligencia de Negocios y el Big Data
24
• El escenario idóneo es aquel que nos permite tener muchosmás datos, poder integrarlos y maximizar su calidad ycompletitud, definir metodologías idóneas para suprocesamiento y análisis y asegurarse de que los mismoslleguen a los decisores con tal calidad que el nivel de
dificultad para su transformación en decisiones y parallevarlo a la implementación se reduzca a un mínimo. Solo asíllegaremos a asegurar un entorno de datos lo suficientementefuerte que permita a la organización ser más resistente no por
sus capacidades financieras o materiales, sino por elconocimiento y el talento que la misma ostenta.
Algunas aplicaciones: La banca es
un ámbito de aplicación importante
Algunas aplicaciones
http://www.sciencemag.org/content/347/6221/536
http://elpais.com/elpais/2015/01/29/ciencia/1422520042_066660.html
Identificación por el número de compras
Identificación por el género
Identificación por el poder adquisitivo
Banca: Identificación de personas con las compras de tarjetas de crédito
Aplicaciones de Big Data
• En el 2017, Forbes Insights y EY publicaron un informe, basado en
una encuesta a 1,518 altos ejecutivos de grandes empresas de todo
el mundo. Según dicha encuesta, el 66% de las compañías que
apostaron por la introducción de data analytics en su estrategia de
negocios logró un aumento de al menos 15% en sus utilidades del
2016.
• No solo ha resultado una herramienta auspiciosa en el éxito de la
introducción de productos y servicios al mercado, Big Data también
ayuda a anticipar fracasos difíciles de identificar. En ese sentido, el
60% de los encuestados por Forbes Insights y EY señala haber
conseguido que sus puntos débiles se hayan fortalecido para hacer
frente a los posibles riesgos con los que cuenta toda gran empresa.
28
Aplicaciones de Big Data
• Recientemente, se publicó el “Accenture Analytics Big Success
with Big Data”, que incluye una encuesta a más de 1,000
ejecutivos de empresas que operan en siete industrias y con
sede en 19 países, que han completado al menos una
implementación de Big Data.
• Este informe reveló que el 92% de los encuestados están
satisfechos con los resultados de negocios impulsados por Big
Data y que el 94% manifiesta que estas implementaciones
satisfacen sus necesidades. Para el 89%, resulta fundamental
en el proceso de transformar su organización en una empresa
digital.
29
BIG DATA en Perú
• Banca y finanzas, consumo masivo y retail son las industrias que
han dado los primeros pasos hacia su digitalización. Ya sea por
recursos financieros o por giro de negocio, estos son los first
movers más obvios; sin embargo, no serán los únicos en usar
esta disciplina como una herramienta esencial.
• SAS Institute, uno de los principales fabricantes de software de
business inteligence del mundo, menciona el caso de la industria
de la salud: al analizar rápidamente grandes cantidades de
información, estructurada y no estructurada, los proveedores de
atención médica pueden proporcionar diagnósticos que salvan
vidas o opciones de tratamiento casi de inmediato. Estas
aplicaciones se irán extendiendo hacia cada vez más industrias,
sin duda30
Ámbito del conocimiento que engloba las habilidades asociadas al análisis inteligente de datos, incluyendo Big Data
Científico de datos
(actualmente se menciona la demanda en big data profesionalmente, entendida como el global).
Comentarios Finales
179
Comentarios Finales
Big Data es un área emergente y en expansión. Las posibilidades de desarrollo de algoritmos para nuevos datos, aplicaciones reales … es un nicho de investigación y desarrollo en los próximos años.
Oportunidades en Big Data
La paralelización de los algoritmos de aprendizaje automático junto al particionamiento de datos pueden proporcionar algoritmos de calidad con MapReduce.
Paticionando datos y aplicando el algoritmo a cada parte.
Centrando la atención en la fase de combinacion (reduce). La combinación de modelos es un reto en el diseño de cada algoritmo.
Data Mining, Machine learning and data preprocessing: Inmensa colección de algoritmos frente a los pocos algoritmos en big data analytics.
Comentarios Finales
Comentarios Finales
¡Gracias!