ETL (Tarea #1 Bases de Datos) Eduardo Loaiza Mata, 2011017835

download ETL (Tarea #1 Bases de Datos) Eduardo Loaiza Mata, 2011017835

of 7

Transcript of ETL (Tarea #1 Bases de Datos) Eduardo Loaiza Mata, 2011017835

  • 7/25/2019 ETL (Tarea #1 Bases de Datos) Eduardo Loaiza Mata, 2011017835

    1/7

    Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en TelemticaEstudiante: Eduardo Loaiza Mata.Profesor: Ing. Henry Jimnez Marchena.

    ETL (extract ion, transformat ion & load):

    ETL es un trmino estndar que se utiliza para referirse al movimiento ytransformacin de datos. Se trata del proceso que permite a lasorganizaciones mover datos desde mltiples fuentes, reformatearlos y

    cargarlos en otra base de datos(denominada data marto data warehouse) conel objeto de analizarlos. Tambin pueden ser enviados a otro sistemaoperacional para apoyar un proceso de negocio.

    Datawarehouse:

    Los sistemas de Datawarehouse (DW) son repositorios centralizados deinformacin, donde se vuelcan los datos provenientes de las aplicaciones de laempresa. Esta informacin se recoge con el objeto de poder luego seraprovechada mediante aplicaciones de reporting o de analtica. En definitiva losDW son la base para el funcionamiento de las aplicaciones OLAP, de soporte a ladecisin y en general de la inteligencia de negocio. Las caractersticas ms

    importantes de este repositorio de datos son las siguientes (Wikipedia):

    Orientado a temas: Los datos en la base de datos estn organizados de maneraque todos los elementos de datos relativos al mismo evento u objeto del mundoreal queden unidos entre s.

    Variante en el tiempo:Los cambios producidos en los datos a lo largo del tiempoquedan registrados para que los informes que se puedan generar reflejen esasvariaciones.

    No voltil:La informacin no se modifica ni se elimina, una vez almacenado undato, ste se convierte en informacin de slo lectura, y se mantiene para futuras

    consultas.

    Integrado:La base de datos contiene los datos de todos los sistemasoperacionales de la organizacin, y dichos datos deben ser consistentes. UnDatawarehouse se estructura de la siguiente manera:

  • 7/25/2019 ETL (Tarea #1 Bases de Datos) Eduardo Loaiza Mata, 2011017835

    2/7

    Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en TelemticaEstudiante: Eduardo Loaiza Mata.Profesor: Ing. Henry Jimnez Marchena.

    Los Data marts son subconjuntos de datos de un data warehouse para reasespecficas. Entre las caractersticas de un data mart destacan:

    Usuarios limitados.

    rea especfica.

    Tiene un propsito especfico.

    Tiene una funcin de apoyo.

    Este tipo de aplicaciones se suelen incluir dentro del mbito de las Bases deDatos, por lo que aplicaciones de este tipo son:

    Oracle Database

    Microsoft SQL Server

    MySQL PostgreSQL

    IBM Websphere DB2

    En definitiva, el principal objetivo de este proceso es facilitar el movimiento delos datos y la transformacin de los mismos, integrando los distintos sistemasy fuentes en la organizacin moderna.

    El trmino ETL corresponde a las siglas en ingls de:

    Extract: extraer. Transform: transformar. Load: cargar.

    Son uno de los pilares clave a la hora de planificar y disear unainfraestructura de manejo de Data, que implique la integracin de diferentes yvariadas fuentes de datos. Por lo tanto, estos procesos, representan uno de lospilares fundamentales, tanto en simples proyectos de recopilacin de informacincomo en soluciones complejas de BigData; sobre todo si se requiere muchaprecisin o una continua actualizacin en los datos a procesar.

    Aunque son transparentes para los usuarios, son los responsables de recopilar lainformacin de las distintas fuentes de origen y de adaptarla, de limpiarla y deintegrarla en cualquier tipo de repositorio digital: un data mart, una base deconocimiento, etc. Por lo tanto, los procesos ETL son los responsables derecopilar los datos y hacer posible que el conocimiento que encierran los datos,pueda ser presentado mediante distintas herramientas de anlisis y reporting.

  • 7/25/2019 ETL (Tarea #1 Bases de Datos) Eduardo Loaiza Mata, 2011017835

    3/7

    Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en TelemticaEstudiante: Eduardo Loaiza Mata.Profesor: Ing. Henry Jimnez Marchena.

    Para que su operativa sea ms ptima, deben ser los propios crawlers (robots)que recopilan la informacin, los responsables de complementar y enriquecer cadadato, asocindole los metadatos que le corresponden (fecha de carga, fuente,fiabilidad del dato, frecuencia de refresco, significado, relaciones, sentimiento, etc.)y que permiten su posterior procesado y recuperacin.

    Las fases de los procesos ETL:

    Extraccin: Es la fase inicial y consiste en obtener los datos de las fuentesde origen, realizando los volcados de forma completa o incremental.Habitualmente y con el objetivo de evitar saturaciones en las plataformas deservidores de las organizaciones, se suele implementar repositoriosintermedios, conocidos como ODS (Operational Data Store), que actancomo pasarelas entre los sistemas de las fuentes de datos y los sistemasde destino de la informacin.

    Transformacin: Cuando los datos proceden de distintas fuentes de

    repositorios digitales, lo normal es que no coincidan en formato, lo que seconoce como datos NoSQL distintos. Por este motivo resulta imprescindiblerealizar una serie de procesos de transformacin para evitar duplicidadesinnecesarias o impedir que se establezcan islas de datos que no tienenconexin entre ellas. En esta fase se aplican una serie de reglas de negocio(o funciones) sobre los datos extrados para convertirlos en datos con unaestructura lgica comn para su procesamiento y anlisis posterior.

    Carga: Esta ltima fase consiste en introducir los datos, ya estructurados(transformados) en base al formato deseado, dentro del sistema destinodonde sern procesados y analizados. A la hora de realizar esta carga en elrepositorio final se puede apostar por dos frmulas: (i) sobre-escribir la

    informacin preexistente o (ii) establecer unos ndices de historial decambios, para realizar consultas retrospectivas

    A la hora de lanzarse esta ltima fase, en situaciones de que sea necesariorealizar una carga masiva de datos, resulta casi imprescindible desactivartemporalmente la integridad referencial de la base de datos destino, con lo que sedeben contemplar subprocesos que garanticen la integridad final de dichorepositorio.

    Qu sistemas se pueden integrar en un proceso ETL?

    Los procesos ETL pueden incluir: Sistemas legacy. Es decir, legados, heredados o antiguos.

    Sistemas nuevos. Basados en Windows, Linux y tambin en las redessociales modernas: Facebook, Twitter, LinkedIn, etc.

    Los sistemas legacy o heredadosse caracterizan, generalmente, por: sercerrados, no permitir cambios y tener un difcil acceso (normalmente se necesita

  • 7/25/2019 ETL (Tarea #1 Bases de Datos) Eduardo Loaiza Mata, 2011017835

    4/7

    Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en TelemticaEstudiante: Eduardo Loaiza Mata.Profesor: Ing. Henry Jimnez Marchena.

    algn tipo de driverespecial). Son sistemas que procesan hacia dentro y, por lotanto, no permiten la agregacin de una computadora que trabaje en paralelo.

    Por el contrario, los sistemas nuevos o modernos (basados en Windows oLinux) son abiertos, amplios e interconectados. Un ejemplo lo constituira una

    granja de servidores Linux, la cual permite la interconexin de los distintosnodos entre s.

    Beneficios de los procesos ETL:

    A cualquier empresa u organizacin le beneficia poner en marcha un proceso ETLpara mover y transformar los datos que maneja por los siguientes motivos:

    Poder crear una Master Data Managemen t, es decir, un repositorio centralestandarizado de todos los datos de la organizacin. Por ejemplo, si tenemosun objeto cliente en una base de datos de crditos y otro objeto cliente en labase de datos de tarjetas de crdito, lo que hara el Mastersera definir, deforma concreta e inequvoca, un registro cliente nico con su nombre yapellidos para la organizacin.

    Posibilita a los directivos tomar decisiones estratgicasbasadas en elanlisis de los datos cargados en las bases nuevas y actualizadas: la dayamart o data warehouse.

    Sirve para integrar sistemas. Las organizaciones crecen de forma orgnica ycada vez se van agregando ms fuentes de datos. Esto provoca que comiencea surgir nuevas necesidades, como por ejemplo integrar los datos de

    un banking on line con los datos antiguos de un sistema legacy.

    Poder tener una visin global de todos los datos consolidados en una datawarehouse. Por ejemplo, crear una estrategia de marketing basndose en elanlisis de los datos anteriores.

    En sntesis, ETL son todas las actividades necesarias relacionadas a laadministracin de datos y metadatos para satisfacer las necesidades deinformacin".

  • 7/25/2019 ETL (Tarea #1 Bases de Datos) Eduardo Loaiza Mata, 2011017835

    5/7

    Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en TelemticaEstudiante: Eduardo Loaiza Mata.Profesor: Ing. Henry Jimnez Marchena.

    La arquitectura ETL debiera pensarse como un servicio independiente a lapresentacin y consulta de datos, es decir, dedicar hardware y software para estoy en la implementacin seguir las mejores prcticas recomendadas por cadavendedor y aquellas que la experiencia indican.

    El proceso de ETL, desde el punto de vista tecnolgico es un FCE (Factor Crticode xito) de una solucin BI, permite automatizar y simplificar procesos muchasveces complejos o demandantes en tiempo, sobre todo de mantencin de lassoluciones. La mayora de los proyectos de data warehousing incorporan procesosde ETL, es comn ver en ms del 80% de estos proyectos un tem para ETL; no

    as los sistemas operacionales los cuales an prevalece el movimiento de datospor cdigo o a travs de las mismas aplicaciones.

    Adems, el proceso ETL no es percibido desde el punto de vista usuario final delos sistemas de informacin (salvo en determinados casos de minera de datos oanlisis especfico), sin embargo, los usuarios tienen una participacin importanteen la concepcin y el desarrollo de stos procesos. Es el negocio el que planteasus necesidades de informacin y los requerimientos iniciales del sistema.Esto plantea dos requisitos importantes en los datos que deben ser cumplidos porel proceso ETL:

    -Las necesidades de informacin determinan las fuentes de los datos y dicendnde se deben buscar, recolectar, transformar e integrar los datos.

    - Las necesidades de informacin determinan el diseo de la base de datosanaltica, es decir, el repositorio de los datos que el proceso de ETL se encargarde integrar y traspasar los datos para lograr el objetivo de la solucin final.

    Para cumplir con estos objetivos se indica lo que se espera cuando el sistema est

    Poderosos algoritmos yprocesos que extraen datosdesde algn recurso y setransforma en determinadoformato y base de datosesco ido.

  • 7/25/2019 ETL (Tarea #1 Bases de Datos) Eduardo Loaiza Mata, 2011017835

    6/7

    Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en TelemticaEstudiante: Eduardo Loaiza Mata.Profesor: Ing. Henry Jimnez Marchena.

    terminado (alcance), las expectativas (funcionalidades), lo que existe y cmo segenera actualmente y esto sirve de input para la definicin de las fuentes ydestinos de datos.

    Lgicamente el diseo de una base de datos analtica no se debe acotar a una

    necesidad particular, se dise de tal forma de hacerla flexible de incorporarnuevos elementos al modelo, para eso se crean dimensiones que permitenanalizar diversas problemticas de negocio.

    Por eso es bueno hablar de la Estrategia ETLque debe tomar en cuenta fuentesy destinos de datos; ventanas de disponibilidad de las bases de datos; rendimientode los motores operacionales de informacin y motor del servidor ETL para elegirdnde realizar las operaciones y sacar el mximo provecho al rendimiento.

    Al igual que en casos anteriores, muchas bases de datos del mercado incluyenfuncionalidades o mdulos de ETL. Algunas aplicaciones especficas de ETL son:

    Talend.

    Kettle.

    WebFocus - iWay Data Migrator Server.

    BO Data Integrator.

    Barracuda SW Integrator.

    Cognos Decisionstream.Conclusiones:

    Proceso ETL: un sistema efectivo, pero con retos y cuestiones a resolver

    Como hemos visto, los procesos ETL son muy tiles y beneficiosos para lasorganizaciones por su capacidad para integrar grandes bases de datos,logrando as una visin nica global que permite, a los analistas y directivos,tomar las decisiones estratgicas adecuadas.

    La implantacin de un sistema ETL bien definido supone todo un reto puesto que,para que sea realmente efectivo, debe permitir integrar lossistemas legacy (algunos ya muy obsoletos) con los ms modernos. Adems, elacceso a todos estos sistemas se debe producir no solo en modo de lectura, sinotambin como escritura.

  • 7/25/2019 ETL (Tarea #1 Bases de Datos) Eduardo Loaiza Mata, 2011017835

    7/7

    Tarea #1, Curso: Bases de datos. Cdigo: BIT-29. Carrera: Ingeniera en TelemticaEstudiante: Eduardo Loaiza Mata.Profesor: Ing. Henry Jimnez Marchena.

    Bibliografa:

    http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312584/Procesos-ETL-Definici-n-Caracter-sticas-Beneficios-y-Retos

    http://analisisbi.blogspot.com/2009/10/sistemas-etl.html

    Betts, Mitch. "The future of business intelligence". Computerworld.

    http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312584/Procesos-ETL-Definici-n-Caracter-sticas-Beneficios-y-Retoshttp://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312584/Procesos-ETL-Definici-n-Caracter-sticas-Beneficios-y-Retoshttp://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312584/Procesos-ETL-Definici-n-Caracter-sticas-Beneficios-y-Retoshttp://analisisbi.blogspot.com/2009/10/sistemas-etl.htmlhttp://analisisbi.blogspot.com/2009/10/sistemas-etl.htmlhttp://analisisbi.blogspot.com/2009/10/sistemas-etl.htmlhttp://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312584/Procesos-ETL-Definici-n-Caracter-sticas-Beneficios-y-Retoshttp://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312584/Procesos-ETL-Definici-n-Caracter-sticas-Beneficios-y-Retos