Post on 22-Jan-2016
Manipulación de datos con Kettle
Ing. Marcos PierriSIU-Datawarehouse
dw@siu.edu.ar
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 1
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 2
¿Qué es Kettle?
¿Para qué sirve?
Principales
características
Instalación
Ejemplos de uso - DEMO
Contenido
Herramienta de ETL (extracción, transformación y carga) Open Source.
Creado por Matt Casters - @mattcasters
Adquirido por Pentaho en 2006. Actualmente se llama Pentaho Data Integration (PDI).
Desarrollado integramente en Java.
Licencia GNU LGPL.
Última versión estable 4.1.0 (30-11-2010).
Versión en desarrollo 4.2.0-RC1 (01-07-2011).
¿Qué es Kettle?
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 3
Integración de datos
Carga de datawarehouses y datamarts
Limpieza de datos (data cleansing)
Análisis y perfilado de datos (data profiling)
Migración de datos entre Bases de datos
Exportar datos de Bases de datos a archivos planos
Etc, etc ...
¿Para qué sirve?
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 4
GUI muy avanzada.
Soporte para gran cantidad de fuentes de información.
Basado en dos tipos de objetos diferentes:
Transformaciones
Trabajos
Las T&T utilizan un lenguaje descriptivo (XML).
Cuenta con herramientas y utilidades para crear,
administrar y ejecutar T&T.
Permite extender las funcionalidad mediante el desarrollo
de Plugins propios.
Principales características
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 5
GUI muy avanzada
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 6
Fuentes de información
ExcelBases de datos (+40):- PostgreSQL- MySql- Informix- dBase III, IV o 5- Firebird SQL- IBM DB2- MS SQL Server- MS Access- Oracle- SAP ERP System- Teradata- LucidDB- Hypersonic- Apache Derby- etc, etc ...
Xml Txt / CSV RSS
Salesforce Google Analytics
Web services
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 7
Transformaciones
Orientación a los Datos. Representa una tarea ETL.
Es una colección de “pasos”. Cada paso es una operación particular sobre datos.
Los “pasos” se conectan entre sí a través de “saltos”, que indica cual será el flujo de los datos.
Los “pasos” trabajan de manera simultánea y asincrónica.
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 8
Trabajos
Orientación a la Tarea y a los Datos.
Usualmente un Trabajo se compone de una o más Transformaciones/Trabajos, que serán ejecutadas secuencialmente.
La ejecución de cada “Entrada de Trabajo” presenta una salida de status, que puede ser analizada para la realización de diferentes acciones.
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 9
Spoon: IDE gráfico para crear T&T.
Kitchen: herramienta de línea de comandos para ejecutar Trabajos.
Pan: herramienta de línea de comandos para ejecutar Transformaciones.
Carte: servidor liviano para ejecutar T&T en host remotos.
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 10
Herramientas y utilidades para crear, administrar y ejecutar T&T
Pre-requisitos
- JRE (o JDK) 5.x o superior.
Descarga
- http://sourceforge.net/projects/pentaho/files/ - Carpeta “Data Integration” - Versión 4.1.0 – 106.5 MB - Versión 4.2.0-RC1 – 225.3 MB
Instalación
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 11
Después de descomprimir el archivo
- Ejecutar spoon.sh (Linux) o spoon.bat (Windows)
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 12
Pantalla de Bienvenida
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 13
Ejemplos de uso - DEMO
Los ejemplos fueron extraidos del libro Pentaho Data Integration 4 Cookbook – María C. Roldán. (http://www.packtpub.com/support)
01 - leer un archivo txt.
02 - escribir un archivo txt.
03 - leyendo un archivo simple XML.
04 - leyendo un archivo excel.
05 - generando datos de ejemplo para testeo.
06 - cargando datos desde txt en una base postgresql.
07 - leyendo datos desde una base postgresql y exportarlos a un txt.
08 - programando una funcionalidad a medida.
09 - enviando e-mails con archivos adjuntos.
10 - copiando o moviendo uno a más archivos.
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 14
Libros - Información
Wiki SIU Pentaho: http://repositorio.siu.edu.ar/trac/dw_pentaho/wiki/WikiStartForo SIU Comunidad: http://comunidad.siu.edu.ar/index.php?board=49.0---------------------------------------------------------------------------------------------------------------Sitio de PDI - Kettle: http://kettle.pentaho.com/Foros Pentaho: http://forums.pentaho.com/
Pentaho Solutions - Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-48432-6 Pentaho 3.2 Data Integration: Beginner's Guide - María Carina Roldán - Packt Publishing - ISBN:1847199542 Pentaho Kettle Solutions - Matt Casters, Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-63517-9 Pentaho Data Integration 4 Cookbook - Adrián Sergio Pulvirenti, María Carina Roldán - Pack Publishing - ISBN: 978-1-84951-524-5
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 15
¿Preguntas?¿Preguntas?
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 16
Más información:www.siu.edu.ardw@siu.edu.ar
Muchas Gracias!!!
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 17