Datastage Workshop

43
IBM WebSphere DataStage

Transcript of Datastage Workshop

Page 1: Datastage Workshop

IBM WebSphere DataStage

Page 2: Datastage Workshop

AGENDA

• Datastage• Flow• Architecture• Roles• Componentes• Capas MetaData y Metastage• Flow• Datastage Manager• Datastage Administrator• Datastage Designer• Introducción a IBM WebSphere DataStage Director

– Ingresar a la Herramienta– Principales Componentes– Funciones Básicas– Agendar Procesos– Monitorear Ejecuciones– Depuración de Errores de Ejecución– Recuperación de Errores de Ejecución

Page 3: Datastage Workshop

DataStage ~ Introduccion

DataStage DataStage

Inputs

Transform

Quality

Output

DataStage Server

Multiple Jobs in Parallel

Targ

et S

ystem

s

So

urce S

ystem

s

VERSION ENTERPRISE : todas las funciones

VERSION STANDARD :( Instalada en region Andina) No incluye funcionalidades de Quality Stage, Output y Multiple Jobs in Paralell

DataStage es la herramienta paraDiseñar y construir procesos para la transformación y movimiento de datos es el proceso por el cual los datos se extraen de la fuente, se transforman y cargan al formato requerido por los sistemas específicos. Extract-Transform-Load (ETL) . El proceso de manipula los datos para ponerla en conformidad con las empresas, el dominio y las normas de integridad y con otros datos en el entorno de destino.

Page 4: Datastage Workshop

DataStage ~ FLow

DataStage ~ Introduccion

Page 5: Datastage Workshop

DataStage ~ Architecture

Page 6: Datastage Workshop

DataStage ~ Administrator Client- Roles

DataStage Developer, who has full access to all areas of a DataStage project (except for protected projects).

DataStage Production Manager, who has full access to all areas of a DataStage project, and can also create and manipulate protected projects. DataStage Operator, who has permission to run and manage DataStage jobs.

DataStage Super Operator, who has permission to run and manage DataStage jobs, and to view items in the Designer (although not to edit them).

Page 7: Datastage Workshop

DataStage ~ Client Components

WebSphere DataStage y QualityStage Administrador proporciona herramientas para la gestión general y de proyectos relacionados con tareas tales como tiempo de espera del servidor y las asignaciones de NLS.

El WebSphere DataStage y QualityStage Director es el componente de cliente que valida, corridas, schedules, y los monitoreos de los jobs que se ejecutan por el servidor de WebSphere DataStage

El WebSphere DataStage y QualityStage Designer le ayuda a crear, administrar y jobs de diseño. También puede utilizar el cliente de diseño para definir las tablas y los servicios de acceso a los metadatos.

DataStage Manager , interface para visualizar, editar y exportar/importar la metadata de los proyectos Datastage in el repository con Datastage server

Page 8: Datastage Workshop

• Manager:includio en el Designer• Managing the Repository • Managing Tables • Built-in- Data Elements • Built-in-Functions • Custom Routines • Managing Job Properties • Managing Shared Containers • Importing and Exporting Jobs • Package Creation

• Administrator: • Project General Properties • Project Permissions • Project Tracing • Project Tunable • Project Sequences

IBM teamsite:

http://publib.boulder.ibm.com/infocenter/iisinfsv/v8r0/index.jsp?topic=/com.ibm.swg.im.iis.found.admin.common.doc/topics/r_admin_ds_library.html

http://publib.boulder.ibm.com/infocenter/iisinfsv/v8r0/index.jsp?topic=/com.ibm.swg.im.iis.productization.iisinfsv.overview.doc/topics/cisodsoverview.html

http://www-01.ibm.com/software/data/infosphere/datastage

DataStage ~ Client Components - Operations

Designer •Job Design Flow •Create a Job •Table Definition •Adding Stages •Palette for Stages •Stage Types •Adding Links •Grouping Stages & Links •Compiling & Running Jobs •Debugging •Naming Constraints •Job Properties •Job Sequences •Programming in DataStage

Director:•Jobs States and Status •Job Options •Job Scheduling •Job Resources •Monitoring Jobs •Job Log

Page 9: Datastage Workshop

Capas MetaStage y Metadata

MetadataLa información descriptiva que define los datos de Kraft, fuentes de datos, los datos de los productores, los consumidores de información, informes de gestión y el proceso de integración de datos. Los metadatos deben existir para todos los proveedores de datos, todos los consumidores de datos, todos los servicios y el proceso que afecta a los datos y las entidades orgánicas que definen y enriquecen.El enlace que une a diferentes fuentes de datos y permite la integración y la agregación de la inteligencia empresarial La gestión de metadatosDespués de importar los metadatos en el repositorio de metadatos, es posible que desee añadir o modificar la información acerca de los metadatos como la descripción de una tabla. Usted también puede agregar información com o contactos, políticas y términos a los esquemas importados, directorios, tablas, archivos, y campos de datos. MetaStageProporciona integración de metadatos para todos los productos utilizados en el ciclo de integración de datos:

Modelado de datos / Herramientas de CasosLas aplicaciones de Business IntelligenceBases de datos y almacenes de datosEnterprise ApplicationsEmpresa de integración de datos Suites

Ofrece el análisis comparativo del impacto de la herramienta y el conjunto de datos de informes y la documentación

Capacidad para gestionar negocios glosarios, vocabularios y términos.Bi-direccional y el intercambio de metadatos a través de la reutilización de MetaBrokers

Page 10: Datastage Workshop

Datastage – Project Import- Flow

Page 11: Datastage Workshop

• Module: Working with Relational Data

– Import Table Definitions for relational– tables. – Create Data Connections. – Use Connector stages in a job. – Use SQL Builder to define– SQL Select statements. – Use SQL Builder to define SQL Insert– and Update statements. – Use the DB2 Enterprise stage.

• Module: Metadata in Parallel Framework:

– Explain schemas. – Create schemas. – Explain Runtime Column– Propagation (RCP). – Build a job that reads data from a– sequential file using a schema. – Build a shared container.

• Module: Job Control:– Use the DataStage Job Sequencer to– build a job that controls a sequence– of jobs. – Use Sequencer links and stages to– control the sequence a set of jobs– run in. – Use Sequencer triggers and stages– to control the conditions under which– jobs run. – Pass information in job parameters– from the master controlling job to the– controlled jobs. – Define user variables. – Enable restart. – Handle errors and exceptions.

• Module: Platform Architecture– Describe parallel processing– architecture Describe pipeline &– partition parallelism – List and describe partitioning– and collecting algorithms – Describe configuration files – Explain OSH & Score

• Module: Combining Data– Combine data using the Lookup stage – Combine data using merge stage – Combine data using the Join stage – Combine data using the Funnel stage

• Module: Sorting and Aggregating Data– Sort data using in-stage sorts– and Sort stage – Combine data using Aggregator stage – Remove Duplicates stage

• Module: Transforming Data– Understand ways DataStage– allows you to transform data – Create column derivations using user– defined code and system functions – Filter records based on– business criteria – Control data flow based on data– conditions

• Module: Repository Functions– Perform a simple Find – Perform an Advanced Find– Perform an impact analysis – Compare the differences between– two Table Definitions and Jobs.

Datastage – Activities and Functionalities

Module: Introduction DataStage Architecture. DataStage Clients Designer Director Administrator DataStage Workflow

Module: Types of DataStage Job Parallel Jobs Server Jobs Job Sequences Setting up DataStage Environment DataStage Administrator Properties Defining Environment Variables Importing Table Definitions

Module: Creating Parallel Jobs Design a simple Parallel job in Designer Compile your job Run your job in Director View the job log Command Line Interface (dsjob)

Module: Accessing Sequential Data Sequential File stage Data Set stage Complex Flat File stage Create jobs that read from and write to sequential files Read from multiple files using file patterns Use multiple readers Null handling in Sequential File Stage

Page 12: Datastage Workshop

Introducción a IBM WebSphere DataStage MANAGER

IBM WebSphere DataStage MANAGER

interfaz de usuario usada para visualizar y editar el contenido del repositorio.

Se utiliza para almacenar y gestionar metadatos útiles para los jobs ..  Se utiliza para impotarcion y exportación de componentes de archivo sistema de proyectos Datastage .interface Primaria al repositorio DataStage   Rutinas personalizadas y se transforma también puede ser creado en el Administrador

Page 13: Datastage Workshop

Figure 1. Defining a project

Figure 1. Creating an application

DATASTAGE MANAGER - Functions

Page 14: Datastage Workshop

Introducción a IBM WebSphere DataStage ADMINISTRADORIBM WebSphere DataStage MANAGER

interfaz de usuario usada para visualizar y editar el contenido del repositorio.

DataStage mayoría de las tareas de configuración se realiza mediante la DataStage administrador, un programa cliente de disponer de DataStage ..  Para acceder al Administrador de DataStage::1 .. Desde la carpeta de l DataStage programa, elija DataStage Administrador.2 .. Inicie sesión en el servidor. Si lo hace como un administrador (para Servidores de Windows NT), o como dsadm (para servidores UNIX), usted tiene derechos ilimitados de administración, de lo contrario sus derechos están restringidoscomo se describe en la sección anterior.3 .. La ventana de Administración DataStage aparece: La página General le permite configurar las propiedades del servidor de ancho. Se activa sólo cuando al menos un proyecto existe. Los controles y butons en esta página habilitadas solamente si se inicia sesión como

administrador

Page 15: Datastage Workshop

DATASTAGE ADMINISTRATOR Metadata Flow

Figure 1. MetaBrokers convert metadata to hub model MetaBrokers convertir los metadatos de un formato a otro mediante la asignación de los elementos de un modelo estándar llamado el modelo de hhub. Los metadatos seleccionado se importados y almacenados en el repositorio. El intercambio de metadatos permite la descomposición y la recomposición de los metadatos en simples unidades de significado.

Page 16: Datastage Workshop

Introducción a IBM WebSphere DataStage DESIGNER

IBM WebSphere DataStage Designer usada para crear, diseñar y compilar tareas Datastage (pero

también permite testear y ejecutar). Mayormente usado por los desarrolladores.

Diseñador DataStage usado para:_ Crear DataStage tthat Empleo se compilan enprogramas ejecutables .

_ los jobs extraen, integran, agregadas,cargan, y transforman datos _ Crear y reutilizar los componentes de los metadatos y job_ Permite el uso gráfica familiar de técnicas para desarrollar procesos para la extracción, cleansing, transformación, integración dey la carga de datos ..

Page 17: Datastage Workshop

Figure 1. Table Definitions window Usted puede importar, crear y editar las definiciones de tabla de muchas fuentes (por ejemplo, una fuente de definiciones de tabla son los metadatos de WebSphere Information Analyzer). Al editar o ver un cuadro, las definiciones de la ventana se abre el cuadro,

                                                                                           

DATASTAGE DESIGNER - Flow

Figure 2. Job difference reportUna opción en el WebSphere DataStage y el Diseñador de QualityStage muestra las diferencias entre los puestos de trabajo o las definiciones expuestas en un contexto de WebSphere DataStage. La figura 2 muestra un informe de texto con vínculos con el editor correspondiente en el cliente de diseño. También puede ver las diferencias en los subgrupos de puestos de trabajo, tales como contenedores compartidos y rutinas. Este informe, opcionalmente, se pueden guardar como un archivo XML.

Page 18: Datastage Workshop

Figure 3. Choosing a job typeusted elige el tipo de job para crear y cómo crear

Figure 4. Simple WebSphere DataStage jobmuestra el más básico job WebSphere DataStage, de tres etapas:- Etapa de datasource.Fuente de datos (de entrada) -Etapa deTransformación (procesamiento) - Etapa Target (salida)

DATASTAGE DESIGNER - Flow

Page 19: Datastage Workshop

DATA SOURCE

DataStage ™ job Binding le permite vincular manualmente la salida de un job ® WebSphere DataStage a la entrada de otro job WebSphere DataStage.Origen de datos de identidad le permite identificar manualmente las bases de datos duplicados y esquemas

TARGETWebSphere DataStage ® ® realiza la transformación de datos y el movimiento de los sistemas de origen a destino en los sistemas de proceso por lotes y en tiempo real.Las fuentes de datos pueden incluir archivos indexados, los archivos secuenciales, bases de datos relacionales, archivos, fuentes de datos externas, aplicaciones empresariales, y las colas de mensajesWebSphere DataStage también puede tratar el datawarehouse como el sistema de fuente que alimenta un datamart como el sistema de destino, por lo general localizadas, los territorios subconjunto de datos que, como clientes, productos y geográficos

DATASTAGE DESIGNER - Concepts

TRANSFORMACIONAgregaciónO resumen de la consolidación de los valores de datos en un solo valor. Recogida diaria de datos de ventas para ser agregado al nivel de la semana es un ejemplo común de agregación.Conversión de baseAsegurarse de que los tipos de datos están correctamente convertidos y se asigna desde el origen al destino columnas.LimpiezaResolver las incoherencias y se fijan las anomalías en los datos de origen.DerivaciónLa transformación de datos de múltiples fuentes por medio de un algoritmo.EnriquecimientoLa combinación de datos procedentes de fuentes internas o externas para proporcionar un significado adicional a los datos.NormalizarReducir la cantidad de datos redundantes y potencialmente duplicados.PivotanteConversión de registros en un flujo de entrada con varios registros de la tabla correspondiente en el data warehouse o data mart.ClasificaciónSecuenciación de los datos basados en los datos o valores de cadena.

Page 20: Datastage Workshop

Figure 5. More complex WebSphere DataStage job los jobs puede ser tan sofisticado como exige la integración de datos de su empresa necesita Figure 6. Tool palette

Cada fuente de datos y cada paso del proceso es una etapa en el diseño de puestos de trabajo. Las etapas están vinculadas para mostrar el flujo de datos. Arrastrar y soltar las etapas de la paleta de herramientas a la lona. Esta paleta contiene los iconos de las etapas y los grupos que se pueden personalizar para organizar las etapas,

DATASTAGE DESIGNER

Page 21: Datastage Workshop

Using Rational Data Architect to map source tables to a target table

DATASTAGE DESIGNER

Page 22: Datastage Workshop

Icon Stage Description

Transformer stage Performs any required conversions on an input data set, and then passes the data to another processing stage or to a stage that writes data to a target database or file.

Sort stage Performs complex high-speed sort operations.

Aggregator stage Classifies data rows from a single input data set into groups and computes totals or aggregations for each group.

Complex Flat File stage Extracts data from a flat file containing complex data structures, such as arrays or groups.

DB2 stage Reads data from or writes data to IBM DB2®.

Ejemplos de etapas en Datastage : Cada etapa tiene características que le indican cómo realizar o procesar datos. Propiedades podría incluir el nombre de archivo para la etapa de archivo secuencial, las columnas para ordenar, las transformaciones a realizar, y el nombre de la tabla de base de datos para la fase de DB2.

DATASTAGE DESIGNER

Page 23: Datastage Workshop

EXPORTANDO UNA APLICACION

Figure 1. Inputs and outputs are determined by the job definition

Figure 1. Exporting an application

Page 24: Datastage Workshop

Introducción a IBM WebSphere DataStage Director

IBM WebSphere DataStage Director es una herramienta utilizada principalmente

para validar, calendarizar, testear, ejecutar y monitorear Jobs de DataStage.

Usado por los operadores y los testers.

Page 25: Datastage Workshop

DATASTAGE INGRESAR A LA HERRAMIENTA

Page 26: Datastage Workshop

Servidor al cual se desea conectar

Se debe seleccionar el proyecto

Usuario y Contraseña

DATASTAGE INGRESAR A LA HERRAMIENTA

Page 27: Datastage Workshop

Repositorio de Jobs y Secuencias

Lista de Jobs y Secuencias

Status de Jobs y Secuencias

DATASTAGE DIRECTOR

Page 28: Datastage Workshop

Última Fecha de Ejecución

Tiempo de Duración

DATASTAGE DIRECTOR

Page 29: Datastage Workshop

Funciones Básicas

Page 30: Datastage Workshop

Ejecutar ProcesoParar ejecución de

Un Proceso

Reestablecer Un Proceso

FUNCIONES BÁSICAS

Log de ejecución

DATASTAGE DIRECTOR

Page 31: Datastage Workshop

Agendar Procesos

Page 32: Datastage Workshop

Agendar Ejecución deUn procesoAGENDAR PROCESOS

Lista de procesos a agendar

DATASTAGE DIRECTOR

Page 33: Datastage Workshop

Seleccionar opción Para agendar proceso

Frecuencia de Ejecución

Días de Ejecución

Hora de Ejecución

AGENDAR PROCESOS

Page 34: Datastage Workshop

Parámetros de Ejecución

Modificar ejecución agendada

AGENDAR PROCESOS

Page 35: Datastage Workshop

Monitorear Ejecuciones

Page 36: Datastage Workshop

MONITOREAR EJECUCIONES

Función Ejecutar

Parámetros de Ejecución

Page 37: Datastage Workshop

El Status cambia a“RUNNING”

Seleccionar“Monitor”

MONITOREAR EJECUCIONES

Page 38: Datastage Workshop

MONITOREAR EJECUCIONES

Nombre del Stage Status del StageNúmero de Registros

procesados

Page 39: Datastage Workshop

Depuración de Errores de Ejecución

Page 40: Datastage Workshop

DEPURACIÓN DE ERRORESStatus de Ejecución

“Aborted”

Seleccionar FunciónVer Log

Page 41: Datastage Workshop

DEPURACIÓN DE ERRORESRegistro de Error

Detalle del Evento

Page 42: Datastage Workshop

Recuperación de Errores de Ejecución

Page 43: Datastage Workshop

RECUPERACIÓN DE ERRORES Seleccionar FunciónReiniciar

El Status cambia a“has been reset”