Datawarehouse1

102
LOGO Alumnos: Jeri Sandoval, Roberto Rosales Buiza John Segovia Herrera Néstor Robles Rodriguez Isaac 26/06/22 1 Administración de las Tecnologías de la Información FACULTAD DE INGENIERÍA INDUSTRIAL Y DE SISTEMAS Data Warehouse

description

 

Transcript of Datawarehouse1

Page 1: Datawarehouse1

LOGO

Alumnos:

• Jeri Sandoval, Roberto• Rosales Buiza John• Segovia Herrera Néstor• Robles Rodriguez Isaac

10/04/23 1 Administración de las Tecnologías de la Información

FACULTAD DE INGENIERÍA INDUSTRIAL Y DE SISTEMAS

Data Warehouse

Page 2: Datawarehouse1

Definiciones de Data Warehouse

Un Data Warehouse es un conjunto integrado de bases de datos, con orientación temática, que están diseñados para el apoyo a la Toma de Decisiones, y donde cada unidad de datos es relevante en algún momento del tiempo

Bill H. Inmon "una copia de las transacciones de datos específicamente

estructurada para la consulta y el análisis“ o"la unión de todos los Data marts de una entidad“

Ralph Kimball “Yo considero al DW como algo que provee dos beneficios

empresariales reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico”

Susan Osterfeldt

10/04/23 2 Administración de las Tecnologías de la Información

Page 3: Datawarehouse1

Objetivos

Hacer la información de la organización accesible

Hacer a la información de la organización consistente

Controlar el acceso efectivo a los datos Generar información de manera flexible Servir de ayuda a la toma de decisiones

10/04/23 3 Administración de las Tecnologías de la Información

Page 4: Datawarehouse1

En resumen

Un Data Warehouse tiene como objetivo almacenar y proveer a la Organización de información relevante y a tiempo

10/04/23 4 Administración de las Tecnologías de la Información

Page 5: Datawarehouse1

Importancia del Data Warehouse

Mejorar la Entrega de Información:. Mejorar el Proceso de Toma de Decisiones Impacto Positivo sobre los Procesos

Empresariales

10/04/23 5 Administración de las Tecnologías de la Información

Page 6: Datawarehouse1

A pensar antes de implementar un Data Warehouse

La amplitud; el número de diferentes temas y puntos de foco

Fuentes que proveerán datos brutos. Los medios por los cuales los datos se transportan de las

aplicaciones fuente y son cargados al Data Warehouse. Las reglas de negocio que se aplican a la data en bruto

para producir activos de datos de alta calidad. Las bases de datos receptoras, en la que estos activos

de datos serán almacenados. Los activos de datos; los elementos, el nivel de detalle de

cada elemento, y cuánta historia se ha mantenido, por ejemplo.

La Inteligencia de negocio Herramientas de nivel usuario para acceder a los activos

de datos. La arquitectura y complejidad en general del entorno.

10/04/23 6 Administración de las Tecnologías de la Información

Page 7: Datawarehouse1

Empresas que usan DATA WAREHOUSE

Royal bank of canada Paypal 3M Coca-Cola Company Verizon Ford Motor Company Herramientas de nivel usuario para acceder a los

activos de datos. La arquitectura y complejidad en general del

entorno.

10/04/23 7 Administración de las Tecnologías de la Información

Page 8: Datawarehouse1

10/04/23 8 Administración de las Tecnologías de la Información

Page 9: Datawarehouse1

Productos (suites) de DATA WAREHOUSE y BI

IBM Cognos

http://www-01.ibm.com/software/data/cognos/ Teradata

http://www.teradata.com Oracle Hyperion

http://www.oracle.com/hyperion/index.html MicroStrategy

http://www.strategy.com SAS

http://www.sas.com

10/04/23 9 Administración de las Tecnologías de la Información

Page 10: Datawarehouse1

Características de un Data Warehouse

Orientado a un tema Administra grandes cantidades de información Guarda información en diversos medios de

almacenamiento Comprende múltiples versiones de uno (o

varios) esquema de base de datos Condensa y agrega información Integra y asocia información de muchas fuentes

10/04/23 10 Administración de las Tecnologías de la Información

Page 11: Datawarehouse1

Diferencias entre un sistema de Data Warehouse y aplicaciones tradicionales

SISTEMAS TRADICIONALES DATAWAREHOUSE

•Predomina la actualización.•Actividad operativa (día a día).•Proceso puntual.•Estabilidad.•Datos desagregados.•Dato actual.•Respuesta de la transacción inmediata.•Estructura relacional.•Usuarios de perfiles bajos.•Explotación de la información relacionada con operatividad de cada aplicación

•Predomina la consulta•Análisis y decisión estratégica.•Proceso masivo.•Dinamismo.•Niveles de detalle/agregación.•Dato histórico.•Respuesta masiva•Estructura Multidimensional•Usuarios de perfiles altos.•Explotación de información interna y externa relacionada con el negocio.

10/04/23 11 Administración de las Tecnologías de la Información

Page 12: Datawarehouse1

Metodologías de Diseño de Data Warehouse

Metodología de Inmon (Top – Bottom)

10/04/23 12 Administración de las Tecnologías de la Información

Page 13: Datawarehouse1

Metodología de Kimball (Bottom-up)

10/04/23 13 Administración de las Tecnologías de la Información

Page 14: Datawarehouse1

Metodología agil para la implementación de un dw

10/04/23 14 Administración de las Tecnologías de la Información

Page 15: Datawarehouse1

Page 15

Arquitectura de un Data Warehouse

10/04/23 15 Administración de las Tecnologías de la Información

Page 16: Datawarehouse1

Productionsystems

Other sources

CRM

Billing

Activationsystems

OtherDBs…

Files

ETL

DataWarehouse

OLAPcubes

BusinessUsers

Querying &Reporting

tools

Acquisition Storage /Archiving

Restitution

Datamarts

Flujo de Datos de un DW

10/04/23 16 Administración de las Tecnologías de la Información

Page 17: Datawarehouse1

Page 17

• Base de datos operacional / Nivel de base de datos externo.

• Nivel de acceso a los datos • Nivel de organización de datos• Nivel de data warehouse • Nivel de acceso a la información • Nivel de gestión de proceso

Arquitectura de un Data Warehouse

10/04/23 17 Administración de las Tecnologías de la Información

Page 18: Datawarehouse1

Page 18

Base de datos operacional / Nivel de base de datos externo (Fuentes de datos)

Los sistemas operacionales procesan datos para apoyar las necesidades operacionales críticas, tales como ERPs, SCMs, también se procesa información de fuentes de datos externas, tales como de la internet, INEI, BCRP.

Nivel de acceso a los datos Es responsable de la interfaces entre las herramientas

de acceso a la información y las bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final necesita para realizar estas interfases se utiliza el SQL (Standar Query Lenguaje)

Elementos de la Arq. De un DW

10/04/23 18 Administración de las Tecnologías de la Información

Page 19: Datawarehouse1

Page 19

Nivel de organización de datos El componente final de la arquitectura data Warehouse

es la organización de los datos, incluye todos los procesos necesarios como seleccionar, editar, resumir, combinar y cargar datos en el depósito y acceder a la información desde bases de datos operacionales y/o externas

Nivel de data warehouse En un data Warehouse físico, el almacenaje de data

procesada, incluso en forma redundante

Elementos de la Arq. De un DW

10/04/23 19 Administración de las Tecnologías de la Información

Page 20: Datawarehouse1

Page 20

Nivel de acceso a la información Este nivel se incluye el hardware y software

involucrados en representar y proveer de información al usuario final normalmente usa día a día. Por ejemplo: Excel, Lotus 1-2-3, Focus, Access, SAS, etc.

Nivel de gestión de proceso El nivel de gestión de procesos tiene que ver con la

programación de diversas tareas que deben realizarse para construir y mantener actualizado el data warehouse y la información del directorio de datos.

Elementos de la Arq. De un DW

10/04/23 20 Administración de las Tecnologías de la Información

Page 21: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

1 FACTORES EN LA PLANIFICACION DE UN DATA WAREHOUSE Establecer una asociación de usuarios, gestión y grupos Construir prototipos rápida y frecuentemente Implementación incremental Reportar activamente y publicar los casos exitosos

Adm

inistración de las Tecnologías de la Inform

ación

Fase 1: Organización

10/04/23 21

Page 22: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

2 ESTRATEGIAS PARA EL DESARROLLO DE UN DATA WAREHOUSE

Adm

inistración de las Tecnologías de la Inform

ación

¿Quién es el auditorio?

¿Cuál es el alcance?

¿Qué tipo de data warehouse debería construirse?

1ra.: Establecer un ambiente "data warehouse virtual“.

2da.: Construir una copia de los datos operacionales desde un sistema operacional único y posibilitar al data warehouse de una serie de herramientas de acceso a la información.

3ra.: Finalmente, la estrategia data warehousing óptima es seleccionar el número de usuarios basados en el valor de la empresa y hacer un análisis de sus puntos, preguntas y necesidades de acceso a datos.

10/04/23 22

Page 23: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

3 ESTRATEGIAS PARA EL DISEÑO DE UN DATA WAREHOUSE

1ra. : Los usuarios de los data warehouses usualmente no conocen mucho sobre sus requerimientos y necesidades como los usuarios operacionales.

2da.: El diseño de un data warehouse, con frecuencia involucra lo que se piensa en términos más amplios y con conceptos del negocio más difíciles de definir que en el diseño de un sistema operacional. Al respecto, un data warehouse está bastante cerca a Reingeniería de los Procesos del Negocio (Business Process Reengineering).

3ra.: Finalmente, la estrategia de diseño ideal para un data warehousing es generalmente de afuera hacia adentro (outside-in) a diferencia de arriba hacia abajo (top-down).

10/04/23 23

Page 24: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Adm

inistración de las Tecnologías de la Inform

ación

4 ESTRATEGIAS PARA LA GESTION DE UN DATA WAREHOUSE

1ra.: Un data warehouse es una inversión buena sólo si los usuarios finales realmente pueden conseguir información vital más rápida y más barata de lo que obtienen con la tecnología actual.

2da.: La administración debe reconocer que el mantenimiento de la estructura del data warehouse es tan crítico como el mantenimiento de cualquier otra aplicación de misión-crítica.

3ra.: La gestión debe comprender también que si se embarcan sobre un programa data warehousing, se crearán nuevas demandas sobre sus sistemas operacionales, que son:Demandas para mejorar datos Demandas para una data consistente Demandas para diferentes tipos de datos, etc.

10/04/23 24

Page 25: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

Se ha reconocido los beneficios del procesamiento analítico en línea (On Line Analytical Processing - OLAP), más allá de las áreas tradicionales de marketing y finanzas.

El crecimiento de la computación cliente/servidor, ha creado servidores de hardware y software más poderosos y sofisticados que nunca. Los servidores de hoy compiten con las mainframes de ayer y ofrecen arquitecturas de memoria tecnológicamente superiores, procesadores de alta velocidad y capacidades de almacenamiento masivas.

Fase 2: Desarrollo

1. ¿PORQUE CONSTRUIR BLOQUES DE DATA WAREHOUSE?

10/04/23 25

Page 26: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

2 CONSIDERACIONES PREVIAS AL DESARROLLO DE UN DATA WAREHOUSE

Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un número de dimensiones diferentes que necesitan ser consideradas:

Alcance de un data warehouse Redundancia de datos Tipo de usuario final

10/04/23 26

Page 27: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

3 ELEMENTOS CLAVES PARA EL DESARROLLO DE UN DATA WAREHOUSE

Si se escoge incorrectamente, el data warehouse se convierte en una gran empresa con problemas difíciles de trabajar en su entorno, costoso para arreglar y difícil de justificar.

Para conseguir que la implementación del depósito tenga un inicio exitoso, se necesita enfocar hacia tres bloques claves de construcción:

Arquitectura total del depósito Arquitecturas del servidor Sistemas de Gestión de Base de Dato

Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un número de dimensiones diferentes que necesitan ser consideradas:

Alcance de un data warehouse Redundancia de datos Tipo de usuario final

10/04/23 27

Page 28: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

4 CONFIABILIDAD DE LOS DATOS

La data "sucia" es peligrosa. Las herramientas de limpieza especializadas y las formas de programar de los clientes proporcionan redes de seguridad.

No importa cómo esté diseñado un programa o cuán hábilmente se use. Si se alimenta mala información, se obtendrá resultados incorrectos o falsos.

Desafortunadamente, los datos que se usan satisfactoriamente en las aplicaciones de línea comercial operacionales pueden ser basura en lo que concierne a la aplicación data warehousing

10/04/23 28

Page 29: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

5 FACTORES DECISIVOS PARA DECIDIR EL DESARROLLO DE UN DATA WAREHOUSE

La data sucia es un serio peligro para el éxito de un proyecto de data warehouse. Dependiendo del alcance del problema, simplemente podría no ser posible dirigirlo rápidamente y abaratarlo.Los principales factores son: - El tiempo que toma la programación interna - El costo de las herramientas

Los gerentes de proyectos de Data Warehouse necesitan evaluar el problema con realismo, los recursos internos disponibles para distribuirlos y seleccionar la solución que se adapte a la planilla y presupuesto del proyecto, o modificar la planilla y el presupuesto para solucionar el problema.

10/04/23 29

Page 30: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

Proyecto Total o Proyecto en Fases

Es más viable el desarrollo de un proyecto en fases que produzcan resultados a corto plazo que el desarrollo de un proyecto que entregue resultados al término de varios años. Por ello, el proyecto debe estar centrado en un área o un proceso.

Modelo lógico de datos

El modelo lógico de datos debe tener un alcance más alto y cubrir todas las áreas de interés, así como los procesos más estratégicos de cada una de ellas.

Proyecto Especializado o Proyecto Base

Decidir sobre qué tipo de proyecto, es algo complicado. Un proyecto especializado soporta directamente un proceso específico, por ejemplo: retención de clientes.

Un proyecto base entrega capacidad genérica de análisis a todos los usuarios que tengan acceso al data warehouse, pero no tiene, entre sus funcionalidades, la solución de un problema específico o el soporte especializado de un proceso específico.

FASE 3: IMPLEMENTACION

1 ELEMENTOS A CONSIDERAR EN LA IMPLEMENTACION

10/04/23 30

Page 31: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

2 ESTRATEGIAS PARA EL PROCESO DE IMPLEMENTACION

Identificar el problema en el cual el uso estratégico de la información detallada, permita conseguir una solución para generar una ventaja competitiva o un ahorro de costos.

Definir el modelo lógico de datos a implementar para resolver el problema planteado.

10/04/23 31

Page 32: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

3 ESTRATEGIAS EN LA IMPLEMENTACION Definir el mejor diseño físico para el modelo de datos. El diseño físico debe estar

orientado a generar buen rendimiento en el procesamiento de consultas, a diferencia del modelo lógico que está orientado al usuario y a la facilidad de consulta.

Definir los procesos de extracción, filtro, transformación de información y carga de datos que se deben implementar para poblar ese modelo de datos.

Definir los procesos de administración de la información que permanece en el data warehouse

Definir las formas de consultas a la información del data warehouse que se le proporcionará al usuario. Para ésto, debe considerarse la necesidad de resolver un problema y la potencia de consulta.

Completar el modelo de consulta base, relativo al área seleccionada. Implementar los procesos estratégicos del área de trabajo, es decir, implementar

herramientas especializadas de scoring, herramientas especializadas para inducción de conocimiento (Data Mining), etc.

Completar las áreas de interés, en forma similar a lo descrito anteriormente.

10/04/23 32

Page 33: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

¿Qué clases de costos excedieron el presupuesto en más del 10% en cada uno de los 12 meses pasados?

¿Se aumentaron los presupuestos en más de 5% para cualquier área dentro de los últimos 18 meses?

¿Cómo especificar las clases de gasto entre diferentes departamentos? ¿Entre divisiones? ¿A través de las regiones geográficas?

¿Cómo tener márgenes de operación sobre los dos últimos años en cada área de negocio? Donde han disminuido los márgenes, ¿se han incrementado los costos?

FASE 4: EVALUACION

1 EVALUACION DE RENDIMIENTO DE LA INVERSION

10/04/23 33

Page 34: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

CASO PRACTICO En un estudio encargado por 20 vendedores y consultores, se encontró un

Retorno Promedio Total de la inversión (Return On Investment-ROI) de 401%.También, se excluyeron los proyectos fracasados, así como los ejecutados excepcionalmente, tanto buenos como malos.

2.2 MillonesCosto promedio

2.3 AñosPeríodo de reembolso promedio

160%ROI mediano

533%ROI promedio del modelo complementario de datos

322%ROI promedio del proyecto más grande

401%ROI promedio total

CAMBIOS DE VALOR

10/04/23 34

Page 35: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

1.1 COSTOS Y BENEFICIOS

Costos preliminares Planificación Diseño Modelamiento /Ingeniería de

Información

Costos iniciales Plataforma de hardware Software de base de datos

Costos en procesamiento Mantenimiento de datos Desarrollo de aplicaciones Capacitación y soporte

Beneficios Tácticos Impresión y emisión de reporte

reducido Demanda reducida para consultas de

clientes - Entrega más rápida de información a los

usuarios

Beneficios Estratégicos (Potencialidad) Aplicaciones y herramientas de

acceso para los usuarios finales Decisiones con mayor información Toma de decisiones más rápida Capacidad de soporte a la

información organizacional

10/04/23 35

Page 36: Datawarehouse1

PROYECTO DE ELABORACION DE UN DATA WAREHOUSE

Administración de las Tecnologías de la Información

2 BENEFICIOS A OBTENER

Para la Empresa

El data warehouse hace lo posible por aprovechar el valor potencial enorme de los recursos de información de la empresa y volver ese valor potencial en valor verdadero.

Para los Usuarios

El data warehouse extiende el alcance de la información para que puedan accesar directamente en línea, lo que a la vez contribuye en su capacidad para operar con mayor efectividad las tareas rutinarias o no.

Para la Organización en Tecnologías de Información

El data warehouse enriquece las capacidades del usuario autosuficiente y hace lo factible para ofrecer nuevos servicios a los usuarios, sin interferir con las aplicaciones cotidianas de producción

10/04/23 36

Page 37: Datawarehouse1

Importante: El Modelo de Datos

Es el modelo por el cual se diseña el esquema de funcionamiento de la Base de Datos que provee al Data Warehouse.

Existen varios enfoques en este sentido:

Fábrica de información corporativa (CIF): incluyen ODS, data warehouse y data marts, junto con otras varias interfaces de aplicaciones y el ambiente operacional, fue desarrollada por Bill Inmon, Claudia Imhoff, y Ryan Sousa  Esquema en estrella: Este método replica las estructuras multidimensionales de hechos y dimensiones, pero usa tablas de RDBMS, específicamente tablas de hechos y tablas de dimensiones. Se dejan de lado las reglas de normalización de base de datos y se ponen los datos donde tienen más sentido Data vault (Arquitectura de modelado fundacional común -CFIMA): Esta es una arquitectura de integración de datos que contiene una base de datos orientada al detalle que contiene un conjunto de tablas normalizadas únicamente enlazadas que soportan una o más áreas funcionales de las tablas de negocio con tablas satélites para rastrear cambios históricos. Este enfoque híbrido reúne lo mejor del cruce entre la tercera forma normal (3NF)

10/04/23 37 Administración de las Tecnologías

de la Información

Page 38: Datawarehouse1

Page 38

DATA WAREHOUSE VS BD OPERACIONAL

Uso de Base de Datos Operacionales

Uso deData Warehouse

Muchos usuarios concurrentes Pocos usuarios concurrentes

Consultas predefinidas y actualizables

Consultas complejas, frecuentementeno anticipadas.

Cantidades pequeñas de datos resumidas.

Cantidades grandes de datos resumidas.

Requerimientos de respuesta inmediata

Requerimientos de respuesta no críticos

10/04/23 38 Administración de las Tecnologías de la Información

Page 39: Datawarehouse1

Modelo de Estrella

10/04/23 39 Administración de las Tecnologías de la Información

Page 40: Datawarehouse1

Extracción, Transformación y Carga Extracción

Multiples Fuentes Orientadas a trabajo Batch : cagas de estos sistemas son más fuertes

cuando los sistemas de producción tienen poca carga Conectvidad a diferentes tecnologías, diferentes manejadores de BDs

Transformación Manipulación de data compleja Reunión de diferentes fuentes Implementación de reglas de negocio Limpiado, ordenado, eliminación de duplicidades Optimizado para el desempeño y para grandes volúmenes

Carga Cargar la data en tablas de hechos y dimensiones Produce un historial en archivos o en la BD para trazabilidad

Otros Controla los flujos de ejecución: maneja las dependencias entre tareas,

control de ejecución, gestión de errores, registros históricos.

40

10/04/23 Administración de las Tecnologías de la Información

Page 41: Datawarehouse1

Ejemplos de transformación

Transformación de Búsqueda difusa Busca valores en las tablas usando criterios difusos Ejemplo: Para un campo de texto la data puede contener muchas variantes de la misma

palabra (“friend”, “a friend”, “freind”, etc). La lógica difusa puede ayudar a reunir las variantes.

Transformación de dimensiones de cambio lento Ayuda a manejar la actualización de una dimensión de cambio lento

Ejemplo : la información sobre los consumidores cambia constantemente, pero queremos una historia de estos

• Cambio de dirección no queremos el valor anteiror (reemplazo)• Un cambio en el valor VAT ‘duplicamos’ la entrada del consumidor agregando los datos

adicionales (para propósitos financieros)

41

Customer table Bill TableCustomer ID Last Name City Company VAT Nb Bill ID Customer ID Date Amount

FR 1234567 67890 00012345 01/01/2008 500 €FR 5555566 89567 00012345 01/06/2008 400 €

00012345 DESPRIEE Paris

OLTP Model

DimCustomer FactBill TableCustomer Key Customer ID Last Name City Company VAT Nb Bill ID Customer Key Date Amount

2048 00012345 DESPRIEE Paris FR 1234567 67890 2048 01/01/2008 500 €3057 00012345 DESPRIEE Paris FR 5555566 89567 3057 01/06/2008 400 €

OLAP Model

Clave sustitutaClave sustituta

10/04/23 Administración de las Tecnologías de la Información

Page 42: Datawarehouse1

Control de la Ejecución

Los datos son muy sensibles, la calidad de los reportes depende la calidad de estos

Cargar un Data Warehouse puede implicar reglas complejas de extracción, transformación y carga

Los usuarios del negocio no confiarán en un DW si no confían en su carga

42

10/04/23 Administración de las Tecnologías de la Información

Page 43: Datawarehouse1

Ejemplos de paquetes en ETL

Flujo de control y flujo de datos

43

10/04/23 Administración de las Tecnologías de la Información

Page 44: Datawarehouse1

Middleware

Son Instancias intermedias a la carga y al acceso que sirven para verificar la calidad y fiabilidad de la data Estación de transformación interina: un área en la cual grupos

de datos extraídos de alguna de las fuentes pasan por un proceso de transformación antes de moverse hacia la base de datos del almacén.

Estación de aseguramiento de la calidad: Un área en la cual grupos de datos pasan por un conjunto de intensas revisiones de aseguramiento de la calidad antes de pasar hacia el almacén de datos.

10/04/23 44 Administración de las Tecnologías de la Información

Page 45: Datawarehouse1

Middleware (2)

10/04/23 45 Administración de las Tecnologías de la Información

Page 46: Datawarehouse1

Solución: crear almacenes de datos especializados por área, que reciben los datos desde el almacén centralizado, estos almacenes se conocen como Data Marts.

•Problema: al crecer el DW. El rendimiento de las consultas decae y el modelo centralizado deja de ser optimo.

10/04/23 46 Administración de las Tecnologías de la Información

Page 47: Datawarehouse1

Toma de decisiones

• Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos

de un área de negocio

específica.

• Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.

DATAMART

10/04/23 47 Administración de las Tecnologías de la Información

Page 48: Datawarehouse1

Data Mart

Puede ser alimentado desde los datos de un

DWH, o integrar por si mismo un compendio de distintas fuentes de información.

10/04/23 48 Administración de las Tecnologías de la Información

Page 49: Datawarehouse1

Data Warehouses Vs. Data Marts

Data Mart

Departamental

Un solo tema

Pocos

<

100 GB

Meses

Data MartData

Warehouse

Propiedad

Alcance

Tema

Fuente de datos

Tamaño (típico)

Tiempo de implementación

Data Warehouse

Empresarial

Múltiples

Muchas

100 GB to > 1 TB

Meses a años

10/04/23 49 Administración de las Tecnologías de la Información

Page 50: Datawarehouse1

Su objetivo es agilizar la consulta de grandes cantidades de datos. Caracteriza la Arquitectura necesaria para la implementación de un sistema de ayuda en la toma de decisiones. La consultas son pocas pero son muy consumidoras de tiempo (pueden correr horas), las actualizaciones son menos frecuentes y/o la respuesta a la consulta no depende del hecho de tener actualizada la base de datos.

Soporte análisis multidimensional y procesamiento analítico en línea(OLAP)

10/04/23 50 Administración de las Tecnologías de la Información

Page 51: Datawarehouse1

• Soporte análisis multidimensional y procesamiento analítico en línea(OLAP)

Los datos son clasificados en diferentes dimensiones y pueden ser vistas unas con otras en diferentes combinaciones para obtener diferentes análisis de los datos que contienen.

Los Usuarios pueden formular consultas complejas, arreglar datos en un reporte, cambiar de

datos resumidos a datos detallados.

CARACTERISTICAS

10/04/23 51 Administración de las Tecnologías de la Información

Page 52: Datawarehouse1

ROLAP (Relational OLAP) MOLAP (multidimensional OLAP)

Almacena los datos en un motor relacional

Almacena los datos en una base de datos multidimensional

Muchas dimensiones Diez o menos dimensiones

Soportan analisis OLAP contra grandes volumenens de datos

Se comportan razonablemente en volumenes de datos mas reducidos (menos de 5Gb)

Herramienta flexible y general Solución particular con volúmenes de información y numero de dimensiones mas modestos

Clasificación según el tipo de motor en el que estén almacenados los datos:

10/04/23 52 Administración de las Tecnologías de la Información

Page 53: Datawarehouse1

Consultando un cubo

Trim4Trim1 Trim2 Trim3Dimensión tiempo

Santiago

Quito

Arequipa

Dim

ensi

ón C

iuda

d

Manzana

PañalYogurt

LimaVentas

Fact

Melon

Dimen

sión P

rodu

cto

10/04/23 53 Administración de las Tecnologías de la Información

Page 54: Datawarehouse1

LA ESTRUCTURA DE UN CUBO

5410/04/23 Administración de las Tecnologías de la Información

Page 55: Datawarehouse1

55

Hechos PrincipalesHechos Principales

10/04/23 Administración de las Tecnologías de la Información

Page 56: Datawarehouse1

56

MedidasMedidas

10/04/23 Administración de las Tecnologías de la Información

Page 57: Datawarehouse1

57

Medida :cuenta de suscriptor x mes

(para agilizar cálculos)

Medida :cuenta de suscriptor x mes

(para agilizar cálculos)

10/04/23 Administración de las Tecnologías de la Información

Page 58: Datawarehouse1

58

Medida:Tasa de cambio de moneda, esta se expresa en una sola, independientemente de la divisa de pago.

Medida:Tasa de cambio de moneda, esta se expresa en una sola, independientemente de la divisa de pago.

10/04/23 Administración de las Tecnologías de la Información

Page 59: Datawarehouse1

59

Dimensiones

La Dimensión fecha se usa más de una vez (dimensión con rol)

Dimensiones

La Dimensión fecha se usa más de una vez (dimensión con rol)

10/04/23 Administración de las Tecnologías de la Información

Page 60: Datawarehouse1

60

RelacionesUna relación regularRelacionesUna relación regular

10/04/23 Administración de las Tecnologías de la Información

Page 61: Datawarehouse1

The cube structure

61

RelacionesUna relación de hechoRelacionesUna relación de hecho

10/04/23 Administración de las Tecnologías de la Información

Page 62: Datawarehouse1

62

RelacionesUna relación referenciadaRelacionesUna relación referenciada

10/04/23 Administración de las Tecnologías de la Información

Page 63: Datawarehouse1

The cube structure

63

RelacionesUna relación de « muchos a muchos »

Dim Product Fact ChargesFact Charges Dim SubscriberDim Subscriber Fact Subscriber

RelacionesUna relación de « muchos a muchos »

Dim Product Fact ChargesFact Charges Dim SubscriberDim Subscriber Fact Subscriber

10/04/23 Administración de las Tecnologías de la Información

Page 64: Datawarehouse1

LOGO

Administración de las Tecnologías de la Información

DATA MININGMinería de Datos

10/04/23 64

Page 65: Datawarehouse1

Administración de las Tecnologías de la Información

ContentsDATA MINING

1. What is Data Mining?

2. ¿POR QUÉ?

3. Data Mining un proceso

4. Importante

10/04/23 65

5. Anexos

Page 66: Datawarehouse1

What is Data Mining?

El data mining es el conjunto de técnicas y tecnologías que permiten explorar grandes BBDD, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

Administración de las Tecnologías de la Información 6610/04/23

Page 67: Datawarehouse1

What is Data Mining?

Arte/Ciencia de descubrir y aprovecha enforma automática información no-obvia y útil en grandes bases de datos

Administración de las Tecnologías de la Información 6710/04/23

Énfasis en:• no-obvia (no intuitivas)• útil (coste vs beneficio)• grande (proceso automático)

No hay reglas siempre que el proceso sea eficiente entiempo, dinero y recursos humanos

Page 68: Datawarehouse1

Tres pasos

Preparación de los datos

Análisis de datos

Toma de decisiones

Redes Neuronales

10/04/23 68 Administración de las Tecnologías de la Información

Page 69: Datawarehouse1

Preparación de datos

Extracción / IntegraciónTransformación

SelecciónLimpieza

Data warehouse

50-80% tiempo del proyecto

10/04/23 69 Administración de las Tecnologías de la Información

Page 70: Datawarehouse1

LOGO

10/04/23 Administración de las Tecnologías de la Información

70

Page 71: Datawarehouse1

“Scrubbing, selecting, cleansing, preprocessing,…”

• Eliminar redundancia• Eliminar datos y variables irrelevantes• Tratar datos ausentes

media, substitución astuta, interpolación, ignorar, ?• Corrección errores• Outliers (datos fuera de rango)• Verificar consistencia

• Reservar todo preprocesamiento relevante hasta el análisis

10/04/23 71 Administración de las Tecnologías de la Información

Page 72: Datawarehouse1

Anáslisis de datos

Técnicas:

• Árboles de decisión • Reglas de asociación • Ajustes (regresiones..)• Algoritmos genéticos• Redes neuronales• …

Tareas conceptuales:

• Clasificación• Optimización• Interpolación• Modelación• Predicción• …

Objetivos:

• Target marketing• Segmentación• Control• Predicción ventas• Descubrir imperfecciones• …

10/04/23 72 Administración de las Tecnologías de la Información

Page 73: Datawarehouse1

Toma de decisiones

Los resultados del análisis pueden resultar inescrutables

• El analista debe entender el problema a fondo• Los resultados deben presentarse con honestidad• El post-procesamiento y la inclusión de factores subjectivos

son a menudo necesarios• Validación estricta

10/04/23 73 Administración de las Tecnologías de la Información

Page 74: Datawarehouse1

Administración de las Tecnologías de la Información

¿PARA QUÉ?

10/04/23 74

Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación “one-to-one” con sus clientes.

Las empresas recogen datos de todos lo procesos.

Los datos recogidos se tienen que analizar, comprender y convertir en información con la que se pueda actuar y aquí es donde Data Mining juega su papel

Page 75: Datawarehouse1

Administración de las Tecnologías de la Información

Data Mining proporciona la Inteligencia

10/04/23 75

El Data Warehouse proporciona los datos. La inteligencia permitirá buscar en esos datos

tratando de encontrar patrones, descubrir reglas, nuevas ideas que probar, y hacer predicciones acerca del futuro

Se estudiarán las técnicas y herramientas que añaden la “inteligencia” al datawarehouse para explotar los datos de los clientes y sacar el máximo rendimiento

Page 76: Datawarehouse1

Administración de las Tecnologías de la Información

Relación

10/04/23 76

Relación con el Data Mining Está asociado al escalón más alto de la pirámide (Nivel Estratégico) y tiene por objeto eliminar los errores cometidos por las personas al analizar los datos debido a prejuicios y dejar que sean los datos los que muestren los modelos subyacentes en ellos.

Mientras en Data Warehousing, se basan en estructuras multidimensionales, en las que se almacena la información calculando previamente todas las combinaciones de todos los niveles de todas las aperturas de análisis.

Aunque este método se puede considerar como exagerado, nunca será tan caro, como lo que le costaría a la organización el tomar las decisiones equivocadas.

Page 77: Datawarehouse1

¿Como nos ayudan?

¿Qué clientes permanecerán fieles? ¿Qué clientes están a punto de abandonar? ¿Dónde debemos localizar la próxima

sucursal? ¿Qué productos se deben promocionar a

qué prospectos? ...

Las respuestas a estas preguntas están enterradas en los datos y se necesitan las técnicas de Data Mining para buscarlas

Administración de las Tecnologías de la Información

7710/04/23

Page 78: Datawarehouse1

Administración de las Tecnologías de la Información

Data Mining un proceso

Pasos

10/04/23 78

Page 79: Datawarehouse1

Data Mining un proceso

Administración de las Tecnologías de la Información

7910/04/23

Identificar

un problema

Usar data mining para transformar los datos en información

Actuar basándonos en la información

Medir los resultados

Page 80: Datawarehouse1

LOGO

10/04/23 Administración de las Tecnologías de la Información

80

•OBJETIVOEstablecer la secuencia de lógica de actividades, responsables e información necesaria que permita controlar, recopilar y procesar información primaria y secundaria. •ALCANCE•El presente procedimiento permite la publicación de información clasificada por sector, iniciándose con la coordinación de la disponibilidad de información y finalizando con el ingreso de información al sistema. El presente documento aplica para el Departamento de Información y Negocios Electrónicos de la Sub Dirección de Inteligencia y Prospectiva Comercial.

•OBJETIVOEstablecer la secuencia de lógica de actividades, responsables e información necesaria que permita controlar, recopilar y procesar información primaria y secundaria. •ALCANCE•El presente procedimiento permite la publicación de información clasificada por sector, iniciándose con la coordinación de la disponibilidad de información y finalizando con el ingreso de información al sistema. El presente documento aplica para el Departamento de Información y Negocios Electrónicos de la Sub Dirección de Inteligencia y Prospectiva Comercial.

Page 81: Datawarehouse1

LOGO

10/04/23 Administración de las Tecnologías de la Información

81

Dirección de Promoción de ExportacionesSubdirección de Inteligencia y Prospectiva Comercial

7Distribuir información a

sectoristas

FIN

Especialista en Procesamiento e Información Estadística

6Clasificar información

por sector

Departamento de Información y Negocios Electrónicos

Leyenda

1Coordinar disponibilidad

de información

2Extraer información de base de datos SUNAT

INICIO

INICIO / FIN Entidad ExternaActividad Decisión? Otro Procedimiento

A 1Conector dentro de página Conector a otra página Inicio y fin de actividades en paralelo

5Coordinar

actualizaciónEs conforme?

3Transferir información

a INFOTRADE

4Validar información

cargada

No

Si

SUNAT

SUNAT

Elab. base datos compradores

internacionales

Elaboración de informe mensual de

exportaciones

Elaboración de informes especiales

Page 82: Datawarehouse1

LOGO

10/04/23 Administración de las Tecnologías de la Información

82

Page 83: Datawarehouse1

LOGO

10/04/23 Administración de las Tecnologías de la Información

83

Dirección de Promoción de ExportacionesSubdirección de Inteligencia y Prospectiva Comercial

FIN

Departamento de Información y Negocios Electrónicos

Leyenda INICIO / FIN Actividad Decisión? Otro Procedimiento

A 1Conector dentro de página Conector a otra página Inicio y fin de actividades en paraleloEntidad Externa

INICIO

1Recopila información de fuentes externas

3Transfiere información

a base de datos

Especialista en PROCOM y Portal Institucional

5Actualiza información

de base de datos

Información encontrada?

7Busca información de

compradores

2Ordena y guarda

información

Soporte y Mantenimiento

Plataforma SIICEX

Subdirección de Promoción Comercial

Especialista de Promoción Comercial

4Califica acceso de

información

10Prioriza atención

8Remite requerimiento

Coordinador de Información y Negocios Electrónicos

11Extrae información de

compradores

Si

No

A

A

9Registrar el

requerimiento

Usuarios Internos y/o Externos

6Califica acceso de

información

Page 84: Datawarehouse1

Administración de las Tecnologías de la Información

Importante

10/04/23 84

La promesa de Data Mining es encontrar los patronesSimplemente el hallazgo de los patrones no es suficienteDebemos ser capaces de entender los patrones, responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa

La promesa de Data Mining es encontrar los patronesSimplemente el hallazgo de los patrones no es suficienteDebemos ser capaces de entender los patrones, responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa

Page 85: Datawarehouse1

Data Mining resumen

Administración de las Tecnologías de la Información

8510/04/23

Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo.

Aunque los algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas.

Las técnicas se tienen que aplicar en el caso correcto a los datos correctos

Page 86: Datawarehouse1

Conclusiones

Administración de las Tecnologías de la Información

8610/04/23

El concepto de DWH está teniendo una gran aplicación en la actualidad para el desarrollo de las empresas, como almacén de datos. Sus objetivos incluyen la reducción de los costes de almacenamiento y una mayor velocidad de respuesta frente a las consultas de los usuarios. Estos pueden ahora analizar y realizar preguntas sobre años, más que sobre meses de información.

Para diseñar una buena arquitectura de DWH es necesario como primer paso conocer bien los requerimientos del negocio y hacer un estudio profundo de las fuentes externas que nos van a suministrar los datos. Además, hacer un buen diseño del área de transformación de datos, cuáles son las transformaciones que se van a realizar y cómo se va a implementar el modelo dimensional con sus tablas de hechos y de dimensiones es el segundo paso a seguir.

Page 87: Datawarehouse1

Resumiendo los beneficios de la arquitectura del DWH :

Administración de las Tecnologías de la Información

8710/04/23

Provee un esquema de organización – cuáles son los componentes que la forman, cómo ellos se interrelacionan, quién es el dueño de cada parte y cuáles son las prioridades.

Mejora la flexibilidad – permite que rápidamente se añadan nuevas fuentes de datos.

Desarrollo rápido y reuso – los desarrolladores de DWH son más capaces de comprender el proceso de DWH , los contenidos de las bases de datos y las reglas del negocio más rápidamente.

Herramientas de comunicaciones – define y comunica la dirección y el alcance de las expectativas , identifica los roles y responsabilidades y comunica los requerimientos al proveedor.

Page 88: Datawarehouse1

LOGO

Administración de las Tecnologías de la Información

Que la tecnología no te entierre¡¡¡

10/04/23 88

Page 89: Datawarehouse1

LOGO

ANEXOSREDES NEURONALES

10/04/23 Administración de las Tecnologías de la Información

89

Fuente: José Ignacio LatorreUniversitat de Barcelona

http://sophia.ecm.ub.es/latorre/

Page 90: Datawarehouse1

¿Por qué no se emplea el Data Mining?

• Explotación “bruta” de las bases de datos da resultados sin sentido o no-competitivos Sentido común y buena formación = coste elevado

• Sí se emplea, pero poca gente es consciente

Data Mining

10/04/23 90 Administración de las Tecnologías de la Información

Page 91: Datawarehouse1

Redes Neuronales

10/04/23 91 Administración de las Tecnologías de la Información

Page 92: Datawarehouse1

¿Qué es una red neuronal?

DatosDatos históricos

variables objetivosDatos nuevos

variables ??

Las redes neuronales aprenden a partir de ejemplos

Economista/Matemático/Físico/Analista Aproximante universal(Permiten un ajuste a partir de ejemplos enun gran espacio de funciones sin sesgo,robusto, flexible que implementa inferencia bayesiana)

Economista/Empresario Herramienta de predicción (objetivo, consolidado, adaptable a problemas complejos, integrable)

Modelo del cerebro

Redes neuronales

10/04/23 92 Administración de las Tecnologías de la Información

Page 93: Datawarehouse1

Redes neuronales

¿Para qué sirven una red neuronal?

• ClasificaciónClientes buenos/malos, comprometidos o no, asequibles o noReconocimiento de patrones

• InterpolaciónAdivinar el comportamiento de un nuevo clienteCrear una nueva pintura

• PredicciónVentas, meteorología, finanzas, control de producción

Las redes neuronales pueden ser aplicadas a cualquierproblema de inferencia estadística

10/04/23 93 Administración de las Tecnologías de la Información

Page 94: Datawarehouse1

¿Cómo funciona una red neuronal?

capa 1

capa 2

capa l

.....

)()1(

)1(

1

)()( li

lj

ln

j

lij

li tzwfz

Red neuronal

feedforward

multicapa

Redes neuronales

10/04/23 94 Administración de las Tecnologías de la Información

Page 95: Datawarehouse1

Redes neuronales

)()1(

)1(

1

)()( li

lj

ln

j

lij

li tzwfz

• La función de activación ƒ da flexibilidad para que la respuesta de cada neurona pueda ser no lineal• Los pesos w y los umbrales t determinan la forma en que la información es procesada por cada neurona• El número de capas y de neuronas por capa definen la arquitectura de la red neuronal

El algoritmo de aprendizaje por corrección de errores hacia atrás, “back-propagation” (1985) establece un procedimiento eficiente para ajustar los pesos y umbrales de una red neuronal de forma que aprenda ejemplos.

¡Hemos aprendido a aprender!

10/04/23 95 Administración de las Tecnologías de la Información

Page 96: Datawarehouse1

Redes neuronales

T vs C

CT cTCTTC

Entrenamiento

0. w y t aleatorios1. Introducir un ejempo (T)2. Output = T

bienOutput = C

error3. Propagar un cambio de w and t a través de la red

para reducir el error4. Repetir con todos los

ejemplos varias veces

Aprendizaje supervisado de T / C

T

Robusto UniversalSin sesgo

10/04/23 96 Administración de las Tecnologías de la Información

Page 97: Datawarehouse1

Redes neuronales

Belgrado 19/04/1999

Una red neuronal es entrenada con patrones de aviones

La red detecta un aviónmilitar escondido bajo unavión comercial

10/04/23 97 Administración de las Tecnologías de la Información

Page 98: Datawarehouse1

Finanzas

Data Mining

Divorcios

Ciencia

Banca

Reconocimientode patrones

10/04/23 98 Administración de las Tecnologías de la Información

Page 99: Datawarehouse1

Tarjetas de crédito

1. 50000 clientes reciben la oferta

2. Un red neuronal es entrenada conlas respuestas

3. La red predice la respuesta de los450000 clientes restantes

Un banco desea ofrecer una nueva tarjeta a sus clientes

Depósitos SalarioEdad Sexo CréditosHipotecas Educación

Sí / No

Red neuronal

Ejemplos

10/04/23 99 Administración de las Tecnologías de la Información

Page 100: Datawarehouse1

Ejemplos

Lift Chart

% de clientes contactados

% deRespuestas positivasretenidas

10/04/23 100 Administración de las Tecnologías de la Información

Page 101: Datawarehouse1

Promedios sobre redes entrenadas a partir de pesos aleatorios Si existe un modelo subyacente, las redes son equivalentesSi no existe un modelo subyacente, las redes producen dispersión

• Lanzamos 100 redes sobre datos entrenar/validar• Para cada dato tenemos un promedio y una dispersión• Descartamos 3 sigma

AlarmasArbitraje….

-1 sigma

+ 1sigma

NN

Real

Ejemplos

Series temporales de cotizaciones

10/04/23 101 Administración de las Tecnologías de la Información

Page 102: Datawarehouse1

Ejemplos

¿Estoy divorciado?

Una red neuronal ha sido entrenada con

• área del apartamento• ¿es relevante la virginidad? ¿divorciado?• salario sí / no• visitas de los suegros• salud,..

Acierto: 88%

Matemáticas / Filosofía 100%

10/04/23 102 Administración de las Tecnologías de la Información