T5.02 Almacen Datos Sanchez Flores Rafael

28
1 7G1 SANCHEZ FLORES RAFAEL BASE DE DATOS

description

almacenamiento de datos ( marketing electronico )

Transcript of T5.02 Almacen Datos Sanchez Flores Rafael

Page 1: T5.02 Almacen Datos Sanchez Flores Rafael

1

7G1

SANCHEZ FLORES RAFAEL

BASE DE DATOS

Page 2: T5.02 Almacen Datos Sanchez Flores Rafael

2

Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas.

Muchas de estas fuentes son las que se utilizan para el trabajo diario (bases de datos operacionales).

OBJETIVO: Análisis de Datos para el Soporte en la Toma de Decisiones.

Page 3: T5.02 Almacen Datos Sanchez Flores Rafael

3

• Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visión tradicional).

• Uso de la base de datos transaccional para varios cometidos:

• Se mantiene el trabajo transaccional diario de los sistemas de información originales (conocido como OLTP, On-Line Transactional Processing).

• Se hace análisis de los datos en tiempo real sobre la misma base de datos (conocido como OLAP, On-Line Analytical Processing).

Page 4: T5.02 Almacen Datos Sanchez Flores Rafael

4

• Uso de la base de datos transaccional para varios cometidos:

• PROBLEMAS:

• perturba el trabajo transaccional diario de los sistemas de información originales (“killer queries”). Se debe hacer por la noche o en fines de semana.

• la base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos. Generalmente no puede ser en tiempo real (era AP pero

no OLAP).

Page 5: T5.02 Almacen Datos Sanchez Flores Rafael

5

• Se desea operar eficientemente con esos datos...

• los costes de almacenamiento masivo y conectividad se han reducido drásticamente en los últimos años,

• parece razonable recoger los datos (información histórica) en un sistema separado y específico.

• Data warehouses (Almacenes o Bodegas de Datos)

NACE EL DATA-WAREHOUSING

Page 6: T5.02 Almacen Datos Sanchez Flores Rafael

6

Almacenes de Datos (AD) (data warehouse)

disponer de Sistemas de Información de apoyo a la

toma de decisiones*

disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización

motivación

análisis de la organización

previsiones de evolución

diseño de estrategias

objetivos

* DSS: Decision Support Systems

Page 7: T5.02 Almacen Datos Sanchez Flores Rafael

7

Almacenes de datos

Base de Datos diseñada con un objetivo de explotación distinto que el de las bases de

datos de los sistemas operacionales.

Sistema Operacional

(OLTP)

Sistema de Almacén de Datos

(DW)

BD orientada al proceso

BD orientada al análisis

Page 8: T5.02 Almacen Datos Sanchez Flores Rafael

8

Almacenes de Datos

colección de datos diseñada para dar apoyo a los procesos

de toma de decisiones

orientada hacia la información* relevante de la organización

integrada variable en el tiempo

no volátil

características

* subject oriented, not process oriented

definición

Page 9: T5.02 Almacen Datos Sanchez Flores Rafael

9

AD: Orientado hacia la información relevante de la organización

se diseña para consultar eficientemente información relativa a las actividades (ventas, compras, producción, ...) básicas de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, etc).

Información NecesariaPRODUCTO

...

GAMA...

VENTA...

PAÍS...

Base de Datos Transaccional

CURSO...

REUNION...

PROTOTIPO...

Page 10: T5.02 Almacen Datos Sanchez Flores Rafael

10

Base de Datos Transaccional 1

Fuente de Datos 1

Fuentes Externas

Fuentes Internas

Fuente de Datos 2

Fuente de Datos 3

HTML

Almacén de Datos

texto

Base de Datos Transaccional 2

AD: Integradointegra datos recogidos de diferentes sistemas operacionales de la organización (y/o fuentes externas).

Page 11: T5.02 Almacen Datos Sanchez Flores Rafael

11

Los datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo.

DatosTiempo

01/2003

02/2003

03/2003

Datos de Enero

Datos de Febrero

Datos de Marzo

AD: Variable en el tiempo

los datos son relativos a un periodo de tiempo y deben ser incrementados periódicamente.

Page 12: T5.02 Almacen Datos Sanchez Flores Rafael

12

READ

Carga

INSERT READ

UPDATE

DELETE

Bases de datos operacionales Almacén de Datos

AD: No volátillos datos almacenados no son actualizados, sólo son incrementados.

El periodo de tiempo cubierto por un AD varía entre 2 y 10 años.

Page 13: T5.02 Almacen Datos Sanchez Flores Rafael

13

Almacenes de Datosventajas para las organizaciones

rentabilidad de las inversiones

realizadas para su creación

aumento de la competitividad en el mercado

aumento de la productividad de los técnicos de

dirección

Page 14: T5.02 Almacen Datos Sanchez Flores Rafael

14

Almacenes de Datos

problemas

infravaloración de los recursos necesarios

para la captura, carga y almacenamiento de

los datos

incremento continuo de los requisitos de los

usuarios

privacidad de los datos

infravaloración del esfuerzo necesario para

su diseño y creación

Page 15: T5.02 Almacen Datos Sanchez Flores Rafael

15

Sistema Operacional (OLTP) Almacén de datos (DW)

- almacena datos actuales - almacena datos históricos

- almacena datos de detalle - almacena datos de detalle y datos agregados a distintos niveles

-bases de datos medianas - bases de datos grandes(100Mb-1Gb) (100Gb-1Tb)

- los datos son dinámicos (actualizables) - los datos son estáticos

- los procesos (transacciones) son repetitivos - los procesos no son previsibles

- el número de transacciones es elevado - el número de transacciones esbajo o medio

- tiempo de respuesta pequeño (segundos) - tiempo de respuesta variable (segundos-horas)

- dedicado al procesamiento de transacciones - dedicado al análisis de datos

- orientado a los procesos de la organización - orientado a la información relevante

- soporta decisiones diarias - soporta decisiones estratégicas

- sirve a muchos usuarios (administrativos) - sirve a técnicos de dirección

Page 16: T5.02 Almacen Datos Sanchez Flores Rafael

16

La Arquitectura de un AD viene determinada por su situación central como fuente de información para las herramientas de análisis.

Base de Datos Transaccional

Fuentes Internas

Fuentes Externas

Fuente de Datos

Fuente de Datos 3

HTML

Fuente de Datos 1

texto

Almacén de Datos

ETL Interfaz y Operadores

Herramientas de consultas e

informes

Herramientas EIS

Herramientas OLAP

Herramientas de Minería de

Datos

Copias de Seguridad

Page 17: T5.02 Almacen Datos Sanchez Flores Rafael

17

Componentes: Sistema ETL (Extraction, Transformation, Load): realiza las

funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del AD, realizando:

extracción de los datos. filtrado de los datos: limpieza, consolidación, etc. carga inicial del almacén: ordenación, agregaciones, etc. refresco del almacén: operación periódica que propaga los

cambios de las fuentes externas al almacén de datos

Repositorio Propio de Datos: información relevante, metadatos.

Interfaces y Gestores de Consulta: permiten acceder a los datos ys sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos).

Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad, ...

Page 18: T5.02 Almacen Datos Sanchez Flores Rafael

18

Organización (Externa) de Los Datos…

Las herramientas de explotación de los almacenes de datos han adoptado un modelo multidimensional de datos.

Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis.

Page 19: T5.02 Almacen Datos Sanchez Flores Rafael

19

EJEMPLO

Organización: Cadena de supermercados.

Actividad objeto de análisis: ventas de productos.

Información registrada sobre una venta: “del producto “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5 unidades por un importe de 103,19 euros.”

Para hacer el análisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.

Page 20: T5.02 Almacen Datos Sanchez Flores Rafael

20

Venta

simporte

unidades

Alm

acén

Almacén

Ciudad

Región

Tipo

Pro

duct

o

Departamento

Nro_producto

Categoría

Marca

Tipo

Descripción

Tie

mpo

Día

Mes

Semana

Año

Trimestre

Page 21: T5.02 Almacen Datos Sanchez Flores Rafael

21

Venta

simporte

unidades

Departamento

Nro_producto

Categoría

Marca

TipoDía

Mes

Semana

Almacén

Ciudad

Región

Tipo

Año

Descripción

Actividad que es objeto de análisis con los indicadores que interesa analizar

Dimensiones (puntos de vista) desde los que se puede analizar la actividad.

Pro

duct

o

Tie

mpo

Alm

acén

Trimestre

Page 22: T5.02 Almacen Datos Sanchez Flores Rafael

22

Modelo multidimensional: en un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones).

la información relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).

la información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión).

Page 23: T5.02 Almacen Datos Sanchez Flores Rafael

23

Venta

simporte

unidades

Alm

acén

Almacén

Ciudad

Región

Tipo

Pro

duct

o

Departamento

Nro_producto

Categoría

Marca

Tipo

Descripción

hecho

medidasdimensión

atributos

Tie

mpo

Día

Mes

Semana

AñoTrimestre

Page 24: T5.02 Almacen Datos Sanchez Flores Rafael

24

Entre los atributos de una dimensión se definen jerarquías

departamento

almacén

ciudad región

tipo

día mes año

Producto

Almacén

Tiempo

nro. producto categoría

trimestre

semana

Page 25: T5.02 Almacen Datos Sanchez Flores Rafael

25

Este esquema multidimensional recibe varios nombres:

• estrella: si la jerarquía de dimensiones es lineal

• estrella jerárquica o copo de nieve: si la jerarquía no es lineal.

PERSONAL

VENTAS

tiempo

tiempo

producto

lugar

proyecto

equipo

Page 26: T5.02 Almacen Datos Sanchez Flores Rafael

26

Zumo Piña 1l.

Cola 33cl.

Leche Entera Cabra 1l

Tauritón 33cl

Cerveza Kiel 20 cl

Jabón Salitre

1 2 3 4 1 2

TIEMPO: trimestre

MadridBarcelona

Valencia

ZaragozaAlicante

Murcia

175793

512

Ventas en miles de

Euros

Jerarquía de dimensiones:

Categoría

Gama Prov.

\ /

Artículo

País

Ciudad

Supermercado

Año

/ \

Trimestre \

/ \

Mes Semana

\ /

Día

|

Hora

PRODUCTO:artículo

LUGAR:ciudad

PRODUCTO LUGAR TIEMPO

2004 2005

22

• Se pueden obtener hechos a diferentes niveles de agregación:

• obtención de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones

Un nivel de agregación para un conjunto de dimensiones se denomina cubo.

HECHO: “El primer trimestre de 2004 la empresa vendió en

Valencia por un importe de 22.000 euros del

producto tauritón 33 cl.”

Page 27: T5.02 Almacen Datos Sanchez Flores Rafael

27

¿Se puede recopilar toda la información necesaria en un único esquema estrella o copo de nieve?

NO : necesidad de varios esquemas.

Cada uno de estos esquemas se denomina datamart.

VENTAS

PERSONAL

PRODUCCIÓN

CAMPAÑA

tiempo

tiempo

tiempo

producto

producto

lugar

proyectoequipo

productoproveedor

lugar

lugar

tiempo

Almacén formado por 4 datamarts.

Page 28: T5.02 Almacen Datos Sanchez Flores Rafael

28

El almacén de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales.

Data mart

se definen para satisfacer las necesidades de un departamento o sección de la organización.

contiene menos información de detalle y más información agregada.

subconjunto de un almacén de datos, generalmente en forma de estrella o copo de nieve.