Datawarehouse1
-
Upload
nestor -
Category
Technology
-
view
4.971 -
download
0
description
Transcript of Datawarehouse1
LOGO
Alumnos:
• Jeri Sandoval, Roberto• Rosales Buiza John• Segovia Herrera Néstor• Robles Rodriguez Isaac
10/04/23 1 Administración de las Tecnologías de la Información
FACULTAD DE INGENIERÍA INDUSTRIAL Y DE SISTEMAS
Data Warehouse
Definiciones de Data Warehouse
Un Data Warehouse es un conjunto integrado de bases de datos, con orientación temática, que están diseñados para el apoyo a la Toma de Decisiones, y donde cada unidad de datos es relevante en algún momento del tiempo
Bill H. Inmon "una copia de las transacciones de datos específicamente
estructurada para la consulta y el análisis“ o"la unión de todos los Data marts de una entidad“
Ralph Kimball “Yo considero al DW como algo que provee dos beneficios
empresariales reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico”
Susan Osterfeldt
10/04/23 2 Administración de las Tecnologías de la Información
Objetivos
Hacer la información de la organización accesible
Hacer a la información de la organización consistente
Controlar el acceso efectivo a los datos Generar información de manera flexible Servir de ayuda a la toma de decisiones
10/04/23 3 Administración de las Tecnologías de la Información
En resumen
Un Data Warehouse tiene como objetivo almacenar y proveer a la Organización de información relevante y a tiempo
10/04/23 4 Administración de las Tecnologías de la Información
Importancia del Data Warehouse
Mejorar la Entrega de Información:. Mejorar el Proceso de Toma de Decisiones Impacto Positivo sobre los Procesos
Empresariales
10/04/23 5 Administración de las Tecnologías de la Información
A pensar antes de implementar un Data Warehouse
La amplitud; el número de diferentes temas y puntos de foco
Fuentes que proveerán datos brutos. Los medios por los cuales los datos se transportan de las
aplicaciones fuente y son cargados al Data Warehouse. Las reglas de negocio que se aplican a la data en bruto
para producir activos de datos de alta calidad. Las bases de datos receptoras, en la que estos activos
de datos serán almacenados. Los activos de datos; los elementos, el nivel de detalle de
cada elemento, y cuánta historia se ha mantenido, por ejemplo.
La Inteligencia de negocio Herramientas de nivel usuario para acceder a los activos
de datos. La arquitectura y complejidad en general del entorno.
10/04/23 6 Administración de las Tecnologías de la Información
Empresas que usan DATA WAREHOUSE
Royal bank of canada Paypal 3M Coca-Cola Company Verizon Ford Motor Company Herramientas de nivel usuario para acceder a los
activos de datos. La arquitectura y complejidad en general del
entorno.
10/04/23 7 Administración de las Tecnologías de la Información
10/04/23 8 Administración de las Tecnologías de la Información
Productos (suites) de DATA WAREHOUSE y BI
IBM Cognos
http://www-01.ibm.com/software/data/cognos/ Teradata
http://www.teradata.com Oracle Hyperion
http://www.oracle.com/hyperion/index.html MicroStrategy
http://www.strategy.com SAS
http://www.sas.com
10/04/23 9 Administración de las Tecnologías de la Información
Características de un Data Warehouse
Orientado a un tema Administra grandes cantidades de información Guarda información en diversos medios de
almacenamiento Comprende múltiples versiones de uno (o
varios) esquema de base de datos Condensa y agrega información Integra y asocia información de muchas fuentes
10/04/23 10 Administración de las Tecnologías de la Información
Diferencias entre un sistema de Data Warehouse y aplicaciones tradicionales
SISTEMAS TRADICIONALES DATAWAREHOUSE
•Predomina la actualización.•Actividad operativa (día a día).•Proceso puntual.•Estabilidad.•Datos desagregados.•Dato actual.•Respuesta de la transacción inmediata.•Estructura relacional.•Usuarios de perfiles bajos.•Explotación de la información relacionada con operatividad de cada aplicación
•Predomina la consulta•Análisis y decisión estratégica.•Proceso masivo.•Dinamismo.•Niveles de detalle/agregación.•Dato histórico.•Respuesta masiva•Estructura Multidimensional•Usuarios de perfiles altos.•Explotación de información interna y externa relacionada con el negocio.
10/04/23 11 Administración de las Tecnologías de la Información
Metodologías de Diseño de Data Warehouse
Metodología de Inmon (Top – Bottom)
10/04/23 12 Administración de las Tecnologías de la Información
Metodología de Kimball (Bottom-up)
10/04/23 13 Administración de las Tecnologías de la Información
Metodología agil para la implementación de un dw
10/04/23 14 Administración de las Tecnologías de la Información
Page 15
Arquitectura de un Data Warehouse
10/04/23 15 Administración de las Tecnologías de la Información
Productionsystems
Other sources
CRM
Billing
Activationsystems
OtherDBs…
Files
ETL
DataWarehouse
OLAPcubes
BusinessUsers
Querying &Reporting
tools
Acquisition Storage /Archiving
Restitution
Datamarts
Flujo de Datos de un DW
10/04/23 16 Administración de las Tecnologías de la Información
Page 17
• Base de datos operacional / Nivel de base de datos externo.
• Nivel de acceso a los datos • Nivel de organización de datos• Nivel de data warehouse • Nivel de acceso a la información • Nivel de gestión de proceso
Arquitectura de un Data Warehouse
10/04/23 17 Administración de las Tecnologías de la Información
Page 18
Base de datos operacional / Nivel de base de datos externo (Fuentes de datos)
Los sistemas operacionales procesan datos para apoyar las necesidades operacionales críticas, tales como ERPs, SCMs, también se procesa información de fuentes de datos externas, tales como de la internet, INEI, BCRP.
Nivel de acceso a los datos Es responsable de la interfaces entre las herramientas
de acceso a la información y las bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final necesita para realizar estas interfases se utiliza el SQL (Standar Query Lenguaje)
Elementos de la Arq. De un DW
10/04/23 18 Administración de las Tecnologías de la Información
Page 19
Nivel de organización de datos El componente final de la arquitectura data Warehouse
es la organización de los datos, incluye todos los procesos necesarios como seleccionar, editar, resumir, combinar y cargar datos en el depósito y acceder a la información desde bases de datos operacionales y/o externas
Nivel de data warehouse En un data Warehouse físico, el almacenaje de data
procesada, incluso en forma redundante
Elementos de la Arq. De un DW
10/04/23 19 Administración de las Tecnologías de la Información
Page 20
Nivel de acceso a la información Este nivel se incluye el hardware y software
involucrados en representar y proveer de información al usuario final normalmente usa día a día. Por ejemplo: Excel, Lotus 1-2-3, Focus, Access, SAS, etc.
Nivel de gestión de proceso El nivel de gestión de procesos tiene que ver con la
programación de diversas tareas que deben realizarse para construir y mantener actualizado el data warehouse y la información del directorio de datos.
Elementos de la Arq. De un DW
10/04/23 20 Administración de las Tecnologías de la Información
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
1 FACTORES EN LA PLANIFICACION DE UN DATA WAREHOUSE Establecer una asociación de usuarios, gestión y grupos Construir prototipos rápida y frecuentemente Implementación incremental Reportar activamente y publicar los casos exitosos
Adm
inistración de las Tecnologías de la Inform
ación
Fase 1: Organización
10/04/23 21
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
2 ESTRATEGIAS PARA EL DESARROLLO DE UN DATA WAREHOUSE
Adm
inistración de las Tecnologías de la Inform
ación
¿Quién es el auditorio?
¿Cuál es el alcance?
¿Qué tipo de data warehouse debería construirse?
1ra.: Establecer un ambiente "data warehouse virtual“.
2da.: Construir una copia de los datos operacionales desde un sistema operacional único y posibilitar al data warehouse de una serie de herramientas de acceso a la información.
3ra.: Finalmente, la estrategia data warehousing óptima es seleccionar el número de usuarios basados en el valor de la empresa y hacer un análisis de sus puntos, preguntas y necesidades de acceso a datos.
10/04/23 22
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
3 ESTRATEGIAS PARA EL DISEÑO DE UN DATA WAREHOUSE
1ra. : Los usuarios de los data warehouses usualmente no conocen mucho sobre sus requerimientos y necesidades como los usuarios operacionales.
2da.: El diseño de un data warehouse, con frecuencia involucra lo que se piensa en términos más amplios y con conceptos del negocio más difíciles de definir que en el diseño de un sistema operacional. Al respecto, un data warehouse está bastante cerca a Reingeniería de los Procesos del Negocio (Business Process Reengineering).
3ra.: Finalmente, la estrategia de diseño ideal para un data warehousing es generalmente de afuera hacia adentro (outside-in) a diferencia de arriba hacia abajo (top-down).
10/04/23 23
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Adm
inistración de las Tecnologías de la Inform
ación
4 ESTRATEGIAS PARA LA GESTION DE UN DATA WAREHOUSE
1ra.: Un data warehouse es una inversión buena sólo si los usuarios finales realmente pueden conseguir información vital más rápida y más barata de lo que obtienen con la tecnología actual.
2da.: La administración debe reconocer que el mantenimiento de la estructura del data warehouse es tan crítico como el mantenimiento de cualquier otra aplicación de misión-crítica.
3ra.: La gestión debe comprender también que si se embarcan sobre un programa data warehousing, se crearán nuevas demandas sobre sus sistemas operacionales, que son:Demandas para mejorar datos Demandas para una data consistente Demandas para diferentes tipos de datos, etc.
10/04/23 24
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
Se ha reconocido los beneficios del procesamiento analítico en línea (On Line Analytical Processing - OLAP), más allá de las áreas tradicionales de marketing y finanzas.
El crecimiento de la computación cliente/servidor, ha creado servidores de hardware y software más poderosos y sofisticados que nunca. Los servidores de hoy compiten con las mainframes de ayer y ofrecen arquitecturas de memoria tecnológicamente superiores, procesadores de alta velocidad y capacidades de almacenamiento masivas.
Fase 2: Desarrollo
1. ¿PORQUE CONSTRUIR BLOQUES DE DATA WAREHOUSE?
10/04/23 25
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
2 CONSIDERACIONES PREVIAS AL DESARROLLO DE UN DATA WAREHOUSE
Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un número de dimensiones diferentes que necesitan ser consideradas:
Alcance de un data warehouse Redundancia de datos Tipo de usuario final
10/04/23 26
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
3 ELEMENTOS CLAVES PARA EL DESARROLLO DE UN DATA WAREHOUSE
Si se escoge incorrectamente, el data warehouse se convierte en una gran empresa con problemas difíciles de trabajar en su entorno, costoso para arreglar y difícil de justificar.
Para conseguir que la implementación del depósito tenga un inicio exitoso, se necesita enfocar hacia tres bloques claves de construcción:
Arquitectura total del depósito Arquitecturas del servidor Sistemas de Gestión de Base de Dato
Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un número de dimensiones diferentes que necesitan ser consideradas:
Alcance de un data warehouse Redundancia de datos Tipo de usuario final
10/04/23 27
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
4 CONFIABILIDAD DE LOS DATOS
La data "sucia" es peligrosa. Las herramientas de limpieza especializadas y las formas de programar de los clientes proporcionan redes de seguridad.
No importa cómo esté diseñado un programa o cuán hábilmente se use. Si se alimenta mala información, se obtendrá resultados incorrectos o falsos.
Desafortunadamente, los datos que se usan satisfactoriamente en las aplicaciones de línea comercial operacionales pueden ser basura en lo que concierne a la aplicación data warehousing
10/04/23 28
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
5 FACTORES DECISIVOS PARA DECIDIR EL DESARROLLO DE UN DATA WAREHOUSE
La data sucia es un serio peligro para el éxito de un proyecto de data warehouse. Dependiendo del alcance del problema, simplemente podría no ser posible dirigirlo rápidamente y abaratarlo.Los principales factores son: - El tiempo que toma la programación interna - El costo de las herramientas
Los gerentes de proyectos de Data Warehouse necesitan evaluar el problema con realismo, los recursos internos disponibles para distribuirlos y seleccionar la solución que se adapte a la planilla y presupuesto del proyecto, o modificar la planilla y el presupuesto para solucionar el problema.
10/04/23 29
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
Proyecto Total o Proyecto en Fases
Es más viable el desarrollo de un proyecto en fases que produzcan resultados a corto plazo que el desarrollo de un proyecto que entregue resultados al término de varios años. Por ello, el proyecto debe estar centrado en un área o un proceso.
Modelo lógico de datos
El modelo lógico de datos debe tener un alcance más alto y cubrir todas las áreas de interés, así como los procesos más estratégicos de cada una de ellas.
Proyecto Especializado o Proyecto Base
Decidir sobre qué tipo de proyecto, es algo complicado. Un proyecto especializado soporta directamente un proceso específico, por ejemplo: retención de clientes.
Un proyecto base entrega capacidad genérica de análisis a todos los usuarios que tengan acceso al data warehouse, pero no tiene, entre sus funcionalidades, la solución de un problema específico o el soporte especializado de un proceso específico.
FASE 3: IMPLEMENTACION
1 ELEMENTOS A CONSIDERAR EN LA IMPLEMENTACION
10/04/23 30
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
2 ESTRATEGIAS PARA EL PROCESO DE IMPLEMENTACION
Identificar el problema en el cual el uso estratégico de la información detallada, permita conseguir una solución para generar una ventaja competitiva o un ahorro de costos.
Definir el modelo lógico de datos a implementar para resolver el problema planteado.
10/04/23 31
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
3 ESTRATEGIAS EN LA IMPLEMENTACION Definir el mejor diseño físico para el modelo de datos. El diseño físico debe estar
orientado a generar buen rendimiento en el procesamiento de consultas, a diferencia del modelo lógico que está orientado al usuario y a la facilidad de consulta.
Definir los procesos de extracción, filtro, transformación de información y carga de datos que se deben implementar para poblar ese modelo de datos.
Definir los procesos de administración de la información que permanece en el data warehouse
Definir las formas de consultas a la información del data warehouse que se le proporcionará al usuario. Para ésto, debe considerarse la necesidad de resolver un problema y la potencia de consulta.
Completar el modelo de consulta base, relativo al área seleccionada. Implementar los procesos estratégicos del área de trabajo, es decir, implementar
herramientas especializadas de scoring, herramientas especializadas para inducción de conocimiento (Data Mining), etc.
Completar las áreas de interés, en forma similar a lo descrito anteriormente.
10/04/23 32
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
¿Qué clases de costos excedieron el presupuesto en más del 10% en cada uno de los 12 meses pasados?
¿Se aumentaron los presupuestos en más de 5% para cualquier área dentro de los últimos 18 meses?
¿Cómo especificar las clases de gasto entre diferentes departamentos? ¿Entre divisiones? ¿A través de las regiones geográficas?
¿Cómo tener márgenes de operación sobre los dos últimos años en cada área de negocio? Donde han disminuido los márgenes, ¿se han incrementado los costos?
FASE 4: EVALUACION
1 EVALUACION DE RENDIMIENTO DE LA INVERSION
10/04/23 33
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
CASO PRACTICO En un estudio encargado por 20 vendedores y consultores, se encontró un
Retorno Promedio Total de la inversión (Return On Investment-ROI) de 401%.También, se excluyeron los proyectos fracasados, así como los ejecutados excepcionalmente, tanto buenos como malos.
2.2 MillonesCosto promedio
2.3 AñosPeríodo de reembolso promedio
160%ROI mediano
533%ROI promedio del modelo complementario de datos
322%ROI promedio del proyecto más grande
401%ROI promedio total
CAMBIOS DE VALOR
10/04/23 34
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
1.1 COSTOS Y BENEFICIOS
Costos preliminares Planificación Diseño Modelamiento /Ingeniería de
Información
Costos iniciales Plataforma de hardware Software de base de datos
Costos en procesamiento Mantenimiento de datos Desarrollo de aplicaciones Capacitación y soporte
Beneficios Tácticos Impresión y emisión de reporte
reducido Demanda reducida para consultas de
clientes - Entrega más rápida de información a los
usuarios
Beneficios Estratégicos (Potencialidad) Aplicaciones y herramientas de
acceso para los usuarios finales Decisiones con mayor información Toma de decisiones más rápida Capacidad de soporte a la
información organizacional
10/04/23 35
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
Administración de las Tecnologías de la Información
2 BENEFICIOS A OBTENER
Para la Empresa
El data warehouse hace lo posible por aprovechar el valor potencial enorme de los recursos de información de la empresa y volver ese valor potencial en valor verdadero.
Para los Usuarios
El data warehouse extiende el alcance de la información para que puedan accesar directamente en línea, lo que a la vez contribuye en su capacidad para operar con mayor efectividad las tareas rutinarias o no.
Para la Organización en Tecnologías de Información
El data warehouse enriquece las capacidades del usuario autosuficiente y hace lo factible para ofrecer nuevos servicios a los usuarios, sin interferir con las aplicaciones cotidianas de producción
10/04/23 36
Importante: El Modelo de Datos
Es el modelo por el cual se diseña el esquema de funcionamiento de la Base de Datos que provee al Data Warehouse.
Existen varios enfoques en este sentido:
Fábrica de información corporativa (CIF): incluyen ODS, data warehouse y data marts, junto con otras varias interfaces de aplicaciones y el ambiente operacional, fue desarrollada por Bill Inmon, Claudia Imhoff, y Ryan Sousa Esquema en estrella: Este método replica las estructuras multidimensionales de hechos y dimensiones, pero usa tablas de RDBMS, específicamente tablas de hechos y tablas de dimensiones. Se dejan de lado las reglas de normalización de base de datos y se ponen los datos donde tienen más sentido Data vault (Arquitectura de modelado fundacional común -CFIMA): Esta es una arquitectura de integración de datos que contiene una base de datos orientada al detalle que contiene un conjunto de tablas normalizadas únicamente enlazadas que soportan una o más áreas funcionales de las tablas de negocio con tablas satélites para rastrear cambios históricos. Este enfoque híbrido reúne lo mejor del cruce entre la tercera forma normal (3NF)
10/04/23 37 Administración de las Tecnologías
de la Información
Page 38
DATA WAREHOUSE VS BD OPERACIONAL
Uso de Base de Datos Operacionales
Uso deData Warehouse
Muchos usuarios concurrentes Pocos usuarios concurrentes
Consultas predefinidas y actualizables
Consultas complejas, frecuentementeno anticipadas.
Cantidades pequeñas de datos resumidas.
Cantidades grandes de datos resumidas.
Requerimientos de respuesta inmediata
Requerimientos de respuesta no críticos
10/04/23 38 Administración de las Tecnologías de la Información
Modelo de Estrella
10/04/23 39 Administración de las Tecnologías de la Información
Extracción, Transformación y Carga Extracción
Multiples Fuentes Orientadas a trabajo Batch : cagas de estos sistemas son más fuertes
cuando los sistemas de producción tienen poca carga Conectvidad a diferentes tecnologías, diferentes manejadores de BDs
Transformación Manipulación de data compleja Reunión de diferentes fuentes Implementación de reglas de negocio Limpiado, ordenado, eliminación de duplicidades Optimizado para el desempeño y para grandes volúmenes
Carga Cargar la data en tablas de hechos y dimensiones Produce un historial en archivos o en la BD para trazabilidad
Otros Controla los flujos de ejecución: maneja las dependencias entre tareas,
control de ejecución, gestión de errores, registros históricos.
40
10/04/23 Administración de las Tecnologías de la Información
Ejemplos de transformación
Transformación de Búsqueda difusa Busca valores en las tablas usando criterios difusos Ejemplo: Para un campo de texto la data puede contener muchas variantes de la misma
palabra (“friend”, “a friend”, “freind”, etc). La lógica difusa puede ayudar a reunir las variantes.
Transformación de dimensiones de cambio lento Ayuda a manejar la actualización de una dimensión de cambio lento
Ejemplo : la información sobre los consumidores cambia constantemente, pero queremos una historia de estos
• Cambio de dirección no queremos el valor anteiror (reemplazo)• Un cambio en el valor VAT ‘duplicamos’ la entrada del consumidor agregando los datos
adicionales (para propósitos financieros)
41
Customer table Bill TableCustomer ID Last Name City Company VAT Nb Bill ID Customer ID Date Amount
FR 1234567 67890 00012345 01/01/2008 500 €FR 5555566 89567 00012345 01/06/2008 400 €
00012345 DESPRIEE Paris
OLTP Model
DimCustomer FactBill TableCustomer Key Customer ID Last Name City Company VAT Nb Bill ID Customer Key Date Amount
2048 00012345 DESPRIEE Paris FR 1234567 67890 2048 01/01/2008 500 €3057 00012345 DESPRIEE Paris FR 5555566 89567 3057 01/06/2008 400 €
OLAP Model
Clave sustitutaClave sustituta
10/04/23 Administración de las Tecnologías de la Información
Control de la Ejecución
Los datos son muy sensibles, la calidad de los reportes depende la calidad de estos
Cargar un Data Warehouse puede implicar reglas complejas de extracción, transformación y carga
Los usuarios del negocio no confiarán en un DW si no confían en su carga
42
10/04/23 Administración de las Tecnologías de la Información
Ejemplos de paquetes en ETL
Flujo de control y flujo de datos
43
10/04/23 Administración de las Tecnologías de la Información
Middleware
Son Instancias intermedias a la carga y al acceso que sirven para verificar la calidad y fiabilidad de la data Estación de transformación interina: un área en la cual grupos
de datos extraídos de alguna de las fuentes pasan por un proceso de transformación antes de moverse hacia la base de datos del almacén.
Estación de aseguramiento de la calidad: Un área en la cual grupos de datos pasan por un conjunto de intensas revisiones de aseguramiento de la calidad antes de pasar hacia el almacén de datos.
10/04/23 44 Administración de las Tecnologías de la Información
Middleware (2)
10/04/23 45 Administración de las Tecnologías de la Información
Solución: crear almacenes de datos especializados por área, que reciben los datos desde el almacén centralizado, estos almacenes se conocen como Data Marts.
•Problema: al crecer el DW. El rendimiento de las consultas decae y el modelo centralizado deja de ser optimo.
10/04/23 46 Administración de las Tecnologías de la Información
Toma de decisiones
• Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos
de un área de negocio
específica.
• Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.
DATAMART
10/04/23 47 Administración de las Tecnologías de la Información
Data Mart
Puede ser alimentado desde los datos de un
DWH, o integrar por si mismo un compendio de distintas fuentes de información.
10/04/23 48 Administración de las Tecnologías de la Información
Data Warehouses Vs. Data Marts
Data Mart
Departamental
Un solo tema
Pocos
<
100 GB
Meses
Data MartData
Warehouse
Propiedad
Alcance
Tema
Fuente de datos
Tamaño (típico)
Tiempo de implementación
Data Warehouse
Empresarial
Múltiples
Muchas
100 GB to > 1 TB
Meses a años
10/04/23 49 Administración de las Tecnologías de la Información
Su objetivo es agilizar la consulta de grandes cantidades de datos. Caracteriza la Arquitectura necesaria para la implementación de un sistema de ayuda en la toma de decisiones. La consultas son pocas pero son muy consumidoras de tiempo (pueden correr horas), las actualizaciones son menos frecuentes y/o la respuesta a la consulta no depende del hecho de tener actualizada la base de datos.
Soporte análisis multidimensional y procesamiento analítico en línea(OLAP)
10/04/23 50 Administración de las Tecnologías de la Información
• Soporte análisis multidimensional y procesamiento analítico en línea(OLAP)
Los datos son clasificados en diferentes dimensiones y pueden ser vistas unas con otras en diferentes combinaciones para obtener diferentes análisis de los datos que contienen.
Los Usuarios pueden formular consultas complejas, arreglar datos en un reporte, cambiar de
datos resumidos a datos detallados.
CARACTERISTICAS
10/04/23 51 Administración de las Tecnologías de la Información
ROLAP (Relational OLAP) MOLAP (multidimensional OLAP)
Almacena los datos en un motor relacional
Almacena los datos en una base de datos multidimensional
Muchas dimensiones Diez o menos dimensiones
Soportan analisis OLAP contra grandes volumenens de datos
Se comportan razonablemente en volumenes de datos mas reducidos (menos de 5Gb)
Herramienta flexible y general Solución particular con volúmenes de información y numero de dimensiones mas modestos
Clasificación según el tipo de motor en el que estén almacenados los datos:
10/04/23 52 Administración de las Tecnologías de la Información
Consultando un cubo
Trim4Trim1 Trim2 Trim3Dimensión tiempo
Santiago
Quito
Arequipa
Dim
ensi
ón C
iuda
d
Manzana
PañalYogurt
LimaVentas
Fact
Melon
Dimen
sión P
rodu
cto
10/04/23 53 Administración de las Tecnologías de la Información
LA ESTRUCTURA DE UN CUBO
5410/04/23 Administración de las Tecnologías de la Información
55
Hechos PrincipalesHechos Principales
10/04/23 Administración de las Tecnologías de la Información
56
MedidasMedidas
10/04/23 Administración de las Tecnologías de la Información
57
Medida :cuenta de suscriptor x mes
(para agilizar cálculos)
Medida :cuenta de suscriptor x mes
(para agilizar cálculos)
10/04/23 Administración de las Tecnologías de la Información
58
Medida:Tasa de cambio de moneda, esta se expresa en una sola, independientemente de la divisa de pago.
Medida:Tasa de cambio de moneda, esta se expresa en una sola, independientemente de la divisa de pago.
10/04/23 Administración de las Tecnologías de la Información
59
Dimensiones
La Dimensión fecha se usa más de una vez (dimensión con rol)
Dimensiones
La Dimensión fecha se usa más de una vez (dimensión con rol)
10/04/23 Administración de las Tecnologías de la Información
60
RelacionesUna relación regularRelacionesUna relación regular
10/04/23 Administración de las Tecnologías de la Información
The cube structure
61
RelacionesUna relación de hechoRelacionesUna relación de hecho
10/04/23 Administración de las Tecnologías de la Información
62
RelacionesUna relación referenciadaRelacionesUna relación referenciada
10/04/23 Administración de las Tecnologías de la Información
The cube structure
63
RelacionesUna relación de « muchos a muchos »
Dim Product Fact ChargesFact Charges Dim SubscriberDim Subscriber Fact Subscriber
RelacionesUna relación de « muchos a muchos »
Dim Product Fact ChargesFact Charges Dim SubscriberDim Subscriber Fact Subscriber
10/04/23 Administración de las Tecnologías de la Información
LOGO
Administración de las Tecnologías de la Información
DATA MININGMinería de Datos
10/04/23 64
Administración de las Tecnologías de la Información
ContentsDATA MINING
1. What is Data Mining?
2. ¿POR QUÉ?
3. Data Mining un proceso
4. Importante
10/04/23 65
5. Anexos
What is Data Mining?
El data mining es el conjunto de técnicas y tecnologías que permiten explorar grandes BBDD, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
Administración de las Tecnologías de la Información 6610/04/23
What is Data Mining?
Arte/Ciencia de descubrir y aprovecha enforma automática información no-obvia y útil en grandes bases de datos
Administración de las Tecnologías de la Información 6710/04/23
Énfasis en:• no-obvia (no intuitivas)• útil (coste vs beneficio)• grande (proceso automático)
No hay reglas siempre que el proceso sea eficiente entiempo, dinero y recursos humanos
Tres pasos
Preparación de los datos
Análisis de datos
Toma de decisiones
Redes Neuronales
10/04/23 68 Administración de las Tecnologías de la Información
Preparación de datos
Extracción / IntegraciónTransformación
SelecciónLimpieza
Data warehouse
50-80% tiempo del proyecto
10/04/23 69 Administración de las Tecnologías de la Información
LOGO
10/04/23 Administración de las Tecnologías de la Información
70
“Scrubbing, selecting, cleansing, preprocessing,…”
• Eliminar redundancia• Eliminar datos y variables irrelevantes• Tratar datos ausentes
media, substitución astuta, interpolación, ignorar, ?• Corrección errores• Outliers (datos fuera de rango)• Verificar consistencia
• Reservar todo preprocesamiento relevante hasta el análisis
10/04/23 71 Administración de las Tecnologías de la Información
Anáslisis de datos
Técnicas:
• Árboles de decisión • Reglas de asociación • Ajustes (regresiones..)• Algoritmos genéticos• Redes neuronales• …
Tareas conceptuales:
• Clasificación• Optimización• Interpolación• Modelación• Predicción• …
Objetivos:
• Target marketing• Segmentación• Control• Predicción ventas• Descubrir imperfecciones• …
10/04/23 72 Administración de las Tecnologías de la Información
Toma de decisiones
Los resultados del análisis pueden resultar inescrutables
• El analista debe entender el problema a fondo• Los resultados deben presentarse con honestidad• El post-procesamiento y la inclusión de factores subjectivos
son a menudo necesarios• Validación estricta
10/04/23 73 Administración de las Tecnologías de la Información
Administración de las Tecnologías de la Información
¿PARA QUÉ?
10/04/23 74
Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación “one-to-one” con sus clientes.
Las empresas recogen datos de todos lo procesos.
Los datos recogidos se tienen que analizar, comprender y convertir en información con la que se pueda actuar y aquí es donde Data Mining juega su papel
Administración de las Tecnologías de la Información
Data Mining proporciona la Inteligencia
10/04/23 75
El Data Warehouse proporciona los datos. La inteligencia permitirá buscar en esos datos
tratando de encontrar patrones, descubrir reglas, nuevas ideas que probar, y hacer predicciones acerca del futuro
Se estudiarán las técnicas y herramientas que añaden la “inteligencia” al datawarehouse para explotar los datos de los clientes y sacar el máximo rendimiento
Administración de las Tecnologías de la Información
Relación
10/04/23 76
Relación con el Data Mining Está asociado al escalón más alto de la pirámide (Nivel Estratégico) y tiene por objeto eliminar los errores cometidos por las personas al analizar los datos debido a prejuicios y dejar que sean los datos los que muestren los modelos subyacentes en ellos.
Mientras en Data Warehousing, se basan en estructuras multidimensionales, en las que se almacena la información calculando previamente todas las combinaciones de todos los niveles de todas las aperturas de análisis.
Aunque este método se puede considerar como exagerado, nunca será tan caro, como lo que le costaría a la organización el tomar las decisiones equivocadas.
¿Como nos ayudan?
¿Qué clientes permanecerán fieles? ¿Qué clientes están a punto de abandonar? ¿Dónde debemos localizar la próxima
sucursal? ¿Qué productos se deben promocionar a
qué prospectos? ...
Las respuestas a estas preguntas están enterradas en los datos y se necesitan las técnicas de Data Mining para buscarlas
Administración de las Tecnologías de la Información
7710/04/23
Administración de las Tecnologías de la Información
Data Mining un proceso
Pasos
10/04/23 78
Data Mining un proceso
Administración de las Tecnologías de la Información
7910/04/23
Identificar
un problema
Usar data mining para transformar los datos en información
Actuar basándonos en la información
Medir los resultados
LOGO
10/04/23 Administración de las Tecnologías de la Información
80
•OBJETIVOEstablecer la secuencia de lógica de actividades, responsables e información necesaria que permita controlar, recopilar y procesar información primaria y secundaria. •ALCANCE•El presente procedimiento permite la publicación de información clasificada por sector, iniciándose con la coordinación de la disponibilidad de información y finalizando con el ingreso de información al sistema. El presente documento aplica para el Departamento de Información y Negocios Electrónicos de la Sub Dirección de Inteligencia y Prospectiva Comercial.
•OBJETIVOEstablecer la secuencia de lógica de actividades, responsables e información necesaria que permita controlar, recopilar y procesar información primaria y secundaria. •ALCANCE•El presente procedimiento permite la publicación de información clasificada por sector, iniciándose con la coordinación de la disponibilidad de información y finalizando con el ingreso de información al sistema. El presente documento aplica para el Departamento de Información y Negocios Electrónicos de la Sub Dirección de Inteligencia y Prospectiva Comercial.
LOGO
10/04/23 Administración de las Tecnologías de la Información
81
Dirección de Promoción de ExportacionesSubdirección de Inteligencia y Prospectiva Comercial
7Distribuir información a
sectoristas
FIN
Especialista en Procesamiento e Información Estadística
6Clasificar información
por sector
Departamento de Información y Negocios Electrónicos
Leyenda
1Coordinar disponibilidad
de información
2Extraer información de base de datos SUNAT
INICIO
INICIO / FIN Entidad ExternaActividad Decisión? Otro Procedimiento
A 1Conector dentro de página Conector a otra página Inicio y fin de actividades en paralelo
5Coordinar
actualizaciónEs conforme?
3Transferir información
a INFOTRADE
4Validar información
cargada
No
Si
SUNAT
SUNAT
Elab. base datos compradores
internacionales
Elaboración de informe mensual de
exportaciones
Elaboración de informes especiales
LOGO
10/04/23 Administración de las Tecnologías de la Información
82
LOGO
10/04/23 Administración de las Tecnologías de la Información
83
Dirección de Promoción de ExportacionesSubdirección de Inteligencia y Prospectiva Comercial
FIN
Departamento de Información y Negocios Electrónicos
Leyenda INICIO / FIN Actividad Decisión? Otro Procedimiento
A 1Conector dentro de página Conector a otra página Inicio y fin de actividades en paraleloEntidad Externa
INICIO
1Recopila información de fuentes externas
3Transfiere información
a base de datos
Especialista en PROCOM y Portal Institucional
5Actualiza información
de base de datos
Información encontrada?
7Busca información de
compradores
2Ordena y guarda
información
Soporte y Mantenimiento
Plataforma SIICEX
Subdirección de Promoción Comercial
Especialista de Promoción Comercial
4Califica acceso de
información
10Prioriza atención
8Remite requerimiento
Coordinador de Información y Negocios Electrónicos
11Extrae información de
compradores
Si
No
A
A
9Registrar el
requerimiento
Usuarios Internos y/o Externos
6Califica acceso de
información
Administración de las Tecnologías de la Información
Importante
10/04/23 84
La promesa de Data Mining es encontrar los patronesSimplemente el hallazgo de los patrones no es suficienteDebemos ser capaces de entender los patrones, responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa
La promesa de Data Mining es encontrar los patronesSimplemente el hallazgo de los patrones no es suficienteDebemos ser capaces de entender los patrones, responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa
Data Mining resumen
Administración de las Tecnologías de la Información
8510/04/23
Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo.
Aunque los algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas.
Las técnicas se tienen que aplicar en el caso correcto a los datos correctos
Conclusiones
Administración de las Tecnologías de la Información
8610/04/23
El concepto de DWH está teniendo una gran aplicación en la actualidad para el desarrollo de las empresas, como almacén de datos. Sus objetivos incluyen la reducción de los costes de almacenamiento y una mayor velocidad de respuesta frente a las consultas de los usuarios. Estos pueden ahora analizar y realizar preguntas sobre años, más que sobre meses de información.
Para diseñar una buena arquitectura de DWH es necesario como primer paso conocer bien los requerimientos del negocio y hacer un estudio profundo de las fuentes externas que nos van a suministrar los datos. Además, hacer un buen diseño del área de transformación de datos, cuáles son las transformaciones que se van a realizar y cómo se va a implementar el modelo dimensional con sus tablas de hechos y de dimensiones es el segundo paso a seguir.
Resumiendo los beneficios de la arquitectura del DWH :
Administración de las Tecnologías de la Información
8710/04/23
Provee un esquema de organización – cuáles son los componentes que la forman, cómo ellos se interrelacionan, quién es el dueño de cada parte y cuáles son las prioridades.
Mejora la flexibilidad – permite que rápidamente se añadan nuevas fuentes de datos.
Desarrollo rápido y reuso – los desarrolladores de DWH son más capaces de comprender el proceso de DWH , los contenidos de las bases de datos y las reglas del negocio más rápidamente.
Herramientas de comunicaciones – define y comunica la dirección y el alcance de las expectativas , identifica los roles y responsabilidades y comunica los requerimientos al proveedor.
LOGO
Administración de las Tecnologías de la Información
Que la tecnología no te entierre¡¡¡
10/04/23 88
LOGO
ANEXOSREDES NEURONALES
10/04/23 Administración de las Tecnologías de la Información
89
Fuente: José Ignacio LatorreUniversitat de Barcelona
http://sophia.ecm.ub.es/latorre/
¿Por qué no se emplea el Data Mining?
• Explotación “bruta” de las bases de datos da resultados sin sentido o no-competitivos Sentido común y buena formación = coste elevado
• Sí se emplea, pero poca gente es consciente
Data Mining
10/04/23 90 Administración de las Tecnologías de la Información
Redes Neuronales
10/04/23 91 Administración de las Tecnologías de la Información
¿Qué es una red neuronal?
DatosDatos históricos
variables objetivosDatos nuevos
variables ??
Las redes neuronales aprenden a partir de ejemplos
Economista/Matemático/Físico/Analista Aproximante universal(Permiten un ajuste a partir de ejemplos enun gran espacio de funciones sin sesgo,robusto, flexible que implementa inferencia bayesiana)
Economista/Empresario Herramienta de predicción (objetivo, consolidado, adaptable a problemas complejos, integrable)
Modelo del cerebro
Redes neuronales
10/04/23 92 Administración de las Tecnologías de la Información
Redes neuronales
¿Para qué sirven una red neuronal?
• ClasificaciónClientes buenos/malos, comprometidos o no, asequibles o noReconocimiento de patrones
• InterpolaciónAdivinar el comportamiento de un nuevo clienteCrear una nueva pintura
• PredicciónVentas, meteorología, finanzas, control de producción
Las redes neuronales pueden ser aplicadas a cualquierproblema de inferencia estadística
10/04/23 93 Administración de las Tecnologías de la Información
¿Cómo funciona una red neuronal?
capa 1
capa 2
capa l
.....
)()1(
)1(
1
)()( li
lj
ln
j
lij
li tzwfz
Red neuronal
feedforward
multicapa
Redes neuronales
10/04/23 94 Administración de las Tecnologías de la Información
Redes neuronales
)()1(
)1(
1
)()( li
lj
ln
j
lij
li tzwfz
• La función de activación ƒ da flexibilidad para que la respuesta de cada neurona pueda ser no lineal• Los pesos w y los umbrales t determinan la forma en que la información es procesada por cada neurona• El número de capas y de neuronas por capa definen la arquitectura de la red neuronal
El algoritmo de aprendizaje por corrección de errores hacia atrás, “back-propagation” (1985) establece un procedimiento eficiente para ajustar los pesos y umbrales de una red neuronal de forma que aprenda ejemplos.
¡Hemos aprendido a aprender!
10/04/23 95 Administración de las Tecnologías de la Información
Redes neuronales
T vs C
CT cTCTTC
Entrenamiento
0. w y t aleatorios1. Introducir un ejempo (T)2. Output = T
bienOutput = C
error3. Propagar un cambio de w and t a través de la red
para reducir el error4. Repetir con todos los
ejemplos varias veces
Aprendizaje supervisado de T / C
T
Robusto UniversalSin sesgo
10/04/23 96 Administración de las Tecnologías de la Información
Redes neuronales
Belgrado 19/04/1999
Una red neuronal es entrenada con patrones de aviones
La red detecta un aviónmilitar escondido bajo unavión comercial
10/04/23 97 Administración de las Tecnologías de la Información
Finanzas
Data Mining
Divorcios
Ciencia
Banca
Reconocimientode patrones
10/04/23 98 Administración de las Tecnologías de la Información
Tarjetas de crédito
1. 50000 clientes reciben la oferta
2. Un red neuronal es entrenada conlas respuestas
3. La red predice la respuesta de los450000 clientes restantes
Un banco desea ofrecer una nueva tarjeta a sus clientes
Depósitos SalarioEdad Sexo CréditosHipotecas Educación
Sí / No
Red neuronal
Ejemplos
10/04/23 99 Administración de las Tecnologías de la Información
Ejemplos
Lift Chart
% de clientes contactados
% deRespuestas positivasretenidas
10/04/23 100 Administración de las Tecnologías de la Información
Promedios sobre redes entrenadas a partir de pesos aleatorios Si existe un modelo subyacente, las redes son equivalentesSi no existe un modelo subyacente, las redes producen dispersión
• Lanzamos 100 redes sobre datos entrenar/validar• Para cada dato tenemos un promedio y una dispersión• Descartamos 3 sigma
AlarmasArbitraje….
-1 sigma
+ 1sigma
NN
Real
Ejemplos
Series temporales de cotizaciones
10/04/23 101 Administración de las Tecnologías de la Información
Ejemplos
¿Estoy divorciado?
Una red neuronal ha sido entrenada con
• área del apartamento• ¿es relevante la virginidad? ¿divorciado?• salario sí / no• visitas de los suegros• salud,..
Acierto: 88%
Matemáticas / Filosofía 100%
10/04/23 102 Administración de las Tecnologías de la Información