Data Quality

Post on 14-Jun-2015

491 views 0 download

Transcript of Data Quality

“Soluciones de Gestión de Datos”

Luis Rodriguez

Lima, jueves, 13 de abril de 2023

CALIDAD

DE

DATOS

Calidad de Datos

• Los datos son ACTIVOS de las empresas, pero no se administran con el mismo rigor que los activos tradicionales.

• Lograr y mantener un adecuado nivel de Calidad de Datos requiere un esfuerzo planeado y permanente que cuesta tiempo, dedicación y dinero.

• Los datos, en la mayoría de las organizaciones, son deficientes encalidad.

Calidad de Datos

• Los problemas de Calidad de Datos son universales – existen en toda organización.

• Por lo general estos problemas ocurren, no por una mala administración, sino por la ejecución normal de los procesos de negocio en las organizaciones.

• Un pequeño error en algún sistema transaccional se puede convertir en un problema grave para la toma de decisiones.

Calidad de Datos

• Factores que afectan a la calidad de datos

Procesos Externos• Migración• Consolidación• Entrada Manual• Cargas Masivas• Interfaces

Procesos Internos• Procesamiento• Limpieza• Depuración

Deterioro Natural• Nuevo uso de los datos• Cambios no registrados• Actualización de Sistemas• Pérdida de conocimientos• Automatización de los procesos

BASES DE DATOS

Calidad de Datos

• Beneficios del manejo adecuado de la Calidad de Datos

– Mayor confianza en los sistemas de toma de decisiones (76%).

– Mejor tiempo para cuadres de información (70%).

– Única visión de la verdad (69%).

– Satisfacción del cliente (57%).

– Reducción de costos (56%).

– Aumento en los ingresos (30%).

Fuente: The Data Warehousing Institute (TDWI)

Calidad de Datos

• Datos propensos a problemas de Calidad de datos

• Los datos de los clientes 74%.

• Datos de los productos 43%.

• Los datos financieros 36%.

• Datos de contacto de ventas 27%.

• Datos de los sistemas ERP 25%.

Fuente: The Data Warehousing Institute (TDWI)

Calidad de Datos

• Procesos de Calidad de Datos

Perfilamiento de Datos

Limpieza de Datos

Monitoreo de Calidad de

Datos

Calidad de Datos

• Perfilamiento de datos (Data Profiling)

- Proceso de reconstruir el conjunto de rasgos particulares que caracterizan los datos.

- Consiste en la aplicación de técnicas analíticas a los datos para determinar:

* Contenido

* Estructura

* Calidad

Calidad de Datos

• Perfilamiento de datos (Data Profiling)

- Se utilizan dos métodos:

* Descubrimiento: Se revelas las características de los datos a partir de los mismos.

* Pruebas asertivas: Se formulan condiciones verdaderas (Reglas) y se prueban sobre los datos.

Calidad de Datos

• Pasos para el análisis de los datos

Análisis de las propiedades de las columnas

Análisis de la estructura

Análisis de reglas de datos simples

Análisis de reglas de datos compuestas

Análisis estadístico de los valores

Valores no validos

Combinaciones válidas de valores no validos

Resultados ilógicos

DATOS

INEXACTOS

No detectables con técnicas analíticas

Calidad de Datos

• ¿Cuándo hacer un Perfilamiento de Datos?

– Proyectos de evaluación o mejoramiento de calidad de datos.

– Proyectos de TI que trasladan datos a otras estructuras, migran o consolidan datos.

– Las bases de datos importantes de la organización se deben “Perfilar” periódicamente.

Calidad de Datos

• Limpieza de datos (Data Cleansing)

– Implementación de una metodología confiable de calidad de datos que soluciona desde problemas técnicos a esquemas complejos de negocios.

• Normalización.

• Desduplicación.

• Parsing y estandarización.

• Enriquecimiento de los datos.

LA PLATAFORMA DE INFORMATICA

¿Por qué INFORMATICA?

• Liderazgo tecnológico comprobado.

• Amplia trayectoria de innovación continua.

• El socio confiable más neutral.

• Larga historia de éxitos de clientes.

date, we’ve seen a return on our investment from this program over 2,000 percent”.

“… complete, accurate and timely data is a fundamental requirement for optimal performance”

Enfoque singular en la Integración de Datos.

• Plataforma de Integración de datos líder según Gartner (Octubre 2012).

¿Por qué INFORMATICA?

• Plataforma de Calidad de datos líder según Gartner (Agosto 2012).

¿Por qué INFORMATICA?

• Plataforma de ETL Empresarial líder según Forrester (Q1, 2012).

¿Por qué INFORMATICA?

• Plataforma de Calidad de datos líder según Forrester (Q1, 2012).

¿Por qué INFORMATICA?

Entrega información oportuna a la empresa- Dar soporte durante todo el ciclo de vida de integración de los datos

- Permite el desarrollo de cualquier proyecto de integración de datos

- Entrega de información en cualquier latencia

Maximiza la productividad- Colaboración basada en roles y perfiles

- Servicios compartidos

- Interfaces uniformes

Agnóstica en integración con aplicaciones heterogéneas- Acceso a datos desde cualquier fuente

- Mitiga los riesgos de trabajar con tecnologías actuales y de futuro

Enfoque económico de Integración de Datos- Reduce el costo total de propiedad (TCO), Hacer más con menos.

- Rápido retorno de la inversión (ROI)

Integral

Unificada

Económica

Abierta

¿Por qué INFORMATICA?

Data Quality Assessment

Data Loader

Data Synchronization

Data Replication Cloud EditionGlobal Address

VerificationCloud Edition

Data Transformation

Data Exchange

Standard Edition

Data Archive

Data Subset

Data Privacy

RulePoint

RuleCast

Real-TimeAlert Manager

Real-time Edition

Advanced Edition

PowerExchange

Data Explorer

Data Quality

IdentityResolution

AddressDoctorBusiness Director

Multi-domain Hub

Latency Buster Messaging (LBM)

Ultra Messaging (UME)

La Plataforma de Informatica

Análisis y perfilado de los datos

Parsingy

Standardization

Validación de direcciones

Matching y desduplicación

Monitoreo &

Reporting

Data Quality

Data Quality

• Seis Dimensiones de Data Quality

Completitud Qué datos se pierden o son inservibles?

Conformidad Qué datos se almacenan en un formato no estandar?

Consistencia Qué valores de datos dan información inconsistente?

Precisión Qué datos son incorrectos o fuera de fecha?

Duplicidad Qué datos o atributos están repetidos?

Integridad Qué datos se pierden o no son referenciados?

Análisis de Datos

Datos extraídos

Entrada de Archivode datos

Análisis

Depuración de los datos

Alta calidadde datos

Qualityreports

Evaluar la integridad de los datos, su conformidad y consistencia

MatchingEvaluar la duplicación dedatos, integridad, yexactitud

Estandarización Mejoramiento de la integridad de los datos, conformidad y consistencia

ConsolidaciónEliminar datos duplicadosMejorar la integridadReemplazar los datosinexactos

d

Análisis de salida

Informatica Data Quality enfoca los datos del ciclo de vida a través de cuatro módulos flexibles:

Baja calidadde datos Salida de

Archivo de datos

Data Quality

• Enfoque Modular

Data Quality

1. Perfilar

2. Establecer métricas y objetivos

3. Definir reglas de negocio

4. Implementar servicios de DQ

6. Monitoreo de las metricas

5. Revisar Excepciones

Usuario deNegocio

UsuarioTI

AnalistaDe

Datos

Scorecards

Browser-based tool

Data Quality para TI y el negocio

Data Quality

Data Quality

• Descubrir - Perfilar: Comprensión Sencilla de los Datos

Incremento productividad y eficiencia al habilitar al negocio a tomar responsabilidad de la calidad de los datos de manera proactiva y así

reducir su dependencia de IT.

• Rápido análisis de datos en múltiples orígenes.

• Catálogo de los detalles de cada dato en repositorio.

• Tablas, columnas, dominios, estructura de datos (Inferido y Documentado).

• Redundancia y completitud de Datos.

• Estado y incidentes de DQ a alto nivel.

• Marcar datos y documentar instrucciones para desarrollos de procesos.

Aplicar reglas dentro del perfilamiento desde el origen de datos.

Seleccionar reglas pre-definidas o crear propias.

Informatica Delivered Rules

Custom Developer Created Rules

Data Quality

• Descubrir - Perfilar: Aplicación de Reglas de Negocio

Aplicar las reglas en el perfilado.

Ejecutar el perfilado para ver los resultados.

Opcionalmente ejecutar solo una regla y no todo el perfilado.

Data Quality

• Descubrir - Perfilar: Aplicación de Reglas de Negocio

• Creación de Métricas de seguimiento para todos los datos

• Ver la calidad de los datos y poder moverse entre ellos

• Monitorear tendencias

• Compartir cuadros de mando con el resto de usuarios

Todos los usuarios de negocio tienen una vista única y compartida de la calidad de los datos, así participan en su governance

Data Quality

• Usuario de negocio: Herramienta web sencilla

Data Quality

• Análisis de Join

Condiciones de Join

Resultados

Drill Down de los datos

Exportar

Data Quality

• Matching y consolidación

Selección de campos

Consolidación

Previsualización de resultados

Filtro por incidencia

Filtro por columna

Auditoria

Manejo de filtros para la vista

Flag de acción para los registros: “Accepted”, “Rejected”, o “Reprocessed”

Data Quality

• Revisión de excepciones

Funcion de Cluster y Master

Auditoria

Manejo de filtros para la vista

Flag de acción: “Cluster” records o“Extract” records de un cluster para crear uno nuevo

Observaciones o comentarios

Edición de valores

Data Quality

• Revisión de duplicados

Creación de grupos por reglas

e.g. Completeness, Conformity...Conformity,

Consistency

Data Quality

• Monitoreo y reporting

Data Quality

• Monitoreo y reporting

Data Quality

• Monitoreo y reporting

Data Quality

• Monitoreo y reporting

Gracias por su atención.

lrodriguez@powerdata.pe

LATINOAMÉRICA insidesales@powerdata.pe

Chile

Av. Presidente Errázuriz Nº 2999 - Oficina 202

Las Condes, Santiago CP 7550357

Tel: (+56) 2 892 0362

Colombia

Calle 100 No. 8A-55 Torre C. Of. 718

Bogotá

Tel: (+57 1) 616 77 96

México

Insurgentes Sur Nº 600 Of. 301 y 302,

Col. del Valle, Benito Juarez

Distrito Federal, México, 03100

Tel: (+52 55) 1107-0812

Perú

Calle Los Zorzales Nº 160, piso 9

San Isidro, Lima

Tel: (+51) 1634 4901

Argentina

Avenida Leandro N Alem 530, Piso 4

CD C100 1AAN Ciudad Autónoma de Buenos Aires

Tel: (+54) 11 4314 1370

www.powerdataam.com

Barcelona

C/ Frederic Mompou, 4B 1º, 3º

08960 Sant Just Desvern

T (+34) 934 45 60 01

Valencia

Edificio Europa - 5º I Avda, Aragón, 30

46021 Valencia

T (+34) 960 91 60 25

Madrid

C/ Miguel Yuste, 17, 4º C

28037 Madrid

T (+34) 911 29 72 97

info@powerdata.es www.powerdata.esESPAÑA

insidesales@powerdataam.com