Data Quality

40

Transcript of Data Quality

Page 1: Data Quality
Page 2: Data Quality

“Soluciones de Gestión de Datos”

Luis Rodriguez

Lima, jueves, 13 de abril de 2023

Page 3: Data Quality

CALIDAD

DE

DATOS

Page 4: Data Quality

Calidad de Datos

• Los datos son ACTIVOS de las empresas, pero no se administran con el mismo rigor que los activos tradicionales.

• Lograr y mantener un adecuado nivel de Calidad de Datos requiere un esfuerzo planeado y permanente que cuesta tiempo, dedicación y dinero.

• Los datos, en la mayoría de las organizaciones, son deficientes encalidad.

Page 5: Data Quality

Calidad de Datos

• Los problemas de Calidad de Datos son universales – existen en toda organización.

• Por lo general estos problemas ocurren, no por una mala administración, sino por la ejecución normal de los procesos de negocio en las organizaciones.

• Un pequeño error en algún sistema transaccional se puede convertir en un problema grave para la toma de decisiones.

Page 6: Data Quality

Calidad de Datos

• Factores que afectan a la calidad de datos

Procesos Externos• Migración• Consolidación• Entrada Manual• Cargas Masivas• Interfaces

Procesos Internos• Procesamiento• Limpieza• Depuración

Deterioro Natural• Nuevo uso de los datos• Cambios no registrados• Actualización de Sistemas• Pérdida de conocimientos• Automatización de los procesos

BASES DE DATOS

Page 7: Data Quality

Calidad de Datos

• Beneficios del manejo adecuado de la Calidad de Datos

– Mayor confianza en los sistemas de toma de decisiones (76%).

– Mejor tiempo para cuadres de información (70%).

– Única visión de la verdad (69%).

– Satisfacción del cliente (57%).

– Reducción de costos (56%).

– Aumento en los ingresos (30%).

Fuente: The Data Warehousing Institute (TDWI)

Page 8: Data Quality

Calidad de Datos

• Datos propensos a problemas de Calidad de datos

• Los datos de los clientes 74%.

• Datos de los productos 43%.

• Los datos financieros 36%.

• Datos de contacto de ventas 27%.

• Datos de los sistemas ERP 25%.

Fuente: The Data Warehousing Institute (TDWI)

Page 9: Data Quality

Calidad de Datos

• Procesos de Calidad de Datos

Perfilamiento de Datos

Limpieza de Datos

Monitoreo de Calidad de

Datos

Page 10: Data Quality

Calidad de Datos

• Perfilamiento de datos (Data Profiling)

- Proceso de reconstruir el conjunto de rasgos particulares que caracterizan los datos.

- Consiste en la aplicación de técnicas analíticas a los datos para determinar:

* Contenido

* Estructura

* Calidad

Page 11: Data Quality

Calidad de Datos

• Perfilamiento de datos (Data Profiling)

- Se utilizan dos métodos:

* Descubrimiento: Se revelas las características de los datos a partir de los mismos.

* Pruebas asertivas: Se formulan condiciones verdaderas (Reglas) y se prueban sobre los datos.

Page 12: Data Quality

Calidad de Datos

• Pasos para el análisis de los datos

Análisis de las propiedades de las columnas

Análisis de la estructura

Análisis de reglas de datos simples

Análisis de reglas de datos compuestas

Análisis estadístico de los valores

Valores no validos

Combinaciones válidas de valores no validos

Resultados ilógicos

DATOS

INEXACTOS

No detectables con técnicas analíticas

Page 13: Data Quality

Calidad de Datos

• ¿Cuándo hacer un Perfilamiento de Datos?

– Proyectos de evaluación o mejoramiento de calidad de datos.

– Proyectos de TI que trasladan datos a otras estructuras, migran o consolidan datos.

– Las bases de datos importantes de la organización se deben “Perfilar” periódicamente.

Page 14: Data Quality

Calidad de Datos

• Limpieza de datos (Data Cleansing)

– Implementación de una metodología confiable de calidad de datos que soluciona desde problemas técnicos a esquemas complejos de negocios.

• Normalización.

• Desduplicación.

• Parsing y estandarización.

• Enriquecimiento de los datos.

Page 15: Data Quality

LA PLATAFORMA DE INFORMATICA

Page 16: Data Quality

¿Por qué INFORMATICA?

• Liderazgo tecnológico comprobado.

• Amplia trayectoria de innovación continua.

• El socio confiable más neutral.

• Larga historia de éxitos de clientes.

date, we’ve seen a return on our investment from this program over 2,000 percent”.

“… complete, accurate and timely data is a fundamental requirement for optimal performance”

Enfoque singular en la Integración de Datos.

Page 17: Data Quality

• Plataforma de Integración de datos líder según Gartner (Octubre 2012).

¿Por qué INFORMATICA?

Page 18: Data Quality

• Plataforma de Calidad de datos líder según Gartner (Agosto 2012).

¿Por qué INFORMATICA?

Page 19: Data Quality

• Plataforma de ETL Empresarial líder según Forrester (Q1, 2012).

¿Por qué INFORMATICA?

Page 20: Data Quality

• Plataforma de Calidad de datos líder según Forrester (Q1, 2012).

¿Por qué INFORMATICA?

Page 21: Data Quality

Entrega información oportuna a la empresa- Dar soporte durante todo el ciclo de vida de integración de los datos

- Permite el desarrollo de cualquier proyecto de integración de datos

- Entrega de información en cualquier latencia

Maximiza la productividad- Colaboración basada en roles y perfiles

- Servicios compartidos

- Interfaces uniformes

Agnóstica en integración con aplicaciones heterogéneas- Acceso a datos desde cualquier fuente

- Mitiga los riesgos de trabajar con tecnologías actuales y de futuro

Enfoque económico de Integración de Datos- Reduce el costo total de propiedad (TCO), Hacer más con menos.

- Rápido retorno de la inversión (ROI)

Integral

Unificada

Económica

Abierta

¿Por qué INFORMATICA?

Page 22: Data Quality

Data Quality Assessment

Data Loader

Data Synchronization

Data Replication Cloud EditionGlobal Address

VerificationCloud Edition

Data Transformation

Data Exchange

Standard Edition

Data Archive

Data Subset

Data Privacy

RulePoint

RuleCast

Real-TimeAlert Manager

Real-time Edition

Advanced Edition

PowerExchange

Data Explorer

Data Quality

IdentityResolution

AddressDoctorBusiness Director

Multi-domain Hub

Latency Buster Messaging (LBM)

Ultra Messaging (UME)

La Plataforma de Informatica

Page 23: Data Quality

Análisis y perfilado de los datos

Parsingy

Standardization

Validación de direcciones

Matching y desduplicación

Monitoreo &

Reporting

Data Quality

Page 24: Data Quality

Data Quality

• Seis Dimensiones de Data Quality

Completitud Qué datos se pierden o son inservibles?

Conformidad Qué datos se almacenan en un formato no estandar?

Consistencia Qué valores de datos dan información inconsistente?

Precisión Qué datos son incorrectos o fuera de fecha?

Duplicidad Qué datos o atributos están repetidos?

Integridad Qué datos se pierden o no son referenciados?

Page 25: Data Quality

Análisis de Datos

Datos extraídos

Entrada de Archivode datos

Análisis

Depuración de los datos

Alta calidadde datos

Qualityreports

Evaluar la integridad de los datos, su conformidad y consistencia

MatchingEvaluar la duplicación dedatos, integridad, yexactitud

Estandarización Mejoramiento de la integridad de los datos, conformidad y consistencia

ConsolidaciónEliminar datos duplicadosMejorar la integridadReemplazar los datosinexactos

d

Análisis de salida

Informatica Data Quality enfoca los datos del ciclo de vida a través de cuatro módulos flexibles:

Baja calidadde datos Salida de

Archivo de datos

Data Quality

• Enfoque Modular

Page 26: Data Quality

Data Quality

1. Perfilar

2. Establecer métricas y objetivos

3. Definir reglas de negocio

4. Implementar servicios de DQ

6. Monitoreo de las metricas

5. Revisar Excepciones

Usuario deNegocio

UsuarioTI

AnalistaDe

Datos

Scorecards

Browser-based tool

Data Quality para TI y el negocio

Data Quality

Page 27: Data Quality

Data Quality

• Descubrir - Perfilar: Comprensión Sencilla de los Datos

Incremento productividad y eficiencia al habilitar al negocio a tomar responsabilidad de la calidad de los datos de manera proactiva y así

reducir su dependencia de IT.

• Rápido análisis de datos en múltiples orígenes.

• Catálogo de los detalles de cada dato en repositorio.

• Tablas, columnas, dominios, estructura de datos (Inferido y Documentado).

• Redundancia y completitud de Datos.

• Estado y incidentes de DQ a alto nivel.

• Marcar datos y documentar instrucciones para desarrollos de procesos.

Page 28: Data Quality

Aplicar reglas dentro del perfilamiento desde el origen de datos.

Seleccionar reglas pre-definidas o crear propias.

Informatica Delivered Rules

Custom Developer Created Rules

Data Quality

• Descubrir - Perfilar: Aplicación de Reglas de Negocio

Page 29: Data Quality

Aplicar las reglas en el perfilado.

Ejecutar el perfilado para ver los resultados.

Opcionalmente ejecutar solo una regla y no todo el perfilado.

Data Quality

• Descubrir - Perfilar: Aplicación de Reglas de Negocio

Page 30: Data Quality

• Creación de Métricas de seguimiento para todos los datos

• Ver la calidad de los datos y poder moverse entre ellos

• Monitorear tendencias

• Compartir cuadros de mando con el resto de usuarios

Todos los usuarios de negocio tienen una vista única y compartida de la calidad de los datos, así participan en su governance

Data Quality

• Usuario de negocio: Herramienta web sencilla

Page 31: Data Quality

Data Quality

• Análisis de Join

Condiciones de Join

Resultados

Drill Down de los datos

Exportar

Page 32: Data Quality

Data Quality

• Matching y consolidación

Selección de campos

Consolidación

Previsualización de resultados

Page 33: Data Quality

Filtro por incidencia

Filtro por columna

Auditoria

Manejo de filtros para la vista

Flag de acción para los registros: “Accepted”, “Rejected”, o “Reprocessed”

Data Quality

• Revisión de excepciones

Page 34: Data Quality

Funcion de Cluster y Master

Auditoria

Manejo de filtros para la vista

Flag de acción: “Cluster” records o“Extract” records de un cluster para crear uno nuevo

Observaciones o comentarios

Edición de valores

Data Quality

• Revisión de duplicados

Page 35: Data Quality

Creación de grupos por reglas

e.g. Completeness, Conformity...Conformity,

Consistency

Data Quality

• Monitoreo y reporting

Page 36: Data Quality

Data Quality

• Monitoreo y reporting

Page 37: Data Quality

Data Quality

• Monitoreo y reporting

Page 38: Data Quality

Data Quality

• Monitoreo y reporting

Page 39: Data Quality

Gracias por su atención.

[email protected]

Page 40: Data Quality

LATINOAMÉRICA [email protected]

Chile

Av. Presidente Errázuriz Nº 2999 - Oficina 202

Las Condes, Santiago CP 7550357

Tel: (+56) 2 892 0362

Colombia

Calle 100 No. 8A-55 Torre C. Of. 718

Bogotá

Tel: (+57 1) 616 77 96

México

Insurgentes Sur Nº 600 Of. 301 y 302,

Col. del Valle, Benito Juarez

Distrito Federal, México, 03100

Tel: (+52 55) 1107-0812

Perú

Calle Los Zorzales Nº 160, piso 9

San Isidro, Lima

Tel: (+51) 1634 4901

Argentina

Avenida Leandro N Alem 530, Piso 4

CD C100 1AAN Ciudad Autónoma de Buenos Aires

Tel: (+54) 11 4314 1370

www.powerdataam.com

Barcelona

C/ Frederic Mompou, 4B 1º, 3º

08960 Sant Just Desvern

T (+34) 934 45 60 01

Valencia

Edificio Europa - 5º I Avda, Aragón, 30

46021 Valencia

T (+34) 960 91 60 25

Madrid

C/ Miguel Yuste, 17, 4º C

28037 Madrid

T (+34) 911 29 72 97

[email protected] www.powerdata.esESPAÑA

[email protected]