Limpieza de datos - Tech Cívica
-
Upload
socialtic -
Category
Data & Analytics
-
view
72 -
download
2
Transcript of Limpieza de datos - Tech Cívica
Limpieza de datos la etapa previa al interrogatorio
Según wikipediaLimpieza de datos: es el acto de descubrimiento, corrección o eliminación de datos erróneos de una base de datos.
Transformación de datos: En estadística, la transformación de datos se efectúa para asegurarse así de que tienen una distribución normal (un remedio para los valores atípicos, fallas de la normalidad, la linealidad, y homocedasticidad).
Un excel sucio no causa desastres...
¿o sí?
http://www.cnnexpansion.com/finanzas-personales/2012/01/04/londres-2012-sobrevende-10000-entradas
Historias de horrorLos errores en los datos y en el manejo de herramientas son tan comunes que incluso existe una organización llamada Grupo europeo de evaluación de riesgos para hojas de cálculo (ESRIG, por sus siglas en inglés) y que hace recomendaciones al usuario para evitar errores cuando se usa una hoja de cálculo.
La ESRIG se encarga de rastrear historias trágicas en el manejo de datos. Si quieres saber más, visita data errors in spreadsheets have led to real consequences.
http://www.eusprig.org
“Dirty Data”Generalmente es necesario realizar alguna limpieza a
los datos para obtener materia prima adecuada.
Reconocimiento
Consiste en realizar un resumen de las características y observar el modelo para verificar errores.
● Algunos aspectos pueden salir a simple vista○ Cinco valores para el sexo
● Otros aspectos son más difíciles de encontrar, para ellos se usan otras herramientas:○ Histogramas, gráficas de dispersión
Valores faltantes
Causas:
Faltan valores relevantes porque no se pudieron obtener
No existen los valores
Datos incompletos (varios orígenes)
TratamientoIgnorarlosEliminar toda la columnaReemplazar el valorSegmentar
Limpieza, integración y transformaciónEvitar problemas ocasionados por datos faltantes, valores duplicados y datos
incorrectosValores erróneos
Algunas veces no es un proceso trivial, clasificar y agrupar pueden ayudar
Tratamiento:
Ignorar
Eliminar
Filtrar
Reemplazar
Discretizar
Integración
Se puede dar de dos maneras:
Unificar dos o más objetos
Separar un objeto en dos o más
EjemplosSeparar (nombres, apellidos)Unificar formatos de fechas, sexo,
estado civil
Limpieza, integración y transformaciónTransformación
Es cualquier proceso que modifique la forma de los datos
Crear nuevos atributos
Cambiar tipo de dato
Cambiar total o parcialmente una tabla
Ejemplos
convertir columna en tipo número o fecha
agregar columna edad basado en fecha de nacimiento
nivel de estudio de una persona (sin estudio, primaria, secundaria, universidad) se puede convertir en 0, 1, 2, 4.
Tipos de datos
Carácter
por ejemplo para definir sexo (F,M)
Texto
el más común de todos
Boolean
(si, no), (verdadero, falso), (0,1)
Control de flujo
según la opción se toman unos u otros datos
Número
se puede hacer operaciones con ellos
Fecha
nos sirven para trabajar intervalos de tiempo
Índices
son la referencia del registro, nos permite cruzar varias bases de datos
no siempre es lo que parece
Siempre lleva una bitácora con todos los
cambios mantén una copia del archivo original
Pero Phi… mi base tiene miles de
registros... ¿y ahora qué hago?
Hora de ensuciarse las manos
Veamos algunos ejemplos
OpenRefinela lavadora de los datos
OpenRefinehttp://openrefine.org
Ahora sí a torturar esos datos
hasta que nos digan la verdad
Conclusiones¿qué opinas? ¿alguna duda?
Esta obra está bajo una Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.
https://goo.gl/4TEMMH