Casos de uso de fuentes big data en las estadísticas económicas de Canarias

31
CASOS DE USO DE FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS XIX JORNADAS ESTADÍSTICAS DE LAS COMUNIDADES AUTONOMAS (JECAS 2016)

Transcript of Casos de uso de fuentes big data en las estadísticas económicas de Canarias

CASOS DE USO DE FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

XIX JORNADAS ESTADÍSTICAS DE LAS COMUNIDADES AUTONOMAS (JECAS 2016)

Alberto González YanesDomingo Lorenzo DíazCarlos Sierra Fumero

CASOS DE USO DE FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIASXIX JORNADAS ESTADÍSTICAS DE LAS COMUNIDADES AUTONOMAS (JECAS 2016)Madrid, 22 y 23 de septiembre de 2016

Fuentes Big Data en la estadística pública

“Big Data son las fuentes de datos que generalmente pueden ser descritas como de alto volumen, velocidad y variedad, que requieren formas rentables e innovadoras de procesamiento con el fin de mejorar los análisis y de apoyar las tomas de decisiones”

Conference of European Statisticians. “What Does ‘Big Data’ Mean for Official Statistics?” UNECE, March 10, 2013.

Fuentes Big Data en la estadística pública

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Fuentes Big Data en la estadística pública

● La propiedad sobre las fuentes de datos generalmente no es pública, con los problemas derivados para el acceso, uso y mantenimiento de las fuentes.

● La fuentes de datos generalmente son muestras no probabilísticas que no están pensadas para fines estadísticos, con los problemas derivados de conceptualización y sesgos.

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Fuentes Big Data en la estadística pública

Cooperación público-privadaKlein, Thilo, Johannes Jütting, and Nicholas Robin. “Public-Private Partnerships for Statistics: Lessons Learned, Future Steps.” OECD Development Co-operation Working Papers, February 29, 2016.

Marco de calidad

UNECE Big Data Quality Task Team. “A Suggested Big Data Quality Framework.” UNECE, December 2014.

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

● Sensorización de alojamientos turísticos

● Datos de centrales de compra de pasajes

● Datos de unidades económicas en fuente abiertas

● Datos de precios en supermercados

Casos de uso en estudio dentro del ISTAC

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Sensorización alojamientos

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Objetivo

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Arquitectura

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Datos de compra de pasajes

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Estadística de Movilidad Aérea de Canarias. Estudiar la movilidad aérea de los residentes en Canarias en sus conexiones tanto interinsulares como con el resto de España; permitiendo estudiar la evolución de los precios de compra de los viajes según anticipación a la fechas de vuelo y las conectividades realizadas por los residentes.

Estadística de Movilidad Marítima de Canarias. Estudiar la movilidad marítima de los residentes en Canarias en sus conexiones interinsulares; permitiendo estudiar la evolución de los precios de compra de los viajes según anticipación a la fechas de travesía y las conectividades realizadas por los residentes.

Estadística de Movimientos Turísticos en Fronteras de Canarias (FRONTUR-Canarias). Fuente auxiliar para la estimación de entra de turistas y para la proyección a corto plazo de entra de turistas.

Objetivo

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Datos de interés

Ficheros de microdatos basados en los PNR (Passenger Name Record) que contiene información relevante del transporte de cada viajero aéreo. El Passenger Name Record (PNR), (español Registro de Nombre de Pasajero), es el nombre comúnmente utilizado para designar la información relativo a reservas hechas en sistemas de reservas (CRS).

Clave de viaje - Residente (Sí / No) - Fecha de nacimiento – Sexo - Municipio de compra (con codificación INE) - Fecha de compra - Código de vuelo - Identificador de aerolínea - Aeropuerto de origen - Aeropuerto de destino - Fecha del vuelo - Compra ida y vuelta (Sí / No) - Clave de viaje asociado (si compra ida y vuelta) - Precio de compra - Descuento de residente – Tasas - Código de vuelo n - Identificador de aerolínea n - Aeropuerto de origen n - Aeropuerto de destino n - Fecha de vuelo n - Precio de compra n - Descuento de residente n - Tasas n - Clave de viaje en grupo n

45% de PNR de vuelos regulares

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Directorios de establecimientos

Fuentes externas

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

GRID para la recogida de datos

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Proceso ETL

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Ejemplo de proceso de extracción

1) LLamada “Listado”

• aprox 40.000 ficheros• aprox 400 Mb• 21 campos • máximo nº registros devuelve: 60

2) Llamada “Detalle”

• aprox 100.000 ficheros• aprox 500 Mb• 51 campos

3) Llamada “Fotos del sitio”

aprox 550.000 referencias aprox 128 Mb 1 campo

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Reconciliación de fuentes

Nombre Identificador Rating Clasificación Latitud/Longitud Región/Área (según fuente) Localidad Código postal Dirección Imágenes Comentarios principales Celda Publicador URL del publicador

Nombre Identificador Rating Clasificación Latitud/Longitud Región/Área (según fuente) Localidad Código postal Dirección Imágenes Comentarios principales Celda Publicador URL del publicador

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Mapeo a tecnología semántica que utiliza vocabularios y clasificaciones estandares, que además de ofrecer los datos se dan los metadatos de cada definición bajo unas reglas públicas y publicadas.

En concreto se han utilizado los siguientes vocabularios:

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#" xmlns:locn="http://www.w3.org/ns/locn#" xmlns:schema="http://schema.org/" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:os="http://a9.com/-/spec/opensearch/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns:locationOnt="http://data.linkedevents.org/def/location#" xmlns:xhv="http://www.w3.org/1999/xhtml/vocab#" xmlns:gPlacesKOS="http://data.linkedevents.org/kos/googleplaces/" xmlns:api="http://purl.org/linked-data/api/vocab#" xmlns:xsd="http://www.w3.org/2001/XMLSchema#">

Reconciliación de fuentes. Aplicación semántica

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

PVP on-line en supermercados

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Objetivo PPA: Comparar niveles de precios entre territorios· Canarias vs Resto de España

· Listado de productos utilizado por Eurostat para el cálculo de las PPA.

- Sólo datos de alimentación y bebidas

- Ponderaciones facilitadas por el INE

Metodología Eurostat-OCDEhttp://ec.europa.eu/eurostat/web/purchasing-power-parities/methodology

Cálculo PPAij

Objetivo

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Fuente de datos

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

PERIODO CADENA SUPERMERCADOS

CODIGO POSTAL

PRODUCTO PRECIO

Formato resumido: Productos, precios, grupos de códigos postales

PRODUCTOS

PERIODO

ID_PRODUCTO

NOMBRE_PRODUCTO

MARCA

CUANTIFICADOR

UNIDAD_DE_MEDIDA

(Otras variables de identificación del producto)

PRECIOS

PERIODO

ID_PRODUCTO

ID_GRUPO_CODIGOS_POSTALES

PRECIO

(Otras variables)

CODIGOS_POSTALES

PERIODO

ID_GRUPO_CODIGOS_POSTALES

CODIGO_POSTAL

CADENA_SUPERMERCADOS

Formato de los datos

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Dimensión de los ficheros

PRODUCTOS: 123.000 registros, 27,6 Mb CODIGOS POSTALES: 13.500 registros, 530 Kb

PRECIOS

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Calidad de los datos

Comparativas con precios recogidos off-line y análisis de la variabilidad de precios

Problemas de fuente● Selección de artículos Soysuper y relación con el listado de productos PPA: Búsqueda

casi manual entre los literales

● Problemas iniciales en la exportación de la información

● Códigos coherentes a lo largo del tiempo

● Problemas de integridad referencial

● Errores en tipos de datos: “Pack de 3 latas de 80 gr.” en campo numérico

● Líneas en blanco. Registros incompletos

● Existencia de registros con precios iguales a 0

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Calidad de los datos

Dificultad para encontrar productos relacionados con carne fresca

Influencia muy elevada de un solo artículo en una posición elemental completa (Posición elemental = Conjunto de productos)

No considerar carne fresca

FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS

Resultados

PPA Canarias - Resto de España (resultado provisional 2014)

109,56

Gracias por su atención

Síguenos en Twitter: @istac_es

Slideshare: http://www.slideshare.net/ISTAC