Taller: Big data en las estadísticas oficiales para la ... Data para...IoT Esencial: sector digital...
Transcript of Taller: Big data en las estadísticas oficiales para la ... Data para...IoT Esencial: sector digital...
Taller: “Big data en las estadísticas
oficiales para la medición de la economía
digital y el desarrollo sostenible”
Sebastián Rovira, CEPAL
Bogotá / Mayo 07, 08 y 09 – 2019
DANE
▪ Antecedentes y contexto
▪ El proyecto y sus etapas
▪ Ejercicios preliminares
▪ Lecciones aprendidas
Contenido
Antecedentes y contexto
Fuente: OECD/CAF/UN ECLAC/EC (2019), Latin American Economic Outlook 2019: Development in Transition, OECD Publishing, Paris,
ALC enfrentan trampas de desarrollo, mientras suben la escala de ingresos
42.9
35.4
34.1
37.621.1
24.6
15
20
25
30
35
40
45
50
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
América Latina y el Caribe población por grupo socio-económico(porcentaje de la población)
Clase media (USD 13-70)Vulnerable (USD 5.50-13)Pobre (under USD 5.50)
0
20
40
60
80
100
120
140
160
180
200
1950
1955
1960
1965
1970
1975
1980
1985
1990
1995
2000
2005
2010
2015
China Corea ALC
OECD Noruega
%
Productividad laboral en ALC, OCDE, China, Corea y Noruega
(como porcentaje de la productividad laboral en la Unión Europea)
Fuente: CEPAL a partir de datos del FMI, OMC, McKinsey Global Institute y TeleGeography.
Flujos globales transfronterizos
(2003 Index = 100 and Tbps)
0
1000
2000
3000
4000
5000
6000
7000
-
100
200
300
400
500
600
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
Exportaciones de bienes Exportaciones de servicios
IED Otros flujos financieros
Ancho de banda internacional (eje derecho)
Solo una cosa es cierta, la economía mundial ha experimentado una intensa globalización digital
Hacia una globalización digital?
Intercambio de bienes Intercambio de datos y conocimiento
Cadenas globales de valor Plataforma digitales globales
Relevancia de la dimensión nacionalImportancia de los espacios
ciudadanos
Mercados geográficamente definidos Mercados digitales no delimitados
Regulación nacional y multilateral Multilateralismo y gobernanza global
Conectividad
Nivel de competencia
Institucional yregulatorio
Infraestructura
Industrias digitales
Factores de producción
Digitalización de loshogares
Digitalización de laproducción
OCDE (64.94)
América Latina y el Caribe (45.47)
Fuente: CEPAL a partir de CAF, 2018, Índice del Desarrollo del Ecosistema Digital.
Índice de Desarrollo del Ecosistema Digital (IDED)
Mayores brechas con los países más avanzados en los factores de producción, digitalización de la producción y conectividad
Conectividad
Nivel de competencia
Institucional yregulatorio
Infraestructura
Industrias digitales
Factores de producción
Digitalización de loshogares
Digitalización de laproducción
América Latina y el Caribe 2015 (45.47)
América Latina y el Caribe 2010 (33.95)
Manufactura de
hardware
Servicios de
información
Software
consultoría TI
Telecomunicaciones
Servicios digitales
Economía de
plataformas
Economía de
intercambio
Industria 4.0
Comercio electrónico
Inteligencia artificial
IoT
Esencial: sector digital
Dimensión acotada: Economía
digital
Dimensión amplia: digitalización
de economía
Fuente: Bukht y Heeks, 2017
• Algunos retos:
• Definición / límites: las definiciones de “economía digital”
son varias. Esto, por sí mismo, no dificulta la medición,
pero dificulta las comparaciones. Límites borrosos.
• Problemas con la calidad de los datos: Particularmente
en los países en desarrollo existen problemas, no hay
datos o son de baja calidad. Se agravado por la continua
innovación, la recopilación de datos siempre está detrás
del cambio tecnológico.
• Problemas con el precio: La Ley de Moore, significa
precios en constante descenso. Los cambios en el precio
pueden no reflejar, el cambio en los bienes y servicios.
• Invisibilidad de la economía digital: Muchas actividades
económicas habilitadas digitalmente no son evidentes.
Pueden ser servicios intermedios entre empresas o entre
consumidores.
Nueva representación de la
economía digital
Lecciones aprendidas
▪ Utilización de nuevas o fuentes no tradicionales de datos en combinación con fuentes tradicionales,
para comprender dinámicas de la economía digital de los países
▪ Fuentes no tradicionales: huella digital
− redes sociales
− contenido de páginas web
− transacciones electrónicas
− CDR
− GPS
▪ Información más oportuna, más granular y completa
Necesitamos innovar en la medición de la economía digital
El proyecto y sus etapas
Big Data para la medición de la economía digital en América
Latina y el Caribe
Proyecto de CEPAL con fondos de la Cuenta
para el Desarrollo de ONU
▪ Duración: junio 2016 - 2019
▪ Objetivo: mejorar las capacidades nacionales en la región de
América Latina y el Caribe, para medir la economía digital
utilizando analítica de grandes datos y estadísticas tradicionales
para apoyar el diseño de políticas basadas en evidencia.
▪ Resultados:
▪ Desarrollo de capacidades de medición para el uso de Big
data
▪ Políticas de economía digital con base en este tipo de
medición
Actividades del proyecto
▪ Análisis de experiencias de utilización de grandes datos
para la medición, en particular en economía digital
▪ Definición de metodologías para la medición de la
economía digital
▪ Talleres de capacitación para el uso analítica de
grandes datos
▪ Sensibilización sobre analítica de grandes datos y
medición de la economía digital
▪ Asistencia técnica y proyecto piloto
Elementos de un proyecto de Big Data
Fuentes de información
Definición del problema
Identificación variables
Recopilación de los datos
Procesamiento y limpieza
Análisis y visualización
Recomendaciones de políticas
Etapa 1: Problema y identificación de variables
Problema
▪ No hay una definición única de economía digital → enfoque en distintos elementos (mercados digitales y precios
de los tecnologías, habilidades digitales y perspectiva de género, servicios digitales)
▪ Falta de conocimiento de la dinámica empresarial en la web y contribución a la economía.
Variable relevantes (ejemplos)
▪ Habilidades digitales demanda vs oferta
▪ Precios de productos digitales para conectividad
▪ Difusión de servicios digitales (transporte)
▪ Presencia web empresarial por país
▪ Presencia según sector industrial
▪ Distribución geográfica a nivel nacional.
▪ Volumen de negocio según grado de sofisticación presencia web
▪ Empleo según grado de sofisticación presencia web
▪ Digital footprints, websites
▪ Adminsitrative récords
▪ Partnerships
Etapa 2: Fuentes
Etapa 3: Recopilación
▪ Técnicasweb crawling (como servicio o in-house)
web scraping, machine learning
API ( Application Programming Interface)
Natural language processing
Registros administrativos
TIC
Indicadores Big
Data
Registros administrativos
no TIC
Reguladores
Ministerios TIC
ONE
Impuestos internos
Aduanas
ONE, etc
Huellas digitales
• Plataformas digitales
• Websites
• ISP, Telecom
Etapa 4Procesamiento ylimpieza de datos
Etapa 5Análisis yVisualización
Web
crawler Semantic
analytics
▪ Estructurar y organizar los datos
según los temas relevantes
▪ Purificación y limpieza
▪ Control de calidad de datos
Ejercicios preliminares
Mercado LaboralComercio y
PyMEsFinanzas y
Emprendimiento
Demografía y
Sociocultural
Demanda: 176,548
Oferta: 93,624
10 Países
Préstamos (global): 1,551,384
Préstamos (ALC): 386,498
17 Países de ALC
Productos: 110,080
Vendedores: 2,474,157
18 Países
Facebook:
Twitter: >104 millones
33 Países
Mercado Laboral
-0.5 -0.3 -0.1 0.1 0.3 0.5
Data Entry & Admin
Sales & Marketing
Writing & Translation
Design Media & Architecture
Other
IT & Programming
Supply
Demand
Demanda global de empleo y oferta de habilidades en ALC
(Freelancer)
Diferencias de género: Habilidades ofrecidas frente a la
demanda global
Finanzas y Emprendimiento
Total Amount of Funding Received by Year and Region
Finanzas y
Emprendimiento
Porcentaje de mujeres que reciben
préstamos por sector (Ejemplo de Perú y
Colombia)
Comercio y PyMEs
58% 26% 25% 11% 8% 8% 2% 0.5% 0.2% 0.1% 0.02% 0.02% 0.02% 0.02% 0.01% 0.01% 0.003% 0.003%
1
100
10,000
1,000,000
0.001%
0.100%
10.000%
1000.000%MarketShare HHI Number of sellers
Cuota de mercado de los cinco principales vendedores en Mercado Libre, los vendedores y el
Índice Herfindahl-Hirschman
Apple iPad
Acer Aspire
Samsung J2
$422.83
$423.83
$482.56
$492.38
$522.67
$552.85
$576.84
$600.07
Columbia
Ecuador
Mexico
Brazil
Uruguay
Peru
Chile
Argentina
Average Bundle Cost in USD across Countries
Comercio y PyMEs
Demografía y Sociocultural: Twitter
N (Twitter) > 104 Milliones (sobre 6 semanas)
KEYWORDS = [ #titles of sdgs 'sdg', 'sdg 1', 'poverty', 'sdg 2', 'hunger',
'sdg 3', 'health', 'well-being', 'sdg 4', 'education', 'sdg 5', #gender
keywords 'sdg 6', 'clean water', 'sanitation', 'sdg 7', 'clean energy',
'affordable energy', 'sdg 8', 'decent work', 'economic growth', 'sdg 9',
'industry', 'innovation', 'infrastructure', 'sdg 10', 'inequality', 'inequalities',
'sdg 11', 'sustainable', 'sdg 12', 'responsible consumption', 'responsible
production', 'sdg 13', 'climate', 'sdg 14', 'ocean life', 'marine life', 'sdg
15', 'ecosystem', 'habitat', 'forest', 'biodiversity', 'environment', 'sdg 16',
'peace', 'justice', 'strong institutions', 'sdg 17', 'ods', 'ods', 'ods 1',
'pobreza', 'ods 2', 'hambre', 'fome', 'ods 3', 'salud', 'saúde', 'saude',
'bienestar', 'ods 4', 'educación', 'educacion', 'educação', 'educacao',
'ods 5', #keywords de genero 'ods 6', 'agua limpia', 'saneamiento', 'água
potável', 'agua potavel', 'saneamento', 'ods 7', 'energía asequible',
'energia asequible', 'energía no contaminante', 'energia no contaminante',
'energias renováveis', 'energias renovaveis' 'energias acessíveis',
'energias acessiveis' 'ods 8', 'trabajo decente', 'crecimiento económico',
'crecimiento economico', 'trabalho digno', 'crescimento económico',
'crescimento economico', 'ods 9', 'industria', 'innovación', 'innovacion',
'infraestructura', 'indústria', 'inovação', 'inovacao', 'infraestruturas', 'ods
10', 'desigualdad', 'desigualdades', 'ods 11', 'sostenible', 'sustentáveis',
'sustentaveis', 'ods 12', 'produccion responsable', 'producción
responsable', 'consumo responsable', 'produção sustentáveis', 'consumo
sustentáveis', 'producao sustentaveis', 'consumo sustentaveis', 'ods 13',
'clima', 'climática' 'ods 14', 'submarin', 'aquatic', 'aquátic', 'marinha',
'ods 15', 'ecosistema', 'terrestre', 'biodiversidad', 'bosque', 'medio
ambiente', 'ecossistema', 'biodiversidade', 'floresta', 'meio ambiente',
'ods 16', 'paz', 'justicia', 'instituciones sólidas', 'instituciones solidas',
'justiça', 'justica', 'instituições eficazes', 'instituicoes eficazes', 'ods 17']
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
1 2
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
## ## ## ## ## ## ## ## ## ##
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
# # # # # # # # # #
5
43
9
876
1
0
1
1
1
3
14 1
5
1
2
1
6
Colombia Porcentaje de tweets para cada SDG
Demografía y Sociocultural: Facebook
Lecciones aprendidas
Lecciones aprendidas
❑ Las nuevas fuentes de datos proporcionan información sin precedentes
▪ Amplia cobertura estadística disponible
▪ Fuentes de datos más detalladas que a menudo requieren una limpieza más compleja y masiva.
▪ El texto y otras fuentes de datos cualitativos proporcionan una nueva y rica fuente de información.
▪ Los resultados del aprendizaje de máquinas dependen del contexto regional.
❑ No es una solución mágica
▪ Claridad en las preguntas de investigación y variables de estudio
▪ Partnership son difíciles de lograr
▪ Aspectos legales de privacidad de datos y seguridad.
▪ Información en web: dificultad en limpieza y estructuración de datos
▪ Trabajo en equipo multidisciplinario (expertos de área y científicos de datos)
Lecciones aprendidas
From left to right: Matt Reese (B.A. Linguistics and Chinese); Karla Rascón-García
(PhD student Epidemiology); Yu-Chang (Andy) Ho (M.S. student Computer Science);
Veronika Vilgis (post-doc Center for Mind and Brain); Xin Jin (Computer Science major).
Equipo consultores
ciencia de datos CEPAL,
comienzos de 2019
Gracias!
https://www.cepal.org/es/proyectos/elac2020
@eLAC_CEPAL