Curso Herramientas digitales para periodismo de...

31
Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero 2019 Facultad de Periodismo-Cuenca Sesión 1: Datos abiertos – Formatos y fuentes de datos – Extracción – Limpieza de datos (Open Refine) Jueves, 24 de enero 2019 Docente: David Pardo: [email protected]

Transcript of Curso Herramientas digitales para periodismo de...

Page 1: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

Curso Herramientas digitales para periodismo de DatosDías: 24 y 25 enero 2019

Facultad de Periodismo-Cuenca

Sesión 1: Datos abiertos – Formatos y fuentes de datos – Extracción – Limpieza de datos (Open Refine)

Jueves, 24 de enero 2019

Docente: David Pardo: [email protected]

Page 2: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

DATOS ABIERTOS (open data):

Datos libremente accesibles, reutilizables y redistribuiblesDisponibles de forma libre para todo el mundo, sin exigencia de permisos específicos (aunque algunos pueden estar controlados mediante algún tipo de licencia).

Tiene una ética similar a otros movimientos y comunidades abiertas

Única condición de atribución (reconocimiento de su auditoría)

Page 3: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

DATOS PÚBLICOS (del Sector Público)

En inglés PSI (Public Sector Information) o Government DataDatos que recoge, producen, reproducen y difunden las Administraciones y organismos públicos

• Cualquier tipo de documentos en especial en soporte digital

• Información social, económica, jurídica, geográfica, meteorológica, turística, de empresas, estudios económicos, datos financieros, patentes, científicos, médicos, educación, acuerdos políticos, ..

Page 4: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

DATOS PÚBLICOS ABIERTOS

• Open Public Data o Open Government Data

• Datos de titularidad pública que se “abren” (sean accesibles y estén disponibles para todo el mundo, sin restriccionestécnicas ni legales)

Page 5: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

• Cartografía, mapas, …

• Cultura y ocio

• Ciencia y tecnología: patentes, proyectos investigación

• Económico y financiero: mercado valores, financiación pública, …

• Empleo: ofertas

• Estadísticas: demografía, educación

• Ayudas, subvenciones

• Meteorología,

• Medioambiente

• Transporte, urbanismo, infraestructuras

• Energía, industria

• Turismo

• Salud, sociedad y bienestar

• Justicia,

• Sector público (organigramas, presupuestos, licitaciones)

• Político: acuerdos, …

Temáticas de los DATOS PÚBLICOS (ABIERTOS)

Page 6: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

Temáticas de los DATOS PÚBLICOS (ABIERTOS)

(AENOR Norma UNE 178301 “Ciudades inteligentes Datos Abiertos (Open data)”Publicada Julio 2015)

Page 7: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

Fuente EFE (07/06/2016):http://www.efesalud.com/noticias/biden-anuncia-una-nueva-base-datos-abiertos-la-lucha-cancer/

Fuente Agencia Sinc (28/05/2014):http://www.agenciasinc.es/Noticias/Bill-Gates-financia-la-publicacion-en-abierto-del-genoma-de-3.000-arroces

Page 8: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

CARACTERISTICAS de la Información (Open Data) del Sector Público

Los datos recopilados desde el sector público se presuponen fiables y veraces (calidad), además de ser, en muchos casos, bastante exhaustivos (completos). Esto hace que sean muy atractivos.

Completos Fiables Calidad

Page 9: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

OBJETIVO de la Apertura de datos públicos¿Cómo generar impacto económico (y social)?

¡¡¡ LA REUTILIZACIÓN !!!

Uso por parte de personas físicas o jurídicas, de los datos generados y custodiados por los organismos del sector público, con fines comerciales o no.

Page 10: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

Los datos son el combustible de la nueva economía,

[...], el nuevo petróleo de la era digital“

• Los datos y la tecnología se pueden asociar para

generar valor económico a través servicios de valor

añadido

• Datos públicos que se reutilizan para añadirles

valor y que la ciudadanía los aproveche

Page 11: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

OBJETIVOS / BENEFICIOS de la Reutilización de la Información del Sector Público (RISP)

• Con los datos las empresas generan valor y por tanto productos y servicios a los ciudad

1.Los datos recopilados con fondos públicos reviertan al ciudadano aportando valor

• Optimización de los recursos públicos2.Eliminar esfuerzos duplicados entre administraciones

• Control al gobierno por parte de los ciudadanos, y organizaciones civiles

3.Como ejercicio de transparencia y rendición de cuentas

Page 12: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

BENEFICIARIOS de la Reutilización de la Información del Sector Público (RISP)

Ciudadanos

• Más transparencia

• Participación ciudadana

• Nuevos servicios que mejoran la vida de los ciudadanos

Administración

• Más eficiente al reducir costes

• Conoce las inquietudes de los ciudadanos

• Los ciudadanos aportan ideas y contenidos

• Las empresas crean aplicaciones

Empresas

• Generan valor económico

• Crean riqueza y empleo

• Dan servicios de valor añadido

Page 13: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

REUTILIZACIÓN

• Ley de reutilización de la información del sector público:

• Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público (Ref. BOE-A-2007-19814) (modificada por la Ley

18/2015)

• Transpone la Directiva 2003/98/CE del Parlamento Europeo y del Consejo, de 17 de noviembre de 2003, relativa a la reutilización de la

información del sector público (Ref. DOUE-L-2003-82244).

• Se desarrolla por Real Decreto 1495/2011, de 24 de octubre (Ref. BOE-A-2011-17560).

• Ley 18/2015, de 9 de julio, por la que se modifica la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público (Ref. BOE-A-2015-7731)

• Transpone la Directiva 2013/37/UE del Parlamento Europeo y del Consejo, de 26 de junio de 2013, por la que se modifica la Directiva 2003/98/CE relativa a la reutilización de la información del sector público (Ref. DOUE-L-2013-81251).

• Esquemas y Normas de interoperabilidad

• Real Decreto 4/2010, de 8 de Enero, por el que se regula el Esquema Nacional de Interoperabilidad en el ámbito de la Administración Electrónica.

• Resolución febrero 2013, de la Secretaría de Estado de Administraciones Públicas, por las que se aprueba la Norma Técnica de Interoperabilidad de Reutilización de recursos de la información

ACCESO

• Ley 19/2013, de 9 de diciembre, de transparencia, acceso a la información pública y buen gobierno.

• Establece una serie de obligaciones referentes a la publicación de información pública que permita a los ciudadanos conocer cómose toman las decisiones que les afectan.

• Entre la información que se debe compartir está la distribución de fondos públicos, las funciones de los distintos órganos o loscriterios de actuación de las diversas instituciones.

MARCO LEGAL

Page 14: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

CLASIFICACIÓN DE LOS DATOS

Page 15: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

8 + 2 PRINCIPIOS DEL OPEN (PUBLIC) DATA:1.COMPLETOS: lo más completa posible, base de datos, y descrita semánticamente

2.PRIMARIOS: de la fuente de los datos

3.OPORTUNOS: a tiempo, actualizado según su naturaleza

4.FACILIDAD DE ACCESO: electrónico, al mayor nº de usuarios y propósitos

5.LEGIBLES POR MÁQUINAS: estructurado para procesado automático, …

6.NO DISCRIMINATORIOS: para cualquiera, sin registros (anónimo)

7.NO PROPIETARIOS: en formatos abiertos y estándares

8.LIBRES DE LICENCIAS: no está sujeta a ningún derecho de autor, patentes, marcas.

Se puede permitir licencias abiertas como mínimas restricciones de reutilización.

9.PERSISTENTES: accesible a lo largo del tiempo

10.COSTE DE USO: gratuito o costes marginales (recogida, producción, preproducción y difusión)

Principios de la Carta Internacional de Datos Abiertos (Open Data Chapter: Gobiernos, Asociaciones, Organizaciones)Eight principles of open government data (Opengovdata.org)TEN PRINCIPLES FOR OPENING UP GOVERNMENT INFORMATION (Sun Light Foundation)

Page 16: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

FORMATOS DE DATOS

Es la forma en la que se encapsulan los datos

En cada formato se definen unas reglas conocidas de forma que se expanda su uso y se estandarice

Normalmente los formatos de datos abiertos son de texto

Page 17: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

FORMATOS DATOS ABIERTOS MÁS POPULARES

• PDF (archivo de presentación e intercambio: con texto o sin texto) inicialmente privativo, ahora estándar abierto

• XLS (o XLSX) aunque popular es privativo (desarrollado por Microsoft para Excel)

• CSV, TSV: texto separado por comas “,” o puntos y comas “;” o tabuladores. Su 1ª fila suele llevar la definición de los campos. Alternativa popular al XLS

nombre, color, tallamanzana, rojo, mediapera, verde, mediamelón, verde, grandeciruela, morado, pequeña

Page 18: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

FORMATOS DATOS ABIERTOS MÁS POPULARES

• XML: Lenguaje de marcado, se basa en etiquetas de apertura y cierre configurables, y puede estar basado en una gramática DTD. Permite jerarquías

<frutas>

<fruta>

<nombre>manzana</nombre>

<color>rojo</color>

<talla>media</talla>

</fruta>

<fruta><nombre>pera</nombre><color>verde</color><talla>media</talla></fruta>

<fruta><nombre>melón</nombre><color>verde</color><talla>grande</talla></fruta>

<fruta><nombre>ciruela</nombre><color>morado</color><talla>pequeña</talla></fruta>

</frutas>

• JSON: Javascript Object Notation. Muy popular como el XML, pero con menor coste de capacidad. Se basa en {clave:valor}

{ “frutas”: [

{“nombre”: “manzana”, “color”: “rojo”. “Talla”: “media”},

{“nombre”: “pera”, “color”: “verde”. “Talla”:“media”},

{“nombre”: “melón”, “color”: “verde”. “Talla”: “grande”},

{“nombre”: “ciruela”, “color”: “morado”. “Talla”: “pequeña”}

] }

Page 19: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

FORMATOS DATOS ABIERTOS MÁS POPULARES

• RDF, N3, TURTLE, JSON-LD, … son modelos de intercambio de datos en la web. Usa URI’s para nombrar las relaciones entre elementos: modelo de tripletas

• Geográficos: SHAPE, WFS, GML, KMZ, WMS, GEOJSON, KML, JSON-G.Utilizados para representar información geográfica (básicamente puntos, líneas, polígonos)

Page 20: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

FUENTES DE INFORMACIÓN

y PORTALES DE DATOS ABIERTOS

https://datos.gob.es/es/iniciativas

Page 21: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

CONTENIDO DE LOS PORTALES DE DATOS ABIERTOS

• INFORMACIÓN GENERAL

• Información de la iniciativa (el portal: objetivos)

• Actualidad, noticias

• Información qué es Open Data

• DATOS:

• Descarga del catálogo

• Descarga de los conjuntos de datos:

Búsqueda simple, Filtrado y navegación por (sectores, formatos, Fecha de actualización, etiquetas)

Estadísticas de visitas y descargas de cada conjunto de datos

• Punto de acceso SPARQL (consultas) / Información y ejemplos de ayuda SPARQL

• Acceso mediante API / Información y ejemplos de uso de la API

• APLICACIONES Y VISUALIZACIONES

• PARTICIPACIÓN: IDEAS, PETICIÓN DE NUEVOS CONJUNTOS DE DATOS, SUGERENCIAS

• LICENCIA / CONDICIONES DE USO

Page 22: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

datos.gob.eshttp://datos.gob.es/

datos.gob.es aloja el Catálogo Nacional de datos abiertos que es punto único de acceso a los conjuntos de datos que las Administraciones Públicas ponen a disposición para su reutilización en España.

Además proporciona información general, materiales formativos y noticias de actualidad

Page 23: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

FUENTES INTERNACIONALES 1/3

undata - Datos estadísticos de la ONU

Información elaborada por la Organización de las Naciones Unidas (ONU) con información estadística de sus bases de datos agricultura, crimen, educación empleo,

energía, medio ambiente, salud, HIV/SIDA, Desarrollo humano, industría, comuniciación, cuentas nacionales, refugiados, población, turismo, indicadores de los

objetivos del milenio, etc. En su portal de la ONU también cuenta con numerosos recursos, bases de datos, estadísticas.

World Bank Open Data / Datos abiertos del Banco Mundial

Datos de libre acceso del Banco Mundial, datos abiertos sobre el desarrollo en el mundo. Se puede buscar por indicadores, países y temas. Son un subconjunto de los datos

disponibles en el sitio "Banco de datos" o DataBank.

Contiene enlaces a otros sitios del propio Banco Mundial. Entre ellos:

DataBank o Banco de datos del Banco Mundial

Es más una heramienta de análisis y visualización que contiene una recopilación extensa de datos en series cronológicas (donde se puede generar sus propias consultas; y

generar cuadros, gráficos y mapas y fácilmente guardarlos, incrustarlos y compartirlos).

Indicadores del desarrollo mundial

El principal conjunto de indicadores de desarrollo del Banco Mundial, que se compilan de fuentes internacionales reconocidas oficialmente.

Catálogo o Índice de datos del Banco Mundial

lista de los conjuntos de datos disponibles del Banco Mundial, que incluye bases de datos, cuadros preformateados, informes y otros recursos.

Microdatos (del Banco Mundial)

Datos recopilados mediante encuestas por muestreo de hogares, establecimientos comerciales u otras instalaciones en países.

Proyectos Banco Mundial

Da acceso a información básica sobre todos los proyectos de financiamiento del Banco Mundial desde 1947 hasta el presente.

FAO Stats y Bases de datos e la FAO

Acceso libre a datos sobre alimentación y agricultura de más de 245 países y 35 regiones desde 1961 así como a las bases de datos de la FAO que abarcan un amplio

abanico de temas relacionados con la seguridad alimentaria y la agricultura.

Unesco (UIS.Stat)

Contiene los últimos datos e indicadores disponibles para la educación, la alfabetización, la ciencia, la tecnología y la innovación, la cultura, la comunicación y la

información.

Global Partnership for Sustainable Development Data

Trabajan para crear un mundo donde los datos son usados para lograr sociedades justas y sostenibles, promueven los datos abiertos, realizan iniciativas, estudios,

organizan anualmente el Data Fest - Data for Development Festival

API Highways

Herramienta de Global Partnership for Sustainable Development Data, todavía en desarrollo para dar mayor valor a los conjuntos de datos y APIs a Gobiernos, ONGs y

organizaciones del sector privado en una única infraestructura. Da a desarrolladores APIs estandarizadas y herramientas de visualización relacionados con data de

desarrollo.

Page 24: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

FUENTES INTERNACIONALES 2/3

Resource Watch

Plataforma que muestra información (cientos de conjuntos de datos) del estado de los recursos y ciudadanos del planeta: desafíos como el cambio climático, pobreza, riesgo de agua,

instabilidad del estado, contaminación aire, migración humana, ..

Our World in Data

Publicación online que muestra cómo estan cambiando las condiciones de vida a través de los datos y visualizaciones libres de uso así como sus datos. Cubre temas como salud, provisión

de alimentos, crecimiento y distribución de la riqueza, violencia, derechos, gueerra, cultura, uso de energía, educación, cambios ambientales.

Data World

Plataforma de pago (gratuita con limitaciones) donde crear proyectos o conjuntos de datos junto a herramientas para descubrir, comprender y usar datos para analistas individuales hasta

equipos. Existen conjunto de datos para realizar ejercicios de distintos niveles, visualizaciones, etc.

Portal de datos abiertos de la Unión Europea.

Punto de acceso único a gran variedad de datos elaborados por las instituciones y otros organismos de la Unión Europea.

Cuenta con el European Data Portal que recopilar los metadatos a partir de información del sector público disponible en portales de datos de acceso público de los distintos países

europeos.

EUROESTAT

Oficina estadística de la Union Europea. Información estadística oficial de la U.E. (acceso a las estadísticas del Banco Central Europeo) y de sondeos.

HDX - Plataforma de Intercambio de Información Humanitaria

Plataforma de información sobreel contexto, las personas afectadas en una crisis humanitaria.

Portal de datos abiertos del Gobierno de USA

datos generados o recopilados por las Instituciones de USA.

Datos y estadísticas de la OMS

Datos del Observatorio mundial de la salud.

Data del FMI (IMF Data)

Datos del Fondo Monetario Internacional (FMI).

Banco Interamericano de Desarrollo

Bases de Datos del Banco Interamericano de Desarrollo (BID) con disponibilidad de API.

Page 25: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

FUENTES INTERNACIONALES 3/3

Otras internacionales

Open Weather Map

Información meteorológica de todo el mundo (histórica de pago).

Fuentes de datos gratuitas de Amazon

Datos de diversa tipos oferecidos por Amanzon Web Services (entre ellas el genoma humano).

Kaggle Datasets

Conjunto de datos sobre turismo, plantas,películas, accidentes, ....

Data in Gapminder World

Fuentes de datos gratuitas de todo el mundo de la Fundación Sueca Gapminder que lucha para contrarrestar los conceptos erróneos sobre el desarrollo global. Su director fallecido en 2017

fue Hans Rosling conocido por sus visualizaciones y charlas donde promo

Organización intergubernamental Instituto Internacional para la Democracia y la Asistencia Electoral

datos sobre participación, sistemas electorales y financiación, entre otras.

Papeles de Panamá

Información de mlasde 500.000 entidades offshore de las investigaciones de los Papeles de Panamá.

Page 26: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

FUENTES NACIONALES

Datos.gob.es - Catálogo nacional de datos abiertos

Punto único de acceso a los conjuntos de datos que las Administraciones Públicas ponen a disposición para su reutilización en España.

Línea de actuación de la iniciativa Aporta promovida por el Ministerio de Energía, Turismo y Agenda Digital, a través de la Entidad Pública Empresarial Red.es

INE

Istituto Nacional de Estadística con apartado INEbase de información estadística estructurada por temas y apartados. Entre ellos el Censo Electoral, Demografía y población, IPC o

datos de economía, mercado laboral, servicios, sociedad, ciencia y tecnología agricultura, etc.

CIS

IAcceso Web al Banco de Datos del CIS, estudios científicos de la sociedad española.

AEMET

Agencia Estatal de Meteorología. Cuenta con la sección Datos Abiertos con subsecciónes de Catálogo y subsección AEMET OpenData con acceso a un API REST

Delegación del Gobierno para la Violencia de Género

Información relacionada con los delitos de Violencia de Género en España

Estadísticas del Ministerio de Empleo y Seguridad Social.

Información del mercado de trabajo, inmigración y migración, condiciones de trabajo, prestaciones de S.S.

Estadísticas del SEPE - Servicio Público de Empleo Estatal.

Estadísticas histórica de empleo, paro por municipios, contratos, formación y prestaciones por desempleo del Servicio Público de Empleo Estatal.

Estadísticas del Catastro

Dirección General del Catastro lleva a cabo la publicación de las estadísticas catastrales, así como de las estadísticas tributarias del Impuesto sobre Bienes Inmuebles.

Base de datos del Consejo General del Poder Judicial

Base de datos y estadística judicial del C.G.P.J. y consultas al CENDOJ (Centro de Documentación Judicial)

Otras nacionales

Portal de transparencia del Congreso de los Diputados

Datos en formato XML sobre las votaciones realizadas en las sesiones plenarias desde la X Legislatura.

Catálogo de datos abiertos del Senado de España

Datos de la actividad parlamentaria, de su composición y organización, rrss de senadores y económica

TIPI

herramienta on-line de transparencia, acceso a información y rendición de cuentas. Nacida desde la sociedad civil, está focalizada en el seguimiento de la toda la actividad

parlamentaria española relacionada con la pobreza, la justicia social y el desarrollo sostenible.

Page 27: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

FUENTES AUTONÓMICAS Y LOCALES

Espacio de Datos Abiertos de Castilla-La Mancha dentro de su Portal de Transparencia

Servicio de Estadística de Castilla-La ManchaAcceso a su navegador estadístico

Portal de contratación pública de Castilla-La ManchaDifusión y acceso a todas las aplicaciones y servicios de interés relativos a los contratos del sector público regional y a la sede electrónica dela misma.Acceso a la Plataforma de Contratación del Sector Público (licitaciones, contrataciones, …)

Portal de transparencia de la Diputación Provincial de Cuenca

Otros:C. de Agricultura, Medio Ambiente y Desarollo Rural (Medio Ambiente)C. de SanidadC. de Economía, Empresas y Empleo (Empleo)C. de Educación, Cultura y Deportes (Educación)

Page 28: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

Extracción de datos: WEB SCRAPING

Page 29: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

Web scrappingTanto en diversos portales de datos abiertos (como en general en la Web) nos encontramos con datos o información que no proporcionan niveles altos de cumplimiento de las especificaciones de datos abiertos.

Por desgracia esta práctica es muy común en los portales de datos abiertos como mecanismo aglutinador de enlaces a otras webs en donde ya se encontraba dicha información que se pretende liberar.

Para rescatar esa información tenemos que hacer uso de una técnica artesanal o semiautomática como es la del Web Scraping.

Web scraping es una técnica para extraer datos/información de páginas web.

Se genera un automatismo que permite de forma autónoma recopilar una serie de elementos que cumplen un determinado patrón.

• Puede usarse herramientas o utilidades que permiten la extracción o usar códigos de Python como lenguaje de programación ya que es fácil manejar HTML en dicho lenguaje.

• Hay librerías muy potentes como por ejemplo Scrapy y otras más sencillas como BeautifulSoup.

Page 30: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

Herramientas básicas de Webscrapping

• Importar tablas en páginas web a hojas de cálculo (necesaria URL)

• En Hoja de Cálculo de Google (Drive): =IMPORTHTML(“URL”;”table”;n)

• En Excel: Datos Desde Web --> …

• Importar tablas mediante extensión navegador Table Capture (extensión Chrome): No necesita la URL (copia al portapapeles o a Hoja de Google)

• Otros avanzados: import.io Extract (7 días gratis) / Data Scraper (data-miner.io) / QuickCode / Librerías en Python (scrapy, BeautifulSoup, …)

• Tabula: Extracción de tablas en PDFs a CSV offline (cuidado si existen celdas sin valores)

• Conversores online (ejemplos):

• https://pdftables.com/ (de prueba x páginas y luego pago). Convierte a Excel todo.

• https://pdf2doc.com/es/ Gratis, convierte a Word todo el documento

• https://tools.pdf24.org/es/ocr-pdf OCR (Word, pdfs a texto) y otras herramientas

Page 31: Curso Herramientas digitales para periodismo de Datosblog.uclm.es/miguelalvarez/files/2019/03/1-Datos... · Curso Herramientas digitales para periodismo de Datos Días: 24 y 25 enero

Ejercicios de Webscrapping

A. Importar tablas con Hoja de cálculo de Google y Excel con los datos:

1. Profesorado Facultad Periodismo o

2. Infraestructuras y Recursos materiales del Centro

B. Convertir tablas en PDF a texto (Excel o csv)

1. Con Table Capture (instalar en Chrome): Listado de farmacias de Cuenca del Sescam

2. Con Tabula:

i. Relación de contratos menores de la Diputación Provincial de Cuenca del 2º trimestre de 2018

ii. El listado de páginas 13 a 16 del Informe de Transparencia de Universidades enero 2019 de Dyntra o

iii. El listado material préstamo – UCLM

C. Convertir PDF imágenes a PDF texto con PDF24 OCR el listado en PDF Exámenes extraordinarios Facultad Periodismo y convertirlo a Excel con algún conversor online (pdftables, …)