Web Crawlers

Las Búsquedas Inteligentes en las Ciudades del Futuro

Autor(es): • Mtr. Luis Fernando Aguas

Contenidos• Introducción

• Knowledge Graph

• Búsquedas Inteligentes

• ¿Qué es un Webcrawler?

• Proceso de Webcrawling Inteligente

• Web Crawler- PHP

• Web Crawler aplicado a Redes Sociales

• Perfiles Digitales

• El futuro de las búsquedas

Introducción

• Buscador (motor de búsqueda) es un sistema informático que busca archivos almacenados en servidores web gracias a sus “spider” (o Web crawler).

Knowledge Graph:

• El buscador perfecto debería entender exactamente lo que quieres decir y debería devolver exactamente lo que quieres.

• El nuevo concepto de google Knowledge Graph “El gráfico de conocimiento” es una colección enorme de personas, lugares y cosas del mundo y la forma en que están interconectadas entre sí.

Knowledge Graph:

• Resultados de cosas y de conceptos

Knowledge Graph:

• Obtención de mejores resúmenes

Knowledge Graph:

• Profundizar y ampliar resultados

Búsquedas Inteligentes

Cola de Links

Agentes de descarga (b)

Agente de gestión links (a)

Agentes de proceso (c)

Páginas WEB

Distancias (Diccionario de

datos)

Servicios

Agentes de proceso

datos)

Servicio de agregado de palabras (a)

Servicio de agregado de frases (b)

Servicio de cálculo de distancias (c)

Proceso por lotes

¿Qué es un Webcrawler?

• Exploran páginas web en forma automática.

• Suelen ser bots.

• Es utilizado por los motores de búsqueda.

Proceso de Webcrawling Inteligente

• Lista inicial de links.

• Exploración de Sitios Web de la lista.

• Extracción de links

• Selección óptima de links

• Carga de nuevos links en la lista inicial

Proceso de Webcrawling Inteligente

Web Crawler- PHP

• Vamos a utilizar la clase

• Luego, agregamos las funciones que vamos a utilizar, transformamos las URL que necesitamos quitando caracteres especiales

Web Crawler- PHP

Web Crawler- PHP• Rastreamos las URLS Reales

Web Crawler- PHP• Crawler se ejecuta aquí:

Web Crawler- PHP

• Ejemplo:

• Demo 1

• Rastreo Total

Web Crawler aplicado a Redes Sociales

• Facebook:o Nos registramos como desarrollador de aplicaciones

https://developers.facebook.com/docs/appso Creamos un nuevo identificador de la aplicación

• Facebook:o Descargamos Simple Data Pull o el equivalente para python

o En la función principal colocamos, nuestro usuario y password: 12345

def main(): list_companies = [“usuario", “password"] graph_url = "https://graph.facebook.com/

• Facebook:o Comenzamos a analizar. o Simplemente pegamos el APP_SECRET y APP_ID en el enlace

de abajo.

https://graph.facebook.com/usuario/posts/?key=value&access_token=APP_ID|APP_SECRET

• Colocando la línea anterior, nos retorna el id real del usuario

• Retorna, la fecha de los posteos en el muro:3456789101112131415161718192021222324252627282930313233343536373839404142

def scrape_posts_by_date(graph_url, date, post_data): page_posts = render_to_json(graph_url) next_page = page_posts["paging"]["next"] page_posts = page_posts["data"] collecting = True for post in page_posts: for post in page_posts: try: current_post = [post["id"], post["message"], post["created_time"], post["shares"]["count"]] except Exception: current_post = [ "error", "error", "error", "error"] if current_post[2] != "error": #compare dates if date <= current_post[2]: post_data.append(current_post) elif date > current_post[2]: print "Done collecting" collecting = False break #If we still don't meet date requirements, run on next page if collecting == True: scrape_posts_by_date(next_page, date, post_data) return post_data

Web Crawler aplicados a Redes Sociales

• Contenido reciente compartido:

• Para contar el número de likes:

• En resumen analizando esta técnica, podemos averiguar cualquier información del usuario en la red social en cuestión

• Combinando con exploit, se podría hasta hackear.

• Video 1.: Facebook Fan

• Video 2.: Recolección Mails – Atomic Email Hunter

Perfiles Digitales

• Ficha personal de cada usuario en función de las publicaciones en internet (Redes Sociales, etc..)

• Estas publicaciones se relacionan con las emociones, personalidad, etc.

• Ciertas entidades en el mundo usan estos perfiles para empleos, análisis psicológico, etc.

• Se usan crawlers para su creación

Perfiles Digitales

Filtrar

AnalizarExtraer

Buscar

Perfiles Digitales

Máquinas de Aprendizaje

• Uso tecnología de inteligencia artificial.

• Aprendizaje automático

• Búsquedas en base a la construcción de Perfiles Digitales

• Dar al motor de búsqueda la capacidad de decisióno Las aplicaciones más populares de Google ya cuentan con

máquinas de aprendizajeo Gmail cuenta con una inteligencia artificial que sugiere posibles

respuestas a un correo electrónico dependiendo de su texto e imágenes.

Máquinas de Aprendizaje

• Sistemas Expertos convencionales:

(algunos) Sistemas Expertos de segunda generación:

Experiencia ReglasIngeniero de conocimiento

Experiencia ReglasAlgoritmo deaprendizaje

Cola de Links

Agentes de descarga (b)

Agente de gestión links (a)

Agentes de proceso (c)

Páginas WEB

datos)

Servicios

Agentes de proceso

datos)

Servicio de agregado de palabras (a)

Servicio de agregado de frases (b)

Servicio de cálculo de distancias (c)

Proceso por lotes

Google Neural Machine Translation (GNMT)

• Fue empleada por primera vez para mejorar la eficiencia de traducciones de una sola frase

• El algoritmo era efectivo con múltiples frases, reduciendo errores en un 60%

• Los algoritmos convencionales de traducción son capaces de “recordar”

Cloud Machine Learning Platform

• Máquina de aprendizaje en la nube.

• Creada por google.

• Para muchos de sus servicios como puedan ser en las búsquedas de imágenes, en las búsquedas por voz desde la aplicación, en las traducciones y en las respuestas inteligentes de Inbox.

• El API puede ser usado por los desarrolladores

Cloud Machine Learning Platform

Google Open Images

• Reúne más de 9 millones de enlaces a imágenes que han sido etiquetadas sobre unas 6.000 categorías.

• Han participado las universidades de Carnegie Mellon y Cornell.

• Sobre dichas imágenes se han llevado a cabo una serie de trabajos de investigación.

Google Open Images

El futuro de las búsquedas

• Uso de tecnología de inteligencia artificial.

• Aprendizaje automático

• Búsquedas en base a la construcción de Perfiles Digitales

• Dar al motor de búsqueda la capacidad de decisióno Las aplicaciones más populares de Google ya cuentan con

máquinas de aprendizajeo Gmail cuenta con una inteligencia artificial que sugiere posibles

respuestas a un correo electrónico dependiendo de su texto e imágenes.

El futuro de las búsquedas

Web Crawlers

Automotive

Transcript of Web Crawlers

Crawlers -Arañas · Crawlers –Arañas Limitaciones En el intervalo entre actualizaciones los buscadores pueden devolver enlaces inválidos (porcentaje de 2-9%). Los administradores

dLenin calderon web 1 web 2 web 3

WEB 1.0, WEB 2.0 Y WEB 0.3

1 web 1 y web 2 y web 3

Web Turismo villaprado web

Web fidalgo 48 web

La web (web 1, web 2, web 3, web 4)

Web 1.0 --> Web 2.0

La web 1.0 - web 2.0 - web 3.0 - web 4.0 - Características

Web 1.0 Web 2.0

Buscadores Webevaluacionbuscadoresweb.50webs.org/search_engines.pdf · 2 Introducción Sistemas para localizar documentos – Buscadores basados en crawlers Aprox. 1M páginas por

Web crawlers

Inicios Web 1.0, web 2.0, web 3.0

Diseños Web/ Web designs

Web 3.0,Web 4.0 y WEb 5.0

Web 1.0, web 2.0 y web 3.0

Alojamiento Web Alojamiento web

WEB 2.0 --> WEB 3.0

Web 2.0 ,web 3.0

Unidad Zacatenco Departamento de Computacioń · 2012-11-01 · semańtico del usuario. Este mecanismo hace uso de dos crawlers espec´ıficos para llevar a cabo la extracción