Post on 13-Jan-2017
Las Búsquedas Inteligentes en las Ciudades del Futuro
Autor(es): • Mtr. Luis Fernando Aguas
Contenidos• Introducción
• Knowledge Graph
• Búsquedas Inteligentes
• ¿Qué es un Webcrawler?
• Proceso de Webcrawling Inteligente
• Web Crawler- PHP
• Web Crawler aplicado a Redes Sociales
• Perfiles Digitales
• El futuro de las búsquedas
Introducción
• Buscador (motor de búsqueda) es un sistema informático que busca archivos almacenados en servidores web gracias a sus “spider” (o Web crawler).
Knowledge Graph:
• El buscador perfecto debería entender exactamente lo que quieres decir y debería devolver exactamente lo que quieres.
• El nuevo concepto de google Knowledge Graph “El gráfico de conocimiento” es una colección enorme de personas, lugares y cosas del mundo y la forma en que están interconectadas entre sí.
Knowledge Graph:
• Resultados de cosas y de conceptos
Knowledge Graph:
• Obtención de mejores resúmenes
Knowledge Graph:
• Profundizar y ampliar resultados
Búsquedas Inteligentes
Cola de Links
Agentes de descarga (b)
Agente de gestión links (a)
Agentes de proceso (c)
Páginas WEB
Distancias (Diccionario de
datos)
Servicios
Búsquedas Inteligentes
Agentes de proceso
Distancias (Diccionario de
datos)
Servicio de agregado de palabras (a)
Servicio de agregado de frases (b)
Servicio de cálculo de distancias (c)
Proceso por lotes
¿Qué es un Webcrawler?
• Exploran páginas web en forma automática.
• Suelen ser bots.
• Es utilizado por los motores de búsqueda.
Proceso de Webcrawling Inteligente
• Lista inicial de links.
• Exploración de Sitios Web de la lista.
• Extracción de links
• Selección óptima de links
• Carga de nuevos links en la lista inicial
Proceso de Webcrawling Inteligente
Web Crawler- PHP
• Vamos a utilizar la clase
• Luego, agregamos las funciones que vamos a utilizar, transformamos las URL que necesitamos quitando caracteres especiales
Web Crawler- PHP
Web Crawler- PHP• Rastreamos las URLS Reales
Web Crawler- PHP• Crawler se ejecuta aquí:
Web Crawler- PHP
• Ejemplo:
• Demo 1
• Rastreo Total
Web Crawler aplicado a Redes Sociales
• Facebook:o Nos registramos como desarrollador de aplicaciones
https://developers.facebook.com/docs/appso Creamos un nuevo identificador de la aplicación
Web Crawler aplicado a Redes Sociales
• Facebook:o Descargamos Simple Data Pull o el equivalente para python
o En la función principal colocamos, nuestro usuario y password: 12345
def main(): list_companies = [“usuario", “password"] graph_url = "https://graph.facebook.com/
Web Crawler aplicado a Redes Sociales
• Facebook:o Comenzamos a analizar. o Simplemente pegamos el APP_SECRET y APP_ID en el enlace
de abajo.
https://graph.facebook.com/usuario/posts/?key=value&access_token=APP_ID|APP_SECRET
• Colocando la línea anterior, nos retorna el id real del usuario
Web Crawler aplicado a Redes Sociales
• Retorna, la fecha de los posteos en el muro:3456789101112131415161718192021222324252627282930313233343536373839404142
def scrape_posts_by_date(graph_url, date, post_data): page_posts = render_to_json(graph_url) next_page = page_posts["paging"]["next"] page_posts = page_posts["data"] collecting = True for post in page_posts: for post in page_posts: try: current_post = [post["id"], post["message"], post["created_time"], post["shares"]["count"]] except Exception: current_post = [ "error", "error", "error", "error"] if current_post[2] != "error": #compare dates if date <= current_post[2]: post_data.append(current_post) elif date > current_post[2]: print "Done collecting" collecting = False break #If we still don't meet date requirements, run on next page if collecting == True: scrape_posts_by_date(next_page, date, post_data) return post_data
Web Crawler aplicados a Redes Sociales
• Contenido reciente compartido:
Web Crawler aplicados a Redes Sociales
• Para contar el número de likes:
• En resumen analizando esta técnica, podemos averiguar cualquier información del usuario en la red social en cuestión
• Combinando con exploit, se podría hasta hackear.
Web Crawler aplicados a Redes Sociales
• Video 1.: Facebook Fan
• Video 2.: Recolección Mails – Atomic Email Hunter
Perfiles Digitales
• Ficha personal de cada usuario en función de las publicaciones en internet (Redes Sociales, etc..)
• Estas publicaciones se relacionan con las emociones, personalidad, etc.
• Ciertas entidades en el mundo usan estos perfiles para empleos, análisis psicológico, etc.
• Se usan crawlers para su creación
Perfiles Digitales
Filtrar
AnalizarExtraer
Buscar
Perfiles Digitales
Máquinas de Aprendizaje
• Uso tecnología de inteligencia artificial.
• Aprendizaje automático
• Búsquedas en base a la construcción de Perfiles Digitales
• Dar al motor de búsqueda la capacidad de decisióno Las aplicaciones más populares de Google ya cuentan con
máquinas de aprendizajeo Gmail cuenta con una inteligencia artificial que sugiere posibles
respuestas a un correo electrónico dependiendo de su texto e imágenes.
Máquinas de Aprendizaje
• Sistemas Expertos convencionales:
(algunos) Sistemas Expertos de segunda generación:
Experiencia ReglasIngeniero de conocimiento
Experiencia ReglasAlgoritmo deaprendizaje
Búsquedas Inteligentes
Cola de Links
Agentes de descarga (b)
Agente de gestión links (a)
Agentes de proceso (c)
Páginas WEB
Distancias (Diccionario de
datos)
Servicios
Búsquedas Inteligentes
Agentes de proceso
Distancias (Diccionario de
datos)
Servicio de agregado de palabras (a)
Servicio de agregado de frases (b)
Servicio de cálculo de distancias (c)
Proceso por lotes
Google Neural Machine Translation (GNMT)
• Fue empleada por primera vez para mejorar la eficiencia de traducciones de una sola frase
• El algoritmo era efectivo con múltiples frases, reduciendo errores en un 60%
• Los algoritmos convencionales de traducción son capaces de “recordar”
Cloud Machine Learning Platform
• Máquina de aprendizaje en la nube.
• Creada por google.
• Para muchos de sus servicios como puedan ser en las búsquedas de imágenes, en las búsquedas por voz desde la aplicación, en las traducciones y en las respuestas inteligentes de Inbox.
• El API puede ser usado por los desarrolladores
Cloud Machine Learning Platform
Google Open Images
• Reúne más de 9 millones de enlaces a imágenes que han sido etiquetadas sobre unas 6.000 categorías.
• Han participado las universidades de Carnegie Mellon y Cornell.
• Sobre dichas imágenes se han llevado a cabo una serie de trabajos de investigación.
Google Open Images
El futuro de las búsquedas
• Uso de tecnología de inteligencia artificial.
• Aprendizaje automático
• Búsquedas en base a la construcción de Perfiles Digitales
• Dar al motor de búsqueda la capacidad de decisióno Las aplicaciones más populares de Google ya cuentan con
máquinas de aprendizajeo Gmail cuenta con una inteligencia artificial que sugiere posibles
respuestas a un correo electrónico dependiendo de su texto e imágenes.
El futuro de las búsquedas