Tecnologías Web 2.0 con PHPCursos de Extensión Universitaria 2º cuatrimestre 2006/07
Extracción de conocimiento de la Web
Gijón, 14, 15 y 16 de Marzo de 2007
Conceptos previos
Conocimiento es información organizada y contextualizada que puede usarse para inferir nuevos significados y datos
La minería de datos es el proceso de extracción de conocimiento útil a partir de grandes cantidades de datos mediante métodos generalmente estadísticos
El término recuperación de información hace referencia al estudio de sistemas automáticos que permiten al usuario determinar la existencia (o no) de documentos relacionados con una necesidad de información formulada como una consulta textual
La destilación de información va un paso más allá de la recuperación de información, p.ej. extracción de palabras clave, resumen automático o Question Answering
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Extracción de conocimiento
de la Web
La extracción de conocimiento de la Web, minería Web o Web mining tiene como objetivo extraer información útil mediante el procesamiento de los ingentes volúmenes de datos que existen en la Web y que se generan con su uso diario
La minería Web puede dividirse en tres grandes áreas:
Extracción de conocimiento a partir de la estructura hipertextual de la Web (p.ej. algoritmos PageRank y HITS)
Extracción de conocimiento a partir del uso de la Web (p.ej. logs de servidores y buscadores)
Extracción de conocimiento a partir de los contenidos disponibles en la Web (la Web como corpus)
Multidisciplinar: aprendizaje automático, procesamiento de lenguaje natural, estadística, recuperación de información, bases de datos
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Recuperación de información
“clásica”
Modelo booleano
Cada documento se representa como el conjunto de las palabras que contiene (pueden eliminarse palabras vacías y aplicarse stemming)
Una consulta es una expresión lógica que combina palabras y operadores lógicos (AND, OR y NOT)
Ejemplo: (information AND retrieval) OR ir
Demasiado sencillo Las consultas más refinadas apenas retornan documentos
Las más abiertas obtienen “demasiadas” respuestas
No hay ninguna medida de la “relevancia” de cada documento en relación con la consulta
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Recuperación de información
“clásica”
Modelo vectorial
No todas las palabras son iguales, es necesario asignar a cada una un “peso” en función de:
La frecuencia de aparición en el documento (tf). Cuanto más se repita, mayor peso
El número de documentos de la colección (idf). Cuanto más común sea, menor peso
La longitud del documento. Un sistema IR no debe mostrar “preferencia” por documentos de una longitud determinada
Cada documento será un vector de términos y pesos
Las consultas se representan del mismo modo
Es posible aplicar medidas de similitud/disimilitud puramente matemáticas (p.ej. coseno del ángulo entre vectores)
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Recuperación de información
en la Web
Algunos “hechos diferenciales”
La mayor parte de los usuarios resuelven sus necesidades de información con 2 consultas o menos
La mayor parte de los usuarios no pasan de la primera página de resultados de un buscador
La mayor parte de usuarios examinan menos de 5 documentos entre los resultados
La mayor parte de las consultas constan de 2 términos o menos
Las consultas pueden serNavegacionales (p.ej. google, páginas amarillas, uniovi, etc.)
Transaccionales (p.ej. juegos, postales, tiempo, etc.)
Informativas (p.ej. current time in alps france, palm how to restore backup, iron deficiency anemia, etc.)
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Búsquedas en la Web antes de Google
Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Computer Networks and ISDN Systems, vol. 30, no. 1-7, pp. 107-117.
as of November 1997, only one of the top four commercial search engines finds itself.
…
[…] we have seen a major search engine return a page containing only "Bill Clinton Sucks" and picture from a "Bill Clinton" query. […] If a user issues a query like "Bill Clinton" they should get reasonable results since there is a enormous amount of high quality information available on this topic. Given examples like these, we believe that the standard information retrieval work needs to be extended to deal effectively with the web.
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Motores de búsqueda modernos
Demos un paseo…
Plagiar, v. Adoptar el pensamiento o el estilo de otro escritor, a quien uno jamás ha leído.Plagio, s. Coincidencia literaria entre un antecedente carente de mérito y un consecuente honorable.
…Siempre hay que acreditar las fuentes que hemos usado
Bierce, A. 1906, The Devil’s Dictionary
En los trabajos científicos se citan trabajos de terceros por dos razones: para interpretarlos o en apoyo de la interpretación personal. Umberto, E. 1977, Cómo se hace una tesis.
Las citas deben aportar algo nuevo o confirmar lo sabido con autoridad.
Citando dotamos de autoridad a un tercero…
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Motores de búsqueda modernos
Sigamos con el paseo…
Textos científicos y citas constituyen los nodos y aristas de un grafo
Hace ya ¡80 años! que se estudian estos patrones
Es posible determinar qué documentos, autores y revistas reciben más citas en términos absolutos y relativos
Los documentos, autores y revistas más citados tendrán mayor autoridad
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Motores de búsqueda modernos
Donde dije “cita” digo “hiperenlace”…
Marchiori, M. 1997 “The Quest for Correct Information on the Web: Hyper Search Engines”. The Sixth International WWW Conference (WWW 97).
A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext.
[...] focusing separately on the "textual" and "hyper" components.
The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects.
Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it […]
This is clearly unfeasible in practice, so, for practical reasons, we have to stop the analysis at a certain depth […]
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Motores de búsqueda modernos
Donde dije “cita” digo “hiperenlace”…
Marchiori, M. 1997 “The Quest for Correct Information on the Web: Hyper Search Engines”. The Sixth International WWW Conference (WWW 97).
A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext.
[...] focusing separately on the "textual" and "hyper" components.
The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects.
Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it […]
This is clearly unfeasible in practice, so, for practical reasons, we have to stop the analysis at a certain depth […]
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Motores de búsqueda modernos
Donde dije “cita” digo “hiperenlace”…
Jon Kleinberg define los conceptos de autoridad y hub
Kleinberg, J.M. 1998, “Authoritative sources in a hyperlinked environment”, en Proceedings of the ninth annual ACM-SIAM symposium on Discrete algorithms, pp. 668-677.
Una autoridad es un documento fuertemente enlazado
Un hub es un documento que enlaza a muchas autoridades
Esta técnica logró que el 50% de los resultados para las consultas fueran relevantes, frente al 40% de Yahoo! (un directorio) o Altavista
Chakrabarti, S., Dom, B.E., Gibson, D., Kleinberg, J., Raghavan, P. y Rajagopalan, S. 1998, “Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text”, en Proceedings of the 7th World-Wide Web conference, pp. 65-74.
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Motores de búsqueda modernos
Google comienza a operar en 1998Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Computer Networks and ISDN Systems, vol. 30, no. 1-7, pp. 107-117.
El núcleo de su sistema de ponderación es el algoritmo PageRank, similar al método de Kleinberg
Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web
El algoritmo asocia a cada documento un valor (tb. PageRank) de este modo:
Un documento transmite a todos los documentos que enlaza su valor PageRank dividido por el número de enlaces salientesUn documento muy enlazado tendrá un PageRank elevadoUn documento enlazado desde documentos prestigiosos tendrá un PageRank elevado
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
B C
FED
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A1
B1
C1
F1
E1
D1
Iteración 0
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A1
B C
FED
0,33
0,330,33
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
B1
C
FED
0,33
0,330,33
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
B C1
FED
1
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
B C
FED1
0,33
0,33
0,33
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
B C
FE1
D
0,500,50
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
B C
F1
ED 0,33
0,33
0,33
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A1,17
B0,33
C1,83
F1,33
E0,67
D0,67
Iteración 1
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A0,65
B0,22
C1,61
F1,72
E0,93
D0,87
Iteración 2
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A0,83
B0,22
C1,62
F1,83
E0,86
D0,65
Iteración 3
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A0,72
B0,28
C1,60
F1,89
E0,82
D0,68
Iteración 4
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A0,73
B0,24
C1,60
F1,85
E0,86
D0,72
Iteración 5
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A0,75
B0,24
C1,61
F1,85
E0,86
D0,70
Iteración 6
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A0,74
B0,25
C1,61
F1,86
E0,85
D0,70
Iteración 7
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A0,74
B0,25
C1,61
F1,85
E0,85
D0,70
Iteración 8
PageRank
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
B
C
FE
D
PageRank
Algunas características interesantes de PageRank
Los valores de PageRank calculados para los nodos se “estabilizan” con rapidez (p.ej. 52 iteraciones son suficientes para obtener valores razonables para 322 millones de enlaces)
Es relativamente insensible a los valores de “partida”, afectaría al número de iteraciones necesarias y a los valores finales (obviamente) pero no al ranking obtenido
El PageRank total en la Web es constante
Si el valor inicial asignado a cada documento es 1/N (número de documentos) el valor de PageRank equivale a la probabilidad de que un usuario llegue a dicho documento siguiendo enlaces al azar (random surfer model)
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Búsquedas en la Web con PageRank
Recordemos lo que dijo Marchiori
[...] focusing separately on the "textual" and "hyper" components.
PageRank no tiene en cuento el contenido de los textos para determinar el prestigio/autoridad/relevancia de un nodo, sólo los enlaces
¿Cómo se realizan las búsquedas entonces? (Versión simplificada)
Se extraen los términos (palabras) de la consulta
Se localizan documentos que contengan todos los términos
Se ordenan los documentos obtenidos por PageRank decreciente
Es decir, Google proporciona a los usuarios aquellos documentos que satisfacen la consulta y tienen más prestigio en la Web
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Problemas del ranking basado en
hiperenlaces
Tres escenarios problemáticos
Bharat, K., y Henzinger, M. 1998, “Improved Algorithms for Topic Distillation in a Hyperlinked Environment”, en Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval, pp. 104-111.
Enlaces “nepotistas”Cada enlace es un “voto” aunque provengan todos del mismo servidor
No es un problema fácil de resolver. Davison, B.D. 2000, “Recognizing Nepotistic Links on the Web”, en Proceedings of AAAI-2000 Workshop on Artificial Intelligence for Web Search, pp. 23-28.
Enlaces automáticosTodos estos algoritmos parten del supuesto que los enlaces son establecidos por un ser humano y eso no siempre es cierto (Wordpress scandal)
Documentos irrelevantes enlazados desde autoridadesInevitable puesto que no hay ningún análisis de contenidos, sólo se emplea la topología del grafo
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Problemas del ranking basado en
hiperenlaces
Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web
[…] PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it. At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money.
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Problemas del ranking basado en
hiperenlaces
Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web
[…] PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it. At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money.
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Problemas del ranking basado en
hiperenlaces
Granjas de enlaces
Recordemos que el PageRank total es constante, sólo se reparte entre los nodos
¿Qué sucede si se construye un grafo con gran cantidad de nodos fuertemente conectados y unos pocos reciben la mayoría de enlaces?
Respuesta: Una porción del PageRank global termina en ese subgrafo y es asignada en su práctica totalidad a unos pocos nodos que aumentan su PageRank artificialmente
Si, además, la granja de enlaces es alojada o enlazada desde algún sitio “prestigioso” mejor que mejor
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Problemas del ranking basado en
hiperenlaces
Google bombing
Además de emplear la topología derivada de los enlaces Google (y el resto de buscadores) emplea/ba el texto de los enlaces que recibe una página para indexarla (ej. google compra youtube, gutemberg, guttenberg, guttemberg, mao tse-tung, mao zedong)
Si varios sitios web coordinados enlazan a un tercero empleando el mismo término o frase es posible construir “bromas” como las famosas: ladrones, miserable failure o horrid operating system
A finales de enero de 2007 Google anunció que las “bombas” ya no funcionaban gracias a una solución algorítmica
Pero…Algunas siguen funcionando: horrid operating system
Búsquedas que deberían funcionar no lo hacen: spanish airlines
Todos los buscadores son vulnerables a esta técnica
Off-topic: ¿qué retornan las consultas click here o pinche aquí?
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Problemas del ranking basado en
hiperenlaces
Daños “colaterales” (usuarios y autores)
La ausencia de “prestigio” no implica carencia de relevancia
Al desvincularse el “prestigio” de los contenidos, resultados “prestigiosos” pueden satisfacer la consulta pero no al usuario.
El autor del documento puede no desear tales visitas.
Algunas consultas reales que me han traído “público”…algoritmos genéticos(documentos en inglés)
que es disertacion doctoral
articulos o comentarios de prensa sobre algoritmos geneticos
¿Qué tienen en común? Son consultas informativas, el usuario quiere información/respuestas. Broder, A. 2002, “A taxonomy of web search”, ACM SIGIR Forum, vol. 36, no. 2, pp. 3-10.
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
En resumen…Los buscadores modernos son un ejemplo del
conocimiento que se puede derivar de la estructura topológica de la Web
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del
uso de la Web
Filtrado colaborativo
Técnica que permite a un sistema sugerir a cada usuario una selección de nuevos elementos sobre la base de sus preferencias en el pasado y de las valoraciones que, de dichos elementos, han hecho otros usuarios del sistema
Un ejemplo de filtrado colaborativo: Amazon
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del
uso de la Web
Todos los servidores web generan archivos de log en los que se recoge información sobre las acciones de los usuarios en el sitio web156.35.14.9 - - [17/Oct/2006:20:34:26 +0200] "GET /nol/shared/css/news_r5.css HTTP/1.0" 404 312156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] "GET /CursoWeb20/ HTTP/1.0" 200 1894156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] "GET /icons/blank.gif HTTP/1.0" 200 148156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] "GET /icons/back.gif HTTP/1.0" 200 216156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] "GET /icons/folder.gif HTTP/1.0" 200 225156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] "GET /icons/compressed.gif HTTP/1.0" 200 1038
En realidad, el servidor desconoce quién es el usuario, sólo dispone de su dirección IP que, en muchos casos, será utilizada por múltiples usuarios simultaneamente (proxies) y en otros será re-utilizada en diversas ocasiones (p.ej. direcciones dinámicas otorgadas por ISPs)
Por esa razón, lo máximo que puede hacerse con la información del archivo de log es tratar de encontrar sesiones de usuario (conjunto de peticiones realizadas desde una misma IP durante un período corto de tiempo)
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del
uso de la Web
Objetivos de la extracción de conocimiento a partir de archivos de log:
Entender los intereses de los usuarios de un sitio web
Mejorar, en consecuencia, la satisfacción del usuario al reorganizar el sitio en base a dichos intereses
Facilitar el acceso a la información mediante recomendaciones en tiempo real
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del
uso de la Web
Los motores de búsqueda también disponen de archivos de log en los que se almacena información como:
Identificador de sesión
Fecha y hora
Texto de la consulta
URL visitada
Posición de la URL visitada dentro de la página de resultados
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del
uso de la Web
Los logs de un buscador resultan muy útiles para mejorar la precisión
Baeza-Yates, R. 2004, “Query Usage Mining in Search Engines”, en Web Mining: Applications and Techniques
After a query, a user usually performs a click to view one answer page. Each click is considered a positive recommendation of that page (in most cases bad pages are not clicked).
Zhang, D. y Dong, Y. 2002, “A novel Web usage mining approach for search engines”, Computer Networks, vol. 39, no. 3, pp. 303-310
A user is “good” if he/she issues many “good” queries, while a queryis “good” if it can retrieve many “good” resources, while a resource is “good” if it is accessed by many
“good” users.
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del
uso de la Web
Ricardo Baeza-Yates lleva algún tiempo desarrollando técnicas para agrupar consultas temáticamente a partir de los resultados visitados.
Baeza-Yates, R. et al. 2004, “Query recommendation using query logs in search engines”, en Current Trends in Database Technology, LNCS 3268, p. 588-596.
Las consultas de un grupo pueden ordenarse en base al porcentaje de documentos relevantes (determinados por los clicks) que retorna cada una
Una vez determinados los conjuntos de consultas pueden emplearse para…
… ofrecer consultas alternativas
… mejorar la precisión de los resultados (ofreciendo aquellos más relevantes para usuarios anteriores)
Más recientemente ha estudiado el modo de extraer pseudo-folksonomías a partir de los conjuntos de consultas
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del
uso de la Web
A mediados de 2006 Microsoft financió una serie de proyectos de investigación sobre un conjunto de 15 millones de consultas
Poco después AOL liberó un archivo con datos sobre 20 millones de consultas correspondientes a 650.000 usuarios (miniescándalo)…
Rodaron cabezas, el sitio web fue eliminado en cuestión de horas y los datos…
…no tardaron en ser replicados, hoy sobreviven en algunos mirrors y redes P2P. Si os interesan quizás podáis descargarlos… AOL-data.tgz
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Análisis de tendencias
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
AOL gate
Análisis de tendencias
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Google compra YouTubeAOL gate
Análisis de tendencias
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Análisis de tendencias
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Análisis de tendencias
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
La frecuencia absoluta ya es un indicador interesanteLa co-ocurrencia de términos es aún más interesante
Normalized Google
Distance
Cilibrasi, R. y Vitanyi, P. 2005, Automatic Meaning Discovery Using Google, http://arxiv.org/abs/cs.CL/0412098
The rise of the world-wide-web has enticed millions of users to type in trillions of characters to create billions of web pages of on average low quality contents. The sheer mass of the information available about almost every conceivable topic makes it likely that extremes will cancel and the majority or average is meaningful in a low-quality approximate sense.
Normalized Google Distance (NGD)
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
)}(log),(min{loglog
),(log)}(log),(max{log),(
yfxfM
yxfyfxfyxNGD
Normalized Google
Distance
Distancias NGD entre algunos países
portugal 0 0,02 0,21 0,07 0,23 0,09 0,11
spain 0,02 0 0,18 -0,01 0,15 0,10 0,12
france 0,21 0,18 0 0,16 -0,01 0,20 0,30
italy 0,07 -0,01 0,16 0 0,12 0,11 0,16
germany 0,23 0,15 -0,01 0,12 0 0,17 0,24
belgium 0,09 0,10 0,20 0,11 0,17 0 0,00
netherl. 0,11 0,12 0,30 0,16 0,24 0,00 0
Primer problema: Google sólo proporciona estimaciones sobre el número total de documentos que contienen una palabra y, muchas veces, es una aproximación demasiado “gruesa” (p.ej. spain 311x106, italy 303x106, spain italy 330x106)
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Normalized Google
Distance
Segundo problema:
¿Sobre qué “eje” se mide la distancia?
En este ejemplo, ¿población? ¿superficie? ¿PIB?
En resumen, interesante, inspiradora… Aún se necesita más trabajo…
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
PortugalBelgium
Netherlands
SpainGermany
France
Italy
La Web como corpus
Un corpus es una colección de documentos que muestran el uso real de la lengua natural
Pueden ser monolingües o multilingües y estos, a su vez, paralelos o comparables
Los corpora multilingües son un recurso fundamental para la construcción de sistemas estadísticos de traducción automática
Brown, P.F. et al. 1990, “A Statistical Approach to Machine Translation”, Computational Linguistics, vol. 16, no. 2
http://video.google.com/videoplay?docid=6934089019347797736
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Viktor aprende inglés comparando dos guías turísticas
de Nueva York
La Web como corpus
La traducción automática es sólo uno de los campos que puede beneficiarse de la utilización de la Web como corpus o, mejor dicho, de corpora extraídos de la Web… Sin embargo, es uno de los más espectaculares
Trabajos interesantes:
Jones, R. y Ghani, R. 2000, “Automatically Building a Corpus for a Minority Language from the Web”, en Proceedings of the Student Workshop of the 38th Annual Meeting of the Association for Computational Linguistics, pp. 29–36
Resnik, P. y Smith, N.A. 2003, “The Web as a parallel corpus”, Computational Linguistics, vol. 29, no. 3, pp. 349-380
Kilgarriff, A. y Grefenstette, G. 2003, “Introduction to the special issue on the web as corpus”, Computational Linguistics, vol. 29, no. 3, pp. 333-347
A tener en cuenta: WAC (Web as a Corpus Workshop), CLEANEVAL
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
En resumen…Es posible explotar la estructura, los contenidos y los patrones de uso de la Web para extraer de manera
automática conocimiento útil
Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Top Related