Download - Tecnologías Web 2.0 con PHP Cursos de Extensión Universitaria 2º cuatrimestre 2006/07

Tecnologías Web 2.0 con PHPCursos de Extensión Universitaria 2º cuatrimestre 2006/07

Extracción de conocimiento de la Web

Gijón, 14, 15 y 16 de Marzo de 2007

Conceptos previos

Conocimiento es información organizada y contextualizada que puede usarse para inferir nuevos significados y datos

La minería de datos es el proceso de extracción de conocimiento útil a partir de grandes cantidades de datos mediante métodos generalmente estadísticos

El término recuperación de información hace referencia al estudio de sistemas automáticos que permiten al usuario determinar la existencia (o no) de documentos relacionados con una necesidad de información formulada como una consulta textual

La destilación de información va un paso más allá de la recuperación de información, p.ej. extracción de palabras clave, resumen automático o Question Answering

Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web

Extracción de conocimiento

de la Web

La extracción de conocimiento de la Web, minería Web o Web mining tiene como objetivo extraer información útil mediante el procesamiento de los ingentes volúmenes de datos que existen en la Web y que se generan con su uso diario

La minería Web puede dividirse en tres grandes áreas:

Extracción de conocimiento a partir de la estructura hipertextual de la Web (p.ej. algoritmos PageRank y HITS)

Extracción de conocimiento a partir del uso de la Web (p.ej. logs de servidores y buscadores)

Extracción de conocimiento a partir de los contenidos disponibles en la Web (la Web como corpus)

Multidisciplinar: aprendizaje automático, procesamiento de lenguaje natural, estadística, recuperación de información, bases de datos


Recuperación de información

“clásica”

Modelo booleano

Cada documento se representa como el conjunto de las palabras que contiene (pueden eliminarse palabras vacías y aplicarse stemming)

Una consulta es una expresión lógica que combina palabras y operadores lógicos (AND, OR y NOT)

Ejemplo: (information AND retrieval) OR ir

Demasiado sencillo Las consultas más refinadas apenas retornan documentos

Las más abiertas obtienen “demasiadas” respuestas

No hay ninguna medida de la “relevancia” de cada documento en relación con la consulta



“clásica”

Modelo vectorial

No todas las palabras son iguales, es necesario asignar a cada una un “peso” en función de:

La frecuencia de aparición en el documento (tf). Cuanto más se repita, mayor peso

El número de documentos de la colección (idf). Cuanto más común sea, menor peso

La longitud del documento. Un sistema IR no debe mostrar “preferencia” por documentos de una longitud determinada

Cada documento será un vector de términos y pesos

Las consultas se representan del mismo modo

Es posible aplicar medidas de similitud/disimilitud puramente matemáticas (p.ej. coseno del ángulo entre vectores)



en la Web

Algunos “hechos diferenciales”

La mayor parte de los usuarios resuelven sus necesidades de información con 2 consultas o menos

La mayor parte de los usuarios no pasan de la primera página de resultados de un buscador

La mayor parte de usuarios examinan menos de 5 documentos entre los resultados

La mayor parte de las consultas constan de 2 términos o menos

Las consultas pueden serNavegacionales (p.ej. google, páginas amarillas, uniovi, etc.)

Transaccionales (p.ej. juegos, postales, tiempo, etc.)

Informativas (p.ej. current time in alps france, palm how to restore backup, iron deficiency anemia, etc.)


Búsquedas en la Web antes de Google

Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Computer Networks and ISDN Systems, vol. 30, no. 1-7, pp. 107-117.

as of November 1997, only one of the top four commercial search engines finds itself.

…

[…] we have seen a major search engine return a page containing only "Bill Clinton Sucks" and picture from a "Bill Clinton" query. […] If a user issues a query like "Bill Clinton" they should get reasonable results since there is a enormous amount of high quality information available on this topic. Given examples like these, we believe that the standard information retrieval work needs to be extended to deal effectively with the web.


Motores de búsqueda modernos

Demos un paseo…

Plagiar, v. Adoptar el pensamiento o el estilo de otro escritor, a quien uno jamás ha leído.Plagio, s. Coincidencia literaria entre un antecedente carente de mérito y un consecuente honorable.

…Siempre hay que acreditar las fuentes que hemos usado

Bierce, A. 1906, The Devil’s Dictionary

En los trabajos científicos se citan trabajos de terceros por dos razones: para interpretarlos o en apoyo de la interpretación personal. Umberto, E. 1977, Cómo se hace una tesis.

Las citas deben aportar algo nuevo o confirmar lo sabido con autoridad.

Citando dotamos de autoridad a un tercero…



Sigamos con el paseo…

Textos científicos y citas constituyen los nodos y aristas de un grafo

Hace ya ¡80 años! que se estudian estos patrones

Es posible determinar qué documentos, autores y revistas reciben más citas en términos absolutos y relativos

Los documentos, autores y revistas más citados tendrán mayor autoridad



Donde dije “cita” digo “hiperenlace”…

Marchiori, M. 1997 “The Quest for Correct Information on the Web: Hyper Search Engines”. The Sixth International WWW Conference (WWW 97).

A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext.

[...] focusing separately on the "textual" and "hyper" components.

The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects.

Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it […]

This is clearly unfeasible in practice, so, for practical reasons, we have to stop the analysis at a certain depth […]



Donde dije “cita” digo “hiperenlace”…

Jon Kleinberg define los conceptos de autoridad y hub

Kleinberg, J.M. 1998, “Authoritative sources in a hyperlinked environment”, en Proceedings of the ninth annual ACM-SIAM symposium on Discrete algorithms, pp. 668-677.

Una autoridad es un documento fuertemente enlazado

Un hub es un documento que enlaza a muchas autoridades

Esta técnica logró que el 50% de los resultados para las consultas fueran relevantes, frente al 40% de Yahoo! (un directorio) o Altavista

Chakrabarti, S., Dom, B.E., Gibson, D., Kleinberg, J., Raghavan, P. y Rajagopalan, S. 1998, “Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text”, en Proceedings of the 7th World-Wide Web conference, pp. 65-74.



Google comienza a operar en 1998Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Computer Networks and ISDN Systems, vol. 30, no. 1-7, pp. 107-117.

El núcleo de su sistema de ponderación es el algoritmo PageRank, similar al método de Kleinberg

Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web

El algoritmo asocia a cada documento un valor (tb. PageRank) de este modo:

Un documento transmite a todos los documentos que enlaza su valor PageRank dividido por el número de enlaces salientesUn documento muy enlazado tendrá un PageRank elevadoUn documento enlazado desde documentos prestigiosos tendrá un PageRank elevado


PageRank


A

B C

FED

PageRank


A1

B1

C1

F1

E1

D1

Iteración 0

PageRank


A1

B C

FED

0,33

0,330,33

PageRank


A

B1

C

FED

0,33

0,330,33

PageRank


A

B C1

FED

1

PageRank


A

B C

FED1

0,33

0,33

0,33

PageRank


A

B C

FE1

D

0,500,50

PageRank


A

B C

F1

ED 0,33

0,33

0,33

PageRank


A1,17

B0,33

C1,83

F1,33

E0,67

D0,67

Iteración 1

PageRank


A0,65

B0,22

C1,61

F1,72

E0,93

D0,87

Iteración 2

PageRank


A0,83

B0,22

C1,62

F1,83

E0,86

D0,65

Iteración 3

PageRank


A0,72

B0,28

C1,60

F1,89

E0,82

D0,68

Iteración 4

PageRank


A0,73

B0,24

C1,60

F1,85

E0,86

D0,72

Iteración 5

PageRank


A0,75

B0,24

C1,61

F1,85

E0,86

D0,70

Iteración 6

PageRank


A0,74

B0,25

C1,61

F1,86

E0,85

D0,70

Iteración 7

PageRank


A0,74

B0,25

C1,61

F1,85

E0,85

D0,70

Iteración 8

PageRank


A

B

C

FE

D

PageRank

Algunas características interesantes de PageRank

Los valores de PageRank calculados para los nodos se “estabilizan” con rapidez (p.ej. 52 iteraciones son suficientes para obtener valores razonables para 322 millones de enlaces)

Es relativamente insensible a los valores de “partida”, afectaría al número de iteraciones necesarias y a los valores finales (obviamente) pero no al ranking obtenido

El PageRank total en la Web es constante

Si el valor inicial asignado a cada documento es 1/N (número de documentos) el valor de PageRank equivale a la probabilidad de que un usuario llegue a dicho documento siguiendo enlaces al azar (random surfer model)


Búsquedas en la Web con PageRank

Recordemos lo que dijo Marchiori

[...] focusing separately on the "textual" and "hyper" components.

PageRank no tiene en cuento el contenido de los textos para determinar el prestigio/autoridad/relevancia de un nodo, sólo los enlaces

¿Cómo se realizan las búsquedas entonces? (Versión simplificada)

Se extraen los términos (palabras) de la consulta

Se localizan documentos que contengan todos los términos

Se ordenan los documentos obtenidos por PageRank decreciente

Es decir, Google proporciona a los usuarios aquellos documentos que satisfacen la consulta y tienen más prestigio en la Web


Problemas del ranking basado en

hiperenlaces

Tres escenarios problemáticos

Bharat, K., y Henzinger, M. 1998, “Improved Algorithms for Topic Distillation in a Hyperlinked Environment”, en Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval, pp. 104-111.

Enlaces “nepotistas”Cada enlace es un “voto” aunque provengan todos del mismo servidor

No es un problema fácil de resolver. Davison, B.D. 2000, “Recognizing Nepotistic Links on the Web”, en Proceedings of AAAI-2000 Workshop on Artificial Intelligence for Web Search, pp. 23-28.

Enlaces automáticosTodos estos algoritmos parten del supuesto que los enlaces son establecidos por un ser humano y eso no siempre es cierto (Wordpress scandal)

Documentos irrelevantes enlazados desde autoridadesInevitable puesto que no hay ningún análisis de contenidos, sólo se emplea la topología del grafo



hiperenlaces

Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web

[…] PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it. At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money.



hiperenlaces

Granjas de enlaces

Recordemos que el PageRank total es constante, sólo se reparte entre los nodos

¿Qué sucede si se construye un grafo con gran cantidad de nodos fuertemente conectados y unos pocos reciben la mayoría de enlaces?

Respuesta: Una porción del PageRank global termina en ese subgrafo y es asignada en su práctica totalidad a unos pocos nodos que aumentan su PageRank artificialmente

Si, además, la granja de enlaces es alojada o enlazada desde algún sitio “prestigioso” mejor que mejor



hiperenlaces

Google bombing

Además de emplear la topología derivada de los enlaces Google (y el resto de buscadores) emplea/ba el texto de los enlaces que recibe una página para indexarla (ej. google compra youtube, gutemberg, guttenberg, guttemberg, mao tse-tung, mao zedong)

Si varios sitios web coordinados enlazan a un tercero empleando el mismo término o frase es posible construir “bromas” como las famosas: ladrones, miserable failure o horrid operating system

A finales de enero de 2007 Google anunció que las “bombas” ya no funcionaban gracias a una solución algorítmica

Pero…Algunas siguen funcionando: horrid operating system

Búsquedas que deberían funcionar no lo hacen: spanish airlines

Todos los buscadores son vulnerables a esta técnica

Off-topic: ¿qué retornan las consultas click here o pinche aquí?



hiperenlaces

Daños “colaterales” (usuarios y autores)

La ausencia de “prestigio” no implica carencia de relevancia

Al desvincularse el “prestigio” de los contenidos, resultados “prestigiosos” pueden satisfacer la consulta pero no al usuario.

El autor del documento puede no desear tales visitas.

Algunas consultas reales que me han traído “público”…algoritmos genéticos(documentos en inglés)

que es disertacion doctoral

articulos o comentarios de prensa sobre algoritmos geneticos

¿Qué tienen en común? Son consultas informativas, el usuario quiere información/respuestas. Broder, A. 2002, “A taxonomy of web search”, ACM SIGIR Forum, vol. 36, no. 2, pp. 3-10.


En resumen…Los buscadores modernos son un ejemplo del

conocimiento que se puede derivar de la estructura topológica de la Web


Conocimiento a partir del

uso de la Web

Filtrado colaborativo

Técnica que permite a un sistema sugerir a cada usuario una selección de nuevos elementos sobre la base de sus preferencias en el pasado y de las valoraciones que, de dichos elementos, han hecho otros usuarios del sistema

Un ejemplo de filtrado colaborativo: Amazon



uso de la Web

Todos los servidores web generan archivos de log en los que se recoge información sobre las acciones de los usuarios en el sitio web156.35.14.9 - - [17/Oct/2006:20:34:26 +0200] "GET /nol/shared/css/news_r5.css HTTP/1.0" 404 312156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] "GET /CursoWeb20/ HTTP/1.0" 200 1894156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] "GET /icons/blank.gif HTTP/1.0" 200 148156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] "GET /icons/back.gif HTTP/1.0" 200 216156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] "GET /icons/folder.gif HTTP/1.0" 200 225156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] "GET /icons/compressed.gif HTTP/1.0" 200 1038

En realidad, el servidor desconoce quién es el usuario, sólo dispone de su dirección IP que, en muchos casos, será utilizada por múltiples usuarios simultaneamente (proxies) y en otros será re-utilizada en diversas ocasiones (p.ej. direcciones dinámicas otorgadas por ISPs)

Por esa razón, lo máximo que puede hacerse con la información del archivo de log es tratar de encontrar sesiones de usuario (conjunto de peticiones realizadas desde una misma IP durante un período corto de tiempo)



uso de la Web

Objetivos de la extracción de conocimiento a partir de archivos de log:

Entender los intereses de los usuarios de un sitio web

Mejorar, en consecuencia, la satisfacción del usuario al reorganizar el sitio en base a dichos intereses

Facilitar el acceso a la información mediante recomendaciones en tiempo real



uso de la Web

Los motores de búsqueda también disponen de archivos de log en los que se almacena información como:

Identificador de sesión

Fecha y hora

Texto de la consulta

URL visitada

Posición de la URL visitada dentro de la página de resultados



uso de la Web

Los logs de un buscador resultan muy útiles para mejorar la precisión

Baeza-Yates, R. 2004, “Query Usage Mining in Search Engines”, en Web Mining: Applications and Techniques

After a query, a user usually performs a click to view one answer page. Each click is considered a positive recommendation of that page (in most cases bad pages are not clicked).

Zhang, D. y Dong, Y. 2002, “A novel Web usage mining approach for search engines”, Computer Networks, vol. 39, no. 3, pp. 303-310

A user is “good” if he/she issues many “good” queries, while a queryis “good” if it can retrieve many “good” resources, while a resource is “good” if it is accessed by many

“good” users.



uso de la Web

Ricardo Baeza-Yates lleva algún tiempo desarrollando técnicas para agrupar consultas temáticamente a partir de los resultados visitados.

Baeza-Yates, R. et al. 2004, “Query recommendation using query logs in search engines”, en Current Trends in Database Technology, LNCS 3268, p. 588-596.

Las consultas de un grupo pueden ordenarse en base al porcentaje de documentos relevantes (determinados por los clicks) que retorna cada una

Una vez determinados los conjuntos de consultas pueden emplearse para…

… ofrecer consultas alternativas

… mejorar la precisión de los resultados (ofreciendo aquellos más relevantes para usuarios anteriores)

Más recientemente ha estudiado el modo de extraer pseudo-folksonomías a partir de los conjuntos de consultas



uso de la Web

A mediados de 2006 Microsoft financió una serie de proyectos de investigación sobre un conjunto de 15 millones de consultas

Poco después AOL liberó un archivo con datos sobre 20 millones de consultas correspondientes a 650.000 usuarios (miniescándalo)…

Rodaron cabezas, el sitio web fue eliminado en cuestión de horas y los datos…

…no tardaron en ser replicados, hoy sobreviven en algunos mirrors y redes P2P. Si os interesan quizás podáis descargarlos… AOL-data.tgz


Análisis de tendencias


AOL gate



Google compra YouTubeAOL gate



La frecuencia absoluta ya es un indicador interesanteLa co-ocurrencia de términos es aún más interesante

Normalized Google

Distance

Cilibrasi, R. y Vitanyi, P. 2005, Automatic Meaning Discovery Using Google, http://arxiv.org/abs/cs.CL/0412098

The rise of the world-wide-web has enticed millions of users to type in trillions of characters to create billions of web pages of on average low quality contents. The sheer mass of the information available about almost every conceivable topic makes it likely that extremes will cancel and the majority or average is meaningful in a low-quality approximate sense.

Normalized Google Distance (NGD)


)}(log),(min{loglog

),(log)}(log),(max{log),(

yfxfM

yxfyfxfyxNGD

Normalized Google

Distance

Distancias NGD entre algunos países

portugal 0 0,02 0,21 0,07 0,23 0,09 0,11

spain 0,02 0 0,18 -0,01 0,15 0,10 0,12

france 0,21 0,18 0 0,16 -0,01 0,20 0,30

italy 0,07 -0,01 0,16 0 0,12 0,11 0,16

germany 0,23 0,15 -0,01 0,12 0 0,17 0,24

belgium 0,09 0,10 0,20 0,11 0,17 0 0,00

netherl. 0,11 0,12 0,30 0,16 0,24 0,00 0

Primer problema: Google sólo proporciona estimaciones sobre el número total de documentos que contienen una palabra y, muchas veces, es una aproximación demasiado “gruesa” (p.ej. spain 311x106, italy 303x106, spain italy 330x106)


Normalized Google

Distance

Segundo problema:

¿Sobre qué “eje” se mide la distancia?

En este ejemplo, ¿población? ¿superficie? ¿PIB?

En resumen, interesante, inspiradora… Aún se necesita más trabajo…


PortugalBelgium

Netherlands

SpainGermany

France

Italy

La Web como corpus

Un corpus es una colección de documentos que muestran el uso real de la lengua natural

Pueden ser monolingües o multilingües y estos, a su vez, paralelos o comparables

Los corpora multilingües son un recurso fundamental para la construcción de sistemas estadísticos de traducción automática

Brown, P.F. et al. 1990, “A Statistical Approach to Machine Translation”, Computational Linguistics, vol. 16, no. 2

http://video.google.com/videoplay?docid=6934089019347797736


Viktor aprende inglés comparando dos guías turísticas

de Nueva York

La Web como corpus

La traducción automática es sólo uno de los campos que puede beneficiarse de la utilización de la Web como corpus o, mejor dicho, de corpora extraídos de la Web… Sin embargo, es uno de los más espectaculares

Trabajos interesantes:

Jones, R. y Ghani, R. 2000, “Automatically Building a Corpus for a Minority Language from the Web”, en Proceedings of the Student Workshop of the 38th Annual Meeting of the Association for Computational Linguistics, pp. 29–36

Resnik, P. y Smith, N.A. 2003, “The Web as a parallel corpus”, Computational Linguistics, vol. 29, no. 3, pp. 349-380

Kilgarriff, A. y Grefenstette, G. 2003, “Introduction to the special issue on the web as corpus”, Computational Linguistics, vol. 29, no. 3, pp. 333-347

A tener en cuenta: WAC (Web as a Corpus Workshop), CLEANEVAL


En resumen…Es posible explotar la estructura, los contenidos y los patrones de uso de la Web para extraer de manera

automática conocimiento útil