Post on 23-Jan-2018
WEB y TEXT MINING
Link AnalysisJuan Azcurra
Introducción
Al comienzo los motores de búsquedas comparaban la similaridad de contenido una consulta y las páginas indexadas. Utilizando métodos de information retrieval coseno, TF-IDF, ...
A partir de 1996, se hizo evidente que la similaridad de contenido no era suficiente. El número de páginas creció rapidamente a mediados de los
90. Intentaron “técnicas de clasificación”, Google estimó 10 millones
de páginas relevantes. Cómo seleccionar solo 30-40 páginas y clasificarlas
adecuadamente para presentarlas a los usuarios? Similaridad de contenido es fácil de spam
El dueño de una página se puede repetir unas palabras y agregar muchas palabras relacionadas para impulsar el ranking de sus páginas y/o para hacer las páginas relevantes para un gran número de consultas.
2
Introducción
A comienzo de 1996 los investigadores
comenzaron a trabajar e el problema, recurriendo
a hyperlinks.
En 1997 Robin Li registró una patente de búsquedabasada en hyperlinks. El método usa las palabras en el texto del hyperlink.
Las páginas web son conectadas a través de hyperlinks, que contienen información importante: Algunos hyperlinks: organizan información al mismo sitio.
Otros hyperlinks: apuntan a páginas de otros Web sites. Estoshyperlinks salientes a menudo indican una transmisión implicitade autoridad a las páginas que apuntan.
Aquellas páginas que son apuntadas por muchas otraspáginas pueden contener información fidedigna(autoridad).
3
Introducción
Durante 1997-1998 aparecieron dos de los más influyentes algoritmos de búsqueda basados en hyperlinks: PageRank y HITS.
Ambos algoritmos se relacionan con redes sociales, explotan los hipervínculos de la Web para clasificar las páginas en función de sus niveles de prestigio o autoridad. HITS: Jon Kleinberg (Cornel University), en el
Simposio sobre algoritmos discretos, enero de 1998.
PageRank: Sergey Brin y Larry Page, (Stanford University), (WWW7), abril de 1998. PageRank potencia el motor de búsqueda de Google.
4
Introducción
Además del ranking de búsquedas, los hyperlinks
son útiles encontrando comunidades Web.
Una comunidad Web es un conjunto de páginas
densamente unidas representando un grupo de
personas con un interés en común.
Más allá de hyperlinks explícitos en la Web, links en
otros contextos son útiles también.
para descubrir comunidades de entidades (personas u
organizaciones) en textos libres de documentos, etc.
para analizar fenómenos sociales en mais.
5
Análisis de redes sociales
Redes sociales es el estudio de entidades sociales(personas en una organización, llamados actores) y susinteracciones y relaciones.
Las interacciones y relaciones pueden serrepresentadas con una red o grafo, cada vértice (o nodo) representa un actor
cada link representa una relación.
Desde la red, podemos estudiar las propiedadesde su estructura, y el rol, posición y prestigio de cada actor social.
Podemos también encontrar varios tipos de sub-grafos, comunidades formadas por grupos de actores.
6
Redes sociales y la Web
Análisis de redes sociales es muy útil para la Web
porque la Web es esencialmente una sociedad
virtual,
cada página: un actor social,
cada hyperlink: una relación.
Muchos resultados de redes sociales pueden ser
adaptados y extendidos para usar en el contexto
de la Web.
Estudiaremos 2 tipos de análisis de redes
sociales, centralidad y prestigio, que están
relacionadas a análisis de hyperlink y búsqueda
en la Web.
7
Centralidad
Actores importantes o prominentes son
aquellos que están involucrados con otros
actores ampliamente.
Una persona con amplios contactos (links) o
comunicaciones con muchas otras personas
en la organización es considerado más
importante que una persona con menos
contactos.
Los links también pueden ser llamados lazos.
Un actor central es uno que participa en
muchos lazos.
8
Grado de centralidad9
Prestigio
El prestigio es una medida más precisa de un actor que la centralidad. Distinguir: lazo enviado (link saliente) y lazo recibido (link
entrante)
Un actor de prestigio es aquel con altos vinculosentrantes.
Para calcular el prestigio: solamente utilizamos links entrantes.
Diferencia entre centralidad y prestigio:
Centralidad se basa en los links salientes.
Prestigio se basa en los links entrantes.
Medidas de prestigio. Rank prestige constituye la base de la mayoría de los algoritmos de Web page link analysis, incluyendo PageRank y HITS.
10
Grado de prestigio11
PageRank
El año 1998 fue un año agitado para el modelo de análisis de enlaces Web. Los algoritmos PageRank y HITS fueronpublicados en ese año.
Las conexiones entre PageRank y HITS son bastantes sorprendentes.
Desde ese momento, PageRank se ha convertido en el modelo de análisis de link domintante:
debido a la independencia de las consultas,
su habilidad para combatir el spamming,
gran suceso del negocio de Google.
12
PageRank: definición general
PageRank confia en la naturaleza democrática de la web usando su basta estructura de links como un indicador de valor de calidad de cadapágina individual.
PageRank interpreta un hyperlink de una página x a una página y como un voto, de la página x para la página y.
Sin embargo, PageRank mira más que el númerototal de votos, también analiza la página que emiteel voto. Votos emitidos por páginas “importantes” pesan más y
ayudan a hacer “más importantes” otras páginas.
Esto es exactamente la idea de ranking de prestigio en una red social.
13
PageRank: más
especificamente
Un hyperlink de una página a otra es un medioimplícito de autoridad a la página de destino.
Cuánto más links-entrantes una página i recibe, más prestigio la página i tiene.
Las páginas que apuntan a la página i tambiéntienen su nivel de prestigio.
Una página de alto prestigio apuntando a i es másimportante que una página de menor prestigioapuntando a i.
En otras palabras, una página es más importante sies apuntanda por otras páginas importantes.
14
PageRank: Algoritmo
De acuerdo al ranking de prestigio, la importante de una página i (valor PageRank de i) es la suma de valores de PageRank de todas las páginas que apuntan a i.
Desde que una página puede apuntar a muchas otras, su valor de prestigio debe sercompartido.
La Web como un grafo dirigido G = (V, E). Donde el número de páginas es n. El valor de PageRank de una página i (denotadaP(i)) es definida como:,
)()(
),(
Eij jO
jPiP Oj is the number
of out-link of j
15
PageRank: Ejemplo
Asumiendo 4 páginas (A, B, C, D) con un
PageRank inicial de 0.25
Si B, C y D apuntan a A, entonces el PR de A
será de 0.75
Suponiendo que B tiene links a C y A y D tiene
links a las 3, entonces en la siguiente iteración B
le transferirá la mitad de su valor a A y D a las 3,
mientras que C no tiene links salientes.
En otras palabras, el PR conferido por un link
saliente es igual al score de PR divido la cantidad
de links salientes.
Obteniendo la formula general:
16
PageRank: Ejemplo
Matematicamente PageRanks parauna red simple, expresado comoporcentajes (Google usa una escalalogaritmica). C tiene el más alto PageRank más que E, a pesar que hay menos enlances a C, el link a C vienede una página de mayor importancia y por lo tanto es de gran valor. Si los navegantes comenzaran por unapágina al azar tendría 85% de probabilidad de elegir un link al azar a partir de la página que están visitando y un 15% de probabilidad de saltar a unapágina elegida al azar de la web, ellosllegarían a la página E el 8,1% de lasveces (el 15% de probabilidad de saltara una página arbitraria corresponde al factor de damping de 85%).
17
PageRank: Ventajas
Lucha contra el spam. Una página es importantesi las páginas que apuntan a ella también lo son.
Dado que no es fácil para el dueño de una página Web agregar enlaces en página desde otras páginas importantes, no es por lo tanto fácil de influenciar PageRank.
PageRank es una medida global independientede las consultas.
Los valores de PageRank para todas las páginas son calculadas y guardas en forma off-line más que en tiempode la consulta.
18
HITS
HITS proviene de Hypertext Induced Topic
Search.
A diferencia de PageRank que es un algoritmo
de ranking estático, HITS es dependiente a la
consulta de búsqueda.
Cuando un usuario envia una consulta de
búsqueda,
HITS primero expande la lista de páginas
relevantes devueltas por el motor de búsqueda, y
produce 2 rankings del conjunto de páginas
expandidas, ranking de autoridad y ranking
hub.
19
Autoridad y Hubs
Autoridad: a grandes rasgos, la autoridad es
una página con muchos links entrantes.
La idea es que la página tenga un buen
contenido o autoridad sobre un tema,
así que mucha gente confía en ella y enlazar con
ella.
Hub: Un hub es una página con muchos links
salientes.
La página sirve como un organizador de la
información de un tema en particular y
apunta a muchas páginas de autoridad sobre el
tema.
20
Ejemplos21
Ideas claves de HITS22
Un hub bueno apunta a muchas
autoridades buenas, y
Una autoridad buena es apuntada por
muchos hubs buenos.
Autoridades y hubs tienen una
relación de refuerzo mutuo
HITS: Algoritmo23
Dado una consulta de búsqueda q, HITS
recolecta un conjunto de páginas con los
siguientes pasos:
Envia la consulta q al motor de búsqueda.
Se recoge entonces t (t = 200 es usando en el
paper de HITS) el valor más alto de páginas
rankeadas. Esto es llamada el conjunto raiz W.
Crece W incluyendo cualquier página que apunte
a una en W y cualquiera apuntada por W. Esto da
lugar al conjunto S, conjunto base.
Grafo G24
HITS trabaja en las páginas en S y asignaa cada página S un score de autoridad y un score de hub.
Sea n el número de páginas en S.
Nuevamente se usa G = (V, E) paradenotar el grafo de hyperlinks de S
Usamos L para denotar la matriz de adyacencia del grafo.
otherwise
EjiifLij
0
),(1
HITS: Algoritmo25
Sea a(i) el score de autoridad de una página i,
y h(i) el score de hub de la página i.
La relación de refuerzo mutual de los dos
scores están representado por:
Eij
jhia),(
)()(
Eji
jaih),(
)()(
Ventajas y desventas de HITS26
Ventajas: su habilidad de rankear páginas de
acuerdo al tema de la consulta, puede ser capaz de
proveer autoridades y hubs más relevantes.
Desventajas:
Spam. De hecho es facil de influenciar HITS desde afuera
añadiendo enlaces de la propia página.
Derivación de temas. Muchas páginas en el conjunto
expandido no pueden ser del mismo tema.
Tiempo de respuesta ineficiente. El tiempo de evaluación
de la consulta es bajo. Recolectar el conjunto raiz,
expandirlo y calcular el autovector de todas las
operaciones es expansiva.