Motor de búsqueda de google

17
Juan Manuel Morales Ciencias de la Complejidad Universidad Autónoma de la Ciudad de México (UACM - Campus del Valle) Redes complejas Instituto de Física - UNAM Diciembre 1 del 2016 FUNDAMENTOS MATEMÁTICOS DEL MOTOR DE BÚSQUEDA DE GOOGLE

Transcript of Motor de búsqueda de google

Juan Manuel Morales Ciencias de la Complejidad

Universidad Autónoma de la Ciudad de México (UACM - Campus del Valle)

Redes complejas

Instituto de Física - UNAM

Diciembre 1 del 2016

FUNDAMENTOS

MATEMÁTICOS DEL

MOTOR DE BÚSQUEDA

DE GOOGLE

GRANDES HITOS DEL INTERNET 1

WORLD WIDE WEB (WWW) 2

Red informática mundial

Nodos: documentos, páginas web (~ 10 12 )

Vínculos: URL (Uniform Resource Locators)

Robots: recogen todas las URL’s encontradas en un documento y las siguen recursivamente

Hypertext Transfer Protocol (http)

Hypertext Markup Language (html)

MOTORES DE BÚSQUEDA 3

Dos ejemplos de la técnica matemática básica usada por los motores de búsqueda de páginas en internet de acuerdo a su orden de relevancia.

2 Redes de referencias entre seis páginas de WWW.

TOPOLOGÍA Y MATRIZ DE ADYACENCIA. 1

Topología de la red 1

A matriz de adyacencia 1

CADENAS DE MARKOV. 1

Vector de estado (en este ejemplo sabemos con certeza que al inicio estamos en la página 2).

B matriz de transición 1

(incorpora la información de probabilidad del avance al azar de una página al siguiente con el clic del ratón)

K CLICS Y VECTOR DE ESTADO. 1

Vector de estado x (k) (Da la probabilidad de que el navegador este en la i- ésima página después de k clics de ratón al azar)

RESULTADOS DEL PROCESO ITERATIVO. 1

VECTOR PROPIO DE LA MATRIZ DE TRANSICIÓN. 1

Usando Maple o Mathematica se puede calcular el vector propio de la matriz de transición.

Los valores

de estas

fracciones

son llamados

Page Ranks

(PR) y son

una medida

de la

importancia

relativa de las

páginas.

FACTOR DE AMORTIGUAMIENTO

Damping factor δ

Introducido para considerar la existencia de grupos no conectados o circuitos sin regreso a otras páginas

TOPOLOGÍA Y MATRIZ DE ADYACENCIA. 2

Topología de la red 2

A matriz de adyacencia 2

VECTOR DE ESTADO Y MATRIZ DE TRANSICIÓN. 2

Vector de estado inicial

de 2 (en este ejemplo no se

sabe en que página estamos)

B matriz de transición 2

CADENA DE MARKOV CON FACTOR DE

AMORTIGUACIÓN. 2 El vector de estado después de k clics, incorpora una nueva matriz de transición de la probabilidad M, a donde δ B representa una caminata aleatoria y el factor (1-δ )/n permite saltar al azar de un página a otra

RESULTADOS DEL PROCESO ITERATIVO. 2

FÓRMULA DEL ALGORITMO PAGE RANK DE

GOOGLE 4

El factor d representa la probabilidad de que un navegante continúe pulsando links al navegar por internet en vez de escribir un URL directamente o de pulsar uno de sus marcadores y es un valor establecido por Google (~0.85). La probabilidad deje de pulsar links y navegue directamente a otra web aleatoria es (1- d). La introducción del factor de amortiguación en la fórmula resta algo de peso a todas las páginas de Internet y consigue que las páginas que no tienen enlaces a ninguna otra página no salgan especialmente beneficiadas. Si un usuario aterriza en una página sin enlaces, lo que hará será navegar a cualquier otra página aleatoriamente, lo que equivale a suponer que una página sin enlaces salientes tiene enlaces a todas las paginas de internet.

Google ordena los resultados de la

búsqueda utilizando su propio algoritmo

PageRank. A cada página web se le asigna

un número en función del número de

enlaces de otras páginas que la apuntan, el

valor de esas páginas y otros criterios no

públicos 4

EJEMPLO DE BÚSQUEDA EN GOOGLE

REFERENCIAS BIBLIOGRÁFICAS CONSULTADAS

1) Grandes hitos del internet .Retrieved November 28 2016, from http://geektheplanet.net/wp-

content/uploads/2013/12/historiainternet-gtp-620x350.jpg

1) World Wide Web. Retrieved November 28, 2016, from

https://es.wikipedia.org/wiki/World_Wide_Web

3) Anton, H., & Rorres, C. (2013). Elementary linear algebra: with supplemental applications. Wiley. Pages 706-712

4) PageRank. Retrieved November 28 2016, from https://es.wikipedia.org/wiki/PageRank