Motor de búsqueda de google
-
Upload
onemanuel -
Category
Data & Analytics
-
view
236 -
download
0
Transcript of Motor de búsqueda de google
Juan Manuel Morales Ciencias de la Complejidad
Universidad Autónoma de la Ciudad de México (UACM - Campus del Valle)
Redes complejas
Instituto de Física - UNAM
Diciembre 1 del 2016
FUNDAMENTOS
MATEMÁTICOS DEL
MOTOR DE BÚSQUEDA
DE GOOGLE
WORLD WIDE WEB (WWW) 2
Red informática mundial
Nodos: documentos, páginas web (~ 10 12 )
Vínculos: URL (Uniform Resource Locators)
Robots: recogen todas las URL’s encontradas en un documento y las siguen recursivamente
Hypertext Transfer Protocol (http)
Hypertext Markup Language (html)
MOTORES DE BÚSQUEDA 3
Dos ejemplos de la técnica matemática básica usada por los motores de búsqueda de páginas en internet de acuerdo a su orden de relevancia.
2 Redes de referencias entre seis páginas de WWW.
CADENAS DE MARKOV. 1
Vector de estado (en este ejemplo sabemos con certeza que al inicio estamos en la página 2).
B matriz de transición 1
(incorpora la información de probabilidad del avance al azar de una página al siguiente con el clic del ratón)
K CLICS Y VECTOR DE ESTADO. 1
Vector de estado x (k) (Da la probabilidad de que el navegador este en la i- ésima página después de k clics de ratón al azar)
VECTOR PROPIO DE LA MATRIZ DE TRANSICIÓN. 1
Usando Maple o Mathematica se puede calcular el vector propio de la matriz de transición.
Los valores
de estas
fracciones
son llamados
Page Ranks
(PR) y son
una medida
de la
importancia
relativa de las
páginas.
FACTOR DE AMORTIGUAMIENTO
Damping factor δ
Introducido para considerar la existencia de grupos no conectados o circuitos sin regreso a otras páginas
VECTOR DE ESTADO Y MATRIZ DE TRANSICIÓN. 2
Vector de estado inicial
de 2 (en este ejemplo no se
sabe en que página estamos)
B matriz de transición 2
CADENA DE MARKOV CON FACTOR DE
AMORTIGUACIÓN. 2 El vector de estado después de k clics, incorpora una nueva matriz de transición de la probabilidad M, a donde δ B representa una caminata aleatoria y el factor (1-δ )/n permite saltar al azar de un página a otra
FÓRMULA DEL ALGORITMO PAGE RANK DE
GOOGLE 4
El factor d representa la probabilidad de que un navegante continúe pulsando links al navegar por internet en vez de escribir un URL directamente o de pulsar uno de sus marcadores y es un valor establecido por Google (~0.85). La probabilidad deje de pulsar links y navegue directamente a otra web aleatoria es (1- d). La introducción del factor de amortiguación en la fórmula resta algo de peso a todas las páginas de Internet y consigue que las páginas que no tienen enlaces a ninguna otra página no salgan especialmente beneficiadas. Si un usuario aterriza en una página sin enlaces, lo que hará será navegar a cualquier otra página aleatoriamente, lo que equivale a suponer que una página sin enlaces salientes tiene enlaces a todas las paginas de internet.
Google ordena los resultados de la
búsqueda utilizando su propio algoritmo
PageRank. A cada página web se le asigna
un número en función del número de
enlaces de otras páginas que la apuntan, el
valor de esas páginas y otros criterios no
públicos 4
EJEMPLO DE BÚSQUEDA EN GOOGLE
REFERENCIAS BIBLIOGRÁFICAS CONSULTADAS
1) Grandes hitos del internet .Retrieved November 28 2016, from http://geektheplanet.net/wp-
content/uploads/2013/12/historiainternet-gtp-620x350.jpg
1) World Wide Web. Retrieved November 28, 2016, from
https://es.wikipedia.org/wiki/World_Wide_Web
3) Anton, H., & Rorres, C. (2013). Elementary linear algebra: with supplemental applications. Wiley. Pages 706-712
4) PageRank. Retrieved November 28 2016, from https://es.wikipedia.org/wiki/PageRank