Seminario de Análisis Documental
Presenta: Lilian Martínez Carrillo Profesor: Georgina Araceli Torres
México, D.F., 2011
Ley de Zipf y sus aplicaciones Ley de Zipf y sus aplicaciones
en el Análisis Documentalen el Análisis Documental
George Kingsley Zipf(1902-1950)
Fue un lingüista y filólogo estadounidense que aplicó el análisis estadístico al estudio de diferentes lenguas.
LEY DE ZIPF
En 1935, George Kingsley Zipf, después de estudiar la ocurrencia de palabras en varios textos, formuló lo que se conoce como ley de Zipf.
Dice: si tomamos cualquier longitud de palabras de un texto, y se analiza la ocurrencia de las mismas, en orden decreciente de frecuencia y se multiplica por su frecuencia, esto es igual a la constante.
LEY DE ZIPF
Rango Palabras Frecuencia Porcentaje Constante
Orden Ocurrencias del Total (FxR=C)
1 the 7.398.934 5.9 7.398.934
2 of 3.893.790 3.1 7.787.580
3 to 3.364.653 2.7 10.093.959
4 and 3.320.687 2.6 13.282.748
5 in 2.311.785 1.8 11.558.925
6 is 1.559.147 1.2 9.354.882
7 for 1.313.561 1 9.194.927
8 The 1.144.860 0.9 9.158.880
9 that 1.066.503 0.8 9.598.527
10 said 1.027.713 0.8 10.277.130
La frecuencia por el rango es igual a la constante
FxR=C
CF=R
LEY DE ZIPF
La frecuencia de aparición (F) de una palabra en un texto es inversamente
proporcional a su rango (R)
La ley de Zipf también da la dependencia de la frecuencia de ocurrencia de una palabra con respecto al número de palabras que se usen, o sea, a la amplitud del vocabulario utilizado. Mientras menor sea el vocabulario, mayor será la frecuencia de las palabras en los primeros rangos.
LEY DE ZIPF
Ley del mínimo esfuerzo
LEY DE ZIPF Y EL AD
Indización automática.
Recuperación de información
LEY DE ZIPF Y EL ADIndización automática y la generación de Tesauros
1. Identificación y adquisición de componentes representativos de un dominio• Análisis léxico• Tratamiento de palabras vacías• Tratamiento de términos flexionados• Tratamiento de palabras compuestas• Filtrado de términos
2. Obtención de relaciones entre componentes
LEY DE ZIPF Y EL ADIndización automática y la generación de Tesauros
Análisis léxicoAdquisición de componentes (términos que representan un
significado colectivo)
Tratamiento de palabras vacías [artículos, preposiciones, conjunciones]
Eliminación de palabras vacías (con listas construidas previamente o después del filtrado)
Descriptores simples o Compuestos
Tratamiento de términos flexionados [términos relacionados morfológicamente, variaciones de género, número o tiempo verbal]
Reducción a términos canónicos (efectividad en la recuperación de información, reducir el tamaño de los resultados)
Tratamiento de palabras compuestasAlgoritmos (relaciones entre descriptores y relaciones
jerárquicas)
Filtrado de términosIdentificación de términos representativosIDF [Indización estadística de Términos por Frecuencia]
LEY DE ZIPF Y EL ADIndización automática y la generación de Tesauros
La zona media representa el documento
En el caso de que un término tenga una frecuencia en un documento mayor que la media fijada en el resto de documentos se tomara como descriptor para todos. No es necesario que un término aparezca en todos los documentos a filtrar para que sea descriptor.
Método N-grams
LEY DE ZIPF Y EL ADIndización automática y la generación de Tesauros
1. Obtención de relaciones entre componentesObtención de relaciones jerárquicasAsociaciones temáticas(proceso de clusterización que agrupa en clases aquellos
descriptores que responden a una serie de características comunes)
1. Encontrar la raíz• Calculo del centroide• Descriptor más general del cluster (mayor numero
de apariciones en el total de docs del corpus)• Descriptor más general del cluster (el que aparezca
en un mayor número de documentos)• Descriptor más general (combinando las dos ideas
anteriores)2. Agrupación de clases
Gracias por su atenciónGracias por su atención