Download - Seminario de Análisis Documental Presenta: Lilian Martínez Carrillo Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.

Seminario de Análisis Documental

Presenta: Lilian Martínez Carrillo Profesor: Georgina Araceli Torres

México, D.F., 2011

Ley de Zipf y sus aplicaciones Ley de Zipf y sus aplicaciones

en el Análisis Documentalen el Análisis Documental

George Kingsley Zipf(1902-1950)

Fue un lingüista y filólogo estadounidense que aplicó el análisis estadístico al estudio de diferentes lenguas.

LEY DE ZIPF

En 1935, George Kingsley Zipf, después de estudiar la ocurrencia de palabras en varios textos, formuló lo que se conoce como ley de Zipf.

Dice: si tomamos cualquier longitud de palabras de un texto, y se analiza la ocurrencia de las mismas, en orden decreciente de frecuencia y se multiplica por su frecuencia, esto es igual a la constante.

LEY DE ZIPF

Rango Palabras Frecuencia Porcentaje Constante

Orden Ocurrencias del Total (FxR=C)

1 the 7.398.934 5.9 7.398.934

2 of 3.893.790 3.1 7.787.580

3 to 3.364.653 2.7 10.093.959

4 and 3.320.687 2.6 13.282.748

5 in 2.311.785 1.8 11.558.925

6 is 1.559.147 1.2 9.354.882

7 for 1.313.561 1 9.194.927

8 The 1.144.860 0.9 9.158.880

9 that 1.066.503 0.8 9.598.527

10 said 1.027.713 0.8 10.277.130

La frecuencia por el rango es igual a la constante

FxR=C

CF=R

LEY DE ZIPF

La frecuencia de aparición (F) de una palabra en un texto es inversamente

proporcional a su rango (R)

La ley de Zipf también da la dependencia de la frecuencia de ocurrencia de una palabra con respecto al número de palabras que se usen, o sea, a la amplitud del vocabulario utilizado. Mientras menor sea el vocabulario, mayor será la frecuencia de las palabras en los primeros rangos.

LEY DE ZIPF

Ley del mínimo esfuerzo

LEY DE ZIPF Y EL AD

Indización automática.

Recuperación de información

LEY DE ZIPF Y EL ADIndización automática y la generación de Tesauros

1. Identificación y adquisición de componentes representativos de un dominio• Análisis léxico• Tratamiento de palabras vacías• Tratamiento de términos flexionados• Tratamiento de palabras compuestas• Filtrado de términos

2. Obtención de relaciones entre componentes


Análisis léxicoAdquisición de componentes (términos que representan un

significado colectivo)

Tratamiento de palabras vacías [artículos, preposiciones, conjunciones]

Eliminación de palabras vacías (con listas construidas previamente o después del filtrado)

Descriptores simples o Compuestos

Tratamiento de términos flexionados [términos relacionados morfológicamente, variaciones de género, número o tiempo verbal]

Reducción a términos canónicos (efectividad en la recuperación de información, reducir el tamaño de los resultados)

Tratamiento de palabras compuestasAlgoritmos (relaciones entre descriptores y relaciones

jerárquicas)

Filtrado de términosIdentificación de términos representativosIDF [Indización estadística de Términos por Frecuencia]


La zona media representa el documento

En el caso de que un término tenga una frecuencia en un documento mayor que la media fijada en el resto de documentos se tomara como descriptor para todos. No es necesario que un término aparezca en todos los documentos a filtrar para que sea descriptor.

Método N-grams


1. Obtención de relaciones entre componentesObtención de relaciones jerárquicasAsociaciones temáticas(proceso de clusterización que agrupa en clases aquellos

descriptores que responden a una serie de características comunes)

1. Encontrar la raíz• Calculo del centroide• Descriptor más general del cluster (mayor numero

de apariciones en el total de docs del corpus)• Descriptor más general del cluster (el que aparezca

en un mayor número de documentos)• Descriptor más general (combinando las dos ideas

anteriores)2. Agrupación de clases

Gracias por su atenciónGracias por su atención