Mejorando la Fusión de Datos en Recuperación de...
Transcript of Mejorando la Fusión de Datos en Recuperación de...
Mejorando la Fusión de Datos en Recuperación de Información
6to Taller de Tecnologías del Lenguaje HumanoOctubre de 2009
Antonio Juárez Gonzá[email protected]
Laboratorio de Tecnologías del Lenguaje
Instituto Nacional de Astrofísica, Óptica y Electrónica
Contenido
Introducción
Descripción del problema
Trabajo relacionado
Método propuesto
Experimentos y resultados
Conclusiones
Trabajo futuro
Mejorando la Fusión de Datos en Recuperación de Información 2
Introducción
• Información
WWWMejorando la Fusión de Datos en Recuperación de Información 3
Recuperación de información
Necesidad de información
(Petición)
Sistema de RI
Colección de documentos
Conjunto de
documentos
recuperados
Orden de acuerdo
a una
medida de similitud
Mejorando la Fusión de Datos en Recuperación de Información 4
Fusión de datos
B
J
F
A
I
N
H
E
M
A
F
D
L
C
K
J
I
G
Lista 1 Lista 2
Método de fusión
A
F
D
L
J
B
C
I
K
N
H
E
G
M
MF 1
A
F
J
D
B
I
L
C
K
N
H
E
G
M
MF 2
A
F
J
I
D
B
L
C
K
N
H
E
G
M
MF 3
04/11/2009 5Método Fusión Dinámica aplicado a la Recuperación de Información
Descripción del problema
Mejorando la Fusión de Datos en Recuperación de Información 6
military intervention of Russia in Chechenya
AP
S1 0.6291
S2 0.6607
S3 0.2912
S4 0.4852
S5 0.4698
Invasion of Haiti by U.N./US soldiers
AP
S1 0.2556
S2 0.2212
S3 0.1620
S4 0.2453
S5 0.2512
military intervention of Russia
in Chechenya
(AP base: 0.6607, S2 )
Fusión AP
S1 – S2 0.6549
S1 – S3 0.5790
S1 – S4 0.5988
S1 – S5 0.6144
S2 – S3 0.5914
S2 – S4 0.6206
S2 – S5 0.6368
S3 – S4 0.5125
S3 – S5 0.5620
S4 – S5 0.5101
S1 – S2 – S3 – S4 – S5 0.6151
Invasion of Haiti by U.N./US
soldiers
(AP base: 0.2556, S1 )
Fusión AP
S1 – S2 0.2453
S1 – S3 0.2552
S1 – S4 0.2835
S1 – S5 0.2899
S2 – S3 0.2480
S2 – S4 0.2941
S2 – S5 0.2900
S3 – S4 0.2563
S3 – S5 0.2692
S4 – S5 0.2567
S1 – S2 – S3 – S4 – S5 0.2847
Fusión de sistemas de RIDiferentes sistemas de RI
Observaciones
• No siempre es conveniente fusionar las mejores listas.
• Las listas de resultados tienen ciertas características entre sí que las hacen más o menos aptas para ser fusionadas.
• Los métodos de fusión aprovechan estas características.
Mejorando la Fusión de Datos en Recuperación de Información 7
Motores de
búsqueda
Método de fusión
¿Cuál debe ser
la lista final?
Trabajo relacionado
• Predicción del desempeño de la fusión.– Determinar el desempeño de la fusión (Vogt y Cottrell 1998).
– Determinar cuándo una fusión puede superar el desempeño de la mejor de ellas (Ng y Kantor 2000, Wu y McClean 2006).
– Basados en traslape de elementos, correlación de listas, número de listas a fusionar, valores de MAP y precisión.
– Contabilizar las predicciones correctas y las incorrectas.
• Aplicaciones– Determinar el número de listas y el método de fusión para una
colección (Gopalan y Batri 2007).
– Propuesta de un modelo de fusión dinámica (Diamond y Liddy 1998).
Mejorando la Fusión de Datos en Recuperación de Información 8
Discusión
• Predicción del desempeño de la fusión.– Dependientes de los juicios de relevancia.
– Métodos supervisados.
– Tratan al problema FDR como un problema de clasificación.
– Enfocados sólo al análisis.
• Aplicaciones– Método supervisado ligado a un solo conjunto de datos.
– Enfoque global.
– Conocimiento previo de los sistemas de recuperación considerados.
Mejorando la Fusión de Datos en Recuperación de Información 9
Método propuesto
• Selección de las mejores n listas para la fusión
Mejorando la Fusión de Datos en Recuperación de Información 10
l1
ln
.
.
.
Q
Medida de calidad
Q(l1)...
Q(ln)
Fusionar las mejores n
listas
lfOrdenamiento
Experimentos
• Conjuntos de datos– Adhoc CLEF 2005 (50 peticiones)
– GeoCLEF 2008 (24 de 25 peticiones)
– ImageCLEF 2008 (39 peticiones)
– RobustCLEF 2008 (153 de 160 peticiones)
• Se consideraron 5 listas de resultados por conjunto de datos.
• Descripción– Se seleccionará un número fijo de listas para ser fusionadas con tres
diferentes métodos de fusión: maximo RSV, combMNZ y Fuzzy Borda.
– Se tomará como baseline la fusión de todas las listas con cada método de fusión.
Mejorando la Fusión de Datos en Recuperación de Información 11
Resultados
Mejorando la Fusión de Datos en Recuperación de Información 12
Method Ad hoc 2005 GeoCLEF 2008 ImageCLEF 2008 RobustCLEF 2008
Fusion of all lists MAP SE MAP SE MAP SE MAP SE
maximum RSV 0.231 0.18 0.251 0.231
combMNZ 0.275 0.244 0.302 0.341
Fuzzy Borda 0.267 0.251 0.321 0.167
List Selection n = 2
maximum RSV 0.245 * 0.214 0.31 * 0.288 *
combMNZ 0.3 * 0.233 0.333 * 0.334
Fuzzy Borda 0.295 * 0.266 0.341 * 0.271 *
List Selection n = 3
maximum RSV 0.229 0.188 0.303 * 0.263 *
combMNZ 0.281 0.274 0.34 * 0.328
Fuzzy Borda 0.285 * 0.288 * 0.345 * 0.261 *
List Selection n = 4
maximum RSV 0.225 0.177 0.287 * 0.246 *
combMNZ 0.274 0.261 * 0.323 * 0.324
Fuzzy Borda 0.278 * 0.286 * 0.335 * 0.223 *
* Resultados estadísticamente significativos (Se utilizó la prueba paired Student’s t-test considerando un valor α = 0.05).
Conclusiones
• La Fusión de Datos puede ser mejorada al realizar un análisisprevio de las listas a fusionar.
• La medida de relevancia utilizada, basada en elposicionamiento y redundancia de los elementos en las listases útil para seleccionar las listas a fusionar.
• La prueba estadística aplicada a los resultados nos permiteconcluir que la mejora sobre la Fusión de Datos sistemática(fusión de todas las listas disponibles) no fue por azar.
Mejorando la Fusión de Datos en Recuperación de Información 13
Trabajo futuro
• Considerar el caso en que la intersección de las listas sea vacía.
• Considerar un número variable de listas por petición para la fusión.
• Seleccionar el método de fusión más adecuado para las listas seleccionadas.
Mejorando la Fusión de Datos en Recuperación de Información 14
Mejorando la Fusión de Datos en Recuperación de Información 15
Gracias por su atención