Sistemas de recuperación de imágenes basados en atributos visuales del contenido

30
Sistemas de recuperación de imágenes basados en atributos visuales del contenido Sara Pérez Álvarez Facultad de Ciencias de la Información. Universidad Complutense de Madrid

description

Sistemas de recuperación de imágenes basados en atributos visuales del contenido. Sara Pérez Álvarez Facultad de Ciencias de la Información. Universidad Complutense de Madrid. Modelos de representación y recuperación de imágenes. Deben tipificar 4 aspectos: Cómo se realiza la búsqueda. - PowerPoint PPT Presentation

Transcript of Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Page 1: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Sistemas de recuperación de imágenes basados en atributos

visuales del contenido

Sara Pérez Álvarez Facultad de Ciencias de la Información.

Universidad Complutense de Madrid

Page 2: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Modelos de representación y recuperación de imágenes Modelos de representación y recuperación de imágenes

Deben tipificar 4 aspectos:

1. Cómo se realiza la búsqueda.

2. Cómo han sido representados los documentos.

3. Cuál es la respuesta obtenida al plantear una búsqueda.

4. Regla de recuperación o relación entre los tres primeros elementos.

(Robledano y Moreiro) Para conseguir sistemas de recuperación factibles y que ofrezcan el rendimiento requerido para cada tipo de fondo, el modelo de recuperación de imágenes se tiene que fundamentar en el entendimiento de la naturaleza semántica, técnica y formal de los documentos que van a ser representados en ese sistema, de las necesidades de información de sus usuarios, de los tiempos de respuesta ante consultas que precisan éstos, y de las formas de difusión requeridas.

Page 3: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Situación actual de la recuperación de imágenesSituación actual de la recuperación de imágenes

INTERNET como medio generalizado de acceso a la información gráfica.

DESINTERMEDIACIÓN

Implicaciones desde la perspectiva de nuevos diseños de sistemas: Mayor desarrollo de prototipos avanzados de recuperación. Amplia tipología de usuarios. Usuario activo. Sistemas que conjuguen facilidad de uso y potencia en la recuperación. Entorno de descubrimiento. Distintos niveles de descripción de las imágenes y distintas posibilidades

de búsqueda.

Page 4: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Modelos existentes de SARIModelos existentes de SARI

Un SARI es un Sistema automatizado de recuperación de imágenes. Se compone de herramientas informáticas, documentos y procedimientos de consulta que hacen posible la búsqueda selectiva de imágenes fotográficas integradas en un fondo documental.

El modelo de SARI más utilizado, por su mayor potencia, se basa en la integración de un programa de gestión de bases de datos documentales y de un sistema de gestión de imágenes digitales. Consta de dos módulos:

– Módulo de entrada de información. Se suele almacenar distintos tamaños de una misma imagen: MOSAICO, PREVISUALIZACIÓN, ALTA RESOLUCIÓN.

– Módulo de consulta y recuperación de información.

Page 5: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Modelos existentes de SARIModelos existentes de SARI

Los sistemas de recuperación de imágenes hacen uso de dos posibles técnicas de representación y consulta, que pueden ser utilizadas de forma aislada o combinada. Dichas técnicas son la CONCEPTUAL y la VISUAL.

Fruto de estas dos formas de representación y recuperación tenemos las siguientes variantes en modelos de SARI:

LL (representación y recuperación conceptuales) VV (representación y recuperación visuales) LV (representación conceptual y recuperación visual) VL (representación visual y recuperación conceptual) Sistemas mixtos.

Page 6: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Modelo LL: Sistemas lingüísticosModelo LL: Sistemas lingüísticos

Emplean sistemas de gestión documental con soporte de imágenes digitales -un ejemplo sería Inmagic. Son los más ampliamente conocidos y utilizados.

Diversas posibilidades: – Procesamiento automático de texto vinculado a la imagen (título/pie de foto);

– Adscripción de contenido por un analista humano a través de una representación textual;

– Sistemas hipermediales (la recuperación se realiza mediante técnicas de navegación a través de enlaces hipertextuales que llevan a imágenes o a textos que contienen imágenes).

Principal ventaja:– La capacidad del texto para describir muchos aspectos de la semántica de la imagen. Esta

ventaja se pone en entredicho si consideramos que el sistema de significación de la imagen es distinto al del texto lingüístico.

Debilidades:– La potencia de los sistemas de gestión documentales se ve reducida al aplicarse sobre grandes

bancos de imágenes.

– No satisface recuperación basada en identificación de patrones ni sensaciones subjetivas del usuario.

Page 7: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Modelo VV: Sistemas visuales purosModelo VV: Sistemas visuales puros

Permiten la representación automática de los atributos visuales de la imagen y la recuperación a partir de esos criterios.

Intentan solucionar las debilidades impuestas por el modelo lingüístico:– Permite la recuperación por cualidades gráficas (colores, texturas, formas

geométricas, etc.) y sensaciones estéticas.

– Supera los problemas de inconsistencia, alto coste en tiempo y dinero propios de la asignación de texto a las imágenes.

Principal inconveniente:– Problemas para la recuperación semántica: objetos, personas, escenas...

Page 8: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Modelo LV: Sistemas de representación lingüística y Modelo LV: Sistemas de representación lingüística y recuperación visualrecuperación visual

Representaciones textuales de las imágenes, pero con posibilidad de recuperar a partir de las propias imágenes (por ejemplo, mediante un tesauro visual)

http://ai.bpa.arizona.edu/~mramsey/papers/gkrs/node36.html

Pueden ser de gran utilidad en dominios muy restringidos.

Sus inconvenientes principales derivan de los problemas en la representación textual ya comentados.

Page 9: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Modelo VL: Sistemas de representación visual y recuperación Modelo VL: Sistemas de representación visual y recuperación lingüísticalingüística

Intentan superar dos limitaciones importantes de los modelos descritos hasta ahora:

– La restricción de las posibilidades expresivas del usuario al realizar la consulta, por parte de los sistemas visuales.

– La dificultad para expresar una parte importante de la significación de la imagen durante el proceso de representación, por parte de los sistemas lingüísticos.

Un ejemplo muy interesante es un sistema para una galería de arte electrónica llamado ART MUSEUM.

Page 10: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Sistemas mixtosSistemas mixtos

Integran varios de los modelos de recuperación descritos.

Su tecnología es la más adecuada para las necesidades de recuperación de un fondo gráfico voluminoso digitalizado.

Los sistemas mixtos más comunes se basan en la integración de un sistema visual puro con un sistema lingüístico. Esta integración permite que un usuario pueda utilizar, de manera combinada, durante el proceso de recuperación funciones de consulta visuales y lingüísticas. Para la recuperación lingüística se utiliza un sistema de gestión de base de datos que puede ser de tipo relacional o documental.

Ejemplo: http://www.si.umich.edu/Space/ Base de datos con imágenes relativas a ciencias de la tierra y del espacio

Page 11: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Sistemas CBIR: Sistemas de Recuperación Sistemas CBIR: Sistemas de Recuperación basados en el Contenidobasados en el Contenido

CBIR es abreviatura de Content-based image retrieval systems.

¿QUÉ SON? (Prof. Robledano Arillo) Modelo de recuperación visual de imágenes basado en el uso de las características intrínsecas de los documentos que son extraídas y representadas automáticamente a través de estructuras de datos numéricas.

Responden al modelo VV, sistemas de recuperación visuales puros. Sin embargo, suelen presentarse de forma mixta.

Page 12: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Sistemas CBIRSistemas CBIR

Los sistemas CBIR hoy día operan de forma eficaz en el nivel de abstracción más bajo (rasgos primitivos: color, forma, textura, distribución espacial, posición, bordes, etc.)

Esto no significa que su intención no sea alcanzar también posibilidades de recuperación semántica de la imagen.

Ése es precisamente el principal reto actual.

Page 13: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

FuncionamientoFuncionamiento

Fase de archivo: Se analiza automáticamente las características intrínsecas de las imágenes. Se generan vectores de características gráficas por cada imagen. El índice visual vincula cada atributo con las imágenes que lo

contienen.

Fase de consulta: El usuario especifica una o varias características visuales. ¿Cómo? Mediante las opciones que estén disponibles en el interfaz:

– Consulta a través de ejemplo visual:• Consulta por imagen índice mostrada.• Consulta por ejemplo realizado.

– Uso de lenguaje visual.

Fase de recuperación: Las imágenes se muestran en orden decreciente de similitud.

Page 14: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Esquema del procesoEsquema del proceso

Page 15: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Problemas habituales en la recuperación CBIRProblemas habituales en la recuperación CBIR

Imprecisión y vaguedad en las búsquedas del usuario:– Inexactitud respecto a lo que busca.– Conocimiento impreciso de las características visuales.– Generalización excesiva. – Errores en la representación.– Falta de coincidencia entre la percepción del usuario y la del sistema.

La imprecisión y vaguedad derivada de la subjetividad en la interpretación de los conceptos plásticos se intenta superar, ejemplos:

– Teoría de Johannes Itten acerca de los significados inducidos por el uso de los colores .

– Sistema ART MUSEUM. – Sistemas expertos.

No obstante, estos problemas están lejos de superar de cara a aplicar sistemas de uso genérico.

Page 16: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Tipos de sistemas CBIRTipos de sistemas CBIR

Sistemas algorítmicos – Son los más habituales y cercanos al usuario casual. Sus procesos

fundamentales responden a la explicación anterior.

– Se caracterizan por emplear algoritmos para la localización, representación y comparación de atributos visuales de carácter gráfico.

– También pueden emplear algoritmos de recuperación basados en la identificación y reconocimiento de texto presente en la imagen o adyacente a ésta. (OCR)

Sistemas basados en IA– Destaca el uso de redes neuronales para el reconocimiento de patrones

gráficos y, a partir de éstos, aproximaciones hacia el reconocimiento de objetos. Una dirección con demos relativos a Visión Artificial en:

(http://www-2.cs.cmu.edu/afs/cs/project/cil/ftp/html/txtv-demos.html)

Page 17: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Presentación de aplicaciones existentesPresentación de aplicaciones existentes

Un caso español: SAID– Sistema Automático de Identificación Dactilar.

– Se usa en España desde 1986.

– Guardia Civil y Cuerpo Nacional de Policía

Procesos básicos de SAID:– Lectura e interpretación de dactilogramas.

– Comparación automática puntos característicos.

– Presentación en pantalla de las imágenes de los candidatos.

Page 18: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Presentación de aplicaciones existentesPresentación de aplicaciones existentes

Son numerosos los prototipos de investigación, algunos con módulos consultables en web. Menor es la cantidad de aplicaciones comerciales disponibles.

Comentario de 3 ejemplos:

– ADL (Alexandria Digital Library)• Indización espacial por regiones.

• Aplicación: Catalogación e indización de materiales especiales.

• Ofrece acceso web a un conjunto de fondos del MIL (Map and Imagery Laboratory)

• URL: http://www.alexandria.ucsb.edu/

Page 19: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

– AMORE (Advanced Multimedia Oriented Retrieval Engine)• Actualmente no disponible en demo.

Page 20: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

– NETRA• Prototipo de investigación.

Page 21: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

– NETRA

Page 22: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Ejemplos de sistemas consultables en web: BLOBWORLD Y Ejemplos de sistemas consultables en web: BLOBWORLD Y QUICKLOOKQUICKLOOK

BLOBWORLD

Blobworld Image Retrieval using regions

Desarrollado por el UC Berkeley Computer Vision Group, Computer Science Division, University of California, Berkeley (USA)

http://dlp.cs.berkeley.edu/photos/blobworld

QUICKLOOK

QUICKLOOK On The Web Site (v1.2)

Istituto per le Tecnologie Informatiche Multimediali (ITIM), dependiente del Consiglio Nazionale delle Ricerche, Milán (Italia)

http://quicklook.itc.cnr.it/main.html

Page 23: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Campos de aplicación de sistemas CBIRCampos de aplicación de sistemas CBIR

fondos de patentes logotipos comerciales sellos diseños industriales basados en texturas imágenes médicas obras de arte pictóricas no figurativas reconocimiento de billetes de banco falsos identificación de copias falsas videocámaras museos digitales bibliotecas digitales bases de datos multimedia

Page 24: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Problemas a los que se enfrenta la tecnología Problemas a los que se enfrenta la tecnología CBIRCBIR

Vacío semántico

Evaluación

Se constata un escaso éxito de estos sistemas a nivel general.

Apuesta por una aproximación cognitiva para evaluar su eficacia desde una perspectiva de usuario:

La importancia del interfaz de usuario.

Page 25: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Análisis de usabilidadAnálisis de usabilidad

Definiciones de la ISO:– 1) ISO/IEC 9126 "La usabilidad se refiere a la capacidad de un software

de ser comprendido, aprendido, usado y ser atractivo para el usuario, en condiciones específicas de uso" ;

– 2) ISO/IEC 9241 "Usabilidad es la efectividad, eficiencia y satisfacción con la que un producto permite alcanzar objetivos específicos a usuarios específicos en un contexto de uso específico".

Análisis de usabilidad o evaluación heurística:– Método de evaluación consistente en detectar los problemas de usabilidad

en un diseño de interfaz de usuario.

Page 26: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Metodología del análisisMetodología del análisis

Método: Recorrer el interfaz varias veces y durante varias sesiones de conexión a fin de inspeccionar los diversos elementos de diálogo, su diseño, localización e implementación, y compararlos con una lista de 10 principios heurísticos.

Objetivo: Determinar si existe, o no, una adecuada interacción usuario-máquina.

Page 27: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Principios de usabilidadPrincipios de usabilidad

Principios heurísticos empleados:1. Visibilidad del estado del sistema.

2. Relación entre el sistema y el mundo real.

3. Control y libertad del usuario.

4. Consistencia y estándares.

5. Prevención de errores.

6. Reconocer mejor que recordar.

7. Flexibilidad y eficacia de uso.

8. Diseño estético y minimalista.

9. Ayuda a los usuarios a reconocer, diagnosticar y recuperarse de los errores.

10. Documentación de ayuda.

Posible escala de puntuaciones (basada en la Escala de Likert (TROCHIM):+ 3, +2, +1 / 0 / -3, -2, -1

Page 28: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Conclusiones de evaluaciones heurísticas sobre sistemas Conclusiones de evaluaciones heurísticas sobre sistemas CBIRCBIR

El diseño del sistema debe ayudar al usuario.

Los modelos de diseño ajustados al usuario determinan con más precisión:

* Las necesidades reales de los usuarios sobre las imágenes.

* Sobre qué nuevas posibilidades de recuperación se ha de trabajar.

La documentación de ayuda debe ser didáctica y completa.

Se recomienda implementar el método de indicación de la relevancia para mejorar el criterio del usuario sobre la eficacia de estos sistemas.

Page 29: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Líneas a seguirLíneas a seguir

Aumentar la oferta de sistemas con un propósito de aplicación general. Más investigación sobre reconocimiento automático de objetos y de contenido con un

mayor nivel de abstracción. Más investigación sobre las necesidades de usuarios (destaca el IIDR de la Universidad

de Northumbria) y cómo adecuar los sistemas a dichas necesidades. Más investigación sobre las formas de interacción entre el usuario y el fondo para

definir: Modelos de usuarios. Estrategias de recuperación. Funciones de manipulación durante la consulta.

Integrar los resultados de estudios de usuarios, evaluaciones heurísticas y aportaciones de otras disciplinas, tales como IPO, Arquitectura de la Información, Visualización de la Información, Psicología, etc. Todo ello ha de permitir:

Establecimiento de principios de diseño adecuados a interfaces CBIR.

Page 30: Sistemas de recuperación de imágenes basados en atributos visuales del contenido

Bibliografía

EAKINS, J.P. y GRAHAM, M.E. (1999). Content-based image retrieval: A report to the JISC

Technology Applications Programme, disponible en http://www.unn.ac.uk/iidr/report.html.

PÉREZ ÁLVAREZ, Sara (2003). Análisis de usabilidad de sistemas CBIR, Documentación de las

Ciencias de la Información nº26, pp. 313-350.

ROBLEDANO ARILLO, Jesús (1999). La recuperación de la imagen fija. Perspectiva funcional de los

sistemas automatizados de recuperación de imágenes, En El Análisis de la fotografía de prensa en

entornos automatizados (Tesis Doctoral), pp.265-310.

ROBLEDANO ARILLO, Jesús y MOREIRO GONZÁLEZ, José Antonio (2002). La recuperación

documental del documento fotográfico: perspectiva tecnológica y documen.tal, en Primeras Jornadas de

Imagen, Cultura y Tecnología (Universidad Carlos III, Madrid. 1-5 julio), (actas), pp.179-200.

TROCHIM, William M.K.(2002). Escala Likert, disponible en http://trochim.human.cornell.edu/kb/scallik.

htm.

VELTKAMP, Remco C. y TANASE, Mirela (2000). Content-based Image Retrieval Systems: A survey.

Department of Computing Science, Utrecht University, Technical Report UU-CS-2000-34

VENTERS, Colin C. y COOPER, Matthew (2000). A review of Content-Based Image Retrieval Systems:

A report to the JISC Technology Applications Programme, disponible en http://www.jtap.ac.uk/reports/

htm/jtap-054.html.