Post on 27-Jan-2016
Detección de líneas de referencia de Detección de líneas de referencia de palabras en cursiva según la Entropíapalabras en cursiva según la Entropía
Rodríguez de Torres Jaramillo, Joaquín Carlos Rivas Pérez, Manuel Peña Cantillana, Felipe
ÍndiceÍndice Introducción.
- On-line.- Off-line.
- Analytic aproach.- Holistic aproach.
- Resumen.
Método propuesto.- Otras técnicas.- Extracción de puntos del contorno.- Generación de histogramas.- Elección del histograma según “la Entropia”.- Deducción de líneas de referencia.
Ejemplos prácticos.
Bibliografía.
Turno de preguntas.
IntroducciónIntroducción
Reconocimiento de la escritura manual
(cursive script recognition):
1. On-line: la escritura manual es producida a través de un dispositivo como un lápiz electrónico o tabletas gráficas
2. Off-line: se trabaja con imágenes digitales introducidas a través de un escáner o cámara digital
Características On-lineCaracterísticas On-line
Uso de lápiz electrónico o tabletas gráficas.
Colaboración entre escritor y el computador.
Línea de escritura no tiene grosor.
Reconocimiento basado en un dato unidimensional, es decir, la línea de escritura es representada mediante una secuencia de puntos cuya localización es función del tiempo.
Características Off-lineCaracterísticas Off-line
No necesita de dispositivos especiales para realizar la escritura.
No hay ningún tipo de colaboración entre escritor y el computador.
La escritura posee grosor.
Reconocimiento basado en un dato bidimensional.
Off-lineOff-line
Nos centraremos en el reconocimiento Off-line, donde podemos encontrar dos estrategias fundamentales aplicadas al problema del CSR:
• Analytical aproach o segmentation-based: En este primer caso, la palabra es considerada como un conjunto de unidades más pequeñas, las técnicas de reconocimiento de palabra se basan en el reconocimiento de esas unidades que la forman.
• Holistic aproach o word-based: En este segundo caso, el reconocimiento de la palabra se realiza considerando ésta como un todo, es decir, no se intenta identificar los caracteres de los que está compuesta.
Analytical aproach vs Holistic aproachAnalytical aproach vs Holistic aproach
Los puntos de segmentación de la palabra son establecidos correctamente solo cuando se conoce la secuencia correcta de caracteres que forman dicha palabra.
El reconocimiento de caracteres sólo es exitoso cuando la segmentación es correcta.
Tomar muchos potenciales puntos de segmentación, pero esto se complica bastante al mezclarlo con la elección de los posibles caracteres que forman dicha palabra.
Pobre uso de la información contextual obtenida de caracteres vecinos.
Analytical aproach:
Analytical aproach vs Holistic aproachAnalytical aproach vs Holistic aproach
Extraer un vector que caracteriza la palabra. Por comparación con prototipos de palabras almacenadas en un
diccionario se concluirá que palabra es ésta. Con este método se gana en velocidad y evita todos aquellos
problemas surgidos de la segmentación de la palabra en unidades más pequeñas.
Se aproxima más al método de lectura humano. El único problema que plantea este método es el de tener un léxico
apropiado para el reconocimiento de las palabras.
Holistic aproach:
AplicacionesAplicaciones
- Reconocimiento direcciones postales
- Lectoras para ciegos
- Impresos rellenados manualmente
- Talones bancarios
Reconocimiento de palabras cursivas o escritura manual
• Reconocimiento On-line
• Reconocimiento Off-line
• Analytic aproach
• Holistic aproach
ResumenResumen
Reconocimiento de palabras
Etapas de reconocimientoEtapas de reconocimiento
PreprocessingPreprocessing
Convertir la entrada de escritura manual en una forma más eficiente.
Elegir entre modificar la imagen o preservar características.
Normalización, reducción de ruido, búsqueda de líneas de referencia
PreprocessingPreprocessing
• Extracción contorno (contour tracing)• Corrección de inclinación (skew correction)• Corrección del declive (slant correctíon)• Búsqueda de líneas de referencia (reference
line finding) o baselines• Suavizado (smoothing)• Cambio de escala (scaling)• Extracción del esqueleto (thinning)
PreprocessingPreprocessing
Skew/base-line correction
Slant correction Base-line finding Thinning
Slant correctionSlant correction
n1=3
n2=3
n3=1
Slant correctionSlant correction
Slant correctionSlant correction
Slant correctionSlant correction
Slant correctionSlant correction
Slant correctionSlant correction
Slant correctionSlant correction
Slant correctionSlant correction
Slant correctionSlant correctionHyper SPARC 125 MHz
LíneasLíneas dede referenciareferencia
Objetivo: Detectar primitivas significativas: ascendentes y descendentes
Dividir palabra en 3 partes: superior (ascendentes), central (cuerpo), inferior (descendentes)
LíneasLíneas dede referenciareferencia
Problema: Escritura cursiva es a menudo inclinada
Enderezamiento => Distorsiones (pérdidas de información)
Métodos conocidos complejos (requieren corrección previa de la inclinación, skew correction)
LíneasLíneas dede referenciareferencia
Método– 1) Extracción puntos del contorno– 2) Generación histogramas ordenadas– 3) Selección histograma más compacto
(entropía menor)– 4) Deducción líneas de referencia
1.-1.- ExtracciónExtracción deldel contornocontorno
Objetivo: Eliminar puntos sobrantesBarras de ‘t’, letras ‘i’, ‘j’Para encontrar todos los puntos del borde de
S, podemos rastrear la imagen y comprobar los cuatro vecinos de cada 1 (negro) para ver si alguno de ellos es 0 (blanco) o vv.
1.- Extracción del contorno1.- Extracción del contorno
0 0 1 0 0
0 1 0 1 0
0 1 0 1 0
0 0 1 0 0
0 0 0 0 0
0 0 1 0 0
0 1 1 1 0
0 1 1 1 0
0 0 1 0 0
0 0 0 0 0
2.-Generación de histogramas2.-Generación de histogramas
Cada ordenada de los puntos es proyectada en un eje cuyo ángulo de inclinación con respecto a la horizontal varía desde +30º hasta –30º en pasos de 1º => 61 proyecciones
Calcular histograma de densidad para cada proyección => 61 histogramas
2.-Generación de histogramas2.-Generación de histogramas
Dado un punto del contorno P(x,y) y un ángulo de proyección con respecto a la horizontal, sus coordenadas en el nuevo sistema de referencia se obtienen aplicando una rotación:
aunque solo necesitaremos la proyección y’:
PROYECCIONES (I)PROYECCIONES (I)
X
Y
Yi son iguales => Puntos siguen dirección OX
O
P1(X1,Y1)
P2(X2,Y2)
P3(X3,Y3)
X1 X2 X3
Y1
Y2
Y3
X
Y
Yi son distintos => Puntos NO siguen dirección OX
O X1 X2 X3
Y1
Y2
Y3
PROYECCIONES (II)PROYECCIONES (II)
P1(X1,Y1)
P2(X2,Y2)
P3(X3,Y3)
PROYECCIONES (III)PROYECCIONES (III)
X
Y
Yi son distintos => Puntos NO siguen dirección OXYi’ son iguales => Puntos siguen dirección OX’
OX1 X2 X3
Y1
Y2
Y3
P1(X1,Y1)
P2(X2,Y2)
P3(X3,Y3)
X’
Y’
Y’1
Y’2Y’3
2.-Generación de histogramas2.-Generación de histogramas
3.- Elección del histograma3.- Elección del histograma
Entropía:
Ni = Nº de pixeles con proyección yi en el vector proyección
N = Nº total de puntosPi = frecuencia de ocurrencia de la ordenada
yi
3.- Elección del histograma3.- Elección del histograma
Entropía máxima => Todas Pi son iguales => Distribución homogénea, muy extendida (plana)
Entropía mínima => Todas Pi son nulas (excepto una)
=> Distribución heterogénea, poco extendida (abrupta)
3.- Elección del histograma3.- Elección del histograma
La dirección de la inclinación de la palabra se obtiene minimizando la entropía
Se calcula la entropía para cada histograma de densidad y se coge el de mínima entropía
3.- Elección del histograma3.- Elección del histograma
4.- Obtención de las líneas4.- Obtención de las líneas
Cada histograma presenta 3 picos: central (cuerpo), izquierda (zona ascendentes), derecha (zona descendentes)
Ausencia picos laterales (no hay ascendentes / descendentes)
Líneas de referencia: rectas separan pico central de las zonas laterales. Ordenadas al origen son los umbrales
4.- Obtención de las líneas4.- Obtención de las líneas
Heurística de aproximación :
donde fmax es la frecuencia del pico central
4.- Obtención de las líneas4.- Obtención de las líneas
Líneas de referenciaLíneas de referencia
VentajasVentajas
No causa ninguna deformación en la imagen de partida, lo cual es importante a la hora de detectar la primitivas salientes de la imagen
Menos complejo que los métodos que usan regresiones lineales
EjemplosEjemplos
Elmira
Almaden
Tennesse
Treadwell
InconvenientesInconvenientes
La heurística no siempre se verifica aunque la dirección sea la correcta => Búsqueda adaptativa mejorando los umbrales (thresholding)
Problemas con las ‘T’, ‘F’ que originan picos parásitos que impiden la detección del pico central (aunque ocurre pocas veces)
InconvenientesInconvenientes
Four
Ten
Two
Tappan
Talmage
Mal
Bien
EjemplosEjemplos
Fiskill Thiells
Taberg
EjemplosEjemplos
one
nine
seven
six
EjemplosEjemplos
Criterio de la entropía Criterio del pico maximal
dollars
eighteen
ComparativaComparativa
Éxitos Fracasos
Método regresiones lineales
61 % 39 %
Método propuesto 85 % 15 %
BibliografíaBibliografía http://www.infres.enst.fr/~elc/curscript/
http://www.math.tau.ac.il/~nin/papers/ijdar99.pdf “Offline Cursive Script Word Recognition – a survey” Tal Steinherz, Ehud Rivlin, Nathan Intrator. Revised September 2, 1999
http://www.gpa.etsmtl.ca/rech/cote8.htm Myriam Côté,Utilisation d'un modèle d'accès lexical et de
concepts perceptifs pour la reconnaissance d'images de mots cursifs. Thèse de doctorat, Département signal, Ecole nationale supérieure des télécommunications de Paris, Paris, France, 6 juin 1997, 178 pages.