Reconocimiento de Escritura Continua Off-Line - (Máster ...

21
Reconocimiento de Escritura Continua Off-Line (Máster IARFID) Alejandro H. Toselli Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia 12 de febrero de 2008 A.H. Toselli (DSIC - UPV) RES Off-Line 1 / 11

Transcript of Reconocimiento de Escritura Continua Off-Line - (Máster ...

Page 1: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Reconocimiento de Escritura Continua Off-Line(Máster IARFID)

Alejandro H. Toselli

Departamento de Sistemas Informáticos y ComputaciónUniversidad Politécnica de Valencia

12 de febrero de 2008

A.H. Toselli (DSIC - UPV) RES Off-Line 1 / 11

Page 2: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Temario

1 Asignatura RES

2 Generalidades sobre RESNecesidad del RESFases de un sistema de Reconocimiento de FormasOCRs en el contexto de la RES ContinuaDefiniciones relacionadas con RESCriterios Usuales para Calificar los Sistemas de RESTecnología de RH aplicada a RESAproximaciones RES basadas en HMMs

A.H. Toselli (DSIC - UPV) RES Off-Line 2 / 11

Page 3: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Asignatura RES Asignatura RES: Horarios

Asignatura RES: Horarios

Organizac.: 10 horas de teoría + 5 horas de práctica.

Horario: (Martes) Febrero: 12, 19, 26 y Marzo: 4 - 10:00hrs a13:30hrs.

Teoría: 3 clases

Práctica: 1 clase - Experimentaciones con un sistema RES.

A.H. Toselli (DSIC - UPV) RES Off-Line 3 / 11

Page 4: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Asignatura RES Asignatura RES: Temario General

Asignatura RES: Temario General

1 Generalidades

2 Reconocimiento de Escritura Manuscrita Off-Line

3 Uso de Modelos de Lenguaje en RES

4 Reconocimiento de Escritura On-Line

5 Algunas nociones sobre HTK

A.H. Toselli (DSIC - UPV) RES Off-Line 4 / 11

Page 5: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES Necesidad del RES

Necesidad del RES

1 Parte de la información es representada en forma manuscrita enpapel:

cartasfaxesformularios de encuestasanotacionesarchivos históricos

2 Ha cobrado gran importancia en muchas aplicacionesindustriales:

Reconocimiento de cantidades numéricas en cheques bancarios.Verificación de firmas.Lectura y reconocimiento de códigos y direcciones postales.

A.H. Toselli (DSIC - UPV) RES Off-Line 5 / 11

Page 6: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES Necesidad del RES

Necesidad del RES

1 Parte de la información es representada en forma manuscrita enpapel:

cartasfaxesformularios de encuestasanotacionesarchivos históricos

2 Ha cobrado gran importancia en muchas aplicacionesindustriales:

Reconocimiento de cantidades numéricas en cheques bancarios.Verificación de firmas.Lectura y reconocimiento de códigos y direcciones postales.

A.H. Toselli (DSIC - UPV) RES Off-Line 5 / 11

Page 7: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES Fases de un sistema de Reconocimiento de Formas

Fases de un sistema de Reconocimiento de Formas

En general un sistema de RF comprende dos fases diferenciadas:

1 fase de entrenamiento o aprendizaje.

2 fase de reconocimiento/clasificación.

Preproceso

Preproceso

Extracción de características

Selección decaracterísticas

Clasificación/Interpretación

Aprendizaje

CLASIFICACIÓN

ENTRENAMIENTO

Patrónde Test

Patrón deEntrenamiento

Resultado

A.H. Toselli (DSIC - UPV) RES Off-Line 6 / 11

Page 8: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES OCRs en el contexto de la RES Continua

OCRs en el contexto de la RES Continua

OCR: imágenes de texto manuscrito/impreso −→ formatoprocesable por el ordenador (ASCII).

Tipos:Reconocimiento de palabras o caracteres impresos.Reconocimiento de caracteres o palabras manuscritas.

Reconocimiento de palabras basados en la detección ysegmentación en sus caracteres componentes (éxito en escrituraimpresa).

Dificultad de segmentación de componentes de la escrituramanuscrita continua.

Fracasa a la hora de reconocer texto manuscrito: variedad deestilos y formas en que se presenta, solapamiento e interconexiónde los caracteres que conforman las frases, las características deltrazo, etc.

A.H. Toselli (DSIC - UPV) RES Off-Line 7 / 11

Page 9: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES OCRs en el contexto de la RES Continua

OCRs en el contexto de la RES Continua

OCR: imágenes de texto manuscrito/impreso −→ formatoprocesable por el ordenador (ASCII).

Tipos:Reconocimiento de palabras o caracteres impresos.Reconocimiento de caracteres o palabras manuscritas.

Reconocimiento de palabras basados en la detección ysegmentación en sus caracteres componentes (éxito en escrituraimpresa).

Dificultad de segmentación de componentes de la escrituramanuscrita continua.

Fracasa a la hora de reconocer texto manuscrito: variedad deestilos y formas en que se presenta, solapamiento e interconexiónde los caracteres que conforman las frases, las características deltrazo, etc.

A.H. Toselli (DSIC - UPV) RES Off-Line 7 / 11

Page 10: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES OCRs en el contexto de la RES Continua

OCRs en el contexto de la RES Continua

OCR: imágenes de texto manuscrito/impreso −→ formatoprocesable por el ordenador (ASCII).

Tipos:Reconocimiento de palabras o caracteres impresos.Reconocimiento de caracteres o palabras manuscritas.

Reconocimiento de palabras basados en la detección ysegmentación en sus caracteres componentes (éxito en escrituraimpresa).

Dificultad de segmentación de componentes de la escrituramanuscrita continua.

Fracasa a la hora de reconocer texto manuscrito: variedad deestilos y formas en que se presenta, solapamiento e interconexiónde los caracteres que conforman las frases, las características deltrazo, etc.

A.H. Toselli (DSIC - UPV) RES Off-Line 7 / 11

Page 11: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES OCRs en el contexto de la RES Continua

OCRs en el contexto de la RES Continua

OCR: imágenes de texto manuscrito/impreso −→ formatoprocesable por el ordenador (ASCII).

Tipos:Reconocimiento de palabras o caracteres impresos.Reconocimiento de caracteres o palabras manuscritas.

Reconocimiento de palabras basados en la detección ysegmentación en sus caracteres componentes (éxito en escrituraimpresa).

Dificultad de segmentación de componentes de la escrituramanuscrita continua.

Fracasa a la hora de reconocer texto manuscrito: variedad deestilos y formas en que se presenta, solapamiento e interconexiónde los caracteres que conforman las frases, las características deltrazo, etc.

A.H. Toselli (DSIC - UPV) RES Off-Line 7 / 11

Page 12: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES OCRs en el contexto de la RES Continua

OCRs en el contexto de la RES Continua

OCR: imágenes de texto manuscrito/impreso −→ formatoprocesable por el ordenador (ASCII).

Tipos:Reconocimiento de palabras o caracteres impresos.Reconocimiento de caracteres o palabras manuscritas.

Reconocimiento de palabras basados en la detección ysegmentación en sus caracteres componentes (éxito en escrituraimpresa).

Dificultad de segmentación de componentes de la escrituramanuscrita continua.

Fracasa a la hora de reconocer texto manuscrito: variedad deestilos y formas en que se presenta, solapamiento e interconexiónde los caracteres que conforman las frases, las características deltrazo, etc.

A.H. Toselli (DSIC - UPV) RES Off-Line 7 / 11

Page 13: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES Definiciones relacionadas con RES

Definiciones relacionadas con RES

Definiciones relacionadas:Reconocimiento de Texto Manuscrito: se transforma un

lenguaje representado por su forma espacial demarcas gráficas a una representación simbólica.

Interpretación de Texto Manuscrito: se determina elsignificado de un texto manuscrito dado.

Además:Identificación de Caligrafía: se identifica el autor de una

muestra dada de texto manuscrito, asumiendoque cada autor tiene un estilo personal deescritura diferente.

Verificación de Firma: se determina si la firma que se asumeperteneciente a una persona, efectivamentepertenece o no a ésta.

A.H. Toselli (DSIC - UPV) RES Off-Line 8 / 11

Page 14: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES Definiciones relacionadas con RES

Definiciones relacionadas con RES

Definiciones relacionadas:Reconocimiento de Texto Manuscrito: se transforma un

lenguaje representado por su forma espacial demarcas gráficas a una representación simbólica.

Interpretación de Texto Manuscrito: se determina elsignificado de un texto manuscrito dado.

Además:Identificación de Caligrafía: se identifica el autor de una

muestra dada de texto manuscrito, asumiendoque cada autor tiene un estilo personal deescritura diferente.

Verificación de Firma: se determina si la firma que se asumeperteneciente a una persona, efectivamentepertenece o no a ésta.

A.H. Toselli (DSIC - UPV) RES Off-Line 8 / 11

Page 15: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES Definiciones relacionadas con RES

Definiciones relacionadas con RES

Definiciones relacionadas:Reconocimiento de Texto Manuscrito: se transforma un

lenguaje representado por su forma espacial demarcas gráficas a una representación simbólica.

Interpretación de Texto Manuscrito: se determina elsignificado de un texto manuscrito dado.

Además:Identificación de Caligrafía: se identifica el autor de una

muestra dada de texto manuscrito, asumiendoque cada autor tiene un estilo personal deescritura diferente.

Verificación de Firma: se determina si la firma que se asumeperteneciente a una persona, efectivamentepertenece o no a ésta.

A.H. Toselli (DSIC - UPV) RES Off-Line 8 / 11

Page 16: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES Definiciones relacionadas con RES

Definiciones relacionadas con RES

Definiciones relacionadas:Reconocimiento de Texto Manuscrito: se transforma un

lenguaje representado por su forma espacial demarcas gráficas a una representación simbólica.

Interpretación de Texto Manuscrito: se determina elsignificado de un texto manuscrito dado.

Además:Identificación de Caligrafía: se identifica el autor de una

muestra dada de texto manuscrito, asumiendoque cada autor tiene un estilo personal deescritura diferente.

Verificación de Firma: se determina si la firma que se asumeperteneciente a una persona, efectivamentepertenece o no a ésta.

A.H. Toselli (DSIC - UPV) RES Off-Line 8 / 11

Page 17: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES Criterios Usuales para Calificar los Sistemas de RES

Criterios usuales para calificar los sistemas de RES

Tabla Digitalizadora

Video

OFF−LINEON−LINE

Escáner

Cámara

Luminancia de los Datos de EntradaRepresentación en el Espacio

Temporal de los Datos de EntradaRepresentación en el Espacio

��

Otros criterios:Con/Sin segmentaciónDependiente/Independiente del EscritorLéxico Abierto/Restringido

A.H. Toselli (DSIC - UPV) RES Off-Line 9 / 11

Page 18: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES Tecnología de RH aplicada a RES

Tecnología de RH aplicada a RES

Principales Características de la Tecnología de RH:

Basada en los HMMs.

No se realiza ningún tipo de segmentación explícita de la señal.

Modelos de léxico y de Lenguaje.

Integración de estos modelos en el proceso de reconocimiento.

A.H. Toselli (DSIC - UPV) RES Off-Line 10 / 11

Page 19: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES Tecnología de RH aplicada a RES

Tecnología de RH aplicada a RES

Adecuación de la Tecnología de RH en RES: Involucra una serie dere-definiciones y re-implementaciones.

Modelos morfológicos: “grafemas” (usualmente caracteres).

Modelos léxicos de mayor complejidad.

Preproceso de las imágenes.

Preproceso de extracción de características.

Sistema de RES independiente del idioma utilizado

Partes dependientes del lenguaje o idioma.

Partes Independientes del lenguaje o idioma.

A.H. Toselli (DSIC - UPV) RES Off-Line 11 / 11

Page 20: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES Tecnología de RH aplicada a RES

Tecnología de RH aplicada a RES

Adecuación de la Tecnología de RH en RES: Involucra una serie dere-definiciones y re-implementaciones.

Modelos morfológicos: “grafemas” (usualmente caracteres).

Modelos léxicos de mayor complejidad.

Preproceso de las imágenes.

Preproceso de extracción de características.

Sistema de RES independiente del idioma utilizado

Partes dependientes del lenguaje o idioma.

Partes Independientes del lenguaje o idioma.

A.H. Toselli (DSIC - UPV) RES Off-Line 11 / 11

Page 21: Reconocimiento de Escritura Continua Off-Line - (Máster ...

Generalidades sobre RES Aproximaciones RES basadas en HMMs

Aproximaciones RES basadas en HMMs

Aprox. Tipo Probab. Emisión Extrac. Caract. Modelado Léxico

HMMsDiscretos

Cuantizaciónvectorial,“codebooks”

Globales Global de palabraLocales(“slidingwindows” )

Global de palabraCaracteres de la pa-labra

Codificación consímbolos decaracteríst.estructurales

Globales Global del objeto

LocalesCaracteres de lapalabra

ContinuosMixtura de Gaussia-nas

Locales (“sli-ding windows” )

Caracteres de la pa-labra

A.H. Toselli (DSIC - UPV) RES Off-Line 12 / 11