Seguimiento de M´ultiples Personas considerando Oclusi´on ...Agradecimientos A mi asesor, Dr....

Seguimiento de Multiples Personas

considerando Oclusion Parcial y Total

en Escenarios Estacionarios No Controlados

Por

Carolina Reta Castro

Tesis sometida como requisito parcial

para obtener el grado de

DOCTORA EN CIENCIAS EN EL AREA DE

CIENCIAS COMPUTACIONALES

En el:

Instituto Nacional de Astrofısica, Optica y Electronica

Dirigida por:

Dr. Leopoldo Altamirano Robles

Puebla, Mexico

Junio de 2014

c©INAOE 2014

Derechos reservados

El autor otorga al INAOE el permiso de

reproducir y distribuir copias de esta tesis

en su totalidad o en partes.

A mis padres, Mariana y Refugio.

A mi esposo, Arturo.

Agradecimientos

A mi asesor, Dr. Leopoldo Altamirano Robles, por brindarme su apoyo en momentos

difıciles y por dirigirme durante el desarrollo de la tesis.

Al Dr. Jesus A. Gonzalez Bernal, investigador del INAOE, y al Dr. Rafael Medina

Carnicer, investigador de la Universidad de Cordoba en Espana, por su colaboracion

en los artıculos de investigacion derivados de la tesis.

A los Dres. Miguel O. Arias Estrada, Rene A. Cumplido Parra, Eduardo F. Morales

Manzanares y Luis E. Sucar Succar, investigadores del INAOE, y al Dr. Juan Lopez

Coronado, investigador de la Universidad Politecnica de Cartagena en Espana, por el

tiempo dedicado a la revision de esta tesis y sus valiosos comentarios.

Al grupo de investigacion Aplicaciones de la Vision Artificial de la Universidad de

Cordoba en Espana, por todo el apoyo que me brindaron durante mi estancia y por el

conocimiento que me compartieron.

Al CONACyT por otorgarme la beca No. 46341 para realizar mis estudios de Doc-

torado en Ciencias y a la Coordinacion de Ciencias Computacionales del INAOE por

encaminarme en la investigacion cientıfica.

Carolina Reta Castro.

Puebla, Mexico. Junio de 2014.

Resumen

El seguimiento de multiples personas en entornos reales es un problema desafiante,

principalmente porque la silueta deformable del cuerpo humano y la iluminacion va-

riable del entorno cambian con el tiempo la apariencia de las personas. Esta situacion

provoca una alta dificultad en la asociacion temporal de la identidad de las personas.

El problema se acentua cuando los individuos se mueven cerca de otros, se ocluyen, o

cambian abruptamente su trayectoria.

En esta tesis se propone un nuevo algoritmo de asociacion temporal para el segui-

miento individual y secuencial de multiples personas en escenarios no controlados a

partir de una camara estacionaria. El algoritmo de asociacion propuesto construye un

grafo de seguimiento a partir de un analisis de la interaccion de las personas y de me-

diciones con ruido proporcionadas por un esquema de deteccion de personas. El grafo

de seguimiento modela las relaciones espacio-temporales de las personas en la escena

para predecir y resolver oclusiones parciales y totales. Cuando se presenta un evento

de oclusion total, el algoritmo genera diversas hipotesis acerca de la ubicacion de la

persona ocluida considerando 3 casos: a) la persona mantiene su misma direccion y ve-

locidad, b) la persona adopta la direccion y la velocidad de su oclusor, y c) la persona

permanece inmovil durante la oclusion. Mediante el analisis del grafo de seguimiento

durante su construccion, el algoritmo propuesto es capaz de detectar falsos positivos y

falsos negativos en las mediciones de deteccion y tambien puede estimar la ubicacion

de personas no detectadas u ocluidas.

El algoritmo propuesto funciona aceptablemente en condiciones complejas, tales co-

mo: visibilidad parcial de los individuos para entrar o salir de la escena, interacciones

y oclusiones persistentes entre las personas, informacion incorrecta o faltante en la de-

i

teccion de las personas, ası como la variacion de la apariencia de la persona debido a

cambios en la iluminacion y distractores del fondo. El algoritmo fue evaluado en secuen-

cias de pruebas en el ambito de la vigilancia inteligente alcanzando una precision del

93%. Los resultados obtenidos muestran que el algoritmo secuencial propuesto supera

a algoritmos de seguimiento basados en trayectorias.

Palabras claves: seguimiento de personas, oclusion, grafo de seguimiento, genera-

cion de hipotesis, caracterısticas espacio-temporales, video vigilancia.

ii

Abstract

Multiple people tracking in real environments is a challenging problem. This hap-

pens because the deformable human silhouette and the varying illumination conditions

change the appearance of people over time. This situation causes a high difficulty in the

temporal association of people’s identity. The problem is emphasized when individuals

move close to each other, they are occluded, or they abruptly change their trajectories.

This work proposes a novel temporal association algorithm to sequentially and indi-

vidually track multiple people under uncontrolled sceneries from a single camera. Our

association algorithm builds a tracking graph from an analysis of the interaction of

people and from noisy measurements provided by a detection scheme. The tracking

graph models spatio-temporal relationships among attributes of interacting people to

predict and resolve partial and total occlusions. When a total occlusion event occurs,

the algorithm generates various hypotheses about the location of the occluded person

considering 3 cases: a) the person keeps the same direction and speed, b) the person

follows the direction and speed of the occluder, and c) the person remains motionless

during occlusion. By analyzing the graph while it is being built, the proposed algorithm

is able to detect trajectories produced by false positives in the detection measurements

and it can also estimate the location of missing or occluded people.

Our algorithm performs acceptably under complex conditions, such as: partial visi-

bility of individuals getting inside or outside the scene, continuous interactions and oc-

clusions among people, wrong or missing information on the detection of persons, as well

as variation of the person’s appearance due to illumination changes and background-

clutter distracters. Our algorithm was evaluated on test sequences from the intelligent

surveillance field, achieving an overall precision of 93%. Results show that our sequen-

iii

tial algorithm outperforms trajectory-based state-of-the-art algorithms.

Keywords: people tracking, occlusion, tracking graph, hypothesis management,

spatio-temporal features, video surveillance.

iv

Indice general

Resumen I

Abstract III

1. Introduccion 1

1.1. Motivacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3. Preguntas de investigacion . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.5. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.5.1. Deteccion de regiones de interes . . . . . . . . . . . . . . . . . . 6

1.5.2. Deteccion de personas . . . . . . . . . . . . . . . . . . . . . . . 6

1.5.3. Representacion de las personas . . . . . . . . . . . . . . . . . . 6

1.5.4. Seguimiento de individuos . . . . . . . . . . . . . . . . . . . . . 7

1.5.5. Prueba y evaluacion . . . . . . . . . . . . . . . . . . . . . . . . 8

1.6. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.7. Organizacion del documento . . . . . . . . . . . . . . . . . . . . . . . . 9

2. Marco Teorico 11

2.1. Modelado adaptativo del fondo . . . . . . . . . . . . . . . . . . . . . . 11

2.1.1. Descripcion de las caracterısticas del modelo . . . . . . . . . . . 12

2.1.2. Algoritmo de modelado del fondo con multiples capas . . . . . . 13

v

2.2. Deteccion de objetos mediante bases activas . . . . . . . . . . . . . . . 16

2.2.1. Representacion de bases activas . . . . . . . . . . . . . . . . . . 16

2.2.2. Algoritmo de bosquejo compartido . . . . . . . . . . . . . . . . 18

2.2.3. Arquitectura de inferencia de mapas SUM-MAX . . . . . . . . . 20

2.3. Problema de asociacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3.1. Formulacion del problema . . . . . . . . . . . . . . . . . . . . . 23

2.3.2. Algoritmo Hungaro . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3. Revision del trabajo previo 27

3.1. Introduccion al problema de seguimiento de personas con oclusion . . . 27

3.2. Seguimiento con multiples camaras . . . . . . . . . . . . . . . . . . . . 28

3.3. Seguimiento con una camara . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3.1. Seguimiento colectivo . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3.2. Seguimiento individual . . . . . . . . . . . . . . . . . . . . . . . 31

3.4. Enfoques de deteccion y representacion . . . . . . . . . . . . . . . . . . 32

3.5. Enfoques de asociacion temporal . . . . . . . . . . . . . . . . . . . . . . 37

3.5.1. Metodos de asociacion basados en detecciones . . . . . . . . . . 37

3.5.2. Metodos de asociacion basados en trayectorias . . . . . . . . . . 39

3.6. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.7. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4. Metodo propuesto 45

4.1. Deteccion de personas . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.2. Representacion de las personas . . . . . . . . . . . . . . . . . . . . . . . 50

4.2.1. Modelo de forma . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.2.2. Modelo de apariencia . . . . . . . . . . . . . . . . . . . . . . . . 50

4.2.3. Modelo de movimiento . . . . . . . . . . . . . . . . . . . . . . . 51

4.3. Seguimiento de personas . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.3.1. Descripcion del grafo de seguimiento . . . . . . . . . . . . . . . 52

vi

4.3.2. Representacion del grafo de seguimiento . . . . . . . . . . . . . 55

4.3.3. Algoritmo de asociacion temporal . . . . . . . . . . . . . . . . . 56

4.3.4. Relaciones de oclusion . . . . . . . . . . . . . . . . . . . . . . . 60

4.3.5. Asociacion por similitud . . . . . . . . . . . . . . . . . . . . . . 61

4.3.6. Actualizacion de atributos . . . . . . . . . . . . . . . . . . . . . 64

4.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5. Experimentos 67

5.1. Secuencias de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.2. Evaluacion del esquema de deteccion . . . . . . . . . . . . . . . . . . . 69

5.3. Evaluacion del algoritmo de seguimiento . . . . . . . . . . . . . . . . . 76

5.4. Tiempos de procesamiento de los algoritmos . . . . . . . . . . . . . . . 82

5.5. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.6. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6. Conclusiones 89

6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

6.2. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.4. Artıculos de investigacion . . . . . . . . . . . . . . . . . . . . . . . . . 94

Bibliografıa 94

vii

Indice de figuras

2.1. Resultado de la deteccion de regiones en movimiento a partir del metodo

de modelado de fondo adaptativo . . . . . . . . . . . . . . . . . . . . . 15

2.2. Representacion con bases activas . . . . . . . . . . . . . . . . . . . . . 17

2.3. Algoritmo de bosquejo compartido . . . . . . . . . . . . . . . . . . . . 19

2.4. Algoritmo de mapas SUM-MAX . . . . . . . . . . . . . . . . . . . . . . 21

2.5. Representacion del problema de asociacion mediante un grafo bipartito. 23

2.6. Formulacion del problema de asociacion mediante una matriz de costos. 24

4.1. Etapas que componen el metodo de seguimiento propuesto. . . . . . . . 45

4.2. Esquema de deteccion de personas . . . . . . . . . . . . . . . . . . . . . 48

4.3. Grafo de seguimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.1. Escenarios de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.2. Comparacion del esquema de deteccion propuesto con el metodo HOG-

SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.3. Resultados del esquema de deteccion de personas propuesto para el con-

junto de datos USC 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4. Evaluacion del rendimiento de deteccion para el conjunto de datos USC

2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.5. Resultados del algoritmo de asociacion temporal propuesto en la secuen-

cia OneStopMoveEnter1 del conjunto de datos CAVIAR 2005 . . . . . 77


cia S2-L1-View 008 del conjunto de datos PETS 2009 . . . . . . . . . . 78

ix


cia p3v1view1 del conjunto de datos UCO 2011 . . . . . . . . . . . . . 79

x

Indice de tablas

4.1. Variables y funciones del algoritmo de asociacion temporal. . . . . . . . 58

5.1. Definicion de los parametros del algoritmo de asociacion temporal. . . . 86

5.2. Metricas de evaluacion para el seguimiento de objetos. . . . . . . . . . 87

5.3. Comparacion de los algoritmos de seguimiento para el conjunto de datos

CAVIAR 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.4. Evaluacion del algoritmo de seguimiento propuesto en distintos conjuntos

de datos de videovigilancia. . . . . . . . . . . . . . . . . . . . . . . . . 87

xi

Capıtulo 1

Introduccion

1.1. Motivacion

El seguimiento de personas en secuencias de imagenes es un tema de investigacion

muy activo en el area de vision por computadora. Su estudio esta motivado por la

importancia que tiene el reconocimiento e interpretacion automatica del movimiento

humano en el desarrollo de la tecnologıa de analisis de video. Existe un amplio rango

de aplicaciones donde el seguimiento de personas es de vital importancia, tales como:

vigilancia para la seguridad inteligente, analisis de la cinematica de los deportistas para

la planificacion de tecnicas deportivas, conteo de personas o pasajeros, cuidado de ninos,

personas enfermas y adultos mayores, entre otras.

El seguimiento de personas permite obtener informacion sobre las actividades que

realizan los humanos a traves del analisis de las caracterısticas de sus trayectorias. El

analisis de la posicion y/o trayectoria de un individuo permite determinar si este se

encuentra caminando, corriendo, saltando, esperando algo, invadiendo un area no per-

mitida, o bien desarrollando una actividad sospechosa. Relacionando la informacion de

las trayectorias de dos o mas individuos, es posible obtener informacion de sus inter-

acciones y determinar si las personas desarrollan actividades normales como caminar

en grupo, reunirse con otras personas, esperar a alguien; o si presentan una conducta

1

2 CAPITULO 1. INTRODUCCION

anormal como esconderse o alejarse fugazmente de otra persona.

El seguimiento de multiples personas es un problema de investigacion abierto cuan-

do las personas se desenvuelven en escenarios reales, como: parques, escuelas, bancos,

museos, hospitales, centros comerciales, lobbies, aeropuertos, sitios turısticos, paradas

del transporte publico, fronteras, edificios de interes para la policıa y el ejercito, entre

otros. El seguimiento de personas en ambientes reales es un problema complejo por las

siguientes razones:

1. El numero de personas que interactuan en la escena es desconocido y variable en

el tiempo, debido a que los individuos pueden entrar y salir del campo de vision

de la escena.

2. Las personas son objetos altamente articulados cuya forma presenta variaciones

como consecuencia de su propio movimiento. Ademas, la trayectoria de los indi-

viduos es compleja y puede estar sujeta a cambios repentinos e imprevisibles.

3. La apariencia de las personas en la escena no puede ser definida de manera antici-

pada. Esta varıa con el tiempo a consecuencia de cambios en la iluminacion de la

escena y ruido en el ambiente. La variacion en la apariencia de la persona puede

causar la perdida de la ubicacion del individuo en un lapso de tiempo especıfico

y por consecuencia, la fragmentacion de su trayectoria.

4. Las interacciones entre personas pueden bloquear de manera parcial o total la

vista de los objetos desde la perspectiva de la camara. Las oclusiones provocan

cambios en la apariencia del individuo y pueden llevar a la confusion o perdida

de las trayectorias de las personas involucradas.

En esta tesis se investiga el problema del seguimiento de personas aplicado a secuen-

cias reales de imagenes de vigilancia inteligente adquiridas con una camara estacionaria.

En este trabajo se propone un algoritmo de seguimiento capaz de localizar y mantener

la identidad de varias personas que pueden ocluirse en escenarios no controlados. El

algoritmo analiza las relaciones espacio-temporales de la interaccion de las personas

1.2. PLANTEAMIENTO DEL PROBLEMA 3

para predecir y resolver oclusiones parciales y totales. De igual forma, examina distin-

tas hipotesis sobre la ubicacion de las personas ocluidas con el fin de evitar su perdida

durante los eventos de oclusion total. El algoritmo propuesto afronta los problemas

inevitables en el seguimiento de multiples personas como son los cambios en la aparien-

cia del individuo, las oclusiones entre los objetos y la confusion de las identidades de

los mismos.

1.2. Planteamiento del problema

En esta tesis se plantea el problema de rastrear a multiples individuos en un escenario

estacionario no controlado. El problema consiste en estimar la ubicacion de cada persona

en cada fotograma de la secuencia y en determinar su trayectoria desde que esta entra

hasta que sale de la escena, aun cuando se perturbe la apariencia de la persona durante la

secuencia, se obtengan falsos positivos y falsos negativos en la deteccion de las personas,

y estas sean ocluidas parcial o totalmente por otras personas u obstaculos fijos. La

formalizacion de este problema se presenta a continuacion.

Sea Z el conjunto de M personas partıcipes en una secuencia de imagenes I con

duracion T . La secuencia de imagenes I = {I t ⊂ R2} varıa espacialmente en un conjunto

de pıxeles {x} ⊂ I t y temporalmente con t ∈ {1;T}. Cada persona es representada

como Zm, donde m ∈ {1;M}. Suponiendo que K mediciones de personas estan en

la escena en el tiempo t, vamos a referirnos a la medicion de la persona k ∈ {1;K}

como ztk y a denotar su historia de seguimiento como el conjunto de sus instancias

previas Hztk= (z1k′ , z

2k′ , ..., z

t−2k′ , zt−1

k′ ), donde zk′ adquiere el valor que le corresponde a

la medicion de la persona en el instante de tiempo respectivo.

Vamos a denotar el estado de visibilidad de la persona k en el tiempo t por V tk y

vamos a considerar eventos de oclusion binarios entre las instancias de las personas

rastreadas Otij ∈ {0, 1}, donde Ot

ij = 0 indica que no hay oclusion entre las personas i

y j. Para los objetos participantes en el evento de oclusion Otij = 1, vamos a definir la

funcion πtij ∈ {−1, 1} donde πt

ij = −1 indica que la persona j ocluye a la persona i, y


πtij = 1 indica que la persona i ocluye a la persona j.

En esta tesis se propone un algoritmo de seguimiento que permite relacionar a cada

representacion de persona Zm con una medicion ztk, a partir de la historia de segui-

miento Hzm de la persona, la informacion del estado de visibilidad V tk de la informacion

observada en la imagen xtk | xt−1

k , las relaciones de oclusion∪

Otkj, y las funciones de

oclusion∪

πtkj.

1.3. Preguntas de investigacion

La pregunta de investigacion principal que respondemos en esta tesis es:

¿En que medida es posible mantener el seguimiento personas ocluidas parcial o

totalmente a partir de informacion proporcionada por una camara utilizando la

evidencia de su deteccion y la relacion espacio-temporal de su trayectoria con la

de las otras personas que participan en una escena real?

Las preguntas secundarias que nos permitieron dirigir la investigacion y contestar

la pregunta principal son:

¿Ayuda el modelado espacial de las trayectorias de las personas en la ubicacion de

los individuos en la escena que presentan oclusiones parciales severas o totales?

¿En que grado ayuda la deteccion basada en segmentos de forma a localizar a las

personas ocluidas parcialmente en un fotograma de la secuencia?

¿Que caracterısticas de la apariencia y movimiento de las personas pueden ser

utilizadas para diferenciar a individuos ocluidos que presentan vestimenta similar

a su oclusor?

¿Que caracterısticas del aspecto del fondo y de las personas se deben modelar

para que el algoritmo de seguimiento se adapte a cambios en el ambiente?

1.4. OBJETIVOS 5

1.4. Objetivos

Objetivo general

Disenar un algoritmo de seguimiento capaz de ubicar y mantener la identidad co-

rrecta de multiples personas que pueden ocluirse, parcial o totalmente, a partir de una

secuencia de imagenes con escenarios no controlados adquirida por una camara estacio-

naria.

Objetivos particulares

1. Establecer un esquema de representacion de las personas que sea capaz de adap-

tarse a las variaciones en el aspecto de estas causadas por oclusiones parciales y

cambios en la iluminacion del ambiente.

2. Plantear un algoritmo que permita la deteccion de las oclusiones parciales y totales

originadas por la interaccion de las personas con otros elementos del ambiente.

3. Proponer un algoritmo que encuentre y efectue la correspondencia temporal de

personas ocluidas o no detectadas, a partir de un analisis de la informacion

espacio-temporal de la interaccion de las personas.

4. Disenar un algoritmo de seguimiento que a partir de mediciones de deteccion y

reglas de interaccion permita identificar y ubicar en cada instante de tiempo a las

personas que participan en un escenario estacionario no controlado.

1.5. Metodologıa

A continuacion se describen las tareas principales de la metodologıa propuesta en

esta investigacion.


1.5.1. Deteccion de regiones de interes

Para simplificar la busqueda de personas en la escena, en este trabajo se propone

detectar regiones en movimiento y regiones estacionarias.

La deteccion de las regiones en movimiento se efectuo mediante la sustraccion del

modelo del fondo de la escena en cada fotograma de la secuencia. La deteccion de las

regiones estacionarias se realizo aprovechando la informacion temporal de la ubicacion

y el area ocupada por los individuos en fotogramas previos.

El resultado del proceso de deteccion de regiones de interes es una imagen binaria

compuesta por multiples regiones, en la cual no existe necesariamente una correspon-

dencia entre las regiones en la imagen y los objetos en la escena.

1.5.2. Deteccion de personas

En esta tesis se propone un esquema de deteccion de multiples personas que restringe

la busqueda del modelo del objeto a las regiones de interes de la imagen, con la finalidad

de disminuir la tasa de falsos positivos en las mediciones de deteccion.

El modelo morfologico de la persona se obtuvo a traves del entrenamiento de image-

nes con personas mediante el algoritmo planteado por [WSGZ10]. El esquema de detec-

cion propuesto realiza un filtrado de este modelo en distintas escalas de la imagen para

encontrar el ajuste del modelo que representa a los objetos con distinto tamano. El area

de la region de interes ocupada por el modelo del individuo encontrado es analizada

por el esquema de deteccion propuesto para estimar la porcion visible del objeto.

El esquema de deteccion propuesto permite la deteccion de multiples personas en

los fotogramas de la secuencia, incluyendo situaciones donde las personas se encuentran

parcialmente ocluidas.

1.5.3. Representacion de las personas

Las personas son modeladas empleando atributos que describen su apariencia, forma

y movimiento.

1.5. METODOLOGIA 7

La identificacion de los individuos se consigue cuando la similitud de apariencia y

movimiento espacial entre los atributos de las mediciones de deteccion y los atributos

representados en los modelos de las personas rastreadas, es maximizada.

La metrica de similitud de apariencia sugerida en esta tesis es robusta ante la altera-

cion en las mediciones de deteccion provocada por distractores del fondo e interacciones

entre las personas. La metrica de movimiento espacial propuesta permite la asociacion

de las identidades de personas que se ubican cerca cuando la apariencia de la persona

cambia a consecuencia de las variaciones en la iluminacion del escenario.

La representacion propuesta es adaptativa debido a que en cada instante de tiempo

se actualizan los atributos de apariencia, tamano y movimiento de los objetos rastreados

de acuerdo con el modo en que estos interactuan con las otras personas y a los cambios

producidos en la iluminacion del escenario.

1.5.4. Seguimiento de individuos

En esta tesis se propone un algoritmo que permite el seguimiento individual de

multiples personas en escenarios estacionarios.

El algoritmo de seguimiento propuesto construye un grafo de seguimiento para mo-

delar a las personas que participan en el escenario a partir de reglas de interaccion y

de mediciones de deteccion. Estas reglas controlan la entrada y salida de los objetivos,

vinculan las mediciones de deteccion con las personas previamente rastreadas y dirigen

el seguimiento de estas cuando se encuentran ocluidas.

El algoritmo analiza las relaciones espacio-temporales de las personas rastreadas

para detectar eventos de oclusion parcial y total, y determina para cada evento cual es

el individuo oclusor y cual es el individuo ocluido. Esta informacion es utilizada para

actualizar correctamente los atributos de las personas durante las oclusiones.

Mediante el analisis del grafo de seguimiento, el algoritmo propuesto detecta falsos

positivos y falsos negativos en las mediciones de deteccion, y tambien estima la ubicacion

de personas no detectadas u ocluidas.


1.5.5. Prueba y evaluacion

El esquema de deteccion y el algoritmo de seguimiento propuestos fueron valida-

dos en secuencias de referencia enfocadas a la vigilancia inteligente. Las secuencias de

prueba fueron seleccionadas de los repositorios CAVIAR 2005 [CAV05], PETS 2009

[PET09] y UCO 2011 [UCO11], las cuales presentan situaciones complejas de interac-

ciones y oclusiones entre las personas. Las secuencias de prueba permitieron evaluar el

funcionamiento del algoritmo de seguimiento en ambientes de interiores y exteriores.

La evaluacion del esquema de deteccion y del algoritmo de seguimiento se llevo a

cabo mediante las metricas de evaluacion usadas en los trabajos previos. El esquema

de deteccion propuesto fue evaluado en las secuencias de prueba del repositorio CA-

VIAR, alcanzando una precision del 87%. La evaluacion del algoritmo de seguimiento

se llevo a cabo mediante las metricas de evaluacion usadas en los trabajos previos. El

algoritmo de seguimiento consiguio una precision global del 93% en las secuencias de

los repositorios de evaluacion. En las secuencias de prueba del repositorio CAVIAR,

el algoritmo de seguimiento propuesto obtuvo una precision del 88.9%, superando los

resultados obtenidos por los algoritmos del trabajo previo de [ZLN08] y [SJSRC10].

1.6. Contribuciones

En este trabajo de investigacion se propone una solucion al problema de seguimiento

de multiples personas en situaciones complejas con presencia de oclusion en escenarios

reales. Las contribuciones derivadas de esta tesis son:

1. Un esquema de deteccion de multiples personas que pueden presentar oclusion

parcial (apartado 4.1).

2. Un modelo de la interaccion de las personas que predice oclusiones parciales y

totales y establece el orden de las personas implicadas en la oclusion (apartado

4.3.4).

1.7. ORGANIZACION DEL DOCUMENTO 9

3. Un algoritmo para efectuar la correspondencia temporal entre trayectorias exis-

tentes y personas ocluidas o no detectadas (apartado 4.3.3).

4. Un algoritmo de seguimiento que permite identificar a las personas que participan

en la escena y estimar su ubicacion en cada instante de tiempo, aun cuando se

encuentren ocluidas (apartado 4.3.3).

Este trabajo aporta conocimiento al area de vision por computadora en el tema

de seguimiento de multiples personas, pues los algoritmos aquı propuestos permiten

determinar en todo momento que individuos estan visibles u ocluidos en la escena y en

donde se encuentran.

1.7. Organizacion del documento

La tesis esta organizada de la siguiente manera. En el capıtulo 2 se describe el marco

teorico. En el capıtulo 3 se realiza un analisis de los trabajos previos que han sido desa-

rrollados para el seguimiento de personas, enfatizando las ventajas o limitaciones que

presentan para ser aplicados en situaciones reales. En el capıtulo 4 se explican el mode-

lo propuesto para la representacion de las personas y el algoritmo de correspondencia

temporal que permiten mantener el seguimiento de personas ocluidas. En el capıtulo

5 se presentan los conjuntos de prueba que fueron usados en la validacion del siste-

ma de seguimiento propuesto. De igual forma se muestran los experimentos, resultados

alcanzados y la comparacion con trabajos previos. En el capıtulo 6 se presentan las

conclusiones, el trabajo futuro propuesto y los artıculos derivados de este trabajo de

investigacion. Por ultimo, se enlistan las referencias utilizadas en esta tesis.

Capıtulo 2

Marco Teorico

En este capıtulo se explican los fundamentos de los algoritmos utilizados en este

trabajo de investigacion, los cuales permitieron el desarrollo del esquema de deteccion

de multiples personas y del metodo de asociacion por similitud propuestos.

2.1. Modelado adaptativo del fondo

En esta tesis la busqueda de las personas en la escena se reduce a las regiones de la

imagen que indican movimiento. Estas regiones se obtienen mediante la comparacion

del modelo del fondo de la escena con cada fotograma de la secuencia.

El fondo de la escena es modelado empleando multiples capas mediante el metodo

propuesto por [YO07]. La aplicacion de este es apropiada en escenarios estacionarios

porque permite la adaptacion del modelo de apariencia del fondo ante cambios locales

en la iluminacion del ambiente, y movimiento de los objetos del primer plano. Ademas,

el metodo se adapta a la aparicion y desaparicion de objetos estacionarios de larga

duracion y a las variaciones en la apariencia de estos originadas por movimiento. Este

metodo permite remover los objetos fantasmas producidos por el cambio de fondo de la

escena. Sin embargo, no es robusto ante camuflaje y reflexion de la luz. La aplicacion

del metodo busca un balance entre la velocidad a la cual el modelo se adapta a los

cambios en el fondo y la estabilidad del mismo, por lo que se evita olvidar el fondo que

11

12 CAPITULO 2. MARCO TEORICO

esta temporalmente ocluido. Por esta razon se eligio este metodo para modelar el fondo

de la escena.

2.1.1. Descripcion de las caracterısticas del modelo

El metodo propuesto por [YO07] analiza las caracterısticas de color y textura de las

imagenes de una secuencia para construir y mantener una representacion estadıstica de

la escena en cada instante de tiempo.

El metodo utiliza el operador LBP (Local Binary Pattern) como una medida in-

variante de textura para imagenes en escala de grises. El operador LBP consiste en

el etiquetado de un pıxel x en una imagen I mediante una funcion de umbralizacion

entre la diferencia del valor de intensidad del pıxel y el valor de cada pıxel vecino. Este

operador se representa como:

LBPP,R(x) = {LBP(p)P,R(x)}p=1,...,P

LBP(p)P,R(x) = s(Ig(vp)− Ig(x)− n)

s(x) =

1 x ≥ 0

0 x < 0

(2.1)

donde Ig denota el valor de intensidad en la escala de grises en la imagen I y {vp}p=1,...,P

es el conjunto de P pıxeles igualmente espaciados localizados dentro de un cırculo con

radio R y centro x. El parametro n es un parametro de ruido que hace que el operador

LBP sea mas estable en las areas uniformes, pues describe la mınima cantidad de

variacion del valor de intensidad que es considerada como significativa.

El operador LBP es robusto a cambios en el valor de intensidad de los pıxeles

ocasionados por un cambio global o local en la iluminacion. El uso de este operador en

el modelado del fondo permite afrontar el problema de las sombras de los objetos en el

escenario. Sin embargo, el operador LBP no permite diferenciar entre los objetos del

primer plano y el fondo de la escena cuando estos comparten la misma informacion de

textura. Para contrarrestar esta limitante, el metodo utiliza las caracterısticas de color

2.1. MODELADO ADAPTATIVO DEL FONDO 13

(IR, IG, IB) que representan el valor de intensidad de los pıxeles de la imagen I en el

espacio de color RGB.

El modelo del fondo de la escena es representado por K capas independientes, donde

cada capa representa la moda mk aprendida para modelar la apariencia que puede

adoptar cada pıxel a partir de los datos observados hasta el fotograma actual. La moda

mk consiste de 7 componentes

mk = {Ik, Ik, Ik, LPBk, wk, wk, Lk} (2.2)

donde Ik = (IRk , IGk , I

Bk ) es el vector promedio en RGB de la moda. Ik e Ik son los vectores

maximo y mınimo, en RGB, que el pıxel asociado con la moda puede adquirir. LPBk

es el promedio del operador LBP aprendido a partir de todos los descriptores LBP

asignados a la misma moda. wk ∈ [0, 1] es un factor de peso que indica la probabilidad

de que la moda pertenezca al fondo. wk representa el valor maximo adquirido por el

peso en el pasado. Lk es el numero de capa a la que pertenece la moda. Cuando este

numero es cero, significa que la moda no es confiable para el modelado del fondo.

2.1.2. Algoritmo de modelado del fondo con multiples capas

El modelado del fondo mediante multiples capas facilita la deteccion de los objetos

que contrastan con todos los fondos aprendidos a partir de las observaciones del pasado;

y permite que el fondo se adapte a cambios en la escena producidos por la insercion y

eliminacion de objetos estacionarios.

A continuacion se describen los pasos del algoritmo propuesto por [YO07] para

modelar el fondo de la escena.

Paso 1 Busqueda de la moda mas cercana

Dadas las caracterısticas LBP t y RGBt obtenidas en la imagen I t en el instante

de tiempo actual t, se calcula la distancia entre estas caracterısticas y los datos

de cada moda mt−1k del modelo del fondo.


Paso 2 Actualizacion de modas

Si la distancia de la moda mas cercana k es mayor que un umbral establecido, se

crea una nueva moda con parametros

mk = {I t, I t, I t, LBP t, winit, winit, 0} (2.3)

donde winit denota un valor muy pequeno para el peso inicial de la moda. Esta

nueva moda se agrega a la lista de modas si Kt−1 < K, o remplaza la moda

existente con el peso mas pequeno si Kt−1 = K.

De lo contrario, si la moda mas cercana k esta lo suficientemente cerca de los

datos observados, la moda mk se actualiza de la siguiente manera:

mk

I tk

= (1− α)I t−1

k+ αI t

LBP tk

= (1− α)LBP t−1

k+ αLBP t

k

I tk

= max(I t, (1− β)I t−1

k)

I tk

= mın(I t, (1 + β)I t−1

k)

wtk

= (1− γiw)w

t−1

k+ γi

w

wtk

= max(wt−1

k, wt

k)

L = 1 +max{Lt−1k }k=1,...,Kt−1,k =k,

si Lt−1

k= 0 y wt

k> Tbw

(2.4)

El resto de modas conserva sus atributos intactos, excepto el atributo de peso que

decrece de acuerdo con wtk = (1− γd

w)wt−1k .

En las expresiones anteriores, el parametro α ∈ (0, 1) es una tasa de aprendizaje

que controla la actualizacion de la informacion de color y textura. El parametro

β ∈ [0, 1) es una tasa de aprendizaje que evita que los valores maximos o mıni-

mos de los valores de intensidad continuen incrementandose o decrementandose

durante el tiempo. El parametro γiw ∈ (0, 1) es el factor creciente de peso que con-

2.1. MODELADO ADAPTATIVO DEL FONDO 15

trola la actualizacion del atributo de peso. El parametro γdw ∈ (0, 1) es el factor

decreciente de peso que controla la actualizacion del atributo de peso. El umbral

Tbw es utilizado para verificar si la moda actualizada es confiable para el modelado

del fondo.

La figura 2.1 ilustra el resultado de la deteccion de regiones en movimiento obtenido

para una imagen de prueba a partir del metodo de modelado de fondo adaptativo

propuesto por [YO07].

Figura 2.1: Resultado de la deteccion de regiones en movimiento a partir del metodode modelado de fondo adaptativo propuesto por [YO07].La figura 2.1(a) presenta una imagen con personas en movimiento en el instante detiempo actual de una secuencia. La figura 2.1(b) muestra el modelo del fondo de laescena aprendido a partir de las observaciones del pasado. La figura 2.1(c) presenta elmapa de distancia entre la apariencia de la imagen actual y el modelo del fondo. Lafigura 2.1(d) muestra la deteccion de las regiones en movimiento de la imagen obtenidaspor el metodo de umbralizacion a partir del mapa de distancia. Note que la sombra delas personas en la escena no forma parte de las regiones en movimiento detectadas.


2.2. Deteccion de objetos mediante bases activas

En esta tesis las personas son detectadas a partir del modelo deformable de su silueta

representado por una base activa. Este modelo es tolerante a oclusiones parciales y

cambios en la silueta percibida de las personas. Esta representacion es adoptada en el

esquema de deteccion de personas propuesto (ver apartado 4.1) porque es tolerante a los

cambios de forma de la silueta de las personas. Ademas, no requiere de la fragmentacion

de las partes del cuerpo humano para hacer frente a las oclusiones parciales.

2.2.1. Representacion de bases activas

Una base activa1 consiste en un numero pequeno de elementos de wavelets de Gabor

en ubicaciones y orientaciones seleccionadas [WSGZ10]. Estos elementos tienen permi-

tido cambiar ligeramente sus ubicaciones y orientaciones antes de que sean linealmente

combinados para generar un modelo observado. La figura 2.2 ilustra la idea basica de

la representacion con bases activas. La mitad inferior muestra una base activa, donde

cada elemento es ilustrado por una elipse estrecha en una posicion y orientacion deter-

minada. La mitad superior de la figura ilustra la deformacion de un elemento de la base

activa.

Formalmente, el filtro de Gabor esta definido como:

G(x, y) = e−( xσx

)2+(yσy

)2

2 eix, donde σx < σy(2.5)

G(x, y) puede ser trasladado, rotado y dilatado para obtener un elemento de wavelets

de Gabor expresado como:

Bx,y,s,α(x′, y′) = G

xs, ys

s2

x = (x′ − x) cosα + (y′ − y) sinα

y = (x′ − x) sinα+ (y′ − y) cosα

(2.6)

1active basis, en ingles.

2.2. DETECCION DE OBJETOS MEDIANTE BASES ACTIVAS 17

Figura 2.2: Representacion con bases activas [WSGZ10].Cada elemento de la base activa se ilustra por una elipse estrecha con cierta ubicaciony orientacion. La parte superior de la figura muestra las deformaciones de un elementode la base activa. Este elemento (elipse en color negro) puede cambiar a otro elementode la base activa (elipse en color azul) si es trasladado o rotado dentro de un rangolimitado.

donde (x, y) es la posicion central del filtro, s es el parametro de escala y α es el

parametro de orientacion.

Una imagen puede ser expresada mediante una base activa de la siguiente forma:

Im =n∑

i=1

cm,iBm,i + ϵm (2.7)

donde n es el numero de elementos que conforman la base activa, Bm,i son filtros de

Gabor, {cm,i, i = 1, . . . , n} son coeficientes y ϵm es el residuo de la imagen Im.

A partir de esta representacion, se plantea seleccionar un conjunto de filtros Bi

que represente un conjunto de {Bm,i} deformados para constituir el modelo del objeto,

mientras se considera que el fondo de la imagen queda representado en el residuo ϵm.


2.2.2. Algoritmo de bosquejo compartido

Dado un conjunto de imagenes de entrenamiento {Im,m = 1, . . . ,M}, el algoritmo

de bosquejo compartido2 [WSGZ10] secuencialmente selecciona Bi y la deforma Bm,i ≈

Bi para ajustarla en cada imagen Im. La idea esencial es seleccionar Bi de manera que

sus versiones deformadas {Bm,i,m = 1, ...,M} delineen tantos segmentos de borde como

sea posible en las imagenes de entrenamiento {Im}. Para este proposito, se supone que

se conoce la distribucion q(Im) del fondo de las imagenes y que los filtros seleccionados

no se traslapan entre sı. Para elegir los elementos Bi de la base activa B, se maximiza

la distancia entre las distribuciones q(Im) y p(Im|B). La figura 2.3 ejemplifica esta

descripcion.

A continuacion se describen los pasos del algoritmo de bosquejo compartido pro-

puesto por [WSGZ10].

Paso 1 Convolucion

Se obtienen las respuestas de los filtros de Gabor en las diferentes orientaciones

α en todas las imagenes de entrenamiento.

Paso 2 Maximizacion local

Se busca la mayor respuesta de los filtros en cada pıxel de la imagen con respecto

a la vecindad de dicho pıxel para obtener Bi ≈ Bm,i. De este modo, se le permite

al modelo un cierto grado de deformacion.

Paso 3 Seleccion

Se selecciona el elemento Bi cuya suma de las respuestas a los filtros en todas las

imagenes sea mayor. Este paso elige el elemento de la base activa que representa

un borde destacado del objeto.

Paso 4 Supresion

Se eliminan las respuestas de los filtros en todas las imagenes cuya correlacion

2shared sketch, en ingles.


Figura 2.3: Algoritmo de bosquejo compartido [WSGZ10].Un elemento seleccionado (elipse de color) es compartido por todas las imagenes deentrenamiento que contienen al objeto a modelar (imagenes con ciervos). Para cadaimagen, una version deformada del elemento busca bosquejar un segmento de borde delobjeto cercano al elemento seleccionado. Los elementos de la base activa se seleccionanen orden de acuerdo con la divergencia de Kullback-Leibler entre las distribuciones pide las respuestas de los filtros de Gabor aplicados en las imagenes de entrenamiento(curvas continuas en color) y la distribucion q de las respuestas de estos filtros en lasimagenes que modelan el fondo de la escena (curva discontinua en negro). El orden deseleccion favorece al elemento cuya distribucion pi se aleja mas de la distribucion dereferencia q. Este orden determina que elementos se ajustan en mayor cantidad a lossegmentos de borde de las imagenes de entrenamiento.

con el elemento seleccionado Bi sea mayor que cero. Esto se realiza para asegurar

la independencia entre las distribuciones de las respuestas de los filtros.

Paso 5 Repetir el algoritmo desde el paso 2 hasta que los n elementos que conforman

la plantilla B hayan sido seleccionados.


2.2.3. Arquitectura de inferencia de mapas SUM-MAX

Dada una imagen de prueba I, el modelo del objeto B representado por los elementos

Bi ≈ Bxi,yi,si,αipuede ser usado para detectar el objeto en la imagen y hacer un bosquejo

del objeto encontrado. Para realizar el ajuste del modelo en la imagen se requiere

encontrar la posicion de los elementos Bi. Esto se logra encontrando los parametros

espaciales en el pıxel de la imagen en donde se maximice la verosimilitud de P (I|B).

La ecuacion 2.8 representa la medida de ajuste.

MATCH(I, B) =n∑

i=1

λi⟨I, Bi⟩ − logZ(λi) (2.8)

donde ⟨I, Bi⟩ es la respuesta al filtro Bi en la imagen I, λi puede ser calculada a partir

de∑n

m=1⟨Im, Bm,i⟩ en el paso de seleccion del algoritmo de bosquejo compartido y Z es

una funcion no lineal.

La figura 2.4 muestra graficamente el algoritmo de inferencia de mapas SUM-MAX

que encuentra el modelo del objeto B en la imagen de prueba I. El algoritmo construye

tres mapas: SUM1, MAX1 y SUM2. El mapa SUM1 contiene las respuestas de los filtros

de Gabor, el mapa MAX1 contiene los maximos locales de las respuestas en cada pıxel

y el mapa SUM2 representa el ajuste del modelo en la imagen obtenido por la ecuacion

2.8.

A continuacion se describen los pasos del algoritmo de mapas SUM-MAX propuesto

por [WSGZ10].

Paso 1 Obtencion del mapa SUM1 (Convolucion)

Se obtienen las respuestas de los filtros de Gabor en las diferentes orientaciones

α en la imagen de prueba.

Paso 2 Obtencion del mapa MAX1 (Maximizacion local)

Se busca la mayor respuesta de los filtros en cada pıxel de la imagen con respecto

a la vecindad de dicho pıxel para obtener Bi ≈ Bm,i.


Figura 2.4: Algoritmo de mapas SUM-MAX [WSGZ10].Los mapas SUM1 se obtienen mediante la convolucion de la imagen de entrada con losfiltros de Gabor en todas las ubicaciones y orientaciones. Las elipses en los mapas SUM1ilustran la operacion de suma o filtrado local. Los mapas MAX1 se obtienen mediantela aplicacion de un operador de maximizacion local a los mapas SUM1. Las flechas enlos mapas MAX1 ilustran las deformaciones sobre las cuales se obtiene la maximizacionlocal. Los mapas SUM2 se calculan mediante la aplicacion de un operador de suma locala los mapas MAX1, donde la suma se realiza sobre los elementos de la base activa. Estaoperacion calcula el logaritmo de la verosimilitud del modelo deformable y se puedeinterpretar como un filtro de forma.


Paso 3 Obtencion del mapa SUM2 (Filtro de forma)

Se obtiene el valor del logaritmo de la verosimilitud de la plantilla en cada posicion

del mapa MAX1 para representar que tan bien se ajusta el modelo en la imagen.

A partir de este mapa, se puede obtener el mejor ajuste del modelo al encontrar

la posicion con mayor valor en el mapa.

El algoritmo del modelado adaptativo del fondo, el algoritmo de bosquejo compar-

tido y la arquitectura de inferencia de mapas SUM-MAX permitieron el desarrollo del

esquema de deteccion de multiples personas propuesto en esta tesis (apartado 4.1).

2.3. Problema de asociacion

Una de las mayores dificultades del seguimiento de multiples objetos radica en el

problema de la asociacion entre las mediciones de deteccion con las trayectorias de

los objetos rastreados. El problema es complejo porque comunmente el numero de

mediciones no corresponde con el numero de objetos rastreados. Ademas, el numero de

objetos es difıcil de estimar ya que estos pueden entrar y salir del campo de vision de

la escena, estar temporalmente ocluidos, o ser un falso negativo o un falso positivo en

las mediciones de deteccion.

La asociacion de datos busca elegir la medicion mas probable para el objeto ras-

treado. Si se selecciona la medicion incorrecta, la estimacion de su estado puede ser

danada. Los algoritmos de asociacion de datos mas comunes para el seguimiento de

multiples personas son: Nearest Neighbor (NN), Global Nearest Neighbor (GNN), Joint

Probability Data Association (JPDA) y Multiple Hypothesis Tracking (MHT) [YJS06,

HTWM04, Bla04]. Las caracterısticas de estos algoritmos se describen en el apartado

3.5.1 de la tesis. Estos metodos difieren en complejidad ası como en su habilidad para

manejar incertidumbre y ambiguedades en las asociaciones. Los algoritmos incrementan

su complejidad en este orden NN(polinomial), GNN (polinomial), JPDA (NP-hard) y

MHT (NP-hard).

2.3. PROBLEMA DE ASOCIACION 23

En esta tesis la asociacion de datos se formula mediante un algoritmo GNN como un

problema de optimizacion en el que una funcion objetivo tiene que ser minimizada (ver

apartado 2.3.1). El metodo Hungaro plantea una solucion a este problema en tiempo

polinomial de grado cubico (ver apartado 2.3.2).

2.3.1. Formulacion del problema

El problema de asociacion consiste en crear parejas entre los elementos de un con-

junto A y un conjunto B con igual numero de elementos, minimizando el costo total de

la asignacion3.

El problema de asociacion puede representarse mediante un grafo bipartito. Los

vertices del grafo pueden ser particionados en dos conjuntos disjuntos A y B. Las

aristas del grafo solo pueden conectar vertices del conjunto A con vertices del conjunto

B. Las aristas tienen un peso asociado cij que representa el costo de que al elemento

i ∈ A se le asigne el elemento j ∈ B. La figura 2.5 describe graficamente este problema.

Figura 2.5: Representacion del problema de asociacion mediante un grafo bipartito.

3En esta tesis, A representa a las personas que estan siendo rastreadas y B a las mediciones dedeteccion. Si los conjuntos A y B tienen tamano distinto, se agregan elementos al conjunto con menortamano y se asigna un mayor costo a la asociacion de estos elementos.


El problema puede formularse en forma de una matriz de costos cij como se presenta

en la figura 2.6:

conjunto B

conjunto

A

1 2 · · · j · · · n1 c11 c12 · · · c1j · · · c1n2 c21 c22 · · · c2j · · · c2n...

...i ci1 ci2 · · · cij · · · cin...

...n cn1 cn2 · · · cnj · · · cnn

Figura 2.6: Formulacion del problema de asociacion mediante una matriz de costos.

Vamos a denotar la asignacion del elemento i ∈ A con el elemento j ∈ B como xij,

tal que:

xij =

1 si elemento i ∈ A puede asociarse con el elemento j ∈ B

0 en caso contrario

(2.9)

Vamos a expresar el problema de asignacion como un problema de programacion

lineal mediante la funcion objetivo:

Minimizar z =n∑

i=1

n∑j=1

cijxij (2.10)

sujeto a las restricciones:

∑nj=1 xij = 1 ∀i ∈ {1, 2, . . . n} (1)∑ni=1 xij = 1 ∀j ∈ {1, 2, . . . n} (2)

xij ∈ {0, 1} ∀i, j ∈ {1, 2, . . . n} (3)

(2.11)

Las restricciones 1 y 3 significan que a cada elemento del conjunto A se le asigna

un elemento del conjunto B diferente. Esto significa, en la matriz de costos, que a cada

2.3. PROBLEMA DE ASOCIACION 25

fila se le asigna un costo de diferente columna.

Las restricciones 2 y 3 significan que cada elemento del conjunto B debe ser asignado

a diferentes elementos del conjunto A. Esto significa, en la matriz de costos, que a cada

columna se le asigna un peso de diferente fila.

2.3.2. Algoritmo Hungaro

El algoritmo Hungaro, publicado por Kuhn en 1955 [Kuh05] y mejorado por Mun-

kres en 1957 [Mun57], propone un algoritmo de asociacion de peso maximo para grafos

ponderados, bipartitos y completos. El algoritmo plantea una solucion optima al pro-

blema de asignacion en tiempo polinomial (O(n3)).

A continuacion se describen los pasos de este algoritmo.

Paso 1 Obtencion de ceros

Encontrar el costo mınimo en cada fila de la matriz de costos y restarlo a todos

los elementos del mismo renglon. Luego, encontrar el elemento mas pequeno en

cada columna y restarlo a todos los elementos de la misma columna. La matriz

obtenida sera conocida como matriz de costos reducida.

Paso 2 Busqueda de una solucion optima

Trazar el numero mınimo de lıneas horizontales y/o verticales que se requieren

para cubrir todos los ceros de la matriz de costos reducida. Si el numero de lıneas

es igual a la dimension de la matriz, entonces el algoritmo encontro una solucion

optima al problema. En este caso, terminar el algoritmo. De lo contrario, continuar

con el paso 3.

Paso 3 Obtencion y desplazamiento de ceros

Encontrar el elemento con menor valor en la matriz de costos reducida que no

este cubierto por las lıneas trazadas en el paso previo. Restar este costo en cada

elemento no cubierto de la matriz y sumar este costo en los elementos de la matriz

en donde se intersecten dos lıneas. Regresar al paso 2.


El algoritmo Hungaro es utilizado por el metodo de asociacion por similitud propues-

to en la tesis para vincular las trayectorias de las personas que estan siendo rastreadas

con las mediciones de las personas detectadas (apartado 4.3.5).

2.4. Resumen

En este capıtulo se describieron los fundamentos teoricos utilizados en esta tesis.

En la seccion 2.1 se presento un metodo para modelar el fondo de la escena, el cual

esta basado en caracterısticas de color y textura. Este metodo permite la adaptacion

del modelo de fondo a cambios en iluminacion, movimiento de objetos, e insercion y

eliminacion de objetos estacionarios de larga duracion. En la seccion 2.2 se presentaron

algoritmos para construir el modelo de la silueta de la persona basado en la representa-

cion de bases activas y para encontrar este modelo en una imagen. Estos algoritmos son

utilizados por el esquema de deteccion de multiples personas propuesto en el apartado

4.1 de esta tesis. En la seccion 2.3 se formulo el problema de asociacion como un proble-

ma de optimizacion. En el apartado 4.3.5 de esta tesis se propone un metodo GNN de

asociacion por similitud para vincular las trayectorias de las personas que estan siendo

rastreadas con las mediciones de las personas detectadas.

El capıtulo 3 de la tesis presenta el trabajo previo desarrollado en la literatura.

Especıficamente, describe distintos enfoques de seguimiento y sus ventajas y desventajas

al ser aplicados en el seguimiento de multiples personas. Como nuestra investigacion se

centro en abordar el problema de oclusion, los enfoques expuestos hacen referencia a

como el trabajo previo ha abordado este problema a partir de distintos enfoques.

Capıtulo 3

Revision del trabajo previo

En este trabajo de investigacion se estudia el problema de oclusion en el seguimiento

de multiples personas utilizando una camara estacionaria. En el presente capıtulo se

exponen los principales trabajos previos que proponen estrategias para tratar el proble-

ma de la oclusion en el seguimiento de multiples objetos. Los metodos propuestos han

seguido diversos enfoques. Las ventajas y las desventajas de estos enfoques ası como

las diferencias con nuestro trabajo se describen a lo largo del capıtulo.

3.1. Introduccion al problema de seguimiento de

personas con oclusion

El proceso de seguimiento se compone de dos etapas:

1. La etapa de deteccion y representacion, en la cual se distinguen a las personas del

fondo en las imagenes de la secuencia y se obtienen las caracterısticas y propie-

dades que las describen; y

2. La etapa de asociacion temporal, la cual se apoya en la representacion de las

personas detectadas para relacionar de manera coherente las personas presentes

en el fotograma actual con las existentes en fotogramas previos.

27

28 CAPITULO 3. REVISION DEL TRABAJO PREVIO

Cuando las personas se encuentran espacialmente separadas en la escena y son

facilmente distinguibles unas de otras, el proceso de seguimiento puede resolverse facil-

mente mediante la ejecucion de multiples rastreadores independientes [WPZZ10], tales

como: bounding-box tracker [SHT+06], hybrid appearance-guided particle filter [ZTJ07],

y CamShift guided particle filter [WYXY09]. Sin embargo, en escenarios con aplica-

ciones reales, el proceso de seguimiento se dificulta al afrontar problemas producidos

tanto por la complejidad del movimiento de las personas y las condiciones variables del

ambiente, como por las interacciones y oclusiones frecuentes entre los individuos.

La oclusion, incluso manifestada parcialmente, es el problema que mas perjudica

al proceso de seguimiento de multiples personas. La oclusion puede inducir a errores

como la fragmentacion de la trayectoria de los objetos rastreados y el intercambio

de sus identidades. En este contexto, es deseable que los algoritmos de seguimiento

mantengan la identidad de las personas y una aproximacion razonable de su ubicacion

durante los eventos de oclusion. De este modo se podra determinar que el individuo

no esta temporalmente perdido y se podra continuar su seguimiento cuando el evento

termine.

3.2. Seguimiento con multiples camaras

Un enfoque comunmente adoptado por los trabajos de la literatura para afrontar el

problema de oclusion consiste en colocar multiples camaras en distintos angulos. En una

configuracion de multiples vistas, la ubicacion de los objetos ocluidos en una vista se

determina con base en la informacion disponible en las otras vistas. Por ejemplo, Khan

y Shan [KS09] proponen la creacion de una rejilla de ocupacion utilizando transforma-

ciones homograficas para localizar a las personas en el plano del suelo. El seguimiento

se lleva a cabo mediante la minimizacion de una funcion de energıa que combina la

informacion de la rejilla de ocupacion e informacion espacio-temporal de la cercanıa

de los objetos. Munoz Salinas et al. [MSMCMCCP09] presentan una extension de los

filtros de partıculas para la teorıa de evidencia Dempster-Shafer. Con la finalidad de

3.3. SEGUIMIENTO CON UNA CAMARA 29

detectar oclusiones entre los objetos, el trabajo propone calcular un mapa de ocupacion

para cada camara empleando un esquema de ordenamiento por profundidad. La evi-

dencia de las personas visibles reunida por todas las camaras es fusionada para obtener

la mejor estimacion de la ubicacion de los objetos. Kaucic et al. [KPB+05] proponen

un metodo para unir fragmentos de trayectorias entre brechas de sensores mediante

el agrupamiento espacial de pares cercanos de fragmentos con atributos similares de

apariencia y movimiento.

Aunque una configuracion de multiples vistas reduce el grado de oclusion, no resuelve

este problema en escenarios donde existe una gran cantidad de oclusiones causadas por

la interaccion de multiples personas. El trabajo de [RNCS09] aprueba esta afirmacion

y propone un metodo para la colocacion estrategica de las camaras que minimiza las

oclusiones presentadas en los sistemas de seguimiento de objetos.

3.3. Seguimiento con una camara

En esta tesis, el problema de oclusion de multiples personas es afrontado con una

sola camara. En esta configuracion, dos distintos enfoques de seguimiento, el colectivo

y el individual, han sido aplicados.

3.3.1. Seguimiento colectivo

El seguimiento colectivo consiste en agrupar objetos cuando inicia un evento de

oclusion parcial, seguirlos en conjunto mientras el evento persiste y separarlos cuando

este finaliza. Para lograr este objetivo se debe conocer cuantos y cuales objetos parti-

cipan en el evento. El problema se presenta cuando la oclusion concluye, pues se debe

identificar el subconjunto que abandona al grupo. Si el problema se resuelve y se res-

tablecen correctamente las entidades involucradas al finalizar la oclusion, entonces es

posible la estimacion de la trayectoria de los objetos rastreados a lo largo de la duracion

del evento.


Existen diferentes atributos como color, textura, forma y velocidad, que han si-

do utilizados para restablecer la identidad de los individuos que abandonan el grupo

[GVPG03]. La ubicacion de los objetos en el grupo puede obtenerse de manera indirecta

mediante la interpolacion de las posiciones de los objetos detectados antes y despues de

la oclusion, como propone [FV06]. Sin embargo, este modo de ubicacion solo funciona

correctamente cuando los atributos de los objetos son distintos.

Existen situaciones en donde la interaccion de las personas dificulta la distincion

de la identidades de los objetos durante los eventos de oclusion. Estos casos requieren

de estrategias de solucion analıticas que determinen el inicio y el fin de una oclusion,

restrinjan el etiquetado de las personas en el grupo con oclusion, y permitan la deduccion

de su ubicacion.

Por ejemplo, el trabajo de [SNC09] propone un algoritmo de seguimiento colectivo

para rastrear individuos con apariencias indistintas en aplicaciones de futbol soccer. El

algoritmo requiere de un grafo de seguimiento que describa las interacciones (mezclas y

separaciones) entre las personas durante la secuencia. El algoritmo analiza el grafo de

seguimiento y la medicion de la similitud del modelo de color y patrones de pose de los

objetos. Luego infiere la configuracion mas probable de las trayectorias seguidas por los

individuos utilizando una red de inferencia bayesiana.

De manera similar, el metodo de [AA06] construye un grafo de seguimiento para

el rastreo de objetos rıgidos con apariencia distinta. El grafo modela informacion de

la visibilidad de los objetos y de sus agrupaciones. El analisis del grafo de seguimiento

proporciona, ademas de la estimacion de las trayectorias de los objetos, un razonamiento

del ordenamiento de los objetos que se estan ocluyendo.

En esta tesis se propone un algoritmo de asociacion temporal que, mediante la

construccion de un grafo de seguimiento, permite llevar a cabo el rastreo de personas

ante falsos positivos y falsos negativos en las mediciones de deteccion, y en presencia de

oclusiones parciales y totales. El grafo es construido a partir de mediciones de deteccion

y de reglas de interaccion que modelan los atributos de apariencia, forma y movimiento

de las personas a lo largo de su seguimiento. A diferencia de los trabajos de [SNC09] y

3.3. SEGUIMIENTO CON UNA CAMARA 31

[AA06], nuestro metodo no modela las mezclas y las separaciones entre los objetos para

seguir colectivamente a las personas durante las oclusiones, sino que realiza el rastreo de

personas individualmente modelando en el grafo los atributos de estas y su asociacion

por similitud.

3.3.2. Seguimiento individual

El seguimiento individual efectua el rastreo de cada individuo que participa en la

oclusion de manera independiente. Este enfoque no permite la formacion de entidades

grupales. Sin embargo, el enfoque requiere distinguir a los objetos involucrados en la

oclusion tan pronto como esta sea detectada y durante el tiempo que esta persista.

El trabajo previo incluye metodos de clasificacion para distinguir a los objetos invo-

lucrados en el evento de oclusion. Comunmente, la clasificacion de los pıxeles se efectua

mediante la evaluacion de una funcion de similitud entre el modelo a priori de la apa-

riencia de cada persona y la apariencia de los pıxeles que se disputan durante la oclusion

[KS00, ED01, SHT+02, HHT04, HZHM09, ZZS08].

Una caracterıstica particularmente util que puede ser utilizada en este enfoque es la

profundidad relativa entre los objetos ocluidos. En configuraciones de una sola camara,

la profundidad ha sido obtenida evaluando diferentes hipotesis con respecto al orde-

namiento espacial de las personas [ED01]. Tambien, se ha determinado el orden de

los objetos durante la oclusion mediante la valoracion de la proporcion de pıxeles en

disputa que son asignados a cada objeto, de modo que los objetos que reciben en me-

nor proporcion los pıxeles en disputa tienen mayor profundidad [SHT+02]. Incluso se

han combinado las caracterısticas de similitud de apariencia y forma de la silueta de

las personas que se ocluyen para inferir la ubicacion de las personas mediante la mejor

combinacion de siluetas [YCHC10]. En esta tesis se propone una estrategia para ordenar

los objetos involucrados en eventos de oclusion, la cual esta apoyada en las relaciones de

la interaccion de las personas y en sus modelos de apariencia, forma y movimiento. Esta

estrategia facilita la distincion de las identidades de las personas mientras el evento de


oclusion perdure.

A diferencia de los trabajos de [ED01], [SHT+02] y [YCHC10], la estrategia propues-

ta en esta tesis para ordenar a los objetos participantes en una oclusion considera la

alineacion global de sus modelos de forma, su visibilidad en la imagen y su ordenamiento

previo.

En este trabajo de investigacion, el seguimiento de multiples personas se realiza

de manera individual utilizando una sola camara. En esta configuracion, el problema

de oclusion se ha abordado desde dos perspectivas distintas: 1) mejorando la etapa

de deteccion y representacion y 2) fortaleciendo la etapa de asociacion temporal. Las

secciones 3.4 y 3.5 presentan los metodos propuestos en el trabajo previo en cada etapa

del proceso de seguimiento.

3.4. Enfoques de deteccion y representacion

La deteccion de personas se ha realizado de 3 maneras: 1) encontrando un conjunto

de atributos que describen de manera explıcita a las personas que estan siendo busca-

das en la imagen, por ejemplo: color [ED01], textura [ZZS08] o puntos caracterısticos

[ARS08]; 2) empleando modelos morfologicos del cuerpo humano o de sus partes que

puedan ajustarse a los contornos extraıdos en la imagen [LD10]; y 3) caracterizando

algoritmos de aprendizaje automatico para que reconozcan de manera implıcita patro-

nes sobresalientes de las personas mediante el entrenamiento con ejemplos positivos y

negativos [WN07, WN09].

La representacion de las personas se ha efectuado utilizando caracterısticas locales

o distintos tipos de atributos, como geometricos, temporales y de apariencia.

Algunos trabajos han utilizado caracterısticas locales como: SIFT-Scale Invariant

Feature Transform [ZYS09] y Haar [BELR10] en la representacion de los objetos. Sin

embargo, esta representacion solo es efectiva cuando los objetos tienen suficientes carac-

terısticas locales sobresalientes, puesto que los cambios de pose y las oclusiones de los

objetos pueden resultar en la ausencia de una proporcion significativa de caracterısticas

3.4. ENFOQUES DE DETECCION Y REPRESENTACION 33

locales irremplazables. En nuestro caso de estudio, correspondiente al seguimiento de

multiples personas en escenarios no controlados, no se recomienda el uso de este tipo

de atributos en la representacion de los objetos, ya que es difıcil extraer suficientes

caracterısticas locales para compensar el efecto negativo provocado por la oclusion y la

falta de rigidez de los objetos.

La representacion del individuo mediante atributos geometricos (como la posicion

y el tamano) y temporales (como la velocidad y direccion) se ha usado comunmente

en enfoques de seguimiento basados en movimiento [YJS06]. Esta representacion puede

ser aplicada con exito en situaciones que suponen movimientos suaves en la trayectoria

de las personas y en entornos donde no surgen oclusiones entre individuos con tamano

o direccion de su trayectoria similares. Por otro lado, la representacion de personas

mediante atributos de apariencia permite diferenciar a las personas con base en su

intensidad de color o textura y son robustos a oclusiones parciales [ED01, HHT04,

YJS06, HZHM09, ZZS08]. Sin embargo, esta representacion no permite la distincion de

objetivos con aspecto similar durante un evento de oclusion total.

Con el fin de contrarrestar las limitaciones que tiene cada tipo de representacion,

trabajos previos han utilizado multiples atributos para representar a las personas, por

ejemplo [HHT04, HZHM09, ZZS08, LD10, WN07, WN09]. De igual manera, en esta

tesis las personas son representadas mediante atributos que describen su apariencia,

forma y movimiento.

A continuacion se presenta una descripcion de los trabajos relevantes de la literatura

que enfrentan al problema de oclusion parcial provocada por la interaccion de personas

usando metodos robustos aplicados en la deteccion y/o representacion de las personas.

Elgammal y Davis [ED01] construyen un modelo a priori de la apariencia de las

personas en pose vertical, compuesto por la distribucion de color y la distribucion

espacial de la cabeza, torso y piernas. En el algoritmo propuesto, cuando se agrupan dos

candidatos, cada pıxel en el grupo formado es asignado a uno de sus elementos buscando

un ordenamiento que maximice la verosimilitud de la apariencia del grupo dados los

modelos construidos para los individuos. El resultado es la segmentacion de la silueta de


cada persona en el grupo. Las siluetas segmentadas son utilizadas posteriormente para

determinar la profundidad relativa de cada individuo mediante la evaluacion de distintas

hipotesis acerca del ordenamiento de las personas en el grupo. Estas regiones tambien

permiten la construccion de un modelo de oclusion que es usado para segmentar de

manera probabilista las siluetas de las personas ocluidas en los fotogramas subsecuentes.

Algunas mejoras han sido realizadas a este algoritmo. Por ejemplo, Hu et al. [HHT04]

simplifican el modelo de la persona para reducir su costo computacional, planteandolo

como un problema de localizacion y resolviendo el problema de seguimiento utilizando

una red bayesiana con relaciones de oclusion. Posteriormente, Hu et al. [HZHM09]

formulan matematicamente el modelo de oclusion para multiples personas y proponen

una funcion de verosimilitud para deducir la relacion de oclusion entre las personas.

Ambos metodos se basan en el modelo a priori de la apariencia de la persona y en

suposiciones de pose de pie. La principal limitante en estos trabajos radica en que

suponen que la cabeza de las personas siempre esta visible por ser considerada origen

de la distribucion espacial y que los movimientos de las personas son suaves entre

fotogramas consecutivos. A diferencia de [ED01], [HHT04] y [HZHM09], para detectar la

oclusion entre objetos y determinar el ordenamiento de estos, nuestro trabajo considera

la alineacion global de la prediccion de sus modelos de forma, la visibilidad de estos

objetos en la imagen y su ordenamiento previo.

Senior et al. [SHT+06] utilizan modelos de apariencia y mapas probabilistas para

localizar regiones correspondientes a personas y vehıculos parcialmente superpuestos.

Del mismo modo, Vezzani et al. [VGC11] proponen un enfoque probabilista basado en

apariencia que permite la estimacion de la forma de cada persona durante las oclusiones

mediante la separacion de pıxeles.

Zhu et al. [ZZS08] proponen un algoritmo de clasificacion basado en caracterısticas

locales de color y textura, y caracterısticas espaciales relativas al centro de los objetos

para distinguirlos durante un evento de oclusion. A diferencia de los trabajos mencio-

nados previamente, este algoritmo no requiere del modelo a priori de la persona, una

pose especıfica o movimientos suaves entre fotogramas consecutivos, ni esta restringido

3.4. ENFOQUES DE DETECCION Y REPRESENTACION 35

a una clase de objetos. En cambio, el algoritmo requiere obtener de forma simultanea

ejemplos de entrenamiento de cada objeto antes de presenciar el evento de oclusion para

obtener las caracterısticas que permitan distinguirlos durante la oclusion. Aunque este

algoritmo puede enfrentar el problema de oclusion parcial, no es capaz de distinguir

entre objetivos con apariencia similar.

Los metodos mencionados previamente proponen soluciones al problema de oclu-

sion en escenarios en donde existen interacciones unicamente entre dos individuos, con

aspectos distintos y en situaciones donde no existen cambios abruptos en la direccion

de las trayectorias de las personas ocluidas. Estos metodos son vulnerables a errores de

clasificacion para objetos del mismo color durante las interacciones de los objetos.

Dalal y Triggs [DT05] describen un metodo para la deteccion de personas utilizando

el descriptor HOG (Histogram of Oriented Gradient) y un clasificador lineal basado en

SVM (Support Vector Machine). Este metodo fue disenado para detectar a personas en

posicion vertical. El metodo permite la deteccion de personas en una amplia variedad

de poses y con oclusiones parciales ligeras.

Mendez et al. 2010 [MPMMMM10] proponen un algoritmo para detectar personas

en ambientes de interiores dinamicos mediante la fusion de caracterısticas fısicas y mor-

fologicas provenientes de distintos sensores. El algoritmo utiliza un modelo geometrico

basado en elipses que se ajustan al torso y a la cabeza de la persona. Este algoritmo

esta limitado a la deteccion de un numero reducido de personas que se encuentren a

una distancia establecida.

Wu y Nevatia [WN07, WN09] detectan partes del cuerpo aprendidas con el metodo

de boosting empleando caracterısticas de segmentos de forma. Los detectores de par-

tes son combinados utilizando un metodo de estimacion MAP para detectar multiples

personas ocluidas parcialmente. Las respuestas de las detecciones individuales de las

partes del cuerpo y de la deteccion combinada de estas proporcionan las observaciones

utilizadas para su seguimiento. La tarea de asociacion temporal se efectua calculado la

verosimilitud de la apariencia y el modelo dinamico de cada persona. La limitante de

este trabajo es que, para dar una respuesta global a la deteccion, requiere del ordena-


miento espacial de respuestas locales de deteccion para fragmentos del cuerpo (cabeza,

torso y piernas). Este metodo esta restringido a detectar personas en una pose frontal.

Por el contrario, nuestro esquema de deteccion encuentra la silueta de las personas con

oclusion sin requerir de la fragmentacion de las partes del cuerpo. Ademas, permite la

deteccion de personas con oclusion en cualquier parte del cuerpo: piernas, cabeza, lado

derecho, etc.; y tolera cambios en la silueta para detectar personas vistas en poses fron-

tales y laterales. Con respecto al seguimiento, la limitante del trabajo de [WN07] es que

presenta una tasa alta de fragmentacion, pues al carecer de un modelo de interaccion

entre las personas, los atributos de estas son danados durante las oclusiones parciales.

Lin et al. [LD10] proponen un enfoque bayesiano para detectar y segmentar personas

utilizando plantillas de la silueta completa de la persona o de sus partes. El enfoque

establece una jerarquıa entre las partes del cuerpo con la finalidad de generar un mapa

de contornos que permita modelar las formas humanas de manera flexible. La deteccion

de personas se efectua al relacionar los contornos extraıdos de la imagen en la jerarquıa

de partes. Al realizar esta tarea, el enfoque determina mediante una estimacion MAP

un conjunto confiable de hipotesis correspondientes a una silueta humana especıfica.

Este enfoque permite obtener automaticamente la segmentacion y pose de una persona

mediante la relacion de las partes detectadas. Sin embargo, el enfoque presenta la

limitante de que solo es posible detectar y segmentar a personas que tienen la cabeza

y parte del torso visibles.

Andriluka et al. [ARS08] proponen un modelo de la dinamica de las extremidades

basado en hGPLVM (hierarchical Gaussian process latent variable model). Este modelo

fue utilizado para mejorar el rendimiento de la deteccion de las personas mediante la

generacion confiable de fragmentos de trayectorias en las secuencias de imagenes.

Las oclusiones parciales pueden inducir a errores en el seguimiento originando la

fragmentacion o la perdida de las trayectorias de los individuos rastreados. Algunos

trabajos han abordado este problema mediante el diseno de metodos basados en la

asociacion temporal.

3.5. ENFOQUES DE ASOCIACION TEMPORAL 37

3.5. Enfoques de asociacion temporal

Los metodos de asociacion temporal para el seguimiento de multiples objetos pueden

clasificarse en dos grupos: basados en detecciones y basados en trayectorias.

3.5.1. Metodos de asociacion basados en detecciones

Los metodos de asociacion temporal basados en deteccion tienen dos objetivos: 1)

encontrar la asociacion correcta de los datos entre los atributos de los objetos rastreados

en los fotogramas previos y las mediciones de los objetos detectados en el fotograma

actual y 2) actualizar el estado del objeto con base en su medicion asociada.

Los metodos de asociacion temporal comunmente utilizados en el seguimiento de

multiples objetos son: Nearest Neighbor (NN), Global Nearest Neighbor (GNN), Joint

Probability Data Association (JPDA) y Multiple Hypothesis Tracking (MHT) [YJS06,

HTWM04, Bla04]. A continuacion se presenta una descripcion de estos 4 metodos y sus

problemas principales.

El algoritmo GNN [Bla04] encuentra la asignacion mas probable de las mediciones

de la deteccion con las trayectorias existentes en tiempo polinomial. La asignacion

en este algoritmo se realiza considerando todas las posibles asociaciones (dentro de

una zona en particular) bajo la restriccion de que una medicion puede ser asociada

como maximo a una trayectoria. Esta caracterıstica es la que distingue al algoritmo

GNN del algoritmo NN, en el cual una trayectoria es actualizada con la medicion

mas cercana, incluso si la asignacion esta siendo utilizada por otra trayectoria [Bla04].

Los algoritmos GNN y NN son los mas utilizados en la literatura para efectuar la

asociacion de datos de multiples objetos [YJS06]. Estos algoritmos son confiables en

el seguimiento de objetos en escenarios con densidad moderada de objetos y en casos

donde el movimiento o cambio de apariencia del objeto es pequeno, fotograma por

fotograma. Sin embargo, estos algoritmos fallan a medida que aumenta la tasa de falsos

positivos y falsos negativos en las mediciones de la deteccion, se presentan oclusiones

entre objetos, hay cambios significativos en su apariencia, o cuando las maniobras de


los objetos se complican.

El algoritmo JPDA [BS87] proporciona una aproximacion suboptima del filtro ba-

yesiano para un numero constante de objetos. Este algoritmo enumera y calcula las

probabilidades de todas las posibles asociaciones de las mediciones a las trayectorias en

un area de validacion. Despues, suma los estimados condicionales pesados para actuali-

zar el estado del objeto. El algoritmo JPDA es confiable en el seguimiento de objetos en

ambientes con densidad moderada de objetos. Su desventaja principal es que consume

gran cantidad de costo computacional para calcular todos los pesos, puesto que su com-

plejidad es NP-hard. Ademas, por su naturaleza presenta el problema de interferencia

de objetos cercanos, ya que las mediciones de un objeto pueden influir en el estima-

do del objeto vecino. Esta influencia puede crear coalicion de objetos que se mueven

paralelamente y danar el reconocimiento del objeto o la informacion utilizada para su

discriminacion.

El algoritmo MHT [Bla04] enumera exhaustivamente todas las posibles hipotesis

sobre un numero de fotogramas recientes y elige la mas probable. En este enfoque, las

hipotesis alternativas son formadas para explicar el origen de las mediciones, pues cada

una asigna las mediciones de la deteccion como objetos o falsos positivos. Este algorit-

mo tiene la habilidad de crear y finalizar las rutas de objetos existentes en el campo

de vision, y puede continuar una ruta incluso si algunas mediciones del objeto estan

perdidas. A diferencia de los algoritmos NN, GNN y JPDA, en los que la asociacion

temporal se efectua de manera inmediata e irrevocable considerando la informacion de

las mediciones entre dos fotogramas consecutivos, el algoritmo MHT retrasa la decision

de asociacion temporal hasta adquirir informacion suficiente de las mediciones en varios

fotogramas con la finalidad de evitar asociaciones erroneas. El algoritmo MHT teorica-

mente proporciona la mejor solucion al problema, pero es costoso computacionalmente

(NP-hard). En esta tesis se propone una solucion al problema en tiempo polinomial

(O(n3), donde n es el numero de objetos rastreados).

3.5. ENFOQUES DE ASOCIACION TEMPORAL 39

3.5.2. Metodos de asociacion basados en trayectorias

Los algoritmos de asociacion de datos mencionados anteriormente, suponen rela-

ciones uno a uno entre las asignaciones de las mediciones y dependen de la precision

obtenida en la etapa de deteccion. Como esta suposicion es quebrantada cuando existen

oclusiones o falsos positivos en la deteccion de los objetos, algunos trabajos en la lite-

ratura procuran evitar los errores en el proceso de seguimiento mediante algoritmos de

asociacion temporal que optimizan las trayectorias a traves del analisis de informacion

de la secuencia completa. A continuacion se mencionan los trabajos representativos de

este enfoque.

Zhang et al. [ZLN08] define el problema de asociacion de datos como un problema

MAP. El problema es mapeado a una red de flujo de informacion que no permite

traslapes entre las trayectorias. La asociacion optima de las trayectorias se efectua

mediante un algoritmo que minimiza el costo del flujo de la red.

Yang y Nevatia [YN12] formulan el problema de seguimiento como un problema

de minimizacion de energıa y proponen un metodo con aprendizaje en lınea basado

en campos aleatorios condicionales para encontrar eficientemente buenas soluciones al

problema con bajos costos de energıa. El metodo produce las funciones de energıa del

modelo que incluyen funciones unitarias usadas para discriminar todos los objetos y

funciones de pares para diferenciar pares difıciles de fragmentos de trayectorias.

Collins [Col12] presenta un algoritmo iterativo aproximado al problema de asig-

nacion multidimensional bajo funciones de costo generales. Este algoritmo utiliza una

funcion de costo de energıa del contorno activo de la trayectoria para evaluar la calidad

de la trayectoria propuesta.

Song et al. 2010 [SJSRC10] analizan las propiedades estadısticas de los segmentos

de trayectorias para desarrollar asociaciones entre ellas de manera que puedan formar

trayectorias mas largas. Ellos proponen un metodo estocastico basado en la evolucion

de un grafo de asociacion, el cual representa a los fragmentos de trayectorias como

vertices y a los puntajes de afinidad como pesos. La asociacion se realiza estimando la


MAP de las conexiones entre vertices.

Brendel et al. [BAT11] plantean el problema de seguimiento de multiples objetos

como un problema del conjunto independiente de peso maximo. Ellos proponen un

metodo que construye trayectorias mas largas mediante la union iterativa de fragmentos

pequenos similares. El metodo tambien divide trayectos largos inviables hasta lograr la

convergencia.

Algunos otros trabajos que siguen el enfoque basado en trayectorias enfrentan el

problema de asociacion temporal mediante la construccion de un grafo de seguimien-

to, en donde cada vertice representa la observacion de un objeto y las aristas denotan

su trayectoria [HXTG07, LTL+09, MYC09]. Estos metodos se basan en el principio

de agregar mediciones cuando un objeto no es detectado y eliminarlas cuando corres-

pondan a falsas detecciones. La tarea de asociacion temporal es resuelta al agregar las

aristas al grafo de seguimiento utilizando algoritmos que encuentran la ruta mas cor-

ta. La limitacion de estos algoritmos es que, al plantear el problema de seguimiento de

multiples objetos como uno de asociacion multidimensional, su complejidad es NP-hard.

En nuestro trabajo, el seguimiento de multiples personas se plantea como un problema

de asociacion en 2D, por lo que la solucion optima se obtiene en tiempo polinomial.

En esta tesis se afronta el problema de oclusion de personas utilizando un enfoque

de seguimiento individual. Se propone un algoritmo de asociacion temporal basado en

detecciones que modela en un grafo de seguimiento las caracterısticas de las personas

y las interacciones entre ellas. La asociacion de una medicion de deteccion con una

trayectoria se efectua solo si las caracterısticas de apariencia, forma y movimiento de

la medicion son similares a las caracterısticas representadas en el modelo del objeto. El

algoritmo propuesto examina las relaciones entre las trayectorias de los objetos para el

manejo de informacion incorrecta o faltante en las mediciones de deteccion, ası como

para la prediccion de oclusiones y la estimacion de la ubicacion de los objetos ocluidos.

3.6. DISCUSION 41

3.6. Discusion

Este capıtulo presento diversos metodos que abordan el problema de seguimiento

de multiples personas desde diferentes perspectivas.

Los metodos que utilizan multiples vistas de la camara para el seguimiento de multi-

ples objetos, por ejemplo [KS09, MSMCMCCP09, KPB+05, RNCS09], con un costo

computacional alto, pueden estimar la informacion de profundidad de los objetos. Esta

informacion puede ser empleada en el seguimiento de las personas y en la resolucion

de la oclusion. Aunque este tipo de metodos pueden lograr resultados de rastreo supe-

riores a los alcanzados por rastreadores monoculares, en muchas situaciones realistas

no es posible obtener distintas vistas traslapadas de la escena debido a la limitacion de

recursos.

Los metodos que mejoran la etapa de deteccion y representacion de las personas

[SHT+06, VGC11, WN07, WN09, DT05, LD10, ARS08] son capaces de enfrentar oclu-

siones parciales. Sin embargo, como estos metodos no consideran la interaccion entre los

objetivos, los atributos de las personas pueden ser perturbados durante las oclusiones

parciales produciendo fragmentacion en las trayectorias, intercambios de identidad o la

perdida total de los objetos rastreados.

Los metodos que emplean algoritmos de asociacion temporal basados en deteccio-

nes para el rastreo de multiples objetos [YJS06, HTWM04, Bla04, BS87] presentan el

problema de interferencia durante la interaccion de objetivos espacialmente cercanos.

Este problema provoca errores como intercambios de identidad o la perdida total de

las trayectorias, debido a que las oclusiones no pueden ser tratadas por la carencia de

un modelo de interaccion. Los metodos de asociacion temporal basados en trayectorias

evitan los errores de rastreo mediante la optimizacion de las trayectorias de los objetivos

a traves del analisis integral de la secuencia [ZLN08, YN12, Col12, SJSRC10, BAT11,

HXTG07, LTL+09, MYC09].

En esta tesis se propone un algoritmo de asociacion temporal basado en deteccio-

nes. El algoritmo propuesto fue disenado para reducir los errores de rastreo mediante el


analisis de la interaccion de las personas y la actualizacion correcta de los atributos de

estas durante su seguimiento. El algoritmo de asociacion temporal propuesto permite

el seguimiento individual de multiples individuos en escenarios estacionarios no con-

trolados, a partir de la informacion proporcionada por una camara. Las ventajas que

presenta el algoritmo de asociacion propuesto son que permite detectar las trayectorias

generadas por falsos positivos en las mediciones de deteccion, predecir el momento en

que ocurriran las oclusiones parciales o totales, y estimar la ubicacion de las distintas

personas que se encuentran ocluidas en un instante de tiempo. Ademas, enfrenta el

problema de oclusion en escenarios donde no se tiene control del fondo de la escena, ni

de la iluminacion del ambiente, tampoco de la vestimenta de las personas.

3.7. Resumen

En este capıtulo se presentaron los principales trabajos previos que proponen estra-

tegias para tratar el problema de la oclusion en el seguimiento de multiples objetos.

En la seccion 3.1 se explico por que es importante estudiar el problema de oclusion

en el seguimiento. En la seccion 3.2 se presentaron los trabajos relacionados que abor-

dan este problema mediante multiples camaras. En la seccion 3.3 se describieron los

trabajos previos que tratan la oclusion utilizando una camara. En esta seccion se pre-

sentaron distintos enfoques de seguimiento: colectivo e individual. En la seccion 3.4 se

describieron los trabajos previos que manejan la oclusion parcial mediante la etapa de

deteccion y representacion del proceso de seguimiento. En la seccion 3.5 se presentaron

los trabajos previos que abordan la oclusion total. Dos enfoques de asociacion temporal,

uno basado en detecciones y otro basado en trayectorias, fueron presentados en esta

seccion. En la seccion 3.5 se discutieron las diferencias mas importantes entre nuestro

metodo y aquellos encontrados en el trabajo previo.

El capıtulo 4 de la tesis describe el metodo propuesto para seguir a multiples perso-

nas en escenarios estacionarios no controlados. En este capıtulo se presenta un esquema

de deteccion de individuos basado en un modelo de silueta humana; se describe la re-

3.7. RESUMEN 43

presentacion de la persona mediante modelos de apariencia, forma y movimiento; y se

presenta un algoritmo de asociacion temporal que construye un grafo cuyo objetivo

principal es mantener el seguimiento de las personas durante las oclusiones.

Capıtulo 4

Metodo propuesto

En este trabajo se propone un metodo para el seguimiento de multiples personas

que pueden ocluirse en escenarios estacionarios no controlados. La figura 4.1 muestra

las etapas que componen el metodo de seguimiento propuesto en la tesis.

Figura 4.1: Etapas que componen el metodo de seguimiento propuesto.

El metodo detecta regiones en movimiento en el fotograma actual de la secuencia

para reducir el area donde se buscara a las personas en la escena. Posteriormente, se

detectan multiples personas en estas regiones mediante un esquema de deteccion basado

45

46 CAPITULO 4. METODO PROPUESTO

en un modelo de silueta humana. A continuacion, se obtienen los modelos de apariencia,

forma y movimiento que representan a las personas. Por ultimo, se comparan estos

modelos con los atributos representados en las personas que estan siendo rastreadas,

con el fin de efectuar la asociacion por similitud que permita realizar su seguimiento.

Las secciones del capıtulo describen detalladamente las etapas que componen el metodo

propuesto para el seguimiento de multiples personas.

4.1. Deteccion de personas

La deteccion de personas en una amplia variedad de poses y vestimentas en ambien-

tes moderadamente poblados, es un problema desafiante. En este trabajo se afronta este

reto mediante un esquema de deteccion disenado para localizar a multiples personas que

pueden estar parcialmente ocluidas en escenarios estacionarios. El esquema propuesto

examina areas en el escenario en donde hay presencia de movimiento; posteriormente,

localiza a los objetos que se ajustan al modelo de la silueta humana.

El esquema de deteccion modela el fondo del escenario mediante la creacion de un

mapa de probabilidad de una mezcla de Gaussianas. El mapa utiliza caracterısticas de

textura locales y caracterısticas de color invariantes, como se propone en [YO07] (apar-

tado 2.1). Tambien es adaptativo a cambios en la iluminacion del ambiente, ası como a

la adicion y eliminacion de objetos estacionarios en el escenario. Las regiones del primer

plano de la escena, correspondientes a objetos en movimiento, son obtenidas median-

te un filtro de umbralizacion aplicado a la imagen residual, la cual es producto de la

substraccion del modelo del fondo en el fotograma actual de la secuencia de imagenes.

El esquema propuesto modela la silueta humana mediante la construccion de una

plantilla en la representacion de bases activas (apartado 2.2.1). Esta representacion

esta formada por una composicion de elementos wavelets de Gabor que pueden ser

ligeramente perturbados, por tanto, la plantilla es deformable. La plantilla es aprendi-

da a partir de imagenes de personas con diferentes poses y atuendos proporcionadas

por [UCL11], utilizando el algoritmo de bosquejo compartido propuesto por [WSGZ10]

4.1. DETECCION DE PERSONAS 47

(apartado 2.2.2). Luego, el esquema de deteccion efectua el ajuste de la plantilla en

la imagen mediante la arquitectura de mapas SUM-MAX propuesta por [WSGZ10]

(apartado 2.2.3). Esta arquitectura alterna entre mapas SUM y mapas MAX. Los ma-

pas SUM son el resultado de la aplicacion local de filtros para detectar segmentos de

bordes y formas. Los mapas MAX son el resultado de la aplicacion local de operacio-

nes de maximizacion que permiten el rastreo de la deformacion de los elementos de la

plantilla. La arquitectura de mapas SUM-MAX produce como resultado un mapa que

contiene una medida de similitud de que tan bien se ajusta el modelo a cada punto en

la imagen, por lo tanto, el mapa puede ser interpretado como un filtro de forma.

Con la finalidad de detectar a personas con diferentes tamanos, el esquema propuesto

obtiene mapas de filtros de forma en diferentes escalas de la imagen. Posteriormente, el

esquema propuesto encuentra las mejores respuestas del ajuste del modelo de la persona

en la imagen. Las respuestas locales maximas de los mapas se calculan en las regiones

de la imagen que corresponden a objetos en movimiento. Para evitar el sobre-ajuste

de la plantilla a traves de las multiples escalas, despues de obtener la respuesta global

maxima de los mapas de filtros de forma, la zona abarcada por la silueta encontrada

es marcada como ocupada. La busqueda de las respuestas maximas se repite sobre las

regiones vacantes para encontrar a mas personas en la escena.

La figura 4.2 muestra el esquema de deteccion de las personas propuesto en una

imagen de prueba.

El esquema de deteccion propuesto se describe por pasos en el siguiente algoritmo:

Paso 1 Obtener el modelo de base activa a partir de imagenes de entrenamiento con

personas utilizando el algoritmo de bosquejo compartido propuesto por [WSGZ10]

descrito en el apartado 2.2.2.

Paso 2 Obtener el modelo del fondo de la escena en el fotograma actual usando el

algoritmo propuesto por [YO07] presentado en el apartado 2.1.

Paso 3 Obtener las regiones en movimiento mediante el filtrado por umbralizacion.

Un umbral global es calculado automaticamente para cada imagen utilizando el


Figu

ra4.2:

Esquem

adedeteccion

deperson

as.a)

Laplan

tillarep

resentad

apor

unabase

activaes

apren

didaapartir

deim

agenes

deperson

ascon

diferen

tesposes

yrop

a.Elajuste

deesta

plan

tillaen

laim

agengen

eracom

oresu

ltadounmap

aquepuedeser

interp

retadocom

ofiltros

deform

a.b)Los

map

asdefiltros

deform

aap

licados

endistin

tasescalas

dela

imagen

sonob

tenidos

para

facilitarla

deteccion

de

person

ascon

diferen

tetam

ano.

Labusquedadelas

respuestas

locales

max

imas

entodos

losmap

asse

reduce

alas

regiones

enmovim

iento

detectad

as(en

lafigu

rasolo

semuestra

unmap

adefiltros

deform

a).cyd)Elajuste

dela

plan

tillaen

diferen

tesiteracion

esproduce

comoresu

ltadola

deteccion

demultip

lesperson

as.Los

verdad

erospositivos

(VP)yfalsos

positivos

(FP)en

lasmedicion

esdedeteccion

estanmarcad

osen

verdeyrojo,

respectivam

ente.

4.1. DETECCION DE PERSONAS 49

metodo de Otsu [Ots79].

Paso 4 Obtener los filtros de forma utilizando la arquitectura de mapas SUM-MAX

propuesta por [WSGZ10] para el modelo de base activa de las personas en dife-

rentes escalas de la imagen (ver apartado 2.2.3).

Paso 5 Buscar las respuestas a los filtros con mayor valor en los multiples filtros de

forma y ordenar descendentemente estas respuestas.

Paso 6 Obtener la escala y posicion de la imagen para la respuesta con mayor valor.

Encontrar las deformaciones del modelo de base activa en el mapa SUM1 de la

arquitectura de mapas SUM-MAX (ver apartado 2.2.3).

Paso 7 Determinar la region convexa del modelo encontrado en el paso 6 en la escala

original de la imagen y determinar el porcentaje de area de la interseccion de la

region convexa con las regiones en movimiento del fondo.

Paso 8 Si el porcentaje de area es valido, la persona es detectada en la imagen y la

region ocupada por la silueta del objeto es eliminada de las regiones en movi-

miento. De lo contrario, para evitar el sobre-ajuste del modelo, los pıxeles vecinos

de la posicion dentro de un radio establecido son eliminados de las regiones en

movimiento.

Paso 9 Seleccionar la respuesta maxima subsecuente a la analizada en el paso 5 y

repetir los pasos 6, 7 y 8 hasta que no se encuentren regiones en movimiento

en la imagen, no existan mas respuestas que analizar, o se alcance el numero de

personas maximo establecido.

Paso 10 Ir al paso 2 para detectar las siluetas de las personas en el fotograma siguiente.


4.2. Representacion de las personas

Cada persona a ser rastreada en la escena esta representada por los modelos de su

forma, apariencia y movimiento.

4.2.1. Modelo de forma

La forma del cuerpo humano es modelada por una region elıptica con un vector de

parametros S = (xc, yc, ϕ, rx, ry), donde (xc, yc) es el centro de la elipse, ϕ es el angulo

de orientacion de acuerdo con el eje x, y (rx, ry) son los semiejes de la elipse.

En este trabajo los parametros del modelo de la forma del objeto se deducen de

la ubicacion del rectangulo que envuelve la medicion proporcionada por el esquema

de deteccion de personas propuesto. El angulo de la orientacion de la elipse siempre

adquiere un valor de 90◦.

4.2.2. Modelo de apariencia

La apariencia del objeto en la imagen es representada por el histograma q que

describe la distribucion de los colores de los pıxeles en el area ocupada por el objeto S.

Para producir el histograma q, el cubo de color es dividido en m contenedores de

igual tamano, y la funcion b : S ⊂ R2 → {1, . . . ,m} es definida para asignarle al pıxel

ubicado en pj el ındice b(pj) del contenedor correspondiente a su color cuantizado u.

La distribucion de la densidad de color para cada contenedor q(u) se calcula como:

q(u) =1

|S|∑pj∈S

κ[b(pj)− u] (4.1)

donde κ es la funcion delta de Kronecker y |S| denota la cardinalidad del conjunto S.

El factor 1|S| impone la condicion

∑u q(u) = 1 para normalizar el histograma resultante

q = {q(u)}u=1,...,m.

En nuestros experimentos, cada histograma se calcula en el cubo RGB utilizando

contenedores de tamano 16x16x16 en la region elıptica que modela la forma del objeto.

4.2. REPRESENTACION DE LAS PERSONAS 51

4.2.3. Modelo de movimiento

El movimiento del objeto esta representado por la lista M = [x, P ], donde x es el

vector de estado de la estimacion a posteriori, el cual incluye parametros de la posicion

y velocidad del objeto, y P es la matriz de covarianza del error asociado a la estimacion

a posteriori.

En esta tesis se emplea el algoritmo de filtro de Kalman [Kal60] para predecir y

corregir el modelo dinamico del objeto a partir de una serie de mediciones incompletas

y/o con ruido. Sin embargo, el modelo de movimiento del objeto tambien puede ser

representado por los parametros de la transformacion afın, a partir de la estimacion

de movimiento del objeto mediante la medicion de su flujo optico, como se explica en

nuestro trabajo previo [RAGMC13].

El filtro de Kalman esta definido por la ecuacion de estado xk y la ecuacion de

medicion zk, como se muestra en la ecuacion 4.2.

xk = Axk−1 + wk−1

zk = Hxk + vk(4.2)

donde A es la matriz de transicion de estados; H es la matriz de medicion; w y v

representan ruido.

El filtro de Kalman utiliza un algoritmo que integra una etapa de prediccion y una

etapa de correccion. La etapa de prediccion esta definida por la ecuacion 4.3, la cual

proyecta la estimacion del estado mas reciente y la estimacion de la covarianza del error

para calcular la estimacion a priori del estado en el instante de tiempo actual.

xk = Axk−1

Pk = APk−1AT +Q

(4.3)

donde x y x son la estimacion a priori del estado y la estimacion a posteriori del

estado, respectivamente; P y P son la covarianza de la estimacion a priori del error y

la covarianza de la estimacion a posteriori del error, respectivamente; Q es la covarianza


del ruido en el proceso.

La etapa de correccion esta definida por la ecuacion 4.4, la cual incorpora la medicion

mas reciente del proceso para corregir la prediccion del estado obtenida en la primera

etapa y generar la estimacion a posteriori del estado.

Kk = PkHT (HPkH

T +R)−1

xk = xk +Kk(zk −Hxk)

Pk = (I −KkH)Pk

(4.4)

donde K es la ganancia de Kalman; I es la matriz identidad; R es la covarianza del

error en la medicion.

4.3. Seguimiento de personas

En una escena con multiples personas existen situaciones complicadas que intro-

ducen ambiguedades en la etapa de asociacion temporal. Algunas de estas situaciones

son: la presencia de oclusiones parciales o totales entre personas, la entrada y salida

de individuos en la escena, y los falsos positivos y falsos negativos procedentes de la

etapa de deteccion. El algoritmo de asociacion temporal que se propone en esta tesis

construye un grafo de seguimiento que captura la informacion de la apariencia de las

personas y describe sus trayectorias mientras permanecen en el campo de vision de la

escena.

4.3.1. Descripcion del grafo de seguimiento

El grafo de seguimiento genera un conjunto de hipotesis de trayectorias y es cons-

truido a partir del analisis temporal de las trayectorias de las personas y reglas de

interaccion que detectan y predicen eventos de oclusion. En la construccion del grafo

adoptamos la restriccion de unicidad, la cual establece que una medicion de una persona

puede ser asociada unicamente con una trayectoria o hipotesis de seguimiento estable-

cida. La figura 4.3 muestra un ejemplo del grafo de seguimiento que se construye para

4.3. SEGUIMIENTO DE PERSONAS 53

la secuencia de video dada.

Las reglas que definimos para la construccion del grafo permiten manejar las am-

biguedades de la asociacion temporal cuando hay personas ocluidas, entrada y salida de

personas en la escena, y falsos positivos y falsos negativos en la deteccion. Estas reglas

son:

Inicializacion de una trayectoria: Cuando una persona es detectada en la

escena y no existe una similitud entre sus caracterısticas y las caracterısticas de

las personas que estan siendo rastreadas, se inicializa una hipotesis de trayectoria

para que la persona que entra en la escena pueda ser rastreada.

Confirmacion de una trayectoria: El algoritmo propuesto confirma una hipote-

sis de trayectoria si la medicion de una persona detectada en el fotograma actual

corresponde a la trayectoria de la persona que esta siendo rastreada.

Inicio de la oclusion total: Este evento surge cuando la persona no es detectada

en el fotograma actual y hay evidencia de que la persona fue ocluida parcialmente

en fotogramas previos. Cuando se presenta este evento, el algoritmo propuesto

inicializa distintas hipotesis respecto a la ubicacion de la persona ocluida conside-

rando los 3 siguientes casos: (a) la persona conserva su direccion y velocidad, (b)

la persona sigue la direccion y velocidad de su oclusor, y (c) la persona permanece

inmovil durante la oclusion.

Fin de la oclusion total: Este evento surge cuando se detecta por primera

vez, parcial o totalmente, a la persona que fue ocluida totalmente en fotogramas

previos. Cuando se presenta este evento, una de las hipotesis generadas en el

evento de inicio de la oclusion es confirmada y las dos hipotesis restantes son

eliminadas.

Continuacion de una trayectoria: Si una persona que esta siendo rastreada no

es detectada en el fotograma actual y no se presenta un evento de inicio de oclusion

total, el algoritmo propuesto predice la ubicacion de la persona de acuerdo con


Figura 4.3: Grafo de seguimiento.Esta figura muestra un ejemplo del grafo de seguimiento construido por el algoritmode asociacion temporal. Dada una secuencia con multiples objetos (representados porformas geometricas en color), las mediciones de estos objetos son encontradas por elesquema de deteccion. Estas mediciones son analizadas por el algoritmo de asociaciontemporal para construir el grafo de seguimiento que describe la trayectoria de cada ob-jeto que esta siendo rastreado. Los vertices del grafo estan representados por cırculos ylas aristas por lıneas. Los cırculos blancos y grises simbolizan los objetos detectados y nodetectados, respectivamente. Las lıneas continuas representan las asociaciones definiti-vas en el seguimiento de los objetos. Las lıneas discontinuas simbolizan las asociacionesdescartadas en el seguimiento de los objetos. La construccion del grafo esta dirigida pordiferentes reglas de interaccion. Estas reglas permiten inicializar y finalizar trayectoriascuando el objeto entra y sale del escenario (ver � y � en I t−3 ); continuar la trayectoriade un objeto cuando no es detectado (ver FN para � en I t−2); eliminar las trayectoriasgeneradas por falsos positivos en la deteccion (ver FP para ⋆ en I t−2); detectar elinicio de una oclusion total y generar distintas hipotesis para manejar la oclusion (verN en I t−2); detectar el fin de una oclusion total y validar la hipotesis de trayectoriaque siguio el objeto (ver N en I t, este objeto valido la primera hipotesis al mantener sudireccion y velocidad durante la oclusion).


su direccion y velocidad, y genera una hipotesis de trayectoria para continuar con

su seguimiento.

Esta regla se establecio para continuar el seguimiento de las personas cuando se

obtienen falsos negativos en la etapa de deteccion, o cuando las personas son

ocluidas totalmente por un periodo de tiempo.

Eliminacion de una trayectoria: El algoritmo propuesto detecta los falsos

positivos que se generaron en la etapa de deteccion y elimina las hipotesis de

trayectorias que fueron generados por estos. Un falso positivo es detectado de

forma diferida cuando una trayectoria es inicializada, pero no es confirmada por

alguna medicion de las personas detectadas en m fotogramas subsecuentes.

Finalizacion de una trayectoria: Cuando una persona no es detectada en la

escena y hay evidencia de que la persona no fue ocluida en fotogramas previos, y

ademas el porcentaje de deteccion de la persona se redujo durante el seguimiento

de la misma, se finaliza la trayectoria de la persona para indicar que la persona

salio de la escena.

4.3.2. Representacion del grafo de seguimiento

Sea G =< N,E > el grafo de seguimiento, donde N = {No ∪ Nh} es el conjunto

de vertices del grafo que corresponden a mediciones de personas detectadas (No) o a

hipotesis generadas de las personas que no estan visibles (Nh).

Cada vertice del grafo es identificado por su ındice k en el tiempo t como ntk y tiene

asociado una lista de atributos que describe a la persona que representa, denotada por

Atrtk. Los atributos de la lista Atr son:

Atr = [id, S, q,M ]

donde id es la identidad del objeto rastreado, S es una region que describe la forma,

tamano y ubicacion del objeto, q es el histograma de color que describe su apariencia,


y M es una lista de parametros que describen su movimiento.

Una arista dirigida (nt−1i , nt

j) ∈ E entre dos vertices en instantes de tiempo con-

secutivos esta definida para dos casos de acuerdo con la regla de confirmacion de una

trayectoria y la regla de continuacion de una trayectoria. Estos casos son:

1. Si ntj ∈ No entonces se debe satisfacer la funcion de similitud que asocia los objetos

rastreados con las mediciones de deteccion, es decir,

(nt−1i , nt

j) ∈ MaximaSimilitud(N t−1i , N t).

Esta funcion se define en la tabla 4.1 y se explica en el apartado 4.3.5.

2. De lo contrario, si ntj ∈ Nh es el sucesor predicho de nt−1

i ∈ Nh, entonces se

genera la arista como una hipotesis de trayectoria para mantener la identidad de

los objetos que no fueron detectados o se encuentran ocluidos.

4.3.3. Algoritmo de asociacion temporal

El algoritmo de asociacion temporal propuesto emplea las mediciones de las per-

sonas, obtenidas en la etapa de deteccion, para determinar que personas deben ser

rastreadas en cada fotograma. Este algoritmo acumula las mediciones de deteccion en

un grafo de seguimiento que mantiene las trayectorias o las hipotesis de seguimiento de

las mediciones con base en las reglas definidas en el apartado 4.3.1.

El algoritmo de asociacion temporal propuesto para el seguimiento de multiples

personas se presenta en el algoritmo 4.1. La descripcion general de las variables y

funciones empleadas por el algoritmo se presenta en la tabla 4.1.

El funcionamiento del algoritmo es el siguiente. Una iteracion comienza con el con-

junto de hipotesis de trayectorias del fotograma anterior. Cada hipotesis es una coleccion

de rutas disjuntas. Para cada hipotesis se realiza una prediccion para estimar la ubica-

cion del objeto en el fotograma actual. Las mediciones de los individuos visibles en la

escena se obtienen mediante la aplicacion del esquema de deteccion propuesto con la


finalidad de seleccionar a los objetos que deben rastrearse. Las relaciones de oclusion

entre hipotesis de trayectorias se obtienen para determinar que hipotesis corresponden

a los objetos que participan en un evento de oclusion, y determinar cual es el individuo

oclusor y cual es el individuo ocluido en cada relacion.

Las mediciones actuales se comparan con las predicciones de los objetos rastreados

mediante la evaluacion de una funcion de similitud. Este proceso se desarrolla en dos

etapas. La primera etapa busca la conexion entre pares cercanos mediante la similitud

de los objetos de acuerdo a su apariencia y movimiento espacial. La segunda etapa

continua con el enlace de los pares de objetos que se localizan en un area valida y no

han sido asociados a traves de la valoracion de la similitud de los objetos conforme a

su apariencia y posicion. En ambos casos, si la evaluacion de la funcion de similitud

es aceptada, la medicion se asocia a la trayectoria. En caso contrario, se genera una

hipotesis de trayectoria para cada nueva medicion. Esta hipotesis tendra que confirmarse

en fotogramas subsecuentes para determinar si se trata de la medicion correspondiente

a un objeto entrando al campo de vision, o si la medicion corresponde a un falso positivo

generado en la etapa de deteccion.

Para cada prediccion que no este apoyada por una medicion, se evalua si el obje-

to abandono el campo de vision de la escena, esta siendo ocluido por otro objeto o

simplemente no fue detectado debido al ruido del ambiente. De acuerdo con las reglas

definidas, para los dos ultimos casos se genera la hipotesis de seguimiento que predice la

ubicacion del objeto. Esta hipotesis mantiene la direccion y la velocidad de la persona

rastreada. Como un caso especial, cuando se produce el evento de oclusion total por

primera vez, se generan dos hipotesis adicionales considerando que la persona adopta

la direccion y la velocidad de su oclusor, o bien, que esta permanece inmovil durante

la oclusion.

Para finalizar la iteracion, se eliminan las hipotesis de oclusion que se contradicen,

se eliminan las hipotesis generadas por falsos positivos detectados, y se finalizan las

hipotesis correspondientes a objetos que salieron del campo de vision.


Tabla 4.1: Variables y funciones del algoritmo de asociacion temporal.

VariablesT : numero total de fotogramas.I: secuencia de imagenes con personas.t: fotograma actual.G: grafo de seguimiento G =< No, Nh, E > .No: vertices que representan objetos visibles.Nh: vertices que representan hipotesis de objetos no de-

tectados u ocluidos.E: aristas que unen dos vertices.O: conjunto de objetos en un evento de oclusion.V : conjunto de objetos detectados de la imagen.µρ: umbral de apariencia establecido en el proceso de

asociacion por similitud.µg: radio establecido para el area de validacion aceptada

en el proceso de asociacion por similitud.m: numero de fotogramas requeridos para eliminar

hipotesis en el grafo de seguimiento.λ: porcentaje de traslape entre predicciones de objetos.t: hace referencia a objetos en el fotograma t.

k: hace referencia al k-esimo objeto en el fotograma.S: hace referencia a la region de forma del objeto.

St−1|t: hace referencia a la region de prediccion estimadapara el objeto.

FuncionesDeteccionDePersonas: Obtiene las regiones que pertenecen a personas en

la imagen y sus atributos.AgregaVerticeAGrafo: Agrega un vertice al grafo de seguimiento y asocia

los atributos del objeto.MaximaSimilitud: Encuentra el objeto con mayor similitud.

AgregaAristaAGrafo: Asocia dos vertices en el grafo de seguimiento.ActualizaAtributos: Actualiza los atributos del objeto de acuerdo con

ciertos criterios.Oclusion: Encuentra el conjunto de objetos que participan en

un evento de oclusion.OrdenaObjetosEnOclusion: Determina el objeto que ocluye y el objeto que es

ocluido en un evento de oclusion.PrimeraOclusion: Determina si se presenta el inicio de una oclusion

total para un objeto determinado.EliminaHipotesis: Elimina las hipotesis contradictorias o no confirma-

das en el grafo de seguimiento causadas por oclusio-nes, falsas alarmas y salida de objetos.


Algoritmo 4.1: Algoritmo de asociacion temporal.

Entrada: I - una secuencia de imagenes con personasSalida: G - grafo de seguimiento

1 G =< ∅, ∅, ∅ >2 Proporciona valores para µρ, µg, m y λ3 para t : 1..T hacer4 Asoc = ∅5 V =DeteccionDePersonas (I t)6 O= Oclusion (N t−1,λ)7 π= OrdenaObjetosEnOclusion (O)8 para cada vk ∈ V hacer9 N t

ok= AgregaVerticeAGrafo (G, vk, t,“No”)

10 si Stok∩ St−1|t = ∅ entonces

11 Fmax =MaximaSimilitud (N tok, N t−1

j : Stok∩ St−1|t, µρ, µg)

12 si Fmax = ∅ entonces13 AgregaAristaAGrafo (G,E, (Fmax, N

tok))

14 Asoc = {Asoc ∪ Fmax ∪N tok}

15 para cada nj ∈ N to\Asoc hacer

16 Fmax =MaximaSimilitud (nj, Nt−1\Asoc, µρ, µg)

17 si Fmax = ∅ entonces18 AgregaAristaAGrafo (G,E, (Fmax, nj))19 Asoc = {Asoc ∪ Fmax ∪ nj}

20 ActualizaAtributos (N to)

21 para cada ai ∈ N t−1\Asoc hacer22 N t

h1= AgregaVerticeAGrafo (G, ai, t,“Nh”)

23 AgregaAristaAGrafo (G,E, (ai, Nth1))

24 ActualizaAtributos (N th1, ∅, 0, “la persona mantiene su direccion y

velocidad”)25 si PrimeraOclusion (ai,O, π) entonces26 N t



28 ActualizaAtributos (N th2,O, π, “la persona adopta la direccion y la

velocidad de su oclusor”)29 N t



31 ActualizaAtributos (N th3, ∅, 0, “la persona permanece inmovil

durante la oclusion.”)

32 G = EliminaHipotesis (G,m)


Los siguientes apartados presentan la descripcion detallada de tres de los principales

componentes del algoritmo de asociacion temporal propuesto. En ellos se explica como se

obtienen las relaciones de oclusion entre las personas que interactuan en la escena, como

se realiza la asociacion entre los individuos rastreados y las mediciones de deteccion, y

como se actualizan los atributos de los objetivos durante su seguimiento.

4.3.4. Relaciones de oclusion

En este apartado se describe como el algoritmo de asociacion temporal detecta los

eventos de oclusion entre las personas y ordena los objetos que participan en el evento

(algoritmo 4.1, funciones: Oclusion y OrdenaObjetosEnOclusion, lıneas: 6 y 7).

Para representar posibles oclusiones entre las personas, se verifica si las areas de

prediccion St|t−1de los vertices se traslapan. Cada prediccion se identifica por su ındice

k en el tiempo t como St|t−1k y se estima mediante la traslacion de su respectivo modelo

de forma, de acuerdo con la prediccion de su movimiento obtenido por la ecuacion 4.3.

El conjunto de relaciones binarias de oclusion O entre las regiones traslapadas se

construye como sigue:

O = {(nt−1i , nt−1

j )|idi = idj,|St|t−1

i ∩ St|t−1j |

|St|t−1i |+ |St|t−1

j |> λ} (4.5)

donde la restriccion idi = idj impide que se formen relaciones de oclusion entre las

hipotesis generadas por el mismo objeto. El umbral λ se establece como el indicador

de porcentaje de traslape para identificar una posible oclusion. En condiciones ideales,

donde las predicciones son precisas, λ adquiere el valor de cero. En nuestros experi-

mentos, establecimos λ = 0.2 para evitar oclusiones ligeras entre predicciones ruidosas

y permitir la captura de objetos con visibilidad parcial antes de presenciar eventos de

oclusion total.

Para ordenar los elementos de cada par en el conjunto de oclusion O, definimos la


funcion πij ∈ {+1,−1} entre los objetos i y j, donde πij = +1 significa que i ocluye a

j y and πij = −1 significa que j ocluye a i.

Para determinar quien ocluye a quien, primero se verifica si los vertices en el conjunto

de la oclusion estan visibles o no visibles en el fotograma actual. Un vertice nt−1k ∈ O

esta visible en el tiempo t, si su modelo de apariencia coincide con el modelo de una

medicion detectada en la region traslapada. En este caso, representamos como ntk′ ∈ V t

al sucesor correspondiente de nt−1k que esta visible en el tiempo t.

La funcion de oclusion π es evaluada en el fotograma actual de la siguiente manera:

πti′j′ =

+1 si nti′ ∈ V t, nt

j′ ∈ V t, upyc(nti′ , S

t|t−1j ) >downyc(n

ti′ , S

t|t−1j )

−1 si nti′ ∈ V t, nt

j′ ∈ V t, upyc(nti′ , S

t|t−1j ) <downyc(n

ti′ , S

t|t−1j )

+1 si nti′ ∈ V t, nt

j′ /∈ V t

−1 si nti′ /∈ V t, nt

j′ ∈ V t

πt−1ij en caso contrario

(4.6)

donde upyc y downyc son las areas de la region de forma dada por encima y abajo

del centro del objeto de referencia. La comparacion de estas funciones de area permite

estimar el orden espacial de los objetos, considerando la alineacion global de sus regiones

de forma.

Como se muestra en la ecuacion 4.6, las relaciones de oclusion se deducen de la

visibilidad espacial de los objetos en el fotograma actual. Para los casos en que los

objetos no estan visibles, el orden de los objetos antes de la oclusion se mantiene al

adquirir el valor anterior de la funcion de la oclusion.

4.3.5. Asociacion por similitud

En este apartado se describe el proceso de asociacion de similitud llevado a cabo

por el algoritmo de asociacion temporal propuesto (algoritmo 4.1, funcion: MaximaSi-

militud, lıneas: 11 y 16).


De acuerdo con los modelos de las personas descritos en el apartado 4.2, se definen

las metricas de similitud que nos permiten evaluar si un individuo rastreado puede ser

espacial y temporalmente vinculado con un objetivo candidato.

La similitud de apariencia entre el objeto rastreado q y el color p de un candidato

se calcula mediante el coeficiente de Bhattacharyya ρ definido como:

ρ(p, q) = Σ√p(u)q(u) (4.7)

donde ˆp(u) y ˆq(u) son las densidades de color normalizadas del contenedor u. El coe-

ficiente ρ esta en el rango de [0, 1], donde ρ = 1 indica que los dos histogramas son

identicos, y ρ disminuye a medida que los histogramas difieren.

La similitud del movimiento espacial entre la region predicha del objeto rastreado

Sq y la region Sp de un candidato es medida calculando la metrica de similitud de

Hamming δ, definida como:

δ(Sp, Sq) = 1− |Sp ∩ Sq|+ |Sq ∩ Sp||Sp|+ |Sq|

(4.8)

La metrica δ se encuentra en el rango de [0, 1], donde δ = 1 significa que las dos

regiones son identicas, y δ disminuye a medida que las regiones difieren.

La cercanıa entre los puntos centrales cp y cq de las regiones de los objetos Sq y Sp

es estimada mediante la popular metrica euclidiana de distancia d.

Ademas de estas metricas, se define un area de validacion para delimitar el es-

pacio en donde pueden ocurrir correspondencias temporales. El area de validacion es

aproximada por una region circular con centro en el area de prediccion, cuyo tamano

esta determinado por un radio de validacion establecido µg.

Las mediciones de deteccion que se encuentran dentro del area de validacion de las

predicciones son comparadas con estas con la finalidad de enlazar los objetos rastreados

con los objetivos candidatos. El proceso para encontrar el conjunto de enlaces de objetos

con mayor similitud es el siguiente:


Paso 1 Encontrar las predicciones cuya area se intersecte con el area de las mediciones.

Si no se encuentra ninguna prediccion, ir al paso 5.

Paso 2 Calcular las distancias ρ y δ entre las mediciones y predicciones obtenidas en

el paso 1.

Paso 3 Seleccionar las predicciones que maximicen los coeficientes ρ y δ utilizando el

algoritmo de optimizacion Hungaro [Kuh05] (apartado 2.3.2).

Paso 4 Aceptar las predicciones como los pares coincidentes de las respectivas medi-

ciones, si los coeficientes ρ satisfacen el umbral de similitud en apariencia µρ.

Paso 5 Descartar las mediciones y predicciones que han sido aceptadas por el paso 4.

Examinar las predicciones en las cuales el area de las mediciones este compren-

dida dentro de sus areas de validacion µg. Si no se encuentra ninguna prediccion,

finalizar el proceso.

Paso 6 Calcular las distancias ρ y d entre las mediciones y predicciones obtenidas en

el paso 5.

Paso 7 Seleccionar las predicciones que minimicen los coeficientes 1− ρ y d utilizando

el algoritmo de optimizacion Hungaro [Kuh05] (apartado 2.3.2).

Paso 8 Aceptar las predicciones como los pares coincidentes de las respectivas medi-

ciones, si los coeficientes ρ satisfacen el umbral de similitud en apariencia µρ.

Del paso 1 al paso 4, el proceso permite vincular las mediciones de deteccion con las

trayectorias de los objetos rastreados mediante metricas de similitud de apariencia y

movimiento espacial. Del paso 5 al paso 8, el proceso permite enlazar de las mediciones

de deteccion con las trayectorias de las personas que no fueron asociadas previamente

mediante metricas de similitud de apariencia y cercanıa.


4.3.6. Actualizacion de atributos

En este apartado se describe como se realiza la actualizacion de los modelos de

las personas en el algoritmo de asociacion temporal propuesto (algoritmo 4.1, funcion:

ActualizaAtributos, lıneas: 20, 24, 28 y 31).

La actualizacion de los atributos es una cuestion clave que afrontamos en esta tesis.

Esta permite que la representacion de las personas pueda ajustarse ante variaciones de

la iluminacion del ambiente y tambien facilita el rastreo de los objetos durante eventos

de oclusion y cambios en la direccion de sus trayectorias.

Para actualizar los atributos de los objetos es necesario comprobar si estos se en-

cuentran en una relacion de oclusion y saber que objeto es ocluido por que objeto en

la relacion de oclusion. Conociendo esta informacion, la actualizacion de los atributos

se lleva a cabo de la siguiente manera:

El modelo de apariencia de una persona que esta siendo rastreada se actualiza con

el modelo de apariencia de su medicion actual cuando la persona esta ausente de

una oclusion. De lo contrario el modelo de apariencia de la persona se mantiene

constante. Es decir,

qti =

qti′ si nti′ ∈ N t

o y nti′ ∈ Ot

qt−1i en caso contrario

(4.9)

El modelo de forma de una persona que esta siendo rastreada se actualiza con el

modelo de forma de su medicion actual cuando la persona esta ausente de una

oclusion. De lo contrario el modelo de forma de la persona se actualiza con el

modelo de su area de prediccion. Esto es,

Sti =

Sti′ si nt

i′ ∈ N to y nt

i′ ∈ Ot

St|t−1i en caso contrario

(4.10)

4.4. RESUMEN 65

El modelo de movimiento de una persona que esta siendo rastreada se actualiza

con el modelo de movimiento calculado a partir de la medicion actual cuando

la persona esta ausente de una oclusion (caso 0). Si se detecta que la persona

esta ocluida, el modelo de movimiento de la persona puede ser actualizado de 3

formas diferentes (caso 1, caso 2 y caso 3). Es decir,

M ti =

[xti, P

ti ] caso 0

[xti, P

ti ] caso 1

[xt−1i +HT (zto −Hxt

o), Pt−1o ] caso 2

[xt−1i , P t−1

i ] caso 3

(4.11)

El caso 1 supone que la persona i se mueve de manera independiente en el evento

de oclusion manteniendo su velocidad y direccion. Como esta suposicion puede

no cumplirse cuando las personas interactuan, el caso 2 establece que la persona

i sigue la velocidad y la direccion de su oclusor o, y el caso 3 establece que la

persona i permanece inmovil durante la oclusion.

4.4. Resumen

En este capıtulo se propuso un algoritmo de seguimiento capaz de rastrear indivi-

dualmente a multiples personas en escenarios estacionarios no controlados. En la seccion

4.1 se presento un esquema de deteccion de individuos, basado en un modelo de la si-

lueta humana, capaz de encontrar personas parcialmente ocluidas. En la seccion 4.2 se

propuso una representacion del individuo capaz de ajustarse a los cambios en su apa-

riencia originados por iluminacion variable, y capaz de enfrentarse a oclusiones parciales

y a cambios en el movimiento. En la seccion 4.3 se propuso el proceso de seguimiento

de multiples personas que enfrenta el problema de oclusion. En el apartado 4.3.3 se

presento un algoritmo de asociacion temporal que construye un grafo cuyo objetivo

principal es mantener el seguimiento de las personas en presencia de oclusiones. En el


apartado 4.3.4 se explico como se obtienen las relaciones de oclusion entre las personas

que interactuan en la escena. En el apartado 4.3.5 se planteo un proceso de asociacion

que determina como se enlazan las mediciones de deteccion con las trayectorias dispo-

nibles de las personas de acuerdo a la similitud de su apariencia, movimiento y cercanıa

en su localizacion. En el apartado 4.3.6 se explico como se actualizan los atributos de

los objetivos durante su seguimiento para que la representacion de los objetos pueda

ajustarse a variaciones de la iluminacion del ambiente y a cambios en la direccion de

sus trayectorias.

En el capıtulo 5 se presentan los experimentos y la evaluacion tanto del esquema

de deteccion como del algoritmo de seguimiento propuestos en la tesis. Los resultados

experimentales demuestran que el esquema de deteccion y el algoritmo de asociacion

son robustos ante diferentes escenarios con diversas interacciones entre personas y en

presencia de eventos de oclusion.

Capıtulo 5

Experimentos

En este capıtulo se presentan los resultados obtenidos por el esquema de deteccion

de personas y el algoritmo de asociacion temporal propuestos en el capıtulo 4 de la

tesis. El desempeno de estos fue validado en secuencias de imagenes con personas en

escenarios estacionarios no controlados. La descripcion de las secuencias de prueba se

presenta en el apartado 5.1. Estas secuencias fueron seleccionadas de los repositorios

de prueba CAVIAR 2005 [CAV05], PETS 2009 [PET09] y UCO 2011 [UCO11], debido

a que presentan situaciones complejas de interacciones y oclusiones entre las personas.

El apartado 5.2 presenta la evaluacion del esquema de deteccion y su comparacion con

los resultados obtenidos por trabajos previos. El esquema de deteccion de personas al-

canzo una precision del 87% en las secuencias de prueba del repositorio CAVIAR 2005.

El esquema de deteccion de personas logro una precision del 93.4% en el conjunto de

datos USC 2005 [WN05]. Este conjunto contiene una seleccion de imagenes con perso-

nas ocluidas tomadas del repositorio de prueba CAVIAR 2005. Para obtener resultados

que pudieran ser comparados con los trabajos previos, se emplearon las metricas de

evaluacion usadas por estos trabajos. El apartado 5.3 presenta la evaluacion del algorit-

mo de asociacion temporal y su comparacion con los resultados obtenidos por trabajos

previos. El algoritmo de seguimiento alcanzo una precision global del 93% en las se-

cuencias de los repositorios CAVIAR 2005, PETS 2009 y UCO 2011. En las secuencias

67

68 CAPITULO 5. EXPERIMENTOS

de prueba del repositorio CAVIAR 2005, el algoritmo de asociacion temporal propuesto

obtuvo una precision del 88.9%, superando los resultados obtenidos por los algoritmos

del trabajo previo de [ZLN08] y [SJSRC10]. La evaluacion del algoritmo de seguimiento

propuesto se llevo a cabo mediante las metricas de evaluacion usadas en los trabajos

previos. El apartado 5.4 presenta los tiempos de procesamiento del esquema de detec-

cion de personas y del algoritmo de asociacion temporal. El apartado 5.5 presenta la

discusion de los resultados obtenidos en el esquema de deteccion de personas y en el

algoritmo de asociacion temporal propuestos en la tesis.

5.1. Secuencias de prueba

El metodo de seguimiento propuesto es validado en secuencias de referencia enfoca-

das a la vigilancia inteligente. Las pruebas se realizaron en diversos escenarios reales en

donde surgen situaciones complejas de interacciones y oclusiones entre los objetivos.

La descripcion de las caracterısticas de las secuencias de prueba se presenta a con-

tinuacion.

Las secuencias CAVIAR 2005 [CAV05] permiten evaluar el funcionamiento del

algoritmo de seguimiento en ambientes de interiores. Estas secuencias fueron cap-

turadas en un corredor interior de un centro comercial en el que un numero

variable de personas en la escena desarrollan actividades como: caminar, plati-

car, entrar y salir de tiendas, esperar a otra persona, entre otras. La evalua-

cion del algoritmo se efectua en los 7 videos mas complicados del repositorio de

secuencias: TwoEnterShop3, TwoEnterShop2, ThreePastShop2, ThreePastShop1,

TwoEnterShop1, OneStopOneWait1 y OneStopMoveEnter1. El tamano de las

imagenes de estas secuencias es 384x288 pıxeles. El numero de los fotogramas de

las secuencias es 1500, en promedio.

Las secuencias PETS 2009 [PET09] permiten evaluar el funcionamiento del al-

goritmo de seguimiento en ambientes de exteriores. Los escenarios de estas se-

5.2. EVALUACION DEL ESQUEMA DE DETECCION 69

cuencias corresponden a un paso de peatones en una universidad que es captado

por multiples camaras. Las secuencias incluyen situaciones de personas que se

encuentran caminando, ya sea solos o en pareja. Los individuos, ademas, realizan

otras actividades como: reunirse con mas gente, quedarse esperando a otra perso-

na, cambiar la direccion de sus trayectorias, ası como entrar y salir de la escena.

La evaluacion del algoritmo se realiza de forma independiente en 4 secuencias

de imagenes del conjunto de datos S2: People Tracking, Scenery: L1 que incluye

las camaras identificadas como view 005, view 006, view 007 y view 008. El ta-

mano de las imagenes de estas secuencias es 720x576 pıxeles. El numero de los

fotogramas de las secuencias es 793.

Las secuencias UCO 2011 [UCO11] permiten evaluar el funcionamiento del algo-

ritmo de seguimiento en ambientes de interiores. Los escenarios de estas secuencias

corresponden a un salon de laboratorio de una universidad que es captado por

multiples camaras. La evaluacion del algoritmo se realiza de forma independiente

en 24 secuencias de imagenes de los conjuntos de datos p2v1, p2v2, p3v1 y p3v2,

de las camaras identificadas como view 1, view 2, view 3, view 4, view 5 y view 6.

El numero de personas en estas secuencias varıa de dos a tres, debido a la limita-

cion establecida por el campo de vision de la escena. Las personas se desenvuelven

libremente en el ambiente provocando situaciones complejas de interacciones fre-

cuentes y oclusiones. El tamano de las imagenes de estas secuencias es 320x240

pıxeles. El numero de los fotogramas de las secuencias es 700, en promedio.

La figura 5.1 presenta ejemplos de los escenarios de prueba empleados en la evalua-

cion del algoritmo de seguimiento propuesto.

5.2. Evaluacion del esquema de deteccion

Es difıcil la comparacion del esquema de deteccion propuesto con los algoritmos

desarrollados en el trabajo previo, debido a la variabilidad en los conjuntos de datos y


Figura 5.1: Escenarios de prueba.a) y b) Escenario de las secuencias CAVIAR 2005 [CAV05].c), d), e) y f) Escenarios del conjunto de datos PETS 2009 [PET09] correspondientes alas camaras view 005, view 006, view 007 y view 008. Los fotogramas mostrados comoejemplos pertenecen al mismo instante de tiempo.g), h), i), j), k) y l) Escenarios de las secuencias UCO 2011 [UCO11] vistos desde lascamaras view 1, view 2, view 3, view 4, view 5 y view 6. Los fotogramas exhibidoscorresponden al mismo instante de tiempo.


a la falta de acceso al codigo de programa de los mismos. A pesar de esta limitacion,

se obtuvo el codigo del metodo de deteccion HOG-SVM propuesto por Dalal y Triggs

[DT05]. La comparacion de este con el esquema de deteccion propuesto se realizo para

las 7 secuencias de prueba del conjunto de datos CAVIAR 2005 [CAV05]. Tambien, se

realizo la comparacion del esquema de deteccion propuesto con los metodos de deteccion

de Wu y Nevatia [WN07] y Lin et al. [LD10] para el conjunto de datos USC 2005

[WN05]. El conjunto USC 2005 es un subconjunto de imagenes tomado de las secuencias

de CAVIAR 2005 [CAV05] en el cual estos metodos de deteccion reportan resultados

cuantitativos. La evaluacion del esquema de deteccion en las secuencias de prueba de

los conjuntos de datos PETS 2009 [PET09] y UCO 2011 [UCO11] no fue posible debido

a que estos conjuntos no proporcionan la informacion del rectangulo delimitador de las

detecciones de la verdad absoluta de las personas.

En los experimentos realizados en los conjuntos de datos CAVIAR 2005 y USC 2005,

el tamano de las personas consideradas varıan de 50x24 a 200x96 pıxeles. Con el fin

de evaluar el desempeno del esquema de deteccion propuesto, se obtuvo la relacion del

area de interseccion entre el rectangulo delimitador de una medicion de deteccion y el

rectangulo delimitador de la deteccion de la verdad absoluta que le corresponde. Si la

relacion del area de interseccion entre ambos rectangulos delimitadores es mayor que

un umbral η =0.5, se considera que la medicion de deteccion es correcta.

La figura 5.2 muestra la comparacion del esquema de deteccion propuesto con el

metodo HOG-SVM de [DT05] para las secuencias de prueba del conjunto de datos CA-

VIAR 2005 [CAV05]. En todas las secuencias de prueba, el esquema propuesto consigue

un rendimiento mayor que el metodo HOG-SVM.

El esquema de deteccion propuesto permitio la localizacion de multiples personas

que fueron parcialmente ocluidas a causa de su interaccion con los otros elementos

del ambiente. En las secuencias del repositorio CAVIAR 2005 se logro una precision1

del 87% y un recuerdo en recuperacion2 del 62%, mientras que el metodo HOG-SVM

1precision= V PV P+FP

2recuerdo en recuperacion= V PV P+FN


Figu

ra5.2:

Com

paracion

del

esquem

adedeteccion

prop

uesto

conel

meto

doHOG-SVM

de[D

T05]

enlas

secuencias

del

conjunto

dedatos

CAVIA

R2005

[CAV05].

Laevalu

aciondel

esquem

aprop

uesto

sepresen

taen

lagrafi

cadela

izquierd

a.Laevalu

aciondel

meto

doHOG-SVM

semuestra

enla

grafica

dela

derech

a.Para

todas

lassecu

encias

deprueba,

elesq

uem

adedeteccion

prop

uesto

lograun

rendim

iento

mayor

queel

meto

doHOG-SVM.


obtuvo una precision del 52% y un recuerdo en recuperacion del 43%. El esquema

de deteccion propuesto supera al metodo HOG-SVM en ambas medidas, de precision y

recuerdo en recuperacion, debido a que los ındices FP y FN obtenidos en este trabajo son

mas bajos que los obtenidos por el metodo HOG-SVM. Estos resultados se alcanzaron

porque la decision de deteccion se realizo a partir del analisis de informacion de un

filtrado de deteccion de forma y de un filtrado de deteccion de movimiento. Ademas,

la metrica de VP del esquema de deteccion propuesto adquirio un valor mucho mas

alto que la del metodo HOG-SVM. Este resultado le permitio al esquema de deteccion

propuesto alcanzar una alta precision en su rendimiento. Esto se logro porque el esquema

de deteccion fue disenado para hacer frente a las oclusiones parciales y para ser tolerante

a los cambios de forma de la silueta de las personas. Por el contrario, aunque el metodo

HOG-SVM considera las variaciones de la pose de las personas, es incapaz de detectarlas

cuando mas del 25% de su silueta esta ocluida.

La figura 5.3 presenta imagenes de ejemplo con los resultados obtenidos por el es-

quema de deteccion de personas propuesto para el conjunto de datos USC 2005 [WN05].

El conjunto de prueba USC 2005 contiene 54 fotogramas con 271 personas, de las cua-

les 75 personas estan parcialmente ocluidas por otros individuos y 18 personas estan

parcialmente visibles porque estan entrando o saliendo del campo de vision la escena.

La figura 5.3(a) muestra que el esquema de deteccion propuesto logra un buen desem-

peno en la deteccion de las personas, incluso cuando estas estan ocluidas parcialmente

en gran proporcion (mas del 50% del area de la silueta de la persona esta ocluida). La

figura 5.3(b) muestra que la region de la silueta delineada, estimada automaticamen-

te a partir de los resultados del esquema de deteccion, es exacta. Algunos segmentos

de borde de la silueta estan desalineados. Esto se genera, principalmente, por el bajo

contraste y/o desorden del fondo en la imagen. La figura 5.3(c) muestra los rectangu-

los delimitadores de los resultados de la deteccion (rectangulos en color azul) y los

rectangulos delimitadores de la deteccion de la verdad absoluta (rectangulos en color

rojo) proporcionados por [LD10] para efectos de comparacion visual.

En el conjunto de datos USC 2005, el esquema de deteccion de personas propuesto


Figura 5.3: Resultados del esquema de deteccion de personas propuesto para el conjuntode datos USC 2005 [WN05].

alcanzo una exactitud del 84% en la medicion del traslape de los rectangulos delimi-

tadores del resultado obtenido por el detector y el resultado de deteccion de la verdad

absoluta. Observe en la figura 5.3(c) que el esquema de deteccion propuesto es capaz de

detectar objetos en una amplia gama de tamanos. Tambien considere que en la figura

5.3(c) algunas personas que no estan en la deteccion de la verdad absoluta son encon-

tradas por el esquema de deteccion propuesto. Los falsos negativos en la deteccion, es

decir, las personas que no fueron detectadas por el esquema de deteccion propuesto,

principalmente son causados por el bajo contraste entre los segmentos de borde del

objeto y el fondo de la imagen.


El resultado del rendimiento del esquema de deteccion de personas propuesto se

comparo con los resultados reportados por Wu y Nevatia [WN07] y Lin et al. [LD10] en

el conjunto de datos de USC 2005. La figura 5.4 muestra el resultado de la comparacion

del rendimiento como curvas ROC.

0 10 20 30 40 50 60 70 800.75

0.8

0.85

0.9

0.95

1

Número de falsas alarmas

Tas

a de

det

ecci

ón

Curvas ROC de desempeño de detección

Detector propuesto basado en bases activasDetector jerárquico de plantillas de partes [LD10]Detector de partes aprendidas por boosting [WN07]

Figura 5.4: Evaluacion del rendimiento de deteccion para el conjunto de datos USC2005[WN05]. Los resultados de deteccion reportados en los trabajos de [WN07] y [LD10]son tomados con el proposito de comparacion de resultados.

La figura 5.4 muestra que el esquema de deteccion propuesto logra un mejor rendi-

miento de deteccion que los metodos reportados en los trabajo previos de Wu y Nevatia

[WN07] y Lin et al. [LD10] en las imagenes del conjunto de datos USC 2005. Nuestro

esquema alcanza una tasa de deteccion del 93.4% con 16 falsas alarmas. El esquema de

deteccion propuesto alcanzo una alta precision porque fue disenado para hacer frente

a las oclusiones parciales y para ser tolerante a los cambios en la silueta percibida de

las personas. Por otra parte, el ındice de falsas alarmas es bajo porque la decision de

deteccion fue tomada mediante el analisis de la informacion a partir de un filtrado de

deteccion de forma, ası como a partir de un filtrado de deteccion de movimiento.


5.3. Evaluacion del algoritmo de seguimiento

Las secuencias de prueba empleadas para evaluar el funcionamiento del algorit-

mo de seguimiento en ambientes de interiores y exteriores fueron seleccionadas de los

repositorios CAVIAR 2005 [CAV05], PETS 2009 [PET09] y UCO 2011 [UCO11]. La

descripcion de las secuencias de prueba seleccionadas se presento en el apartado 5.1 de

la tesis. Estas secuencias muestran escenarios reales donde se producen con frecuen-

cia interacciones y oclusiones entre individuos. En las secuencias estan representadas

distintas situaciones complejas de la interaccion en el escenario de un numero variable

de personas. Estas situaciones son, por ejemplo, la deteccion de personas parcialmente

visibles cuando entran o salen del campo de vision de la camara y las oclusiones se-

veras producidas durante intervalos de tiempo prolongados. En algunas secuencias, las

personas llevan ropa con caracterısticas de apariencia similares. Tambien, se presentan

casos de personas que cambian su trayectoria cuando interactuan con otras personas

en el escenario.

La figura 5.5 presenta ejemplos visuales de los resultados del algoritmo de segui-

miento propuesto en la secuencia OneStopMoveEnter1 del conjunto de datos CAVIAR

2005 [CAV05].

La figura 5.6 muestra ejemplos visuales de los resultados del algoritmo de segui-

miento propuesto en la secuencia S2-L1-View 008 del conjunto de datos PETS 2009

[PET09].

La figura 5.7 presenta ejemplos visuales de los resultados del algoritmo de segui-

miento propuesto en la secuencia p3v1view1 del conjunto de datos UCO 2011 [UCO11].

En las figuras 5.5, 5.6 y 5.7, las elipses con estilo de lınea continua representan los

vertices de los objetos rastreados que se enlazan con una medicion de deteccion. Las

elipses con estilo de lınea discontinua representan los vertices de los sucesores predichos

para los objetos que se encuentran ocluidos o que no fueron detectados. Las elipses con

color gris claro representan los vertices que tienen que ser confirmados por una medicion

de deteccion en los fotogramas siguientes. Esta tarea se realiza con la finalidad de asignar

5.3. EVALUACION DEL ALGORITMO DE SEGUIMIENTO 77

Figura

5.5:

Resultad

osdel

algoritm

odeasociaciontemporal

propuesto

enla

secuenciaOneS

topM

oveE

nter1

del

conjunto

dedatos

CAVIA

R2005

[CAV05].

Enesta

secuenciamoderad

amente

pob

lada,

grupos

depersonas

caminan

enconjunto

alo

largodel

corredor.Laoclusion

entrelaspersonas

conID

4eID

6,ylaspersonas

conID

5eID

6,se

resuelve

conexito.

Ladeteccion

oportunadeFP

impidela

correccion

erronea

delastrayectorias

delaspersonas

quecaminan

cerca(fotogramas

5.5(a)

y5.5(e)).


Figu

ra5.6:

Resu

ltados

del

algoritmodeaso

ciaciontem

poral

prop

uesto

enla

secuencia

S2-L

1-View

008del

conjunto

de

datos

PETS2009

[PET09].

Elsegu

imien

todelas

person

ases

correcto,inclu

socuan

doestan

caminan

docerca

(fotogramas

5.6(a)-5.6(d)).

Laoclu

sionentre

person

ascon

caracterısticassim

ilaresse

resuelve

exitosam

ente

(fotogramas

5.6(c)-5.6(e),ID

4eID

1).Sin

embargo,

laoclu

siontam

bien

produjo

intercam

bios

deidentid

aden

lainteraccion

deperson

ascon

atributos

similares

(fotogramas

5.6(f),ID

4eID

2).Este

tipodeerror

enel

seguim

iento

puedeser

evitad

orealizan

dounmejor

ajuste

enlos

param

etrosqueinterv

ienen

enel

proceso

deaso

ciacionpor

similitu

d.


Figura

5.7:

Resultad

osdel

algoritm

odeasociaciontemporal

propuesto

enla

secuenciadep3v1view

1del

conjunto

dedatos

UCO

2011

[UCO11].

Las

interacciones

yla

oclusion

entrelaspersonas

seresuelvenconexito,

incluso

cuan

dohay

cambiosen

lailuminaciondel

escenario.Elalgoritm

opropuesto

tambienpuederastrear

objetivosconvisibilidad

parcial

(fotogramas

5.7(d)-5.7(f)).

El

rastreocontinuodelosob

jetosen

estassituaciones

esposible

graciasala

robustez

enla

actualizaciondelosatributosde

laspersonas.


una identidad para los nuevos objetivos a rastrear, o bien, para detectar las trayectorias

que fueron generadas por falsos positivos en las mediciones de deteccion.

En la figura 5.5, los FP son detectados diferidamente y el rastreo de estos objetivos

termina de manera inmediata (fotogramas 5.5(a) y 5.5(e)). Los FN son manejados

aceptablemente por el algoritmo mediante la generacion de hipotesis de trayectorias

que mantienen la direccion y velocidad de los objetos rastreados (fotogramas 5.5(b), ID

4 e ID 7). La oclusion entre las personas con ID 5 e ID 6 es resuelta con exito como se

expone en los fotogramas 5.5(d), 5.5(e) y 5.5(f). La oclusion entre las personas con ID

4 e ID 6 tambien se resuelve exitosamente como se presenta en los fotogramas 5.5(b)

y 5.5(d). En el fotograma 5.5(c) se inicializo una trayectoria para la medicion con ID

-14. Esta medicion no fue asociada con la trayectoria estimada de la persona con ID 4

debido a que se presentaron variaciones significativas en sus atributos. Sin embargo, una

de las hipotesis construidas para la persona con ID 4 al inicio de la oclusion permitio su

seguimiento correcto en el fotograma 5.5(d).

En la figura 5.6, grupos de personas con atributos similares de apariencia se observan

caminando con la misma direccion y velocidad (ID 3, ID 5 e ID 6). El seguimiento de

estas personas se efectua de manera correcta, incluso cuando ellas estan caminando muy

cerca y hay mediciones faltantes de personas (fotogramas 4(a)-4(c)). Las situaciones

complejas de interacciones y oclusiones entre las personas con ID 1 e ID 2 se resuelven

correctamente (fotogramas 4(b) y 4(c)). La oclusion de la persona con ID 1, quien

permanece inmovil durante el evento, es manejada correctamente por el algoritmo,

incluso cuando su oclusor con ID 4 tiene caracterısticas similares (fotogramas 5.6(d)

y 5.6(e)). La oclusion entre las personas con ID 4 e ID 2 intercambia sus identidades

durante el evento. Esto sucedio porque la posicion de estas personas es muy cercana y

porque tienen atributos de apariencia y tamano muy similares. Para que el algoritmo

de seguimiento propuesto maneje correctamente la asociacion de las identidades de

las personas en estas condiciones, se requiere un mejor ajuste de los parametros en el

proceso de asociacion por similitud.

En la figura 5.7 ocurren frecuentemente oclusiones parciales y totales entre los indi-


viduos. La persona con ID 1 mantiene su identidad a pesar de ser ocluida una y otra vez

por otras personas en la escena. La persona con ID 2 mantiene su identidad mientras

hay cambios en su tamano. La persona con ID 3 es rastreada correctamente a pesar de

que sus atributos de apariencia varıan debido a la visibilidad parcial de su cuerpo y a

los cambios en la iluminacion del escenario. El seguimiento correcto de los objetos en

estas situaciones es posible debido a la robustez del algoritmo en la actualizacion de los

atributos de las personas.

En la tabla 5.1 se definen los parametros del algoritmo de asociacion temporal y se

dan recomendaciones para efectuar su configuracion en las secuencias de prueba.

La tabla 5.2 presenta las metricas utilizadas para evaluar cuantitativamente el algo-

ritmo de seguimiento. Estas metricas se adoptaron del trabajo de [SJSRC10]. La tabla

5.3 muestra la comparacion del algoritmo propuesto con algunos de los algoritmos pre-

sentados en la revision del trabajo previo para el conjunto de datos de [CAV05]. La tabla

5.4 presenta la evaluacion del algoritmo de seguimiento propuesto usando las secuencias

de referencia CAVIAR 2005 [CAV05], PETS 2009 [PET09] y UCO 2011 [UCO11].

El manejo adecuado de las hipotesis de trayectorias permitio que el algoritmo de

seguimiento propuesto produjera un rastreo continuo y estable de las personas cuando

hay falsos negativos en las mediciones de deteccion, ası como eventos de oclusion. Esta

cualidad es ilustrada en las tablas de resultados 5.3 y 5.4 a traves de los indicadores de

evaluacion MT y PT que miden la integridad del seguimiento. Los ındices Frag e IDS son

errores que representan la falta de continuidad en las trayectorias. En la evaluacion del

algoritmo de seguimiento propuesto estos ındices son pequenos en todas las secuencias

de referencia. Esto sucedio porque los atributos de las personas los describieron a detalle,

y tambien porque el algoritmo de asociacion temporal fue disenado para ser robusto

ante interacciones y oclusiones entre personas.

En comparacion con los algoritmos del trabajo previo, el algoritmo de seguimiento

propuesto en este trabajo se desempena adecuadamente, sobre todo si consideramos que

esta basado en las mediciones de deteccion, contrario a los algoritmos propuestos por

[ZLN08] y [SJSRC10] que estan basados en la asociacion de fragmentos de trayectorias.


El algoritmo de asociacion temporal alcanzo una precision del 93%. Los experimen-

tos demuestran que el algoritmo de asociacion temporal es eficaz para el seguimiento de

varias personas en escenarios donde hay condiciones de iluminacion variable y no exis-

ten restricciones acerca de la ropa y del movimiento de los individuos que interactuan.

En terminos generales, el algoritmo de asociacion temporal se desempena con exito

durante situaciones de interaccion y oclusion, tales como: 1) personas que caminan en

direcciones opuestas durante las oclusiones, 2) personas que caminan en pareja hacia el

mismo destino y 3) personas que permanecen inmoviles durante una oclusion durante

un perıodo de tiempo prolongado.

5.4. Tiempos de procesamiento de los algoritmos

La implementacion de los algoritmos propuestos se realizo en Matlab 8.0 empleando

una arquitectura de 64 bits. Los experimentos se realizaron en una computadora con

procesador Intel i7 a 2.2 GHz y memoria RAM de 8 GB. En esta configuracion, el es-

quema de deteccion de personas procesa 5 FPS (fotogramas por segundo), en promedio,

para las secuencias de prueba. Mientras que el algoritmo de asociacion temporal procesa

15 FPS, en promedio, para las secuencias de prueba. Ambas tasas de procesamiento

son estimadas sin considerar el registro de lectura de las imagenes de las secuencias y

la impresion en pantalla de los resultados obtenidos. El esquema de deteccion no con-

sidera el tiempo de entrenamiento del modelo de silueta ni el tiempo del modelado del

fondo. Por otro lado, el seguimiento no considera el tiempo invertido en la deteccion de

personas.

5.5. Discusion

En este apartado se discuten los resultados obtenidos por el esquema de deteccion

y el algoritmo de asociacion temporal propuestos. El esquema de deteccion logro una

precision del 87% para los conjuntos de datos CAVIAR 2005 y una precision del 93.4%

5.5. DISCUSION 83

para los conjuntos de datos USC 2005 [WN05]. El valor alto de la metrica de precision

se debe, principalmente, a que el esquema de deteccion fue disenado especialmente para

encontrar personas ocluidas y en distintas poses.

El desempeno del esquema de deteccion es mucho mejor que el desempeno del meto-

do de SVM-HOG [DT05], como se mostro en la figura 5.2. El desempeno del esquema de

deteccion es comparable (ligeramente superior) al desempeno obtenido por los metodos

de deteccion de Wu y Nevatia [WN07] y Lin et. al [LD10]. La ventaja que presenta

nuestro esquema de deteccion, con respecto a estos metodos, es que no requiere de la

fragmentacion de las partes del cuerpo de las siluetas de las personas. En nuestro tra-

bajo de tesis, los resultados de cualquiera de estos detectores pudieron proporcionar las

mediciones de deteccion requeridas por el algoritmo de asociacion temporal propuesto.

Sin embargo, debido a la falta de acceso a los resultados de deteccion del trabajo previo,

el diseno de un esquema de deteccion fue requerido para evaluar el funcionamiento del

algoritmo de asociacion temporal propuesto. La calidad de los resultados de la detec-

cion es buena, pues se alcanzo un 84% en la exactitud de los rectangulos delimitadores

de los resultados obtenidos por el detector y los resultados de deteccion de la verdad

absoluta. Esta medida pudo verse afectada por el bajo contraste entre los bordes de la

imagen y las oclusiones entre las personas. La limitacion que presenta el esquema de

deteccion es que en promedio procesa 5 FPS. Este tiempo de procesamiento puede dis-

minuir si el rango de tamano de los objetos a buscar en la escena se reduce, puesto que

se tendrıa una menor cantidad de imagenes en distintas escalas para analizar. Tambien,

puede reducirse si se implementa en paralelo la busqueda de los objetos en el esquema

de deteccion.

El algoritmo de asociacion temporal fue probado usando mediciones proporciona-

das por el esquema de deteccion de personas propuesto. Nuestro algoritmo de asocia-

cion alcanzo una precision global del 93% en las secuencias de referencia de CAVIAR

2005 [CAV05], PETS 2009 [PET09] y UCO 2011 [UCO11]. El algoritmo de asociacion

logro una alta precision porque fue disenado para reducir los errores en el rastreo de

multiples personas ocasionados por los falsos positivos y los falsos negativos en las


mediciones de deteccion, ası como las oclusiones. En las secuencias de prueba se de-

mostro que el algoritmo propuesto produce el seguimiento robusto de personas ocluidas

parcial y totalmente. En las secuencias de CAVIAR 2005 se demostro que el algoritmo

propuesto, basado en detecciones, obtiene una mejor precision que los metodos del tra-

bajo previo de [ZLN08] y [SJSRC10]. En la tabla 5.3 de comparacion de resultados, las

secuencias de prueba tienen diferente valor en GT porque se realizaron en un mayor

numero de secuencias. Nuestros experimentos se realizaron en 7 secuencias del reposi-

torio de CAVIAR 2005. Estas secuencias son las mas complicadas ya que presentan una

mayor cantidad de situaciones con oclusiones. De modo que, aunque el numero de GT

sea diferente, los resultados pueden ser comparados de manera cuantitativa. La ventaja

del algoritmo de asociacion propuesto es que, al analizar las relaciones entre las trayec-

torias de los objetos rastreados, permite el manejo de falsos positivos y falsos negativos

en las mediciones de deteccion y la estimacion de la ubicacion de las personas que son

ocluidas. La limitacion que presenta el algoritmo de asociacion es que, en promedio,

procesa 15 FPS. La calidad de los resultados visuales es buena, pues la actualizacion

de los modelos de las personas permite realizar el seguimiento durante las oclusiones

entre las personas.

5.6. Resumen

En este capıtulo se presentaron los resultados obtenidos por el esquema de detec-

cion de personas y el algoritmo de asociacion temporal en secuencias de imagenes con

personas en escenarios estacionarios no controlados. En la seccion 5.1 se describieron

las secuencias de prueba que permiten la validacion de los algoritmos propuestos. En

la seccion 5.2 se presento la evaluacion del esquema de deteccion y su comparacion

con los resultados obtenidos por trabajos previos. El esquema de deteccion de personas

alcanzo una precision del 87% en las secuencias de prueba del repositorio CAVIAR

2005 [CAV05]. El esquema de deteccion de personas logro una precision del 93.4%

en el conjunto de datos USC 2005 [WN05]. Estos resultados superan a los alcanzados

5.6. RESUMEN 85

por los metodos del trabajo previo de [DT05], [WN07] y [LD10] . En la seccion 5.3

se presento la evaluacion del algoritmo de asociacion temporal y su comparacion con

los resultados obtenidos por trabajos previos. El algoritmo de asociacion temporal pro-

puesto alcanzo una precision global del 93% en las secuencias de los repositorios de

evaluacion CAVIAR 2005 [CAV05], PETS 2009 [PET09] y UCO 2011 [UCO11]. En las

secuencias de prueba del repositorio CAVIAR 2005, el algoritmo de asociacion temporal

propuesto obtuvo una precision del 88.9%, superando los resultados obtenidos por los

algoritmos del trabajo previo de [ZLN08] y [SJSRC10]. En la seccion 5.4 se presentaron

los tiempos de procesamiento del esquema de deteccion de personas y del algoritmo

de asociacion temporal. La seccion 5.5 presento la discusion de los resultados obteni-

dos en el esquema de deteccion de personas y en el algoritmo de asociacion temporal

propuestos en la tesis.

En el capıtulo 6 se presentan las conclusiones, las contribuciones, el trabajo futuro

propuesto y los artıculos derivados de este trabajo de investigacion.

Tabla 5.1: Definicion de los parametros del algoritmo de asociacion temporal.

Parametro Definicionµρ Parametro de apariencia establecido en el proceso de asociacion por

similitud. El valor del parametro µρ puede variar entre 0 y 1, perose recomienda configurar el valor de µρ entre 0.2 y 0.4. El valor deeste parametro determina la medida en que difieren los histogramasde color del objeto rastreado y la medicion de deteccion del objeto.Esta medida es robusta a cambios en el tamano de los objetos. Enlas secuencias de prueba se establecio el valor del parametro µρ en 0.3para que los histogramas de color del objeto rastreado y de la medicionde deteccion coincidan en al menos 70%.

µg Parametro del area de validacion establecido en el proceso de asocia-cion por similitud. El parametro µg representa el numero de pıxelesque la medicion puede alejarse del area de prediccion. Este parametroindica cuales mediciones de deteccion pueden ser asociadas a la predic-cion del objeto rastreado. Un valor en pıxeles muy pequeno requiere deuna prediccion muy precisa para realizar la asociacion, mientras queun valor grande permitira el acceso a mediciones alejadas que puedencorresponder a otros objetos rastreados. En las secuencias de prueba,el valor de este parametro se establecio entre 20 y 40. Como valorinicial del ajuste del parametro se considera el tamano promedio, enpıxeles, del ancho de los objetos detectados en la escena. Otra formade configurar el valor inicial del parametro es usando de una a dosveces el valor de la varianza del error asociado al filtro de movimiento.

m Parametro que establece el numero de fotogramas requeridos para laeliminacion de las hipotesis del grafo de seguimiento. El parametrom permite mantener las hipotesis de trayectorias que han sido crea-das para el seguimiento de objetos existentes y falsas mediciones dedeteccion. En las secuencias de prueba, el valor de este parametro seubico entre 10 y 48. Un valor pequeno requiere que la deteccion depersonas sea muy precisa para que no se fragmenten las trayectoriasde los objetos rastreados, mientras que un valor grande puede originarque los modelos de las personas se actualicen incorrectamente duran-te el seguimiento de las personas. Como valor inicial del ajuste delparametro se recomienda asignar un valor entre un tercio y el dobledel valor de FPS de la secuencia de prueba.

λ Parametro que establece el porcentaje de traslape entre prediccionesde objetos. Este parametro permite detectar una posible oclusion entreobjetos. El valor del parametro puede variar entre 0.1 y 1. En lassecuencias de prueba, para evitar oclusiones ligeras entre prediccionesruidosas y permitir la captura de objetos con visibilidad parcial antesde presenciar eventos de oclusion total, el parametro λ adquirio unvalor de 0.2.

5.6. RESUMEN 87

Tabla 5.2: Metricas de evaluacion para el seguimiento de objetos.

Nombre de la metrica DefinicionGT (Ground Truth) Numero de trayectorias verdaderas.MT (Mostly Tracked) Porcentaje de trayectorias GT que son rastreadas co-

rrectamente por el algoritmo de seguimiento por masdel 80% del tiempo.

PT (Partially Tracked) Porcentaje de trayectorias GT que son rastreadas porel algoritmo de seguimiento entre el 20% y el 80% deltiempo.

ML (Mostly Lost) Porcentaje de trayectorias GT que son rastreadas por elalgoritmo de seguimiento por menos del 20% del tiempo.

Frag (Fragments) Numero total de veces que la persona rastreada cambiasu ID a lo largo de la trayectoria GT.

IDS (ID Switches) Numero total de veces que una persona rastreada cambiasu ID con otro objeto.

Tabla 5.3: Comparacion de los algoritmos de seguimiento para el conjunto de datosCAVIAR 2005 [CAV05].

Ref. GT MT PT ML Frag IDSZhang et al. 2008 [ZLN08] 140 85.7% 10.7% 3.6% 20* 15*Wu et al. 2007 [WN07] 140 75.7% 17.9% 6.4% 35* 17*Song et al. 2010 [SJSRC10] 75 84% 12% 4% 6 8Filtro de partıculas [SJSRC10] 75 53.3% 36% 10.7% 15 19Grafo de seguimiento propuesto 72 88.9% 11.1% 0% 21 6*El numero de fragmentos y los cambios de identidad fueron obtenidos mediante las metricas

tradicionales. Las metricas que adoptamos son mas estrictas.

Tabla 5.4: Evaluacion del algoritmo de seguimiento propuesto en distintos conjuntos dedatos de videovigilancia.

Ref. GT MT PT ML Frag IDSCAVIAR 2005 72 88.9% 11.1% 0% 21 6UCO 2011 101 97% 3% 0% 28 6PETS 2009 111 93.7% 5.4% 0.9% 17 5

Capıtulo 6

Conclusiones

6.1. Conclusiones

Esta tesis abordo el problema de seguimiento de multiples personas en escenarios no

controlados. En este trabajo se propuso una solucion al problema de la oclusion parcial

y total a partir del analisis de la informacion visual adquirida por una camara.

El algoritmo de asociacion temporal propuesto construye un grafo de seguimiento

para modelar los atributos de apariencia, forma y movimiento de las personas rastrea-

das, ası como las interacciones entre estas. El algoritmo asocia a las personas detectadas

en el fotograma actual con las trayectorias disponibles de las personas rastreadas. Esto

se realiza mediante un proceso de asociacion por similitud, basado en caracterısticas

de apariencia y movimiento espacial, y de la cercanıa de ubicacion. El algoritmo anali-

za las relaciones espacio-temporales entre las trayectorias representadas en el grafo de

seguimiento con la finalidad de manejar informacion incorrecta o faltante en la etapa

de deteccion. El algoritmo permite la prediccion de las oclusiones parciales y totales,

y la estimacion de la ubicacion de las personas que han estado ocluidas durante un

perıodo de tiempo. El algoritmo propuesto es robusto a las variaciones en la apariencia

de la vestimenta de las personas, a los cambios en su tamano y movimiento, ası como

a eventos de oclusion parcial y total. Esto sucede debido a que la actualizacion de los

89

90 CAPITULO 6. CONCLUSIONES

atributos de las personas se realiza en funcion de como interactuan estas en la escena

y de como participan en los eventos de oclusion.

El algoritmo fue probado usando mediciones proporcionadas por el esquema de

deteccion de personas propuesto. En las secuencias de referencia de CAVIAR 2005

[CAV05], PETS 2009 [PET09] y UCO 2011 [UCO11], el algoritmo de asociacion tem-

poral propuesto alcanzo una precision del 93%. En estas secuencias de referencia se

demostro que el algoritmo propuesto produce el seguimiento robusto de personas oclui-

das parcial y totalmente, incluso cuando las personas estan ocluidas durante perıodos

de tiempo prolongados. En las secuencias de CAVIAR 2005 se demostro que el algorit-

mo propuesto basado en detecciones supera incluso a los algoritmos del trabajo previo

basados en trayectorias.

Sin embargo, el algoritmo de seguimiento presenta limitaciones. Una limitacion del

algoritmo de seguimiento es causada por la resolucion de la camara. Aunque el algorit-

mo permite manejar un rango amplio para el tamano de los objetos en la imagen, el

tamano mınimo permitido para detectar a las personas en la escena es de 50x24 pıxeles.

Otra limitacion es que el algoritmo propuesto no puede rastrear correctamente a per-

sonas en escenarios con insuficiente iluminacion, pues la ausencia de diversidad en las

distribuciones de color de los modelos de apariencia de los objetos provocarıa errores

de rastreo, como fragmentacion e intercambios de identidad. Ademas, el algoritmo de

seguimiento no puede realizar el seguimiento de las personas cuando estas entran a la

escena y son ocluidas por otras personas. El algoritmo considera esta situacion como rui-

do en la deteccion de las personas. El rastreo de las personas iniciara cuando disminuya

el porcentaje de oclusion y aumente el valor de la respuesta de deteccion. Finalmente,

el algoritmo propuesto tampoco permite que la persona cambie su vestimenta una vez

que se inicio con su seguimiento.

6.2. CONTRIBUCIONES 91

6.2. Contribuciones

Las contribuciones mas destacadas de nuestro trabajo de investigacion son las si-

guientes:

Un algoritmo de asociacion temporal que construye un grafo de seguimiento para

modelar a las personas en la escena a partir de reglas de interaccion y de medicio-

nes de deteccion (apartado 4.3.3). Las reglas de interaccion controlan la entrada

y salida de las personas en la escena, vinculan las mediciones de deteccion con

las personas previamente rastreadas y dirigen el seguimiento de estas cuando se

encuentran ocluidas mediante el manejo de multiples hipotesis de seguimiento. El

algoritmo de asociacion temporal propuesto es capaz de detectar falsos positivos

y falsos negativos en las mediciones de deteccion, y tambien puede estimar la

ubicacion de personas no detectadas u ocluidas.

Un modelo de la interaccion de las personas que predice oclusiones parciales y

totales y establece el orden de las personas implicadas en la oclusion (apartado

4.3.4). Este modelo considera la alineacion global de la forma del objeto, su visi-

bilidad en la imagen y su ordenamiento previo. El ordenamiento espacial de las

personas que interactuan es crucial para mantener distintas hipotesis del segui-

miento de las mismas y actualizar correctamente los atributos de las personas

durante las interacciones entre estas.

Las aportaciones adicionales de nuestro trabajo son las siguientes:

Un esquema de deteccion basado en un modelo de la silueta humana capaz de

encontrar a individuos parcialmente ocluidos (apartado 4.1). El esquema de detec-

cion propuesto permite encontrar siluetas de personas cuya area en movimiento

sea superior al 30% del area de la silueta. A diferencia de los trabajos previos

de [WN07] y [LD10], nuestro esquema de deteccion encuentra la silueta de las

personas con oclusion sin requerir de la fragmentacion de las partes del cuerpo.


Ademas, permite la deteccion de personas con oclusion en cualquier parte del cuer-

po: piernas, cabeza, lado derecho, etc.; y tolera cambios en la silueta permitiendo

la deteccion de personas en pose frontal y lateral.

Una representacion de la persona capaz de adaptarse a cambios en la iluminacion

del ambiente y robusta a oclusiones parciales y cambios en el movimiento de los

objetos (apartado 4.2). Aunque en trabajos previos se han empleado multiples

atributos para efectuar el rastreo de multiples objetos, los modelos de forma,

apariencia y movimiento propuestos en esta tesis no se habıan utilizando conjun-

tamente. La representacion propuesta es adecuada para mantener el seguimiento

de multiples personas en la escena, pues la actualizacion de los modelos de las

personas se realiza en funcion de como interactuan estas en la escena y de como

participan en los eventos de oclusion.

Un metodo de asociacion por similitud que compara las mediciones de deteccion

con las trayectorias disponibles de personas, basado en la similitud de la apariencia

y el movimiento espacial y en la cercanıa de la ubicacion de los objetos (apartado

4.3.5). La asociacion de las multiples identidades es crıtica cuando el seguimiento

de personas se plantea en 2D, ya que esta es determinante para el rastreo de las

personas.

En distintas secuencias de prueba enfocadas al ambito de la vigilancia inteligente se

demostro que el metodo propuesto es robusto en el seguimiento de multiples individuos

en escenarios con distintos eventos de interaccion y oclusiones entre personas.

6.3. TRABAJO FUTURO 93

6.3. Trabajo futuro

En esta investigacion abordamos el problema de seguimiento de personas y propu-

simos un metodo que soluciona el problema de oclusion. Sin embargo, la adaptacion

del metodo propuesto para su aplicacion en sistemas automaticos de video vigilancia

requiere de mas investigacion cientıfica.

Como trabajo futuro se proponen las siguientes lıneas de investigacion:

1. Aplicar el metodo propuesto a secuencias de imagenes con personas capturadas

mediante una camara en movimiento. Inicialmente, puede usarse una camara pan-

tilt, la cual permite movimientos en el plano vertical y en el plano horizontal. Esta

tarea requiere que el modelo de fondo se adapte al movimiento de la escena. Tam-

bien, involucra un razonamiento que permita reevaluar la posicion de los objetos

rastreados y la interaccion de estos a partir de la nueva informacion disponible.

2. Adecuar el metodo propuesto para realizar el seguimiento de multiples objetos

en secuencias de imagenes que contengan objetos de distintas clases, por ejemplo:

personas, vehıculos, maletas, etc. Esta tarea requiere de la adaptacion del esquema

de deteccion para que reconozca un objeto entre los distintos tipos. Se requiere

definir la representacion mas adecuada para cada tipo de objeto. Tambien, se

requiere adaptar las reglas de interaccion y las metricas de similitud para manejar

apropiadamente la interaccion de los objetos con objetos diferente clase.

3. Adaptar el metodo propuesto para realizar el seguimiento de personas utilizando

secuencias de prueba con distintas fuentes de iluminacion. Por ejemplo, las se-

cuencias filmadas durante la noche con luz artificial producen sombras que son

difıciles de manejar. Esta tarea requiere actualizar el modelo del fondo y mejorar

la representacion y la actualizacion del atributo de apariencia de las personas.


6.4. Artıculos de investigacion

Los artıculos de investigacion derivados de la tesis son:

[RAGMC13] C. Reta, L. Altamirano, J. A Gonzalez, and R. Medina-Carnicer.

Occlusion model from human interaction analysis for tracking mul-

tiple people. IASTED International Conference on Signal Proces-

sing, Pattern Recognition and Applications, 2013.

[RAGMC14a] C. Reta, L. Altamirano, J. A Gonzalez, and R. Medina-Carnicer.

Association algorithm to track multiple people under complex si-

tuations and occlusion. Submitted to IET Computer Vision, 2014.

[RAGMC14b] C. Reta, L. Altamirano, J. A Gonzalez, and R. Medina-Carnicer.

Three hypothesis algorithm with occlusion reasoning for multiple

people tracking. Submitted to Journal of Electronic Imaging, 2014.

Bibliografıa

[AA06] M. Antenreiter and P. Auer. A reasoning system to track movements

of totally occluded objects. In European Conference on Computer

Vision, 2006.

[ARS08] M. Andriluka, S. Roth, and B. Schiele. People-tracking-by-detection

and people-detection-by-tracking. In Computer Vision and Pattern

Recognition, pages 1–8, 2008.

[BAT11] W. Brendel, M. Amer, and S. Todorovic. Multiobject tracking as

maximum weight independent set. In Computer Vision and Pattern


[BELR10] Y. Benezeth, B. Emile, H. Laurent, and C. Rosenberger. Vision-

based system for human detection and tracking in indoor environ-

ment. International Journal of Social Robotics, 2(1):41–52, 2010.

[Bla04] S. S. Blackman. Multiple hypothesis tracking for multiple target

tracking. Aerospace and Electronic Systems Magazine, 19(1):5–18,

2004.

[BS87] Y. Bar-Shalom. Tracking and data association. Academic Press

Professional, Inc., San Diego, CA, USA, 1987.

[CAV05] CAVIAR. Context aware vision using image-based

active recognition benchmark data. EC Funded

95

96 BIBLIOGRAFIA

CAVIAR project/IST 2001 37540 found at URL:

http://groups.inf.ed.ac.uk/vision/CAVIAR/CAVIARDATA1/,

accessed June 2014, 2005.

[Col12] R. T. Collins. Multitarget data association with higher-order motion

models. In Computer Vision and Pattern Recognition, pages 1744–

1751, 2012.

[DT05] N. Dalal and B. Triggs. Histograms of oriented gradients for human

detection. In Computer Vision and Pattern Recognition, volume 1,

pages 886–893, 2005.

[ED01] A. M. Elgammal and L. S. Davis. Probabilistic framework for seg-

menting people under occlusion. In International Conference on

Computer Vision, volume 2, pages 145–152, 2001.

[FV06] L. M. Fuentes and S. A. Velastin. People tracking in surveillance

applications. Image and Vision Computing, 24(11):1165–1171, 2006.

[GVPG03] P. F. Gabriel, J. G. Verly, J. H. Piater, and A. Genon. The sta-

te of the art in multiple object tracking under occlusion in video

sequences. In Advanced Concepts for Intelligent Vision Systems, pa-

ges 166–173, 2003.

[HHT04] M. Hu, W. Hu, and T. Tan. Tracking people through occlusions. In

International Conference on Pattern Recognition, volume 2, pages

724–727, 2004.

[HTWM04] W. Hu, T. Tan, L. Wang, and S. Maybank. A survey on visual

surveillance of object motion and behaviors. Systems, Man and Cy-

bernetics, 34:334–352, 2004.

[HXTG07] M. Han, W. Xu, H. Tao, and Y. Gong. Multi-object trajectory

tracking. Machine Vision and Applications, 18(3):221–232, 2007.

BIBLIOGRAFIA 97

[HZHM09] W. Hu, X. Zhou, M. Hu, and S. Maybank. Occlusion reasoning for

tracking multiple people. Circuits and Systems for Video Technology,

19(1):114–121, 2009.

[Kal60] R. Kalman. A new approach to linear filtering and prediction pro-

blems. Journal of Basic Engineering, 82(1):35–45, 1960.

[KPB+05] R. Kaucic, A. G. A. Perera, G. Brooksby, J. Kaufhold, and A. Hoogs.

A unified framework for tracking through occlusions and across sen-

sor gaps. In Computer Vision and Pattern Recognition, volume 1,

pages 990–997, 2005.

[KS00] S. Khan and M. Shah. Tracking people in presence of occlusion. In

Asian Conference on Computer Vision, volume 5, pages 1132–1137,

2000.

[KS09] S. M. Khan and M. Shah. Tracking multiple occluding people by

localizing on multiple scene planes. Pattern Analysis and Machine

Intelligence, 31(3):505–519, 2009.

[Kuh05] HW Kuhn. The hungarian method for the assignment problem.

Naval Research Logistics, 52(1):7–21, 2005.

[LD10] Z. Lin and L. S Davis. Shape-based human detection and segmenta-

tion via hierarchical part-template matching. Pattern Analysis and

Machine Intelligence, 32(4):604–618, 2010.

[LTL+09] J. Liu, X. Tong, W. Li, T. Wang, Y. Zhang, and H. Wang. Automatic

player detection, labeling and tracking in broadcast soccer video.

Pattern Recognition Letters, 30(2):103–113, 2009.

[MPMMMM10] J. Mendez-Polanco, A. Munoz-Melendez, and E. Morales-

Manzanares. Detection of multiple people by a mobile robot in

98 BIBLIOGRAFIA

dynamic indoor environments. In Advances in Artificial Intelligence–

IBERAMIA 2010, pages 522–531, 2010.

[MSMCMCCP09] R. Munoz-Salinas, R. Medina-Carnicer, F. J. Madrid-Cuevas, and

A. Carmona-Poyato. Multi-camera people tracking using evidential

filters. International Journal of Approximate Reasoning, 50(5):732–

749, 2009.

[Mun57] James Munkres. Algorithms for the assignment and transportation

problems. Journal of the Society for Industrial & Applied Mathema-

tics, 5(1):32–38, 1957.

[MYC09] Y. Ma, Q. Yu, and I. Cohen. Target tracking with incomplete detec-

tion. Computer Vision and Image Understanding, 113(4):580–587,

2009.

[Ots79] N. Otsu. A threshold selection method from gray-level histograms.

Systems, Man and Cybernetics, 9(1):62–66, 1979.

[PET09] PETS. Performance evaluation of tracking and survei-

llance benchmark data. Reading University, UK. in con-

junction with IEEE Computer Society found at URL:

http://www.cvg.rdg.ac.uk/PETS2009/a.html, accessed June 2014,

2009.

[RAGMC13] C. Reta, L. Altamirano, J. A Gonzalez, and R. Medina-Carnicer. Oc-

clusion model from human interaction analysis for tracking multiple

people. In IASTED International Conference on Signal Processing,

Pattern Recognition and Applications, 2013.

[RAGMC14a] C. Reta, L. Altamirano, J. A Gonzalez, and R. Medina-Carnicer.

Association algorithm to track multiple people under complex situa-

tions and occlusion. Submitted to IET Computer Vision, 2014.

BIBLIOGRAFIA 99

[RAGMC14b] C. Reta, L. Altamirano, J. A Gonzalez, and R. Medina-Carnicer.

Three hypothesis algorithm with occlusion reasoning for multiple

people tracking. Submitted to Journal of Electronic Imaging, 2014.

[RNCS09] J. Ryu, Y. Nam, W. D. Cho, and M. Stanacevic. Camera place-

ment for minimizing occlusion in object tracking systems. Journal

of Ubiquitous Convergence Technology, 3(1):13–19, 2009.

[SHT+02] A. Senior, A. Hampapur, Y. L. Tian, L. Brown, S. Pankanti, and

R. Bolle. Tracking people with probabilistic appearance models. In

Performance Evaluation of Tracking and Surveillance Systems, pages

48–55, 2002.

[SHT+06] A. Senior, A. Hampapur, Y. L. Tian, L. Brown, S. Pankanti, and

R. Bolle. Appearance models for occlusion handling. Image and

Vision Computing, 24(11):1233–1243, 2006.

[SJSRC10] B. Song, T. Y. Jeng, E. Staudt, and A. Roy-Chowdhury. A stochas-

tic graph evolution framework for robust multi-target tracking. In

European Conference on Computer Vision, pages 605–619, 2010.

[SNC09] J. Sullivan, P. Nillius, and S. Carlsson. Multi-target tracking on a

large scale: Experiences from football player tracking. In Proceedings

of the IEEE ICRA 2009 workshop on people detection and tracking,

2009.

[UCL11] UCLA. Dataset of people images. UCLA

Department of Statistics. Found at URL:

http://www.stat.ucla.edu/∼ywu/AB/people200clusterRRCode.zip,

accessed June 2014, 2011.

[UCO11] UCO. Multi-camera pedestrian videos data set. Aplicaciones de la

Vision Artificial (AVA) group. University of Cordoba, Spain, 2011.

100 BIBLIOGRAFIA

[VGC11] R. Vezzani, C. Grana, and R. Cucchiara. Probabilistic people trac-

king with appearance models and occlusion classification: The ad-

hoc system. Pattern Recognition Letters, 32(6):867–877, 2011.

[WN05] B. Wu and R. Nevatia. Detection of multiple, partially occluded

humans in a single image by bayesian combination of edgelet part

detectors. In International Conference on Computer Vision, volu-

me 1, pages 90–97, 2005.

[WN07] B. Wu and R. Nevatia. Detection and tracking of multiple, partially

occluded humans by bayesian combination of edgelet based part de-

tectors. International Journal of Computer Vision, 75(2):247–266,

2007.

[WN09] B. Wu and R. Nevatia. Detection and segmentation of multiple, par-

tially occluded objects by grouping, merging, assigning part detec-

tion responses. International journal of computer vision, 82(2):185–

204, 2009.

[WPZZ10] M. Wu, X. Peng, Q. Zhang, and R. Zhao. Patches-based markov

random field model for multiple object tracking under occlusion.

Signal Processing, 90(5):1518–1529, 2010.

[WSGZ10] Y. N. Wu, Z. Si, H. Gong, and S. C. Zhu. Learning active basis

model for object detection and recognition. International Journal of

Computer Vision, pages 198–235, 2010.

[WYXY09] Z. Wang, X. Yang, Y. Xu, and S. Yu. Camshift guided particle filter

for visual tracking. Pattern Recognition Letters, 30(4):407–413, 2009.

[YCHC10] H. H. Yeh, J. Y. Chen, C. R. Huang, and C. S. Chen. An adap-

tive approach for overlapping people tracking based on foreground

BIBLIOGRAFIA 101

silhouettes. In International Conference on Image Processing, pages

3489–3492, 2010.

[YJS06] A. Yilmaz, O. Javed, and M. Shah. Object tracking: A survey. ACM

Computing Surveys, 38(4):13, 2006.

[YN12] B. Yang and R. Nevatia. An online learned CRF model for multi-

target tracking. In Computer Vision and Pattern Recognition, pages

2034–2041, 2012.

[YO07] J. Yao and J. M. Odobez. Multi-layer background subtraction based

on color and texture. In Computer Vision and Pattern Recognition,

pages 1–8, 2007.

[ZLN08] L. Zhang, Y. Li, and R. Nevatia. Global data association for multi-

object tracking using network flows. In Computer Vision and Pattern


[ZTJ07] B. Zhang, W. Tian, and Z. Jin. Efficient hybrid appearance model

for object tracking with occlusion handling. Optical Engineering,

46(8), 2007.

[ZYS09] H. Zhou, Y. Yuan, and C. Shi. Object tracking using SIFT fea-

tures and mean shift. Computer Vision and Image Understanding,

113(3):345–352, 2009.

[ZZS08] Lin Zhu, Jie Zhou, and Jingyan Song. Tracking multiple objects th-

rough occlusion with online sampling and position estimation. Pat-

tern Recogn., 41(8):2447–2460, 2008.

Seguimiento de M´ultiples Personas considerando Oclusi´on ...Agradecimientos A mi asesor, Dr....

Documents

Transcript of Seguimiento de M´ultiples Personas considerando Oclusi´on ...Agradecimientos A mi asesor, Dr....