DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA...

43
DISEÑO, IMPLEMENTACIÓN Y DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote Ponente: Juan Manuel Montero Martínez

Transcript of DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA...

Page 1: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

DISEÑO, IMPLEMENTACIÓN Y DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS EVALUACIÓN DE TÉCNICAS

DE IDENTIFICACIÓN DE DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA EMOCIONES A TRAVÉS DE LA

VOZVOZ

Autora: Carmen Rincón LlorenteTutor: Roberto Barra Chicote

Ponente: Juan Manuel Montero Martínez

Page 2: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

ÍNDICE1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones

basados en información segmental6. Experimentos de identificación de emociones

basados en información prosódica7. Conclusiones8. Líneas futuras

Page 3: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones

basados en información segmental6. Experimentos de identificación de emociones

basados en información prosódica7. Conclusiones8. Líneas futuras

Page 4: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

1. INTRODUCCIÓN

• ¿Qué es una emoción?

• Estado emocional variaciones en la voz (características segmentales y prosódicas)

• Comunicación verbal patrón específico y universal de las emociones

• Función comunicativa y valorativa de las emociones identificación para mejorar la interacción hombre-máquina

Page 5: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

1. Introducción

2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones

basados en información segmental6. Experimentos de identificación de emociones

basados en información prosódica7. Conclusiones8. Líneas futuras

Page 6: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

2. OBJETIVOS

• Identificación basada en rasgos segmentales• Identificación basada en rasgos prosódicos• Análisis de la naturaleza de las emociones

similitudes y diferencias entre castellano y alemán

• Aplicación de técnicas de normalización • Evaluación de resultados automáticos (con

entrenamiento) vs resultados perceptuales (oyentes no entrenados)

Page 7: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

1. Introducción2. Objetivos

3. Descripción de las bases de datos3.1. SES3.2. EMODB

4. Descripción del sistema5. Experimentos de identificación de emociones basados

en información segmental6. Experimentos de identificación de emociones basados

en información prosódica7. Conclusiones8. Líneas futuras

Page 8: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Base de datos en castellano• Monolocutor (varón) • Alegría, Enfado (en frío), Sorpresa, Tristeza y

voz Neutra• Composición del corpus:

– 56 párrafos (~ 39 minutos)– 210 frases grabadas de forma

independiente (~ 7 minutos)– 196 frases extraídas del párrafo cuarto

(~ 12,5 minutos)• Etiquetada fonética y prosódicamente

3.1. Spanish Emotional Speech (SES)

Page 9: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Base de datos en alemán

• Multilocutor: 10 locutores

• Alegría, Enfado (en caliente), Tristeza, Aburrimiento, Asco, Miedo y voz Neutra

• Etiquetada fonéticamente

• 535 ficheros de audio (24,35 minutos)

3.2. Berlin Database of Emotional Speech

(EMODB) (I)

Page 10: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

3.2. Berlin Database of Emotional Speech

(EMODB) (II)

Page 11: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

1. Introducción2. Objetivos3. Descripción de las bases de datos

4. Descripción del sistema5. Experimentos de identificación de emociones

basados en información segmental6. Experimentos de identificación de emociones

basados en información prosódica7. Conclusiones8. Líneas futuras

Page 12: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Modelo GMM:

• Clasificador bayesiano:

kkkt

jjt

t

jjttj EPExp

EPExp

xP

EPExpxEp

)()/(

)()/(

)(

)()/()/(

m

iiiijt xNExp

1

),;()/(

¿PARÁMETROS NORMALIZADOS?

NORMALIZACIÓNCMN/CVN

SI

NO

EMOCIÓN IDENTIFICA

DA

ENTRENAMIENTO

CLASIFICACIÓN

arg Maxj {p(Ej/x)}MODELOS

(GMM)

PARAMETRIZACIÓN

EMODBSES

DIAGRAMA DE BLOQUES

Page 13: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Basada en características segmentales

Extraeremos 12 MFCC a partir de la señal de voz según el siguiente esquema:

4.1. Parametrización (I)

Page 14: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Basada en características prosódicas– Prosodia: analiza y representa formalmente

elementos suprasegmentales de la expresión oral (acento, tono, ritmo, entonación).

– Características estudiadas:• Relacionadas con el contorno de F0:

– Valor medio de F0

– Máximo y mínimo de F0

– Rango de F0

– Pendiente ascendente y descendente de grupos acentuales

• Relacionadas con el ritmo: – Velocidad de locución de la frase

– Velocidad de cada grupo acentual

4.1. Parametrización (II)

Page 15: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

Contorno de F0

Contorno de F0 interpolado

División en grupos acentuales

Señal de voz

GA1 GA2 GA3

Time (s)0 1.936

Time (s)0 1.936

-0.2748

0.4879

0

Time (s)0 1.936

50

200

Time (s)0 1.936

50

200

Time (s)0 1.936

50

200

Time (s)0 1.936

50

200

4.1. Parametrización (III)

Page 16: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• CMN (normalización respecto a la media)– Estimada sobre toda la voz del locutor– Estimada sobre la voz neutra del locutor

• CVN (normalización respecto a la varianza)– Estimada sobre toda la voz del locutor– Estimada sobre la voz neutra del locutor

• CMN/CVN (normalización respecto a la media y varianza)– Estimada sobre toda la voz del locutor– Estimada sobre la voz neutra del locutor

4.2. Normalización

Page 17: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

1. Introducción2. Objetivos3. Descripción de las emociones4. Descripción del sistema

5. Experimentos de identificación de emociones basados en información segmental5.1. SES5.2. EMODB5.3. SES & EMODB

6. Experimentos de identificación de emociones basados en información prosódica

7. Conclusiones8. Líneas futuras

Page 18: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Tipos de Experimentos

• Tasas de identificación medias

5.1. MFCCSES – Sin normalizar (I)

Page 19: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Tasas de identificación para cada emoción

– Clasificación de frases

– Clasificación de párrafos• Experimento 4:

– Se identifica siempre la alegría, el enfado, la tristeza y la voz neutra.– La sorpresa se confunde con la alegría (50%).

• Experimento 5: – Se identifican siempre el enfado, la sorpresa, la tristeza y la voz neutra.– La alegría siempre se identifica salvo en uno de los párrafos, que se

confunde con la voz neutra.

5.1. MFCCSES – Sin normalizar (II)

Page 20: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Experimento 2 (sin compartición de texto y adecuada distribución de los datos de entrenamiento y clasificación)

• Tasas de identificación medias:

Mejora relativa del error

Tasa de identificación

5.1. MFCCSES – Normalizando (I)

Page 21: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Tasas de identificación para cada emoción– Emociones que mejor se identifican tristeza, enfado y voz

neutra– Emociones que peor se identifican alegría y sorpresa (se

confunden entre ellas)– Menor precisión del enfado (88%) frente a la tristeza y neutra

(96%)– Tasas de error y mejora relativa del error al emplear vectores

de características normalizados:

5.1. MFCCSES – Normalizando (II)

Page 22: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

5.2. MFCC – EMODB (I)

• Metodología: – Entrenamiento con 9 locutores y clasificación con el

restante

• Tasas de identificación medias:

Mejora relativa del error

Tasa de identificación

Page 23: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

5.2. MFCC – EMODB (II)

• Tasas de identificación para cada emoción (normalizando con CMN/CVN respecto a la voz del locutor):

Page 24: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

a) Train SES – Test EMODB

b) Train EMODB – Test SES

EXPERIMENTOS: – Sin normalizar– Normalización respecto a la voz del locutor

• CMN, CVN y CMN/CVN

– Normalización respecto a la voz del neutra locutor

• CMN, CVN y CMN/CVN

5.3. MFCCSES & EMODB

Page 25: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Tasas de identificación medias– Del orden de las que obteníamos sólo

con EMODB • 42% (1 gausiana) a 50% (5 gausianas)

– Mejor normalización CMN/CVN • respecto a la voz del locutor (9% de mejora

relativa)• respecto a la voz neutra del locutor (11,33%

de mejora relativa)

5.3. MFCCTrain SES – Test EMODB (I)

Page 26: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• normalizando CMN+CVN respecto a la voz del locutor

Reconocimiento de Emociones Independiente de Idioma

Page 27: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Emoción que mejor se identifica tristeza (100%)

• Confusión de todas las emociones, salvo la tristeza, con la sorpresa– Enfado (81,10%)– Alegría (50,70%)– Miedo (46,38%)

• Cierta confusión con la alegría (asco, 45%)

5.3. MFCCTrain SES – Test EMODB (III)

(Similitud entre emociones de ambos idiomas)

Page 28: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Mejoras al normalizar no significativas• Tasas de identificación para cada emoción

(clasificación de los párrafos de SES)– Tristeza y neutra siempre se identifican– Identificación elevada de la alegría,

confundiéndose con la voz neutra cuando no se identifica

– Confusión del enfado con la alegría y con la voz neutra

• Tasas de identificación para cada emoción (clasificación de las frases de SES)– La voz neutra siempre se identifica, pero el resto

de emociones se confunden con ella, por lo que su precisión es baja

5.3. MFCCTrain EMODB – Test SES

Page 29: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones basados

en información segmental

6. Experimentos de identificación de emociones basados en información prosódica

7. Conclusiones8. Líneas futuras

Page 30: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Realizados sólo con SES (frases independientes)

• Tipos de experimentos:– Relacionados con el contorno de F0 – Relacionados con el ritmo (velocidad de locución

de la frase y velocidad de locución de los grupos acentuales)

• Experimentos con todos los grupos acentuales, sólo con los iniciales, sólo con los finales y sólo con los medios

6. Identificación basada en información prosódica

Page 31: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

6.1. Experimentos relacionados con el contorno de F0 (I)

• Resultados de los experimentos empleando todos los GA:

Valor medio F0 Máximo F0 Mínimo F0 Rango F0Pendiente

ascendente GAPendiente

descendente GA

Page 32: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

– Emoción que mejor se identifica sorpresa (97,77%) (la información principal de la sorpresa se encuentra en los GA iniciales y medios)

– La información prosódica de la tristeza se encuentra en los GA medios (92,3%)

– La alegría sólo se identifica usando los GA medios (51,27%)

– El enfado sólo se identifica usando los GA iniciales (46,8%)

– Confusión de la alegría con el enfado al emplear los GA iniciales (44,43%)

– La sorpresa nunca se confunde con la tristeza ni con la voz neutra, y viceversa

6.1. Experimentos relacionados con el contorno de F0 (II)

Page 33: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Velocidad de locución de la frase:– Sólo se identifican la tristeza (80%) y la voz neutra (69%)– Confusiones:

• Enfado con sorpresa (42%) y tristeza (42%)• Sorpresa con tristeza (58%)• Alegría con voz neutra (58%)

– Precisiones bajas– Patrón unívoco para la tristeza y la voz neutra

• Velocidad de cada grupo acentual:– Emoción que mejor se identifica tristeza (87,17%)– Elevada tasa de confusión del enfado y la sorpresa, con la

tristeza baja precisión de la tristeza– Elevada tasa de identificación de la voz neutra empleando

todos los GA (74,77%) o los GA medios (72,77%)

6.2. Experimentos relacionados con el ritmo

Page 34: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones

basados en información segmental6. Experimentos de identificación de emociones

basados en información prosódica

7. Conclusiones8. Líneas futuras

Page 35: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

7.1. CONCLUSIONES: MFCC - SES

• Importancia del estilo de interpretación de las emociones (párrafos/frases)

• Tasa de identificación media elevada ( 92%)

• Emociones que mejor se identifican– Tristeza (93%), enfado (92%) y voz neutra (92%)

• Emociones que peor se identifican – Alegría (80%) y sorpresa (89%)

• Mejor normalización– CMN/CVN respecto a la voz neutra del locutor ( 32%)

Page 36: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

7.2. CONCLUSIONES: MFCC - EMODB

• Tasa de identificación media sin normalizar 46%

• Mejor normalización– CMN/CVN respecto a la voz del locutor

– Mejoras consistentes (18% relativo)• Emoción que mejor se identifica

– Tristeza (95%)

• Emociones que peor se identifican – Miedo (45%)– Alegría (42%). La alegría se confunde

principalmente con el enfado y el miedo.

Page 37: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

7.3. CONCLUSIONES:MFCC – SES & EMODB

• Emoción que mejor se identifica – Tristeza características comunes en ambos

idiomas• Train SES, Test EMODB

– Tasas de identificación medias similares a cuando empleamos solamente EMODB (≈50%)

– Agrupamiento en alegría-enfado y tristeza-neutra• Train EMODB, Test SES

– Voz neutra en alemán la más cercana a las emociones en castellano

• Similitud entre emociones de ambos idiomas – Todas las emociones tienden a confundirse con la

sorpresa y con la alegría (excepto la tristeza)

Page 38: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

7.4. CONCLUSIONES:Prosodia - SES

• Características relacionadas con el contorno de F0:– Emociones muy prosódicas sorpresa (97,77%),

tristeza (92,3%) y neutra (94,83%)– Emociones poco prosódicas alegría (51,27%) y

enfado (46,8%)

• Características relacionadas con el ritmo:– Se produce gran confusión– Elevada tasa de identificación de la tristeza

(87,17%)– Elevada tasa de confusión de la sorpresa

(75,57%) y el enfado (70%) con la tristeza

Page 39: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

7.5. Comparativa con estudios anteriores

Conclusiones de este proyecto

Conclusiones de la tesisde Juan Manuel Montero

Neutra (común en ambos estudios)

+PROSÓDICA

SEGMENTAL

Neutra

Enfado

Alegría

Tristeza

Sorpresa

Enfado Tristeza

Sorpresa

-

+

-

Alegría

Entrenamiento

Alegría

Alegría

Otros estudios

Page 40: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones

basados en información segmental6. Experimentos de identificación de emociones

basados en información prosódica7. Conclusiones

8. Líneas futuras

Page 41: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

8. LÍNEAS FUTURAS (I)• Aplicación de los experimentos realizados

sobre la futura base de datos SEV• Combinación de características prosódicas

y segmentales basadas en técnicas de combinación de clasificadores disponibles en el Grupo

• Identificación de emociones basada en información prosódica con datos de EMODB

• Aplicación de técnicas de normalización en los vectores de características basados en rasgos prosódicos

Page 42: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

• Sustitución del modelo GMM por el modelo HMM, introduciendo la variación temporal

• Consideración de nuevas características prosódicas: – Contorno de F0 de los grupos acentuales– Características relacionadas con la intensidad– Evolución del máximo de F0 en los distintos

grupos acentuales– Derivada de la velocidad de locución

• Base de datos DES comparación entre el castellano, el alemán y el danés

8. LÍNEAS FUTURAS (II)

Page 43: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote.

MUCHAS GRACIAS