FACULTAD ESTADÍSTICA E INFORMÁTICA

UNIVERSIDAD VERACRUZANA FACULTAD ESTADÍSTICA E INFORMÁTICA

Medidas Fisiológicas para Evaluación de Usabilidad: el Caso del Ritmo Cardíaco.

TESIS

QUE PARA OBTENER EL GRADO DE:

Maestro en Sistemas Interactivos Centrados en el Usuario

PRESENTA:

Edgar Daniel Morales Pérez

DIRECTORES:

Dr. Edgard Iván Benítez Guerrero

Dra. María del Carmen Mezura Godoy

Xalapa, Veracruz Enero de 2018

Agradecimientos

Agradezco a mi familia por su apoyo

incondicional y consejos durante toda mi vida.

Cada uno de mis logros son dedicados a

ustedes.

A mis directores de tesis, Dr. Edgard Iván

Benítez Guerrero y Dra. Ma. del Carmen

Mezura Godoy, por su paciencia, consejos y

todo su apoyo.

A los sinodales, Dr. José Rafael Rojano

Cáceres, Dr. Luis Gerardo Montané Jiménez,

y Dr. Guillermo Gilberto Molero Castillo.

Este trabajo fue desarrollado con el apoyo del

Consejo Nacional de Ciencia y

Tecnología(CONACYT), gracias a un beca

para realizar estudios de posgrado (No. de

Beca 423510 y No. de Registro 590668).

Esta tesis se desarrolló en el marco del

proyecto de Cátedras CONACYT denominado

�Infraestructura para Agilizar el Desarrollo de

Sistemas Centrados en el Usuario� (Ref.

3053).

vii

Resumen

La mayor parte de las evaluaciones de usabilidad se basan en cuestionarios, para

convertir información subjetiva (opinión del usuario) en información objetiva. Sin

embargo, los usuarios pueden sentirse cohibidos o ser incapaces de decidir cuando las

diferencias entre los sistemas de software son muy sutiles.

Existen otras técnicas que pueden contribuir a aumentar la comprensión sobre la

percepción del producto por parte del usuario mediante la incorporación de medidas

�siológicas que no involucren los procesos conscientes.

En este trabajo se presentan los resultados de un estudio exploratorio acerca de

la utilización del ritmo cardíaco (HR, por sus siglas en inglés) para la valoración de

la apreciación del usuario sobre el sistema. Primeramente, se ha llevado a cabo una

aplicación en un SmartWatch para obtener la respuesta �siológica, que ha sido re�nado

mediante la realización de un estudio exploratorio. Esta señal se adquirió de 14 personas

que interactuaban dos interfaces para realizar consultas a una base de datos.

Esto se realizó con el objetivo de poder obtener un conjunto de variables para

caracterizar a la señal �siológica mediante estadística básica. Para posteriormente

utilizar esta caracterización como entrada a un algoritmo de aprendizaje de árboles

de decisión con el afán de buscar posibles patrones que pudiesen predecir la percepción

del usuario sin necesidad de aplicar cuestionarios.

Los resultados mostraron evidencia de que los valores de HR podrían ser utilizados

para predecir una cali�cación de usabilidad y que el análisis de las medidas �siológicas

tiene un gran potencial para mejorar la comprensión sobre la usabilidad del sistema.

Aunque se requieren estudios mas extensos para con�rmarlo.

Durante las últimas décadas, se han desarrollado técnicas y metodologías para

comprender los procesos de una evaluación de usabilidad basados, la mayoría de ellos, en

ix

Resumen

la opinión del usuario. Se con�rmó que las medidas �siológicas al generarse de manera

subconsciente desempeñan un papel de gran valor en la investigación de usabilidad.

x

Abstract

Most of usability evaluations are based on questionnaires, to convert subjective

information (user opinion) into objective information. However, users may feel self-

conscious or unable to decide when the di�erences between products are very subtle.

There are other techniques that can contribute to increase the understanding of the

perception of the product by the user by incorporating physiological measures that do

not involve conscious processes.

In this paper we present the results of an exploratory study about the use of heart

rate (HR) to assess the user's appreciation of the system. Firstly, an application has

been carried out in a SmartWatch to obtain the physiological response, which has been

re�ned by carrying out an exploratory study. This signal was acquired from 14 people

who interacted with two interfaces to query a database.

This was done in order to obtain a set of variables to characterize the physiological

signal through basic statistics. To later use this characterization as input to a decision

tree learning algorithm with the aim of looking for possible patterns that could predict

the users perception without the need to apply questionnaires.

The results showed evidence that HR values could be used to predict a usability

score and that the analysis of physiological measures has a great potential to improve

the understanding of the usability of the system. although more extensive studies are

required to con�rm it.

During the last decades, techniques and methodologies have been developed to

understand the processes of a usability evaluation based, most of them, on the

opinion of the user. It was identi�ed that the physiological measures to be generated

subconsciously play a role of great value in usability research.

xi

Índice

Agradecimientos vii

Resumen ix

Abstract xi

1. Introducción 1

1.1. Usabilidad del Software . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. De�nición del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4. Preguntas de Investigación . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.5. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.6. Enfoque adoptado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.7. Organización de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2. Trabajos Relacionados 7

2.1. Usabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.1. De�nición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.2. Atributos de Usabilidad . . . . . . . . . . . . . . . . . . . . . . 8

2.1.3. Métodos de Evaluación de Usabilidad . . . . . . . . . . . . . . . 9

2.2. Medidas Fisiólogicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

xiii

Índice

2.2.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.2. Medidas Fisiológicas Comunes . . . . . . . . . . . . . . . . . . . 19

2.2.3. Actividad Electrodérmica . . . . . . . . . . . . . . . . . . . . . 20

2.2.4. Actividad Eléctrica Cerebral . . . . . . . . . . . . . . . . . . . . 22

2.3. Usabilidad y Señales Fisiológicas . . . . . . . . . . . . . . . . . . . . . 22

2.3.1. Trabajo de Lin et al. (2005) . . . . . . . . . . . . . . . . . . . . 22

2.3.2. Trabajo de Sperry y Fernandez (2008) . . . . . . . . . . . . . . 24

2.3.3. Trabajo de Forne (2012) . . . . . . . . . . . . . . . . . . . . . . 25

2.3.4. Trabajo de Yao et al. (2014) . . . . . . . . . . . . . . . . . . . . 27

2.3.5. Trabajo de J. Hernández (2015) . . . . . . . . . . . . . . . . . . 29

2.3.6. Trabajo de Udovivic et al. (2017) . . . . . . . . . . . . . . . . . 30

2.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3. Marco Metodológico 35

3.1. Diseño experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.2. Participantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.3. Materiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.3.1. Sensor SmartWatch y Aplicación . . . . . . . . . . . . . . . . . 37

3.3.2. Software para Visualizar el HR . . . . . . . . . . . . . . . . . . 38

3.3.3. Interfaces Prototipo . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3.4. Lista de Tareas . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3.5. Cuestionario SUS . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.4. Procedimiento de recolección de datos . . . . . . . . . . . . . . . . . . . 41

3.5. Procedimiento de análisis de datos . . . . . . . . . . . . . . . . . . . . 42

3.6. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

xiv

Índice

4. Resultados y discusión 47

4.1. Caracterización de los datos recolectados . . . . . . . . . . . . . . . . . 47

4.1.1. Datos del ritmo cardiaco . . . . . . . . . . . . . . . . . . . . . . 47

4.1.2. Datos del cuestionario SUS . . . . . . . . . . . . . . . . . . . . . 50

4.2. Predicción de usabilidad a partir del ritmo cardiaco . . . . . . . . . . . 53

4.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5. Conclusiones y Trabajo Futuro 59

5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.2. Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Bibliografía 63

A. Instrumentos de medición 67

A.1. Cuestionario - Demográ�co . . . . . . . . . . . . . . . . . . . . . . . . . 67

A.2. Cuestionario - Experiencia SQL . . . . . . . . . . . . . . . . . . . . . . 69

A.3. Cuestionario - SUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

xv

Índice de �guras

2.1. Comparación de cuestionarios de usabilidad (Tullis y Stetson, 2004) . . 16

2.2. Sistema Simpático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3. Capas de la piel humana (Carranza y Gajardo, 2009) . . . . . . . . . . 21

2.4. Escena del experimento de Lin et al. (2005) . . . . . . . . . . . . . . . 23

2.5. Escena del experimento de Sperry y Fernandez (2008) . . . . . . . . . . 25

2.6. Escena del experimento de Forne (2012) . . . . . . . . . . . . . . . . . 26

2.7. Escena del experimento de Yao et al. (2014) . . . . . . . . . . . . . . . 28

2.8. Escena del experimento de J. Hernández (2015) . . . . . . . . . . . . . 29

2.9. Escena del experimento de Udovivic et al. (2017) . . . . . . . . . . . . 30

3.1. Participantes en la prueba . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2. SmartWatch Gear S2 samsung R© . . . . . . . . . . . . . . . . . . . . . 38

3.3. Aplicación para Medir HR . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.4. Software para Visualizar HR de los Participantes . . . . . . . . . . . . 38

3.5. Interfaz de Consulta Visual (VQI) . . . . . . . . . . . . . . . . . . . . . 39

3.6. Interfaz de Consulta por Linea de Comandos (CLQI) . . . . . . . . . . 40

3.7. Porcentaje para el puntaje valor del cuestionario SUS . . . . . . . . . . 41

3.8. Librerias utilizadas (Pedregosa et al., 2011) . . . . . . . . . . . . . . . . 42

3.9. Separación de datos entrenamiento y prueba . . . . . . . . . . . . . . . 43

3.10. Creación del modelo y validación . . . . . . . . . . . . . . . . . . . . . 43

xvii

Índice de figuras

3.11. Impresión árbol de Clasi�cación . . . . . . . . . . . . . . . . . . . . . . 44

4.1. Variación del ritmo cardiaco del participante 1 . . . . . . . . . . . . . . 48

4.2. Resumen del HR para los 14 participantes . . . . . . . . . . . . . . . . 50

4.3. Porcentaje SUS de cada Participante para VQI . . . . . . . . . . . . . 51

4.4. Porcentaje SUS de cada Participante para CLQI . . . . . . . . . . . . . 51

4.5. Descripción del árbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.6. Árbol de decisión para VQI . . . . . . . . . . . . . . . . . . . . . . . . 56

4.7. Reglas para árbol de decisión en VQI . . . . . . . . . . . . . . . . . . . 56

4.8. Árbol de decisión para CLQI . . . . . . . . . . . . . . . . . . . . . . . . 57

4.9. Reglas para árbol de decisión en CLQI . . . . . . . . . . . . . . . . . . 57

4.10. Porcentaje de precisión VQI . . . . . . . . . . . . . . . . . . . . . . . . 58

4.11. Porcentaje de precisión CLQI . . . . . . . . . . . . . . . . . . . . . . . 58

xviii

Índice de Tablas

3.1. Caracteristicas de smartwatch GEAR S2 Samsung R© . . . . . . . . . . 37

3.2. Tareas realizadas por los participantes . . . . . . . . . . . . . . . . . . 40

3.3. Escala de cali�cación de puntaje SUS de (Sauro y Lewis, 2016) . . . . . 44

4.1. Estadísticas Básicas de VQI . . . . . . . . . . . . . . . . . . . . . . . . 48

4.2. Estadísticas Básicas de CLQI . . . . . . . . . . . . . . . . . . . . . . . 49

4.3. Relación puntaje SUS y escala Sauro y Lewis (2016) para VQI por

participante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.4. Relación puntaje SUS y escala Sauro y Lewis (2016) para CLQI por

participante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.5. Conjunto de datos de VQI . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.6. Conjunto de datos de CLQI . . . . . . . . . . . . . . . . . . . . . . . . 54

xix

Capítulo 1

Introducción

1.1. Usabilidad del Software

Hoy en día existen un sinfín de sistemas que apoyan diariamente al usuario �nal a

alcanzar sus objetivos. Estos sistemas juegan un papel importante porque apoyan al

usuario a realizar sus tareas de forma rápida y cómoda. Sin embargo, como a�rman

Martín et al. (2017), muchas veces estos sistemas tienen un bajo nivel de usabilidad y

son responsables de pérdida de tiempo, desmotivación y frustración del usuario en su

interacción.

La usabilidad, según la norma ISO 9241:11, se de�ne como la medida en la que un

producto se puede usar por determinados usuarios para conseguir objetivos especí�cos

con efectividad, e�ciencia y satisfacción en un contexto de uso especí�co. Es decir, la

usabilidad puede considerarse como un atributo de calidad que evalúa la facilidad de

uso de un sistema o interfaz tomando en cuenta estos tres conceptos. La usabilidad

es tan importante, que como lo a�rma Aguilar (2017), está relacionada con el éxito o

fracaso de un producto.

Dada esa importancia, se han buscado opciones para evaluar la usabilidad de

software. En este contexto han surgido un número importante de métodos para evaluar

e�ciencia, e�cacia y satisfacción, mismos que se clasi�can en tres categorías: métodos de

inspección, métodos de indagación y métodos de evaluación por test (Cruz et al., 2015).

Los métodos de inspección agrupan a la evaluación Heurística, recorridos cognitivos.

1

Capítulo 1. Introducción

Cuando se utiliza este tipo de métodos se confía en la opinión y los informes de los

evaluadores y de los usuarios. Por otro lado, los métodos de indagación contemplan a

la observación de campo, entrevistas, cuestionarios y grabaciones, los cuales permiten

una interacción directa con el usuario para obtener respuestas a preguntas formuladas

entablando conversaciones. Por último, el método de evaluación por test comúnmente

se re�ere a cuestionarios para medir particularmente la satisfacción de los usuarios.

Los métodos anteriores conducen a datos tanto cuantitativos como cualitativos

que proporcionan información que sirve para realizar una medición de usabilidad. Sin

embargo, Lazar et al. (2017) describen las numerosas formas en que los cuerpos de

los usuarios pueden actuar como dispositivos de generación de datos, dado que en el

cuerpo humano se generan de forma autónoma reacciones a estímulos externos y que

son conocidas como señales �siológicas. De igual forma, expresa que estas medidas

pueden ayudar a los investigadores a obtener una visión signi�cativa de la forma en

que los usuarios trabajan con una interfaz, sin que intervengan de forma directa con

la valoración de usabilidad. Por esta razón, este trabajo se interesa en la evaluación de

usabilidad y en buscar formas de medirla que eviten criterios subjetivos tradicionales.

Una alternativa es incluir medidas �siológicas, en la evaluación de usabilidad de un

sistema.

1.2. De�nición del problema

La usabilidad se puede medir de dos formas, ya sea por variables objetivas o bien

por variables subjetivas (Cruz et al., 2015). Las primeras ayudan a medir de forma

cuanti�cable la e�cacia de un sistema, como el número de errores del usuario durante

la realización de una tarea, así como la e�ciencia del mismo, como el tiempo empleado

por el usuario para la consecución de una tarea. Las variables subjetivas, por su parte,

miden el grado de satisfacción del usuario al utilizar el producto, para esto se utilizan:

test de usuarios, card sorting, heurísticas, prototipos, entre otros.

La evaluación de satisfacción trae consigo respuestas por parte del usuario que

son subjetivas. Esto representa un problema porque ese tipo de datos no apoyan

adecuadamente la toma de decisiones. Se hacen necesarios entonces métodos para

evaluar objetivamente la usabilidad (particularmente la satisfacción) de un sistema.

2

1.2. De�nición del problema

Una opción es incluir medidas �siológicas, como el ritmo cardíaco (HR), la respuesta

galvánica de la piel (GSR) y la temperatura corporal (BTC), entre otras, en la

evaluación de la satisfacción de un sistema. Al respecto, Sperry y Fernandez (2008)

y Shi et al. (2007) indican que es posible que las respuestas �siológicas del usuario

contribuyan en la evaluación de interfaces, ya que permiten identi�car factores y eventos

que causan cambios en el nivel de activación del usuario al percibir estímulos. Estos

cambios pueden surgir como resultado de emociones negativas o positivas asociadas a la

frustración, satisfacción o a momentos de elevada carga de trabajo al realizar una tarea.

Dicho de otra forma, al basar la evaluación de la satisfacción en métricas cuantitativas

principalmente involuntarias (a menudo subconscientes) y ligadas a estímulos externos,

se podría eliminar la subjetividad que los métodos tradicionales introducen.

Es importante señalar que este no es un problema trivial. Para responder la pregunta

¾Es posible medir qué tan satisfecho está un usuario al usar un software a partir de

reacciones �siológicas de su cuerpo?, es necesario responder preguntas como ¾Qué

medida(s) �siológica(s) es (son) adecuada(s)? ¾Qué formas de recolección de datos

�siológicos son apropiadas? ¾De qué manera se pueden relacionar los datos �siológicos

con los de satisfacción?

Con respecto a estas preguntas, trabajos como Sauro y Lewis (2016); J. Hernández

(2015); Foglia et al. (2014), han explorado medidas como el ritmo cardíaco (HR) o la

respuesta galvánica de la piel (GSR). Tales medidas han sido comunmente medidas

utilizando sensores corporales. La búsqueda de relaciones entre los datos �siológicos y

los de satisfacción ha pasado usualmente por el uso de técnicas estadísticas tradicionales.

Los trabajos mencionados son importantes porque fueron los primeros en abordar

la problemática mencionada. No obstante, estos tuvieron di�cultades derivadas, por

ejemplo, del uso de sensores corporales que si bien son exactos, resultan invasivos para

los usuarios porque les impiden realizar una actividad de forma natural. Además, se

han limitado al uso de técnicas tradicionales de análisis estadístico, quedando por

explorar otro tipo de técnicas de análisis, como las de Aprendizaje Automático. Se

hacen entonces necesarios trabajos que aporten soluciones considerando tales aspectos.

El presente trabajo va en esa vía.

3


1.3. Hipótesis

Una solución de cómputo basada en sensores poco invasivos y en técnicas de

aprendizaje automático que considere la �siología del usuario, en particular su ritmo

cardíaco, permite predecir la satisfacción del usuario al usar un software.

1.4. Preguntas de Investigación

Las preguntas de investigación que guían este trabajo son las siguientes:

¾Qué medida(s) �siológica(s) es (son) apta(s) para buscar relacionarla con la

satisfacción del usuario?

¾Qué sensores no invasivos pueden utilizarse para recolectar datos �siológicos?

¾Qué técnicas de Aprendizaje Automático se pueden utilizar para predecir la

satisfacción del usuario a partir de las señales �siológicas?

Dada la amplitud de posibilidades, este trabajo utiliza sensores integrados en relojes

inteligentes (smartwatches) para el monitoreo del ritmo cardiaco como señal �siológica,

como lo sugieren Shahmohammadi et al. (2017). Estos dispositivos son muy populares

debido a que combinan características de los teléfonos inteligentes para un monitoreo

continuo de datos, sin intervenir en la interacción con el usuario. Además, no son

voluminosos y pueden ser usados durante cualquier actividad.

Con respecto a las técnicas de Aprendizaje Automático, existe un amplio número

para llevar a cabo tareas de descripción o predicción. En este trabajo se ha optado por

utilizar un algoritmo de inducción de árboles de decisión, de tipo CART, dado que éste

puede ser interpretado rápidamente por una persona.

4

1.5. Objetivos

1.5. Objetivos

El objetivo general de este trabajo es:

Determinar si es posible predecir una evaluación de satisfacción de uso de un software

a partir de datos del ritmo cardiaco del usuario obtenidos por un sensor empotrado en

un smartwatch y analizados mediante un algoritmo de inducción de árboles de

clasi�cación.

Los objetivos especí�cos son:

Recopilar de los trabajos relacionados un conjunto de variables para caracterizar

al ritmo cardiaco así como una forma de medir la satisfacción del usuario.

Diseñar y ejecutar experimentos para la recuperación de datos cuantitativos de

ritmo cardíaco y cualitativos de satisfacción.

Aplicar un algoritmo de inducción de árboles de clasi�cación a los datos obtenidos

para identi�car posibles patrones de predicción.

1.6. Enfoque adoptado

El desarrollo del trabajo se dividió en las siguientes etapas: diseño del estudio,

ejecución y análisis de datos.

En la etapa de diseño se de�nió la forma de las pruebas para recopilar los datos. Se

decidió probar a participantes a dos programas haciendo posible la escritura y ejecución

de consultas en SQL (Structured Query Language) a una base de datos relacional, uno a

través de una interfaz visual y otro basado en línea de comandos. Así, se obtuvieron los

datos del ritmo cardíaco de los participantes. Posteriormente, se aplicó un cuestionario

sobre satisfacción a los participantes. En está se construyó la aplicación para obtener

y visualizar los datos del ritmo cardíaco captados por un smartwatch. Además, se

prepararon cuestionarios de usabilidad que fueron respondidos por los participantes.

En la etapa de colección de datos se ejecutaron las pruebas con los participantes

para obtener los datos �siológicos.

5


En la etapa de análisis, se prepararon los datos colectados por cada interfaz y después

se pasaron como entrada árbol de decisión. Los datos del ritmo cardiaco fueron tratados

como series temporales y se usaron estadísticas básicas (media, desviación estándar,

mínimo, máximo) así como su tiempo de duración para caracterizarlas. Por su parte,

los datos provenientes del Sistema de Escalas de Usabilidad (SUS) se convirtieron en

valores categóricos utilizando la escala de Sauro y Lewis (2016). Los datos combinados

de ritmo cardiaco y satisfacción fueron la entrada del algoritmo CART, que utiliza datos

históricos para construir arboles de clasi�cación o de regresión los cuales son usados para

clasi�car o predecir nuevos datos. Estos árboles pueden manipular fácilmente variables

numéricas y/o categóricas. Para validar la precisión del árbol se utilizó la técnica de

validación cruzada.

1.7. Organización de la tesis

Este documento se organiza de la siguiente manera:

El capítulo 2 comprende los conceptos principales de este trabajo de tesis. Se de�ne

la usabilidad, sus atributos y métodos para su medición. Se describen las medidas

�siológicas, sus características y como se recolectan. Finalmente, se especi�can los

trabajos de investigación encontrados a partir de una revisión de la literatura, con

el �n de fundamentar este trabajo de tesis y dar un marco de referencia.

En el capítulo 3 se describe el diseño del estudio exploratorio llevado a cabo, los

participantes, los materiales utilizados en la prueba, así como la implementación de las

interfaces grá�cas de usuario desarrolladas para los experimentos, el procedimiento de

recolección de datos y el de análisis de los datos recolectados.

Posteriormente, en el capítulo 4 se describe el análisis realizado sobre los datos

recolectados. La forma de caracterización el ritmo cardíaco mediante estadística básica,

así como también la caracterización del cuestionario y los resultados obtenidos en este

trabajo de tesis.

Finalmente, el capítulo 5 se presenta la orientación del trabajo futuro que se sugiere

con base al estado actual de la investigación

6

Capítulo 2

Trabajos Relacionados

Este capítulo describe los conceptos relevantes para esta investigación. En la

sección 2.1 se de�ne el concepto de usabilidad, se describe sus características, métricas

y métodos de evaluación. Mientras que en la sección 2.2 se de�nen las medidas

�siológicas. Posteriormente, en las sección 2.3 se especi�can los trabajos de investigación

encontrados a partir de una revisión de la literatura, con el �n de fundamentar este

trabajo de tesis y dar un marco de referencia.

2.1. Usabilidad

2.1.1. De�nición

Comúnmente cuando se habla acerca del término usabilidad las personas se re�eren a

él como la facilidad de uso. Diversos autores Nielsen (2012); Preece (2000); Shneiderman

et al. (2016) han propuesto diversas de�niciones de usabilidad, normalmente a través

de principios y recomendaciones mediante los que puede ser evaluada, dependiendo

�nalmente cada de�nición del enfoque con el que pretende ser medida.

Según Nielsen (2012) el término de usabilidad se de�ne como un atributo que sirve

para diagnosticar qué tan fácil le resulta al usuario utilizar una interfaz. La palabra

usabilidad también se re�ere a métodos para mejorar la facilidad de uso durante el

proceso de diseño. En pocas palabras, un software es usable si le permite a un usuario

7

Capítulo 2. Trabajos Relacionados

realizar una tarea de una manera fácil, e�ciente e intuitiva. Por ejemplo, reducir los

pasos para realizar una tarea puede disminuir el número de clics para su conclusión.

Por su lado, Arroyo Vázquez (2011) de�ne que la usabilidad es la medida para evaluar

el diseño de interfaces para lograr que los usuarios interactúen de forma más fácil e

intuitiva, y agrega que la forma más viable para desarrollar un software es conociendo las

características y preferencias del usuario. Chipantiza et al. (2015) de�nen que dentro de

los factores que determinan la usabilidad se debe considerar la accesibilidad, legibilidad,

navegabilidad, facilidad de aprendizaje, velocidad de utilización, e�ciencia del usuario

y tasas de error. Estos factores son situaciones que presenta un usuario al momento

de interactuar con alguna interfaz y que pueden ser cuanti�cados para evaluar la

usabilidad.

Ante la diversidad de propuestas, para este trabajo se tomó en cuenta la de�nición

estandarizada ofrecida por la norma ISO 9241:11, que de�ne usabilidad como el

�grado de e�cacia, e�ciencia y satisfacción con la que usuarios especí�cos pueden

lograr objetivos especí�cos, en contextos de uso especí�cos�. Cabe señalar que, para

especi�car o medir la usabilidad, es necesario identi�car las metas y descomponer la

efectividad, e�ciencia y satisfacción, así como los componentes del contexto de uso en

subcomponentes con atributos medibles y veri�cables, como se indica a continuación;

E�cacia: de�nido en términos de la exactitud y completitud con que usuarios

especí�cos pueden lograr metas especí�cas en ambientes particulares.

E�ciencia: referido a los recursos gastados en relación con la precisión y

completitud de la meta lograda, es decir recursos de tiempo, �nancieros y

humanos.

Satisfacción: que evalúa el confort o comodidad y la aceptabilidad del trabajo

del sistema para sus usuarios y otras personas afectadas por su uso.

2.1.2. Atributos de Usabilidad

Después de haber presentado el concepto de usabilidad según las distintas fuentes

mencionadas, es necesario revisar los criterios que según (Nielsen, 2012) de�nen a la

usabilidad y que están relacionados a la interacción entre las personas y los sistemas.

8

2.1. Usabilidad

Facilidad de aprendizaje: se re�ere a la facilidad de aprender la funcionalidad

y comportamiento del sistema. Se pude de�nir en la duración de tiempo que un

usuario que nunca ha visto una interfaz puede aprender a usarla bien y realizar

operaciones básicas.

E�ciencia de uso: el siguiente punto trata acerca de la rapidez con la que un

usuario que ha aprendido a usar el sistema alcanza un nivel de productividad alto

al realizar sus tareas.

Retención sobre el tiempo: cuando un usuario ha utilizado un sistema tiempo

atrás, y tiene la necesidad de utilizarlo de nuevo, la curva de aprendizaje debe ser

signi�cativamente menor que el caso del usuario que nunca haya utilizado dicho

sistema.

Tasas de error: la capacidad del sistema para ofrecer una tasa baja de errores,

apoyar a los usuarios a cometer pocos errores durante el uso del sistema, y en

caso de que cometan errores ayudarles a recuperarse fácilmente.

Satisfacción: se re�ere a la impresión subjetiva del usuario respecto al sistema.

Qué tanto un sistema es agradable de usar para un usuario.

Como veremos en la siguiente sección, las evaluaciones de usabilidad son realizadas

en función de estos cinco criterios, pero, como se mencionó anteriormente, la satisfacción

y la facilidad de aprendizaje son los atributos de mayor peso para determinar el grado

de usabilidad del sistema.

2.1.3. Métodos de Evaluación de Usabilidad

Hoy en día, hay una diversidad de métodos que se pueden aplicar para evaluar

la usabilidad. Entre ellos encontramos métodos basados en parámetros básicos como

la realización de tareas, el tiempo o el número de errores(Sauro y Lewis, 2016;

J. Hernández, 2015; Chisholm et al., 2001). Sin embargo, en las recomendaciones de

usabilidad proporcionadas por la W3C expresan que estos paramentos no son su�cientes

para detectar diferencias sutiles. Por esa razón, se han propuesto otros métodos que

favorecen a alcanzar un mayor nivel de usabilidad como lo son la Evaluación Heurística,

Recorridos cognitivos, Test de Usuarios.

9


Evaluación Heurística

Según Nielsen (2005), la evaluación heurística es un método de inspección y

corresponde a un conjunto reducido de evaluadores entre 3 y 5, quienes evalúan si

cada elemento de una interfaz sigue los principios de usabilidad. El objetivo de este

tipo de evaluaciones es encontrar problemas de diseño de la interfaz que inter�eran con

la usabilidad.

La evaluación Heuristica está basada en un conjunto de reglas que describen

propiedades de interfaces usables, llamadas heuristicas las cuales se presentan a

continuación;

1. Visibilidad del estado del sistema. El sistema siempre debería mantener

informados a los usuarios de lo que está ocurriendo, a través de retroalimentación

apropiada dentro de un tiempo razonable.

2. Relación entre el sistema y el mundo real. El sistema debería hablar el lenguaje de

los usuarios mediante palabras, frases y conceptos que sean familiares al usuario,

más que con términos relacionados con el sistema. Seguir las convenciones del

mundo real, haciendo que la información aparezca en un orden natural y lógico.

3. Control y libertad del usuario. Hay ocasiones en que los usuarios elegirán

las funciones del sistema por error y necesitarán una �salida de emergencia�

claramente marcada para dejar el estado no deseado al que accedieron, sin tener

que pasar por una serie de pasos. Se deben apoyar las funciones de deshacer y

rehacer.

4. Consistencia y estándares. Los usuarios no deberían cuestionarse si acciones,

situaciones o palabras diferentes signi�can en realidad la misma cosa; se debe

seguir las convenciones establecidas.

5. Prevención de errores. Mucho mejor que un buen diseño de mensajes de error es

realizar un diseño cuidadoso que prevenga la ocurrencia de problemas.

6. Reconocimiento antes que recuerdo. Se deben hacer visibles los objetos, acciones

y opciones. El usuario no tendría que recordar la información que se le da en una

parte del proceso, para seguir adelante. Las instrucciones para el uso del sistema

deben estar a la vista, o ser fácilmente recuperables cuando sea necesario.

10

2.1. Usabilidad

7. Flexibilidad y e�ciencia de uso. La presencia de aceleradores, que no son vistos

por los usuarios novatos, puede ofrecer una interacción más rápida a los usuarios

expertos que la que el sistema puede proveer a los usuarios de todo tipo. Se debe

permitir que los usuarios adapten el sistema para usos frecuentes.

8. Estética y diseño minimalista. Los diálogos no deben contener información que es

irrelevante o poco usada. Cada unidad extra de información en un diálogo, compite

con las unidades de información relevante y disminuye su visibilidad relativa.

9. Ayudar a los usuarios a reconocer, diagnosticar y recuperarse de errores. Los

mensajes de error se deben entregar en un lenguaje claro y simple, indicando en

forma precisa el problema y sugerir una solución constructiva al problema.

10. Ayuda y documentación. Incluso en los casos en que el sistema pueda ser usado

sin documentación, podría ser necesario ofrecer ayuda y documentación. Dicha

información debería ser fácil de buscar, estar enfocada en las tareas del usuario,

con una lista concreta de pasos a desarrollar y no ser demasiado extensa.

La evaluación heurística es una forma para evaluar la usabilidad en un sistema,

pero este tipo de pruebas se realiza comúnmente cuando la interfaz esta en fase de

prototipado. Lo que hace que los costos de desarrollo aumenten, puesto que solo detecta

problemas en fases iniciales y en entornos controlados.

Recorridos cognitivos

Un recorrido cognitivo consiste en realizar tareas dentro de un sistema para

identi�car errores de diseño o áreas susceptibles de mejora,con base al modelo cognitivo

del comportamiento del usuario (inspección orientada a la facilidad de aprendizaje).

La interfaz está normalmente en forma de prototipo. Esta técnica es idónea en la

etapa del diseño debido a que se necesita de un prototipo, ya sea a papel o de software,

así como un escenario controlado y la lista de tareas a realizar. Este método es utilizado

ya que es menor el tiempo se requiere para realizarlo (Gutwin y Greenberg, 2000).

Cuando esta prueba es realizada por un experto, la experiencia es importante,

porque debe encontrar los errores más evidentes de una primera mirada. También la

empatía, ya que se trata de ponerse en la piel del usuario. Son necesarios conocimientos

11


de diseño para identi�car errores y áreas de mejora, y los textos y toda la comunicación

de la interfaz serán también parte del contenido evaluado.

Este tipo de prueba suele realizarse junto con la evaluación heurística. Puede llevarse

a cabo por uno o más expertos (lo ideal que sean varios), y es uno de los recursos más

económicos y rápidos para evaluar la usabilidad de algún tipo de software.

Cuestionarios

El uso de cuestionarios en la evaluación de la usabilidad permite obtener información

sobre las opiniones, deseos y expectativas de los usuarios potenciales (Sauro y Lewis,

2016). Los cuestionarios son creados y formulados de acuerdo al conocimiento que el

equipo de diseñadores considera útil para desarrollar el producto o aplicación Web. Los

cuestionarios tendrán que ser rellenados por los usuarios y enviarlos de vuelta. Este

tipo de herramientas, son útiles e informativas en todas las fases de diseño y desarrollo

de la aplicación, pero requieren un número adecuado de usuarios de prueba para poder

encontrar las preferencias subjetivas del usuario (Lazar et al., 2017).

Para la realizacion del test (Lazar et al., 2017) de�nen los siguientes puntos para

realizar un test de usuario.

Reclutar participantes.

De�nir un entorno de prueba.

De�nir el tiempo de la prueba.

De�nir las preguntas para el usuario.

Escribir las observaciones.

Las ventajas que poseen este tipo de herramientas son las siguientes:

Son baratos.

Fáciles de aplicar con una muestra grande de usuarios.

Proporciona datos cuantitativos y cualitativos.

Encuentra preferencias subjetivas del usuario.

12

2.1. Usabilidad

Por otra parte, se pueden identi�car las siguientes desventajas:

Generalmente se requiere la presencia de un evaluador para clari�car las preguntas

y ayudar a los participantes.

El evaluador si es que existe alguno no debe de in�uenciar en la opinión de los

participantes.

Como en cualquier técnica de evaluación, la falsedad de la muestra puede producir

resultados errados.

Requiere de un trabajo piloto para su validación.

Según Sauro y Lewis (2016), las técnicas anteriores ayudan a los evaluadores de

usabilidad a obtener datos procedentes de la interacción de los usuarios con la interfaz,

es necesario adaptar este tipo de técnicas en función del objetivo de la prueba.

Cuestionarios estandarizados de usabilidad. A continuación se presentan

algunos cuestionarios que se utilizan de apoyo a la medición de satisfacción de usuario.

QUIS (Lewis, 1995) El cuestionario de satisfacción de interacción del usuario

(QUIS,1) es una herramienta de evaluación de usabilidad centrada en el usuario

para sistemas de computación interactiva , realizado por el laboratorio de Interacción

Humano compuatora en International Business Machines (IBM).

QUIS está centrado en el usuario para evaluar su percepción de la usabilidad de la

interfaz. Los aspectos que evalúa son los siguientes:

Reacción global al sistema, se emplea preguntas como �terrible"vs �frustrado",

�lánguido"vs �estimulante", entre otros. No trata características especí�cas de la

interfaz utilizada ni la interacción.

Factores de pantalla, esto hace referencia a las características del nivel léxico de

la interfaz como por ejemplo las fuentes y negrita, la lógica de la interfaz, la

secuencia de pantallas, el control del usuario, la recuperación después del error.

La compatibilidad de secuencias operacionales se trata de una manera detallada.

1Siglas en inglés Questionnaire for User Interaction Satisfaction

13


Terminología y sistema de retroalimentación, para medir la inteligibilidad de los

mensajes con las preguntas relacionadas.

Factores de aprendizaje, referido a la experiencia de aprendizaje y también a

las características especí�cas del sistema tales como realimentación, lógica de

secuencias y posibilidad de intuir.

Capacidades del sistema, referido a las experiencias del usuario con respecto a la

velocidad del funcionamiento, de la con�abilidad, del ruido, de las capacidades de

gestión de error y de la �exibilidad del sistema.

Inicialmente QUIS (Lewis, 1995) fue una herramienta manual basada en una escala

de valoración de nueve puntos de escala likert (Sauro y Lewis, 2016). Después de crear

versiones iniciales basadas en computadora, se creó una versión de QUIS que permitiera

migrar de las versiones iniciales. Esto se logró mediante un formulario basado en Web

ayudando a reducir las limitaciones de las versiones previas con el uso de formularios

HTML y extensiones JavaScript para la validación y procesamiento de datos.

CSUQ

El cuestionario de usabilidad del sistema(CSUQ,2) es una herramienta de evaluación

de usabilidad centrada en el usuario para sistemas de computación interactiva.

CSUQ fue desarrollado para permitir la recopilación de un gran número de

cuestionarios completados y para ver si la estructura del factor encontrada para el

cuestionario de post-estudio de usabilidad del sistema (PSSUQ,3) en un entorno de

prueba de usabilidad se mantendría igual en una encuesta enviada por correo . La

aparición de los mismos factores demostraría la utilidad potencial del cuestionario

en diferentes grupos de usuarios y entornos de investigación. El CSUQ es idéntico

al PSSUQ, con ligeros cambios en la redacción debido al cambio en la investigación

no relacionada con los laboratorios. Por ejemplo, el ítem 3 de la versión 3 de PSSUQ,

�Pude completar las tareas y los escenarios rápidamente usando este sistema", pero el

ítem 3 de la versión 3 de CSUQ dice, �Puedo completar mi trabajo rápidamente usando

este sistema". El cálculo de los puntajes de CSUQ es el mismo que para los puntajes de

PSSUQ. De los 825 empleados de IBM seleccionados al azar a principios de la década

2Siglas en inglés Computer System Usability Questionnaire3Siglas en inglés Post-Study System Usability Questionnaire

14

2.1. Usabilidad

de 1990, 325 respondieron el cuestionario (CSUQ versión 2, que tenía 19 elementos).

CSUQ está centrado en el usuario para evaluar su percepción de la usabilidad de la

interfaz. Los aspectos que evalúa son iguales a los de QUIS.

System Usability Scale (SUS)

A pesar de ser una escala de usabilidad autodesignada �rápida y sucia", SUS (Brooke,

1996), desarrollado a mediados de la década de 1980, se ha convertido en un popular

cuestionario para evaluaciones subjetivas de usabilidad de �nal de prueba (Lazar et al.,

2017; Sauro y Lewis, 2016). SUS representó el 43% del uso de cuestionarios posteriores a

la prueba en un estudio reciente de una colección de estudios de usabilidad no publicados

(Sauro y Lewis, 2016).

De acuerdo con (Lazar et al., 2017; Sauro y Lewis, 2016) , los participantes deben

completar el SUS después de haber utilizado el sistema en evaluación pero antes de

cualquier sesión informativa u otra discusión. Las instrucciones para los participantes

deben incluir pedirles que registren su respuesta inmediata a cada elemento en lugar de

pensar demasiado en ellos.

El método de puntuación SUS requiere que los participantes respondan a los 10

elementos de los que consta. Si por algún motivo los participantes no pueden responder

a un elemento, deben seleccionar el punto central de la escala. El primer paso para

anotar un SUS es determinar la contribución de puntaje de cada elemento, que irá de

0 a 4. Para los artículos redactados positivamente (números impares), la contribución

de puntaje es la posición de la escala menos 1 (xi− 1). Para los elementos redactados

negativamente (números pares), la contribución del puntaje es 5 menos la posición de

la escala (5−xi). Para obtener el puntaje total de SUS, se debe multiplicar la suma de

las contribuciones del puntaje del ítem por 2.5. Por lo tanto, las puntuaciones generales

de SUS oscilan entre 0 y 100 con incrementos de 2.5 puntos.

En un estudio relizado por Tullis y Stetson (2004), donde se comparó los

cuestionarios SUS, CSUQ, QUIS FIDELITY Y WORDS, para saber cuál de estos

arrojaba mejores resultados. De un total de 123 empleados que participaron en el

estudio, asignados al azar a uno de los métodos, que utilizaron para evaluar su

satisfacción después de completar dos tareas en dos sitios Web �nancieros. Las tareas

fueron:

15


Encontrar el precio más alto en el último año para una acción de una compañía

especí�ca.

Encontrar el fondo mutuo con el rendimiento más alto de tres años.

El orden en que los participantes visitaron los sitios Web fue aleatorio. El análisis de

los resultados generales para todos los métodos mostró una preferencia signi�cativa por

el Sitio 1 sobre el Sitio 2.

Tullis y Stetson (2004) seleccionaron aleatoriamente submuestras de los datos en

tamaños de muestra de 6, 8, 10, 12 y 14 para cada método. Luego investigaron qué

métodos convergieron más rápidamente en la conclusión �correcta"sobre la usabilidad

de dos sitios Web en función del tamaño de la muestra (una variable de importancia

práctica para los profesionales de la usabilidad), donde correctos signi�caban una prueba

t signi�cativa de acuerdo con la decisión tomada utilizando el tamaño de muestra total,

el Sitio Web 1 fue más útil que el Sitio 2. Como se muestra en la Figura 2.1.

Figura 2.1: Comparación de cuestionarios de usabilidad (Tullis y Stetson, 2004)

De los cinco métodos evaluados por Tullis y Stetson (2004)), el SUS fue más rápido

en converger en la conclusión �nal (correcta) alcanzando el 75% de acuerdo en un

tamaño de muestra de 8 y un 100% de acuerdo cuando n = 12. CSUQ (una variante

del PSSUQ) fue la segunda más rápida, alcanzando un 75% de acuerdo con un tamaño

de muestra de 10 y 90% de acuerdo cuando n = 12.

En contraste, incluso cuando n = 14, los otros métodos estuvieron abajo del 75% de

acuerdo con la decisión correcta. Esta es una evidencia convincente para utilizar SUS

16

2.2. Medidas Fisiólogicas

en el experimento exploratorio. Dado que Tullis y Stetson (2004) recomienda, que los

profesionales deberían preferir SUS como un método para evaluar la satisfacción con

la usabilidad, especialmente cuando enfrentan recursos limitados para el tamaño de la

muestra y no tienen necesidad de mediciones multidimensionales.


2.2.1. Generalidades

Está sección sirve como una introducción general al estudio de las respuestas

�siológicas, y proporciona una descripción más detallada de algunas de las medidas

más populares. Primeramente, describe las medidas �siológicas en contexto, explicando

brevemente su papel exploratorio en el cuerpo humano y cómo se producen. Finalmente,

se proporciona una introducción a algunas de las medidas �siológicas más populares,

es decir, la actividad cardiovascular, la conductancia de la piel y la actividad cerebral.

El sistema nervioso humano se puede dividir en un sistema central y uno periférico,

que son responsables de las diferentes partes del cuerpo. El sistema nervioso central

(SNC) incluye la médula espinal y el cerebro, y se puede describir como el centro de

control del cuerpo. La médula espinal es responsable de re�ejos simples y sirve como

un camino entre el cerebro y otras partes del cuerpo (L. S. L. Hernández, 2016).

El sistema nervioso periférico (SNP) se puede describir como el sistema de

comunicación del cuerpo y actúa principalmente por debajo del nivel de conciencia

(Quintanilla et al., 2017). El SNP es responsable de llevar las señales del SNC al resto

del cuerpo, pero también trans�ere información sensorial de los órganos (por ejemplo,

ojos, oídos y piel) al cerebro, donde se procesa e interpreta. De especial relevancia para

este estudio es el sistema nervioso autónomo (ANS, por sus siglas en inglés), cuya tarea

principal es proporcionar respuestas rápidas y con�ables a los eventos circundantes,

preparando al cuerpo para la acción apropiada.

17


Figura 2.2: Sistema Simpático

El sistema nervioso simpático (SNS), como se puede observar en la Figura 2.2,

junto al sistema nervioso parasimpático (SNP) conforman el sistema nervioso central

y son responsables de diferentes respuestas corporales. Cuando está completamente

activada, la división simpática de ANS prepara al cuerpo para una crisis que puede

requerir una actividad física repentina e intensa: el corazón y la frecuencia respiratoria

están aumentando, la sudoración es excesiva y la vigilancia aumenta (Quintanilla et al.,

2017). Esto se conoce como la respuesta de �lucha o huida", y puede ser experimentado

en situaciones altamente emocionales o estresantes (Quintanilla et al., 2017).

La evidencia de que la �siología humana responde a una variedad de eventos

mentales ha estado disponible desde el siglo XIX (Andreassi, 2013). Se ha informado que

la conductancia de la piel, la respiración, la actividad eléctrica cerebral, y la actividad

cardiovascular varían en respuesta a factores como la di�cultad de la tarea, los niveles de

atención, las experiencias de frustración y los estímulos emocionales (Andreassi, 2013).

Por lo tanto, se ha propuesto que los datos �siológicos podrían ser una herramienta

valiosa para las pruebas de usabilidad, ya que podrían ayudar a identi�car elementos y

eventos de relevancia cognitiva o emocional para el usuario (Lazar et al., 2017).

Sin embargo, la integración de medidas �siológicas en las pruebas de usabilidad

presenta algunas di�cultades inherentes. En primer lugar, la mayoría de los estudios

existentes se han realizado en entornos experimentales estrechamente controlados.

Esto va en contra de uno de los requisitos básicos de las pruebas de usabilidad,

a saber, que las condiciones de prueba deben ser lo más parecidas posible al uso del

18


�mundo real". Por lo tanto, si se deben aplicar medidas �siológicas a las condiciones

menos controladas de las pruebas de usabilidad, se debe tener cuidado en el diseño de

los procedimientos de prueba (Ward y Marsden, 2003).

Otro desafío reside en la interpretación de los datos, ya que se puede observar

el mismo tipo de respuestas �siológicas para diferentes estados mentales, como la

frustración, la sorpresa o el aumento del esfuerzo cognitivo (Andreassi, 2013). Por

lo tanto, una interpretación correcta requiere conocimiento del contexto en el que se

obtuvieron los datos. Para comprender mejor los resultados, es aconsejable registrar

observaciones adicionales junto con las mediciones �siológicas, como los comentarios,

las conductas observadas y las valoraciones subjetivas de los eventos (Lazar et al., 2017).

2.2.2. Medidas Fisiológicas Comunes

Las señales �siológicas medibles y comúnmente usadas para este tipo de investiga-

ciones son:

Actividad Cardiovascular.

Actividad Electrodérmica.

Actividad Cerebral.

2.2.2.1. Actividad Cardiovascular

La actividad cardiovascular se re�ere a la actividad del corazón e incluye parámetros

como el ritmo cardíaco (en inglés Heart Rate-HR), la variabilidad del ritmo cardíaco (en

inglés Heart Rate Variability-HRV), y el volumen de pulso sanguíneo (en inglés Blood

Volume Pulse-BPV).

A lo largo de todo el organismo existe una red de vasos sanguineos, donde la sangre

circula continuamente gracias a la fuerza de contracción del corazón. Un ciclo cardíaco

comprende tres periodos: un periodo de contracción llamado sístole, un periodo de

dilatación llamado diástole y un periodo de recuperación. El ritmo cardíaco ( HR )

es una sucesión de sístoles y diástoles de la musculatura del corazón. Suponiendo este

rango de valores, el tiempo necesario para un ciclo cardíaco es de 0.8 segundos y la

19


mitad de estos, 0.4 segundos, representa la fase de reposo. En condiciones normales la

musculatura se contrae con un ritmo de 70 a 75 contracciones por minuto. (Rodriguez,

2016; Quintanilla et al., 2017; Correo, 2014).

La variación del ritmo cardíaco (VRC) se presenta a causa de cambios cíclicos de la

actividad cardíaca. La VRC se obtiene a partir de la medición de intervalos entre los

latidos del corazón y durante un periodo de tiempo y las diferencias de duración de los

latidos, se traducen en cambios del ritmo cardíaco.

El volumen de pulso sanguíneo (BVP) se presenta a causa de los cambios relativos

de volumen sanguíneo en las venas del dedo índice. Esta medida indica la cantidad de

sangre que circula actualmente en las venas, lo cual permite calcular la vasoconstrucción,

la dilatación vascular, el ritmo cardíaco y la hipovolemia.

Según Muñoz y Nureibis (2014), si los niveles de volumen de pulso sanguíneo o de

vasoconstricción son altos se puede estar en estados de furia o estrés, si los valores se

reducen, se puede estar en estado de relajación o tristeza.

Existen dos formas comunes de medir la actividad cardiovascular: Electrocardiogra-

ma (ECG, por sus siglas en inglés) y Fotopletismografía (PPG, por sus siglas en inglés)

(Rodriguez, 2016). El ECG mide el pulso eléctrico producido por el corazón cada vez

que se contrae para bombear sangre. Este método requiere al menos tres electrodos,

que se pueden unir en ambos brazos, ambas piernas o encima del pecho. La colocación

del brazo o la pierna se considera más práctica para el área de Interacción Humano

Computadora (IHC), pero la distancia al corazón hace que la señal sea más vulnerable

al ruido causado, por ejemplo, por el movimiento corporal o la actividad de un órgano

interno.

2.2.3. Actividad Electrodérmica

La piel proporciona protección al cuerpo humano de cambios de temperatura,

agentes químicos o biológicos ajenos al organismo. Por otra parte, tiene la capacidad de

dar información del entorno ya que obtiene información de la temperatura ambiental,

el tacto y el dolor (Carranza y Gajardo, 2009).

20


Figura 2.3: Capas de la piel humana (Carranza y Gajardo, 2009)

La piel se conforma de varias capas: la epidermis, la dermis y la hipodermis (ver

Figura 2.3). La epidermis es la capa más externa y contiene varias capas de piel

sobrepuestas, algunas veces pueden incluir células muertas (Correo, 2014).

Después de la epidermis se encuentra la dermis, la cual es más sensible a la capa

anterior debido a que contiene más terminales nerviosas y numerosos vasos sanguíneos.

Finalmente se encuentra la hipodermis es grasa que protege al cuerpo contra

impactos. Más profundamente, se encuentran las glándulas sudoríparas ecrinas que

regulan la temperatura corporal a través del sudor. Esta capa actúa como una interfaz

entre la piel y los órganos como los huesos o los músculos (Correo, 2014). Sin embargo,

la piel puede contener un gran número de glándulas sudoríparas, hay un mayor número

de éstas en las palmas de las manos, en los pies, las axilas y la frente (Correo, 2014).

la electrodermografía es normalmente utilizada para medir la actividad eléctrica de la

piel, dado que observa los cambios de las glándulas sudoríparas (Carranza y Gajardo,

2009; Correo, 2014).

La electrodermografía mide el voltaje de región con concentración de glándulas

sudoríparas con respecto de una región de menor concentración, los valores obtenidos

de este método se miden en µV .

21


2.2.4. Actividad Eléctrica Cerebral

El encéfalo es un organo que controla y regula distintas funciones en el cuerpo tales

como la respiración, la vista, el tacto y el movimiento. Esta contenido en el craneo y

se divide en tres partes: el tronco cerebral, el cerebelo y el cerebro, en cuya super�cie

externa es conocida como corteza cerebral. En donde se origina la actividad electrica

que está formada por biopotenciales. Estas señales eléctricas son de naturaleza iónica

y son espontáneas. La actividad eléctrica se propaga a través del tejido circundante y

se detecta con los electrodos que cumplen la función de transductores, convirtiendo las

corrientes iónicas en corrientes electricas, para su posterior procesamiento (Moreno y

Reiriz, 2012).

La electroencefalografía (EEG, por sus siglas en inglés) es una técnica que sirve

para caracterizar la actividad eléctrica del cerebro. En la actualidad existe un creciente

interés en el desarrollo de técnicas digitales de procesamiento para interpretar dichas

señales, estas técnicas consisten en transformar la información contenida en las señales

de EEG en datos numéricos y/o grá�cos que faciliten su análisis y sistematización

(Moreno y Reiriz, 2012).

2.3. Usabilidad y Señales Fisiológicas

Actualmente existen pocas investigaciones que hacen uso de medidas �siológicas en

un contexto de usabilidad. Estas se presentan a continuación.

2.3.1. Trabajo de Lin et al. (2005)

Lin et al. (2005) presentan un experimento en el cual estudiantes universitarios

realizaron tareas lo más rápido y correcto posible al jugar un videojuego continuamente

por diez minutos. GSR, BVP y HRV fueron utilizadas como medidas �siológicas. Para

la medición de GSR dos sensores fueron colocados en los dedos de la mano izquierda.

Para BVP y HR se midieron simultáneamente usando un sensor en los dedos de la mano

derecha de cada participante, por lo que que no debía mover los dedos ni las manos para

no interferir con los datos recogidos por el sensor, la Figura 2.4 muestra el experimento.

22


Figura 2.4: Escena del experimento de Lin et al. (2005)

El estudio tuvo varios resultados. Primero, las medidas de BVP y de HRV no fueron

de utilidad en el estudio, debido a que eran sensibles al movimiento. Segundo, se tuvo

evidencia que la señal GSR está relacionada con el nivel de di�cultad de la tarea, pero

no es posible concluir una relación causa-efecto. Finalmente, se pudo observar que las

medidas �siológicas son consistentes con medidas subjetivas y muestran una sensibilidad

signi�cativa a los cambios en niveles de estrés.

Los hallazgos sugieren que los diferentes niveles de rendimiento de la tarea pueden

estar relacionados con datos �siológicos. Además, la mayoría de los eventos de

frustración produjeron respuestas �siológicas notables y los participantes con bajo

rendimiento tendieron a experimentar más eventos de frustración. El pobre rendimiento

de la tarea y la mayor respuesta �siológica podrían atribuirse a estos eventos de

frustración. Estos resultados muestran el valor potencial de los datos �siológicos como

una fuente de datos para la evaluación de usabilidad.

Los datos �siológicos no solo proporcionan una forma de medir objetivamente las

inversiones psico�siológicas y permiten evaluar la usabilidad a un nivel más detallado,

sino que también proporcionan algunas pistas para explicar las diferencias en el

rendimiento de la tarea. Este estudio da un paso inicial hacia el establecimiento de

la evaluación de usabilidad que utiliza la �siología como una medida complementaria

o como una medida independiente para la evaluación de la Interacción Humano

Computadora.

23


2.3.2. Trabajo de Sperry y Fernandez (2008)

En un estudio similar, Sperry y Fernandez (2008) mani�estan que las medidas

tradicionales empleadas en las pruebas de usabilidad son inherentemente subjetivas, y

que es necesario desarrollar un método objetivo para evaluar la usabilidad de un sistema.

Este trabajo describe un proyecto que utilizó el análisis �siológico para cuanti�car la

facilidad de uso de un sitio Web, concentrándose especí�camente en el efecto de las

combinaciones de colores en los procesos corporales del usuario. Las pruebas realizadas

revelaron que existe una correlación de�nida entre los resultados del análisis �siológico

y las encuestas subjetivas de satisfacción del usuario. Por lo tanto, los resultados del

análisis �siológico se pueden utilizar en lugar de los valores arti�ciales para evaluar la

usabilidad de un sistema.

Sperry y Fernandez (2008), al igual que Lin et al. (2005), establecieron una línea

de base para propósitos de comparación entre el estado inicial del HR y el estado

�nal. En consecuencia, cada sujeto experimentó primero una prueba de referencia de 30

segundos. Durante este tiempo, el sistema simplemente grabó datos mientras el sujeto

miraba una imagen mostrada en el escritorio de la computadora portátil personal. Para

obtener resultados acerca de la satisfacción subjetiva utilizaron un cuestionario aplicado

al �nal de la prueba.

Los sensores fueron colocados en los dedos de la mano izquierda de cada participante.

Especí�camente, un sensor BVP se ajustó en el dedo medio a través de una abrazadera,

mientras que los sensores GSR se sujetaron con velcro a los dedos anulares, la Figura

2.5 muestra la escena del experimento.

24


Figura 2.5: Escena del experimento de Sperry y Fernandez (2008)

El análisis estadístico de los datos comparó el promedio y la desviación de la línea

base inicial del HR y GSR con el promedio durante la prueba. Los autores identi�caron

que, aunque toda la investigación parece indicar que la frecuencia cardíaca aumenta

con el estrés mental, la mayoría de las diferencias con respecto al cuestionario subjetivo

fueron todo lo contrario ya que algunos usuarios expresaron que podían leer bien

utilizando fondo animado y letra de color blanco, pero al comparar con los datos

�siológicos estos mostraban todo lo contrario, se puede suponer que la legibilidad

del texto sí afecta la �siología de un usuario al visualizar un sistema, al aumentar

la frecuencia cardíaca y la conductancia de la piel.

2.3.3. Trabajo de Forne (2012)

Forne (2012) realizó una investigación que proporciona evidencia de que el

procesamiento cognitivo y emocional está asociado con cambios �siológicos en el

cuerpo humano, y que afectan parámetros como la VFC, HRV, GSR, EEG y el

tamaño de la pupila. El problema, sin embargo, es que las MF no solo capturan los

cambios relacionados con la cognición y las emociones humanas, sino que pueden

estar in�uenciadas por un gran número de variables, como la postura corporal, los

25


niveles hormonales y los aspectos ambientales (como la temperatura ambiente), equipos

eléctricos y condiciones de iluminación).

Antes de recolectar los datos, Forne (2012) sugiere que deben eliminarse todos los

factores que pueden provocar una interferencia no deseada en los resultados, y que una

vez recopilados los datos, los investigadores deberían reconsiderar si hay lugar para

interpretaciones alternativas. En este caso sugiere incluir un método llamado Pensando

en Voz Alta (RTA, por sus siglas en ingles) para sincronizarlo con estudios de MF. De

este modo, combinando datos �siológicos con la interacción del usuario, tal vez se podrá

estar un poco más cerca de comprender la experiencia de usuario.

El estudio fue diseñado en Tobii Studio, una herramienta de software dedicada al

diseño, grabación y análisis de datos de seguimiento de ojos. Los estímulos cognitivos

y afectivos se presentaron como videoclips, el escenario de la prueba se puede ver en la

Figura 2.6

Figura 2.6: Escena del experimento de Forne (2012)

El estudio consistió en dos partes, una en la que los sujetos realizaban problemas

matemáticos simples (tarea cognitiva) y otra en la que se enfrentaban con imágenes

emocionalmente toni�cadas (estímulos afectivos). A cada imagen de la base de datos

se le asignaron índices de valencia y excitación, en una escala de 1 a 100. A los

participantes se les dio 10 segundos para resolver cada problema, después del cual

26


el siguiente problema apareció automáticamente. Una vez (y si) lograron encontrar

una solución, los sujetos recibieron instrucciones de decirlo en voz alta. Los datos de

rendimiento podrían ser utilizados para veri�car las supuestas variaciones de di�cultad

entre las diferentes subtareas.

De igual forma, estableció una línea base para propósitos de comparación entre el

estado inicial del HR y el estado �nal para comparar la media y la desviación estándar

con los momentos de cada tarea grabados en el videoclip.

2.3.4. Trabajo de Yao et al. (2014)

Yao et al. (2014) realizaron una investigación sobre medición de la experiencia del

usuario (UX), expresando que la mayoría de este tipo de investigaciones se basan

principalmente en el rendimiento de la tarea y datos de cuestionarios respondidos

por usuarios. Por otro lado, demostraron que las MF son buenos indicadores de la

participación cognitiva y la excitación emocional y sugieren que se incluyan las MF en

el proceso de evaluación UX. En el experimento realizado, se recogieron y analizaron

los datos �siológicos de los participantes, el rendimiento de la tarea y los datos de un

cuestionario (CSUQ).

En particular, encontraron que las MF variaban con el rendimiento de la tarea, ya

que los participantes mostraban un mayor cambio en la respuesta GSR en las tareas

fallidas que en las tareas exitosas. Los autores midieron GSR y BVP directamente

mediante sensores colocados en los dedos izquierdos. La respiración se midió usando un

sensor colocado alrededor del tórax. El HR se calculó a partir de los datos del sensor

rawBVP. Todos los datos fueron recolectados a 64 HZ. Como el sensor BVP se movía

demasiado, se les pidió a los participantes que no movieran la mano izquierda. Cabe

señalar que los datos EEG y los datos de expresión facial también se recogieron. El

escenario de la prueba se puede ver en la Figura 2.7

27


Figura 2.7: Escena del experimento de Yao et al. (2014)

Las señales GSR, BVP, HR y frecuencia respiratoria fueron normalizadas en cada

tarea usando la fórmula:

LineaBaseF inal − LineaBaseInicial

Todos los cálculos estadísticos (media, desviación estándar) se realizaron utilizando el

software SPSS 20.0 para realizar correlación entre las distintas señales y los atributos

objetivo que utilizaron (Atractivo, Perspicacia, E�ciencia, Con�abilidad, Estimulación

y Novedad)

Los autores explican que los resultados del experimento dependen de la experiencia

de interacción de los usuarios con los productos y que las señales varían mucho según

el contexto y las medidas �siológicas y que estas son sensibles al movimiento, por lo

que deben extenderse a un contexto más válido y tomar en cuenta una variedad de

tareas. Además, ellos encontraron correlaciones entre GSR y los datos del cuestionario

de la experiencia del usuario. Los resultados demostraron el valor potencial de las

MF como una fuente de datos para la evaluación de la experiencia del usuario. Sin

embargo, expresan que se requieren más investigaciones que involucren variaciones en

las tareas, así como sensores menos invasivos ya que uno de los problemas fue también

la sincronización.

28


2.3.5. Trabajo de J. Hernández (2015)

J. Hernández (2015) propone una metodología que ayuda a la evaluación de

usabilidad. Está metodología incluye MF y el Seguimiento de la mirada (SM) para

extraer información cuantitativa en tiempo real. El caso de estudio que presenta es

en relación a recomendaciones de usabilidad en sitios Web donde se analizaron 124

sitios respecto a accesibilidad. Las MF utilizadas fueron GSR, HRV, electromiografía

del corrugador, el zigomático (EMGc y EMGz) y el SM. El escenario de la prueba se

puede ver en la Figura 2.8.

Figura 2.8: Escena del experimento de J. Hernández (2015)

El estudio concluye que el componente estético y el diseño adecuado está relacionado

con GSR, ya que la HRV está relacionada con el estado emocional que presenta el usuario

al momento de la interacción, y que las MF y el SM permiten complementar y mejorar

la información aportada mediante cuestionarios, la tasa de �nalización de la tarea o el

tiempo para esto. J. Hernández (2015) indica que hay que asegurar los electrodos para

tener un buen contacto con la piel, y que es muy importante para obtener registros

super�ciales de calidad: amplitud sudiciente, eliminar interferencias eléctricas, reducir

el riesgo de desequilibrio entre los electrodos y reducir el ruido. Por lo cual, utilizó crema

conductora para mejorar la conductividad y se �jaron los electrodos con esparadrapo

hipo-alergénico y transpirable.

29


J. Hernández (2015) analizó los datos obtenidos provenientes de cuestionarios,

medida de tiempos, �nalización de la tarea, respuesta �siológica (GSR, HRV, EMGc,

EMGz y SM). Para ello se realizó un modelo común con los siguientes factores: las

7 recomendaciones de usabilidad, la sesión, la repetición, la presencia de limitación

motora(per�l de usuario) y la interacción de ésta con el resto de factores. Además,

realizó un análisis de correlaciones entre los factores y las variables subjetivas generales

para de�nir un modelo de usabilidad, asignando una cali�cación a las MF ligadas a una

pregunta del cuestionario utilizado.

Así mismo, el autor expresa que para asegurar un buen contacto entre el electrodo

y la piel en toda su prueba y asegurar obtener datos de calidad, es necesario utilizar

crema conductora para mejorar la conductividad. Fijó los electrodos con esparadrapo

hipo-alergénico para evitar que los electrodos se mojaran con el sudor. Además, pidió al

participante quitarse la playera para poder colocar los electrodos, así como que hablara

durante la prueba.

2.3.6. Trabajo de Udovivic et al. (2017)

Udovivic et al. (2017) decidieron trabajar con las señales GSR y BVP debido

a la idoneidad para la implementación en un dispositivo simple para recopilar

señales sin comprometer la comodidad y la privacidad. Para este propósito, utilizó el

sensor Shimmer3 ligero, pequeño y compacto. Desarrolló una aplicación completa con

almacenamiento en una base de datos para clasi�car las emociones de los participantes

utilizando imágenes. El escenario de la prueba se puede ver en la Figura 2.9.

Figura 2.9: Escena del experimento de Udovivic et al. (2017)

30

2.4. Resumen

En el post-procesamiento, utilizó los parámetros estadísticos típicos (media,

desviación estándar, valor mínimo, valor máximo y el tiempo) como características y la

máquina de soporte vectorial (SVM, por sus siglas en inglés) y k vecinos más cercanos

(KNN, por sus siglas en inglés) como clasi�cadores.

Realizaron un modelo de clasi�cación de emociones para un solo usuario y

multiusuario para comparar los resultados. Reportaron que obtuvo mejores valores

promedio en KNN utilizando los parámetros estadísticos típicos.

El experimento consistió en visualizar imágenes de cuatro categorías, �malos tratos

a los animales� (A), �preocupaciones humanas� (H), �neutrales"(N), �positivas� (P),

�serpientes� (SN) y �arañas� (SP). Estas imágenes se dividieron en cuatro carpetas

(�A�, �H�, �SP� y �SN�) son emocionalmente negativas y las otras dos carpetas (�N� y

�P�). Goran utilizó Clasi�cadores KNN y SVM y su implementación se realizó utilizando

Matlab.

Un participante se estableció como el conjunto de datos de prueba y el resto se

usaron para entrenamiento y validación. Luego, el modelo de clasi�cación se creó para

el conjunto de datos de entrenamiento y el conjunto de datos de prueba se clasi�có

utilizando este modelo para evaluar la precisión.

Este proceso se repitió 9 veces usando diferentes sujetos como conjuntos de datos

de prueba, hasta que las 10 sesiones se usaron como conjuntos de datos de prueba. La

precisión total para el modelo después de haber aplicado KNN obtuvo 86.7% y para

SVM 80.5% Udovivic et al. (2017) concluyen que es mas rápido y mejor utilizar KNN,

pero que es un tema que depende del contexto de uso.

2.4. Resumen

En este capítulo se de�nieron los tópicos relevantes para este trabajo de tesis,

tales como la usabilidad y sus técnicas de evaluación, las generalidades de las medidas

�siológicas así como las más utilizadas en el ámbito de usabilidad. En cada de�nición se

describieron características particulares de cada tema, y se especi�caron los elementos

importantes de cada uno para esta investigación.

Así mismo, se describieron seis trabajos que utilizan MF para tratar de relacionarlas

con atributos de usabilidad al igual que este tema de investigación. Sin embargo, estos

31


trabajos proponen puntos importantes a considerar como Lin et al. (2005) quienes

son unos de los pioneros en este tipo de investigaciones, quienes a�rman que las

medidas �siológicas son consistentes con medidas subjetivas y muestran una sensibilidad

signi�cativa a los cambios en niveles de estrés. Porque dependiendo de la di�cultad de

la tarea la señal �siológica aumentaba o decrementaba. Aunque no pudo concluir una

relación causa-efecto.

Por otro lado, el trabajo de Sperry y Fernandez (2008), de�ne una forma sencilla de

medir la variación de la señal �siológica cuando el participante realiza una tarea. Estos

autores restan la línea base de la señal después de realizar la tarea con la línea base

antes de realizarla. A lo que concluye que en toda la investigación parece indicar que

la frecuencia cardíaca aumenta con el estrés mental que experimenta el participante al

realizar una tarea. De este trabajo se observa que es importante considerar la línea base

antes de iniciar la prueba.

De igual forma Forne (2012), realizó una investigación que proporciona evidencia de

que el procesamiento cognitivo y emocional está asociado con cambios �siológicos en el

cuerpo humano, y que afectan parámetros como la VFC, HRV, GSR, EEG y el tamaño

de la pupila. Además, indica que una forma de causar mayores niveles de activación es

realizando tareas más complejas, al igual, sugiere que la desviación estándar es un buen

elemento a considerar.

Posteriormente, Yao et al. (2014) encontraron que las MF variaban con el

rendimiento de la tarea, ya que los participantes mostraban un mayor cambio en la

respuesta galvánica de la piel (GSR) en las tareas fallidas que en las tareas exitosas.

Los resultados demostraron el valor potencial de las MF como una fuente de

datos para la evaluación de la experiencia del usuario. Sin embargo, se requieren más

investigaciones que involucren variaciones en las tareas y considera que es necesario

utilizar sensores que inter�eran menos con la actividad del usuario.

Como se observa, la mayoría de las investigaciones que se describieron anteriormente

hacen una propuesta para analizar los datos de las MF después de haber participado

en la prueba, estas investigaciones utilizan parámetros estadísticos comunes, estos

parámetros ayudan a obtener la linea base antes de iniciar la prueba para compararlos

con la MF �nal para observar que tanto cambió al realizar algunas tareas en la interfaz.

Dado el contexto anterior, esta investigación pretende integrar alguna técnica de

aprendizaje automático como la investigación de Udovivic et al. (2017), que aunque no

32

2.4. Resumen

está orientada al contexto de usabilidad, clasi�ca la excitación y la valencia del usuario

mediante MF y algoritmos de aprendizaje automático, y expresan que obtuvieron

buenos resultados en la predicción de emociones. El proceso que realizaron fue primero

pasar el conjunto de entrenamiento y prueba para generar el modelo, después para su

validación utilizaron una matriz de confusión y validación cruzada.

Finalmente expresan que es viable utilizar técnicas de aprendizaje automático

junto a MF. De esta investigación se puede recuperar la utilización de los parámetros

estadísticos (media, desviación estándar, valor mínimo, valor máximo y el tiempo) como

características y las técnicas para el procesamiento de datos.

Por otra parte, se puede observar que cada una de estas investigaciones indica que

los sensores modi�can la interacción normal de los participantes y que es necesario

buscar otras opciones para mejorar esto.

Por tal motivo, se detectó la necesidad de utilizar sensores menos invasivos en este

caso se decidió utilizar un smartwath que según Shahmohammadi et al. (2017) expresan

que a diferencia de los teléfonos inteligentes que son voluminosos y no siempre usados

por el individuo durante comportamientos de interés como el ejercicio, los SmartWatch

pueden fácilmente ser usados durante altos niveles de actividad para proporcionar

detección de información sin interferir directamente con sus actividades, y considerando

que no se detectaron propuestas en la literatura que logren unir las MF y una medida

de usabilidad en este trabajo se propone una forma para lograrlo.

33

Capítulo 3

Marco Metodológico

A continuación se describen el diseño experimental, los participantes y materiales

empleados en la presente tesis, En segundo lugar, se presenta el procedimiento de la

recolección y análisis de datos.

3.1. Diseño experimental

Se llevó a cabo un experimento para obtener el ritmo cardiaco de los participantes

en una prueba de usabilidad, para ello se contaba con dos interfaces, una donde se

podía realizar consultas SQL de manera grá�ca y la segunda donde podían realizar las

mismas consultas a la base datos por línea de comandos.

Considerando que los sensores presentados en el Capitulo 2 inter�eren con la

realización de la tarea de forma natural y esto a su vez puede generar ruido en la

obtención de la señal, se decidió usar un smartwath que pudiera tener la capacidad de

reducir este problema.

Cada uno de los 14 participantes realizó tres tareas en las dos interfaces. Luego

de cada prueba contestaron un cuestionario SUS que sirvió para asociar la respuesta

subjetiva con el ritmo cardiaco de cada participante.

35

Capítulo 3. Marco Metodológico

3.2. Participantes

En este estudio participaron catorce (14) estudiantes de la Universidad Veracruzana

de entre 23 y 28 años. De esos 14, siete son mujeres y siete son hombres. Los participantes

usan la computadora diariamente y cuentan con experiencia en lenguaje estructurado

de consultas (SQL, 1). La Figura 3.1 muestra algunos de los participantes.

Figura 3.1: Participantes en la prueba

Cabe señalar que para obtener los datos demográ�cos de los participantes se

les aplicó un cuestionario (ver apendice A.1). Para conocer la experiencia de los

participantes con SQL, se aplicó otro cuestionario (ver apéndice A.2) con 5 preguntas

para recopilar esta información. Para cada pregunta, hubo 4 respuestas diferentes, entre

las cuales el participante tuvo que elegir solo una. El cuestionario ofrece una evaluación

porcentual (de 0 a 100%), asignando 20 puntos por cada respuesta correcta. Como

resultado, se obtuvo que el 71% de los participantes tenía un alto nivel de experiencia

con SQL, mientras que el 29% tenía un nivel medio de experiencia.

3.3. Materiales

Se usaron diferentes materiales en este estudio: tanto de hardware (smartwatch)

como de software (dos prototipos de interfaces de usuario, una aplicación para registrar

datos del smartwatch y otra para visualizar grá�camente los datos), una lista de tareas

que debían realizar los participantes y un cuestionario para medir usabilidad. Estos se

describen a continuación.1Siglas en inglés de Structured Query Language

36

3.3. Materiales

3.3.1. Sensor SmartWatch y Aplicación

Se han realizado pocos estudios que se hayan centrado en utilizar los SmartWatch

(Shahmohammadi et al., 2017). La falta de atención hacia estos dispositivos puede ser

debido a varias razones. Primero, no ha sido hasta los últimos años que los SmartWatch

se han vuelto populares entre el público en general (Rawassizadeh et al., 2014) y

segundo, Rawassizadeh et al. (2014) expresa que los smartwatches se han limitado

en términos de poder de cómputo y duración de la batería. Para registrar el HR de

los participantes, se utilizó un smartwatch GEAR S2 de Samsung R©con las siguientes

características (ver en Tabla 3.1) que ayuda a romper la limitante expresada por

Rawassizadeh et al. (2014).

Tabla 3.1: Caracteristicas de smartwatch GEAR S2 Samsung R©

Hardware Descripción

Pantalla circular de 1.2"sAMOLED 360 x 360 (302 ppi)

Procesador Qualcomm Snapdragon 400 1.7 Ghz

Memoria Interna 4GB

RAM 512 MB

Conectividad Bluetooth 4.1, Wi-Fi 802.11n, NFC

sensores Acelerómetro, giroscopio,monitor de ritmo

Protección IP68

Compatibilidad Android 4.3 y versiones posteriores con más de 1.5 GB de RAM.

Este dispositivo puede detectar el HR del usuario cuando se coloca en su muñeca,

por lo que no es invasivo. Según Free et al. (2010), un smartwath está presente en

muchos lugares y situaciones normales para un usuario.

37


Figura 3.2: SmartWatch Gear S2

samsung R©Figura 3.3: Aplicación para Medir

HR

Además, a diferencia de los teléfonos inteligentes que son voluminosos y no siempre

usados por el individuo durante comportamientos de interés como el ejercicio, los

SmartWatches pueden fácilmente ser usados durante altos niveles de actividad para

proporcionar detección de información más allá de la acelerometría, como la frecuencia

cardíaca, a diferencia de los sensores mencionados en la sección 2 que no tienen esta

característica. La Figura 3.2 muestra el dispositivo y la Figura 3.3 muestra la aplicación

que fue desarrollada para medir el HR del participante.

3.3.2. Software para Visualizar el HR

Este software fue desarrollado para generar grá�cos como el de la Figura 3.4 a partir

de los datos recopilados por el SmartWatch. Con él se puede observar el HR de cada

uno de los participantes de manera grá�ca.

Figura 3.4: Software para Visualizar HR de los Participantes

38

3.3. Materiales

3.3.3. Interfaces Prototipo

Para este experimento se implementaron dos interfaces para escribir y ejecutar

consultas en SQL: una Interfaz de consulta visual (VQI) y una Interfaz de consulta

de línea de comandos (CLQI). La VQI (ver Figura 3.5) tiene elementos grá�cos que

permiten al usuario construir una consulta de acuerdo con la sintaxis de SQL. Las

consultas que se pueden realizar van desde un Select-From-Where básico hasta un Inner

Join. Una vez formada una consulta, el usuario puede enviarla a ejecución a un sistema

manejador de bases de datos.

Figura 3.5: Interfaz de Consulta Visual (VQI)

Por otro lado, la CLQI, que se muestra en la Figura 3.6, permite al usuario escribir

expresiones SQL en modo comando y los envia a un servidor de base de datos para

obtener resultados. Esta interfaz tiene dos botones, uno para ejecutar consultas y el

otro para cancelarlas.

3.3.4. Lista de Tareas

Para la interacción del participante con las dos interfaces (VQI y CLQI), se

de�nieron las tareas descritas en la Tabla 3.2.

39


Figura 3.6: Interfaz de Consulta por Linea de Comandos (CLQI)

Tabla 3.2: Tareas realizadas por los participantes

Tarea Descripción

T1 Seleccionar nombre, apellido y fecha de nacimiento de los estudiantes de nombre EDGAR

T2 Seleccionar todos los estudiantes nacidos antes de 1992-05- 01;

T3 Seleccionar de la tabla Notas las cali�caciones que corresponden a cada alumno en la tabla Alumno

Dadas estas tareas, los usuarios debían ejecutarlas utilizando los elementos grá�cos

en VQI y línea de comandos SQL en CLQI.

3.3.5. Cuestionario SUS

La Escala de Usabilidad de un Sistema (SUS por sus siglas en inglés System

Usability Scale) es una herramienta que se usa para medir la usabilidad de un sistema.

Aunque esta escala es simple de usar, diferentes pruebas y tests han demostrado que los

resultados obtenidos a partir de la misma suelen ser con�ables y acertados, razón por

la cual es uno de los métodos de medición de usabilidad más utilizados en Experiencia

40

3.4. Procedimiento de recolección de datos

de Usuario. El cuestionario SUS se puede ver en apéndice A.2. El porcentaje asignado

para el puntaje obtenido del cuestionario se puede ver en la Figura 3.7.

Figura 3.7: Porcentaje para el puntaje valor del cuestionario SUS

3.4. Procedimiento de recolección de datos

El protocolo que se siguió con los participantes se dividió en cuatro fases como en

(Lin et al., 2005): fase de bienvenida, fase inicial, fase de ejecución y fase �nal.

Durante la fase de bienvenida, cada participante �rmó un formulario de consenti-

miento con una descripción detallada del experimento, su duración y su propósito de

investigación. Los participantes también respondieron el cuestionario sobre la experien-

cia SQL.

Durante la fase inicial, las instrucciones fueron leídas a cada participante y se le

permitió practicar durante aproximadamente dos minutos.

41


Al comienzo de la fase de ejecución, el SmartWatch se colocó en la muñeca izquierda

del participante para luego registrar el HR durante un descanso de dos minutos para

obtener una línea base de referencia (Sperry y Fernandez, 2008). Posteriormente, los

participantes hicieron las tres tareas usando cada interfaz. Después de completar una

tarea, cada participante tenía aproximadamente 5 minutos para descansar.

En la fase �nal del estudio, los participantes completaron un cuestionario SUS por

cada interfaz para evaluar su usabilidad.

3.5. Procedimiento de análisis de datos

Para analizar los datos, se optó por utilizar árboles de clasi�cación, particularmente

tipo CART. Esta técnica utiliza datos históricos para construir árboles de clasi�cación

o de regresión los cuales son usados para clasi�car o predecir nuevos datos. CART

pueden manipular fácilmente variables numéricas y/o categóricas. Para la aplicación de

la clasi�cación se realizó un programa en Python utilizando la libreria Pedregosa et al.

(2011).

La Figura 3.8 muestra las librerías utilizadas

Figura 3.8: Librerias utilizadas (Pedregosa et al., 2011)

La �gura 3.9 muestra como se cargó el conjunto de datos proveniente de un archivo

.csv, para después construir un tipo de tabla utilizando las librerías pandas y numpy,

que ayuda en el análisis de datos y proporcionan estructuras de datos �exibles.

En la Figura 3.10, la variable predictors es el conjunto de variables que nos

proporcionan información y la variable targets es la variable clase, como se puede

ver en la linea 20 se separan los datos en entrenamiento y prueba. Se instancia la

clase del árbol de clasi�cación y se de�ne la profundidad para que el modelo sea más

42

3.5. Procedimiento de análisis de datos

Figura 3.9: Separación de datos entrenamiento y prueba

preciso, y evitar el sobreajuste. Esto se debe a que dejamos crecer el árbol hasta que

cada hoja estuviera pura (es decir que solo contenga datos de una sola clase a predecir).

Una alternativa para reducir el sobreajuste y ver si podemos lograr que generalice

mejor y por tanto tenga más precisión para datos nunca vistos, es tratar de reducir la

complejidad del modelo por medio de controlar la profundidad que puede alcanzar el

árbol de decisión. Además, se muestra la precisión y exactitud del conjunto de datos

de entrenamiento y prueba. Finalmente, para validar el modelo se utiliza validación

cruzada para evaluar los resultados del análisis estadístico.

Figura 3.10: Creación del modelo y validación

43


La Figura 3.11 muestra la forma en la que se genera grá�camente el árbol con el

conjunto de estadísticas para verlo de manera grá�ca, esto se realizó con la ayuda de

la librería graphviz.

Figura 3.11: Impresión árbol de Clasi�cación

Para generar un árbol de decisión, el algoritmo parte de un conjunto de elementos,

cada uno de estos etiquetados por un valor de la clase. Se hace entonces necesario

pre-procesar los datos para obtener los datos de entrada requeridos. En cuanto a los

datos del ritmo cardiaco, en este trabajo se trataron como series temporales. Cada

serie representa el ritmo cardiaco de un usuario en la realización de las 3 tareas en una

interfaz determinada. Se le extrajeron características para representarlos, que en este

caso fueron mediciones estadísticas como: media, desviación estándar, mínimo, máximo

y tiempo de la serie. Se decidió obtener estas características porque las investigaciones

que utilizan medidas �siologicas (Wagner et al., 2005; Sperry y Fernandez, 2008; Lazar

et al., 2017) las utilizan.

A cada serie, representada por los atributos antes señalados, se le asoció un valor de

clase, que fue el resultado de la evaluación de usabilidad del participante para la interfaz

dada. Se decidió transformar los datos provenientes del cuestionario SUS en valores

categóricos, de acuerdo a la escala propuesta por Sauro y Lewis (2016) y mostrada en

la Tabla 3.3.

Tabla 3.3: Escala de cali�cación de puntaje SUS de (Sauro y Lewis, 2016)

Puntaje SUS Escala Sauro y Lewis (2016) Puntaje SUS Escala Sauro y Lewis (2016)

84.1-100 A+ 71.1-72.5 C+

80.8-84 A 65-71 C

78.9-80.7 A- 62.7-64.9 C-

77.2-78.8 B+ 51.7-62.6 D

74.1-77-1 B 0-51.7 F

72.6-74 B-

44

3.6. Resumen

3.6. Resumen

En este capítulo se describieron los elementos de un experimento para obtener

el ritmo cardiaco de los participantes en una prueba de usabilidad, para esto se

desarrollaron dos interfaces donde los participantes de la prueba podían realizar

consultas SQL utilizando los elementos grá�cos disponibles en la interfaz y la segunda

donde podían realizar las mismas consultas a la base datos por línea de comandos.

Del mismo modo, se desarrolló una aplicación para enviar los datos del ritmo cardiaco

obtenidos por reloj a una base de datos donde eran almacenados. Cabe señalar que se

obtuvieron datos demográ�cos de los participantes y a su vez otro cuestinario donde

se obtenía el grado de experiencia con SQL. Por otro lado, se desarrolló una aplicación

Web donde se podía visualizar los datos en forma de grá�cas. Esto se realizó para que

se pudiera observar el comportamiento del ritmo cardíaco segundo a segundo.

Cada uno de los 14 participantes realizó tres tareas en las dos interfaces. Luego de

cada prueba contestó un cuestionario SUS qué sirvió para asociar la respuesta subjetiva

con el ritmo cardiaco de cada participante. La cali�cación de usabilidad como ya se dijo

anteriormente se transformó el valor que arrojaba SUS en valores categóricos propuestos

por Sauro y Lewis (2016), estos valores pasaron a formar parte del conjunto de datos,

así como las estadísticas básicas. El conjunto de datos generado fue cargado al árbol de

clasi�cación para generar y predecir nuevos datos.

45

Capítulo 4

Resultados y discusión

En este capítulo se describe el análisis de los datos recopilados, con la �nalidad de

encontrar si existe una relación entre una medida �siológica como el ritmo cardiaco y

la usabilidad de un software, en términos de satisfacción del usuario. En primer lugar,

se describen los datos cuantitativos del HR del estudio exploratorio. Posteriormente,

se describe el análisis de los cuestionarios SUS respondidos por los participantes y

�nalmente, se describen los resultados de la aplicación del árbol de decisión tipo CART

a los datos combinados.

4.1. Caracterización de los datos recolectados

4.1.1. Datos del ritmo cardiaco

Como se mencionó anteriormente, se recolectaron datos sobre el ritmo cardiaco de

los 14 participantes del estudio mientras interactuaban con VQI y CLQI. La recolección

de estos datos se hizo en tres estados: reposo (tomado como la linea base o referencia

(Sperry y Fernandez, 2008; Shi et al., 2007)), durante la ejecución de tareas con VQI

y, �nalmente, durante la ejecución de tareas con CLQI.

Como ejemplo, la Figura 4.1 muestra un resumen de los datos obtenidos del

participante 1. Como se puede ver, el HR de este usuario en particular se mantuvo

constantemente por encima de la línea base de referencia mientras se usaba VQI. Por el

47

Capítulo 4. Resultados y discusión

Figura 4.1: Variación del ritmo cardiaco del participante 1

contrario, su HR durante el uso de CLQI fue superior a la linea base normal al comienzo

de la sesión, pero con un HR similar a la línea de base al �nal de la sesión, teniendo un

decremento al �nalizar la tarea.

Después de haber obtenido el ritmo cardíaco de cada participante cuando realizó las

tareas en cada interfaz, se obtuvieron el conjunto de estadísticas básicas que se muestran

en la Tabla 4.1, Estos valores se convierten �nalmente en atributos que caracterizan a

cada participante.

Tabla 4.1: Estadísticas Básicas de VQI

Participante Media Desviación Max Min

P1 65.0810074 1.28864191 75 70

P2 84.7693926 1.40741004 88 83

P3 60.7043108 0.84835626 61 59

P4 64.682913 1.65269478 65 61

P5 76.934157 4.08018477 77 70

P6 70.6031716 0.06426228 73 71

P7 99.0397099 0.78921636 103 100

P8 108.561813 2.6929754 115 106

P9 90.4395007 5.55363821 93 83

P10 102.467049 6.32419702 109 103

P11 94.115993 1.61443771 99 95

P12 98.7513188 2.95275626 95 92

P13 71.9051913 1.50522061 79 70

P14 96.5537282 2.18501798 97 93

48


Se puede observar, que cada participante esta caracterizado, por la media, desviación

estándar, el valor máximo de su ritmo cardicaco y el valor mínimo. De igual forma, la

Tabla 4.2 muestra las estadísticas básicas por cada usuario para CLQI.

Tabla 4.2: Estadísticas Básicas de CLQI

Participante Media Desviación Max Min

P1 64.6087529 2.73555911 67 62

P2 70.2523544 3.55911734 63 57

P3 85.728466 3.3846284 88 79

P4 83.6394984 4.14062658 90 80

P5 81.9286016 7.48952748 71 89

P6 72.7956743 1.68195451 69 77

P7 91.3090278 6.4901295 98 80

P8 103.946025 1.27999057 109 99

P9 88.8995306 6.4750755 80 97

P10 95.4059415 1.11788632 93 97

P11 94.7801907 2.30045895 92 96

P12 97.6205428 1.05181583 101 97

P13 72.4346236 0.9774478 76 70

P14 95.8741231 3.56400967 102 96

La Figura 4.2 presenta un grá�co de barras que resume los datos de HR recopilados

de todos los usuarios utilizando la media y desviación estándar, como en (Sperry y

Fernandez, 2008; Shi et al., 2007), lo que hace posible comparar el resultado de la

ejecución de las tareas con la linea base de la señal. La barra azul representa el estado

normal de HR, la barra naranja representa la media de HR cuando los participantes

interactúan con VQI y la barra gris representa la media de CLQI.

Como se puede ver, el HR de los participantes 2, 7, 9 y 12 aumentó cuando interactuó

con VQI, mientras que no fue el caso para los participantes 1, 3, 4, 5, 6, 8, 10 y 14 que

presentaron un mayor aumento en CQLI. Para los participantes que presentaron un

incremento en su HR cuando usaron VQI, podría deberse a la necesidad de usar más

elementos grá�cos para estructurar una consulta SQL y/o el aumento en el nivel de

di�cultad de la tarea, como lo sugiere (Sperry y Fernandez, 2008) En el caso de CQLI,

esto podría deberse a que los participantes debían de recordar la sintaxis de SQL.

49


Figura 4.2: Resumen del HR para los 14 participantes

4.1.2. Datos del cuestionario SUS

Al �nal del uso de cada interfaz, se les pidió a los participantes que contestaran un

cuestionario SUS con preguntas subjetivas sobre la usabilidad. Los datos recolectados

fueron procesados de acuerdo a los puntajes antes mencionados.

Las respuestas de cada participante en especí�co se asignan a un puntaje que

representa una medida compuesta de la usabilidad general del sistema. Este puntaje

se convierte �nalmente en un porcentaje, de acuerdo con la escala de Je� Sauro (ver

Figura 3.7).

Los resultados del cuestionario para VQI por cada usuario se pueden ver en la Figura

4.3.

50


Figura 4.3: Porcentaje SUS de cada Participante para VQI

Los resultados del cuestionario para CLQI por cada usuario se pueden ver en la

Figura 4.4.

Figura 4.4: Porcentaje SUS de cada Participante para CLQI

En resumen, el puntaje promedio de SUS fue 68, que es igual a 50%. El puntaje

promedio para VQI fue 77.14, que equivale a 80%, mientras que el puntaje promedio

51


para CLQI fue 73, que equivale a 67%. Entonces se podría decir que los participantes,

valoraron más a VQI que a CLQI, y esto se ve re�ejado en los resultados, dado que la

mayoría de los participantes cali�có arriba del promedio.

Finalmente, para cada participante se realizó la relación entre el puntaje obtenido

del cuestionario SUS y la escala de Sauro y Lewis (2016) correspondiente a cada valor,

obteniendo para VQI los resultados que se muestran en la Tabla 4.3 y para CLQI en la

Tabla 4.4.

Tabla 4.3: Relación puntaje SUS y escala Sauro y Lewis (2016) para VQI por

participante

Participante SUS Escala Participante SUS Escala

P1 65 C P8 87.5 A+

P2 57.5 D P9 65 C

P3 82.5 C- P10 90 A+

P4 67.5 C P11 75 B

P5 80 A- P12 80 A-

P6 60 D P13 82.5 A

P7 70 C P14 65 C

Del mismo modo, se realizó para CLQI obteniendo los resultados que se muestran

en la Tabla 4.4.

Tabla 4.4: Relación puntaje SUS y escala Sauro y Lewis (2016) para CLQI por

participante

Participante SUS Escala Participante SUS Escala

P1 60 D P8 82.5 A

P2 85 A+ P9 65 C

P3 77.5 B+ P10 87.5 A+

P4 75 B P11 87.5 A+

P5 85 A+ P12 77.5 B+

P6 62.5 D P13 62.5 D

P7 100 A+ P14 72.5 B-

52

4.2. Predicción de usabilidad a partir del ritmo cardiaco

4.2. Predicción de usabilidad a partir del ritmo

cardiaco

La recolección de datos y su procesamiento permitió obtener, por cada interfaz,

los datos del ritmo cardiaco de cada participante al usar dicha interfaz, así como la

evaluación de usabilidad de la interfaz del mismo participante. Las tablas siguientes

muestran la combinación de los datos.

Tabla 4.5: Conjunto de datos de VQI

Participante Media Desviación Max Min Escala

P1 65.0810074 1.28864191 75 70 D

P2 84.7693926 1.40741004 88 83 A+

P3 60.7043108 0.84835626 61 59 B+

P4 64.682913 1.65269478 65 61 B

P5 76.934157 4.08018477 77 70 A+

P6 70.6031716 0.06426228 73 71 C-

P7 99.0397099 0.78921636 103 100 A+

P8 108.561813 2.6929754 115 106 A

P9 90.4395007 5.55363821 93 83 C

P10 102.467049 6.32419702 109 103 A+

P11 94.115993 1.61443771 99 95 A+

P12 98.7513188 2.95275626 95 92 B+

P13 71.9051913 1.50522061 79 70 C-

P14 96.5537282 2.18501798 97 93 B-

¾

53


Tabla 4.6: Conjunto de datos de CLQI

Participante Media Desviación Max Min Escala

P1 64.6087529 2.73555911 67 62 C

P2 70.2523544 3.55911734 63 57 D

P3 85.728466 3.3846284 88 79 C-

P4 83.6394984 4.14062658 90 80 C

P5 81.9286016 7.48952748 71 89 A-

P6 72.7956743 1.68195451 69 77 D

P7 91.3090278 6.4901295 98 80 C

P8 103.946025 1.27999057 109 99 A+

P9 88.8995306 6.4750755 80 97 C

P10 95.4059415 1.11788632 93 97 A+

P11 94.7801907 2.30045895 92 96 B

P12 97.6205428 1.05181583 101 97 A-

P13 72.4346236 0.9774478 76 70 A

P14 95.8741231 3.56400967 102 96 C

Cada conjunto de datos fue utilizado como entrada en el árbol de decisión. Para ello

se consideró como atributo clase al resultado de la evaluación de usabilidad.

La Figura 4.5 describe los elementos de cada nodo del árbol resultante.

Figura 4.5: Descripción del árbol

54


El atributo dentro del recuadro verde corresponde a una restricción basada en

términos de una variable, el recuadro de color rojo corresponde al valor de la ganancia

de información, la variable samples corresponde al numero de muestras que cumplen

con la restricción para ese nodo y value en el recuadro azul corresponde a la variable

categórica proveniente de la cali�cación de usabilidad.

Por el ejemplo, donde se observa value = [1, 5, 1, 2, 1, 2, 2], el primer valor indica

que 1 participante cali�có al sistema con la letra A+, el segundo corresponde a

5 participantes que cali�caron el sistema con A, el tercer valor corresponde a 1

participante que cali�có al sistema con la letra B+ y así sucesivamente. La primera

ejecución del árbol utilizando como la variable objetivo a la cali�cación de usabilidad

en VQI (U-VQI), mientras que en la segunda prueba se realizó cambiando la variable

objetivo a la cali�cación de usabilidad en CLQI (U-CLQI).

Estas pruebas se realizaron utilizando el 100% del conjunto de datos. Por cada

atributo del conjunto de datos VQI Y CLQI, el algoritmo CART divide el conjunto

de muestras en subconjuntos enriquecidos de una clase u otra. Su criterio se basa en

medidas de la ganancia de información. En resumen por cada atributo que el algoritmo

elija como el parámetro de mayor ganancia y se elige como parámetro de decisión y se

divide en dos partes sucesivamente como se ve en la Figura 4.6 y en la Figura 4.8.

El árbol de decisión para el primer caso es el que se muestra en la Figura 4.6 y el

conjunto de reglas se muestra en la Figura 4.7.

55


Figura 4.6: Árbol de decisión para VQI

Figura 4.7: Reglas para árbol de decisión en VQI

El árbol de decisión para el segundo caso es el que se muestra en la Figura 4.8 y el

conjunto de reglas se muestra en la Figura 4.9.

56


Figura 4.8: Árbol de decisión para CLQI

Figura 4.9: Reglas para árbol de decisión en CLQI

57


Para saber la precisión que estaba proporcionando el modelo en la clasi�cación, se

utilizaron las funciones Score y Strati�edKFold, que están disponibles en Pedregosa et

al. (2011). Se puede apreciar en la Figura 4.10 la precisión de clasi�cación adquirida del

conjunto de datos VQI fue de 88.88% y de igual forma en la Figura 4.11, se observa que

la precision para CLQI fue de 91.66%. Por otro lado, el iterador Strati�edKFold es una

versión mejorada de la validación cruzada, ya que cada pliegue va a estar estrati�cado

para mantener las proporciones entre las clases del conjunto de datos original, lo que

suele dar mejores estimaciones del sesgo y la varianza del modelo. El porcentaje para

VQI fue 86.7% de igual forma se puede ver en la Figura 4.10 y el porcentaje para CLQI

fue de 90.7% y se puede observar en la Figura 4.11.

Figura 4.10: Porcentaje de precisión VQI

Figura 4.11: Porcentaje de precisión CLQI

4.3. Resumen

En este capítulo se presentaron los resultados del estudio exploratorio con el objetivo

de veri�car si es posible utilizar el HR (con un sensor poco invasivo instalado en

un SmartWatch) como un elemento objetivo en las pruebas de usabilidad. Primero,

se caracterizaron los datos provenientes de la medición del ritmo cardíaco durante

la utilización de cada una de las dos interfaces que se prepararon para el estudio.

Posteriormente, se presentaron los datos de usabilidad obtenidos por medio del

cuestionario SUS para cada interfaz y por cada participante. Los datos anteriores fueron

combinados, para cada interfaz, caracterizando el ritmo cardíaco del participante y el

resultado de su evaluación de usabilidad forman un solo ejemplar. Estos datos fueron

la entrada de un algoritmo de generación de árboles de decisión.

58

Capítulo 5

Conclusiones y Trabajo Futuro

5.1. Conclusiones

Como se ha visto, no existe un �estándar"para la medición �siológica y las pruebas

de usabilidad. En cambio, se encontró que el ritmo cardiaco, puede ser útil, según el

contexto de estudio.

En este trabajo se realizó un experimento exploratorio, un protocolo y un conjunto

de variables para buscar obtener una cali�cación de usabilidad basado en el ritmo

cardíaco de los participantes. Primeramente se creó una aplicación en un smartwatch

para recuperar los datos del ritmo cardíaco y obtener datos cuantitativos para

categorizar al ritmo cardíaco, para ello se recopilaron y se de�nieron un conjunto

devariables (media, desviación estándar, mínimo, máximo). Se realizó un experimento

para la recuperación de los datos cuantitativos de ritmo cardíaco y se obtuvo una

cali�cación de usabilidad. Se relacionó el puntaje SUS con una escala categórica de

usabilidad proveniente de los estudios de Sauro y Lewis (2016), después de haber

obtenido el conjunto de datos e ingresarlos como entrada al árbol de decisión tipo CART,

después de la validación del árbol se obtuvo el porcentaje de precisión de clasi�cación

para VQI de 86.7% y el porcentaje para CLQI de 90.7%.

Este proyecto presenta un primer acercamiento en la búsqueda de la clasi�cación

entre los datos �siológicos y una cali�cación tradicional de evaluación de usabilidad. Sin

embargo, los investigadores de usabilidad deben ser conscientes de que, las respuestas

�siológicas siempre deben interpretarse en relación con el contexto en el que se

59

Capítulo 5. Conclusiones y Trabajo Futuro

recopilaron los datos, así como también con la descripción que los usuarios hacen de su

experiencia.

Por otro lado, se puede decir que la técnica utilizada no sustituye al especialista de

usabilidad, sin embargo, si constituyen una herramienta para facilitar el análisis de este

tipo de pruebas.

Por último, para terminar, las conclusiones alcanzadas refuerzan la necesidad de

combinar a las metodologías complementarias, subjetivas y objetivas, con el análisis de

la respuesta �siológica.

5.2. Trabajo Futuro

Dentro de un trabajo de investigación es importante identi�car las líneas de trabajo

para dar continuidad al esfuerzo invertido. Por esto, esta sección pretende mostrar el

trabajo futuro que es necesario realizar para seguir avanzando en la relación de las

medidas �siológicas y la usabilidad.

Como se observó en el Capítulo 3, solo se realizó el experimento con catorce

participantes. Esto implica que los datos pudieran no ser su�cientes para la extracción

de características, por lo que se propone:

Se necesitan estudios que incluyan más participantes para garantizar el poder de

las pruebas estadísticas.

Ampliar el estudio a otros grupos de población, principalmente a personas con

discapacidad y personas mayores.

Aplicar el experimento desarrollado en otros contextos como productos y servicios

comerciales, páginas Web, aplicaciones de escritorio y móviles.

Combinar el ritmo cardíaco con otras señales �siológicas como el análisis de la

actividad electrodérmica de la piel o las señales cerebrales.

En cuanto a la técnica utilizada, se propone:

60

5.2. Trabajo Futuro

Al valorar el ritmo cardíaco mediante técnicas de clasi�cación se obtiene

información que puede relacionarse con la cali�cación �nal del usuario. Sin

embargo, es necesario realizar otras validaciones.

Comparar con más algoritmos de clasi�cación para extraer el conocimiento y

conocer el comportamiento de cada algoritmo.

Además, a largo plazo se propone, que después de obtener una cali�cación de

usabilidad, se realice una adaptación de interfaces en función a la señal �siológica.

61

Referencias

Aguilar, M. I. H. (2017). Evaluación de usabilidad a través del seguidor ocular,

eus y csuq en plataforma educativa/evaluation of usability with eye tracking, sus

and csuq in educational platform. RECI Revista Iberoamericana de las Ciencias

Computacionales e Informática, 6 (12), 140�159.

Andreassi, J. L. (2013). Psychophysiology: Human behavior & physiological response.

Psychology Press.

Arroyo Vázquez, N. (2011). Informe apei sobre usabilidad. Gijón: APEI, Asociación

Profesional de Especialistas en Información, 2011.

Carranza, E. E., y Gajardo, E. A. C. (2009). Anatomia de la piel. Cilad. Org , 1�23.

Chipantiza, C., Lewis, V., Mazón Olivo, B. E., Calva, C., y Jeorwin, J. (2015). La

usabilidad en el desarrollo de software. Machala: Ecuador.

Chisholm, W., Vanderheiden, G., y Jacobs, I. (2001). Web content accessibility

guidelines 1.0. Interactions , 8 (4), 35�54.

Correo, F. M. (2014). Diseño de un sistema de reconocimiento de estrés en seres

humanos. Universidad Nacional Autónoma de Mexico.

Cruz, Y. P., Collazos, C. A., y Granollers, T. (2015). The thin red line between usability

and user experiences. En Proceedings of the xvi international conference on human

computer interaction (pp. 46:1�46:2). ACM.

63

Bibliografía

Foglia, P., Zanda, M., y Trading, I. (2014). Towards relating physiological signals

to usability metrics: a case study with a web avatar. WSEAS Transactions on

Computers , 13 , 624�634.

Forne, M. (2012). Physiology as a tool for ux and usability testing�a comparative study

of pupil size and other physiological measures.

Free, C., Phillips, G., Felix, L., Galli, L., Patel, V., y Edwards, P. (2010). The

e�ectiveness of m-health technologies for improving health and health services: a

systematic review protocol. BMC research notes , 3 (1), 250.

Gutwin, C., y Greenberg, S. (2000). The mechanics of collaboration: Developing low

cost usability evaluation methods for shared workspaces. En Enabling technologies:

Infrastructure for collaborative enterprises, 2000.(wet ice 2000). proeedings. ieee 9th

international workshops on (pp. 98�103).

Hernández, J. (2015). Evaluación de la usabilidad web mediante el análisis de la mirada

y la respuesta �siológica. in�uencia de las características del usuario. (Tesis Doctoral

no publicada). Universitat Politècnica de València.

Hernández, L. S. L. (2016). Clasi�cación de emociones fusionando características de

análisis de respuesta �siológicas y análisis automatizado de conducta en video juegos.

Lazar, J., Feng, J. H., y Hochheiser, H. (2017). Research methods in human-computer

interaction. Morgan Kaufmann.

Lewis, J. R. (1995). Ibm computer usability satisfaction questionnaires: psychometric

evaluation and instructions for use. International Journal of Human-Computer

Interaction, 7 (1), 57�78.

Lin, T., Omata, M., Hu, W., y Imamiya, A. (2005). Do physiological data relate

to traditional usability indexes? En Proceedings of the 17th australia conference on

computer-human interaction: Citizens online: Considerations for today and the future

(pp. 1�10).

Martín, A. E., Gaetán, G., Saldaño, V. E., Pires, A., Miranda, G., Villagra, S., . . . Sosa,

H. (2017). Un enfoque integrador para diseñar y evaluar interfaces de usuario web.

64

Bibliografía

En Xix workshop de investigadores en ciencias de la computación (wicc 2017, itba,

buenos aires).

Moreno, A. T., y Reiriz, J. (2012). Sistema nervioso anatomia. Infermera virtual,

Collegi o�cial Infermeres I Infermers, Barcelona, 2 .

Muñoz, H., y Nureibis, C. (2014). Estudio de técnicas de análisis y clasi�cación de

senales eeg en el contexto de sistemas bci (brain computer interface) (Tesis de Master

no publicada).

Nielsen, J. (2005). Ten usability heuristics. http://www. nngroup. com/articles/ten-

usability-heuristics/(acc-essed December 19, 2013).

Nielsen, J. (2012). Usability 101: Introduction to usability. nielsen

norman group. Tillgänglig<http://www. nngroup. com/articles/usabi-

lity101introductiontousability/>(2013 04 12).

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., . . .

Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine

Learning Research, 12 , 2825�2830.

Preece, J. (2000). Online communities: Designing usability and supporting socialbilty.

John Wiley & Sons, Inc.

Quintanilla, J. A. S., Zuazo, I. I., Pérez, A. I. R., y Esteo, F. J. G. (2017). Anatomía

humana para estudiantes de ciencias de la salud. Elsevier Health Sciences.

Rawassizadeh, R., Price, B. A., y Petre, M. (2014, diciembre). Wearables: Has the

age of smartwatches �nally arrived? Commun. ACM , 58 (1), 45�47. Descargado de

http://doi.acm.org/10.1145/2629633 doi: 10.1145/2629633

Rodriguez, R. M. (2016). Diseño de un sistema de detección y clasi�cación de cambios

emocionales basado en el análisis de señales �siológicas no intrusivas (Tesis Doctoral

no publicada). Universidad del País Vasco-Euskal Herriko Unibertsitatea.

Sauro, J., y Lewis, J. R. (2016). Quantifying the user experience: Practical statistics

for user research. Morgan Kaufmann.

65

http://doi.acm.org/10.1145/2629633

Bibliografía

Shahmohammadi, F., Hosseini, A., King, C. E., y Sarrafzadeh, M. (2017). Smartwatch

based activity recognition using active learning. En Connected health: Applications,

systems and engineering technologies (chase), 2017 ieee/acm international conference

on (pp. 321�329).

Shi, Y., Ruiz, N., Taib, R., Choi, E., y Chen, F. (2007). Galvanic skin response (gsr)

as an index of cognitive load. En Chi'07 extended abstracts on human factors in

computing systems (pp. 2651�2656).

Shneiderman, B., Plaisant, C., Cohen, M. S., Jacobs, S., Elmqvist, N., y Diakopoulos,

N. (2016). Designing the user interface: strategies for e�ective human-computer

interaction. Pearson.

Sperry, R. A., y Fernandez, J. D. (2008). Usability testing using physiological analysis.

Journal of Computing Sciences in Colleges , 23 (6), 157�163.

Tullis, T. S., y Stetson, J. N. (2004). A comparison of questionnaires for assessing

website usability. En Usability professional association conference (pp. 1�12).

Udovivic, G., Derek, J., Russo, M., y Sikora, M. (2017). Wearable emotion recognition

system based on gsr and ppg signals. En Mmhealth 2017: Workshop on multimedia

for personal health and health care.

Wagner, J., Kim, J., y André, E. (2005). From physiological signals to emotions:

Implementing and comparing selected methods for feature extraction and classi�ca-

tion. EnMultimedia and expo, 2005. icme 2005. ieee international conference on (pp.

940�943).

Ward, R. D., y Marsden, P. H. (2003). Physiological responses to di�erent web page

designs. International Journal of Human-Computer Studies , 59 (1), 199�212.

Yao, L., Liu, Y., Li, W., Zhou, L., Ge, Y., Chai, J., y Sun, X. (2014). Using physiological

measures to evaluate user experience of mobile applications. En International

conference on engineering psychology and cognitive ergonomics (pp. 301�310).

66

Apéndice A

Instrumentos de medición

En este apéndice se muestran los cuestionarios utilizados para las pruebas de

usabilidad de esta tesis.

A.1. Cuestionario - Demográ�co

El siguiente formato demográ�co fue para conocer la edad, sexo, y grado de estudios

de los participantes.

67

Formato de Consentimiento Pruebas con usuarios - Sistema “EASYBD”

Fecha: 12 de junio de 2017 Lugar: Facultad de Informática – Salón MSICU

El propósito de este estudio de usabilidad es evaluar la interfaz del sistema de base de datos que se

ha desarrollado. Como voluntario del estudio, su participación será anónima. Se le pedirá realizar

una serie de tareas, así como contestar un cuestionario al terminar su ejecución. La prueba podrá

ser videograbada, en cuyo caso se garantiza que el uso de la grabación será únicamente para

estudiar las características del sistema y estrictamente confidencial. La prueba tomará

aproximadamente un total de 50 minutos. Si alguno de los participantes por alguna razón está

inconforme con la prueba, podrá dar por terminada su participación en el momento que lo desee.

Yo _____________________________________________, acepto participar en este estudio,

entendiendo por completo sus términos y mis derechos como participante, detallados en la carta

de derechos correspondiente, de la cual he recibido una copia.

________________________ ________________________

Firma del participante Facilitador de prueba

Bibliografía

A.2. Cuestionario - Experiencia SQL

El siguiente formato de consentimiento fue para conocer la experiencia de los

participantes con el lenguaje de consultas SQL.

69

Datos del usuario Pruebas con usuarios - Sistema “EASYBD”


Nombre: ________________________________________________________ Edad: _________

Ocupación: _____________________________ Estudios en: ______________________________

Experiencia en SQL: (Alta) (Media) (Baja) Años: _________

Instrucciones: Por cada pregunta marca la respuesta que consideres es la correcta.

1.- ¿Cómo se crea una base de datos con SQL?

NEW Database pueba; NEW database prueba;

CREATE database prueba; CREATE DataBase prueba;

2.- ¿Cómo seleccionar datos de una tabla?

SELECT * from tbldatos; SELECT from tbldatos;

SELECTION * from tbldatos; SELECTION FROM tbldatos;

3.- ¿Cómo borrar elementos específicos de una tabla?

DELETE FROM nombre_tabla WHERE nombre_columna = valor;

DELETE FROM nombre_tabla WHERE nombre_columna;

DELETE * FROM nombre_tabla; DELETE nombre_columna= valor FROM nombre_tabla;

4.- ¿Cómo insertar nuevas filas en una tabla?

INSERT INTO nombre_tabla VALUES (valor1, valor2, valor3, .)

INSERT INTO nombre_tabla (columna1, columna2, columna3,.) VALUES (valor1, valor2, valor3, .)

INSERT INTO nombre_tabla (valor1, valor2, valor3, .)

INSERT INTO nombre_tabla VALUES (valor1, valor2, valor3, .)

5.- ¿Cómo es la sentencia para consultar datos de 2 o más tablas?

SELECT * FROM tabla1 INNER JOIN tabla2 WHERE tabla1.columna1 = tabla2.columna1

SELECT atributo1,.. FROM tabla1 INNER JOIN tabla2 WHERE tabla1.columna1 = tabla2.columna1

SELECT * FROM tabla1 INNER JOIN tabla2;

SELECT FROM tabla1 INNER JOIN tabla2 WHERE tabla1.columna1 = tabla2.columna1

Bibliografía

A.3. Cuestionario - SUS

El siguiente formato es el cuestionario SUS utilizado.

71

Cuestionario SUS Pruebas con usuarios - Sistema “EASYBD”


Nombre: ________________________________________________________ Edad: _________

Ocupación: _____________________________ Estudios en: ______________________________

Experiencia en SQL: (Alta) (Media) (Baja) Años: _________

Instrucciones: Por cada pregunta selecciona una opción que consideres es la adecuada.

Completamente de acuerdo

Completamente en desacuerdo

1. Creo que me gustaría utilizar este sistema frecuentemente

1 2 3 4 5

2. Encuentro este sistema innecesariamente complejo

1 2 3 4 5

3. Pienso que el sistema es fácil de usar

1 2 3 4 5

4. Creo que necesitaría soporte técnico para hacer uso del sistema

1 2 3 4 5

5. Encuentro las diversas funciones del sistema bastante bien integradas

1 2 3 4 5

6. He encontrado demasiada inconsistencia en este sistema

1 2 3 4 5

7. Creo que la mayoría de la gente aprendería a hacer uso del sistema rápidamente

1 2 3 4 5

8. He encontrado el sistema bastante incómodo para usar

1 2 3 4 5

9. Me he sentido muy seguro haciendo uso del sistema

1 2 3 4 5

10. Necesitaría aprender un montón de cosas antes de poder manejar el sistema

1 2 3 4 5

FACULTAD ESTADÍSTICA E INFORMÁTICA

Documents

Transcript of FACULTAD ESTADÍSTICA E INFORMÁTICA