, Cuba, junio de 2019

64
i ` , Cuba, junio de 2019 Título: Agrupamiento de enzimas similares de la familia GH-70 utilizando descriptores libres de alineamiento Autor: Jerry Rivera Fonseca Tutoras: Dra.Sc. Deborah Galpert Cañizares M.Sc. Karelia Ocana La O

Transcript of , Cuba, junio de 2019

Page 1: , Cuba, junio de 2019

i

`

, Cuba, junio de 2019

Título: Agrupamiento de enzimas similares de la familia GH-70 utilizando descriptores libres de alineamiento

Autor: Jerry Rivera Fonseca

Tutoras: Dra.Sc. Deborah Galpert Cañizares

M.Sc. Karelia Ocana La O

Page 2: , Cuba, junio de 2019
Page 3: , Cuba, junio de 2019

i

Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las

Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez

Lubian” subordinada a la Dirección de Información Científico Técnica de la mencionada casa

de altos estudios.

Se autoriza su utilización bajo la licencia siguiente:

Atribución- No Comercial- Compartir Igual

Para cualquier información contacte con:

Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las Villas.

Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830

Teléfonos: +53 42281503-1419

Page 4: , Cuba, junio de 2019
Page 5: , Cuba, junio de 2019

RESUMEN

ii

RESUMEN

El reconocimiento de la estructura de las secuencias de enzimas de la familia GH-70 constituye un

tema abierto en la Bioinformática por la importancia de estas enzimas en el campo de la

Biotecnología y, específicamente en nuestro país, por el perjuicio que ocasionan a la producción

de azúcar. El uso de descriptores libres de alineamiento para el estudio de las estructuras resulta

una tendencia en el análisis de secuencias. La integración de diversos descriptores puede aportar

información valiosa al reconocimiento de secuencias similares estructuralmente dentro de dicha

familia. En los experimentos, los métodos de agrupamiento Expectation Maximization (EM) y K-

means fueron comparados en este trabajo para este fin, conjuntamente con diferentes valores de

parámetros de selección de métodos de pre-procesamiento como la normalización y la reducción

de la dimensionalidad por reducción de rasgos redundantes. Para esta última reducción se

comparan dos métodos: la reducción basada en la correlación y la reducción basada en el análisis

de las componentes principales (PCA). Para medir la calidad de los experimentos de agrupamiento

se utilizó la medida de validación interna Overall Similarity. Los mejores experimentos resultan

los que no aplican PCA. El mejor agrupamiento seleccionado con 20 grupos de secuencias, con el

algoritmo EM y un umbral de reducción de rasgos altamente correlacionados de 0.99, aparece

descrito con los rasgos predictores que más aportan, las distancias entre el centroide y las

secuencias, las distancias entre los centroides y un gráfico donde se muestran las secuencias en

cada clúster ploteadas por el valor de uno de los mejores rasgos predictores, observándose la

concentración de las secuencias en dos grupos.

Palabras Clave: Descriptores libres de alineamiento, Enzimas GH-70, Reducción de la

dimensionalidad, Análisis de Componentes Principales, Agrupamiento

Page 6: , Cuba, junio de 2019

ABSTRACT

iii

ABSTRACT

The structure recognition of the enzyme sequences of GH-70 family is an open field in

Bioinformatics because of the importance of these enzymes in the Biotechnology field;

specifically, in our country they are important due to their damaging effect in the sugar cane

production. The use of alignment-free descriptors to study the structures is a tendency in sequence

analysis. The integration of diverse descriptors may add useful information to the recognition of

similar structure sequences among this family. The Expectation Maximization (EM) and K-means

clustering algorithms were compared in this theses paper to achieve the clustering goal. Besides,

the selection of different parameter values related with the selection of pre-processing methods as

normalization and dimensionality reduction by means of the reduction of redundant features was

carried out in the experiments. For this last reduction the method based on the correlation between

features was compared with the one based on principal component analysis (PCA). The Overall

Similarity internal validation measure was used to assess the quality of the clustering experiments.

The best experiments were those without the application of PCA. The best clustering selected was

the one with twenty clusters, executed with the EM algorithm and a threshold of 0.99 for high

correlated features. This clustering is described with the most important predictor features. The

distance between the centroid and the sequence and the distances between the centroids and a

graphical image where the sequences in each cluster are plotted by the value of one of the best

predictor features are also presented. The concentration of the sequences towards to clusters is

visible in this image.

Key words: Aligment-free descriptors, GH-70 enzymes, Dimensionality reduction, Principal

Component Analysis, Clustering

Page 7: , Cuba, junio de 2019

iv

Agradecimientos

A mis tutoras la Dra.Sc. Deborah Galpert Cañizares y la M.Sc. Karelia Ocana La O, al Dr. Reinaldo

Molina Ruiz y al Lic. Ricardo Sánchez Alba por la ayuda en la realización de este trabajo. A todos

los que a través de estos arduos e intensos años de estudio me han ayudado y apoyado siempre que

los he necesitado en especial a mis compañeros de aula. ¡Muchísimas gracias!

Dedicatoria

Dedicado a todas aquellas personas que han hecho posible que me gradúe de Ciencias de la

Computación, en especial a mis padres, a la negra, a mi familia de forma general y a mi chiquitika.

Page 8: , Cuba, junio de 2019

ÍNDICE

v

TABLA DE CONTENIDOS

INTRODUCCIÓN ....................................................................................................................... 1

CAPÍTULO 1. Descriptores de secuencias de enzimas, reducción de la dimensionalidad y

agrupamiento 4

1.1 Descriptores libres de alineamiento ............................................................................... 4

1.2 Pre-procesamiento de los datos ...................................................................................... 6

1.2.1 Reducción de la dimensionalidad basada en la correlación ......................................... 7

1.2.2 Reducción de la dimensionalidad basada en el análisis de los componentes principales

8

1.3 Métodos de agrupamiento .............................................................................................. 9

1.3.1 Expectation Maximization ......................................................................................... 9

1.3.2 Algoritmo de agrupamiento bietápico ...................................................................... 10

1.3.3 Método de agrupamiento K-Means .......................................................................... 10

1.3.4 Método de agrupamiento Quick Cluster......................................................................... 11

1.4 Evaluación del agrupamiento ....................................................................................... 11

1.5 Consideraciones finales del capítulo ............................................................................ 13

CAPÍTULO 2. Agrupamiento de secuencias de enzimas integrando descriptores libres de

alineamiento 14

2.1 Conjuntos de datos de descriptores de las enzimas GH-70 ........................................... 14

2.2 Reducción de la dimensionalidad de los rasgos basada en correlación.......................... 15

2.3 Procedimiento propuesto ............................................................................................. 17

2.4 Diseño de experimentos ............................................................................................... 19

Page 9: , Cuba, junio de 2019

ÍNDICE

vi

2.5 Implementación y ejecución del pre-procesamiento ..................................................... 24

2.6 Conclusiones parciales ................................................................................................ 26

CAPÍTULO 3. Resultados experimentales de agrupamiento de secuencias de GH-70 ............. 27

3.1 Experimentos de combinación de parámetros para agrupamiento ..................................... 27

3.2 Resultados generales de experimentos de agrupamiento ................................................... 29

3.3 Resultados de agrupamiento a partir de parámetros .......................................................... 31

3.4 Comparación de Índices de validación del agrupamiento .................................................. 39

3.5 Mejor agrupamiento y rasgos de mayor importancia ......................................................... 42

3.6 Consideraciones finales del capítulo ................................................................................. 46

CONCLUSIONES..................................................................................................................... 47

RECOMENDACIONES ............................................................................................................ 48

BIBLIOGRAFÍA ....................................................................................................................... 49

ANEXOS .................................................................................................................................. 52

Page 10: , Cuba, junio de 2019

ÍNDICE

vii

LISTA DE FIGURAS

Figura 1 Esquema general del procedimiento definido para agrupar las secuencias de enzimas a

partir de descriptores. ................................................................................................................ 18

Figura 2 Diagrama de actividad correspondiente al primer experimento..................................... 19

Figura 3 Diagrama de actividad correspondiente al segundo experimento. ................................. 19

Figura 4 Diagrama de actividad correspondiente al tercer experimento. ..................................... 20

Figura 5 Diagrama de actividad correspondiente al cuarto experimento. .................................... 20

Figura 6 Diagrama de actividad correspondiente al quinto experimento. .................................... 21

Figura 7 Diagrama de actividad correspondiente al sexto experimento. ...................................... 21

Figura 8 Diagrama de actividad correspondiente al séptimo experimento. .................................. 22

Figure 9 Diagrama de actividad correspondiente al octavo experimento..................................... 22

Figura 10 Diagrama de actividad correspondiente al noveno experimento.................................. 23

Figura 11 Diagrama de actividad correspondiente al décimo experimento.................................. 23

Figura 12 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de PCA

y el valor de Overall Similarity. ................................................................................................. 32

Figura 13 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de la

normalización y el valor de Overall Similarity. .......................................................................... 32

Figura 14 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de

reducción y luego integración y el valor de Overall Similarity. .................................................. 33

Figura 15 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de

integración y luego reducción y el valor de Overall Similarity. .................................................. 34

Figura 16 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de EM o

K-Means y el valor de Overall Similarity. .................................................................................. 35

Page 11: , Cuba, junio de 2019

ÍNDICE

viii

Figura 17 Resultados del test de Kruskal-Wallis para medir la relación entre los diferentes umbrales

y el valor de Overall Similarity. ................................................................................................. 36

Figura 18 Árbol de decisión ....................................................................................................... 38

Figura 19 Resultados de agrupamiento de experimentos por índices de validación interna. ........ 41

Figura 20 Visualización de agrupamiento de experimentos por índices de validación interna. .... 42

Figura 21 Resultados de agrupamiento por el algoritmo Bietápico para el experimento de mayor

Overall Similarity. ..................................................................................................................... 43

Figura 22 Gráfico de agrupamiento por el algoritmo Bietápico para el experimento de mayor

Overall Similarity expresado en función del rasgo de mayor importancia................................... 46

Page 12: , Cuba, junio de 2019

ÍNDICE

ix

LISTA DE TABLAS

Tabla 1 Resumen del análisis descriptivo ................................................................................... 15

Tabla 2 Resultados de Reducción de dimensionalidad por correlación a partir de varios umbrales.

.................................................................................................................................................. 16

Tabla 3 Combinación de parámetros para experimentos para agrupamiento. .............................. 27

Tabla 4 Resultados del agrupamiento de secuencias e índices de validación para cada experimento.

.................................................................................................................................................. 29

Tabla 5 Resumen del modelo ..................................................................................................... 37

Tabla 6 Tabla de Árbol 1 según distintos parámetros ................................................................. 38

Tabla 7 Tablas de Árbol 2 según distintos parámetros ................................................................ 39

Tabla 8 Clúster bietápico ........................................................................................................... 40

Tabla 9 Perfiles de clúster .......................................................................................................... 40

Tabla 10 Distribución de clúster ................................................................................................ 43

Tabla 11 Distancias entre centros de clústeres finales 1.............................................................. 44

Tabla 12 Distancias entre centros de clústeres finales 2.............................................................. 44

Tabla 13 Número de casos en cada clúster ................................................................................. 45

Page 13: , Cuba, junio de 2019

INTRODUCCIÓN

1

INTRODUCCIÓN

Las enzimas son macromoléculas biológicas que actúan como catalizadores específicos durante los

procesos biológicos. El reconocimiento de la función y la clasificación estructural de las mismas

como las correspondientes a la familia GH-70 constituye un problema de gran importancia en la

Bioinformática por la utilidad biotecnológica de estas enzimas. En nuestro país, estas enzimas están

siendo estudiadas desde hace varios años por el Instituto Cubano de Investigaciones de los

Derivados de la Caña por el efecto nocivo que presentan en la producción de azúcar, ocasionando

pérdidas millonarias (Fraga R, 2011a, Fraga R, 2011b, Fraga, 2015).

En particular el problema de la clasificación funcional ha sido abordado por diferentes autores

según el recuento (Davies and Sinnott, 2008), evidenciándose la necesidad de aumentar la eficacia

de la clasificación principalmente en familias que contienen secuencias de baja identidad conocidas

como secuencias divergentes como sucede en la familia GH-70. Es por esto que el uso de diversos

descriptores libres de alineamiento de proteínas o enzimas se presenta como una tendencia en este

tipo de clasificación (Ong et al., 2007). A su vez la clasificación estructural de enzimas a partir de

las secuencias y su relación con la función constituye un campo de investigación abierto ya que

para esta familia sólo aparecen reportadas seis secuencias con estructura 3D reconocida (Meng et

al., 2016).

Partiendo de la consideración de que la similitud estructural define la similitud funcional y que

algunas pocas secuencias de la mencionada familia han sido caracterizadas estructuralmente, el

agrupamiento de secuencias combinando diversos descriptores libres de alineamiento con el uso

herramientas de aprendizaje automático pudiera conformar grupos de secuencias con patrones

estructurales similares. Estos descriptores representarían las secuencias como vectores con

múltiples componentes representando diferentes propiedades estructurales. De este modo se

pudieran explorar 482 secuencias de enzimas de GH-70 disponibles a la comunidad científica en

el sitio CAZy.org1 (Lombard V, 2014) para contribuir a inferir su clasificación estructural y

funcional. Precisamente, la integración de descriptores ha permitido elevar la calidad de la

1 http://www.cazy.org/

Page 14: , Cuba, junio de 2019

ÍNDICE

v

clasificación evolutiva en trabajos realizados en el Centro de Investigaciones de Informática de la

Universidad Central “Marta Abreu” de Las Villas (UCLV) como (Galpert, 2018). Es por esto que

en (Arteaga, 2018), se propone como parte de un sistema de Big Data Analítica, el cálculo de

descriptores libres de alineamiento de alta dimensionalidad de rasgos utilizando el modelo de

programación Spark con vistas a aplicarlos a la comparación por pares de grandes conjuntos de

secuencias de proteínas o enzimas. Sin embargo, la aplicación integrada de descriptores a

problemas de aprendizaje automático para la clasificación de enzimas, no ha sido abordada en

nuestra Universidad.

De lo anterior se propone el siguiente problema de investigación:

Caracterización estructural de la familia GH-70 a partir de la integración de descriptores de alta

dimensionalidad y el agrupamiento de secuencias similares.

Se propone el siguiente objetivo general:

Agrupar secuencias similares de la familia GH-70 aplicando herramientas de minería de datos a

descriptores libres de alineamiento de alta dimensionalidad.

Objetivos específicos:

1. Analizar variantes de métodos disponibles de agrupamiento y reducción de la

dimensionalidad de rasgos.

2. Aplicar los métodos de reducción de la dimensionalidad de los rasgos.

3. Aplicar algoritmos de agrupamiento.

4. Validar los resultados obtenidos.

Tareas de investigación

Entre las tareas a realizar se requiere:

1. El estudio del estado del arte sobre diversos descriptores de proteínas y enzimas, la integración

y pre-procesamiento de rasgos de los descriptores, así como de las técnicas de agrupamiento

con sus medidas de calidad.

2. La descripción de los conjuntos de datos de descriptores calculados para la familia GH-70.

3. El pre-procesamiento e integración de los descriptores.

Page 15: , Cuba, junio de 2019

INTRODUCCIÓN

3

4. El agrupamiento y evaluación en el proceso experimental.

Justificación

El presente trabajo forma parte del proyecto de investigación: “Herramientas bioinformáticas para

la búsqueda de secuencias codificadoras de enzimas dextranasacarasas”, Proyecto Empresarial de

UCLV con el código 10654, de la línea científica Ciencia e ingeniería de la computación, cuyo

líder es el Profesor Titular, Dr. Rafael E. Bello Pérez. Los resultados que se obtengan en este trabajo

de diploma deben apoyar los objetivos específicos del proyecto relacionados con:

Desarrollar herramientas que integren varios descriptores de proteínas para la detección de

secuencias de enzimas tipo GH-70, y que sean escalables al análisis amplio de diversos

proteomas. Estas enzimas son altamente perjudiciales en la producción de azúcar

ocasionando pérdidas millonarias y es por esto necesario caracterizarlas estructural y

funcionalmente para posteriormente modelar su inhibición.

Aporte práctico

Las herramientas bioinformáticas que se desarrollen en este trabajo deben ser de utilidad a la

comunidad bioinformática de nuestro país y de fuera de este por su futura aplicabilidad en la

industria biotecnológica.

El presente trabajo de diploma se divide de la siguiente forma: El Capítulo 1 se titula: “Descriptores

de secuencias de enzimas, reducción de la dimensionalidad y agrupamiento” constituyendo el

marco teórico del trabajo. El Capítulo 2: ha sido titulado “Agrupamiento de secuencias de

enzimas integrando descriptores libres de alineamiento” y el Capítulo 3 se titula: “Resultados

experimentales para secuencias de GH-70”. Además, se incluye una sección de Anexos con tablas

de resultados no incluidas en los capítulos.

Page 16: , Cuba, junio de 2019

4

CAPÍTULO 1. Descriptores de secuencias de enzimas, reducción de la

dimensionalidad y agrupamiento

En este capítulo se abordan aspectos teóricos sobre los descriptores de proteínas o enzimas. Se

mencionan aspectos referentes al pre-procesamiento, la integración y la reducción de la

dimensionalidad de los rasgos de los descriptores. Además, se incluyen cuestiones básicas sobre

agrupamiento y su evaluación.

1.1 Descriptores libres de alineamiento

En el análisis de secuencias de enzimas es posible transformar las secuencias de aminoácidos a

descriptores numéricos denominados descriptores libres de alineamiento (Vinga, 2014). En (Pérez

et al., 2018) se implementa el cálculo de varios descriptores que caracterizan las secuencias desde

el punto de vista de su estructura. Estos son:

• Pseudo composición de aminoácidos de Chou

Información sobre la composición de aminoácidos conjuntamente con la influencia del

orden de la secuencia. El efecto del residuo Rj sobre el Ri los cuales están ubicados cada

uno a una distancia topológica (λ) dentro de la secuencia (Chou, 2001). En este

descriptor se incluyen las propiedades de hidrofobicidad, el valor hidrofílico y la masa

de encadenamiento de los aminoácidos.

• Composición de aminoácidos

Composición (C), Transición (T) y Distribución (D) (CTD): estos tres descriptores

recogen información a partir de la división de aminoácidos en tres clases de acuerdo

con el valor de sus atributos como la hidrofobicidad, el volumen normalizado de van

der Waals, la polaridad, etc. De esta forma cada aminoácido es acompañado por cada

Page 17: , Cuba, junio de 2019

CAPÍTULO 1. DESCRIPTORES DE SECUENCIAS DE ENZIMAS, REDUCCIÓN DE LA DIMENSIONALIDAD Y AGRUPAMIENTO

5

uno de los índices correspondientes a las clases 1, 2 y 3. El descriptor C: representa el

por ciento global de cada clase (1, 2 y 3) en la secuencia, el descriptor T, el por ciento

de frecuencia con la cual la clase 1 es seguida por la clase 2 o la 2 es seguida por la 1.

El descriptor D representa la distribución de cada rasgo en la secuencia codificada

(Dubchak et al., 1995, Dubchak et al., 1999).

• Autocorrelación

• Norm Moreau Broto

• Moran

• Geary

• Total: Dichos descriptores de autocorrelación (Geary’s, Moran’s y Moreau–

Broto’s) están basados en determinadas propiedades de los aminoácidos que son

normalizadas en conjunto en el Total (Cao et al., 2013).

• Descriptores Quasi-Sequence-Order (QSO)

Combinación de la composición y la correlación de las propiedades de los aminoácidos

definidas por Chou KC (2000) (Chou, 2000).

Partiendo de la representación de un conjunto de enzimas 𝐸 = {x1, x2, … , x𝑚}, con m secuencias,

los descriptores mencionados transforman las secuencias en vectores mediante una función 𝑆𝑟: X →

ℝ𝑛𝑟, donde r es la identificación del descriptor, 𝑋 el conjunto de secuencias y 𝑛𝑟 es la

dimensionalidad del descriptor. El conjunto de datos resultante del cálculo de un descriptor

representa un conjunto de vectores para las m secuencias donde los componentes de los vectores

pueden ser múltiples, fundamentalmente para los descriptores donde aparece la frecuencia de

subsecuencias de determinada longitud en las secuencias, por ejemplo, los k-mers de longitud k

cuya dimensionalidad máxima sería 20k siendo 20 el total de aminoácidos. La dimensionalidad de

los otros descriptores mencionados depende de la longitud máxima de las secuencias y de la

información extraída en los mismos.

Page 18: , Cuba, junio de 2019

ÍNDICE

v

Estos descriptores libres de alineamiento están siendo utilizados de manera integrada en múltiples

aplicaciones de la bioinformática con el objetivo de descubrir información subyacente en la

mutación de secuencias que divergen en la evolución (Borozan et al., 2015). Es decir, para

clasificar secuencias es necesario compararlas con otras pertenecientes a diversas especies cuyas

distancias evolutivas pueden marcar la heterogeneidad de dichas secuencias; es por esto necesario,

incluir en la comparación diversas informaciones que permitan reconocer su similitud. En

específico, para la clasificación estructural de 482 secuencias de enzimas de la familia GH70 se

han calculado 10 descriptores almacenados en archivos CSV diferentes con un rango de

dimensionalidad entre 31 y 721 rasgos continuos con alta variabilidad en sus rangos. De esta

necesidad de integración de datos diversos y de la alta dimensionalidad se deriva el uso de técnicas

de pre-procesamiento para la minería de datos como las expuestas en (García S, 2015),

fundamentalmente aquellas dedicadas a la reducción de la dimensionalidad, ya que una alta

dimensionalidad puede aumentar el espacio de búsqueda de manera exponencial y la posibilidad

de obtener modelos inválidos. De igual forma debe existir una relación lineal entre el número de

instancias y la dimensionalidad para obtener modelos de alta calidad.

1.2 Pre-procesamiento de los datos

Como se menciona en la sección anterior la minería de datos de secuencias de aminoácidos

conlleva la extracción de datos numéricos que pueden pertenecer a diversas escalas y presentar

rangos diversos lo que puede definir el uso técnicas de normalización (García S, 2015) como la

Min-Max que permite transformar los datos a un rango determinado, siendo usual el rango entre

cero y uno. Otro pre-procesamiento requerido es la reducción de la dimensionalidad eliminando

rasgos redundantes. En esta sección se exponen algunos de estos pre-procesamientos que pueden

ser utilizados cuando no se cuenta con información previa sobre las clases de las instancias a

involucrar en el aprendizaje automático, es decir, son técnicas no supervisadas de reducción de la

dimensionalidad de los rasgos.

Como herramientas para realizar el pre-procesamiento es posible utilizar las propias de los paquetes

de aprendizaje automático como Weka (Weka, 2013) y MLlib (MLlib, 2016), este último para big

data. También es posible utilizar herramientas disponibles en los lenguajes de programación como

Phyton o PySpark, este último, para big data. Entre las herramientas se encuentra el paquete Pandas

versión 0.24.2 con facilidades como una estructura de datos similares a los dataframes de R. En las

Page 19: , Cuba, junio de 2019

CAPÍTULO 1. DESCRIPTORES DE SECUENCIAS DE ENZIMAS, REDUCCIÓN DE LA DIMENSIONALIDAD Y AGRUPAMIENTO

7

estructuras disponibles se pueden representar tipos de datos tabulares con columnas de tipo

heterogéneo y con etiquetas en columnas y filas. Pandas proporciona herramientas que permiten:

_leer y escribir datos en diferentes formatos entre los que se encuentra CSV, formato en que son

almacenados los descriptores mencionados en la sección anterior.

_seleccionar y filtrar tablas de datos en función de posición, valor o etiquetas.

_fusionar y unir datos.

_transformar datos aplicando funciones tanto globales como por ventanas.

_realizar gráficas.

_calcular estadísticos, específicamente la correlación de Pearson.

1.2.1 Reducción de la dimensionalidad basada en la correlación

La reducción de dimensionalidad basada en la correlación ha sido abordada en (Mitra et al., 2002,

Soni and Joshi, 2012, Malavika and K.Selvam, 2015) partiendo del cálculo de la correlación basado

en las siguientes consideraciones. El coeficiente de correlación se encuentra en el rango entre -1 y

1. El valor de 1 implica que existe una ecuación lineal que describe la relación entre X y Y, con

todos los puntos en una línea para la cual Y aumenta según aumenta X. El valor −1 implica que

todos puntos aparecen en una línea para cual Y decrece según X aumenta. El valor 0 implica que

no existe correlación lineal entre las variables. Se tiene que (Xi − X)(Yi − Y) es positivo si y solo si

Xi y Yi se encuentran en el mismo lado de sus respectivas medias. De esta forma el coeficiente de

correlación es positivo si Xi y Yi tienden a ser simultáneamente mayores, o simultáneamente

menores que sus respectivas medias. El coeficiente de correlación es negativo si Xi y Yi tienden a

encontrarse en lados opuestos de sus respectivas medias. El coeficiente de correlación de Pearson

entre dos variables (expresión 1.1) se define como la covarianza de las dos variables dividida por

el producto de sus deviaciones estándar.

𝜌𝑋,𝑌=

𝑐𝑜𝑣(𝑋,𝑌)

𝜎𝑋𝜎𝑌=

𝐸[(𝑋−�̅�)(𝑌−�̅�)]

𝜎𝑋𝜎𝑌

(1.1)

Page 20: , Cuba, junio de 2019

ÍNDICE

v

Esta expresión se corresponde con el coeficiente de correlación de la población, sin embargo, al

sustituir por los estimados de la covarianza y varianzas basados en la muestra se obtiene el

coeficiente de correlación en la expresión 1.2.

𝑟 =∑ (𝑋𝑖−�̅�)(𝑌𝑖−�̅�)𝑛

¡=1

√∑ (𝑋𝑖−�̅�)2𝑛¡=1 √∑ (𝑌𝑖−�̅�)2𝑛

¡=1

(1.2)

Para la reducir la dimensionalidad de los rasgos en un conjunto de datos de entrada de la minería

de datos, de los pares de rasgos con alto valor del valor absoluto de r, se retiene uno de ellos en el

conjunto de rasgos reducido. Esta técnica de reducción de dimensión se basa en encontrar la

correlación entre varios rasgos para determinar aquellos altamente correlacionados (rasgos

redundantes) y eliminar los redundantes del conjunto de entrada. Para esto se mide un parámetro

llamado relevancia dado un umbral, a partir de los valores de correlación obtenidos. Las

inconsistencias en la asignación de nombres de rasgos también pueden causar redundancias en el

conjunto de datos resultante, y pueden ser detectadas con medidas de correlación.

1.2.2 Reducción de la dimensionalidad basada en el análisis de los componentes principales

El análisis de componentes principales (PCA) es la técnica más antigua y mejor conocida de

análisis multivariable de datos. Tiene una gran variedad de aplicaciones tales como en la extracción

de información relevante en un conjunto de datos; la compresión del tamaño de un conjunto de

datos conservando sólo la información importante; el análisis de la estructura de las observaciones

y variables; en la compresión de imágenes (Sidharth Prasad Mishra et all, 2017).

La idea fundamental para el análisis de una muestra con n instancias con m rasgos se desea

encontrar un número de factores subyacentes p < m que explican aproximadamente el valor de los

m rasgos para cada instancia. Existen dos formas básicas de calcular el PCA; el método basado en

la matriz de correlación y el método basado en la matriz de covarianzas. El nuevo conjunto de

rasgos se deriva en un orden decreciente de contribución, permitiendo que la primera variable

obtenida, llamada componente principal, contenga la mayor proporción de la varianza del conjunto

original (95%).

Page 21: , Cuba, junio de 2019

CAPÍTULO 1. DESCRIPTORES DE SECUENCIAS DE ENZIMAS, REDUCCIÓN DE LA DIMENSIONALIDAD Y AGRUPAMIENTO

9

Es útil cuando hay muchas variables independientes que están altamente correlacionadas al permitir

la combinación de la esencia de los rasgos originales en un nuevo conjunto reducido de rasgos.

Cuando se calculan los k vectores ortonormales que apuntan a una dirección perpendicular a otros

de modo que los datos originales son una combinación lineal de los componentes principales

(García S, 2015).

1.3 Métodos de agrupamiento

Los métodos de agrupamiento permiten descubrir conocimiento en conjuntos de datos donde no se

tiene información previa de la clase de las instancias a utilizar en el aprendizaje, como ocurre en

este trabajo con instancias consideradas como las secuencias de enzimas convertidas a vectores

numéricos. Los que aquí se abordan aparecen implementados en el paquete de minería de datos de

Weka (Weka, 2013) y en el paquete SPSS Versión 22 2013.

1.3.1 Expectation Maximization

El algoritmo EM (Expectation-Maximization) (Weka, 2013) asigna a cada instancia una

distribución de probabilidad de pertenencia a cada clúster. El algoritmo puede decidir cuántos

clústeres crear basado en validación cruzada, o se le puede especificar a priori cuántos debe generar.

Utiliza el modelo Gaussiano finito de mezclas, asumiendo que todos los atributos son variables

aleatorias independientes. Este algoritmo requiere muchas más operaciones que el K-Means.

EM se usa en estadística para encontrar estimadores de máxima verosimilitud de parámetros en

modelos probabilísticos que dependen de variables no observables. El algoritmo EM alterna pasos

de expectación (paso E), donde se computa la expectación de la verosimilitud mediante la inclusión

de variables latentes como si fueran observables, y un paso de maximización (paso M), donde se

computan estimadores de máxima verosimilitud de los parámetros mediante la maximización de la

verosimilitud esperada del paso E. Los parámetros que se encuentran en el paso M se usan para

comenzar E siguiente, y de esta forma se repite el proceso.

Expectation: Utiliza los valores de los parámetros, iniciales o proporcionados por el paso

Maximization de la iteración anterior, obteniendo diferentes formas de la FDP (Función de

Densidad de Probabilidad) buscada.

Page 22: , Cuba, junio de 2019

ÍNDICE

v

Maximization: Obtiene nuevos valores de los parámetros a partir de los datos

proporcionados por el paso anterior.

1.3.2 Algoritmo de agrupamiento bietápico

El algoritmo de agrupamiento bietápico (TwoStep) de SPSS 2013 puede manejar datos continuos

y categóricos. Tiene dos pasos: 1) pre-agrupamiento de casos en multiples pequeños sub-grupos;

2) agrupamiento de los pequeños sub-grupos resultantes del paso anterior, en un número deseado

de grupos. Puede seleccionar de manera automática la cantidad de grupos.

1.3.3 Método de agrupamiento K-Means

El método K-Means (k-Medias) es un método de particionado de agrupamiento de los datos idóneo

para analizar gran número de casos. Cuando se tiene X = {𝑥𝑖}, i = 1,..., n el conjunto de n puntos

d-dimensionales para agruparse en un conjunto de K grupos, C = {𝑐𝑘 , 𝑘 = 1, … , 𝐾}. El algoritmo

K-means encuentra una partición tal que el error cuadrático entre la media empírica de un grupo y

los puntos en el grupo se minimiza. Sea µ𝑘 el medio del clúster 𝑐𝑘. El error cuadrático entre µ𝑘 y

los puntos en el clúster 𝑐𝑘 se definen como 𝐽(𝑐𝑘) = ∑ ‖𝑥𝑖 − 𝜇𝑘‖2𝑥𝑖∈𝑐𝑘

.

El objetivo de K-Means es minimizar la suma del error cuadrático sobre todos los K grupos,

J(C) = ∑ ∑ ‖𝑥𝑖 − 𝜇𝑘‖2𝑥𝑖∈𝑐𝑘

K

k=1.

El método comienza con una partición inicial con K grupos y asigna patrones a grupos para reducir

el error cuadrático. Dado que el error cuadrático siempre disminuye con un aumento en el número

de grupos (con J(C) = 0 cuando k = n), solo se puede minimizar para un número fijo de grupos

(Jain, 2010).

Los pasos principales del algoritmo de K-Medias son los siguientes:

1. Seleccionar una partición inicial con K grupos; repetir los pasos 2 y 3 hasta que la

membresía del clúster se estabilice.

2. Generar una nueva partición asignando cada patrón a su más cercano centroide del grupo.

3. Calcular nuevos centroides de grupos.

Page 23: , Cuba, junio de 2019

CAPÍTULO 1. DESCRIPTORES DE SECUENCIAS DE ENZIMAS, REDUCCIÓN DE LA DIMENSIONALIDAD Y AGRUPAMIENTO

11

El método K-Means, puede converger a un mínimo local, aunque se ha demostrado que con una

gran probabilidad K-Means podrían converger al óptimo global cuando los grupos están bien

separados. La distancia euclidiana es la más usada para calcular la distancia entre los puntos y los

centroides del clúster.

1.3.4 Método de agrupamiento Quick Cluster

El método QuickCluster del SPSS 2013 es una variante del K-Means que permite estimar las

medias de las variables para cada clúster o grupo. Por defecto selecciona tantos casos como

clústeres a formar. Estos centros de clústeres iniciales son utilizados para una primera pasada de

clasificación y luego son actualizados. Como resultado del algoritmo se muestra para cada caso la

asignación de clúster final y la distancia Euclidiana entre la instancia y el centro del clúster usado

para clasificar dicha instancia. Además, devuelve la distancia entre centros de grupos finales.

1.4 Evaluación del agrupamiento

En esta sección se recogen algunos aspectos sobre las medidas de validación internas de calidad

del agrupamiento utilizadas cuando no se tiene información de referencia sobre las clases de las

instancias a clasificar. Un buen agrupamiento debe agrupar las instancias, de forma tal que

instancias dentro de cada grupo sean más similares entre sí que instancias que estén en grupos

diferentes (Arco et al., 2006). La similitud intra-grupo se define como la similitud promedio entre

las instancias de cada grupo, y la similitud entre-grupos como la similitud promedio entre las

instancias dentro de cada grupo y el resto de las instancias en el conjunto de datos. Overall

similarity es una medida interna basada en la similitud de los pares de instancias en un grupo

(Steinbach et al., 2000).

Los índices para evaluar agrupamiento generalmente se basan en alguna motivación geométrica

para estimar cuán compactos y bien separados están los grupos. Un ejemplo son los índices Dunn

(Dunn, 1974) y sus generalizaciones (Bezdek and Pal, 1995). Los índices Dunn varían en función

de la medida de distancia entre grupos y la medida de distancia del grupo que se utilice.

Originalmente Dunn utilizó el mínimo de todas las distancias entre pares de elementos para calcular

la distancia entre los grupos, y consideró el diámetro del grupo como la mayor distancia entre sus

miembros (Dunn, 1974). Así, las medidas tienden a producir valores elevados para los

Page 24: , Cuba, junio de 2019

ÍNDICE

v

agrupamientos con grupos compactos y muy bien separados. Sin embargo, Bezdek reconoció que

el índice Dunn es muy sensible al ruido (Bezdek and Pal, 1995); por ejemplo, la distancia entre un

par de grupos puede ser menor que el diámetro de un grupo. Bezdek propuso una modificación en

el cálculo de la distancia entre grupos mediante la estandarización respecto al tamaño de los

mismos y una nueva forma de cálculo del diámetro del grupo mediante el cálculo de la distancia

de todos sus elementos al centro del grupo, también estandarizado por su tamaño. Esta variante

obtiene mejores resultados para diferentes dominios, pero hace referencia a un centro de grupo, y

no todos los algoritmos trabajan con prototipos, ni la estructura de todos los datos son grupos con

forma esférica. A pesar de las modificaciones propuestas por Bezdek, los índices Dunn son

sensibles a la presencia de ruido en los datos y requieren una cantidad de tiempo considerable para

su cálculo. Para evaluar el agrupamiento se busca maximizar los índices Dunn.

Bezdek propone cinco generalizaciones de los índices Dunn para validar grupos con diferentes

formas hiperesféricas y disminuir su sensibilidad al ruido. Las generalizaciones abogan por

definiciones apropiadas para el cálculo del diámetro de los grupos y la distancia entre los grupos,

siguiendo el principio de que todos los datos deben estar explícitamente implicados en el cálculo

del índice.

La medida Davies-Bouldin es basada en la idea de que una buena partición es aquella con gran

separación entre grupos, alta homogeneidad y compactación dentro de cada grupo. Esta medida es

una proporción de la suma de la dispersión interna del grupo y la separación entre grupos. La

dispersión dentro del grupo es relativa a los centroides de éstos y la distancia entre los grupos se

basa en la distancia entre sus centros. Una dispersión baja y una distancia grande entre grupos

tienden a producir valores bajos, por tanto se desea minimizar esta medida (Davies and Bouldin,

1979). Los índices Dunn y Davies-Bouldin son relativos al análisis geométrico de los grupos:

típicamente centroidal y con forma esférica; elementos no presentes en todos los agrupamientos.

El índice de silueta es el promedio, sobre todos los grupos, del ancho de la silueta de sus puntos.

Dos cálculos fundamentales intervienen en la silueta de un punto: la distancia promedio entre el

punto y todos los otros puntos en el grupo, y el mínimo de la distancia promedio entre el punto y

los puntos en otros grupos. Valores altos del índice silueta global indican grupos más compactos y

bien separados. El cálculo de este índice tiene una alta complejidad; sin embargo, en las

investigaciones actuales es muy utilizado para la validación del agrupamiento (Arco et al., 2006).

Page 25: , Cuba, junio de 2019

CAPÍTULO 1. DESCRIPTORES DE SECUENCIAS DE ENZIMAS, REDUCCIÓN DE LA DIMENSIONALIDAD Y AGRUPAMIENTO

13

En SPSS 2013 es posible obtener el Coeficiente de Silueta Promedio (average Silhouette

coefficient) como un promedio por todas las instancias de la expresión (B−A)/max(A,B) para cada

instancia donde A es la distancia promedio de cada instancia a todas las instancias asignadas al

mismo clúster y B es la mínima distancia promedio de la instancia a instancias de diferentes

clústeres. Para reducir la complejidad computacional se asumen las siguientes consideraciones:

A es la distancia entre la instancia y el centro (centroide) del clúster al cual pertenece la instancia.

B es la distancia mínima de la instancia al centroide de cada otro grupo.

Adicionalmente el SPSS calcula la medida Importancia del Predictor que indica cuánto puede

diferenciar una variable a los diferentes grupos. Mientras mayor sea el valor de esta medida, menos

posible será que la variación de la variable entre clústeres sea por azar y más posible que sea por

alguna diferencia subyacente.

El coeficiente de Silueta y su promedio están en el rango de -1 y 1, indicando el -1 que se ha

estimado un modelo pobre y el 1, un modelo excelente. Se considera que promedio de Silueta

mayor que 0.5 indica que se obtenido una partición razonable de los datos; en cambio un valor

menor que 0.2 indica que los datos no muestran una estructura de grupos.

1.5 Consideraciones finales del capítulo

Conociendo la estructura de los datos de los descriptores de secuencias de aminoácidos es posible

definir métodos de pre-procesamiento a utilizar como la normalización, la integración de diversos

descriptores, la reducción de la dimensionalidad mediante la reducción de rasgos redundantes o la

transformación de los rasgos en un nuevo conjunto de componentes principales que explique mejor

el conjunto de datos. Es por esto que las diferentes variantes posibles a utilizar para el pre-

procesamiento pueden conducir a diversos resultados de agrupamiento según los diferentes

algoritmos seleccionados para este fin y por consiguiente deben medirse los índices de validación

interna de los agrupamientos resultantes para obtener aquellos de mayor calidad. Esta diversidad

de resultados a medir conduce a la definición de un procedimiento general para el agrupamiento

de secuencias de enzimas de la familia GH-70 a estudiar y al diseño de experimentos para encontrar

el agrupamiento más adecuado de tales secuencias.

Page 26: , Cuba, junio de 2019

14

CAPÍTULO 2. Agrupamiento de secuencias de enzimas integrando

descriptores libres de alineamiento

En este capítulo se especifica el procedimiento propuesto para la realizar el agrupamiento de

secuencias de enzimas de la familia GH-70. Primeramente, se muestra el análisis descriptivo de las

secuencias. Luego aparecen detalles de la implementación y la selección de parámetros del pre-

procesamiento y del agrupamiento. Finalmente se muestran los flujos de proceso para los distintos

experimentos realizados cuyos resultados se discuten en el CAPÍTULO 3.

2.1 Conjuntos de datos de descriptores de las enzimas GH-70

Los descriptores seleccionados para realizar el agrupamiento de 482 secuencias de enzimas GH-

70 aparecen listados a continuación con la cantidad de filas y columnas de cada uno.

GH70_Auto_Moran

GH70_Auto_NMB

GH70_Auto_Total

GH70_CTD_C

GH70_CTD_D

GH70_CTD_T

GH70_PseudoAAC_Lamda_10

GH70_PseudoAAC_Lamda_30

GH70_QSO_maxlag_30_weight_0.1

GH70_QSOCN_maxlag_30

El total de columnas integradas asciende a 1,177 de modo que para utilizar las implementaciones

disponibles para una PC de recursos estándares, se propone la reducción de la dimensionalidad

partiendo de los descriptores antes de ser integrados y luego después de este proceso.

Page 27: , Cuba, junio de 2019

CAPÍTULO 2. DESCRIPTORES DE SECUENCIAS DE ENZIMAS INTEGRANDO DESCRIPTORES LIBRES DE ALINEAMIENTO

15

El resumen del análisis descriptivo aparece en la Tabla 1.

Tabla 1 Resumen del análisis descriptivo

Descriptor Número de rasgos

Varianza Mínima

Varianza Máxima

Mínimo Mínimo

Máximo Máximo

Máximo Rango

GH70_Auto_Moran 31 0.001 0.003 -0.356 0.357 0.586

GH70_Auto_NMB 31 0.002 0.002 -0.123 0.217 0.336

GH70_Auto_Total 721 0.001 0.004 -0.356 1.396 0.874

GH70_CTD_C 22 0 0.001 0.046 0.837 0.282

GH70_CTD_D 106 0.007 23.557 0.035 100 59.117

GH70_CTD_T 22 0 0.001 0.003 0.356 0.178

GH70_PseudoAAC_Lamda_10 31 0.005 0.953 0 14.864 12.268

GH70_PseudoAAC_L

amda_30 51 0.001 0.262 0 7.648 6.319

GH70_QSO_maxlag_30_weight_0.1 101 0 0 0 0.043963 0.022444

GH70_QSOCN_maxla

g_30 61 22978.665 28450.83 11.486 1039.541 1017.424

TOTAL DE RASGOS 1177 0 28450.83 -0.356 1039.541 1017.424

A partir del resultado obtenido del análisis descriptivo y la referencia (García et al., 2015) sobre

selección de técnicas de pre-procesamiento se toman en cuenta las siguientes consideraciones:

1. Teniendo en cuenta la varianza de los datos: existen varios atributos con el valor de varianza

muy baja por lo que motiva el uso de técnicas de reducción de dimensionalidad para mejorar

el conjunto de rasgos que representen las instancias.

2. Teniendo en cuenta la amplitud del rango de los rasgos: existe variabilidad y un valor alto del

rango por lo que un procedimiento de normalización pudiera favorecer el procesamiento con el

conjunto de datos.

3. Teniendo en cuenta la información de las instancias ha sido extraída por múltiples métodos de

extracción de rasgos (descriptores) por lo que la integración puede ser favorable.

2.2 Reducción de la dimensionalidad de los rasgos basada en correlación

El Algoritmo 1 se basa en la correlación de Pearson entre pares de rasgos (expresión 1.2).

Page 28: , Cuba, junio de 2019

ÍNDICE

v

Algoritmo 1 Reducción de la Dimensionalidad basada en la Correlación de Pearson.

Tabla 2 Resultados de Reducción de dimensionalidad por correlación a partir de varios

umbrales.

Valor de umbral Dimensión del

conjunto

reducido

Por ciento del total

de rasgos

integrados

Proporción entre

cantidad

de rasgos

y

cantidad

de

instancias

función delColCorr (<DF>, <umbral>):

INSTRUCCIÓN

Inicializar Corr con un dataframe con los valores absolutos de la

matriz de correlación de Pearson de <DF>

Inicializar Df con el valor de <DF>

Inicializar Col_corr como un conjunto

for i = 0 hasta el length-1 de la cantidad de columnas de Corr hacer

if columna i de Corr is not in Col_corr then

for j = i + 1 hasta el length-1 de la cantidad de columnas

de Corr hacer

if columna j de Corr is not in Col_corr then

if Corr[j,i] es mayor al <umbral> then

eliminar de Df la columna que coincida

con la columna j de Corr

agregar a Col_corr la columna eliminada

de Df

return Df

1- Inicializar tantas variables de tipo dataframe como descriptores se tengan.

2- Cargar los archivos de descriptores y asignarselos a las variables del paso 1.

2- Asignarle la función delColCorr a las variables.

3- Eliminar la primera columna de identificadores de secuencias desde la segunda

variable hasta la última.

4- Inicializar Updf con la concatenación de todas las variables por columnas.

5- Guardar Updf como un archivo csv.

Page 29: , Cuba, junio de 2019

CAPÍTULO 2. DESCRIPTORES DE SECUENCIAS DE ENZIMAS INTEGRANDO DESCRIPTORES LIBRES DE ALINEAMIENTO

17

0.5 232 19.86 0.48

0.6 317 27.14 0.66

0.7 379 32.45 0.79

0.8 423 36.22 0.88

0.9 450 38.53 0.93

0.99 754 64.55 1.56

0.995 801 68.58 1.66

0.999 928 79.45 1.93

A partir de las pruebas realizadas se seleccionaron los umbrales de 0.99, 0.995, 0.999 por brindar

proporciones mayores que uno entre la cantidad de rasgos y la cantidad de instancias. Estos valores

de umbral brindan un margen para la combinación de técnicas de reducción para realizar los

experimentos de agrupamiento que aparecen descritos en la siguiente sección.

2.3 Procedimiento propuesto

El esquema general del proceso de agrupamiento se muestra en forma de pasos:

1. Cada conjunto de datos correspondiente a un descriptor puede ser normalizado o no.

2. Cada conjunto de datos correspondiente a un descriptor normalizado o no será la entrada

de algoritmos de reducción de la dimensionalidad (reducción de rasgos redundantes basado

en la correlación). Este paso devuelve rasgos reducidos o transformados para cada

descriptor.

3. Se integran los rasgos reducidos o transformados de los distintos descriptores o los rasgos

sin reducir.

4. Se aplica o no reducción de rasgos redundantes basada en la correlación o análisis de

componentes principales al conjunto de rasgos integrados.

5. Se aplican algoritmos de aprendizaje no supervisado al conjunto de rasgos integrado.

Primeramente, se aplica el EM para determinar cantidad de grupos y esta cantidad se utiliza

como valor de k para el SimpleKMeans de Weka.

Page 30: , Cuba, junio de 2019

ÍNDICE

v

6. Se analiza la calidad de los agrupamientos realizados en Weka utilizando los siguientes

criterios para seleccionar el agrupamiento de mayor calidad para un conjunto de datos.

a. El mayor valor de Overall Similarity.

b. El mayor valor del índice de Dunn.

c. El mayor valor del índice de Dunn-Bezdek.

d. El menor valor de Davies-Bouldin.

7. Para los mejores agrupamientos realizados en Weka según el Overall Similarity valorar el

índice de Silueta en el SPSS 2013 utilizando el mismo valor de k seleccionado

anteriormente en el algoritmo de agrupamiento bietápico (Two Step). Con este valor de k

obtener con el QuickCluster lo promedios de distancia entre los casos y el centroide y entre

los centroides. Mostrar el agrupamiento seleccionado como de más calidad a partir de la

selección de los mejores rasgos predictores.

De forma más concisa se muestra en la Figura 1 el diagrama de actividad del procedimiento

especificado anteriormente.

Figura 1 Esquema general del procedimiento definido para agrupar las secuencias de

enzimas a partir de descriptores.

Page 31: , Cuba, junio de 2019

CAPÍTULO 2. DESCRIPTORES DE SECUENCIAS DE ENZIMAS INTEGRANDO DESCRIPTORES LIBRES DE ALINEAMIENTO

19

2.4 Diseño de experimentos

Los distintos experimentos propuestos se han especificado a continuación mediante diagramas de

actividad. De la Figura 2 hasta la Figura 11 se muestran los diagramas correspondientes a los

experimentos del 1 al 10 respectivamente.

Figura 2 Diagrama de actividad correspondiente al primer experimento.

Figura 3 Diagrama de actividad correspondiente al segundo experimento.

Page 32: , Cuba, junio de 2019

ÍNDICE

v

Figura 4 Diagrama de actividad correspondiente al tercer experimento.

Figura 5 Diagrama de actividad correspondiente al cuarto experimento.

Page 33: , Cuba, junio de 2019

CAPÍTULO 2. DESCRIPTORES DE SECUENCIAS DE ENZIMAS INTEGRANDO DESCRIPTORES LIBRES DE ALINEAMIENTO

21

Figura 6 Diagrama de actividad correspondiente al quinto experimento.

Figura 7 Diagrama de actividad correspondiente al sexto experimento.

Page 34: , Cuba, junio de 2019

ÍNDICE

v

Figura 8 Diagrama de actividad correspondiente al séptimo experimento.

Figure 9 Diagrama de actividad correspondiente al octavo experimento.

Page 35: , Cuba, junio de 2019

CAPÍTULO 2. DESCRIPTORES DE SECUENCIAS DE ENZIMAS INTEGRANDO DESCRIPTORES LIBRES DE ALINEAMIENTO

23

Figura 10 Diagrama de actividad correspondiente al noveno experimento.

Figura 11 Diagrama de actividad correspondiente al décimo experimento.

Page 36: , Cuba, junio de 2019

ÍNDICE

v

2.5 Implementación y ejecución del pre-procesamiento

Se utilizan las siguientes funciones:

read_csv(): para leer los ficheros de descriptores.

to_csv(): para guardar el resultado como csv.

corr(): halla la correlación entre las columnas.

del: elimina las columnas en el dataframe.

concat(): concatena los dataframe.

A parte se creó la función delColCorr(x) que tiene como pase de parámetros un dataframe y como

devolución la eliminación de la correlación entre sus columnas. A parte el código esta comentado

completo para que sea más comprensible. A continuación, se muestra el código utilizado obsérvese

que está separado porque no cabe completo en la hoja.

Page 37: , Cuba, junio de 2019

CAPÍTULO 2. DESCRIPTORES DE SECUENCIAS DE ENZIMAS INTEGRANDO DESCRIPTORES LIBRES DE ALINEAMIENTO

25

import pandas as pd

# leer archivos csv como pandas dataframes

pdf_Auto_Moran = pd.read_csv("/home/ftp/New_calc/GH70_Auto_Moran.csv")

pdf_Auto_NMB = pd.read_csv("/home/ftp/New_calc/GH70_Auto_NMB.csv")

pdf_GH70_Auto_Total = pd.read_csv("/home/ftp/New_calc/GH70_Auto_Total.csv")

pdf_GH70_CTD_C = pd.read_csv("/home/ftp/New_calc/GH70_CTD_C.csv")

pdf_GH70_CTD_D = pd.read_csv("/home/ftp/New_calc/GH70_CTD_D.csv")

pdf_GH70_CTD_T = pd.read_csv("/home/ftp/New_calc/GH70_CTD_T.csv")

pdf_GH70_PseudoAAC_Lamda_10 =

pd.read_csv("/home/ftp/New_calc/GH70_PseudoAAC_Lamda_10.csv")

pdf_PseudoAAC_Lamda_30 =

pd.read_csv("/home/ftp/New_calc/GH70_PseudoAAC_Lamda_30.csv")

pdf_QSO_maxlag_30_weight_0 =

pd.read_csv("/home/ftp/New_calc/GH70_QSO_maxlag_30_weight_0.1.csv")

pdf_QSOCN_maxlag_30 = pd.read_csv("/home/ftp/New_calc/GH70_QSOCN_maxlag_30.csv")

# asignando df no correlacionados y eliminación de la 1ra columna a partir del 2do df

# para despues concatenarlos y aplicarles clustering

df1 = delColCorr(pdf_Auto_Moran)

df2 = delColCorr(pdf_Auto_NMB)

del df2['name']

df3 = delColCorr(pdf_GH70_Auto_Total)

del df3['name']

df4 = delColCorr(pdf_GH70_CTD_C)

del df4['name']

df5 = delColCorr(pdf_GH70_CTD_D)

del df5['name']

df6 = delColCorr(pdf_GH70_CTD_T)

del df6['name']

df7 = delColCorr(pdf_GH70_PseudoAAC_Lamda_10)

del df7['name']

df8 = delColCorr(pdf_PseudoAAC_Lamda_30)

del df8['name']

df9 = delColCorr(pdf_QSO_maxlag_30_weight_0)

del df9['name']

df10 = delColCorr(pdf_QSOCN_maxlag_30)

del df10['name']

# concatenacion de los df

frames = [df1, df2, df3, df4, df5, df6, df7, df8, df9, df10]

updf = pd.concat(frames, axis = 1)

# Guarda datos en CSV:

updf.to_csv('result.csv', header = False)

Page 38: , Cuba, junio de 2019

ÍNDICE

v

2.6 Conclusiones parciales

A partir del análisis descriptivo de los datos, de diseña un procedimiento para realizar el

agrupamiento de secuencias de enzimas con vistas a probar diferentes variantes de pre-

procesamiento. La implementación es realizada en Python permite a selección de los valores de

umbral para la reducción de dimensionalidad basada en la correlación.

############# función q elimina columnas correlacionadas ###############

def delColCorr(x):

try:

corr = x.corr(method='pearson').abs() # obteniendo matriz de correlación de

Pearson con valores absolutos

df_del = x

col_corr = set()

# recorrer matriz de correlacion para eliminar columnas con correlación > a

un umbral experimental

for i in range(len(corr.columns)):

if corr.columns[i] not in col_corr: # no visitar columnas eliminada(s) en

la matriz de correlacion

for j in range(i + 1, len(corr.columns)):

if corr.columns[j] not in col_corr: # no visitar filas

eliminada(s) en la matriz de correlacion

if corr.iloc[j, i] > 0.999: # visitar solo diagonal inferior

y valores mayores al umbral en este caso se estaba trabajando con 0.999 pero cambia

según el valor de umbral a utilizar

colname = corr.columns[j] # obteniendo el nombre de la

columna a borrar

del df_del[colname] # borrando la columna del dataframe

col_corr.add(colname) # agregando columna al conjunto de

eliminadas

except:

pass

return df_del

Page 39: , Cuba, junio de 2019

27

CAPÍTULO 3. Resultados experimentales de agrupamiento de secuencias de

GH-70

En este capítulo se realiza el análisis de los experimentos realizados al conjunto de datos, teniendo

en cuenta la normalización o no del mismo. Se presentan los resultados de los algoritmos de

agrupamiento EM y SimpleKmeans. Se presentan los mejores resultados teniendo en cuenta la

validación del proceso de agrupamiento para estimar la calidad al agrupar las secuencias de la

familia GH-70.

3.1 Experimentos de combinación de parámetros para agrupamiento

En esta sección se muestran los diferentes parámetros para la realización de distintos experimentos

(ver Tabla 3). Estos parámetros son: el uso de PCA, normalización, reducción de descriptores

realizados a partir de la correlación e integración de descriptores. Los parámetros

REDUCCION_INTEGRACION e INTEGRACION_REDUCCION indican el orden de realización de los pasos de

reducción e integración.

Tabla 3 Combinación de parámetros para experimentos para agrupamiento.

Experimento Algoritmo Umbral PCA NORMALIZACION REDUCCION_

INTEGRACION

INTEGRACION_

REDUCCION

1 1 0,99 No No Si No

1 1 0,999 No No Si No

1 1 0,995 No No Si No

1 2 0,99 No No Si No

1 2 0,999 No No Si No

1 2 0,995 No No Si No

2 1 0,999 No Si Si Si

2 1 0,99 No Si Si Si

2 1 0,995 No Si Si Si

2 2 0,999 No Si Si Si

2 2 0,99 No Si Si Si

Page 40: , Cuba, junio de 2019

ÍNDICE

v

2 2 0,995 No Si Si Si

3 1 0,995 Si Si Si No

3 1 0,99 Si Si Si No

3 1 0,999 Si Si Si No

3 2 0,99 Si Si Si No

3 2 0,995 Si Si Si No

3 2 0,999 Si Si Si No

4 1 0,999 No Si Si No

4 1 0,995 No Si Si No

4 1 0,99 No Si Si No

4 2 0,999 No Si Si No

4 2 0,99 No Si Si No

4 2 0,995 No Si Si No

5 1 0,999 No Si Si Si

5 1 0,995 No Si Si Si

5 1 0,99 No Si Si Si

5 2 0,99 No Si Si Si

5 2 0,999 No Si Si Si

5 2 0,995 No Si Si Si

6 1 0,999 Si Si Si No

6 1 0,99 Si Si Si No

6 1 0,995 Si Si Si No

6 2 0,999 Si Si Si No

6 2 0,99 Si Si Si No

6 2 0,995 Si Si Si No

7 1 0,999 No No No Si

7 1 0,99 No No No Si

7 1 0,995 No No No Si

7 2 0,99 No No No Si

7 2 0,999 No No No Si

7 2 0,995 No No No Si

8 1 0,995 No Si No Si

8 1 0,999 No Si No Si

8 1 0,99 No Si No Si

8 2 0,999 No Si No Si

Page 41: , Cuba, junio de 2019

CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70

29

8 2 0,99 No Si No Si

8 2 0,995 No Si No Si

9 1 Si Si No No

9 2 Si Si No No

10 1 0,99 Si Si No Si

10 1 0,999 Si Si No Si

10 1 0,995 Si Si No Si

10 2 0,999 Si Si No Si

10 2 0,99 Si Si No Si

10 2 0,995 Si Si No Si

3.2 Resultados generales de experimentos de agrupamiento

Los resultados obtenidos en los experimentos diseñados para el agrupamiento se muestran en la

Tabla 4, se observa la cantidad de grupos obtenidos según el método seleccionado y los resultados

de cálculos de diferentes medidas de validación interna.

Tabla 4 Resultados del agrupamiento de secuencias e índices de validación para cada

experimento.

Experime

nto

Algorit

mo

Umbr

al

Cantidad de

clusters con EM

Overall

Similarity

Dunn Dunn-

Bezdek

Davies-

Bouldin

1 1 0.99 20 0.93394 1.5320743E-02 0.028975 5.07731

1 2 0.99 20 0.933137 1.96132E-02 0.06505 1.2234805

7 1 0.999 14 0.931547 0.009963811 0.040984 4.4659243

1 1 0.999 14 0.930327 9.9642700E-03 0.036932 4.0832005

7 2 0.99 16 0.930068 0.014288007 0.119734 1.1922874

7 2 0.999 14 0.928384 0.010210198 0.070099 1.2004145

1 2 0.999 14 0.927071 1.0977563E-02 0.065424 1.2249378

7 1 0.99 16 0.924175 0.012165051 0.028008 4.889427

7 1 0.995 16 0.921075 0.009029615 0.03979 5.6467605

7 2 0.995 16 0.912184 0.009728067 0.067627 1.2088673

1 1 0.995 8 0.910214 1.2015326E-02 0.042326 3.7331681

4 1 0.999 3 0.903832 9.2358957E-04 0.276054 2.1951544

5 1 0.999 3 0.901192 1.1268527E-03 0.303864 1.9735059

1 2 0.995 8 0.900505 1.05828E-02 0.199503 1.2333554

5 1 0.995 3 0.898654 1.0659682E-03 0.266717 1.5486636

Page 42: , Cuba, junio de 2019

ÍNDICE

v

4 1 0.995 2 0.888543 1.0930246E-03 0.643396 1.0527308

8 2 0.999 3 0.888376 0.002950375 0.589452 0.94075966

2 2 0.999 3 0.888376 2.9503745E-03 0.589452 0.940760

5 2 0.99 3 0.886622 5.1139700E-04 0.510646 1.0055205

5 2 0.999 3 0.885825 5.07333E-04 0.596459 0.9435965

4 2 0.999 3 0.885824 5.1182350E-04 0.596461 0.9436012

8 1 0.995 2 0.885203 0.004508719 0.677198 1.0481176

8 1 0.999 3 0.884254 0.005172538 0.334077 1.9241772

2 1 0.999 3 0.884254 5.1725376E-03 0.334077 1.924177

8 1 0.99 2 0.882638 0.005604822 0.690158 1.0477147

2 1 0.99 2 0.882638 5.6048217E-03 0.690158 1.0477147

5 2 0.995 3 0.88146 5.117093E-04 0.515705 0.9746490

8 2 0.99 2 0.881328 0.003717092 1.304274 0.6057171

2 2 0.99 2 0.881328 3.7170916E-03 1.304274 0.6057171

4 1 0.99 2 0.880395 1.2190022E-03 0.68705 1.0461843

8 2 0.995 2 0.876519 0.001698529 1.479433 0.5611602

4 2 0.99 2 0.875159 5.584672E-04 1.31044 0.59747505

5 1 0.99 3 0.875009 1.0355923E-03 0.323238 1.5845138

4 2 0.995 2 0.873979 1.0230446E-04 1.318012 0.59991777

10 1 0.99 14 0.833735 0.06531491 0.295776 1.2768627

6 1 0.999 8 0.799781 0.08756213 0.267954 1.3938254

3 1 0.995 8 0.786648 0.11817274 0.347228 1.278369

10 1 0.999 11 0.778199 0.07527399 0.309143 1.401182

10 2 0.999 11 0.761454 0.15008336 0.473972 0.98800796

10 2 0.99 14 0.760142 0.1187262 0.508288 1.0646505

2 2 0.995 2 0.756789 0.030977666 0.789558 1.1110101

2 1 0.995 2 0.755034 0.040017605 0.62567 1.2819061

6 1 0.99 6 0.752822 0.038466692 0.289143 1.2406718

3 1 0.99 6 0.733642 0.063675486 0.38152 1.3796076

3 1 0.999 5 0.732385 0.09780735 0.3371 1.391052

6 2 0.999 8 0.727959 0.1817943 0.398036 1.0116128

9 1 5 0.714032 0.050936222 0.29507 1.3835237

10 1 0.995 6 0.704598 0.051388294 0.295572 1.385302

10 2 0.995 6 0.691745 0.031244516 0.606725 1.1218752

3 2 0.99 6 0.689059 0.14344656 0.616251 1.0588212

Page 43: , Cuba, junio de 2019

CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70

31

6 1 0.995 5 0.683254 0.056222916 0.273337 1.3785498

3 2 0.995 8 0.66737 0.04314509 0.447469 1.160631

6 2 0.99 6 0.651398 0.06871498 0.432085 1.1189755

6 2 0.995 5 0.644091 0.14106333 0.498649 1.1196704

9 2 5 0.608796 0.15423602 0.444064 1.0779644

3 2 0.999 5 0.595541 0.12655187 0.492985 1.1249082

Para el presente trabajo, el índice de Overall similarity se asume como la principal medida a

observar para determinar la calidad del agrupamiento según las características de los datos. Como

medida interna se basa en la similitud de los pares de instancias dentro del grupo. Los mejores

resultados fueron alcanzados en los 5 primeros experimentos que se muestran en la Tabla donde se

obtuvieron los mayores valores de dicho índice.

3.3 Resultados de agrupamiento a partir de parámetros

Esta sección contiene el análisis planteado con relación a la calidad de los experimentos medida

por el índice de Overall Similarity y los parámetros descriptos en la Tabla 3.1. Los análisis se basan

en la prueba de comparación de muestras independientes de Mann-Whitney considerando como

muestras los 56 resultados experimentales. Además, se muestran árboles de decisión conformados

para medir la influencia de todos los parámetros en los resultados del mencionado índice.

Con aplicación de PCA

La Figura 12 muestra la significación menor que 0.05 de la prueba de Mann-Whitney por lo que

existen diferencias significativas entre los grupos de experimentos utilizando o no el PCA. El grupo

de experimentos que no utiliza PCA obtiene mayores valores de Overall Similarity.

Page 44: , Cuba, junio de 2019

ÍNDICE

v

Figura 12 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de

PCA y el valor de Overall Similarity.

Con los datos normalizados

La significación de la prueba resultó menor que 0.05 (Figura 13) por lo que existen diferencias

significativas entre los grupos de experimentos que realizan o no la normalización. El grupo de

experimentos en los que no se realiza normalización se obtienen mayores valores de Overall

Similarity.

Figura 13 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de

la normalización y el valor de Overall Similarity.

Page 45: , Cuba, junio de 2019

CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70

33

Con reducción basada en la correlación

La significación de la prueba (Figura 14) resultó mayor que 0.05 por lo que no existen diferencias

significativas entre los grupos de experimentos donde se realiza o no la reducción-integración.

Figura 14 Resultados del test de Mann-Whitney para medir la relación entre la aplicación

de reducción y luego integración y el valor de Overall Similarity.

Con los datos integrados y luego reducidos

La significación de la prueba (Figura 15) resultó mayor que 0.05 por lo que no existen diferencias

significativas entre los grupos de experimentos donde se realiza o no la integración-reducción.

Page 46: , Cuba, junio de 2019

ÍNDICE

v

Figura 15 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de

integración y luego reducción y el valor de Overall Similarity.

Con los dos tipos de algoritmos de agrupamiento

La significación de la prueba (Figura 16) resultó mayor que 0.05 por lo que no existen diferencias

significativas entre los grupos de experimentos donde se aplica un tipo u otro de algoritmo de

agrupamiento.

Page 47: , Cuba, junio de 2019

CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70

35

Figura 16 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de

EM o K-Means y el valor de Overall Similarity.

Con los diferentes valores de umbral

La significación de la prueba de Kruskal-Wallis (Figura 17) resultó mayor que 0.05 por lo que no

existen diferencias significativas entre los grupos de experimentos donde utilizan diferentes valores

de umbral para la reducción basada en la correlación.

Page 48: , Cuba, junio de 2019

ÍNDICE

v

Figura 17 Resultados del test de Kruskal-Wallis para medir la relación entre los diferentes

umbrales y el valor de Overall Similarity.

Se considera que los experimentos donde no se realizó pre-procesamiento de los datos con PCA ni

normalización obtuvieron mejores resultados, por lo que, contribuyen directamente al

agrupamiento según los valores del índice Overall similarity.

El árbol de decisión construido para medir la relación entre todos los parámetros considerados y el

valor de Overall Similarity en dos niveles (menor o igual que 0.8 y mayor que 0.8) se muestran en

la Figura 18. Se observa que los experimentos en los que no se aplica PCA y tienen un umbral de

0.99 y 0.999 obtienen mejores valores de Overall Similarity. De los que aplican PCA los que

integran y luego reducen son los de mayor valor de Overall Similarity obtenido.

Page 49: , Cuba, junio de 2019

CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70

37

Tabla 5 Resumen del modelo

Resumen del modelo

Especificaciones Método de crecimiento CRT

Variable dependiente NivelOverallSimilaity

Variables independientes PCA, @0RMALIZACION, REDUCCION_INTEGRACION, INTEGRACION_REDUCCION, Algoritmo, Umbral

Validación Ninguna

Máxima profundidad del árbol 5

Casos mínimos en nodo padre

10

Casos mínimos en nodo hijo 5 Resultados Variables independientes

incluidas PCA, INTEGRACION_REDUCCION, Umbral, REDUCCION_INTEGRACION

Número de nodos 7

Número de nodos terminales 4

Profundidad 2

Page 50: , Cuba, junio de 2019

ÍNDICE

v

Figura 18 Árbol de decisión

Tabla 6 Tabla de Árbol 1 según distintos parámetros

Nodo

Menor0.8 Mayor0.8 Total

N Porcentaje N Porcentaje N Porcentaje

0 21 37.5% 35 62.5% 56 100.0% 1 2 5.6% 34 94.4% 36 64.3% 2 19 95.0% 1 5.0% 20 35.7% 3 0 0.0% 24 100.0% 24 42.9% 4 2 16.7% 10 83.3% 12 21.4% 5 14 100.0% 0 0.0% 14 25.0% 6 5 83.3% 1 16.7% 6 10.7%

Page 51: , Cuba, junio de 2019

CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70

39

Tabla 7 Tablas de Árbol 2 según distintos parámetros

Tabla de árbol

Nodo Categoría

pronosticada Nodo padre

Variable independiente primaria

Variable Mejora Valores de división

0 Mayor0.8 1 Mayor0.8 0 PCA .367 NO 2 Menor0.8 0 PCA .367 SI 3 Mayor0.8 1 Umbral .009 .990; .999 4 Mayor0.8 1 Umbral .009 .995 5

Menor0.8 2 INTEGRACION_REDUCCION

.004 NO

6 Menor0.8 2

INTEGRACION_REDUCCION

.004 SI

Riesgo

Estimación Error estándar

.054 .030

Clasificación

Observado

Pronosticado

Menor0.8 Mayor0.8 Porcentaje

correcto

Menor0.8 19 2 90.5% Mayor0.8 1 34 97.1% Porcentaje global 35.7% 64.3% 94.6%

3.4 Comparación de Índices de validación del agrupamiento

Con el índice de validación Overall Similarity se obtuvieron los mejores resultados en los

experimentos 1 y 7 con los valores 0.99, 0.999 de umbral de correlación para los dos algoritmos

de agrupamiento.

Con los índices Dunn y Dunn-Bezdek para valorar la fortaleza del grupo se obtuvieron los mejores

resultados en los experimentos 6, 9, 10, 3 y 8, 4, 2 respectivamente con los valores 0.999, 0.99,

0.995 de umbral de correlación en el algoritmo de agrupamiento SimpleKMeans del Weka.

Con el índice de validación Davies-Bouldin basada en la homogeneidad se obtuvieron los mejores

resultados en los experimentos 8, 4 y 2 con 0.995 y 0.99 respectivamente de umbral de correlación

en el algoritmo de agrupamiento SimpleKMeans del Weka.

La Figura 19 muestra resultados de agrupamiento de experimentos por los valores de los diferentes

índices de validación interna. Se conforman dos grupos de experimentos donde los índices de

mayor importancia en la separación son el DavisDoublin y luego DunnBezdek. Los experimentos

con mayores valores de Overall Similarity se comportan de manera similar en los demás índices.

Page 52: , Cuba, junio de 2019

ÍNDICE

v

Tabla 8 Clúster bietápico

Distribución de clúster

N % de combinado % del total

Clúster 1 6 10.7% 10.7%

2 50 89.3% 89.3%

Combinado 56 100.0% 100.0%

Total 56 100.0%

Tabla 9 Perfiles de clúster

Centroides

OverallSimilarity Dunn DunnBezdek

Media Desviación estándar Media

Desviación estándar Media

Clúster 1 .9252129683 .00878166929

.0114098026667

.00228378032053

.03616895883

2 .8166245968 .09670852462

.0412097205286

.05179089747284

.50707254860

Combinado .8282590652 .09740528129

.0380168721862

.04976599152236

.45661859255

Centroides

DunnBezdek DaviesBouldin

Desviación estándar Media Desviación estándar

Clúster 1 .006215163604 4.6492984000 .69701849828

2 .335227643795 1.1828770068 .33916157164

Combinado .348885020845 1.5542792989 1.14762612294

Page 53: , Cuba, junio de 2019

CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70

41

Figura 19 Resultados de agrupamiento de experimentos por índices de validación interna.

Luego en la Figura 20 se muestra un gráfico de agrupación de experimentos basado en el Overall

Similarity y los grupos previamente conformados con todos los índices. Los experimentos se han

etiquetado según la Tabla 3 con número de 1 a 10 que indica la combinación de normalización, uso

de PCA y los órdenes de integración y reducción, luego el umbral utilizado para la reducción basada

en la correlación y seguidamente el algoritmo empleado. Se observa que el clúster de 6

experimentos (10.7% de 56) es el que presenta Overall Similarity por encima de 0.8.

Page 54: , Cuba, junio de 2019

ÍNDICE

v

Figura 20 Visualización de agrupamiento de experimentos por índices de validación interna.

3.5 Mejor agrupamiento y rasgos de mayor importancia

Para la realización de los cálculos de los índices en el Software SPSS se utilizó el mejor

experimento resaltado en la Tabla 4 según el mayor Overall Similarity. Para éste se calculó el

índice de Silueta para el agrupamiento Bietápico y las distancias entre las instancias y los centroides

y entre centroides según el algoritmo QuickCluster. La Figura 21 muestra los resultados del

agrupamiento Bietápico y Tabla 11, Tabla 12, Tabla 13 los del QuickCluster.

Adicionalmente, para un experimento conveniente con una cantidad adecuada de grupos (8 grupos)

para la visualización se muestran los rasgos de mayor importancia (Anexo 1) y para el mejor

experimento se muestran los grupos de secuencias conformados con relación al rasgo de mayor

importancia en la Figura 22.

Page 55: , Cuba, junio de 2019

CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70

43

Tabla 10 Distribución de clúster

N % de

combinado % del total

Clúster 1 1 0.2% 0.2%

2 4 0.8% 0.8%

3 1 0.2% 0.2%

4 3 0.6% 0.6%

5 1 0.2% 0.2%

6 1 0.2% 0.2%

7 1 0.2% 0.2%

8 1 0.2% 0.2%

9 451 93.6% 93.6%

10 1 0.2% 0.2%

11 1 0.2% 0.2%

12 1 0.2% 0.2%

13 4 0.8% 0.8%

14 1 0.2% 0.2%

15 2 0.4% 0.4%

16 1 0.2% 0.2%

17 1 0.2% 0.2%

18 2 0.4% 0.4%

19 1 0.2% 0.2%

20 3 0.6% 0.6%

Combinado 482 100.0% 100.0%

Total 482 100.0%

Figura 21 Resultados de agrupamiento por el algoritmo Bietápico para el experimento de

mayor Overall Similarity.

Page 56: , Cuba, junio de 2019

ÍNDICE

v

Tabla 11 Distancias entre centros de clústeres finales 1

Clúster 9 10 11 12 13 14 15 16

1 275.197 222.774 123.852 171.827 117.230 74.253 151.966 83.701 2 439.350 91.109 287.157 322.942 64.150 138.863 61.986 246.952 3 374.110 211.160 244.956 238.699 157.077 174.860 185.087 210.318 4 110.451 599.623 263.601 250.426 498.229 431.490 529.395 302.871 5 433.694 95.242 279.817 329.013 66.962 131.074 52.581 243.978 6 442.018 930.470 595.513 573.714 830.341 761.266 860.445 634.981 7 39.313 529.796 194.007 184.361 427.673 361.333 458.965 232.698 8 59.676 433.767 95.934 113.633 330.960 264.700 362.346 136.297 9 491.567 155.141 152.294 388.985 322.468 420.343 194.125

10 491.567 340.130 375.508 125.161 194.355 104.438 301.586

11 155.141 340.130 98.289 236.398 173.113 268.611 46.094

12 152.294 375.508 98.289 277.647 227.111 313.612 105.767

13 388.985 125.161 236.398 277.647 99.430 68.979 197.288

14 322.468 194.355 173.113 227.111 99.430 118.096 142.015

15 420.343 104.438 268.611 313.612 68.979 118.096 231.863

16 194.125 301.586 46.094 105.767 197.288 142.015 231.863 17 452.548 85.936 299.212 342.323 79.320 151.106 68.149 262.244 18 345.270 160.092 192.321 239.737 50.009 71.379 89.282 154.092 19 176.132 665.197 329.303 313.271 563.980 496.731 594.985 368.566 20 490.140 64.939 337.309 376.939 123.124 189.795 105.889 299.748

Tabla 12 Distancias entre centros de clústeres finales 2

Clúster 17 18 19 20

1 183.038 75.193 450.455 221.438 2 61.419 101.016 614.206 92.160 3 193.430 156.006 539.979 216.311 4 561.226 454.324 66.554 598.052 5 46.510 94.848 607.873 83.792 6 892.564 786.457 266.778 928.726 7 491.236 383.925 137.748 528.712 8 394.084 286.960 234.069 431.872 9 452.548 345.270 176.132 490.140 10 85.936 160.092 665.197 64.939 11 299.212 192.321 329.303 337.309 12 342.323 239.737 313.271 376.939 13 79.320 50.009 563.980 123.124 14 151.106 71.379 496.731 189.795 15 68.149 89.282 594.985 105.889 16 262.244 154.092 368.566 299.748 17 113.608 626.719 70.571

18 113.608 520.103 157.610

19 626.719 520.103 663.348

20 70.571 157.610 663.348

Page 57: , Cuba, junio de 2019

CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70

45

Tabla 13 Número de casos en cada clúster

Clúster 1 11.000

2 9.000

3 1.000

4 12.000

5 3.000

6 13.000

7 107.000

8 36.000

9 180.000

10 1.000

11 23.000

12 4.000

13 8.000

14 1.000

15 1.000

16 53.000

17 5.000

18 3.000

19 10.000

20 1.000 Válido 482.000 Perdidos .000

Page 58: , Cuba, junio de 2019

ÍNDICE

v

Figura 22 Gráfico de agrupamiento por el algoritmo Bietápico para el experimento de

mayor Overall Similarity expresado en función del rasgo de mayor importancia.

3.6 Consideraciones finales del capítulo

El procedimiento basado en el pre-procesamiento de los datos considerando la integración, la

normalización y la reducción de la dimensionalidad fue utilizado para realizar los experimentos

que se presentan en este capítulo los que arrojan como resultado que el uso de PCA no es

requerido para obtener los mejores valores de Overall Similarity.

El mejor experimento tiene un umbral de 0.99, se utilizó el algoritmo EM, un valor de Overall

Similarity de 0.93394 y se obtuvieron 20 clústeres.

El agrupamiento de medidas de validación interna indica que para los experimentos de mayor

Overall Similarity el resto de las medidas se comportan de manera similar.

Page 59: , Cuba, junio de 2019

CONCLUSIONES

47

CONCLUSIONES

1. Teniendo en cuenta el análisis descriptivo de los datos se consideraron como alternativas

de pre-procesamiento la integración, la normalización y la reducción de la dimensionalidad

debido a que los rasgos integrados podían aportar diversas informaciones al agrupamiento

de las secuencias, a la baja varianza y amplitud de rango de varios de los rasgos

respectivamente.

2. Se propone un método de reducción por correlación alternativo a PCA como método de

reducción de la dimensionalidad, con el que se obtienen mejores resultados de Overall

Similarity.

3. Se propone un procedimiento para el agrupamiento que permite valorar diferentes

parámetros en la experimentación como son: el uso de PCA, la normalización, la

integración antes de la reducción o la reducción y luego la integración, el algoritmo de

agrupamiento a utilizar y el umbral de reducción.

4. El mejor experimento tiene un umbral de 0.99, se utilizó el algoritmo EM, arrojó un valor

de Overall Similarity de 0.93394 y se obtuvieron 20 clústeres.

Page 60: , Cuba, junio de 2019

RECOMENDACIONES

48

RECOMENDACIONES

1. Ampliar el estudio para descriptores de mayor dimensionalidad.

2. Mejorar la selección de los valores de umbrales.

3. Utilizar otros algoritmos de agrupamiento.

4. Valorar la utilización de Big Data según aumente la dimensionalidad de los descriptores.

Page 61: , Cuba, junio de 2019

BIBLIOGRAFÍA

49

BIBLIOGRAFÍA

ARCO, L., BELLO, R. & GARCIA, M. M. 2006. On Clustering Validity Measures and the Rough Set Theory. Proceedings of the Fifth Mexican International Conference on Artificial Intelligence. IEEE Computer Society.

BEZDEK, J. & PAL, N. Cluster validation with generalized Dunn's indices. In: KASABOV, N. & COGHILL, G., eds. Proceedings of the 2nd International two-stream Conference on ANNES, 1995 Piscataway, NJ. IEEE Press, 190-193.

BOROZAN, I., WATT, S. & FERRETTI, V. 2015. Integrating alignment-based and alignment-free sequence similarity measures for biological sequence classification. Bioinformatics, 31, 1396-1404.

CAO, D.-S., XU, Q.-S. & LIANG, Y.-Z. 2013. propy: a tool to generate various modes of Chou’s PseAAC. Bioinformatics, 29, 960-962.

CHOU, K.-C. 2000. Prediction of protein subcellular locations by incorporating quasi-sequence-order effect. Biochemical and biophysical research communications, 278, 477-483.

CHOU, K.-C. 2001. Prediction of Protein Cellular Attributes Using Pseudo-Amino Acid Composition. PROTEINS: Structure, Function, and Genetics, 43, 246–255.

DAVIES, D. L. & BOULDIN, D. W. 1979. A cluster separation measure. IEEE Transactions on Pattern Analysis and Machine Learning, 1, 224-227.

DAVIES, G. J. & SINNOTT, M. L. 2008. The sequence-based classifications of carbohydrate-active enzymes, sorting the diverse. Biochemical Regulars Journal Classic Papers, The Biochemical Society 1-32.

DUBCHAK, I., MUCHNIK, I., HOLBROOK, S. R. & KIM, S. H. 1995. Prediction of protein folding class using global description of amino acid sequence. Proc Natl Acad Sci U S A, 92, 8700-8704.

Page 62: , Cuba, junio de 2019

ÍNDICE

v

DUBCHAK, I., MUCHNIK, I., MAYOR, C., DRALYUK, I. & KIM, S. H. 1999. Recognition of a protein fold in the context of the SCOP classification. Proteins: Structure, Function, and Bioinformatics, 35, 401-407.

DUNN, J. 1974. A fuzzy relative isodata process and its use in detecting compact well-separated clusters. J. Cybernetics, 3, 32-57.

FRAGA R, M. A., MOULIS C, ESCALIER P, MOREL S, REMAUD-SIMÉON M, MONSAN P 2011a. A novel dextransucrase is produced by Leuconostoc citreum strain B/110-1-2: an isolate used for the industrial production of dextran and dextran-derivatives. J Ind Microbiol Biotechnol, 38:1499-1506.

FRAGA R, M. C., ESCALIER P, MOREL S, REMAUD-SIMÉON M, MONSAN P 2011b. Isolation of a gene from Leuconostoc citreum B/110-1-2 encoding a novel extransucrase enzyme. Current Microbiology, 62, 1260-1266.

FRAGA, R. H. 2015. Aislamiento, caracterización y expresión heteróloga del gen de una nueva dextranasacarasa de la cepa industrial de Leuconostoc sp. B/110-1-2. Tesis en opción al grado científico de Doctor en Ciencias Biológicas.

GARCÍA S, L. J., HERRERA F. 2015. Data Preprocessing in Data Mining. Switzerland: Springer International Publishing

HALL, M. A. 1999. Correlation-based Feature Selection for Machine Learning. Doctor of Philosophy, The University of Waikato.

JAIN, A. K. (2010). Data clustering: 50 years beyond K-means q. Pattern

Recognition Letters, 31(8), 651–666. https://doi.org/10.1016/j.patrec.2009.09.011

LOMBARD V, G. R. H., DRULA E, COUTINHO PM, HENRISSAT B. 2014. The Carbohydrate-active enzymes database (CAZy) in 2013. Nucleic Acids Res, 42:D490–D495.

MALAVIKA, S. & K.SELVAM 2015. Reduction of Dimensionality for High Dimensional Data using Correlation Measures. Global Journal of Pure and Applied Mathematics (GJPAM) © Research India Publications http://www.ripublication.com, 11, 107-111.

MENG, X., GANGOITI, J., BAI, Y., PIJNING, T., LEEUWEN, S. S. V. & DIJKHUIZEN, L. 2016. Structure–function relationships of family GH70 glucansucrase and 4,6-a-glucanotransferase enzymes, and their

Page 63: , Cuba, junio de 2019

BIBLIOGRAFÍA

51

evolutionary relationships with family GH13 enzymes. Cell. Mol. Life Sci., 73, 2681–2706.

MITRA, P., MURTHY, C. A. & PAL, S. K. 2002. Unsupervised Feature Selection Using Feature Similarity. IEEE TRANSACTIONS ON PATIERN ANALYSIS AND MACHINE INTELLIGENCE, 24.

ONG, S. A., LIN, H. H., CHEN, Y. Z., LI, Z. R. & CAO, Z. 2007. Efficacy of different protein descriptors in predicting protein functional families. BMC Bioinformatics, 8.

PÉREZ, A. A., CAÑIZARES, D. G. & MOLINA-RUIZ, R. 2018. Aplicación del modelo de programación Spark al cálculo de medidas de similitud para pares de genes. Trabajo de Diploma para optar por la Licenciatura en Ciencia de la Computación, Universidad Central "Marta Abreu" de Las Villas.

SONI, V. & JOSHI, R. 2012. A Novel Dimension Reduction Technique based on Correlation Coefficient. International Journal of Scientific & Technology Research 1.

STEINBACH, M., KARYPIS, G. & KUMAR, V. A comparison of document clustering techniques. Proceedings of KDD Workshop on Text Mining, 2000.

VINGA, S. 2014. Editorial: Alignment-free methods in computational biology. BRIEFINGS IN BIOINFORMATICS, 15, 341-342.

WEKA 2013. Data Mining Software in Java. 3.7.8 ed.: Machine Learning Group University of Waikato.

Page 64: , Cuba, junio de 2019

ANEXOS

52

ANEXOS

Anexo 1 Visualización de los rasgos de mayor importancia