LECCIÓN 2. Análisis Multivariado en el tratamiento de...

114
Lección 2 1 LECCIÓN 2. Análisis Multivariado en el tratamiento de resultados de caracterización morfológica

Transcript of LECCIÓN 2. Análisis Multivariado en el tratamiento de...

Page 1: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 1

LECCIÓN 2. Análisis Multivariado en el tratamiento de resultados de caracterización morfológica

Page 2: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 2

• Definición de métodos multivariados: Son métodos estadísticos que analizan simultáneamente más de dos variables de un individuo

• Definición de métodos multivariados, particularizado a la caracterización de RR.FF.: Conjunto de métodos de análisis de datos que tratan un gran número de mediciones sobre cada accesión del germoplasma.

Métodos de análisis multivariado.

Page 3: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 3

– Cuantificar las relaciones entre UBC. – Representar geométricamente las UBC.– Clasificarlas respecto a un conjunto de variables.

Objetivos de un análisis multivariado aplicado a la caracterización de material vegetal:

Métodos de análisis multivariado (2).

Page 4: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 4

– Métodos de ordenación.Permiten:

• Explicar la mayor parte de la variabilidad total existente en la muestra, en un número reducido de dimensiones.

• Representar el material en estudio en ese número reducido de dimensiones.– Análisis de agrupamiento, clasificación o cluster. Permiten la búsqueda de grupos

similares lo más homogéneos posible para clasificar los elementos en estudio.

Clasificación de los métodos de análisis multivariado

Métodos de análisis multivariado (3).

Page 5: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 5

Métodos de ordenación Análisis de agrupamientoAnálisis de Componentes Principales (ACP)

• Técnicas exclusivas vs. no exclusivas.• Técnicas jerárquicas vs. no jerárquicas.• Técnicas aglomerativas vs. divisivas• Técnicas secuenciales vs. simultáneas

Análisis discriminante (AD)

Análisis discriminante canónico (ADC)Análisis de coordenadas principales (ACOORP)Análisis factorial de correspondencias (AFC)

Métodos de análisis multivariado (4).

exclusivasjerárquicasaglomerativassecuenciales

Análisis de Componentes Principales (ACP)

Análisis discriminante canónico (ADC)

Page 6: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 6

• Técnicas dirigidas por las variables: Técnicas que se enfocan primordialmente en las relaciones que podrían existir entre las variables respuesta que se están midiendo

• Técnicas dirigidas por los individuos:Se interesan principalmente en las relaciones que podrían existir entre las unidades experimentales (UBC) que se están midiendo, o en ambos.

Técnica ACP AD ADC ClusterTécnica dirigida por ... variables individuos individuos variables

Otra clasificación de los métodos de análisis multivariado

Métodos de análisis multivariado (5).

Page 7: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 7

• De dependencia: Una variable o conjunto de variables es identificado como dependiente de otro conjunto conocidas como independiente o predictor.

• De interdependencia: Ninguna variable o grupo de variables es definido como independiente o dependiente y, el procedimiento implica en análisis simultaneo de todo el conjunto de variables.

Técnica ACP AD ADC ClusterTipo interdependencia dependencia dependencia interdependencia

Otra clasificación (2) de los métodos de análisis multivariado

Métodos de análisis multivariado (6).

Page 8: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 8

Tipo de problema ACP AD ADC ClusterExploración relaciones entre variables si no no noCribado de datos si no no posibleCreación de nuevas variables si no si noPredicción de ser miembro de un grupo no si si siComparación de grupos de variables posible no no noVerificación de agrupamientos si no no siReducción de la dimensionalidad si no si no

Tipos de problemas que resuelven cada uno de los métodos de análisis multivariado más utilizados en caracterización de material vegetal .

Métodos de análisis multivariado (7).

Page 9: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 9

Tipos de variables a las que se aplica cada método de análisis .

Método Tipo de variablesACP CuantitativasAD Variable dependiente categórica e independientes

cuantitativasADC

ACOORP CualitativasCluster Cualitativas o cuantitativas

Métodos de análisis multivariado (8).

Page 10: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 10

•Análisis de componente principales (ACP). Herramienta para cribar datos de variables múltiples. Permite reducir la dimensionalidad. Se pueden identificar, de las variables originales, cuales son las que más influyen en

la separación de las UBC. A partir de un conjunto de variables correlacionadas se crea un nuevo conjunto de

variables no correlacionadas (CP) Sobre los CP se pueden proyectar las UBC y el operador puede definir

agrupamientos

•Análisis de agrupamientos, clasificación o cluster.– Se utiliza para clasificar las UBC en subgrupos definidos de manera única.

RESUMEN DE LOS MÉTODOS DE ANÁLISIS MUTIVARIADOS UTILIZADOS EN CARACTERIZACIÓN DE MATERIAL VEGETAL.

Métodos de análisis multivariado (9).

Page 11: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 11

– Se utiliza para clasificar UBC en dos o más grupos definidos de manera única (variable dependiente categórica o no métrica) a partir de variables independientes métricas o cuantitativas.

– El análisis discriminante canónico (ADC) crea nuevas variables que contienen toda la información útil para la discriminación de la que se dispone en las variables originales.

– Las nuevas variables conducen a reglas más sencillas para clasificar las UBC en los diferentes grupos.

– Se diferencia del análisis de agrupamientos en que en el AD desde un principio se sabe cuántos grupos existen y se tienen datos que provienen de cada uno de estos grupos, y en el cluster se usan técnicas que que producen clasificaciones a partir de datos que inicialmente no están clasificados.

RESUMEN DE LOS MÉTODOS DE ANÁLISIS MUTIVARIADOS UTILIZADOS EN CARACTERIZACIÓN DE MATERIAL VEGETAL (2)

•Análisis discriminante (AD)

Métodos de análisis multivariado (10).

Page 12: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 12

Cuando el análisis multivariado del estado de los caracteres en individuos, se utiliza para averiguar la afinidad o similitud entre unidades taxonómicas y para agrupar estas unidades en taxones, se habla de “Taxonomía numérica” (Sneath y Sokal, 1973),

... y a las Unidades Básicas de Caracterización se les denomina Unidades Taxonómicas Operativas (UTO)

Pero en muchos análisis multivariados el objetivo no es delimitar taxones ni analizar la afinidad o similitud entre unidades taxonómicas para plantear una revisión de la sistemática de un taxon (género o especie)

... sino analizar (cuantificar y visualizar) la similitud entre accesiones de germoplasma

Por eso no conviene generalizar la denominación de taxonomía numérica.

Concepto de taxonomía numérica.

Page 13: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 13

Construcción de la Matriz Básica de Datos

Estimación del parecido: Similitud

Construcción de la matriz de similitud que corresponda

Aplicación de la técnica correspondiente

Toma del valor de cada carácter en cada UBC

U.B.C. Caracteres o descriptores

Pasos elementales en un estudio multivariante de datos de caracterización vegetal: ACP cluster y ADC

Page 14: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 14

•FILAS: U.B.C. (recomendado) ó Caracteres•COLUMNAS: Caracteres (recomendado) o U.B.C.

Construcción de la MBD.

Page 15: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 15

Para los caracteres multi-estado cuantitativos continuos donde coexisten diferentes escalas de medida en relación a la misma U.B.C.

baX

X ijij

'

Xij es el valor del carácter i para la U.B.C. ja: Puede tomar diferentes valores. b: Puede tomar diferentes valores.

Si a= media del carácter i; b= desviación estándar del carácter i se denominan puntuaciones Z (distribución normal estándar)

• Realizar transformaciones logarítmicasLog10 Xij; Log10 (Xij + 1)

• Procedimiento más utilizado: Estandarización.

Reducción de valores a una sola escala.

Page 16: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 16

• Coeficientes de similitud/disimilitud.– Permiten conocer la similitud o su complementario (disimilitud) de

cada par posible de U.B.C. o caracteres (según corresponda) en una matriz básica de datos.

• Clasificación de los coeficientes de similitud/disimilitud. – Coeficientes de distancia.– Coeficientes de correlación.– Coeficientes de asociación.

Estimación de la Similitud/Disimilitud.

Page 17: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 17

UBC-

UBC-

UBC-

UBC-

• M.B.D. Multiestado; Mixta.• CONCEPTO (explicado para el caso de que se calculen las distancias

fenéticas entre U.B.C.):– Se basa en un espacio fenético de n dimensiones (=caracteres).

– Las U.B.C. se sitúan en ese espacio fenético en función del valor que tenga en cada uno de los Caracteres.

– Las diferencias entre las U.B.C. según los coeficientes de distancia, son proporcionales a la distancia a la que se encuentran en el espacio.

Coeficientes de distancia.

Page 18: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 18

• TIPOS DE COEFICIENTES DE DISTANCIA.

NOMBRE FORMULA TIPO DE DATOS SOBRE LOS QUE

SE APLICA

MAXIMA SIMILITUD

MINIMA SIMILITUD

Taxonomic distance

Multi – estadoMixtos

0

Chi – square

Euclidean distance

Average manhattan distance

Mean character difference

Gower Específicamente utilizado para mixtos

21

kj

kj

i

ki

kij x

xxx

xd

2 k kjkiij xxE

k kjkiij xx

nM 1

21

k kjkiij xxn

E

21

k kjkiij xxn

E

k ijk

k ijkijkij w

sws

Coeficientes de distancia (2).

Page 19: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 19

• TIPOS DE COEFICIENTES DE DISTANCIA (2).– Caso particular: Coeficiente de Crovello, que tiene en cuenta la

variación dentro de cada U.B.C.

Xki: Media del carácter k para la O.T.U. i Ski: Desviación estándar del carácter k para la O.T.U. i.

Xkj: Media del carácter k para la O.T.U. j Skj: Desviación estándar del carácter k para la O.T.U. j.

2122

1kjkikjki

n

k

SSXXCD

Coeficientes de distancia (3).

Page 20: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 20

UBC-

UBC-

• M.B.D. Multiestado cuantitativos; Mixtos ( con abundancia de multiestado cuantitativos)

• CONCEPTO (explicado para el caso de que se calculen las distancias fenéticas entre U.B.C.):

– Los caracteres dos a dos constituyen un espacio bidimensional– Las U.B.C. se sitúan en ese espacio

bidimensional, trazando las líneas que partiendo del origen de coordenadas pasan por las U.B.C.

– Las diferencias entre las U.B.C. según los coeficientes de correlación son proporcionales a los ángulos que forman esas líneas.

Coeficientes de correlación.

Page 21: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 21

• TIPOS DE COEFICIENTES DE CORRELACIÓN.

El signo indica el tipo de asociación (+) si es directa o (-) si es inversa.

Coeficientes de correlación (2).

Page 22: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 22

• M.B.D.: Datos doble-estado; *algunos permiten datos multiestado cualitativos sin secuencia lógica.

• CONCEPTO (explicado para el caso de que se calculen las distancias fenéticas entre U.B.C.):

– A veces se denomina índice de similitud.– La comparación de los U.B.C. para un carácter doble-estado tiene cuatro

posibilidades:• Que ambas tengan presente el carácter• Que ambas tengan ausente el carácter• Que esté presente en la 1ª y ausente en la 2ª• Que esté ausente en la 1ª y presente en la 2ª

– Los coeficientes están basados en el número de veces que se repita, entre cada dos U.B.C. cada uno de los sucesos anteriores

Coeficientes de asociación.

Page 23: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 23

• TIPOS DE COEFICIENTES DE ASOCIACIÓN.

*

*

*

UBC-

UBC-

UBC-

Coeficientes de asociación (2).

Page 24: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 24

• La elección depende del tipo de datos que contiene la M.B.D.

En aquellos estudios en los que predominan los caracteres doble-estado, conviene transformar los datos multiestado restantes en datos doble-estado y utilizar coeficientes de asociación.

En aquellos estudios en los que predominan los caracteres multiestado cuantitativos es aconsejable la estandarización y la utilización de coeficientes de distancia y correlación.

Elección del tipo de coeficiente.

Page 25: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 25

• Matriz diagonal constituida por los coeficientes de similitud/disimilitudentre todos los pares posibles de U.B.C. o caracteres, según la dirección de análisis

UBC

Matriz de similitud/disimilitud.

Page 26: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 26

• Matriz de similitud.– Valores 0 |x| 1.

Matriz de similitud /disimilitud (2).

Page 27: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 27

• Matriz de disimilitud (distancia).– Valores 0 x .

Matriz de similitud / disimilitud (3).

Page 28: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 28

• El ACP es una técnica de Análisis Factorial (AF).• El AF sirve para encontrar grupos de variables, a partir de un conjunto

numeroso de variables (=caracteres). Cuando tomamos información de un gran número de variables de forma

simultánea, podemos preguntarnos si se agrupan de forma característica a partir de los resultados de las mediciones.

Aplicando un AF a los datos podemos ser capaces de encontrar grupos de variables con significado común, y reducir así el número de dimensiones necesarias para explicar la variabilidad existente.

Reducción de datos mediante Análisis Componentes Principales (ACP).

Page 29: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 29

• El ACP representa según un modelo lineal, un conjunto numeroso de variables originales (=caracteres) mediante un número reducido de variables hipotéticas, llamadas Componentes Principales.

• El número máximo de Componentes es igual o menor al número de variables originales.• Características fundamentales de los Componentes Principales:

– Son ortogonales entre si – No están correlacionados entre ellos– Cada componente contiene información de todos los caracteres en diferentes proporciones.

• Primer componente es el que recoge mayor variabilidad.• De la variabilidad restante, el segundo es el que incluye más de ésta ...

Reducción de datos mediante ACP (2).

Page 30: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 30

• Explicación intuitiva de la génesis de los C.P. para dos caracteres.– Representación de las U.B.C. con respecto a dos caracteres correlacionados.– Estandarización de los caracteres y nueva representación de las U.B.C– Máxima separación entre las U.B.C. en una sola dimensión Proyección sobre una línea.– Las líneas de proyección son los C.P. y corresponden con los ejes mayor y menor de la

elipse definida por la nube de puntos correspondientes a las U.B.C. Si tres caracteres elipsoide en lugar de elipse.

UBC-

UBC-

UBC-

UBC-UBC-

UBC-UBC-

UBC-

UBC H

UBC C

UBC DUBC E

UBC B

UBC GUBC F

UBC A

UBC H

UBC C

UBC D

UBC E

UBC B

UBC GUBC F

UBC A

Reducción de datos mediante ACP (3).

Page 31: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 31

• En un caso general los C.P. se reconocen porque las distancias cuadráticas de las U.B.C. con respecto a ellos es mínima.

• Reconocimiento de los C.P. desde el punto de vista matemático: • Cálculo de la matriz de correlación entre caracteres.• Matriz de varianza-covarianza cuando los caracteres estén originalmente

expresados en la misma unidad de medida. A partir de las interrelaciones exhibidas por la matriz de correlación y mediante

transformaciones matemáticas se construye un nuevo conjunto de variables denominados C.P.

• En general para explicar un porcentaje alto de la variabilidad total se necesitarán más de 3 dimensiones que no pueden visualizarse, pero se les puede aplicar el tratamiento matemático.

Reducción de datos mediante ACP (4).

Page 32: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 32

1. Cálculo de una matriz que contenga la variabilidad conjunta de todas las variables (=caracteres).

2. Extracción del número óptimo de Componentes Principales (C.P.)3. Obtención e interpretación de la matriz de componentes o matriz de

estructura factorial.4. Rotación de la solución factorial y repetición de los puntos 2 y 3 para

la solución rotada.5. Estimación de las puntuaciones de las U.B.C. sobre las nuevas

variables (=Componentes Principales) y proyección de aquellas sobre éstas Sirve para visualizar las relaciones entre las UBC

Pasos en la aplicación de la técnica ACP.

Page 33: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 33

•OPCIÓN A:– Estandarización Para expresar todas las variables en la misma escala.– Calculo de la matriz de similitud entre las variables (es la matriz de correlación de

caracteres).•OPCIÓN B:

– Obtener una matriz de varianzas – covarianzas: Se da mayor peso a las variables que presentan varianzas más altas.

Es necesario que las variables hayan sido medidas en unidades homogéneas. Ej. estudio morfométrico convencional: Hacer una transformación de logaritmo

decimal

PASO 1: Cálculo de una matriz que contenga la variabilidad conjunta de todas las variables (=caracteres)

Pasos en la aplicación de la técnica ACP (2).

Page 34: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 34

El método extrae tantos CP como variables iniciales (=caracteres) que explicarán el 100% de la varianza.

Sin embargo para conseguir el objetivo reducir el número de dimensiones necesarias para explicar los datos, es necesario seleccionar un número de CP menor al número de variables iniciales.

PASO 2. Extracción del número óptimo de Componentes Principales (CP)

Pasos en la aplicación de la técnica ACP (3).

Page 35: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 35

La información necesaria para decidir el número óptimo se encuentra en la tabla de varianzas explicadas por el análisis que incluye la siguiente información:

– Eigen-Valores (=autovalores; =valores propios) de cada CP: Es la sumatoria de las varianzas de todos los caracteres para dicho CP La varianza de un carácter para un determinado CP es el cuadrado de la

contribución de un carácter para un componente. Los Eigen-Valores son diferentes para cada componente. El componente

con mayor Eigen-Valor será el primero y así sucesivamente, ...– Porcentaje de la variación total que representa cada CP.– Porcentaje de la variación total acumulada en cada CP.

PASO 2. Extracción del número óptimo de CP (2)

Pasos en la aplicación de la técnica ACP (4).

Page 36: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 36

El Gráfico de sedimentación presenta gráficamente los eigen-valores de los CP, y facilita la determinación el número óptimo de factores (CP).

PASO 2. Extracción del número óptimo de CP (3)Comp, Eigenvalor % variación

Variación acumulada

1 14,054 35,134 35,1342 10,747 26,868 62,0023 5,284 13,211 75,2134 2,473 6,182 81,3945 1,703 4,257 85,6516 1,553 3,882 89,5337 0,999 2,498 92,0318 0,691 1,728 93,7599 0,551 1,378 95,137

10 0,535 1,338 96,47511 0,428 1,07 97,54512 0,239 0,597 98,14213 0,168 0,42 98,56214 0,141 0,353 98,91415 0,117 0,293 99,20716 0,083 0,207 99,41417 0,074 0,184 99,59718 0,046 0,116 99,71319 0,038 0,094 99,80820 0,035 0,088 99,89521 0,025 0,062 99,95822 0,014 0,035 99,99323 0,003 0,007 10024 0 0 10025 0 0 10026 0 0 10027 0 0 10028 0 0 10029 0 0 10030 0 0 10031 0 0 10032 0 0 10033 0 0 10034 0 0 10035 0 0 10036 0 0 10037 0 0 10038 0 0 10039 0 0 10040 0 0 100

EIGENVALORES

Pasos en la aplicación de la técnica ACP (5).

Page 37: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 37

Casos que pueden presentarse al analizar como evolucionan los eigen-vectores de los CP (o lo que es lo mismo el porcentaje de variación que acumula cada CP)

PASO 2. Extracción del número óptimo de CP (4)

– CASO 1: El investigador puede seleccionar con un amplio margen de seguridad el cp1.

– CASO 2: Pueden seleccionarse los 4 primeros cp (cp1 a cp4).

– CASO 3: Los resultados del ACP no permiten reducir la dimensionalidad.

Pasos en la aplicación de la técnica ACP (6).

Page 38: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 38

Está compuesta por los eiguen-vectores ocorrelaciones entre los factores (CP) y las variables (=caracteres) Son los valores de las saturaciones de las variables

en cada uno de los CP, de donde se obtiene la siguiente información:

• Qué caracteres están asociados

• Qué caracteres caracterizan en el mismo sentido y en sentido contrario

• Cuáles son los caracteres que más discriminan entre las UBC

PASO 3. Obtención e interpretación de la matriz de componentes o matriz de estructura factorial

Carácter 1º componente 2º componente 3º componenteLA 0.8877 0.2359 0.0228LL 0.8328 0.1296 -0.1923LW/L 0.4686 -0.1682 0.7456LFF 0.5137 -0.0697 0.688LUA 0.5602 -0.2932 0.5868LLA 0.2902 0.1257 0.8208LL/AWP -0.0722 0.6278 -0.0669LPL 0.7925 0.36 0.3121LNL 0.7398 -0.3193 0.2734CLL 0.6861 0.3413 -0.2823CUL/LL 0.8115 0.157 -0.3486CUS/LS -0.0753 -0.9231 0.0501CLS/UL -0.5514 -0.5553 -0.2193CLS/US -0.0596 0.7397 0.1413CLL/LW -0.1355 -0.6968 -0.1635POL 0.3163 0.7871 0.0436POW/OL -0.3434 -0.6089 -0.197PCS/SS 0.0071 0.2465 0.7625PLP/TL 0.766 -0.5814 -0.1917POL/SLP 0.1976 0.2426 0.723SA -0.259 0.8733 -0.2563SPL -0.5323 0.7413 -0.1861SPW/PL 0.6834 0.5833 0.0119SCW/CL -0.7834 0.4298 0.1676SCL/PL 0.908 0.2646 -0.2102SCW/PW 0.7398 0.2723 -0.1508WA/SA -0.7504 -0.058 0.4529WPL -0.6706 0.6782 -0.0894WPW/PL -0.1529 0.51 0.6519WCL/PL 0.8744 0.3097 -0.2299KA/SA -0.8572 -0.0867 0.1519KPL -0.7501 0.5916 -0.1194KPW/PL -0.2644 0.4039 0.5851KCL/PL 0.9005 0.2764 -0.2238KAA -0.085 -0.8777 -0.1865FMPA -0.4534 0.7611 -0.2016FL 0.0696 0.8006 -0.2795FW/L -0.759 0.0336 0.1402FFF -0.7834 0.0212 0.1156FNOV -0.1262 0.8615 -0.2

EIGENVECTORES

Pasos en la aplicación de la técnica ACP (7).

Page 39: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 39

El gráfico de componentes representa gráficamente las saturaciones de las variables en cada uno de los CP y facilita la interpretación

PASO 4. Obtención e interpretación de la matriz de componentes o matriz de estructura factorial (2)

Carácter 1º componente 2º componente 3º componenteLA 0.8877 0.2359 0.0228LL 0.8328 0.1296 -0.1923LW/L 0.4686 -0.1682 0.7456LFF 0.5137 -0.0697 0.688LUA 0.5602 -0.2932 0.5868LLA 0.2902 0.1257 0.8208LL/AWP -0.0722 0.6278 -0.0669LPL 0.7925 0.36 0.3121LNL 0.7398 -0.3193 0.2734CLL 0.6861 0.3413 -0.2823CUL/LL 0.8115 0.157 -0.3486CUS/LS -0.0753 -0.9231 0.0501CLS/UL -0.5514 -0.5553 -0.2193CLS/US -0.0596 0.7397 0.1413CLL/LW -0.1355 -0.6968 -0.1635POL 0.3163 0.7871 0.0436POW/OL -0.3434 -0.6089 -0.197PCS/SS 0.0071 0.2465 0.7625PLP/TL 0.766 -0.5814 -0.1917POL/SLP 0.1976 0.2426 0.723SA -0.259 0.8733 -0.2563SPL -0.5323 0.7413 -0.1861SPW/PL 0.6834 0.5833 0.0119SCW/CL -0.7834 0.4298 0.1676SCL/PL 0.908 0.2646 -0.2102SCW/PW 0.7398 0.2723 -0.1508WA/SA -0.7504 -0.058 0.4529WPL -0.6706 0.6782 -0.0894WPW/PL -0.1529 0.51 0.6519WCL/PL 0.8744 0.3097 -0.2299KA/SA -0.8572 -0.0867 0.1519KPL -0.7501 0.5916 -0.1194KPW/PL -0.2644 0.4039 0.5851KCL/PL 0.9005 0.2764 -0.2238KAA -0.085 -0.8777 -0.1865FMPA -0.4534 0.7611 -0.2016FL 0.0696 0.8006 -0.2795FW/L -0.759 0.0336 0.1402FFF -0.7834 0.0212 0.1156FNOV -0.1262 0.8615 -0.2

EIGENVECTORES

Pasos en la aplicación de la técnica ACP (8).

Page 40: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 40

Produce una rotación de los CP obtenidos con el objetivo de mejorar la interpretabilidad de la solución En la solución factorial el primer factor explica el máximo de la varianza común

disponible en los datos, el segundo el máximo de la varianza común restante y así sucesivamente

( esto es para deshacer la indeterminación intrínseca a la solución del sistema homogéneo de ecuaciones que da lugar a los eigen-vectores.)

Un efecto indeseable es que los primeros factores tienden a capitalizar la información de covariación contenida en la matriz de correlaciones, acumulando más información que la que les corresponde

• Cuando cada variable se encuentra inequívocamente asignada a un solo factor no hay problema

• Si las variables saturan en más de un factor la rotación ayuda a la interpretación

PASO 4. Rotación de la solución factorial y repetición de los puntos 2 y 3 para la solución rotada

Pasos en la aplicación de la técnica ACP (9).

Page 41: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 41

En el ejemplo se observa que tras la rotación:

– Las variables pertenecientes al factor 2 se han aproximado más a él.

– Las variables pertenecientes al factor 1 ahora están atravesadas por el eje

– La variable nivel educativo se ha distanciado del factor 1 llevando a pensar que comparte información con el factor 2

PASO 4. Rotación de la solución factorial y repetición de los puntos 2 y 3 para la solución rotada (2)

Pasos en la aplicación de la técnica ACP (10).

Page 42: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 42

Métodos de rotación:Clasificación de los métodos de rotación:

– Rotación Ortogonal: Los factores rotados continúan siendo ortogonales.– Rotación Oblicua: Los factores rotados dejan de ser ortogonales.

Método Varimax. Es el más utilizado Es un método de rotación ortogonalMinimiza el número de variables que tienen saturaciones altas en cada factor Simplifica la interpretación de los factores optimizando la solución por columna

PASO 4. Rotación de la solución factorial y repetición de los puntos 2 y 3 para la solución rotada (3)

Pasos en la aplicación de la técnica ACP (11).

Page 43: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 43

• Metodologías para la formación de grupos de UBC utilizando análisis multivariado:

– Análisis de agrupamiento.– Métodos de ordenación (Análisis de Componentes

Principales).

Visualización de las relaciones entre UBC: formación de grupos.

Page 44: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 44

• Análisis de agrupamiento.El análisis de agrupamiento comprende técnicas que, siguiendo

reglas más o menos arbitrarias, forman grupos de U.B.C. que se asocian por su grado de similitud

• Núcleo: Todo conjunto formado por dos U.B.C.• Grupo: Todo conjunto formado por más de dos U.B.C.

Visualización de las relaciones entre UBC: formación de grupos (2).

Page 45: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 45

Disimilitud0.00 0.50 1.00 1.50 2.00

1 2 8 9 5 6 7 3

10 4

18 20 23 21 22 24 19 11 13 12 15 16 14 17

Visualización de las relaciones entre UBC: formación de grupos (3)

Page 46: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 46

• Análisis de Componentes Principales.– El proceso de obtención de los Componentes Principales ya ha sido descrito en el

apartado de reducción de datos con esta técnica.– La formación de grupos de U.B.C. mediante el ACP está basada en la

representación de las mismas en un espacio multi-dimensional (2/3 dimensiones) formado por los primeros Componentes Principales (2/3).

– Este método no traza límites en el espacio que separen grupos de U.B.C. Cuanto más cerca se encuentren entre si dos U.B.C. más estrechamente

relacionados están.

Visualización de las relaciones entre UBC: formación de grupos (4).

Page 47: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 47

2423222120

1918

17

1615 14

13

1211

10

9

8

76 5

4 3

2

1

Visualización de las relaciones entre UBC: formación de grupos (5).

Page 48: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 48

SAHN: Sequential, Agglomerative, Hierarchical, and Nested de grupo parSolamente puede ser admitida una U.B.C. o un grupo de

U.B.C. por nivel

• Clasificación general de técnicas.– Técnicas jerárquicas vs. no jerárquicas.– Técnicas secuenciales vs. simultáneas.– Técnicas aglomerativas vs. divisivas.– Técnicas exclusivas vs. no exclusivas.

Visualización de relaciones entre UBC: Análisis de agrupamiento

Análisis de agrupamiento.

jerárquicassecuencialesaglomerativasexclusivas

Page 49: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 49Visualización de relaciones entre UBC: Análisis de agrupamiento

CLASIFICACIÓN PRIMARIA DE LAS TÉCNICAS DE ANÁLISIS DE AGRUPAMIENTOS.

• Técnicas jerárquicas: Originan conjuntos que presentan rangos, en los cuales las U.B.C. o grupos de U.B.C. subsidiarios forman parte de un grupo mayor o inclusivo.

• Técnicas no jerárquicas: Originan conjuntos que no exhiben rangos. Su uso se está incremetando. Requieren que el investigador elija centros móviles o individuos típicos (simientes)

a partir de los cuales iniciar el proceso de aglomeración.

Análisis de agrupamiento (2).

Page 50: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 50

ANÁLISIS DE LA CLASIFICACIÓN GENERAL DE TÉCNICAS.

• Técnicas secuenciales: Se forma un grupo de cada vez, hasta que se agota el conjunto total.

• Técnicas simultáneas: Los grupos se forman simultáneamente en una sola operación.

Visualización de relaciones entre UBC: Análisis de agrupamiento

Análisis de agrupamiento (3).

Page 51: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 51

ANÁLISIS DE LA CLASIFICACIÓN GENERAL DE TÉCNICAS.• Técnicas aglomerativas: Son las que partiendo de n U.B.C. separadas, las

agrupa en sucesivos conjuntos (siempre en un número < n) para llegar finalmente a un solo conjunto que contiene a las n unidades.

• Técnicas divisivas: Son aquellas que partiendo de un conjunto que contiene a las n U.B.C. las divide en subconjuntos.

Visualización de relaciones entre UBC: Análisis de agrupamiento

Análisis de agrupamiento (4).

Page 52: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 52

ANÁLISIS DE LA CLASIFICACIÓN GENERAL DE TÉCNICAS.

• Técnicas exclusivas: Originan grupos donde las U.B.C. son exclusivas del grupo del cual forman parte y no pueden pertenecer a otro grupo que se halle en un mismo rango o nivel.

• Técnicas no exclusivas: Originan grupos donde las U.B.C. pueden pertenecer a más de un grupo en un mismo nivel o rango.

Visualización de relaciones entre UBC: Análisis de agrupamiento

Análisis de agrupamiento (5).

Page 53: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 53

1. Examen de la matriz de similitud para localizar el valor de similitud más alto Formación del primer núcleo

2. Se busca el próximo valor de mayor similitud, lo que puede suponer:– Formación de nuevos núcleos– Incorporación de una nueva U.B.C. a un núcleo– Fusión de núcleos existentes

3. Se repite la segunda etapa

Visualización de relaciones entre UBC: Análisis de agrupamiento

Descripción del proceso de agrupamiento.

Page 54: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 54

• Ligamiento simple. • Ligamiento completo.• Ligamiento promedio.• De Ward

Visualización de relaciones entre UBC: Análisis de agrupamiento

Tipos de ligamiento (etapa 2).(etapa 2)

Page 55: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 55

Las U.B.C. se incorporan a grupos o núcleos ya formados, teniendo en cuenta que el valor de similitud entre las U.B.C. candidato a incorporarse y el grupo o núcleo es igual a la similitud entre el candidato y la U.B.C. integrante del grupo o núcleo más parecido a ella. Si el candidato a incorporarse es un grupo o núcleo, el valor de similitud será igual a la máxima similitud hallada entre dos U.B.C. provenientes una de cada grupo o núcleo.

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple.

Page 56: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 56

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.B. arb. 0B. car. 0,68 0B. chil. 1,65 1,8 0B. bon. 1,19 1,31 1,22 0B. ret. 1,58 1,72 1,01 1,21 0B. fol. 1,59 1,06 1,18 1,12 0,99 0B. sch. 1,7 1,84 1,23 1,13 1,13 0,73 0B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (2).

Page 57: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 57

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.B. arb. 0B. car. 0,68 0B. chil. 1,65 1,8 0B. bon. 1,19 1,31 1,22 0B. ret. 1,58 1,72 1,01 1,21 0B. fol. 1,59 1,66 1,18 1,12 0,99 0B. sch. 1,7 1,84 1,23 1,13 1,13 0,73 0B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55 0

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.B. arb. 0B. car. 0,68 0B. chil. 1,65 1,8 0B. bon. 1,19 1,31 1,22 0B. ret. 1,58 1,72 1,01 1,21 0B. fol. 1,59 1,66 1,18 1,12 0,99 0B. sch. 1,7 1,84 1,23 1,13 1,13 0,73 0B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55 0

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. 1,58 1,01 1,21 0B. fol. 1,59 1,18 1,12 0,99 0B. sch. 1,7 1,23 1,13 1,13 0,73 0B. sar. 1,67 1,57 1,52 1,53 1,27 1,55 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (3).

Page 58: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 58

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. 1,58 1,01 1,21 0B. fol. 1,59 1,18 1,12 0,99 0B. sch. 1,7 1,23 1,13 1,13 0,73 0B. sar. 1,67 1,57 1,52 1,53 1,27 1,55 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (4).

Page 59: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 59

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. 1,58 1,01 1,21 0B. fol. 1,59 1,18 1,12 0,99 0B. sch. 1,7 1,23 1,13 1,13 0,73 0B. sar. 1,67 1,57 1,52 1,53 1,27 1,55 0

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. 1,58 1,01 1,21 0B. fol. 1,59 1,18 1,12 0,99 0B. sch. 1,7 1,23 1,13 1,13 0,73 0B. sar. 1,67 1,57 1,52 1,53 1,27 1,55 0

B. arb. B. car. B. chil. B. bon. B. ret.

B. fol. B. sch. B. sch.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. 1,58 1,01 1,21 0B. fol. B. sch. 1,59 1,18 1,12 0,99 0B. sar. 1,67 1,57 1,52 1,53 1,27 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (5).

Page 60: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 60

B. arb. B. car. B. chil. B. bon. B. ret.

B. fol. B. sch. B. sch.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. 1,58 1,01 1,21 0B. fol. B. sch. 1,59 1,18 1,12 0,99 0B. sar. 1,67 1,57 1,52 1,53 1,27 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (6).

Page 61: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 61

B. arb. B. car. B. chil. B. bon. B. ret.

B. fol. B. sch. B. sch.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. 1,58 1,01 1,21 0B. fol. B. sch. 1,59 1,18 1,12 0,99 0B. sar. 1,67 1,57 1,52 1,53 1,27 0

B. arb. B. car. B. chil. B. bon. B. ret.

B. fol. B. sch. B. sch.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. 1,58 1,01 1,21 0B. fol. B. sch. 1,59 1,18 1,12 0,99 0B. sar. 1,67 1,57 1,52 1,53 1,27 0

B. arb. B. car. B. chil. B. bon.

B. ret. B. fol. B. sch B. sch.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. B. fol. B. sch. 1,58 1,01 1,12 0B. sar. 1,67 1,57 1,52 1,27 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (7).

Page 62: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 62

B. arb. B. car. B. chil.

B. bon.

B. ret. B. fol. B. sch B. sch.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. B. fol. B. sch. 1,58 1,01 1,12 0B. sar. 1,67 1,57 1,52 1,27 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (8).

Page 63: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 63

B. arb. B. car. B. chil.

B. bon.

B. ret. B. fol. B. sch B. sch.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. B. fol. B. sch. 1,58 1,01 1,12 0B. sar. 1,67 1,57 1,52 1,27 0

B. arb. B. car. B. chil.

B. bon.

B. ret. B. fol. B. sch B. sch.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. B. fol. B. sch. 1,58 1,01 1,12 0B. sar. 1,67 1,57 1,52 1,27 0

B. arb. B. car.

B. bon.

B. chil. B. ret. B. fol. B. sch B. sch.

B. arb. B. car. 0B. bon. 1,19 0B. chil. B. ret. B. fol. B. sch. 1,58 1,12 0B. sar. 1,67 1,52 1,27 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (9).

Page 64: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 64

B. arb. B. car. B. bon.

B. chil. B. ret. B. fol. B. sch B. sch.

B. arb. B. car. 0B. bon. 1,19 0B. chil. B. ret. B. fol. B. sch. 1,58 1,12 0B. sar. 1,67 1,52 1,27 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (10).

Page 65: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 65

B. arb. B. car. B. bon.

B. chil. B. ret. B. fol. B. sch B. sch.

B. arb. B. car. 0B. bon. 1,19 0B. chil. B. ret. B. fol. B. sch. 1,58 1,12 0B. sar. 1,67 1,52 1,27 0

B. arb. B. car. B. bon.

B. chil. B. ret. B. fol. B. sch B. sch.

B. arb. B. car. 0B. bon. 1,19 0B. chil. B. ret. B. fol. B. sch. 1,58 1,12 0B. sar. 1,67 1,52 1,27 0

B. arb. B. car.

B. bon B. chil. B. ret. B. fol. B. sch B. sch.

B. arb. B. car. 0B. bon B. chil. B. ret. B. fol. B. sch. 1,19 0B. sar. 1,67 1,27 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (11).

Page 66: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 66

B. arb. B. car.

B. bon B. chil. B. ret. B. fol. B. sch B. sch.

B. arb. B. car. 0B. bon B. chil. B. ret. B. fol. B. sch. 1,19 0B. sar. 1,67 1,27 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (12).

Page 67: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 67

B. arb. B. car.

B. bon B. chil. B. ret. B. fol. B. sch B. sch.

B. arb. B. car. 0B. bon B. chil. B. ret. B. fol. B. sch. 1,19 0B. sar. 1,67 1,27 0

B. arb. B. car.

B. bon B. chil. B. ret. B. fol. B. sch B. sch.

B. arb. B. car. 0B. bon B. chil. B. ret. B. fol. B. sch. 1,19 0B. sar. 1,67 1,27 0

B. arb. B. car. B. bon B. chil. B. ret. B. fol. B. sch B. sch.

B. arb. B. car. B. bon B. chil. B. ret. B. fol. B. sch. 0B. sar. 1,27 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (13).

Page 68: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 68

B. arb. B. car. B. bon B. chil. B. ret. B. fol. B. sch B. sch.

B. arb. B. car. B. bon B. chil. B. ret. B. fol. B. sch. 0B. sar. 1,27 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento simple (14).

Page 69: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 69

Las U.B.C. se incorporan a grupos o núcleos ya formados, teniendo en cuenta que el valor de similitud entre las U.B.C. candidato a incorporarse y el grupo o núcleo es igual a la similitud entre el candidato y la U.B.C. integrante del grupo o núcleo menos parecido a ella. Si el candidato a incorporarse es un grupo o núcleo, el valor de similitud será igual a la mínima similitud hallada entre dos U.B.C. provenientes una de cada grupo o núcleo.

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento completo.

Page 70: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 70

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.B. arb. 0B. car. 0,68 0B. chil. 1,65 1,8 0B. bon. 1,19 1,31 1,22 0B. ret. 1,58 1,72 1,01 1,21 0B. fol. 1,59 1,06 1,18 1,12 0,99 0B. sch. 1,7 1,84 1,23 1,13 1,13 0,73 0B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55 0

LS

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento completo (2).

Page 71: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 71

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.B. arb. 0B. car. 0,68 0B. chil. 1,65 1,8 0B. bon. 1,19 1,31 1,22 0B. ret. 1,58 1,72 1,01 1,21 0B. fol. 1,59 1,66 1,18 1,12 0,99 0B. sch. 1,7 1,84 1,23 1,13 1,13 0,73 0B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55 0

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.B. arb. 0B. car. 0,68 0B. chil. 1,65 1,8 0B. bon. 1,19 1,31 1,22 0B. ret. 1,58 1,72 1,01 1,21 0B. fol. 1,59 1,66 1,18 1,12 0,99 0B. sch. 1,7 1,84 1,23 1,13 1,13 0,73 0B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55 0

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.

B. arb. B. car. 0B. chil. 1,8 0B. bon. 1,31 1,22 0B. ret. 1,72 1,01 1,21 0B. fol. 1,66 1,18 1,12 0,99 0B. sch. 1,84 1,23 1,13 1,13 0,73 0B. sar. 1,74 1,57 1,52 1,53 1,27 1,55 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento completo (3).

Page 72: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 72

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.

B. arb. B. car. 0B. chil. 1,65 0B. bon. 1,19 1,22 0B. ret. 1,58 1,01 1,21 0B. fol. 1,59 1,18 1,12 0,99 0B. sch. 1,7 1,23 1,13 1,13 0,73 0B. sar. 1,67 1,57 1,52 1,53 1,27 1,55 0

LS

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento completo (4).

Page 73: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 73

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.

B. arb. B. car. 0B. chil. 1,8 0B. bon. 1,31 1,22 0B. ret. 1,72 1,01 1,21 0B. fol. 1,66 1,18 1,12 0,99 0B. sch. 1,84 1,23 1,13 1,13 0,73 0B. sar. 1,74 1,57 1,52 1,53 1,27 1,55 0

B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.

B. arb. B. car. 0B. chil. 1,8 0B. bon. 1,31 1,22 0B. ret. 1,72 1,01 1,21 0B. fol. 1,66 1,18 1,12 0,99 0B. sch. 1,84 1,23 1,13 1,13 0,73 0B. sar. 1,74 1,57 1,52 1,53 1,27 1,55 0

B. arb. B. car. B. chil. B. bon. B. ret.

B. fol. B. sch. B. sch.

B. arb. B. car. 0B. chil. 1,8 0B. bon. 1,31 1,22 0B. ret. 1,72 1,01 1,21 0B. fol. B. sch. 1,84 1,23 1,13 1,13 0B. sar. 1,74 1,57 1,52 1,53 1,55 0

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento completo (5).

Page 74: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 74

B. arb. B. car. B. chil. B. bon. B. ret.

B. fol. B. sch. B. sch.

B. arb. B. car. 0B. chil. 1,8 0B. bon. 1,31 1,22 0B. ret. 1,72 1,01 1,21 0B. fol. B. sch. 1,84 1,23 1,13 1,13 0B. sar. 1,74 1,57 1,52 1,53 1,55 0

LS

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento completo (6).

Page 75: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 75

LS

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento completo (7).

Page 76: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 76

Las U.B.C. se incorporan a grupos o núcleos ya formados, teniendo en cuenta que el valor de similitud entre las U.B.C. candidato a incorporarse y el grupo o núcleo es igual a una similitud promedio resultante de los valores de similitud entre el candidato y cada uno de los integrantes del grupo o núcleo. Si el candidato a incorporarse es un grupo o núcleo, el valor de similitud será el promedio de los valores de similitud entre los pares posibles de U.B.C. provenientes una de cada grupo o núcleo. Existen varios tipos de medias. La más utilizada es UPGMA (Unweighted pair-group

method using aritmetic averages) “Media aritmética no ponderada”)

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento promedio.

Page 77: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 77

LS LC

Visualización de relaciones entre UBC: Análisis de agrupamiento

Ligamiento promedio (2).

Page 78: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 78

Distancia entre dos agrupamientos:

Cuadrado de la distancia entre las medias de esos agrupamientos ...... dividida entre la suma de los recíprocos de la cantidad de puntos que se encuentra dentro de cada uno de éstos

También se conoce como el método de la varianza mínima porque ...

... al considerar los valores al cuadrado, se vuelve un método muy sensible

Visualización de relaciones entre UBC: Análisis de agrupamiento

Método de la varianza mínima de Ward

Page 79: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 79

• PASO 1: Estandarización / Transformación Todos los caracteres deben estar expresados en la misma escala.

• PASO 2: Calculo de la matriz de similitud entre las UBC.• PASO 3: Construcción del dendrograma previa elección del método

de ligamiento.

Visualización de relaciones entre UBC: Análisis de agrupamiento

Pasos en la aplicación de latécnica de análisis de agrupamientos.

Page 80: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 80

Métodos:• Medida de la distorsión mediante el coeficiente de

correlación cofenética.• Bootstrapping (Método de remuestreo).

Visualización de relaciones entre UBC: Análisis de agrupamiento

Validación del análisis de agrupamiento.

Page 81: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 81

Coeficiente de correlación cofenética.

•Procedimiento.– Determinación de una nueva matriz de similitud a partir de los valores del

fenograma “matriz cofenética.”– La comparación de la matriz original y la cofenética mediante el coeficiente de

correlación del momento-producto origina el “coeficiente de correlación cofenética.”

•Información proporcionada por la técnica.– Es una medida de la distorsión interna de la técnica.– No da información acerca de la bondad de la agrupación taxonómica obtenida.

Visualización de relaciones entre UBC: Análisis de agrupamiento

Validación del análisis de agrupamiento (2).

Page 82: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 82

Bootstrapping.Procedimiento.

– Para cada UBC se toma el valor correspondiente a cada carácter, uno por uno, con reemplazo, elaborando una muestra de igual tamaño que el número de caracteres. Existe la posibilidad de que se seleccione un carácter una o más veces

– En cada muestra se calcula una matriz de similtitud.– Se calculan las similitudes promedio y sus desviaciones estándar para cada

par de U.B.C., y se elabora una matriz de similitud promedio– Se construye un nuevo dendrograma, empleando la matriz de similitud

promedio– En situaciones reales deben generarse más de 100 muestras con reemplazo.

Visualización de relaciones entre UBC: Análisis de agrupamiento

Validación del análisis de agrupamiento (3).

Page 83: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 83

Disimilitud0.00 0.50 1.00 1.50 2.00

1 2 8 9 5 6 7 3

10 4

18 20 23 21 22 24 19 11 13 12 15 16 14 17

Similitud0.00 0.25 0.50 0.75 1.00

10

1 2 3 5 6 7 8 9 10 4 12 13 14 15 16 17 18 11 19 21 22 23 24 25 20

Visualización de relaciones entre UBC: Análisis de agrupamiento

Interpretación de un dendrograma.

Page 84: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 84

• Si el diagrama es claro basta la simple observación Definición del número de grupos:

• El conocimiento profundo de la especie vegetal: Botánica, agronomía y distribución, permite al agrónomo interpretar los resultados

Visualización de relaciones entre UBC: Análisis de agrupamiento

Interpretación de un dendrograma (2).

Page 85: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 85

• Estimación de las distancias entre U.B.C. con el coeficiente 2 que cuenta con una prueba de hipótesis para saber el grado de similitud existente entre pares de UBC. A partir de las tablas de 2 con un grado de libertad, usando como el nivel de

similitud• Usar la pseudoestadística T2 de Hotelling que se usa para comparar las medias de dos

agrupamientos Si las medias de dos agrupamientos no son significativamente diferentes, esos

dos agrupamientos podrían combinarse. Si la diferencia entre las medias es significativa, entonces los agrupamientos no

deben combinarse

Definición del número de grupos:

Visualización de relaciones entre UBC: Análisis de agrupamiento

Interpretación de un dendrograma (3).

Page 86: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 86

Comparación mediante un ANOVA las medias de cada carácter en los diferentes agrupamientos: Esto permite averiguar que caracteres están influyendo en la formación de los

grupos. El análisis conjunto de todos los caracteres puede ayudar a tomar decisiones a la

hora de definir grupos

Visualización de relaciones entre UBC: Análisis de agrupamiento

Interpretación de un dendrograma (4).

Page 87: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 87

• Permite averiguar qué caracteres están altamente correlacionados.

• Puede generar ideas e hipótesis sobre el origen, valor selectivo y patrones de variación de los caracteres.

• Permite determinar posibles complejos adaptativos.

Utilidad:

Visualización de relaciones entre UBC: Análisis de agrupamiento

Agrupamiento por variables (=caracteres) en lugar de por UBC.

Page 88: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 88

1. Cálculo de una matriz que contenga la variabilidad conjunta de todas las variables (=caracteres).

2. Extracción del número óptimo de Componentes Principales (C.P.)3. Obtención e interpretación de la matriz de componentes o matriz de

estructura factorial.4. Rotación de la solución factorial y repetición de los puntos 2 y 3 para

la solución rotada.5. Estimación de las puntuaciones de las U.B.C. sobre las nuevas

variables (=Componentes Principales) y proyección de aquellas sobre éstas.

Como ya se indicó anteriormente, los pasos a realizar en un ACP son:

Visualización de relaciones entre UBC: Métodos de ordenación (ACP)

Utilización del ACP para visualizar las relaciones entre UBC.

Page 89: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 89

El paso 5 consiste en:• Obtener las puntuaciones factoriales de las UBC sobre los Componentes

Principales Existen varios métodos:

• Método de proyección• Método de regresión • Puntuaciones de

Bartlett• Método de

Anderson-Rubin • Dibujar el gráfico.

24232221201918

17

1615 14

1312

11

10

98

76 5

4 3

2

1

Visualización de relaciones entre UBC: Métodos de ordenación (ACP)

Utilización del ACP para visualizar las relaciones entre UBC (2).

Page 90: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 90

• El CDA necesita que existan dos o más grupos de UBC realizadas a priori, típicamente suelen ser los orígenes del germoplasma.

Reducción de datos y agrupación de UBC mediante Análisis Discriminante Canónico (ADC).

• Se trata de encontrar una buena función discriminante que sea una combinación lineal de las variables originales. Cuando aplicamos la función a un dato nuevo nos dice a que grupo pertenece.

• Geométricamente se busca una buena dirección sobre la que proyectar los datos de los grupos conocidos y de los que queremos clasificar.

Reducción de dimensiones y agrupación de UBC con ADC

Page 91: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 91

1. Cálculo de una matriz de varainzas-covarianzas para cada uno de los grupos realizados a priori.

2. Extracción de las funciones canónicas discriminantes.3. Determinar la puntuación canónica discriminante de cada nuevo dato

(x0): Se trata de la proyección de dicho dato en la dirección discriminante.

4. Determinación de los centroides: puntuaciones canónicas discriminantes de los vectores de medias.

5. Cálculo las distancias de Mahalanobis entre los centroides de los grupos y obtención de la significación de esa distancia.

6. Comprobación de la bondad de la regla de clasificación creada mediante la prueba de resustitución, que permite saber cuantas UBC se clasifican bien y cuantas se clasifican mal.

Pasos en la aplicación de la técnica ADC.

Reducción de dimensiones y agrupación de UBC con ADC

Page 92: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 92

PASO 2: Extracción de las funciones canónicas discriminantes (o raíces canónicas)

Pasos en la aplicación de la técnica ADC (2).

Función Autovalor % de varianza

% acumulado

Correlacióncanónica

1 8.399 55.6 55.6 0.9452 3.480 23.1 78.7 0.8813 1.607 10.6 89.3 0.7854 1.125 7.4 96.8 0.7285 0.485 3.2 100.0 0.572

La primera información que se obtiene es la tabla de autovalores(eigenvalores o varianzas explicadas) que indica la variabilidad recogida por varias funciones canónicas

También se obtienen:― Los coeficientes estandarizados de

cada una de las funciones canónicas

Coeficientes estandarizados de las funciones discriminantes canónicas

Función1 2 3 4 5

NDL 0.360 0.539 0.380 -0.119 0.073NFR 0.492 0.600 -0.268 0.764 -0.179LDPD -0.358 0.335 -0.028 -0.429 0.827PDF -1.018 -0.071 0.596 0.783 0.363DDF 1.312 -0.497 -0.120 -0.069 0.137NGPF -0.304 -0.401 -0.405 -0.307 0.369AGPF -0.160 -0.013 0.757 -0.345 -0.261LDGF 0.573 0.530 -0.036 -0.075 -0.196

Reducción de dimensiones y agrupación de UBC con ADC

Page 93: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 93

PASO 2: Extracción de las funciones canónicas discriminantes (o raíces canónicas) (2)

Pasos en la aplicación de la técnica ADC (3).

― Matriz de estructura que contiene, por filas, los eigen vectores o coeficientes de correlación de las funciones discriminantes con las variables originales. Permite averiguar la correlación

entre las variables orginales Permite conocer las variables que

más influyen en las diferentes funciones canónicas

Matriz de estructuraFunción

1 2 3 4 5LDP 0.129 0.096 -0.037 0.110 0.037NDL 0.366 0.466 0.241 -0.120 0.031NGPF -0.030 -0.202 -0.167 0.010 0.167LDH 0.127 0.201 0.021 0.108 0.012ADH 0.067 0.156 -0.020 0.062 0.107AGPF -0.069 -0.084 0.655 -0.144 -0.160PDF -0.030 -0.241 0.557 0.545 0.467DDG 0.039 0.008 0.541 0.039 0.118PDP 0.006 -0.114 0.465 0.285 0.396LDGF 0.094 0.161 0.339 -0.096 0.098LDF -0.010 -0.214 0.280 0.117 0.203NFR 0.057 0.355 -0.249 0.559 0.040LDPD -0.082 0.324 -0.016 -0.216 0.819DDF 0.539 -0.488 0.348 0.214 0.539PGPF -0.035 -0.154 0.350 -0.015 0.485

Reducción de dimensiones y agrupación de UBC con ADC

Page 94: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 94

PASO 3: Determinación de la puntuación canónica discriminante de cada nuevo dato (x0): Se trata de la proyección de dicho dato en la dirección discriminante.

PASO 4: Determinación de los centroides: puntuaciones canónicas discriminantes de los vectores de medias.

Pasos en la aplicación de la técnica ADC (4).

Reducción de dimensiones y agrupación de UBC con ADC

Page 95: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 95

PASO 5: Cálculo las distancias de Mahalanobis entre los centroides de los grupos y obtención de la significación de esa distancia

Pasos en la aplicación de la técnica ADC (5).

LOCALIDAD 1 2 3 4 5 61 F 10.487 7.508 11.763 31.801 21.264

Sig. .000 .000 .000 .000 .0002 F 10.487 6.154 6.643 34.849 15.016

Sig. .000 .000 .000 .000 .0003 F 7.508 6.154 6.083 23.856 15.563

Sig. .000 .000 .000 .000 .0004 F 11.763 6.643 6.083 37.630 14.819

Sig. .000 .000 .000 .000 .0005 F 31.801 34.849 23.856 37.630 22.624

Sig. .000 .000 .000 .000 .0006 F 21.264 15.016 15.563 14.819 22.624

Sig. .000 .000 .000 .000 .000

Reducción de dimensiones y agrupación de UBC con ADC

Page 96: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 96

• PASO 6: Comprobación de la bondad de la regla de clasificación creada mediante la prueba de resustitución, que permite saber cuantas UBC se clasifican bien y cuantas se clasifican mal

Pasos en la aplicación de la técnica ADC (6).

Resultados de la clasificacióna

LOCALIDAD Grupo de pertenencia pronosticado1 2 3 4 5

Original

Recuento

1 10 0 0 0 02 0 9 0 1 03 0 0 9 1 04 0 0 1 9 05 0 0 0 0 106 0 0 0 0 0

%

1 100.0 0.0 0.0 0.0 0.02 0.0 90.0 0.0 10.0 0.03 0.0 0.0 90.0 10.0 0.04 0.0 0.0 10.0 90.0 0.05 0.0 0.0 0.0 0.0 100.06 0.0 0.0 0.0 0.0 0.0

Reducción de dimensiones y agrupación de UBC con ADC

Page 97: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 97

CONCEPTO: Se entiende por congruencia del resultado de un estudio de caracterización de germoplasma con métodos multivariados, al grado de correspondencia entre diferentes clasificaciones de un mismo conjunto de U.B.C.

Análisis de resultados

Congruencia de los resultados obtenidos.

Page 98: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 98

• Variar la metodología.Realizar la clasificación a partir de un determinado conjunto de caracteres, utilizando dos técnicas diferentes. Se pretende determinar cuales son las técnicas clasificatorias que permiten obtener

resultados más semejantes entre si.

Análisis de resultados

Planteamiento experimento congruencia.

Page 99: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 99

• Variar la fuente de caracteres.Realizar la clasificación a partir de dos conjuntos de caracteres diferentes, utilizando la misma técnica. Se pretende determinar cuál es el grado de interdependencia causal entre diferentes tipos

de caracteres.

Análisis de resultados

Planteamiento experimento congruencia (2).

Page 100: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 100

– Estudiar la congruencia entre clasificaciones basadas en diferentes conjuntos de caracteres utilizando la misma técnica.

– Aplicar a cada uno de los conjuntos de caracteres otra técnica diferente.

Se pretende determinar si diferentes tipos de caracteres proporcionan resultados congruentes utilizando una determinada técnica e incongruentes con otra.

• Combinar ambos sistemas anteriores.

Análisis de resultados

Planteamiento experimento congruencia (3).

Page 101: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 101

• Midiendo la coincidencia entre las matrices de similitud.– Mediante coeficientes de correlación.– Mediante coeficientes de discordancia.

• Midiendo la coincidencia entre las estructuras taxonómicas derivadas de las matrices de similitud.

– Coeficiente de distorsión.– Índice de consenso.

Análisis de resultados

Evaluación de la congruencia.

Page 102: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 102

• Comparación visual, sin ningún tipo de medición, de los resultados gráficos obtenidos.– Ejemplo: Comparar un dendrograma (=resultado gráfico de un análisis de

agrupamiento) con la gráfica bidimensional o tridimensional de proyección de las U.B.C. sobre las 2/3 primeras Componentes Principales.Para ello se precisará que estas 2/3 componentes expliquen la mayor parte

de la variabilidad existente

Análisis de resultados

Evaluación de la congruencia (2).

Page 103: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 103

• Causas biológicas.– Diferente actividad de los genes en diferentes células de un mismo organismo– Plasticidad fenotípica.– Mutaciones somáticas.– Diferentes presiones de selección– Evolución en mosaico: La velocidad de evolución de los diferentes tipos de

caracteres es diferente• Causas metodológicas.

– Determinación de homologías– Cantidad y calidad de los caracteres.– Codificación de los caracteres.

Particularizando para un caso de estudios taxonómicos, las principales causas son:

En estudios taxonómicos deben seleccionarse caracteres con valor filogenéticoAnálisis de resultados

Causas de las incongruencias clasificatorias.

Page 104: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 104

• Los caracteres que alcanzan la misma expresión para todas la U.B.C. son NO DISCRIMINANTES.

• Los caracteres que alcanzan diferentes expresiones para las diferentes U.B.C. se consideran DISCRIMINANTES.

• Los caracteres que alcanzan la misma expresión para todas las U.B.C. salvo una son ALTAMENTE DISCRIMINANTES.

Análisis de resultados

Caract. morfológicos: Capacidad discriminante.

Page 105: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 105

Sirve para comparar la homogeneidad de resultados entre campañas (años).• Metodología: Comparación matrices de datos para:

– Mismas U.B.C.– Mismos caracteres.

• Interpretación de los resultados (Lapointe & Legendre, 1992) (1).

– Si el coeficiente “r” es superior a 0,5 será estadísticamente significativo al nivel 1%.

(1) Lapointe, F.J., Legendre, P. 1992. Statistical significance of the matrix correlation coefficient for comparing independent phylogenetic trees. Systematic Biology, 41:378-384

ANÁLISIS CONJUNTO DE LA ESTABILIDAD PARA TODOS LOS CARACTERES Y TODAS LAS UBC:

Análisis de resultados

Caract. morfológicos: Estabilidad.

Page 106: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 106

Caracteres doble estado o multiestado cualitativos sin secuencia lógica o desordenados• Tiene el mismo peso la inestabilidad de un año a otro cuando el cambio de nivel es

entre dos niveles contiguos o entre dos niveles no contiguos.• Metodología para el cálculo de la inestabilidad de cada carácter (I)

• Se calcula el % de inestabilidad a un nivel y a varios niveles (I).• I total (%) = [% de diferencias a un nivel + % de diferencias a más de un

nivel]• Clasificación de los caracteres por su estabilidad:

• Estables: I < 10%• Medio estables: 10% < I < 40%• Inestables: I > 40%

EVALUACIÓN DE LA ESTABILIDAD DE LOS DIFERENTES CARACTERES INDIVIDUALMENTE.

Análisis de resultados

Caract. morfológicos: Estabilidad (2).

Page 107: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 107

Caracteres multiestado cualitativos con secuencia lógica• No tiene el mismo peso la inestabilidad de un año a otro cuando el cambio de nivel es

entre dos niveles contiguos o entre dos niveles no contiguos.• Metodología para el cálculo de la inestabilidad de cada carácter (I)

• Se calcula el % de inestabilidad a 1 nivel y se divide por 8.• Se calcula el % de inestabilidad a 2 niveles y se divide por 4.• Se calcula el % de inestabilidad a 3 niveles y se divide por 2.• Se calcula el % de inestabilidad a más de 3 niveles

EVALUACIÓN DE LA ESTABILIDAD DE LOS DIFERENTES CARACTERES INDIVIDUALMENTE (2).

• Clasificación de los caracteres por su estabilidad• Estables: I < 5%• Medio estables: 5% < I < 10%• Inestables: I > 10%

nivelesdemásadifnivelesadifnivelesadifniveladiftotalI 3.%23.%

42.%

81.%(%)

Análisis de resultados

Caract. morfológicos: Estabilidad (3).

Page 108: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 108

• Metodología.• Tres observadores describen los caracteres.• Se calcula el porcentaje de discrepancias a un nivel y a varios niveles (D) para

cada uno de los años.• D total (%).

• Clasificación de los caracteres por su objetividad:• Objetivos: D < 10%.• Objetividad media: D < 10% un año, D > 10% otro.• Subjetivos: D > 10%.

Caracteres doble estado o multiestado cualitativos sin secuencia lógica o desordenados.

Análisis de resultados

Caract. morfológicos: Objetividad.

Page 109: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 109

• Metodología• Tres observadores describen los caracteres, y para cada carácter se establecen

cuatro niveles de objetividad:• PRIMER NIVEL: Coincidencia al 100%. Los tres observadores califican con el

mismo nivel de expresión un determinado carácter.• SEGUNDO NIVEL: Discrepancia al 10% entre operadores (un nivel de expresión

sobre 10 posibles)• TERCER NIVEL: Discrepancia entre el 10% y el 30% (entre 1 y 3 niveles).• CUARTO NIVEL: Discrepancia superior al 30% (más de 3 niveles).

Caracteres multiestado cualitativos con secuencia lógica.

Análisis de resultados

Caract. morfológicos: Objetividad (2).

Page 110: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 110

• Clasificación de los caracteres por su objetividad:• Objetivos: Porcentaje objetividad de primer y segundo nivel es superior al

90%• De objetividad media: Uno de los años el porcentaje de objetividad de primer

y segundo nivel es superior al 90% y el otro menor.• Subjetivos: El porcentaje de objetividad de primer y segundo nivel es inferior

al 90%.

Caracteres multiestado cualitativos con secuencia lógica (2).

Análisis de resultados

Caract. morfológicos: Objetividad (3).

Page 111: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 111

• Analizando los valores de los eigen-vectores sobre los tres primeros componentes principales en el estudio de ANÁLISIS DE COMPONENTES PRINCIPALES.

Análisis de resultados

Caract. morfométricos: Capacidad discriminante.

Page 112: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 112

Sirve para comparar la homogeneidad de los caracteres entre campañas (años).

• Metodología: Comparación matrices de datos para:– Mismas U.B.C.– Mismos caracteres.

• Interpretación de los resultados (Lapointe & Legendre, 1992) (1).

– Si el coeficiente “r” es superior a 0,5 será estadísticamente significativo al nivel 1%.

(1) Lapointe, F.J., Legendre, P. 1992. Statistical significance of the matrix correlation coefficient for comparing independent phylogenetic trees. Systematic Biology, 41:378-384

ANÁLISIS CONJUNTO DE LA ESTABILIDAD PARA TODOS LOS CARACTERES:

Análisis de resultados

Caract. morfométricos: Estabilidad.

Page 113: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 113

• Metodología para el cálculo de la inestabilidad de cada carácter: Cálculo de la Variación Media.

EVALUACIÓN DE LA ESTABILIDAD DE LOS DIFERENTES CARACTERES INDIVIDUALMENTE.

100xTotalesSumaslasdeMediaabsolutovalorensdiferenciadeSumaMediaVariación

• Clasificación de los caracteres por su estabilidad:• Estables: Variación media < 5%• Medio estables: 5% < Variación media < 15%• Inestables: Variación media > 15%

Análisis de resultados

Caract. morfométricos: Estabilidad (2).

Page 114: LECCIÓN 2. Análisis Multivariado en el tratamiento de ...fernando.gonzalez.unileon.es/presentaciones_teoria/leccion_2.pdf · Lección 2 4 – Métodos de ordenación. Permiten:

Lección 2 114