Analisis de Conglomerados-practica10

11

Click here to load reader

description

Analisis de datos

Transcript of Analisis de Conglomerados-practica10

Page 1: Analisis de Conglomerados-practica10

Práctica 10. Análisis de conglomerados 1

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 10

ANÁLISIS DE CONGLOMERADOS

Objetivos:

En esta práctica utilizaremos el paquete SPSS para introducir la técnica de AnálisisMultivariante conocida como Análisis de Conglomerados. Describiremos los métodosjerárquicos y no jerárquicos y los aplicaremos a ejemplos de problemas multivariantes.

Índice:

1. Análisis de conglomerados jerárquico.2. Análisis de conglomerados no jerárquico3. Ejercicios complementarios

Page 2: Analisis de Conglomerados-practica10

Práctica 10. Análisis de conglomerados 2

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

1. Análisis de conglomerados jerárquico

En los métodos de análisis de conglomerados jerárquicos se realiza un proceso deagrupación de las observaciones en el que en cada paso se agrupan dos conglomeradospara formar uno conjunto. El proceso comienza considerando tantos conglomeradoscomo observaciones y acaba con la formación de un único conglomerado que lascontenga todas. Existen diversos métodos jerárquicos, dependiendo del criterio deagrupación: Método de los centroides, método del vecino más próximo (single linkage),método del vecino más lejano (complete linkage), método de la distancia media(average linkage between groups) y método de Ward.

Ejercicio 1:

Realizar un análisis de conglomerados jerárquico sobre los 7 individuos cuyas medidas, denotadas por x,y aparecen en la tabla. Utilizar la distancia euclídea y el método de los centroides. Dibujar el dendogramay comentarlo.

1 2 3 4 5 6 7 x 0.0 1.0 2.0 2.4 3.0 4.0 5.1y 2.0 2.0 0.0 2.0 0.0 2.0 2.0

En primer lugar, creamos un fichero de datos, que podemos llamar CONG1, con tresvariables: variable SUJETO, que es una variable tipo Cadena para etiquetar los sujetosobservados de S1 a S7, variable X y variable Y.

En el menú principal seleccionamos Analizar /Clasificar/Conglomerados jerárquicosy aparece la ventana de selección de las variables y el método a utilizar. Elegimos X,Y como variables de para la agrupación y SUJETO para las etiquetas.

Page 3: Analisis de Conglomerados-practica10

Práctica 10. Análisis de conglomerados 3

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Al pulsar sobre la opción Método, aparece la ventana de selección del método a utilizar:

En la misma ventana podemos elegir el tipo de distancia a utilizar:

En la parte inferior de esta misma ventana aparecen opciones para transformar oestandarizar las observaciones, si fuera necesario.

Antes de realizar el análisis de conglomerados con el método y la distancia elegidos,podemos indicar el tipo de Estadísticos y Gráficas que deseamos obtener. Pulsando enla opción Estadísticos de la ventana principal, obtenemos la correspondiente ventana deselección.

Page 4: Analisis de Conglomerados-practica10

Práctica 10. Análisis de conglomerados 4

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Elegimos: Historial de conglomeración, Matriz de distancias y Conglomerado depertenencia, con un rango de soluciones que ha de estar entre 2 y 6 (en general entre unmínimo de 2 y un máximo de n-1).

De forma similar, si pulsamos la opción Gráficos, obtenemos la ventana de selección degráficos, en la que marcamos Dendograma y Diagrama de Témpanos de todos losconglomerados en posición vertical.

Volvemos a la ventana principal y pulsamos Aceptar. SPSS realiza el análisisjerárquico y muestra los resultados. En primer lugar aparece la Matriz de Distancias (ennuestro caso, la matriz de distancias euclídeas al cuadrado):

Matriz de distancias

Caso 1:S1 2:S2 3:S3 4:S4 5:S5 6:S6 7:S7

1:S1 1,000 8,000 5,760 13,000 16,000 26,010

2:S2 1,000 5,000 1,960 8,000 9,000 16,810

3:S3 8,000 5,000 4,160 1,000 8,000 13,610

4:S4 5,760 1,960 4,160 4,360 2,560 7,290

5:S5 13,000 8,000 1,000 4,360 5,000 8,410

6:S6 16,000 9,000 8,000 2,560 5,000 1,210

7:S7 26,010 16,810 13,610 7,290 8,410 1,210

A continuación aparece el Historial de Conglomeración, en el que, para cada etapa, lascolumnas de Conglomerado que se combina indican dos elementos de losconglomerados que se unen. La columna Coeficiente presenta el valor que se ha usadopara decidir los conglomerados que se unen, calculado por el método elegido. En estecaso, la distancia euclídea al cuadrado entre los centroides. Valores pequeños delcoeficiente indican que los dos conglomerados que se juntan son bastante homogéneosy tiene sentido juntarlos. Valores altos del coeficiente indican que el nuevoconglomerado es bastante heterogéneo y quizá no debería construirse.

Historial de conglomeraciónConglomerado que se

combinaCoeficientes Etapa en la que el conglomerado

aparece por primera vezPróxi

maetapa

Etapa Conglomerado 1

Conglomerado 2

Conglomerado1

Conglomerado2

1 3 5 1,000 0 0 52 1 2 1,000 0 0 43 6 7 1,210 0 0 64 1 4 3,610 2 0 55 1 3 5,868 4 1 66 1 6 8,877 5 3 0

Page 5: Analisis de Conglomerados-practica10

Práctica 10. Análisis de conglomerados 5

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Seguidamente aparece el Conglomerado de pertenencia, que muestra, para cada sujetoobservado, a qué conglomerado pertenecería en el caso de existir el número deconglomerados indicado en cada columna (desde 6 hasta 2, ya que 7 conglomeradosindicaría que cada sujeto está en un conglomerado individual y 1 conglomerado loscontendría a todos).

Conglomerado de pertenencia

Caso

6

conglomerados

5

conglomerados

4

conglomerados

3

conglomerados

2

conglomerados

1: S1 1 1 1 1 1

2: S2 2 1 1 1 1

3: S3 3 2 2 2 1

4: S4 4 3 3 1 1

5: S5 3 2 2 2 1

6: S6 5 4 4 3 2

7: S7 6 5 4 3 2

Después aparece el Diagrama de Témpanos, que muestra el proceso de conglomeracióncomo si fueran témpanos verticales de hielo que en su parte inferior están separados,pero en su parte superior aparecen unidos unos a otros. El diagrama se mira por filas. Encada fila los sujetos unidos por X pertenecen al mismo conglomerado. Por ejemplo, simiramos la última fila, correspondiente a 6 conglomerados, vemos que lasobservaciones S7, S6, S4, S2 y S1 permanecen aisladas, formando cada una unconglomerado, mientras que S5 y S3 se han unido formando el sexto conglomerado.

Diagrama de témpanos vertical:Número de

conglomerados7 6 5 3 4 2 1

1 X X X X X X X X X X X X X2 X X X X X X X X X X X X3 X X X X X X X X X X X4 X X X X X X X X X X5 X X X X X X X X X6 X X X X X X X X

Page 6: Analisis de Conglomerados-practica10

Práctica 10. Análisis de conglomerados 6

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Finalmente, aparece el Dendograma en que se observa el proceso de agrupación de lasobservaciones y los conglomerados, que van uniéndose por líneas. La escala horizontalmuestra la distancia euclídea entre los centroides de los conglomerados que se unen, enuna escala de 0 a 25. Si la distancia es pequeña, tiene sentido unir los dosconglomerados en uno nuevo. Si la distancia es grande, el nuevo conglomerado esheterogéneo y quizá no debería formarse.

Ejercicio 2:

Para el conjunto de datos del Ejercicio 1, realizar un análisis de conglomeradosjerárquico utilizando el método del vecino más próximo y comparar el dendogramaresultante con el obtenido en el Ejercicio 1.

Page 7: Analisis de Conglomerados-practica10

Práctica 10. Análisis de conglomerados 7

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

2. Análisis de conglomerados no jerárquico

En los métodos de análisis de conglomerados no jerárquicos se realiza un proceso deagrupación de las observaciones para formar un número de conglomerados, k, fijadopreviamente. Los k conglomerados comienzan definiéndose a partir de unos centrosiniciales. Las restantes observaciones se asignan al conglomerado cuyo centro esté máspróximo. La asignación produce un cambio en los centros de los conglomerados. Apartir de esta asignación inicial, comienza un proceso iterativo de reasignaciones en elque una observación puede cambiar de conglomerado si existe otro centro más próximoque el del conglomerado anteriormente asignado. El proceso termina cuando no haycambio en los centros o el cambio es menor de un valor de parada fijado.

Ejercicio 3:

Realizar un análisis de conglomerados no jerárquico sobre los 7 individuos del Ejercicio1, construyendo 3 conglomerados

En el menú principal seleccionamos Analizar/Clasificar/Conglomerados de K mediasy aparece la ventana de selección de las variables y el método a utilizar. Elegimos X,Y como variables para la agrupación y SUJETO para las etiquetas. Fijamos el númerode conglomerados en 3 y elegimos la opción de Iterar y Clasificar.Pulsando la opción Centros >> se pueden leer de un fichero los centros iniciales.Pulsando la opción Iterar, se puede fijar el número máximo de iteraciones (por defecto,10) y el mínimo cambio en los centros para seguir iterando (por defecto está fijado en 0,lo que indica que sólo parará cuando no haya ningún cambio en los centros).Pulsando Opciones>>Estadísticos, se puede pedir, junto con los Centros deconglomerados iniciales, la Información del conglomerado en cada caso.

Al pulsar Aceptar, SPSS realiza el proceso de conglomeración y muestra los resultados.En primer lugar, aparecen los centros iniciales, que en nuestro caso corresponden a lasobservaciones S1, S7 y S5.

Page 8: Analisis de Conglomerados-practica10

Práctica 10. Análisis de conglomerados 8

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Centros iniciales de los conglomerados

Conglomerado1 2 3

X ,0 5,1 3,0Y 2,0 2,0 ,0

A continuación aparece el historial de iteraciones mostrando, para cada iteración, elcambio producido en los centros. En nuestro caso, el proceso acaba cuando no seproduce ningún cambio en los centros.

Historial de iteraciones

Cambios en los centros de los

conglomerados

Iteración 1 2 3

1 .500 .550 .854

2 .000 .000 .000

a Convergencia alcanzada debido a un cambio en la distancia nulo o pequeño. La distanciamáxima en la que ha cambiado cada centro es ,000. La iteración actual es 2. La distanciamínima entre los centros iniciales es 2,900.

Después aparece información sobre la pertenencia de cada sujeto observado a losconglomerados finales. La columna Distancia muestra la distancia euclídea de cadaobservación al centro de su conglomerado correspondiente.

Pertenencia a los conglomerados

Número de caso SUJETO Conglomerado Distancia1 S1 1 ,5002 S2 1 ,5003 S3 3 ,8144 S4 3 1,3355 S5 3 ,8546 S6 2 ,5507 S7 2 ,550

Finalmente, aparecen los Centros de los conglomerados finales (redondeados a unacifra decimal, tal como están los datos), las Distancias entre los centros de losconglomerados y el Número de casos en cada conglomerado.

Page 9: Analisis de Conglomerados-practica10

Práctica 10. Análisis de conglomerados 9

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

3. Ejercicios complementarios

1.- Efectuar una clasificación en cuatro grupos, según sus nutrientes, de los alimentosque se encuentran en la tabla siguiente:(Los datos se encuentran en el fichero ALIMENTOS).

Calorías Proteínas Grasa Calcio HierroHamburguesa (HA) 245 21 17 9 2.7Rostbif (RB) 420 15 39 7 2.0Filete de ternera (FT) 372 19 32 9 2.6Pollo asado (PA) 115 20 3 8 1.4Pierna de cordero (PC) 265 20 20 9 2.6Jamón ahumado (JA) 340 20 28 9 2.5Asado de cerdo (AC) 340 19 29 9 2.5Lengua de vaca (LV) 202 18 14 7 2.5Almejas frescas (AF) 70 11 1 80 6.0Cangrejo en lata (CL) 80 14 2 38 0.8Merluza frita (MF) 135 16 5 15 0.5Caballa fresca (CF) 200 19 13 5 1.0Perca frita (PF) 195 16 11 14 1.3Salmón enlatado (SE) 120 17 5 159 0.7Sardinas en lata (SL) 180 22 9 367 2.5Gambas GA) 110 23 1 98 2.6

2.- Efectuar una clasificación de los países europeos de acuerdo con el resultado de laencuesta siguiente, en la que se recoge el porcentaje de hogares en cada país que teníanel correspondiente tipo de alimento en el momento de realizar la encuesta. Los datos seencuentran en el fichero HOGARES.

AL IT FR HO BE LX GB SU SW DK ESCafé (grano) 90 82 88 96 94 97 27 73 97 96 70Café (inst). 45 10 42 62 38 61 86 72 13 17 40Té 88 60 63 98 48 86 99 85 93 92 40Sacarina 19 2 4 32 11 28 22 25 31 35 0Galletas 57 55 76 62 74 79 91 31 0 66 62Sopa (sobre) 51 41 53 67 37 73 55 69 43 32 43Sopa (lata) 19 3 11 43 25 12 76 10 43 17 2Puré patata 21 2 23 7 9 7 17 17 39 11 14Pescado 27 4 11 14 13 26 20 19 54 51 23Verduras 21 2 5 14 12 23 24 15 45 42 7Manzanas 81 67 87 83 76 85 76 79 56 81 59Naranjas 75 71 84 89 76 94 68 70 78 72 77Jamón 71 46 45 81 57 20 91 61 75 64 38Ajos 22 80 88 15 29 91 11 64 9 11 86Mantequilla 91 66 94 31 84 94 95 82 68 92 44Margarina 85 24 47 97 80 94 94 48 32 91 51Aceite 74 94 36 13 83 84 57 61 48 30 91Yogur 30 5 57 53 20 31 11 48 2 11 16

Page 10: Analisis de Conglomerados-practica10

Práctica 10. Análisis de conglomerados 10

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

3.- Utilizando los distintos métodos jerárquicos y fijando un número de (i) tres grupos,(ii) cinco grupos, realizar un análisis de conglomerados para los datos de los perfileslaborales de los países europeos presentados en la tabla siguiente(AGR = Agricultura, MIN = Minería, IND = Industria, ENE = Energía, CON =Construcción, SER = Servicios, FIN = Finanzas, SOC =Trabajos sociales,TC=Transporte y comunicaciones):(Los datos se encuentran en el fichero EMPLEO).

AGR MIN IND ENE CON SER FIN SOC TCBélgica 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2Dinamarca 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1Francia 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7Alemania 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1Irlanda 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1Italia 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7Luxemburgo 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2Holanda 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8Reino Unido 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4Austria 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0Finlandia 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6Grecia 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7Noruega 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4Portugal 27.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.7España 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5Suecia 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8Suiza 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7Turquía 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2Bulgaria 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7Checoslovaquia 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0Hungría 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0Polonia 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9Rumania 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0Yugoslavia 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0Rusia 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3

En el estudio se planteó si sería posible discriminar entre grupos en base a los patronesde empleo. Concretamente, en el momento del estudio se consideraron los siguientesgrupos: (1) Países pertenecientes, en aquel momento a la Comunidad EconómicaEuropea: Bélgica, Dinamarca, Francia, Alemania, Irlanda, Italia, Luxemburgo, Holanday Reino Unido. (2) Países del occidente europeo no pertenecientes, en aquel momento, ala Comunidad Económica Europea: Austria, Finlandia, Grecia, Noruega, Portugal,España, Suecia, Suiza y Turquía. (3) Países de la Europa del este: Bulgaria,Checoslovaquia, Hungría, Polonia, Rumania, Rusia y Yugoslavia. Compara estosgrupos con los obtenidos en el análisis de conglomerados.

Page 11: Analisis de Conglomerados-practica10

Práctica 10. Análisis de conglomerados 11

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

4.- La tabla adjunta muestra seis medidas de cada una de 25 vasijas de barro halladas enuna excavación arqueológica en Tailandia.(Los datos se encuentran en el fichero VASIJAS).

Vasija X1 X2 X3 X4 X5 X6

1 13 21 23 14 7 82 14 14 24 19 5 93 19 23 24 20 6 124 17 18 16 16 11 85 19 20 16 16 10 76 12 20 24 17 6 97 12 19 22 16 6 108 12 22 25 15 7 79 11 15 17 11 6 510 11 13 14 11 7 411 12 20 25 18 5 1212 13 21 23 15 9 813 12 15 19 12 5 614 13 22 26 17 7 1015 14 22 26 15 7 916 14 19 20 17 5 1017 15 16 15 15 9 718 19 21 20 16 9 1019 12 20 26 16 7 1020 17 20 27 18 6 1421 13 20 27 17 6 922 9 9 10 7 4 323 8 8 7 5 2 224 9 9 8 4 2 225 12 19 27 18 5 12

Interesa agrupar las vasijas por su forma, más que por su tamaño. Se considera que dosvasijas que tienen casi la misma forma son similares, aunque su tamaño sea muydistinto Una manera simple de eliminar las diferencias en tamaño es dividir cadamedida de las vasijas por una de esas medidas (por ejemplo X6) o por la suma de todasellas. Esta estandarización asegurará que las vasijas con igual forma pero diferentestamaños sean similares.