JUGADORES DE LAS GRANDES LIGAS DE BEISBOL AMERICANO...

20
JUGADORES DE LAS GRANDES LIGAS DE BEISBOL AMERICANO COMO BATEADORES 04/06/2013 Pablo Ernesto Escobar Vera Análisis de Datos

Transcript of JUGADORES DE LAS GRANDES LIGAS DE BEISBOL AMERICANO...

JUGADORES DE LAS GRANDES LIGAS DE

BEISBOL AMERICANO COMO BATEADORES

04/06/2013

Pablo Ernesto

Escobar Vera

Análisis de Datos

1

1. INTRODUCCIÓN.

El béisbol es un deporte de equipo, que se practica en

campo cuadrado de 30 m de lado que a su vez está

dentro de otro con forma de abanico. Consiste en

golpear con un bate una pequeña pelota lanzada con la

mano por un contrario y recorrer el perímetro del

cuadrado pasando por las cuatro esquinas o bases

antes de que el rival recupere la pelota y la envíe a la

base siguiente más próxima al bateador, pudiendo de

esta forma eliminarle. Gana el equipo que más veces

consigue recorrer las cuatro bases, anotar carrera, a lo

largo de las nueve partes de que consta el partido.

El béisbol es un deporte en el que se pueden recoger muchos datos útiles y su análisis e interpretación ayuda a

los equipos en la toma de decisiones.

El objetivo principal de nuestro estudio será agrupar los jugadores con características similares en un

determinado número de clases pudiendo ser útil el resultado obtenido para numerosas cuestiones. Un ejemplo

de estas podría ser:

Un equipo desea fichar a un determinado jugador, valioso tanto por su rendimiento en el campo

como por su proyección mediática. Pero este equipo no dispone del presupuesto necesario para

ficharle. Haciendo uso de los resultados obtenidos puede cambiar sus pretensiones de fichar al

“jugador mediático” por otro de similares características sin tener que desembolsar una gran

cantidad de dinero.

Para conseguir el objetivo planteado haremos uso de herramientas del análisis de datos multivariantes tales

como el análisis de componentes principales, ACP, y la clasificación automática o también llamado análisis

clúster. Todo el proceso se realiza utilizando el paquete estadístico SPAD.

2. DATOS: INDIVIDUOS Y VARIABLES.

Disponemos de ciertos datos que corresponden a jugadores de equipos de béisbol de la Major League Baseball

(MLB) de Estados Unidos, de la temporada 2013, en los que se miden distintas variables relacionadas con el

bateo. El numero jugadores que usaremos va a ser de 319, que son los que han disputado al menos el 50% del

total de partidos que se juegan. No utilizamos los datos de los 1202 jugadores disponibles porque en la mayoría

de ellos, alrededor de 700, todas las variables toman valores iguales a 0 o muy cercanos (por ejemplo, un

jugador que no suele batear porque su especialidad sea otra o un jugador que se lesiona a principio de

temporada y no juega el resto) y esto nos puede distorsionar el análisis. Para cada uno de estos jugadores

disponemos de datos correspondientes a 25 variables que detallamos a continuación:

AB: veces que el jugador sale a batear obviando aquellas en las que se producen bases por bolas o por golpeo

y sacrificios.

R: carreras anotadas.

H: veces que el bateador llega a una base como consecuencia de su bateo (incluye 2B, 3B y HR).

2B: veces que el bateador llega a segunda base como consecuencia de su bateo.

3B: veces que el bateador llega a tercera base como consecuencia de su bateo.

HR: veces que el bateador recorre todas las bases como consecuencia de su bateo.

RBI: carreras impulsadas como consecuencia de su bateo.

BB: veces que el bateador llega a primera base por recibir cuatro bolas.

2

SO: veces que el bateador es eliminado tras recibir los tres strikes.

SB: bases robadas, el corredor consigue llegar a la base siguiente sin que sea consecuencia de ninguna acción

del bateador.

CS: veces que un corredor es cogido robando una base.

AVG: promedio de bateo (H/AB).

OBP: promedio de "embasado" ((H+BB+HBP)/(AB+BB+HDP+SF)), veces que se "embasa" por apariciones al

bate.

SLG: promedio de bases recorridas por cada bateo (TB/AB).

OPS: OBP+SLG.

IBB: bases por bolas intencionadas.

HBP: bases por ser golpeado por el lanzamiento del pitcher.

SAC: sacrificios por toque.

SF: nº de sacrificios de fly.

GDP: veces que tras el bateo del jugador se elimina a este y a otro jugador que estuviera en una base.

GO: veces que el bateador es eliminado tras botar pelota en el suelo al menos una vez.

AO: veces que el bateador es eliminado sin tocar la pelota en el suelo.

GO_AO: ratio (GO/AO).

NP: lanzamientos que le envían al bateador durante sus apariciones al bate.

PA: veces que un jugador sale a batear incluyendo bases por bolas o por golpeo y sacrificios.

Veamos a continuación los estadísticos descriptivos de las 25 variables disponibles:

Variable Media Desviación Típica Mínimo Máximo

AB 419,448 131,194 128,000 667,000

R 53,332 22,663 6,000 126,000

H 110,138 41,360 23,000 199,000

dosB 21,768 9,648 0,000 55,000

tresB 3,003 2,127 1,000 12,000

HR 12,567 8,650 0,000 53,000

RBI 51,110 24,707 7,000 138,000

BB 38,492 19,880 4,000 135,000

SO 87,069 35,511 17,000 212,000

SB 7,229 9,686 0,000 52,000

CS 3,611 2,958 1,000 16,000

AVG 0,258 0,032 0,179 0,348

OBP 0,323 0,036 0,227 0,442

SLG 0,405 0,068 0,226 0,638

OPS 0,728 0,097 0,479 1,078

IBB 3,815 3,384 1,000 28,000

HBP 4,966 3,555 1,000 27,000

SAC 2,931 2,704 1,000 17,000

SF 4,288 2,275 1,000 13,000

GDP 9,584 5,495 1,000 31,000

GO 124,398 47,198 28,000 272,000

AO 112,596 40,220 21,000 216,000

GO_AO 1,147 0,344 0,460 2,600

NP 1799,390 573,835 486,000 3033,000

PA 467,194 146,415 136,000 726,000

Tabla 1. Estadísticos descriptivos de las variables.

Vemos en la Tabla 1 como tanto las medias como las desviaciones típicas de las 25 variables oscilan entre valores

bastante distintos. La medias varían entre 0.258 y 1799.390 correspondientes a las variables AVG (promedio de

bateo) y NP (lanzamientos que recibe el bateador en sus apariciones al bate) respectivamente, mientras que las

desviaciones típicas lo hacen entre 0.032 y 573.835 correspondientes a las mismas variables. Esta

3

heterogeneidad de las medias y de las desviaciones típicas nos condicionara el tipo de análisis factorial que

realizaremos más adelante.

3. ANALISIS DE COMPONENTES PRINCIPALES.

Vamos a realizar un análisis de componentes principales. Elegimos aplicar ACP normado ya que como vimos

antes las desviaciones típicas de las variables eran muy diferentes y además no encontramos ninguna razón que

nos lleve a no aplicarlo. De esta forma daremos la misma importancia a cada una de las 25 variables. SPAD

realiza el análisis de componentes principales en un procedimiento.

Valores propios.

Los valores propios de la matriz XtX nos informan de las

inercias que recogen cada uno de los 25 ejes factoriales

definidos por los vectores propios de la misma matriz. Las

inercias nos indican cuan bien están representados los

puntos originales en cada uno de los ejes.

En la Tabla 2 podemos ver como la mejor recta, definida por

el primer eje factorial, recoge casi la mitad de la

información con un 46.27%, el mejor plano, formado por los

dos primeros ejes factoriales, recoge un 60.31% de

información, mientras que el mejor espacio de dimensión 3,

formado por los tres primeros ejes factoriales, recoge un

69.19% de la información.

Como estamos realizando un ACP normado y por lo tanto

el promedio de inercia recogida por eje es de 1 resulta útil

seleccionar los ejes del 1 al 5 dado que en estos sus

autovalores superan dicho promedio.

También resulta destacable el hecho de que los tres últimos

ejes no aportan información alguna.

Matriz de correlaciones.

Ahora veamos la matriz de correlaciones, dividida en tres tablas, en la que podremos identificar aquellos pares

de variables que presenten una mayor asociación:

AB R H dosB tresB HR RBI BB SO SB CS AVG

AB 1

R 0,88 1

H 0,96 0,9 1

dosB 0,83 0,82 0,86 1

tresB 0,36 0,4 0,37 0,26 1

HR 0,58 0,67 0,56 0,54 0,01 1

RBI 0,78 0,8 0,8 0,74 0,12 0,86 1

BB 0,61 0,72 0,6 0,58 0,13 0,61 0,64 1

SO 0,59 0,59 0,48 0,52 0,19 0,69 0,62 0,58 1

SB 0,32 0,39 0,33 0,19 0,61 -0,04 0,05 0,12 0,14 1

CS 0,33 0,34 0,32 0,22 0,51 -0,08 0 0,13 0,13 0,74 1

AVG 0,44 0,56 0,67 0,55 0,26 0,28 0,48 0,27 0,01 0,22 0,16 1

Tabla 3.1. Matriz de correlaciones entre variables 1.

Numero Valor propio Porcentaje Porcentaje Acumulado

1 11,5664 46,27 46,27

2 3,5104 14,04 60,31

3 2,2199 8,88 69,19

4 1,5904 6,36 75,55

5 1,1291 4,52 80,06

6 0,9255 3,70 83,77

7 0,7737 3,09 86,86

8 0,5950 2,38 89,24

9 0,5278 2,11 91,35

10 0,4820 1,93 93,28

11 0,4683 1,87 95,15

12 0,3275 1,31 96,46

13 0,2382 0,95 97,42

14 0,2309 0,92 98,34

15 0,1657 0,66 99,00

16 0,0818 0,33 99,33

17 0,0729 0,29 99,62

18 0,0358 0,14 99,76

19 0,0239 0,10 99,86

20 0,0168 0,07 99,93

21 0,0109 0,04 99,97

22 0,0071 0,03 100,00

23 0,0000 0,00 100,00

24 0,0000 0,00 100,00

25 0,0000 0,00 100,00

Tabla 3. Valores propios.

4

AB R H dosB tresB HR RBI BB SO SB CS AVG

OBP 0,35 0,58 0,54 0,49 0,16 0,41 0,49 0,67 0,18 0,13 0,09 0,79

SLG 0,42 0,62 0,55 0,59 0,14 0,8 0,74 0,47 0,43 0,02 -0,04 0,68

OPS 0,43 0,66 0,59 0,6 0,16 0,71 0,7 0,58 0,37 0,07 0 0,77

IBB 0,37 0,41 0,42 0,39 -0,03 0,5 0,53 0,57 0,29 -0,05 -0,08 0,31

HBP 0,25 0,34 0,26 0,24 0,14 0,21 0,22 0,27 0,24 0,15 0,22 0,17

SAC 0,04 0 0,02 -0,09 0,32 -0,43 -0,27 -0,21 -0,21 0,38 0,42 -0,02

SF 0,48 0,45 0,48 0,42 0,07 0,31 0,53 0,34 0,21 0,03 0 0,27

GDP 0,62 0,45 0,62 0,5 0,03 0,33 0,55 0,35 0,19 0,01 0,01 0,32

GO 0,86 0,67 0,83 0,64 0,35 0,24 0,52 0,38 0,22 0,36 0,4 0,41

AO 0,87 0,71 0,8 0,71 0,22 0,46 0,66 0,48 0,32 0,18 0,19 0,3

GO_AO -0,01 -0,04 0,05 -0,08 0,18 -0,28 -0,17 -0,1 -0,14 0,25 0,27 0,16

NP 0,96 0,9 0,91 0,82 0,33 0,64 0,79 0,78 0,68 0,29 0,3 0,39

PA 0,99 0,9 0,95 0,84 0,35 0,6 0,79 0,69 0,62 0,31 0,33 0,43

Tabla 3.2. Matriz de correlaciones entre variables 2.

OBP SLG OPS IBB HBP SAC SF GDP GO AO GO_AO NP PA

OBP 1

SLG 0,7 1

OPS 0,86 0,96 1

IBB 0,45 0,42 0,46 1

HBP 0,33 0,21 0,27 0,08 1

SAC -0,18 -0,39 -0,34 -0,27 0,09 1

SF 0,21 0,25 0,26 0,23 0,09 -0,03 1

GDP 0,22 0,23 0,24 0,36 0,07 -0,1 0,36 1

GO 0,23 0,15 0,19 0,24 0,16 0,28 0,38 0,71 1

AO 0,2 0,28 0,27 0,28 0,18 0,01 0,55 0,55 0,7 1

GO_AO 0,08 -0,17 -0,09 -0,05 -0,02 0,35 -0,22 0,19 0,37 -0,34 1

NP 0,46 0,47 0,5 0,43 0,3 -0,02 0,48 0,56 0,76 0,81 -0,05 1

PA 0,42 0,44 0,47 0,41 0,29 0,02 0,5 0,61 0,83 0,86 -0,02 0,98 1

Tabla 3.3. Matriz de correlaciones entre variables 3.

En las tablas podemos ver como hay muchas más correlaciones positivas que negativas, en torno al 79% son

positivas frente al 11% que son negativas.

Entre las negativas la más extrema, cuyo valor es de -0.43, corresponde a la correlación entre las variables SAC

(sacrificios por toque) y H (homeruns), lo cual tiene sentido ya que es lógico que un buen bateador que realice

muchos homeruns no sea sacrificado evitando su eliminación. Entre las positivas, la correlación más extrema,

con un valor del 0.99, corresponde a la que hay entre las variables AB (veces que sale a batear obviando bases

por bola o golpeo y sacrificios) y PA (veces que sale a batear), lo cual es razonable ya que la segunda variable es

la suma de la primera más las veces que sale a batear y se produce una base por bola o por golpeo o sacrificio.

Vemos también como no hay ningún tipo de asociación, correlación con valor 0, entre las variables RBI (carreras

impulsadas) y CS (veces cogido robando base), CS y OPS (suma del promedio de embasado y promedio de bases

recorridas por bateo), R (carreras anotadas) y SAC, y finalmente entre CS (veces que es cogido robando base) y

SF (sacrificios por fly).

Además observamos como para las variables SAC y GAO_AO (cociente entre las veces que es eliminado tras

batear con bote de la pelota y veces que es eliminado tras batear sin botar la pelota) la mayoría de las

correlaciones con el resto de variables son negativas.

Puesto que las correlaciones entre las variables normadas son las mismas que entre las variables originales,

mediante el grafico de puntos-variable en el plano 1-2 visualizamos la estructura de correlaciones que

presentamos a continuación:

5

Mostramos además una ampliación de la zona en la que hay una mayor concentración de puntos-variable para

poder ver mejor su distribución en el plano 1-2.

En ambos gráficos podemos ver cómo las variables mejor representadas en el plano 1-2, que son las que más se

acercan a la esfera, son GO, AB, PA, H, NP, R, dosB, RBI, OPS, HR y SLG, mientras que las que peor quedan

representadas son HBP y SE.

Vemos como, con excepción de las variables SAC y GO_AO, todas las variables tienen una correlación positiva

con el eje factorial 1. Esta situación era previsible tras haber visto la matriz de correlaciones en la que como

mencionamos antes SAC y GO_AO tenían correlaciones negativas con casi todas las variables.

Atendiendo a la calidad de la representación y a la dirección de cada uno de los puntos-variable, podemos ver

como existe una correlación positiva alta entre las variables pertenecientes, a un primer grupo formado por las

variables AB, PA, H, NP, R y dosB, y un segundo grupo formado por las variables OPS, HR y SLG.

Identificamos también aquellos grupos de variables entre los que prácticamente hay ausencia de asociación,

aquellos que forman un ángulo recto o casi recto en los gráficos. Se da esta situación entre el grupo formado por

CS, SB y tresB, y el grupo OPS, HR y SLG, también entre el grupo formado por BB, RBI y OBP y el grupo formado

por CS, SB y tresB, y finalmente entre el grupo formado por AB, PA, AO, H, NP, R y dosB, y la variable SAC.

Interpretación de las componentes principales.

Interpretamos los dos primeros ejes factoriales que son los que más información recogen y que podemos

visualizar con mayor facilidad a la hora de realizar gráficos. A continuación presentamos la tabla de coordenadas

de las variables en los ejes factoriales de 1 al 5:

Grafico 1.1. Esfera de correlaciones en el plano 1-2.

AO

Grafico 1.2. Ampliación de la esfera de correlaciones en el plano 1-2.

AO

6

Variable Eje 1 Eje 2 Eje 3 Eje 4 Eje 5 Eje 1 Eje 2 Eje 3 Eje 4 Eje 5

AB 0,93 0,24 0,24 0 -0,01 0,27 0,13 0,16 0 -0,01

R 0,94 0,1 -0,07 0,12 0,03 0,28 0,05 -0,04 0,1 0,03

H 0,95 0,18 0,03 -0,14 0,07 0,28 0,1 0,02 -0,11 0,06

dosB 0,87 0,02 0,05 -0,04 0,09 0,26 0,01 0,03 -0,03 0,08

tresB 0,33 0,55 -0,32 0,27 0,12 0,1 0,29 -0,21 0,21 0,11

HR 0,73 -0,48 0,07 0,25 -0,13 0,21 -0,26 0,04 0,2 -0,12

RBI 0,89 -0,27 0,12 0 -0,01 0,26 -0,15 0,08 0 -0,01

BB 0,75 -0,19 -0,01 0,17 -0,27 0,22 -0,1 0 0,13 -0,25

SO 0,61 -0,14 0,18 0,54 -0,35 0,18 -0,07 0,12 0,43 -0,33

SB 0,28 0,67 -0,35 0,3 0,03 0,08 0,36 -0,23 0,24 0,03

CS 0,26 0,71 -0,28 0,3 -0,02 0,08 0,38 -0,19 0,24 -0,02

AVG 0,61 -0,05 -0,57 -0,41 0,28 0,18 -0,03 -0,38 -0,32 0,26

OBP 0,62 -0,26 -0,61 -0,16 0,02 0,18 -0,14 -0,41 -0,13 0,02

SLG 0,68 -0,5 -0,41 0,05 0,11 0,2 -0,26 -0,27 0,04 0,11

OPS 0,71 -0,45 -0,51 -0,03 0,09 0,21 -0,24 -0,34 -0,02 0,08

IBB 0,52 -0,34 -0,02 -0,16 -0,32 0,15 -0,18 -0,01 -0,13 -0,3

HBP 0,33 0,06 -0,22 0,29 -0,03 0,1 0,03 -0,15 0,23 -0,03

SAC -0,11 0,75 -0,09 -0,04 0,1 -0,03 0,4 -0,06 -0,03 0,1

SF 0,52 -0,03 0,31 -0,13 0,44 0,15 -0,02 0,21 -0,1 0,41

GDP 0,59 0,09 0,31 -0,52 -0,2 0,17 0,05 0,21 -0,42 -0,19

GO 0,72 0,53 0,19 -0,35 -0,1 0,21 0,28 0,13 -0,28 -0,1

AO 0,77 0,17 0,44 -0,02 0,32 0,23 0,09 0,3 -0,02 0,3

GO_AO -0,05 0,48 -0,36 -0,44 -0,56 -0,02 0,25 -0,24 -0,35 -0,53

NP 0,94 0,14 0,19 0,1 -0,09 0,28 0,07 0,13 0,08 -0,08

PA 0,95 0,21 0,22 0,02 -0,04 0,28 0,11 0,14 0,02 -0,04

Coordenadas de las variables en los ejes factoriales. Antiguos ejes unitarios.

Tabla 4. Coordenadas de las variables en los ejes factoriales y antiguos ejes unitarios.

- Eje 1.

La primera componente principal presenta correlaciones positivas (23) y negativas (2) aunque

predominan las positivas medias-altas. Sus valores oscilan entre -0.11 y 0.95.

Podemos interpretar este factor como la cuantificación de la “calidad del jugador como bateador”.

Este primer eje factorial constituye la primera fuente de variabilidad, con 46.27% de la información

total.

- Eje 2.

La segunda componente principal también presenta correlaciones positivas (15) y negativas (10) y

predominan los valores bajos en valor absoluto. Sus valores oscilan entre -0.45 y 0.75.

Esto provoca que efectuar una interpretación del significado del eje factorial 2 resulte algo difícil. No

obstante, al haber tres variables con correlaciones algo más altas y de estas, dos de ellas, SB (bases

robadas) y CS (veces que es cogido robando), nos proporcionan información relevante sobre una

7

característica importante en el béisbol, como es el robado de bases, podremos interpretar parcialmente

este factor como “capacidad del jugador en la acción de robado de base”.

Este segundo eje factorial supone la segunda fuente de variabilidad con un 14.04% de la información

total

Algunas de las conclusiones que podemos extraer en una interpretación conjunta de los dos primeros ejes en el

plano factorial 1-2 son:

Individuos situados a la derecha serán buenos bateadores.

Individuos situados a la izquierda no serán buenos bateadores.

Individuos situados en la parte superior serán buenos robadores de base.

Individuos situados en la parte inferior no serán buenos robadores de bases.

Proyección de los individuos.

Representamos los jugadores, en el plano factorial 1-2 que contiene un 60.31% de la información, de forma que

el tamaño del punto de cada uno aparezca en relación con su contribución relativa (calidad de la

representación). El grafico resultante es el siguiente:

En el grafico podemos ver como la mayoría de los individuos quedan bien representados, es decir su

contribución relativa es alta. También vemos como los que quedan peor representados se agrupan en torno al

origen de coordenadas.

Grafico 2. Representación de los individuos en el plano factorial 1-2.

8

Identificamos tres zonas donde hay una ausencia de puntos notable. Una zona en la esquina superior derecha,

que quiere decir que existe una ausencia de buenos bateadores y a la vez buenos robadores de bases, lo cual

podría tener cierto sentido ya que por lo general los buenos bateadores son jugadores corpulentos lo que les

impide ser jugadores veloces. Otra zona en la esquina superior izquierda, que quiere decir que existe una

ausencia de jugadores que sean muy malos bateadores y a su vez buenos robadores de base, lo cual tiene su

explicación en la existencia de otros grupos de jugadores que desempeñan otras funciones importantes en el

béisbol. Finalmente, una zona en la parte inferior centro-izquierda, que se explica con el hecho de, como es

lógico, la ausencia de malos bateadores y a su vez muy malos robadores de base.

Destacamos a M. Trout y P. Goldschmidt como los mejores bateadores; a E. Andrus y E. Young Jr. como los

mejores robadores de base; a L. Nix, M. Kotsay y C. Tracy como los peores bateadores, y esto es porque los dos

primeros son outfielders y el ultimo third baseman, que son funciones defensivas, importantes cuando batea el

equipo contrario; y como peores robadores de base M. Cabrera, C. Davis y D. Ortiz pero que resultan ser buenos

bateadores.

4. CLASIFICACIÓN AUTOMÁTICA

Finalizado el análisis de componentes principales, nos planteamos realizar una clasificación automática de los

individuos. En ella intentaremos conseguir agrupar individuos los más parecidos posible en una misma clase y

clases lo más diferenciadas posible.

La clasificación automática la realizaremos, en primer lugar aplicando un método jerárquico, en el que se

utilizara el criterio de la inercia WARD como medida de proximidad entre clases y todas las variables artificiales

resultantes del análisis de componentes principales hecho anteriormente, y en segundo lugar se aplicara la

estabilización por centros móviles a las clases resultantes consiguiendo de esta forma mejorar las particiones.

Dendograma y corte del mismo.

En un primer procedimiento SPAD nos presenta el dendograma, que es la representación de la ejecución del

método jerárquico donde se observa que clases se juntan en cada paso. Este nos sirve para tomar la decisión de

donde realizar un corte apropiado, de esta forma definiremos las clases en las que se dividirán los individuos.

Este corte debe realizarse entre dos vértices de altura sensiblemente diferente, de forma que se asegure una

diferencia importante entre el índice de agregación de las dos clases juntadas/separadas en el último paso y el

de las dos clases a juntar/separar en el siguiente paso. También hay que tener en cuenta la naturaleza de los

datos a la hora de realizar el corte y analizar cuantas clases resulta interesante obtener.

A continuación presentamos el dendograma para nuestro conjunto de datos con los posibles cortes más

razonables:

Grafico 3.1. Dendograma.

9

Establecemos los cortes más razonables en 4,

5 y 6 clases atendiendo a los criterios

mencionados antes. Menos clases resulta ser

poco útil ya que en una misma clase podría

haber individuos bastante diferentes.

Tampoco consideramos más clases, ya que

podría resultar menos interesante

atendiendo al significado de las variables. Por

lo tanto cualquiera de estos tres cortes

podría ser perfectamente válido. Otro grafico

que nos puede ayudar a decidir dónde cortar

es el de índices de agregación. Vemos en este

como efectivamente los cortes en 4, 5 y 6

clases son los más apropiados considerando los de menor número de clases insuficientes.

Por lo tanto como tenemos que decantarnos por uno de ellos lo hacemos por el corte en 5 clases al ser un punto

medio entre las 3 opciones.

Estabilización por centros móviles.

Una vez seleccionado el número de clases en el que se desea realizar la clasificación, en un segundo

procedimiento SPAD realiza la misma y aplica el algoritmo de estabilización por centros móviles.

El algoritmo pretende reducir la inercia intraclase (simultáneamente aumentar la interclases) en cada iteración

hasta que se estabilice, es decir, varié muy poco.

A continuación mostramos en una tabla la variación de las inercias según ha ido avanzando el algoritmo:

Iteración Inercia Total Inercia Interclase Inter/Intra

0 24,99999 11,65900 0,46636

1 24,99999 12,35801 0,49432

2 24,99999 12,40161 0,49606

3 24,99999 12,40576 0,49623

4 24,99999 12,41101 0,49644

Tabla 5.1. Inercias en las iteraciones de centros móviles.

A partir de la iteración 4, la inercia interclases se estabiliza, creciendo la misma únicamente un 0.042% respecto

de la iteración anterior.

En la tabla siguiente veremos cómo afecta el proceso de estabilización por centros móviles a las inercias

intraclase, al número de individuos que tiene cada una, a la inercia por individuo dentro de cada clase y a la

distancia al origen de los centros de cada clase:

Inercias Individuos Intraclases / Nº individuos

Distancias

Antes Después Antes Después Antes Después

Antes Después

Interclases 11.6590 12.4110

Clase 1 4.7868 3.6126 99 82 0.0484 0.0441

10.6424 10.9627

Clase 2 0.5340 0.8684 8 14 0.0668 0.0620

70.7082 55.4738

Clase 3 1.9142 2.3173 27 40 0.0709 0.0579

19.0816 16.0825

Clase 4 3.6767 3.4060 108 102 0.0340 0.0334

1.6716 1.5396

Clase 5 2.4293 2.3847 77 81 0.0315 0.0294

18.2366 18.3111

Total 25.0000 25.0000

Inter/Intra 0.4664 0.4964

Tabla 5.2. Inercias, nº de individuos, distancias al origen de los centros de gravedad e inercia por individuo dentro de cada clase, antes y después de la estabilización

Grafico 3.2. Índices de agregación.

10

Vemos como, tras la estabilización, el descenso de las inercias de las clases 1 y 4 se compensan con el

crecimiento de las inercias del resto de clases. Lo mismo ocurre con el número de individuos de las clases 1 y 4,

su disminución se compensa con el aumento de las demás clases. También vemos como la clase 5 es la que tiene

menor inercia por individuo tanto antes como después de la estabilización.

Las clases que menos y más inercia tienen son la 2 y la 1. En términos relativos vemos como la clase 5 es la que

tiene menor inercia por individuo y la 2 la que más, tanto antes como después de la estabilización. Igualmente,

tanto antes como después de la estabilización, el centro de gravedad más cercano al origen corresponde a la

clase 4 mientras que el más alejado corresponde a la clase 2.

La estabilización por centros móviles ha resultado eficaz, ya que nos ha mejorado la calidad de la partición en un

6.45%.

Composición de las clases.

- Clase 1.

La clase 1 está formada por 82 jugadores, un 25.71% del total, y tiene una inercia intraclase de 3.6126 y

una distancia de su centro de gravedad al origen de 10.9627. Los individuos que la forman son:

Butler_B Fielder_P Pence_H Murphy_D Jones_A

Markakis_N Pedroia_D Rizzo_A Seager_K Hardy_J

Hosmer_E Martinez_V Trumbo_M Desmond_I Donaldson_J

Loney_J Carpenter_M Gonzalez_A Zobrist_B Gordon_A

Morales_K Prado_M Lowrie_J Santana_C Alvarez_P

Dominguez_M LaRoche_A Morneau_J Brantley_M Hamilton_J

Phillips_B Soriano_A Belt_B Frazier_T Dunn_A

Kipnis_J Upton_J Carter_C Posey_B Wieters_M

Byrd_M Dozier_B Lucroy_J Young_M Zimmerman_R

Beltran_C Moss_B Swisher_N Hunter_T Lind_A

Ethier_A Johnson_C Headley_C Holliday_M Sandoval_P

Brown_D Napoli_M Freese_D Perez_S Schierholtz_N

Cabrera_A Molina_Y Cespedes_Y Craig_A Nava_D

Pierzynski_A Walker_N Crisp_C Utley_C Cuddyer_M

Werth_J Tulowitzki_T Drew_S Kendrick_H Castro_J

Bautista_J Harper_B Stanton_G Mauer_J Wright_D

Gonzalez_C Puig_Y

- Clase 2.

La clase 2 está formada por 14 jugadores, un 4.39% del total, y tiene una inercia intraclase de 0.8684 y

una distancia de su centro de gravedad al origen de 55.4738. Los individuos que la forman son:

Votto_J Beltre_A Bruce_J Cano_R Davis_C

Goldschmidt_P Longoria_E McCutchen_A Trout_M Choo_S

Cabrera_M Freeman_F Encarnacion_E Ortiz_D

- Clase 3.

La clase 3 está formada por 40 jugadores, un 12.54% del total, y tiene una inercia intraclase de 2.3173 y

una distancia de su centro de gravedad al origen de 16.0825. Los individuos que la forman son:

Castro_S Rollins_J Escobar_A Ramirez_A Jay_J

Simmons_A Andrus_E Machado_M Parra_G Rios_A

11

Aoki_N De.Aza_A Escobar_Y Span_D Altuve_J

Cozart_Z Venable_W Suzuki_I Hechavarria_A Young.Jr_E

Gomez_C Martin_L McLouth_N Segura_J Gardner_B

Blanco_G Jennings_D Aybar_E Bonifacio_E Kinsler_I

Marte_S Ellsbury_J Bourn_M Jackson_A Shuck_J

Scutaro_M Victorino_S Fowler_D LeMahieu_D Cabrera_E

- Clase 4.

La clase 4 está formada por 102 jugadores, un 31.97% del total, y tiene una inercia intraclase de 3.4060

y una distancia de su centro de gravedad al origen de 1.5396. Los individuos que la forman son:

Crawford_B Moreland_M Stubbs_D Denorfia_C Jones_G

Kozma_P Murphy_D Overbay_L Barney_D Joyce_M

Arencibia_J Betancourt_Y Pollock_A Barnes_B Callaspo_A

Moustakas_M Sanchez_G Uggla_D Doumit_R Reynolds_M

Florimon_P Gillaspie_C Mayberry_J Arenado_N Saunders_M

Uribe_J Dirks_A Smoak_J Sogard_E Wells_V

Plouffe_T Ruggiano_J Martin_R Ellis_M Konerko_P

Upton_B Gyorko_J Aviles_M Francisco_J Helton_T

Ibanez_R Viciedo_D DeJesus_D Lagares_J Rosario_W

Saltalamacchia_J Infante_O Johnson_K Rasmus_C Keppinger_J

Smith_S Crawford_C Gomes_J Montero_M Cain_L

Ellis_A Iannetta_C Hundley_N Reddick_J Ackley_D

Castillo_W Willingham_J Buck_J Cruz_N Iglesias_J

Adams_M Davis_R Valbuena_L Lawrie_B Peralta_J

Young_C Gattis_E Heyward_J Weeks_R Beckham_G

Davis_I Gregorius_D Mercer_J Young_D Avila_A

Franklin_N McCann_B Duda_L Pujols_A Norris_D

Rendon_A Alonso_Y Arcia_O Middlebrooks_W Ross_C

Reyes_J Ramirez_A Navarro_D Gomes_Y Myers_W

Hill_A Carp_M Raburn_R Ramirez_H Quentin_C

Chavez_E Howard_R

- Clase 5.

La clase 5 está formada por 81 jugadores, un 25.39% del total, y tiene una inercia intraclase de 2.3847 y

una distancia de su centro de gravedad al origen de 18.3111. Los individuos que la forman son:

Amarista_A Schafer_L Guzman_J Schumaker_S Descalso_D

Frandsen_K Fuld_S Lombardozzi_S Polanco_P Punto_N

Dobbs_G Pierre_J Bernadina_R Kelly_D Johnson_E

Snider_T Stewart_C Barmes_C Izturis_M Gentry_C

Tabata_J Kotsay_M Ryan_B Mesoraco_D Torres_A

Arias_J Robinson_D Solano_D Parmelee_C Bianchi_J

Lobaton_J Molina_J Robinson_S Chavez_E Kubel_J

Paul_X Hairston_J Kawasaki_M Lough_D Pennington_C

Rodriguez_S Pacheco_J Quintanilla_O Chisenhall_L Lucas_E

Schafer_J Suzuki_K Conger_H Ruiz_C Thomas_C

Tracy_C Scott_L Nunez_E Cedeno_R Pena_C

Blanks_K Cabrera_M DeRosa_M Morse_M Revere_B

Rutledge_J Dyson_J Heisey_C Nix_J Martinez_J

Turner_J Flaherty_R Hairston_S Morrison_L Profar_J

Flowers_T Hannahan_J Blackmon_C Hafner_T Francoeur_J

Herrera_J Hicks_A Nix_L Tuiasosopo_M Freiman_N

Santiago_R

12

Caracterización de la partición por las variables.

La tabla que presentamos a continuación nos muestra las variables ordenadas de mayor a menor valor del

estadístico F, que nos cuantifica lo diferentes que son las mismas en las distintas clases, es decir las variables en

las que haya mayor diferencias entre grupos se situaran en la parte de arriba de la tabla, por el contrario

aquellas variables que sean difícilmente diferenciables entre los grupos se situaran en la parte de debajo de la

tabla. Veamos la tabla:

V. Test Probabilidad Id. Variable Variable Grados de

libertad Valor F

21.94 0.0000 25 PA 314 305.97

21.85 0.0000 3 H 314 301.29

21.35 0.0000 24 NP 314 275.72

21.19 0.0000 1 AB 314 268.09

20.85 0.0000 2 R 314 252.91

20.51 0.0000 7 RBI 314 238.13

17.43 0.0000 4 dosB 314 139.32

16.69 0.0000 6 HR 314 122.39

15.63 0.0000 16 IBB 314 101.5

15.59 0.0000 21 GO 314 100.67

15.35 0.0000 8 BB 314 96.49

14.79 0.0000 22 AO 314 87.26

14.62 0.0000 15 OPS 314 84.67

14.2 0.0000 14 SLG 314 78.35

12.01 0.0000 18 SAC 314 51.83

11.67 0.0000 11 CS 314 48.53

11.46 0.0000 13 OBP 314 46.49

11.37 0.0000 9 SO 314 45.73

11.24 0.0000 10 SB 314 44.54

10.29 0.0000 5 tresB 314 36.59

10.05 0.0000 12 AVG 314 34.8

9.51 0.0000 20 GDP 312 30.96

9.02 0.0000 19 SF 314 27.72

5.91 0.0000 23 GO_AO 314 12.56

4.63 0.0000 17 HBP 314 8.42

Tabla 6. ANOVA.

Vemos como las variables que más varían entre grupos son PA, H, NP y AB, mientras que las que menos varían

son HDP y GO_AO.

Caracterización de clases por variables.

Ahora veremos para cada clase cómo se comportan las medias de cada una de las variables en relación a la

media de las mismas pero en conjunto, por lo tanto localizaremos las variables más características de cada

grupo.

- Clase 1.

Variables características

Media en la clase

Media global

Desviación Típica en la

clase

Desviación Típica global

V Test Probabilidad

RBI 75.951 51.110 14.152 24.707 10.55 0.000

H 147.317 110.138 22.127 41.360 9.43 0.000

NP 2311.890 1799.390 288.264 573.835 9.37 0.000

PA 596.854 467.194 69.455 146.415 9.29 0.000

dosB 30.281 21.768 6.750 9.648 9.25 0.000

AB 534.622 419.448 65.776 131.194 9.21 0.000

R 72.195 53.332 13.859 22.663 8.73 0.000

13

HR 19.561 12.567 6.487 8.650 8.48 0.000

AO 143.280 112.596 32.791 40.220 8.00 0.000

SLG 0.453 0.405 0.041 0.068 7.39 0.000

OPS 0.796 0.728 0.060 0.097 7.35 0.000

BB 51.744 38.492 16.169 19.880 6.99 0.000

SF 4.768 3.288 2.286 2.275 6.82 0.000

GDP 13.134 9.584 5.936 5.495 6.79 0.000

SO 109.451 87.069 32.731 35.511 6.61 0.000

GO 153.280 124.398 36.299 47.198 6.42 0.000

AVG 0.276 0.258 0.026 0.032 5.80 0.000

OBP 0.343 0.323 0.028 0.036 5.73 0.000

IBB 4.012 2.815 2.361 3.384 3.71 0.000

HBP 4.902 3.966 3.409 3.555 2.76 0.003

SAC 0.805 1.931 1.409 2.704 -4.37 0.000

Tabla 7.1. Variables características de la clase 2.

En la clase 1 las variables características que presentan un comportamiento más extremo positivo son

RBI, H, NP, PA, dosB y AB, de forma que los individuos de esta clase presentaran valores de estas

variables más altos. Solo obtenemos una variable que presenta un comportamiento extremo negativo,

que es la variable SAC, por lo tanto individuos de este grupo presentaran valores más pequeños en esta

variable.

- Clase 2.

Variables características

Media en la clase

Media global

Desviación Típica en la

clase

Desviación Típica global

V Test Probabilidad

IBB 13.643 2.815 5.588 3.384 12.23 0.000

BB 83.429 38.492 22.430 19.880 8.64 0.000

HR 31.000 12.567 8.669 8.650 8.14 0.000

RBI 101.429 51.110 22.302 24.707 7.78 0.000

OPS 0.924 0.728 0.067 0.097 7.73 0.000

OBP 0.392 0.323 0.033 0.036 7.37 0.000

SLG 0.531 0.405 0.051 0.068 7.09 0.000

R 95.357 53.332 8.657 22.663 7.08 0.000

H 175.286 110.138 14.983 41.360 6.02 0.000

NP 2669.500 1799.390 243.378 573.835 5.79 0.000

PA 676.714 467.194 36.931 146.415 5.47 0.000

dosB 35.286 21.768 5.444 9.648 5.35 0.000

AVG 0.302 0.258 0.023 0.032 5.23 0.000

AB 581.286 419.448 32.729 131.194 4.71 0.000

SO 123.357 87.069 39.516 35.511 3.90 0.000

AO 146.786 112.596 23.824 40.220 3.25 0.001

GDP 14.143 9.584 6.323 5.495 3.17 0.001

HBP 6.857 3.966 5.938 3.555 3.11 0.001

SF 4.786 3.288 1.739 2.275 2.51 0.006

GO 155.000 124.398 20.361 47.198 2.48 0.007

SAC 0.214 1.931 0.773 2.704 -2.43 0.008

Tabla 7.2. Variables características de la clase 2.

En esta clase las variables que presentan un comportamiento más extremo positivo son IBB, BB, HR,

RBI, OPS, OBP, SLG y R, de forma que los individuos de esta clase presentaran valores de estas variables

más altos. Como ocurría en la clase anterior solo obtenemos la variable SAC con un comportamiento

extremo negativo y por lo tanto individuos de este grupo presentaran valores más pequeños en esta

variable.

14

- Clase 3.

Variables características

Media en la clase

Media global

Desviación Típica en la

clase

Desviación Típica global

V Test Probabilidad

CS 7.350 2.611 3.525 2.958 10.82 0.000

SB 22.225 7.229 13.371 9.686 10.45 0.000

SAC 5.975 1.931 3.503 2.704 10.10 0.000

tresB 4.875 2.003 2.722 2.127 9.12 0.000

GO 185.050 124.398 39.753 47.198 8.68 0.000

AB 541.925 419.448 71.833 131.194 6.30 0.000

PA 596.000 467.194 73.339 146.415 5.94 0.000

H 145.750 110.138 21.140 41.360 5.81 0.000

R 70.700 53.332 14.232 22.663 5.17 0.000

NP 2228.200 1799.390 281.549 573.835 5.05 0.000

GO_AO 1.389 1.147 0.351 0.344 4.76 0.000

AO 138.675 112.596 33.842 40.220 4.38 0.000

dosB 26.625 21.768 7.774 9.648 3.40 0.000

IBB 1.550 2.815 1.731 3.384 -2.52 0.006

HR 9.100 12.567 5.540 8.650 -2.71 0.003

Tabla 7.3. Variables características de la clase 3.

En la clase 3 las variables que presentan un comportamiento más extremo positivo son CS, SB y SAC, de

forma que los individuos de esta clase presentaran valores de estas variables más altos. Las que

presentan un comportamiento más extremo negativo son HR y IBB y por lo tanto los individuos de este

grupo presentaran valores más pequeños en estas variable.

- Clase 4.

Variables características

Media en la clase

Media global

Desviación Típica en la

clase

Desviación Típica global

V Test Probabilidad

GDP 8.451 9.584 3.772 5.495 -2.52 0.006

RBI 46.000 51.110 11.184 24.707 -2.53 0.006

dosB 19.559 21.768 5.114 9.648 -2.80 0.003

IBB 2.020 2.815 1.826 3.384 -2.87 0.002

AVG 0.251 0.258 0.029 0.032 -2.88 0.002

NP 1659.800 1799.390 277.578 573.835 -2.97 0.001

CS 1.853 2.611 2.046 2.958 -3.13 0.001

AB 383.216 419.448 63.097 131.194 -3.38 0.000

PA 426.392 467.194 67.227 146.415 -3.41 0.000

SB 4.245 7.229 5.981 9.686 -3.77 0.000

R 46.020 53.332 9.197 22.663 -3.94 0.000

H 95.578 110.138 17.104 41.360 -4.30 0.000

SAC 0.971 1.931 1.636 2.704 -4.34 0.000

GO_AO 1.012 1.147 0.234 0.344 -4.78 0.000

GO 105.529 124.398 27.165 47.198 -4.89 0.000

tresB 1.137 2.003 1.221 2.127 -4.98 0.000

Tabla 7.4. Variables características de la clase 4.

La clase 4 no tiene variables características con valores extremos positivos mientras que si tiene

variables que presentan comportamientos extremos negativos, estas son tresB, GO, GO_AO, SAC y H, y

por lo tanto los individuos de este grupo presentaran valores más pequeños en estas variables.

15

- Clase 5.

Variables características

Media en la clase

Media global

Desviación Típica en la

clase

Desviación Típica global

V Test Probabilidad

GO_AO 1.248 1.147 0.412 0.344 3.05 0.001

SAC 2.580 1.931 2.408 2.704 2.50 0.006

SB 4.160 7.229 6.468 9.686 -3.30 0.000

tresB 1.284 2.003 1.372 2.127 -3.52 0.000

CS 1.543 2.611 1.750 2.958 -3.76 0.000

HBP 2.543 3.966 2.277 3.555 -4.16 0.000

IBB 1.358 2.815 1.716 3.384 -4.48 0.000

AVG 0.237 0.258 0.027 0.032 -6.96 0.000

GDP 5.747 9.584 3.058 5.495 -7.15 0.000

OBP 0.298 0.323 0.030 0.036 -7.31 0.000

SF 1.654 3.288 1.424 2.275 -7.47 0.000

GO 83.679 124.398 26.992 47.198 -8.98 0.000

BB 20.654 38.492 8.127 19.880 -9.33 0.000

OPS 0.641 0.728 0.064 0.097 -9.41 0.000

SLG 0.343 0.405 0.045 0.068 -9.49 0.000

SO 54.284 87.069 19.228 35.511 -9.60 0.000

HR 4.494 12.567 3.027 8.650 -9.71 0.000

AO 69.914 112.596 19.732 40.220 -11.04 0.000

RBI 24.432 51.110 8.103 24.707 -11.23 0.000

dosB 11.198 21.768 4.253 9.648 -11.40 0.000

R 27.605 53.332 8.073 22.663 -11.81 0.000

H 61.988 110.138 16.401 41.360 -12.11 0.000

AB 260.025 419.448 56.798 131.194 -12.64 0.000

PA 287.494 467.194 61.412 146.415 -12.77 0.000

NP 1094.170 1799.390 238.467 573.835 -12.79 0.000

Tabla 7.5. Variables características de la clase 5.

Finalmente en la clase 5, tenemos dos variables que presentan comportamientos extremos positivos y

son GO_AO y SAC, por lo tanto los individuos que pertenezcan a esta clase tendrán valores positivos

altos en estas variables. Las variables que presentan comportamientos más extremos negativos son NP,

PA, AB, H, R, dosB, RBI y AO, de forma que los individuos de esta clase presentaran valores de estas

variables más bajos.

5. CONCLUSIONES.

Vamos a presentar las conclusiones finales que podemos sacar tras realizar el análisis de componentes

principales y la clasificación automática. Nos ayudaremos del grafico representación de los individuos ya

clasificados en el plano factorial 1-2.

En el grafico podemos ver como hay clases que se interseccionan levemente. La clase 1 se intersecciona con las

clases 2 y 3 y la clase 4 se intersecciona con la clase 5.

Teniendo en cuenta la localización de las clases y la caracterización de las mismas por variables, vamos a detallar

que tipo de jugadores se encontraran en cada una de ellas.

En la clase 1, situada en la zona centro derecha del plano factorial 1-2, podremos encontrar jugadores, que

poseen características que poseen los bateadores eficientes que sin ser los mejores bateadores dan buenos

resultados al equipo. Estas características son:

Buenos impulsadores de carreras.

Aprovechan bien las oportunidades al bate.

16

Poseen buenos números en cuanto a carreras anotadas.

Sus éxitos en el bate les lleva más a segunda base que a tercera o que a hacer homeruns.

Tienden a no ser sacrificados.

En la clase 2, que se sitúa en la parte más a la derecha y un poco escorado hacia abajo, encontraremos jugadores

cuyas características como bateadores son excelentes. Estas son:

Tienen un gran número de bases por bola intencionadas ya que al ser excelentes bateadores el rival

prefiere entregarle la primera base antes que darle la oportunidad de, por ejemplo, anotar un homerun

y que todos los jugadores que estén en bases puedan anotar carreras.

Realizan más homeruns que otros jugadores de otras clases.

También son grandes impulsadores de carreras.

En relación con sus apariciones al bate suelen embasarse con facilidad.

Dada su condición como excelentes bateadores nunca son sacrificados.

La clase 3, situada en la parte superior central, ligeramente escorada a la derecha, está formada por jugadores

de calidad media-alta como bateadores y que destacan robando bases. Sus características son:

Grandes robadores de bases.

Poseen un elevado número de veces cogido robando bases, lo cual tiene bastante sentido ya que un

buen robador de bases lo intentara un mayor número de veces de las cuales muchas fracasara, por el

Grafico 4. Representación de los individuos ya clasificados en el plano factorial 1-2.

17

contrario un jugador lento o poco hábil en el robo de bases tendrá vetado por su entrenador el hecho

de intentarlo siquiera.

Son jugadores que tienden a ser sacrificados en mayor medida que en los dos grupos anteriores.

No suelen ser jugadores a los que el equipo contrario regale una base por bolas.

No son jugadores que realicen muchos homeruns.

La clase 4, situada en la parte central, ligeramente escorada hacia la izquierda, en el plano factorial 1-2, posee

jugadores con características de bateo de calidad media-baja. Estas son:

Las veces que batean no suelen llegar nunca a la tercera base.

No son jugadores que anoten muchas carreras.

Carecen de acierto a la hora de batear.

No son cogidos robando (porque no lo intentan).

Tienen un promedio de bateo más bajo.

Finalmente en la clase 5, situada en la parte central izquierda del plano factorial 1-2, se sitúan aquellos jugadores

que tienen pésimas características de bateo por lo que se deduce que ocupan otras funciones y posiciones del

béisbol. Sus características son:

Se les conceden menos oportunidades al bate.

Anotan muchas menos carreras.

No aprovechan sus oportunidades al bate.

Apenas impulsan carreras.

No realizan homeruns.

Nunca se les regala la base por bolas al no ser considerados bateadores peligrosos.

Tienden a ser sacrificados.

Por lo tanto si un equipo de béisbol quiere fichar un bateador excelente tendrá que buscar en la clase 2. Dentro

de esta, si su presupuesto se lo permite, debería elegir a P. Goldschmidt que es el que más destaca. Si el equipo

lo que necesita es un bateador de calidad media-alta, podría buscarlo en las clases 1 y 3, teniendo en cuenta que

los jugadores de la clase 3 son ligeramente peores en aspectos de bateo pero mejores robadores de base que los

de la clase 1. Podrían ser interesantes E. Andrus, de la clase 3, y M. Carpenter, de la clase 2. Si el equipo tiene un

presupuesto muy ajustado tendrá que buscar bateadores en la clase 4 en el que encontramos bateadores de

calidad media-baja. Como ejemplo de jugador a considerar de esta clase tenemos a D. Barney. Finalmente nunca

buscaremos bateadores de ningún tipo en la clase 5 ya que en esta clase están agrupados aquellos que tienen

una calidad baja como bateadores.

18

BIBLIOGRAFÍA.

[1] Valentín Glz. de Garibay Prz. de Heredia. Material teórico y práctico de la asignatura

Análisis de Datos del Grado de Estadística de la Universidad de Valladolid.

[2] Mónica Bécue Bertaut y Joan Valls i Marsal. Manual de introducción a los métodos

factoriales y clasificación con SPAD. Universidad Politécnica de Catalunya y Universidad

Autónoma de Barcelona.