© FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no...
Transcript of © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no...
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Objetivo
• Dado un conjunto de n objetos, para los que se conocensus relaciones de proximidad mutuas (sus respectivasdisimilaridades ij i=1,...,n j=1,...,n),
se trata de proyectarlos sobre un cierto espacio métrico dedimensión adecuada (p), asignándoles a cada objeto eneste espacio unas coordenadas (xi=(xi1,...,xip) i=1,...,n),
de forma que una cierta distancia definida en este espacioentre los puntos proyectados (generalmente la distanciaeuclídea) dij i=1,...,n j=1,...,n, reproduzca lo más fielmenteposible la relación original de proximidad entre los objetos.
Multidimensional Scaling Nº 1
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional
Escalado Multidimensional Nº 2
x x x
x x x
x
x x
x
Espacio Euclídeo (p-dimensional)
A
AC B
C
Espacio de las Observaciones (Cualitativo o
Cuantitativo)
Distancia EuclideaDistancias o Disimilaridades
XA
dAB
XB
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Escalado Métrico vs No Métrico
Las posibilidades de evaluación de la fidelidad de la reproducción de lasproximidades originales entre los objetos, induce dos metodologías:
• Escalado Multidimensional Métrico:– Supone una relación funcional creciente (o decreciente) entre la medida
de disimilaridad (o similaridad) original ij y la distancia reproducida dij
– Emplea propiedades métricas de las medidas de proximidad originales ylas distancias reproducidas para evaluar la bondad de la solución:por ejemplo, para un modelo de tipo lineal debe cumplirse que|ij-(a+b·dij)| i,j.
• Escalado Multidimensional No Métrico:– Supone una relación ordinal monótona no decreciente (o no creciente)
entre la medida de disimilaridad (o similaridad) original ij y la distanciareproducida dij
– Emplea propiedades de orden de las medidas de proximidad originales ylas distancias reproducidas para evaluar la bondad de la solución:para disimilaridades, debe cumplirse que ijkl dijdkl i,j,k,l
Multidimensional Scaling Nº 3
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional MétricoEl Problema Clásico
• Conocidas las distancias euclídeas entre cada dosde n puntos, dij (i=1,...,n j=1,...,n), ¿podremos conocersus coordenadas xi=(xi1,...,xip)’ en algún ciertoespacio?
• Ejemplo:– Si conocemos el triángulo de distancias entre capitales
de provincias españolas, ¿podremos identificar lascoordenadas geográficas de las mismas de forma quenos permitan dibujar un mapa de posiciones?
Escalado Multidimensional Nº 4
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Métrico. El Problema Clásico: Ejemplo
Escalado Multidimensional Nº 5
Distancias drs
La
Coru
ña
San
Seb
asti
án
Bar
celo
na
Alm
ería
Cád
iz
Sal
aman
ca
Mad
rid
La Coruña 0
San Sebastián 763 0
Barcelona 1118 529 0
Almería 1172 1032 809 0
Cádiz 1072 1132 1284 484 0
Salamanca 473 469 778 763 599 0
Madrid 609 469 621 563 663 212 0
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Métrico Clásico. La solución de Torgenson-Richardson
• Richardson en 1938 y Torgenson en 1958 dan la solución para cuando la distancia de partida es la distancia euclídea.
– Llamando bij = xi’xj, entonces dij2 = bii+bjj-2bij
– Este es un sistema indeterminado con n(n-1)/2 ecuaciones l.i. y n(n+1)/2 incógnitas, con bij=bji
– Fijando como nuevo origen de coordenadas el centroide de los datos, (1’X=0), entonces ibij = jbij = 0
– Así se convierte en sistema determinado.
Escalado Multidimensional Nº 6
2
1
p
ij ik jk i j i j
k
d x x x x x x
2
ij i j i j i i i j j i j jd x x x x x x x x x x x x
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Métrico. El Problema Clásico: La solución de Torgenson-Richardson
• Debe resolverse: dij2=bii+bjj-2bij con ibij=jbij=0
• Así se obtiene la matriz B=((bij))=XX’
Escalado Multidimensional Nº 7
nj
niji
dbbb
nin
Td
n
Tdb
n
dT
nTnTnTd
njTnbd
niTnbd
ijjjii
ij
iiiijjj
iii
,...,2,1
,...,2,1;;
2
,...,2,1;
2
2
,...,2,1,
,...,2,1,
2
2
·
2
·
2
··
2
··
2
·
2
·
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Métrico. El Problema Clásico: La solución de Torgenson-Richardson
• Si (i,ei) son los autovalores y los respectivos autovectoresortonormalizados de B, entonces una solución alproblema es:
• Las variables Xi están incorrelacionadas
• Sus varianzas valen: Var(Xi)=i
• Pero la solución no es única: cualquier rotación ortogonalde la misma, provee una nueva solución:– Si X es solución y R ortogonal XR’ es solución
Escalado Multidimensional Nº 8
)·,...,·,·( 2211 nn eeeX
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Métrico. El Problema Clásico: Ejemplo
Escalado Multidimensional Nº 9
Distancias
drs
La
Coru
ña
San
S
ebas
tián
Bar
celo
na
Alm
ería
Cád
iz
Sal
aman
ca M
adri
d
La Coruña 0 San Sebastián 763 0 Barcelona 1118 529 0 Almería 1172 1032 809 0 Cádiz 1072 1132 1284 484 0 Salamanca 473 469 778 763 599 0 Madrid 609 469 621 563 663 212 0
Coordenadas de las Capitales
Dimensión 1 Dimensión 2
La Coruña -0,6884 1,6225
San Sebastián -1,2945 -0,1263
Barcelona -1,0401 -1,4116
Almería 1,2471 -0,9566
Cádiz 1,8101 0,3605
Salamanca -0,0286 0,4996
Madrid -0,0058 0,0118
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Métrico. El Problema Clásico: Ejemplo
Escalado Multidimensional Nº 10
Dimensión 1
2,01,51,0,50,0-,5-1,0-1,5
Dim
en
sió
n 2
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
Madrid
Salamanca
Cádiz
Almería
Barcelona
San Sebastián
La Coruña
PORTUGAL
F
R
A
N
C
I
A
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Métrico.El problema general del MDS
• Conocidas las disimilaridades entre cada dos de n objetos, ij
i=1,...,n j=1,...,n, y sabiendo que estas permiten comparaciones detipo métrico ¿podremos asignar a cada objeto unascoordenadas xi=(xi1,...,xip)’ en algún cierto espacio (euclídeo),cuyas distancias reproduzcan las magnitudes de lasdisimilaridades entre cada dos de ellos?
• Ejemplo:
– Si construimos un triángulo de distancias aproximadassegún nuestro común conocimiento (disimilaridades) entrecapitales de provincias españolas, ¿podríamos obtener unascoordenadas de las mismas de forma que nos permitandibujar un mapa aproximado de sus posiciones?
Multidimensional Scaling Nº 11
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Métrico.El problema general del MDS
Escalado Multidimensional Nº 12
• Solución del Escalado Multidimensional Métrico– Suponer una relación funcional monótona creciente o decreciente
(generalmente lineal) entre la medida de proximidad original δij y ladistancia reproducida dij.
, generalmente del tipo
– Se buscan las coordenadas de los puntos mediante algúnprocedimiento de optimización de ajuste (generalmente del tipo demínimos cuadrados) para alguna función objetivo del tipo:
– Emplea las propiedades métricas de las medidas de proximidadoriginales y las distancias reproducidas para evaluar la bondad de lasolución: por ejemplo, para un modelo de tipo lineal, debe cumplirseque y un tan pequeño como se quiera.
ij ijd f ·ij ijd a b
2
min ij ij
i j
f d
,· i jij ijd a b
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Nº 13
Escalado Multidimensional Métrico.El problema general del MDS
• La solución de Torgenson
– 1ª etapa: consiste en garantizar que las transformadas dij de lasdisimilaridades ij cumplen las propiedades de la distanciaeuclidea; y, para ello, define
, siendo
– 2ª etapa: consiste en aplicar el procedimiento propuesto porTorgenson-Richardson para calcular las coordenadas de los npuntos en el espacio real n, de tal manera que las distanciaseuclídeas entre cada dos de ellos reproducirían fielmente lascorrespondientes disimilaridades transformadas.
0 si
en otro caso
ij
ij
ij
i jd
c
min
, ,max ij ik kji j k
c c
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Métrico Dimensionalidad y calidad de la solución
• La solución de un MDS Métrico Clásico cumple que:
– La solución encontrada reproduce exactamente lasdistancias (o disimilaridades transformadas).
– la dimensión necesaria para conservar la exactitud dela solución la marca el número de autovalores no nulosde la matriz B.
– Podemos relajar la solución con una perdida tolerablede exactitud, reteniendo solo las “p” primerasdimensiones del espacio asociadas a los “p” mayoresautovalores.
Multidimensional Scaling Nº 14
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional No Métrico.
• Conocida las disimilaridades entre cada dos de n objetos, iji=1,...,n j=1,...,n, y utilizando solo comparaciones entre ellas de tipoordinal ¿podremos asignar a cada punto unas coordenadasxi=(xi1,...,xip)’ en algún cierto espacio, cuyas distanciasreproduzcan las relaciones de orden de las disimilaridadesentre cada dos individuo?
• Ejemplo:– Si construimos un triángulo de rangos de distancias entre
capitales de provincias españolas, construido usando laescala 1 a 7 que se corresponde con las escala de distanciasque se consideran desde “muy cerca” a ”muy lejos”(disimilaridades que solo admiten comparaciones deorden), ¿podríamos obtener unas coordenadas de lasmismas de forma que nos permitan dibujar un mapaaproximado de sus posiciones?
Multidimensional Scaling Nº 15
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional No Métrico.
• Supone una relación ordinal monótona no decreciente (ono creciente) entre la medida de proximidad disimilaridad(o similaridad) original δij y la distancia reproducida dij
• Emplea las propiedades de orden de las medidas deproximidad originales y las distancias reproducidas paraevaluar la bondad de la solución:
– Para disimilaridades debe cumplirse que:
– Para similaridades debe cumplirse que:
Escalado Multidimensional Nº 16
ij ijd f
, , ,i j k lij kl ij kld d
, , ,i j k lij kl ij kld d
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional No Métrico Algoritmo Básico de resolución
1.- Asignación de coordenadas xi=(xi1,...,xip)’- Si es la primera vez, por algún método (p.e.: azar)- Si no, usando las informaciones de 4 y 5
2.- Cálculo de todas las distancias euclídeas ((dij))
3.- Ver su adecuación con las disimilaridades iniciales ((ij)):– debe cumplirse que ijkl dijdkl i,j,k,l
– Si se adecua (con error tolerado), terminar. Si no, ir a la etapa 4.
4.- A partir de las ((dij)) y las ((ij)),– obtener las disparidades ((d*
ij)) tales que ijkl d*ijd*
kl i,j,k,l– y calcular la medida de Stress
5.- Determinar cómo varía el Stress para variaciones de cada una de lascoordenadas xij , , e ir al paso 1
Multidimensional Scaling Nº 17
ij
ijdx
dSx
ijdx
dS
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional No Métrico. Diagrama de Shepard.
Escalado Multidimensional Nº 18
rs
drs
d*rs ers
d
Disparidades:
Caso de
estimación
logística
rsrsd
210
*
·
1
d*rs
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional No Métrico. Medidas de Stress
• Coef. de Determinación
• Stress 2
• Stress 1 (Kruskal)
– Kruskal (1964) caracteriza los valores de S1 como:
0-perfect; 0,025-excel;0,05-bueno; 0,1-aceptable; 0,2-pobre
• S-Stress(1) de Young-Takane-de Leeuw
Escalado Multidimensional Nº 19
101 2
2
2
2
R;
rsrs
rsR
)dd(
e
10;12
2*
2
2
2
2
2/12/1
2
)(
)(
)(
SR
r srsrs
r srsrs
r srsrs
r srs
S
dd
dd
dd
e
nS
r srs
r srsrs
r srs
r srs
S
d
dd
d
e2
10;2
2*
2
2
1
2/12/1
1
)(
r srs
r srsrs
StressS
d
dd
4*
22*2
2/1
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Dimensionalidad
• En el MDS Métrico, la dimensión del espacio la marca elnúmero de autovalores no nulos
• En el MDS No Métrico, necesitamos estudiar cuál es ladimensión del espacio mas adecuada
• Opciones:
– Kruskal sugiere realizar el análisis con variasdimensiones y dibujar el decaimiento de Stress que seproduce considerando diferentes dimensiones(variando estas desde 1,2,3,…), para quedarnos conaquella dimensión a partir de la cual no se reducesignificativamente aquel
Multidimensional Scaling Nº 20
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional Otros Modelos de MDS
• Para colecciones de matrices de observaciones replicadas:– Modelo RMDS (Replicated Multidimensional Scaling)
• Para colecciones de matrices de distintos observadores:– Modelo INDSCAL (Indicidual Differences Scaling)
• Para matrices rectangulares:– Modelo MDSU (Multidimensional Scaling Unfolding)
• Para matrices cuadradas asimétricas:– Modelo ASCAL (Asymmetric Scaling)
Multidimensional Scaling Nº 21
© FJ Callealta ; LR Rivera (UAH)
Escalado Multidimensional El Modelo de diferencias individuales
• Desarrollado por Carroll, J.D y Chang, J. en 1970.
• Las disimilaridades entre unos mismos individuos sepresentan en diversas tablas de estructura similar (p.e.distintos años)
• La distancia ajustada es:
• Como resultado, se conocen:
– coordenadas de cada objeto en el espacio común
– pesos de paso del espacio común a los individuales
– coordenadas de cada objeto en cada espacio individual
Escalado Multidimensional Nº 22
p
k
jkikkttij xxwd
1
2)(