Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por...

28
Maldici´ on de la dimensi´ on & Aprendizaje de m´ aquina Erik Am´ ezquita 1 [email protected] 1 Departamento de Matem´ aticas, UG Extensi´ on del Conocimiento 18 de mayo 2018 E. Am´ ezquita (DEMAT) Maldici´ on de Dimensi´ on 18/05/18 1 / 28

Transcript of Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por...

Page 1: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Maldicion de la dimension&

Aprendizaje de maquina

Erik Amezquita 1

[email protected]

1Departamento de Matematicas, UG

Extension del Conocimiento18 de mayo 2018

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 1 / 28

Page 2: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Aprendizaje de Maquina (Machine Learning)

Ciencia de datos, Redes neuronales, Deep learning, Big data, Minerıa dedatos, inteligencia artificial, Analisis topologico de datos,. . .

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 2 / 28

Page 3: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Pero hay muchas cosas que pueden salir mal. . .

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 3 / 28

Page 4: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Maquinas de Soporte Vectorial (SVM)

Queremos dividir el plano en dos de modo que cada lado corresponde aun grupo distinto.

H−

H+

d+

d−

d+

b‖w‖

H

d+ + d− = 1‖w‖

Nuestros objetos los transformamos de algun modo en puntos de algunadimension.

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 4 / 28

Page 5: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Clasificar perros y gatos en 1D

1 numero por imagenVeo los datos en la recta realEsta difıcil partir la lınea en 2 pedazos, con perros a la izquierda ygatos a la derecha.

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 5 / 28

Page 6: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Clasificar perros y gatos en 2D

2 numeros por imagenVeo los objetos en el planoSigue difıcil partir el plano en 2 pedazos, con perros a la izquierda ygatos a la derecha.

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 6 / 28

Page 7: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Clasificar perros y gatos en 3D

3 numeros por imagenVemos los objetos en el espacioAhora sı se puede dividir el espacio en 2 pedazos bonitos

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 7 / 28

Page 8: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

¡Clasificar perros y gatos en 3D: Sı se puede!

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 8 / 28

Page 9: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

¿Seguimos aumentando dimensiones hasta clasificarperfecto? NO

A mayor dimension, las cosas empiezan a bailar la macarena: es laMaldicion de la Dimension

Concentracion de medidaDatos muy muy ralos (dispersos)La geometrıa juega trucos rarosNuestra intuicion deja de funcionar

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 9 / 28

Page 10: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Maldicion 1: Sobreajuste

Esto solo sirve para nuestro conjunto de datos especıfico.Seguro fracasa con datos nuevos

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 10 / 28

Page 11: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Sobreajuste ≡ complicar las cosas

Debemos tener en cuenta que siempre ocurren erroresSe debe buscar la imagen mas simple que de una idea general de losdatosTira y encoge entre simplicidad y ajustar bien

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 11 / 28

Page 12: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

A veces no se conseguira el ajuste perfecto

Nuestros datos solo representan un pedazo pequeno de la realidad.Es mejor tener cierta flexibilidad para datos nuevos.modelo que use menos dimensiones es mejor para evitar caer en lamaldicion

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 12 / 28

Page 13: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

La geometrıa de altas dimensiones esta bien rara

Pensemos en un cuadrado de lado 2.Tenemos 4 cırculos tangentes de diametro 1 c/u.¿Cuanto mide el radio r2 del cırculo tangente azul?

1

1

1 1

r2 =

√2− 1

2≈ 0.21

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 13 / 28

Page 14: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Ahora lo mismo en 3D

Tenemos 8 esferas tangentes de diametro 1 c/u.¿Cuanto mide el radio de la esfera azul tangente a las otras 8?

r3 =

√3− 12

≈ 0.37

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 14 / 28

Page 15: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Maldicion 2: Nuestra intuicion truena

En 9D con 29 = 512 esferas vemos que la esfera azul toca el bordedel cubo

r9 =

√9− 12

= 1

En 10D y para arriba la esfera azul atraviesa el borde del cubo

r10 =

√10− 1

2≈ 1.08

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 15 / 28

Page 16: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Volumen en general

Longitud ≡ area ≡ volumen (no lo usen en su tarea)

`Vol(—`) = `

`

`

Vol(�`) = `× ` = `2`

`

`

Vol(�`) = `× `× ` = `3

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 16 / 28

Page 17: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Volumen del hipercubo

Para el hipercubo de d dimensiones y lado `, su volumen es

Vol(�d

`

)=

d veces︷ ︸︸ ︷`× `× · · · × ` = `d.

Si se tiene que el hipercubo es unitario, ` = 1, entonces

Vol(�d

1

)= 1.

¿Como luce el hipercubo unitario de 100 dimensiones?

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 17 / 28

Page 18: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

¿Como cubrir el 20 % de nuestros hipercubos unitarios?

En dimension d queremos hallar un lado ` tal que

(`)d = 0.2Por ejemplo,

(0.20)1 = 0.2 (0.45)2 = 0.2

(0.58)3 = 0.2 (0.98)100 = 0.2En 100D hay 5 cubos diferentes de lado ` = 0.98 dentro de un cubode lado 1.

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 18 / 28

Page 19: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Maldicion 3: Datos muy dispersos

1D: Necesitamos 20 puntos para cubrir el 20 %.2D: Necesitamos 452 = 2025 puntos para cubrir el 20 %.3D: Necesitamos 583 ≈ 200, 000 para cubrir el 20 %.

100D: ¡Necesitamos 98100 puntos para cubrir el 20 %!

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 19 / 28

Page 20: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

¿Y el volumen de las hiperesferas?

Pensemos en esferas de radio R

Vol (©R) = πR2, Vol ($R) =43πR3

En general, las esferas desaparecen

Vol($d

R

)=

2πd/2

Γ(d/2)Rd −→

d→∞0

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 20 / 28

Page 21: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

De vuelta a perros y gatos

Pensemos en el cırculo inscrito en el cuadrado unitario.Las 4 esquinas son feas y queremos estar en el cırculo.

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 21 / 28

Page 22: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

En 3D hay mas espacio en las esquinas

Pensemos en la esfera inscrita en el cubo unitarioTenemos ahora 8 esquinas feas.Cada vez habra mas volumen en las esquinas.

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 22 / 28

Page 23: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Maldicion 4: Todo se parece a todo

En 8D hay 28 = 256 esquinas diferentes que concentran el 98 % delvolumen total.El cubo en 8D luce mas bien como un erizo.Todos los datos estan en esquinas y es difıcil distinguirlos.

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 23 / 28

Page 24: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

¿Como se curan las maldiciones?

No hay una respuesta unica y magica.La mayorıa de veces las curas, si existen, son artesanales.Hay enfoques estandar que pueden funcionar, pero debe de tenersecuidado.A veces la cura resulta peor que la enfermedad.

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 24 / 28

Page 25: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Pocima 1: Conseguir datos (casi) infinitos

Una maldicion es que a mayor dimension, los datos son muchısimomas ralos.Entre mas datos tengamos, es mas facil ver ciertas tendenciasEl problema es que casi siempre es imposible.De hecho, la necesidad de datos crece exponencialmente

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 25 / 28

Page 26: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Pocima 2: Validacion cruzada (Cross-validation)

Partimos nuestros datos en dos: entrenamiento y pruebaTomamos el subconjunto de entrenamiento y definimos un patron.Con la prueba verificamos que entrenamos bien.Volvemos a partir y repetimos muchas veces.Si tenemos pocos o malos datos, solo nos enganamos a nosotrosmismos.

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 26 / 28

Page 27: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Pocima 3: Analisis de Componentes Principales (PCA)

Quiza no necesitamos tantas dimensiones.podemos deducir a traves de unas dimensiones el resto.Reducimos dimensiones en funcion de mayor varianza.¿Como sabemos que estamos midiendo las variables correctas enprimer lugar?

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 27 / 28

Page 28: Maldición de la dimensión & Aprendizaje de máquinaamezqui3/demat/maldicion-de...1 n´umero por imagen Veo los datos en la recta real Est´a dif´ıcil partir la l´ınea en 2 pedazos,

Referencias

Vincent Spruyt The Curse of Dimensionality 2014. http://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/

Jesse Johnson The curse of dimensionality 2013 https:

//shapeofdata.wordpress.com/2013/04/02/the-curse-of-dimensionality/

E. Amezquita (DEMAT) Maldicion de Dimension 18/05/18 28 / 28