FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES EN LA GERENCIA
INTEGRADA DE YACIMIENTOS N. QUEIPO, S. PINTOS COPYRIGHT 2001
ESCALAMIENTO MULTIDIMENSIONAL
OBJETIVO:
DADO UN CONJUNTO DE OBJETOS {a, b, c, d, .....} CUYA RELACIÓN ESTÁ
DADA, SOLAMENTE, POR UNA MATRIZ DE DISTANCIAS; CONSTRUIR, EN UN
ESPACIO EUCLIDIO, UN CONJUNTO ASOCIADO {a,’ b’, c’, d’,...} DE MODO
QUE LAS DISTANCIAS ENTRE ESTOS NUEVOS ELEMENTOS PRESERVEN, EN LO
POSIBLE, LAS DISTANCIAS ORIGINALES
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
ORIGEN
N. QUEIPO, S. PINTOS COPYRIGHT 2001
RELACIÓN CON COMPONENTES PRINCIPALES
ESTOS MÉTODOS TIENEN UN ÁREA DE APLICACIÓN MÁS GENERAL QUE
COMPONENTES PRINCIPALES YA QUE LOS OBJETOS PUEDEN ESTAR DEFINIDOS
POR VARIABLES CUALITATIVAS Y CUANTITATIVAS
BASTA CON QUE LA DISIMILARIDAD ENTRE LOS OBJETOS PUEDA ESTABLECERSE
MEDIANTE UNA MATRIZ DE DISIMILARIDAD (DISTANCIA)
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
DISIMILARIDAD ORIGINAL
ESPACIO ASOCIADO
N. QUEIPO, S. PINTOS COPYRIGHT 2001
MEDIDAS DE PRESERVACIÓN
LOS MÉTODOS DIFIEREN EN LA MEDIDA ELEGIDA PARA PRESERVAR LA
DISTANCIA. SI d(k,j) ES LA MEDIDA ORIGINAL Y d’(k,j) LA ASOCIADA AL
ESPACIO DE PROYECCIÓN ENTONCES SE PROPONE MINIMIZAR:
ESTA MEDIDA LE ASIGNA MAYOR IMPORTANCIA A LOS ELEMENTOS ALEJADOS,
YA QUE ESTOS TIENEN UNA MAYOR INFLUENCIA EN LA FUNCIÓN ERROR
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
MAPA DE SAMMON
PARA DARLE SIMILAR IMPORTANCIA A LOS PUNTOS CERCANOS Y LEJANOS,
Sammon Jr, J. W. (1969) PROPONE UNA MEDIDA DE ERROR
DIFERENTE:
DONDE EL COCIENTE RELATIVO OBLIGA A TENER EN CUENTA A AQUELLOS
ELEMENTOS CERCANOS DONDE d(k,j) ES PRÓXIMO A CERO
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
CONSTRUCCIÓN DEL MAPA
FORMAR LA MATRIZ DE DISIMILARIDADES ENTRE LOS N PUNTOS DE LA
DATA
UBICAR EN EL PLANO N PUNTOS INICIALES, (Xi,Yi), ASOCIADOS A LOS
PUNTOS DE LA MUESTRA:
* UBICADOS AL AZAR
* PROYECTANDO LA MUESTRA SOBRE EL PLANO FORMADO CON LAS DOS
PRIMERAS COMPONENTES PRINCIPALES
MINIMIZAR LA FUNCIÓN DE ERROR COMO FUNCIÓN DE LOS PUNTOS
(Xi,Yi)
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
MAPAS AUTO-ORGANIZATIVOS
LOS MAPAS AUTO-ORGANIZATIVOS (SOM – SELF-ORGANIZING MAP) FUERON
INVENTADOS POR TEUVO KOHONEN EN FINLANDIA, EN LA DÉCADA DE LOS
80
UN MAPA AUTO-ORGANIZATIVO CONSISTE EN UN GRUPO DE NEURONAS
ORGANIZADAS EN UNA MALLA DE BAJA DIMENSIÓN
CADA NEURONA ESTA REPRESENTADA POR UN VECTOR DE PESOS DE m
DIMENSIONES (VECTOR PROTOTIPO) , DONDE m ES IGUAL A LA DIMENSIÓN
DEL VECTOR DE ENTRADA
LAS NEURONAS ESTÁN CONECTADAS A NEURONAS ADYACENTES POR UNA
RELACIÓN DE VECINDAD, LA CUAL DICTA LA TOPOLOGÍA O ESTRUCTURA DEL
MAPA
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
REDUCCIÓN DE LA DIMENSIONALIDAD
MAPAS AUTO-ORGANIZATIVOS
N. QUEIPO, S. PINTOS COPYRIGHT 2001
PARA REDUCIR EL NÚMERO DE OBSERVACIONES DE LA DATA (CON EL
PROPÓSITO DE CLASIFICACIÓN)
PARA REDUCIR LA DIMENSIONALIDAD DEL PROBLEMA PRESERVANDO LA
TOPOLOGÍA, ES DECIR PRESERVANDO LAS RELACIONES DE VECINDAD O
PROXIMIDAD ENTRE LOS ELEMENTOS
OBJETIVO
EL SOM TIENE LA PECULIARIDAD, Y DE ÉSTA SURGE SU FORTALEZA, DE
SERVIR AL MISMO TIEMPO:
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
UNA CAPA DE ENTRADA, EN LA QUE SE COLOCA EL VECTOR DE ENTRADA A LA
RED. LAS NEURONAS DE ESTA CAPA NO REALIZAN NINGÚN PROCESAMIENTO,
SÓLO RECIBEN EL VECTOR DE ENTRADA Y LO DISTRIBUYEN A LAS NEURONAS
DE LA CAPA DE SALIDA
UNA CAPA DE SALIDA, QUE SE CONOCE CON EL NOMBRE DE MAPA
REDUCCIÓN DE LA DIMENSIONALIDAD
MAPAS AUTO-ORGANIZATIVOS
N. QUEIPO, S. PINTOS COPYRIGHT 2001
REDUCCIÓN DE LA DIMENSIONALIDAD
VECTOR DE PESOS
N. QUEIPO, S. PINTOS COPYRIGHT 2001
ALGORITMO DE ENTRENAMIENTO
IDENTIFICAR LA DIMENSIÓN m DEL ESPACIO DE ENTRADA, QUE CORRESPONDE
AL NÚMERO DE NEURONAS DE LA CAPA DE ENTRADA. LOS s VECTORES DE
ENTRENAMIENTO CONSTITUYEN EL CONJUNTO DE DATOS A CLASIFICAR
DEFINIR EL TAMAÑO DEL MAPA
INICIALIZAR LOS PESOS wi CON VALORES ALEATORIOS
SELECCIONAR ALEATORIAMENTE UN VECTOR xj DEL CONJUNTO DE VECTORES DE
ENTRENAMIENTO
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
ALGORITMO DE ENTRENAMIENTO
PARA CADA NEURONA Ni, DEL MAPA, CALCULAR LA DISTANCIA EUCLIDIANA
ENTRE SU VECTOR DE PESOS (wi) Y EL VECTOR DE ENTRENAMIENTO
SELECCIONADO
DETERMINAR LA NEURONA GANADORA, AQUELLA CUYO VECTOR DE PESOS ESTÉ A
LA MENOR DISTANCIA DEL VECTOR DE ENTRENAMIENTO, TAMBIÉN CONOCIDA
COMO LA UNIDAD DE MEJOR AJUSTE (BMU – BEST-MATCHING UNIT)
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
ALGORITMO DE ENTRENAMIENTO
ACTUALIZAR EL VECTOR DE PESOS ASOCIADO A LA NEURONA GANADORA, DE
MANERA TAL QUE SE MUEVA HACIA EL VECTOR DE ENTRENAMIENTO EN EL
ESPACIO DE ENTRADA
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
ALGORITMO DE ENTRENAMIENTO
LAS NEURONAS Nk QUE SE ENCUENTRAN EN LA VECINDAD DE TAMAÑO
PRE-ESTABLECIDO, r, ACTUALIZAN SUS PESOS JUNTO A LA NEURONA
GANADORA. EL VALOR DE r DISMINUYE A PARTIR DE UN VALOR INICIAL A
MEDIDA QUE AVANZA EL PROCESO DE ENTRENAMIENTO. LA FÓRMULA DE
ACTUALIZACIÓN DE PESOS ES LA SIGUIENTE:
SE RETORNA AL PASO 4, REPITIÉNDOSE EL PROCESO DURANTE UN NÚMERO DE
ITERACIONES PREVIAMENTE ESTABLECIDO
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
MAPAS AUTO-ORGANIZATIVOS
REDUCCIÓN DE LA DIMENSIONALIDAD
ACTUALIZACIÓN DEL MAPA AUTO-ORGANIZATIVO, MOVIMIENTO DE LOS PESOS
DE LA NEURONA GANADORA (BMU) Y SU VECINDAD DE RADIO r = 1
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES
N. QUEIPO, S. PINTOS COPYRIGHT 2001
CARACTERÍSTICAS DEL MAPA
DISPOSICIÓN ALARGADA DEL MAPA PARA QUE REFLEJE DIRECCIONES
PRIORITARIAS (COMO COMPONENTES PRINCIPALES)
MAPA DE RAZONABLE TAMAÑO PARA QUE NO SE CONCENTREN EXCESIVOS
ELEMENTOS EN UNA MISMA CELDA
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
¿CÓMO ANALIZAR?
ETIQUETE EL MAPA PARA UBICAR LOS ELEMENTOS EN ÉL
USE LA REPRESENTACIÓN DE Ultsch, UMAP PARA VISUALIZAR LAS
DISTANCIAS ENTRE LAS NEURONAS
DETECTE EN EL UMAP ESTRUCTURAS RELEVANTES (CLASES)
TAL COMO SE VERÁ EN EL PRÓXIMO TEMA: CLASIFICACIÓN
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
AL SELECCIONAR UN MÉTODO DE REDUCCIÓN DE LA DIMENSIONALIDAD TENGA
EN CUENTA QUE:
REDUCCIÓN DE LA DIMENSIONALIDAD
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES
N. QUEIPO, S. PINTOS COPYRIGHT 2001
REDUCCIÓN DE LA DIMENSIONALIDAD
AL SELECCIONAR UN MÉTODO DE REDUCCIÓN DE LA DIMENSIONALIDAD TENGA
EN CUENTA QUE:
COMPONENTES PRINCIPALES PROYECTA LINEALMENTE MINIMIZANDO LAS
DISTANCIAS AL HIPERPLANO
EL MAPA DE SAMMON PROCURA CONSERVAR LAS DISTANCIAS
EL MAPA DE KOHONEN PROCURA PRESERVAR LA TOPOLOGÍA
lzerpa:
OCULTAR
N. QUEIPO, S. PINTOS COPYRIGHT 2001
ESTUDIO DE LA DISTRIBUCIÓN DE LA FUERZA LABORAL EMPLEADA (%) EN 9
DIFERENTES GRUPOS INDUSTRIALES EN 26 PAISES DE EUROPA
REDUCCIÓN DE LA DIMENSIONALIDAD DE LA DATA CON EL PROPÓSITO DE
AISLAR GRUPOS DE PAISES CON SIMILAR DISTRIBUCIÓN DEL EMPLEO Y
AYUDAR A LA COMPRENSIÓN DE LA RELACIÓN ENTRE LOS PAISES
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
Fuente: Euromonitor(1979)
PAIS AGRO MINE MANU ENER CONST SER_IND FINA SOCIAL TR_COMU
BELG 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2
DINA 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1
FRAN 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7
WALE 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1
IRLA 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1
ITAL 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7
LUXE 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2
HOLA 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8
INGL 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4
AUST 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0
FINL 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6
GREC 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7
NORU 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4
PORT 27.8 0.3 24.5 0.6 8.4 13.9 2.7 16.7 5.7
ESPA 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5
SUEC 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8
SUIZ 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7
TURK 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2
BULG 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7
CHEK 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0
EALE 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4
HUNG 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0
POLO 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9
RUMA 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0
USSR 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3
YUGO 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES
N. QUEIPO, S. PINTOS COPYRIGHT 2001
CONTRASTES
PRIN9 0.00009 . 0.000010 1.00000
Eigenvalue Difference Proportion Cumulative
PRIN9 0.00009 . 0.000010 1.00000
N. QUEIPO, S. PINTOS COPYRIGHT 2001
ESPACIO DE 2 COMPONENTES
N. QUEIPO, S. PINTOS COPYRIGHT 2001
MAPA DE SAMMON
N. QUEIPO, S. PINTOS COPYRIGHT 2001
MAPA DE ULTSCH
N. QUEIPO, S. PINTOS COPYRIGHT 2001
PATRONES DE FLUJO MULTIFÁSICO
REDUCCIÓN DE LA DIMENSIONALIDAD
SE DESEA REALIZAR UN ESTUDIO DE LA REDUCCIÓN DE LA DIMENSIONALIDAD
PARA EL CASO DE PATRONES DE FLUJO EN UNA TUBERÍA VERTICAL
UNA CLASIFICACIÓN LOS DESGLOSA EN CUATRO PATRONES: BURBUJA, SLUG,
CHURN Y ANULAR
ES POSIBLE DETERMINAR EL TIPO DE PATRÓN DE FLUJO EN UN TRAMO DE
TUBERÍA VERTICAL ANALIZANDO LA FUNCIÓN DE DENSIDAD DE LAS CAÍDAS DE
PRESIÓN
EJEMPLO ILUSTRATIVO II
N. QUEIPO, S. PINTOS COPYRIGHT 2001
LA FUNCIÓN DE DENSIDAD DE LA CAÍDA DE PRESIÓN RELATIVA A LA DE UNA
SOLA FASE SE CARACTERIZA POR LOS SIGUIENTES CUATRO PARÁMETROS:
MEDIA, DESVIACIÓN ESTÁNDAR, MÁXIMO DE LA FUNCIÓN DE DENSIDAD ENTRE
EL ORIGEN Y 0.5 Y MÁXIMO DE LA FUNCIÓN DE DENSIDAD ENTRE 0.5 Y EL
MÁXIMO VALOR MUESTRAL
REDUCCIÓN DE LA DIMENSIONALIDAD
-0.5560
-0.3129
0.5745
-0.1887
N. QUEIPO, S. PINTOS COPYRIGHT 2001
PROCENTAJE DE EXPLICACIÓN EN FUNCIÓN DEL NÚMERO DE
COMPONENTES
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
COMPONENTES PRINCIPALES 2D
N. QUEIPO, S. PINTOS COPYRIGHT 2001
COMPONENTES PRINCIPALES 3D
N. QUEIPO, S. PINTOS COPYRIGHT 2001
MAPA DE SAMMON 2D
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
MAPA DE SAMMON 3D
REDUCCIÓN DE LA DIMENSIONALIDAD
N. QUEIPO, S. PINTOS COPYRIGHT 2001
MAPA ULTSCH
-0.5560
-0.3129
0.5745
-0.1887