Post on 02-Feb-2016
Aprendizaje de Máquina, Minería de
Datos, y Descubrimiento de
ConocimientoProf. Dr. César A. Beltrán Castañón
cesarbc@gmail.com
www.ime.usp.br/~cbeltran
22
Contenido del Curso
Aprendizaje de Máquina input, representación, árboles de decisión
Weka Ambiente para aprendizaje de máquina
Minería de Datos asociaciones, detección de desviaciones, clustering,
visualización
Casos de Estudio marketing dirigido, microarrays genómicos,
reconocimiento de formas biológicas Minería de Datos, Privacidad y Seguridad
33
Contenido de la lección
Introducción: Flujo de información
Minería de Datos: Ejemplos de Aplicación
Minería de Datos & Descubrimiento de Conocimiento
Minería de Datos: Tareas
44
Tendencias en el manejo de flujo de información
Más información están siendo generados:
Banca, telecomunicaciones, otras transacciones empresariales ...
Información científica: astronomía, biología, etc
Web, texto, y comercio electrónico
55
Ejemplos de gran información
Europe's Very Long Baseline Interferometry (VLBI) tiene 16 telescopios, cada uno de ellos produce 1 Gigabit/second de información astronómica Almacenamiento y análisis son un gran problema
AT&T maneja billones de llamadas por día Demasiada información, toda ella no puede ser
almacenada – el análisis tiene que ser hecho instantáneamente “on the fly” sobre el flujo de información.
66
Grandes bases de datos del 2003
Bases de datos comerciales: Winter Corp. 2003 Survey: France Telecom tiene
la más grande BD para soporte a la decisión, ~30TB; AT&T ~ 26 TB
Web Alexa, archivo internet: 7 años de información,
500 TB
Google busca en billones de páginas, muchos cientos de TB
IBM WebFountain, 160 TB (2003)
Archivo Internet (www.archive.org),~ 300 TB
77
De terabytes a exabytes a …
UC Berkeley estimativa 2003: 5 exabytes (5 million terabytes) de nueva información fue creada en 2002.
www.sims.berkeley.edu/research/projects/how-much-info-2003/
US produce ~40% de la nueva información mundial
Estimado 2006: 161 exabytes (estudio IDC) www.usatoday.com/tech/news/2007-03-05-data_N.htm
Proyección 2010: 988 exabytes
88
Grandes bases de datos del 2005Winter Corp. 2005
Commercial Database Survey:
1. Max Planck Inst. for Meteorology , 222 TB
2. Yahoo ~ 100 TB (Largest Data Warehouse)
3. AT&T ~ 94 TB www.wintercorp.com/VLDB/2005_TopTen_Survey/TopTenWinners_2005.asp
99
Crecimiento de la Información
En 2 años, el tamaño de las mayores bases de datos TRIPLICÓ!
1010
Tasa de Crecimiento de la Información
Dos veces más de información fue creada el 2002 en relación a 1999 (~30% tasa de crecimiento)
Otras estimaciones indican que esta tasa de crecimiento podría ser mayor
Muy poca de esa información será buscada por una persona
Descubrimiento de Conocimiento es NECESARIO para usar y darle sentido a la información.
1111
Contenido de la lección
Introducción: Flujo de Información
Minería de Datos: Ejemplos de Aplicación
Minería de Datos & Descubrimiento de Conocimiento
Minería de Datos: Tareas
1212
Aprendizaje de Máquina / Minería de Datos: Áreas de aplicación
Ciencia astronomía, bioinformática, descubrimiento de drogas, …
Negocios CRM (Customer Relationship management), detección de
fraudes, comercio electrónico (e-commerce), manufactura, deporte/entretenimiento, telecomunicaciones, marketing dirigido, cuidado de la salud, …
Web: motores de búsqueda, publicidad, minería en la web y
texto, …
Gobierno seguimiento (?), detección de crímenes, fraudes, …
1313
Áreas de Aplicación
¿Cuáles cree que sean las más importantes y extendidas aplicaciones de negocios de Minería de Datos?
1414
Minería de Datos en el Modelamiento de Clientes
Tareas: Predicción de caidas del mercado
Marketing dirigido: Ventas cruzadas, obtención
de clientes
Riesgos de crédito
Detección de fraudes
Industrias banca, telecomunicaciones, ventas directas, …
1515
Comercio electrónico
Una persona compra un libro (producto) en Amazon.com
Cuál es la tarea?
1616
Comercio electrónico – Caso de estudio
Tarea: Recomendó otros libros (productos) que esta persona gustaría comprar
Amazon realiza la selección de acuerdo a libros comprados:
Clientes que compraron “Advances in Knowledge Discovery and Data Mining”, también compraron “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations”
Programa de recomendación tiene gran éxito
1717
Microarrays Genómicos – Caso de Estudio
Dada la información de microarray de un número de ejemplos (pacientes), es posible
Diagnosticar con precisión la enfermedad?
Predecir las consecuencias de un determnado tratamiento?
Recomendar el mejor tratamiento?
1818
Ejemplo: información ALL/AML 38 casos de entrenamiento, 34 prueba, ~ 7,000 genes
2 Clases: Acute Lymphoblastic Leukemia (ALL) vs Acute Myeloid Leukemia (AML)
Usar datos de entrenamiento para contruir el modelo de diagnóstico
ALL AML
Resultados con los datos de prueba:33/34 correctos, 1 elemento mal
clasificado
1919
Seguridad y detección de fraudes – Caso de Estudio Detección de tarjetas de crédito fraudulentas
Detección de lavado de dinero FAIS (Tesoro Público de USA)
Fraude de Seguridad Sistema KDD de NASDAQ
Fraude en telefonía AT&T, Bell Atlantic, British Telecom/MCI
Bio-terrorismo detección en Olimpiadas 2002 en Salt Lake
2020
Minería de Datos y Privacidad
En 2006, NSA (National Security Agency) reportó haber minerado años de información de llamadas, con el fin de identificar redes terroristas
El análisis de red social tiene un potencial para encontrar redes
Invasión de la privacidad – creería Ud. si su información de llamadas está en una base de datos del gobierno?
2222
Contenido de la lección
Introducción: Flujo de información
Minería de Datos: Ejemplos de aplicación
Minería de Datos & Descubrimiento de Conocimiento
Minería de Datos: Tareas
2323
Definición de Descubrimiento de Conocimiento
Descubrimiento de Conocimiento en Información es el proceso no trivial de identificación válida
nueva
potencialmente útil
Y finalmente patrones entendibles en la información.
Ref. Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Capítulo 1), AAAI/MIT Press 1996
2424
Áreas Relacionadas
Estadística
Aprendizajede Máquina
Base de Datos
Visualización
Minería de Datos yDescubrimiento de Conocimiento
2525
Estadística, Aprendizaje de Máquina y Minería de Datos Estadística:
más base teórica más centrado en prueba de hipótesis
Apendizaje de Máquina más heurístico centrado en el mejoramiento de la performance de un agente de
aprendizaje también buscar por aprendizaje y robótica en tiempo real – areas que no
son parte de minería de datos
Minería de Datos y Descubrimiento de Conocimiento integra teoría y heurística centrado en el proceso entero de descubrimiento de conocimiento,
incluyendo limpieza de datos, aprendizaje, integración y visualización de resultados
Distinciones son difusas
witten&eibe
2626
Flujo del Proceso de Descubrimiento de Conocimiento, de acuerdo a CRISP-DM
Monitoring
vea www.crisp-dm.orgpara más información
2727
Notas Históricas: Muchos Nombres de Minería de Datos Pesca de datos, Succión de datos: 1960-
Usado por Estadístico (como un mal nombre)
Minería de Datos (Data Mining) :1990 -- usado por BD, negocios
en 2003 – mala imagen debido a TIA
Descubrimiento de Conocimiento en Base de Datos (1989-) usado en IA, Comunidad de Aprendizaje de Máquina
también Arqueología de Datos, Cosecha de Información, Descubrimiento de Información, Extracción de Conocimiento, ...
Actualmente: Minería de Datos y Descubrimiento deConocimiento son usados indistintamente
2828
Contenido de la lección
Introducción: Flujo de Información
Minería de Datos: Ejemplos de Aplicación
Minería de Datos & Descubrimiento de Conocimiento
Minería de Datos: Tareas
2929
Mayores tareas en Minería de Datos
Clasificación: predicción de la clase de un item
Clustering: encontrar clusters en datos
Asociaciones ej. A,B & C ocurren frecuentemente
Visualización: para facilitar el descubrimiento
Sumarización: describiendo un grupo
Detección de Desviación: encontrando cambios
Estimación: predicción de valores continuos
Análisis de Link: encontrando relaciones
…
3030
Tareas de Minería de Datos:Clasificación
Aprender un método para predecir la clase de un elemento a partir de instancias pre-definidas (clasificadas)
Varios enfoques: Estadístico, Árboles de Decisión, Redes Neuronales, ...
3131
Tareas de Minería de Datos:Clustering
Encontrar el “natural” agrupamiento de instancias dada información no identificada
3232
Resumen:
La tecnología tiende a guiar el flujo de información minería de datos es necesaria para dar sentido a
la información
Minería de Datos tiene varias aplicaciones, exitosas y no
Proceso de Descubrimiento de Información
Tareas de la Minería de Datos clasificación, clustering, …