Post on 19-Oct-2015
Introduccin al Data Introduccin al Data MiningMining Fernando Berzal, Fernando Berzal, berzal@acm.orgberzal@acm.org
Introduccin al Data Introduccin al Data MiningMining
Qu es la minera de datos?Qu es la minera de datos?
AplicacionesAplicaciones
KDD (KDD (KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases)) El proceso de extraccin de conocimientoEl proceso de extraccin de conocimiento
Carcter multidisciplinarCarcter multidisciplinar Carcter multidisciplinarCarcter multidisciplinar
Tcnicas de minera de datosTcnicas de minera de datos Modelos descriptivos y modelos predictivosModelos descriptivos y modelos predictivos
Clasificacin de las tcnicas de minera de datosClasificacin de las tcnicas de minera de datos
Fuentes de datosFuentes de datos
Evaluacin de resultadosEvaluacin de resultados
Sistemas de minera de datosSistemas de minera de datos
11
Qu es la minera de datos?Qu es la minera de datos?
Extraccin de patrones (conocimiento) Extraccin de patrones (conocimiento) en en grandesgrandes bases de datos.bases de datos.
22
Qu es la minera de datos?Qu es la minera de datos?
Extraccin de Extraccin de conocimientoconocimientoen grandes bases de datos.en grandes bases de datos.
RequisitosRequisitos
No trivialNo trivial
ImplcitoImplcito
PreviamentePreviamente desconocidodesconocido
PotencialmentePotencialmente tiltil
33
Qu es la minera de datos?Qu es la minera de datos?
DefinicionesDefiniciones
NonNon--trivial extraction of implicit, previously unknown trivial extraction of implicit, previously unknown and potentially useful information from data.and potentially useful information from data.
FrawleyFrawley, , PiatetskyPiatetsky--Shapiro & Shapiro & MatheusMatheus: : FrawleyFrawley, , PiatetskyPiatetsky--Shapiro & Shapiro & MatheusMatheus: : Knowledge Discovery in Databases: An Overview. Knowledge Discovery in Databases: An Overview. MIT Press, 1991.MIT Press, 1991.
Exploration and analysis, by automatic or Exploration and analysis, by automatic or semisemi--automatic means, of large quantities of data in automatic means, of large quantities of data in order to discover meaningful patterns.order to discover meaningful patterns.
Berry & Berry & LinoffLinoff: : Data Mining Techniques. Data Mining Techniques. Wiley, 1997Wiley, 1997
44
Qu es la minera de datos?Qu es la minera de datos?
How can I analyze this data?
55
Data rich,Information poor
Knowledge
Conocimiento(patrones interesantes)
AplicacionesAplicaciones
MarketMarket basketbasket analysisanalysis (compras)(compras)
Perfiles de usuario en la WebPerfiles de usuario en la Web
Segmentacin de clientesSegmentacin de clientes
Deteccin de fraudes / intrusosDeteccin de fraudes / intrusos
66
KDD KDD ((KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases))
Extraccin de conocimiento en bases de datosExtraccin de conocimiento en bases de datos77
KDD KDD ((KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases))
El proceso de extraccin de conocimientoEl proceso de extraccin de conocimiento
Limpieza de datosLimpieza de datos(eliminacin de ruido e inconsistencias)(eliminacin de ruido e inconsistencias)
Integracin de datosIntegracin de datos(combinacin de mltiples fuentes de datos)(combinacin de mltiples fuentes de datos)
Reduccin/Seleccin de datosReduccin/Seleccin de datos Reduccin/Seleccin de datosReduccin/Seleccin de datos(identificacin de datos relevantes para el problema)(identificacin de datos relevantes para el problema)
Transformacin de datosTransformacin de datos(preparacin de los datos para su anlisis)(preparacin de los datos para su anlisis)
Minera de datosMinera de datos(tcnicas de extraccin de patrones y medidas de inters)(tcnicas de extraccin de patrones y medidas de inters)
Presentacin de resultadosPresentacin de resultados(tcnicas de visualizacin y de representacin del conocimiento)(tcnicas de visualizacin y de representacin del conocimiento)
88
KDD KDD ((KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases))
Extraccin de conocimiento en bases de datos:Extraccin de conocimiento en bases de datos:
99
KDD KDD ((KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases))
Carcter multidisciplinarCarcter multidisciplinar
Bases de datos Estadstica
Evaluacin de resultadosEvaluacin de resultadosResumen de datosResumen de datosGestin de grandes cantidades de datosGestin de grandes cantidades de datos
1010
Data Mining
IA Visualizacin
AprendizajeAprendizajeRepresentacin del conocimientoRepresentacin del conocimiento
Presentacin de resultadosPresentacin de resultados
KDD KDD ((KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases))
I keep saying the sexy job in the next ten years will be I keep saying the sexy job in the next ten years will be statisticians. People think Im joking, but who wouldve statisticians. People think Im joking, but who wouldve
guessed that computer engineers wouldve been the sexy guessed that computer engineers wouldve been the sexy job of the 1990s? The ability to take datajob of the 1990s? The ability to take datato be able to to be able to understand it, to process it, to extract value from it, to understand it, to process it, to extract value from it, to
visualize it, to communicate itvisualize it, to communicate itthats going to be a hugely thats going to be a hugely visualize it, to communicate itvisualize it, to communicate itthats going to be a hugely thats going to be a hugely important skill in the next decadesimportant skill in the next decades
Because now we really do have essentially free and Because now we really do have essentially free and ubiquitous data. So the complimentary scarce factor is the ubiquitous data. So the complimentary scarce factor is the ability to understand that data and extract value from it.ability to understand that data and extract value from it.
Hal R. VarianHal R. VarianGoogles Chief EconomistGoogles Chief Economist
Professor of Information Sciences, Business, and EconomicsProfessor of Information Sciences, Business, and Economicsat the University of California at Berkeley at the University of California at Berkeley
1111
KDD KDD ((KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases))
Extraccin de conocimiento en bases de datos:Extraccin de conocimiento en bases de datos:
1212
Tcnicas de minera de datosTcnicas de minera de datos
Modelos de minera de datosModelos de minera de datos
1313
Tcnicas de minera de datosTcnicas de minera de datos
Clasificacin de los modelos de minera de datosClasificacin de los modelos de minera de datos
En funcin de su propsito general:En funcin de su propsito general:
Modelos descriptivosModelos descriptivos Modelos descriptivosModelos descriptivos(describen el comportamiento de los datos de forma (describen el comportamiento de los datos de forma que sea interpretable por un usuario experto).que sea interpretable por un usuario experto).
Modelos predictivosModelos predictivos(adems de describir los datos, se utilizan para (adems de describir los datos, se utilizan para predecir el valor de algn atributo desconocido).predecir el valor de algn atributo desconocido).
1414
Tcnicas de minera de datosTcnicas de minera de datos
EjemplosEjemplos
Reglas de asociacin (modelo descriptivo)Reglas de asociacin (modelo descriptivo)Los compradores de paales tambin suelen comprar cerveza.Los compradores de paales tambin suelen comprar cerveza.
ClusteringClustering (modelo descriptivo)(modelo descriptivo) ClusteringClustering (modelo descriptivo)(modelo descriptivo)
Segmentacin de los clientes de un hipermercado:Segmentacin de los clientes de un hipermercado:
-- Clientes ocasionales que gastan mucho.Clientes ocasionales que gastan mucho.
-- Clientes habituales con presupuesto limitado.Clientes habituales con presupuesto limitado.
-- Clientes ocasionales con presupuesto limitado.Clientes ocasionales con presupuesto limitado.
Clasificacin (modelo predictivo):Clasificacin (modelo predictivo):-- Datagramas que corresponden a intentos de intrusin.Datagramas que corresponden a intentos de intrusin.
-- Perfil de un cliente de alto riesgo para prstamos bancarios.Perfil de un cliente de alto riesgo para prstamos bancarios. 1515
Tcnicas de minera de datosTcnicas de minera de datos
Algunas tcnicas de minera de datosAlgunas tcnicas de minera de datos
Caracterizacin o resumenCaracterizacin o resumen
Discriminacin o contrasteDiscriminacin o contraste
Patrones frecuentes, asociaciones y correlacionesPatrones frecuentes, asociaciones y correlaciones Patrones frecuentes, asociaciones y correlacionesPatrones frecuentes, asociaciones y correlaciones
Clasificacin y prediccinClasificacin y prediccin
Deteccin de agrupamientos (Deteccin de agrupamientos (clusteringclustering))
Deteccin de anomalas (Deteccin de anomalas (outliersoutliers))
Anlisis de tendencias (series temporales)Anlisis de tendencias (series temporales)
1616
Tcnicas de minera de datosTcnicas de minera de datos
Las tcnicas de minera de datosLas tcnicas de minera de datos
tambin se pueden clasificar atendiendo atambin se pueden clasificar atendiendo a
el tipo de datos que hay que analizarel tipo de datos que hay que analizar el tipo de datos que hay que analizarel tipo de datos que hay que analizar
el tipo de conocimiento que se obtieneel tipo de conocimiento que se obtiene
el tipo de herramienta que se utilizael tipo de herramienta que se utiliza
el dominio de aplicacinel dominio de aplicacin1717
Fuentes de datosFuentes de datos
Fuentes de datosFuentes de datos
1818
Fuentes de datosFuentes de datos
Fuentes de datosFuentes de datos
Bases de datos relacionalesBases de datos relacionales
Bases de datos multidimensionales (DW)Bases de datos multidimensionales (DW)
Bases de datos transaccionalesBases de datos transaccionales Bases de datos transaccionalesBases de datos transaccionales
Series temporales, secuencias y data Series temporales, secuencias y data streamsstreams
Datos estructurados (grafos, redes sociales)Datos estructurados (grafos, redes sociales)
Datos espaciales y espaciotemporalesDatos espaciales y espaciotemporales
Textos e hipertextos (p.ej. Web)Textos e hipertextos (p.ej. Web)
Bases de datos multimedia (p.ej. Imgenes)Bases de datos multimedia (p.ej. Imgenes)
1919
Evaluacin de resultadosEvaluacin de resultados
Evaluacin de resultadosEvaluacin de resultados
2020
Evaluacin de resultadosEvaluacin de resultados
Un resultado es interesante siUn resultado es interesante si
es comprensible (por seres humanos)es comprensible (por seres humanos)
es vlido con cierto grado de certezaes vlido con cierto grado de certeza
es potencialmente tiles potencialmente til es potencialmente tiles potencialmente til
es novedoso o sirve para validar una hiptesises novedoso o sirve para validar una hiptesis
El inters de los resultados se puede evaluarEl inters de los resultados se puede evaluar
objetivamente (criterios estadsticos)objetivamente (criterios estadsticos)
subjetivamente (perspectiva del usuario)subjetivamente (perspectiva del usuario)
2121
Sistemas de minera de datosSistemas de minera de datos
ArquitecturaArquitecturatpicatpica
Evaluacin de patrones
Interfaz de usuario
2222
Base de datos o data warehouse
Motor de minera de datos
DB DW WWW
Base de Base de conocimientoconocimiento
Limpieza, integracin, seleccin y transformacin de datos
Sistemas de minera de datosSistemas de minera de datos
Descripcin de una tarea de minera de datos:Descripcin de una tarea de minera de datos:
Datos relevantesDatos relevantes(lo que hay que analizar) (lo que hay que analizar)
Tipo de conocimientoTipo de conocimiento Tipo de conocimientoTipo de conocimiento(lo que se desea obtener) (lo que se desea obtener)
Conocimiento previo Conocimiento previo ((backgroundbackground knowledgeknowledge, para guiar el proceso), para guiar el proceso)
Medidas de intersMedidas de inters(para evaluar los resultados obtenidos) (para evaluar los resultados obtenidos)
Tcnicas de representacinTcnicas de representacin(para representar los resultados obtenidos)(para representar los resultados obtenidos)
2323
Sistemas de minera de datosSistemas de minera de datos
Software de minera de datosSoftware de minera de datos
KNIME KNIME http://www.knime.org/http://www.knime.org/
RapidMinerRapidMinerhttp://rapidminer.com/http://rapidminer.com/http://rapidminer.com/http://rapidminer.com/
WekaWekahttp://www.cs.waikato.ac.nz/ml/weka/http://www.cs.waikato.ac.nz/ml/weka/
R R http://www.rhttp://www.r--project.org/project.org/
SPSS SPSS ModelerModelerhttp://www.spss.com/software/modeler/http://www.spss.com/software/modeler/
SAS Enterprise SAS Enterprise MinerMinerhttp://www.sas.com/http://www.sas.com/ 2424
Temas de investigacinTemas de investigacin
Tcnicas eficientes de minera de datosTcnicas eficientes de minera de datos EscalabilidadEscalabilidad
Tcnicas incrementalesTcnicas incrementales
Algoritmos paralelosAlgoritmos paralelos
Incorporacin de conocimiento previoIncorporacin de conocimiento previo
Evaluacin de resultados (inters)Evaluacin de resultados (inters)
Interaccin con el usuarioInteraccin con el usuario Tcnicas interactivas (a distintos niveles de abstraccin)Tcnicas interactivas (a distintos niveles de abstraccin)
Tcnicas de presentacin y visualizacin de resultadosTcnicas de presentacin y visualizacin de resultados
Anlisis de nuevos tipos de datosAnlisis de nuevos tipos de datos Estructuras complejas (grafos, redes sociales)Estructuras complejas (grafos, redes sociales)
Bases de datos heterogneasBases de datos heterogneas
2525
PangPang--NingNing Tan, Tan, Michael Michael SteinbachSteinbach& & VipinVipin KumarKumar::IntroductionIntroduction toto Data Data MiningMiningAddisonAddison--WesleyWesley, 2006. , 2006.
BibliografaBibliografa
AddisonAddison--WesleyWesley, 2006. , 2006. ISBN 0321321367ISBN 0321321367
JiaweiJiawei Han Han & & MichelineMicheline KamberKamber: : Data Data MiningMining: : ConceptsConcepts and and TechniquesTechniquesMorgan Morgan KaufmannKaufmann, 2006., 2006.ISBN 1558609016ISBN 1558609016 2626
RevistasRevistas ACM ACM TransactionsTransactions onon KnowledgeKnowledge DiscoveryDiscovery fromfrom Data (TKDD)Data (TKDD)
IEEE IEEE TransactionsTransactions onon KnowledgeKnowledge and Data and Data EngineeringEngineering (TKDE)(TKDE)
Data Data MiningMining and and KnowledgeKnowledge DiscoveryDiscovery (DMKD)(DMKD)
ACM ACM SIGKDD SIGKDD ExplorationsExplorations
Data Data & & KnowledgeKnowledge EngineeringEngineering (DKE(DKE))
Bibliografa (investigacin)Bibliografa (investigacin)
Data Data & & KnowledgeKnowledge EngineeringEngineering (DKE(DKE))
KnowledgeKnowledge and and InformationInformation SystemsSystems (KAIS)(KAIS)
CongresosCongresos KDD KDD (ACM SIGKDD International (ACM SIGKDD International ConferenceConference onon KDD)KDD)
ICDM ICDM (IEEE International (IEEE International ConferenceConference onon Data Data MiningMining))
SDM SDM (SIAM Data (SIAM Data MiningMining ConferenceConference))
PKDD PKDD ((PrinciplesPrinciples and and PracticesPractices of KDD)of KDD)
SIGMOD SIGMOD (Management of Data)(Management of Data)
CIKM CIKM ((InformationInformation and and KnowledgeKnowledge ManagementManagement))2727