Download - Mineria de Datos Tecnicas de Mineria

APLICACIÓN DE LA TÉCNICAS DE MINERÍA DE DATOS Y EVALUACIÓN DEL MODELO

TATIANA SUAREZ ACELAS

UNIVERSITARIA DE INVESTIGACIÓN Y DESARROLLO (UDI)

FACULTAD DE INGENIERIA DE SISTEMAS MINERIA DE DATOS

BUCARAMANGA 2015

APLICACIÓN DE LA TÉCNICAS DE MINERÍA DE DATOS Y EVALUACIÓN DEL MODELO

TATIANA SUAREZ ACELAS

TECNICA ARBOL DE DECISIÓN Y CLUSTER PARA DATASET ESTUDIANTES

DOCENTE

ALEXANDRA SORAYA BELTRÁN CASTRO

UNIVERSITARIA DE INVESTIGACIÓN Y DESARROLLO (UDI) FACULTAD DE INGENIERIA DE SISTEMAS

MINERIA DE DATOS BUCARAMANGA

2015

CONTENIDO

INTRODUCCIÓN ............................................................................................................. 4

1.1. Objetivo General ................................................................................................. 5

1.2. Objetivos Específicos .......................................................................................... 5

2.1. Definición ............................................................................................................ 6

2.2. Reseña Histórica ................................................................................................. 6

2.3. Características .................................................................................................... 7

2.4. Usos .................................................................................................................... 8

2.5. Técnicas que se pueden utilizar .......................................................................... 9

3.1. Descripción de atributos .................................................................................... 10

4.1. APLICACIÓN TECNICA ARBOL DE DECISIONES .......................................... 11

4.2. EVALUACIÓN ................................................................................................... 14

5.1. APLICACIÓN TECNICA CLUSTER .................................................................. 16

5.2. EVALUACION ................................................................................................... 21

INTRODUCCIÓN

Teniendo en cuenta el gran avance en los sistemas de minería de datos desde el último siglo, las entidades han buscado maneras de explotar al máximo la información existente en sus sistemas de información, esto basándose en técnicas y software especializados que permiten interpretación fácil y real de los resultados. Es así como para dar apoyo en la toma de decisiones a niveles administrativos o gerenciales, se crean metodologías especializadas y técnicas de extracción adecuada de la información, haciendo que el usuario final pueda ver los resultados en un solo clic o con pocos pasos, por tanto y teniendo en cuenta lo anterior, se crea el presente manual de usuario basado en la tecnología de información y software especializado WEKA (Waikato Environment for Knowledge Analysis) de la universidad de Waikato en Nueva Zelanda, este utiliza técnicas de minería de datos basándose en diferentes reglas y tipos de clasificación de información tales como árboles de decisión, reglas de clasificación, agrupamiento, etc. Al contar con información al alcance de nuestra mano, podemos tomar mejor decisiones en todos los procesos de una empresa u organización. Sin embargo a medida que va aumentando la cantidad de información se hace más tedioso el proceso de análisis de dichos datos almacenados por lo tanto se hace necesario usar herramientas o modelos que permitan extraer información útil de dicho conjunto de datos y así poder tomas decisiones. Es en este momento que se hace uso de la Minería de datos (Data Mining) la cual busca ayudar a procesar y analizar gran cantidades de datos con el fin de aprovechar todo el conocimiento útil que se encuentra en dichos datos. La minería de datos es un proceso que nace de la necesidad de dar respuesta a una pregunta o solucionar un problema por medio del análisis de datos. Aunque el análisis de los datos es el núcleo de la minería de datos, también es de gran importancia la ejecución de otras etapas como la selección, preprocesado, selección de características, extracción del conocimiento y evaluación. Integrando las diferentes definiciones de la minería de datos se puede decir que esta implica fundamentalmente el descubrimiento de nuevo conocimiento a partir de grandes cantidades de datos almacenados, para así alcanzar una mejor comprensión y entendimiento de los mismos con el fin de predecir su futuro comportamiento.

1. OBJETIVOS

1.1. Objetivo General Aplicar diferentes técnicas de minería de datos para el análisis de un conjunto de datos generando una respectiva evaluación y análisis de resultados.

1.2. Objetivos Específicos

Estudiar el funcionamiento de la herramienta WEKA sus características y diferentes técnicas que maneja.

Identificar todos los datos disponibles que se encuentran en el conjunto de datos o Data Set escogido.

Aplicar técnicas de aprendizaje supervisado y no supervisado para el análisis de datos.

Evaluación de cada uno de los modelos generados por las técnicas de minería de datos usadas.

Analizar los resultados de la aplicación de técnicas de minería de datos en el Dataset escogido.

2. HERRAMIENTA WEKA

2.1. Definición WEKA (Gallirallus Australis) es una especie de ave gruiforme, del tamaño de una gallina, originaria de Nueva Zelanda. Fue utilizada como símbolo para el logotipo de la herramienta de aprendizaje WEKA (Waikato Environment for Knowledge Analysis – Entorno para Análisis del Conocimiento de Waikato), no solo por la coincidencia del nombre sino por el origen común, Nueva Zelanda, donde se encuentra la universidad de Waikato. Es un software que ha sido desarrollado bajo licencia GPL4 lo cual ha impulsado que sea una de las suites más utilizadas en el área en los últimos años; así mismo es un software para el aprendizaje automático o minería de datos

WEKA es una herramienta que permite la experimentación de análisis de datos mediante la aplicación, análisis y evaluación de las técnicas más relevantes de análisis de datos, principalmente las provenientes del aprendizaje automático, sobre cualquier conjunto de datos del usuario.

WEKA apoya muchas tareas de minería de datos, como el reprocesamiento de datos, la clasificación, clustering, regresión y función de selección entre otros. WEKA es un entorno de trabajo que contiene una colección de herramientas de visualización y algoritmos para el análisis de datos y modelado predictivo, junto con las interfaces gráficas de usuario para facilitar el acceso a esta funcionalidad.

2.2. Reseña Histórica

La herramienta WEKA fue desarrollada en 1993 en la Universidad de Waikato de Nueva Zelanda utilizando TCL/TK y C. y en el año de 1997 se reescribió su código al lenguaje Java incluyendo implementaciones de algoritmos de modelado

La versión sin java original de WEKA fue un TCL/TK (Tool Command Language/Toolkit) front-end (en su mayoría de otros fabricantes) con modelos de algoritmos implementados en otros lenguajes de programación, además del preprocesado de datos de utilitarios en C y un sistema basado en Makefile para llevar a cabo experimentos de aprendizaje automático.

La versión original fue diseñada principalmente como una herramienta para el análisis de los datos del ámbito agrícola, pero la más reciente versión completamente basada en Java, cuyo desarrollo se inició en 1997, ahora se utiliza en diferentes áreas de aplicación, en particular con fines educativos y de investigación. En el año 2005 esta herramienta muy flexible y fácil de utilizar, recibe el galardón “Data Mining and Knowledge Discovery Service”, por parte de la ACM (Asociación for Computing Machinery) que es la Sociedad Científica Para el Desarrollo de la Computación Educacional.

2.3. Características

Esta es una herramienta muy versátil que soporta muchas tareas estándar de la minería de datos en especial tareas de procesamiento de datos, regresión, clasificación, clustering entre otras, así mismo permite la visualización y la selección de los datos.

Diversas fuentes de datos (ASCII, JDBC).

Interfaz visual basado en procesos/flujos de datos (rutas).

Distintas herramientas de minería de datos: reglas de asociación (a priori,

Tertius, etc), agrupación/segmentación/conglomerado (Cobweb, EM y k-medias),

clasificación (redes neuronales, reglas y 4 Citado de GNU Public License.

http://www.gnu.org/copyleft/gpl.html 27 árboles de decisión, aprendizaje

Bayesiana) y regresión (Regresión lineal, SVM...).

Manipulación de datos (pick & mix, muestreo, combinación y separación).

Combinación de modelos (Bagging, Boosting, etc)

Visualización anterior (datos en múltiples gráficas) y posterior (árboles, curvas

ROC, curvas de coste, etc).

Entorno de experimentos, con la posibilidad de realizar pruebas estadísticas (t-

test).

Sistema integrado con herramientas de pre-procesado de datos, algoritmos de

aprendizaje y métodos de evaluación de algoritmos.

Posee interfaces gráficas para comprensión y manejo del usuario.

Tiene un ambiente de comparación entre las herramientas de aprendizaje.

Es un software de fácil acceso por los usuarios ya que está disponible libremente

bajo licencia pública GNU-GPL. Tiene un formato especial de entrada de datos

arff. (Attribute - Relation File Format).

2.3.1. Regresión

Los modelos de regresión se ajustan al mismo patrón general. Hay un número de variables independientes, que, cuando se toman juntos, producen un resultado – una variable dependiente. El modelo de regresión se utiliza para predecir el resultado de una variable dependiente desconocida, dados los valores de las variables independientes.

2.3.2. Clasificación También conocida como arboles de clasificación o árboles de decisión, es un algoritmo que crea una guía paso a paso sobre como determinar la salida de una instancia de datos nuevas. El árbol que crea es exactamente eso: un árbol donde cada nodo representa un lugar donde se debe tomar una decisión en base a la entada y pasar al siguiente nodo y el siguiente hasta llegar a una hoja que indica la salida predecible. Se utiliza también un conjunto de entrenamiento para producir el modelo.

2.3.3. Clustering Permite a un usuario hacer grupos de datos para determinar los patrones. Tiene sus ventajas cuando el conjunto de datos está definido y un patrón general tiene que ser determinado a partir de esos datos. Usted puede crear un número determinado de grupos en función de las necesidades del negocio. Un beneficio del clustering sobre la clasificación es que cada atributo en el conjunto de datos se puede utilizar para analizar los datos. Una importante desventaja es que se requiere que el usuario conozca de antemano el número de grupos que quiere crear.

2.4. Usos

WEKA posee un grupo de técnicas que se pueden aplicar con éxito a múltiples capos, tales como el Marketing, manufactura, salud, energía, finanzas, medicina, entre otros, para su aplicación se debe de tener en cuenta el tipo de tarea que se desea realizar. Con base a la tarea se puede implementar en para dar la solución necesaria en cada uno de estos campos, a continuación se muestran una serie de tareas incluidas en WEKA.

Métodos de clasificación basados en redes neuronales

Manipulación de métodos numéricos sobre datos (Funciones estadísticas)

Métodos de clasificación basados en máquinas de soporte vectorial

Metaclasificadores

Métodos de implementación de árboles de decisión

Implementación de clustering

Métodos de estimación de probabilidades

Clases para implementar clasificadores bayes

2.5. Técnicas que se pueden utilizar

2.5.1. Preprocesado de los Datos

WEKA permite realizar manipulaciones sobre los datos aplicando filtros. Se pueden aplicar en dos niveles: atributos e instancias. Además las operaciones de filtrado pueden aplicarse en cascada, de forma que la entrada de cada filtro es la salida de haber aplicado el anterior filtro.

2.5.2. Visualización

La herramienta de visualización de WEKA permite representar gráficas 2D que relacionan pares de atributos. Podemos visualizar en la figura 1 el rango de calificaciones finales de los alumnos entre 1993 y 2003, especificando como color para la gráfica la convocatoria de la prueba.

2.5.3. Asociación Mediante algoritmos de asociación podemos realizar la búsqueda automática de reglas que relacionan conjuntos de atributos entre sí. Son algoritmos no supervisados, ya que no existen relaciones conocidas a priori con las que contrastar la validez de los resultados, sino que se evalúa si esas reglas son estadísticamente significativas. El principal algoritmo implementado en WEKA es el algoritmo “A priori”, el cual sólo busca reglas entre atributos simbólicos, por lo cual todos los atributos numéricos deberían ser discretizados previamente

2.5.4. Agrupamiento Los algoritmos de agrupamiento buscan grupos de instancias con características similares, según un criterio de comparación entre valores de atributos de las instancias definidos en los algoritmos.

Agrupamiento Numérico

Agrupamiento Simbólico

2.5.5. Clasificación

El problema de la clasificación es el más frecuente en la práctica. Una vez aplicados los algoritmos no supervisados de agrupamiento y asociación se aplicaría la clasificación como un refinamiento en el análisis. De esta forma, construiremos un modelo que permita predecir la categoría de las instancias en función de una serie de atributos de entrada. La clase se convertir· en la variable objetivo a predecir.

3. DESCRIPCIÓN DEL DATASET SELECCIONADO

El Data Set seleccionado contiene los logros estudiantiles en la educación secundaria

de dos escuelas portuguesas en el área de matemáticas. Los atributos de datos

incluyen las calificaciones del estudiante, datos demográficos, características sociales y

escolares los cuales se recogieron mediante informes de la escuela y cuestionarios.

Nombre: Student Performance (Desempeño de Estudiantes)

Resumen: Predice el desempeño del estudiante en el área de matemáticas de la

escuela secundaria.

Number of Instances: 395

Number of Attributes: 18

3.1. Descripción de atributos

ATRIBUTO DESCRIPCIÓN

SCHOOL Student's school ('GP' = Gabriel Pereira or 'MS' = Mousinho da Silveira)

SEX Student's sex ('F' = female or 'M' = male)

AGE Student's age (from 15 to 22)

ADDRESS Student's home address type (Urban or Rural)

FAMSIZE Family size ('LE3' = less or equal to 3 or 'GT3' = greater than 3)

PSTATUS Parent's cohabitation status

STUDYTIME Weekly study time

FAMSUP Family educational support

ACTIVITIES Extra curricular activities (yes or no)

INTERNET Internet access at home (yes or no)

ROMANTIC With a romantic relationship (yes or no)

FAMREL Quality of family relationships

FREETIME Free time after school

GOOUT Going out with friends

DALC Workday alcohol consumption

WALC Weekend alcohol consumption

HEALTH Current health status

GRADE Final grade (from 0 to 20, output target)

4. APLICACIÓN TECNICA APRENDIZAJE SUPERVISADO

4.1. APLICACIÓN TECNICA ARBOL DE DECISIONES

Training: 60% - Test: 40%

4.2. EVALUACIÓN Figura 1

Figura 2

El número total de instancias clasificadas es de 158.

En la Figura 1 se muestra que el 36.7089% de las instancias se han clasificado

correctamente mientras que el 63.2911% lo han hecho de forma incorrecta.

Seguidamente se muestra el valor del índice Kappa (-0.0348). Esté índice es una

medida de concordancia entre las categorías pronosticadas por el clasificador y las

categorías observadas, que tiene en cuenta las posibles concordancias debidas al

azar. Dónde:

o Si el valor es 1: Concordancia perfecta.

o Si el valor es 0: Concordancia debida al azar. ‐ o Si el valor es negativo: Concordancia menor que la que cabría esperar

por azar.

Por lo tanto, en nuestro caso, tenemos un grado menor de concordancia.

El resultado de la evaluación por medio de la técnica de árboles de decisión arroja

una calificación baja en general.

5. APLICACIÓN TECNICA APRENDIZAJE NO SUPERVISADO

5.1. APLICACIÓN TECNICA CLUSTER

Training Set

Test Split

5.2. EVALUACION

Instancias: 158

Numero de Clusters: 3

Grupo 0: Formado por la mayor cantidad de estudiantes del género

femenino, su mayor porcentaje viven en el área urbana de la ciudad, pocos

de ellos poseen no tienen acceso a internet lo cual indica que la gran parte de

estudiante cuenta con dicho acceso para poder realizar sus actividades

académicas, y cuentan con excelente estado de salud. En general son

estudiantes malos, lo que indica que no aprovechan sus beneficios y tiempo

libre para mejorar su desempeño.

Grupo 1: Encontramos un grupo con poca presencia del género femenino

pero estando por encima del Grupo 2. Una tercera parte de los estudiantes no

cuenta con servicio de internet. En general mantienen buenas relaciones con

su familia y cuentan con buen tiempo libre pero lo usan probablemente gran

parte para el consumo de alcohol. En general son estudiantes regulares.

Grupo 2: Estudiantes que dedican alrededor de 8 a 9 horas de estudio diario,

realizan actividades extracurriculares, cuentan con bastante tiempo libre,

cuantan en sy mayoría con buena salud pero menos que los estudiantes del

Grupo 0 y 1. Cuentan con supervisión de sus padres. En general son

estudiantes buenos.

6. ANALISIS DE RESULTADOS

En relación a los diferentes modos de prueba, es el basado en la muestra de

entrenamiento el que ofrece mejores resultados para cada uno de los

clasificadores. Esto es lógico puesto que este clasificador se evalúa en el

mismo conjunto sobre el que se creó el modelo de clasificación produciendo

una sobreestimación de los resultados.

En un contexto educativo, las técnicas de minería de datos y aprendizaje

automático pueden ser aplicadas a los datos obtenidos a partir de las

interacciones de los estudiantes. La selección de la técnica de aprendizaje

está relacionada con el tipo de información que se va a utilizar, puesto que

cada técnica es más adecuada en algunas situaciones que en otras.

La técnica más apropiada para encontrar características similares en el

comportamiento de los estudiantes, en esta investigación fue la de clustering.

7. CONCLUSIONES

La aplicación de la Minería de Datos y especialmente el uso del software WEKA, permitió la modelación de un conjunto de datos usando diferentes algoritmos para el descubrimiento de conocimiento.

Con el uso de la herramienta WEKA se logró experimentar con varios algoritmos, manifestándose un mejor comportamiento en el uso de los árboles de decisión J48 y Clustering en juegos de datos aleatorios.

En resumen, data mining se presenta como una tecnología innovadora, que ofrece una serie de beneficios: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sin número de detalles debido a que el producto final involucra toma de decisiones.

8. BIBLIOGRAFIA

P. Valdivieso Díaz. Aplicación de técnicas de aprendizaje automático para la

identificación de patrones de interacción en una experiencia virtual de

aprendizaje. Unidad de Virtualización, UTPL Tomado de:

http://reposital.cuaed.unam.mx:8080/jspui/bitstream/123456789/2702/1/priscil

a_valdiviezo_tecnicas_de_aprendizaje.pdf

R. Blázques, F. Delicado & Mc. Dominguez. Aprendizaje y Mineria de Datos.

Tomado de: http://www.it.uc3m.es/jvillena/irc/practicas/03-04/8.pres.pdf

A. Cravero Leal. Aplicación de Minería de Datos para la Detección de

Anomalías: Un Caso de Estudio. Workshop Internacional EIG2009. Chile,

2009. Tomado de: http://ceur-ws.org/Vol-558/Art_8.pdf

“Programa de Doctorado Tecnologías Industriales. Aplicaciones de la

inteligencia robótica. Practica 1: Entorno de WEKA de aprendizaje automático

y data mining”, pp. 6-9

Ciberconta. ”Sistemas de inducción de árboles de decisión: utilidad en el

análisis de crisis bancarias” Tomado de:

http://ciberconta.unizar.es/Biblioteca/0007/arboles.html

Cursos, investigación y recursos en inteligencia artificial. “Introducción a

técnicas de Minería de Datos”. 2008. Tomado de:

http://www.wiphala.net/courses/KDD_DM/2007-

0/class/02_dt_for_classification/class_61_decision_trees.ppt

IEspaña. “Árboles y reglas de decisión”. España, 2009. Tomado de:

http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.html

http://reposital.cuaed.unam.mx:8080/jspui/bitstream/123456789/2702/1/priscila_valdiviezo_tecnicas_de_aprendizaje.pdf

http://reposital.cuaed.unam.mx:8080/jspui/bitstream/123456789/2702/1/priscila_valdiviezo_tecnicas_de_aprendizaje.pdf

http://www.it.uc3m.es/jvillena/irc/practicas/03-04/8.pres.pdf

http://ceur-ws.org/Vol-558/Art_8.pdf

http://ciberconta.unizar.es/Biblioteca/0007/arboles.html

http://www.wiphala.net/courses/KDD_DM/2007-%200/class/02_dt_for_classification/class_61_decision_trees.ppt

http://www.wiphala.net/courses/KDD_DM/2007-%200/class/02_dt_for_classification/class_61_decision_trees.ppt

http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.html