APLICACIÓN DE LA TÉCNICAS DE MINERÍA DE DATOS Y EVALUACIÓN DEL MODELO
TATIANA SUAREZ ACELAS
UNIVERSITARIA DE INVESTIGACIÓN Y DESARROLLO (UDI)
FACULTAD DE INGENIERIA DE SISTEMAS MINERIA DE DATOS
BUCARAMANGA 2015
APLICACIÓN DE LA TÉCNICAS DE MINERÍA DE DATOS Y EVALUACIÓN DEL MODELO
TATIANA SUAREZ ACELAS
TECNICA ARBOL DE DECISIÓN Y CLUSTER PARA DATASET ESTUDIANTES
DOCENTE
ALEXANDRA SORAYA BELTRÁN CASTRO
UNIVERSITARIA DE INVESTIGACIÓN Y DESARROLLO (UDI) FACULTAD DE INGENIERIA DE SISTEMAS
MINERIA DE DATOS BUCARAMANGA
2015
CONTENIDO
INTRODUCCIÓN ............................................................................................................. 4
1.1. Objetivo General ................................................................................................. 5
1.2. Objetivos Específicos .......................................................................................... 5
2.1. Definición ............................................................................................................ 6
2.2. Reseña Histórica ................................................................................................. 6
2.3. Características .................................................................................................... 7
2.4. Usos .................................................................................................................... 8
2.5. Técnicas que se pueden utilizar .......................................................................... 9
3.1. Descripción de atributos .................................................................................... 10
4.1. APLICACIÓN TECNICA ARBOL DE DECISIONES .......................................... 11
4.2. EVALUACIÓN ................................................................................................... 14
5.1. APLICACIÓN TECNICA CLUSTER .................................................................. 16
5.2. EVALUACION ................................................................................................... 21
INTRODUCCIÓN
Teniendo en cuenta el gran avance en los sistemas de minería de datos desde el último siglo, las entidades han buscado maneras de explotar al máximo la información existente en sus sistemas de información, esto basándose en técnicas y software especializados que permiten interpretación fácil y real de los resultados. Es así como para dar apoyo en la toma de decisiones a niveles administrativos o gerenciales, se crean metodologías especializadas y técnicas de extracción adecuada de la información, haciendo que el usuario final pueda ver los resultados en un solo clic o con pocos pasos, por tanto y teniendo en cuenta lo anterior, se crea el presente manual de usuario basado en la tecnología de información y software especializado WEKA (Waikato Environment for Knowledge Analysis) de la universidad de Waikato en Nueva Zelanda, este utiliza técnicas de minería de datos basándose en diferentes reglas y tipos de clasificación de información tales como árboles de decisión, reglas de clasificación, agrupamiento, etc. Al contar con información al alcance de nuestra mano, podemos tomar mejor decisiones en todos los procesos de una empresa u organización. Sin embargo a medida que va aumentando la cantidad de información se hace más tedioso el proceso de análisis de dichos datos almacenados por lo tanto se hace necesario usar herramientas o modelos que permitan extraer información útil de dicho conjunto de datos y así poder tomas decisiones. Es en este momento que se hace uso de la Minería de datos (Data Mining) la cual busca ayudar a procesar y analizar gran cantidades de datos con el fin de aprovechar todo el conocimiento útil que se encuentra en dichos datos. La minería de datos es un proceso que nace de la necesidad de dar respuesta a una pregunta o solucionar un problema por medio del análisis de datos. Aunque el análisis de los datos es el núcleo de la minería de datos, también es de gran importancia la ejecución de otras etapas como la selección, preprocesado, selección de características, extracción del conocimiento y evaluación. Integrando las diferentes definiciones de la minería de datos se puede decir que esta implica fundamentalmente el descubrimiento de nuevo conocimiento a partir de grandes cantidades de datos almacenados, para así alcanzar una mejor comprensión y entendimiento de los mismos con el fin de predecir su futuro comportamiento.
1. OBJETIVOS
1.1. Objetivo General Aplicar diferentes técnicas de minería de datos para el análisis de un conjunto de datos generando una respectiva evaluación y análisis de resultados.
1.2. Objetivos Específicos
Estudiar el funcionamiento de la herramienta WEKA sus características y diferentes técnicas que maneja.
Identificar todos los datos disponibles que se encuentran en el conjunto de datos o Data Set escogido.
Aplicar técnicas de aprendizaje supervisado y no supervisado para el análisis de datos.
Evaluación de cada uno de los modelos generados por las técnicas de minería de datos usadas.
Analizar los resultados de la aplicación de técnicas de minería de datos en el Dataset escogido.
2. HERRAMIENTA WEKA
2.1. Definición WEKA (Gallirallus Australis) es una especie de ave gruiforme, del tamaño de una gallina, originaria de Nueva Zelanda. Fue utilizada como símbolo para el logotipo de la herramienta de aprendizaje WEKA (Waikato Environment for Knowledge Analysis – Entorno para Análisis del Conocimiento de Waikato), no solo por la coincidencia del nombre sino por el origen común, Nueva Zelanda, donde se encuentra la universidad de Waikato. Es un software que ha sido desarrollado bajo licencia GPL4 lo cual ha impulsado que sea una de las suites más utilizadas en el área en los últimos años; así mismo es un software para el aprendizaje automático o minería de datos
WEKA es una herramienta que permite la experimentación de análisis de datos mediante la aplicación, análisis y evaluación de las técnicas más relevantes de análisis de datos, principalmente las provenientes del aprendizaje automático, sobre cualquier conjunto de datos del usuario.
WEKA apoya muchas tareas de minería de datos, como el reprocesamiento de datos, la clasificación, clustering, regresión y función de selección entre otros. WEKA es un entorno de trabajo que contiene una colección de herramientas de visualización y algoritmos para el análisis de datos y modelado predictivo, junto con las interfaces gráficas de usuario para facilitar el acceso a esta funcionalidad.
2.2. Reseña Histórica
La herramienta WEKA fue desarrollada en 1993 en la Universidad de Waikato de Nueva Zelanda utilizando TCL/TK y C. y en el año de 1997 se reescribió su código al lenguaje Java incluyendo implementaciones de algoritmos de modelado
La versión sin java original de WEKA fue un TCL/TK (Tool Command Language/Toolkit) front-end (en su mayoría de otros fabricantes) con modelos de algoritmos implementados en otros lenguajes de programación, además del preprocesado de datos de utilitarios en C y un sistema basado en Makefile para llevar a cabo experimentos de aprendizaje automático.
La versión original fue diseñada principalmente como una herramienta para el análisis de los datos del ámbito agrícola, pero la más reciente versión completamente basada en Java, cuyo desarrollo se inició en 1997, ahora se utiliza en diferentes áreas de aplicación, en particular con fines educativos y de investigación. En el año 2005 esta herramienta muy flexible y fácil de utilizar, recibe el galardón “Data Mining and Knowledge Discovery Service”, por parte de la ACM (Asociación for Computing Machinery) que es la Sociedad Científica Para el Desarrollo de la Computación Educacional.
2.3. Características
Esta es una herramienta muy versátil que soporta muchas tareas estándar de la minería de datos en especial tareas de procesamiento de datos, regresión, clasificación, clustering entre otras, así mismo permite la visualización y la selección de los datos.
Diversas fuentes de datos (ASCII, JDBC).
Interfaz visual basado en procesos/flujos de datos (rutas).
Distintas herramientas de minería de datos: reglas de asociación (a priori,
Tertius, etc), agrupación/segmentación/conglomerado (Cobweb, EM y k-medias),
clasificación (redes neuronales, reglas y 4 Citado de GNU Public License.
http://www.gnu.org/copyleft/gpl.html 27 árboles de decisión, aprendizaje
Bayesiana) y regresión (Regresión lineal, SVM...).
Manipulación de datos (pick & mix, muestreo, combinación y separación).
Combinación de modelos (Bagging, Boosting, etc)
Visualización anterior (datos en múltiples gráficas) y posterior (árboles, curvas
ROC, curvas de coste, etc).
Entorno de experimentos, con la posibilidad de realizar pruebas estadísticas (t-
test).
Sistema integrado con herramientas de pre-procesado de datos, algoritmos de
aprendizaje y métodos de evaluación de algoritmos.
Posee interfaces gráficas para comprensión y manejo del usuario.
Tiene un ambiente de comparación entre las herramientas de aprendizaje.
Es un software de fácil acceso por los usuarios ya que está disponible libremente
bajo licencia pública GNU-GPL. Tiene un formato especial de entrada de datos
arff. (Attribute - Relation File Format).
2.3.1. Regresión
Los modelos de regresión se ajustan al mismo patrón general. Hay un número de variables independientes, que, cuando se toman juntos, producen un resultado – una variable dependiente. El modelo de regresión se utiliza para predecir el resultado de una variable dependiente desconocida, dados los valores de las variables independientes.
2.3.2. Clasificación También conocida como arboles de clasificación o árboles de decisión, es un algoritmo que crea una guía paso a paso sobre como determinar la salida de una instancia de datos nuevas. El árbol que crea es exactamente eso: un árbol donde cada nodo representa un lugar donde se debe tomar una decisión en base a la entada y pasar al siguiente nodo y el siguiente hasta llegar a una hoja que indica la salida predecible. Se utiliza también un conjunto de entrenamiento para producir el modelo.
2.3.3. Clustering Permite a un usuario hacer grupos de datos para determinar los patrones. Tiene sus ventajas cuando el conjunto de datos está definido y un patrón general tiene que ser determinado a partir de esos datos. Usted puede crear un número determinado de grupos en función de las necesidades del negocio. Un beneficio del clustering sobre la clasificación es que cada atributo en el conjunto de datos se puede utilizar para analizar los datos. Una importante desventaja es que se requiere que el usuario conozca de antemano el número de grupos que quiere crear.
2.4. Usos
WEKA posee un grupo de técnicas que se pueden aplicar con éxito a múltiples capos, tales como el Marketing, manufactura, salud, energía, finanzas, medicina, entre otros, para su aplicación se debe de tener en cuenta el tipo de tarea que se desea realizar. Con base a la tarea se puede implementar en para dar la solución necesaria en cada uno de estos campos, a continuación se muestran una serie de tareas incluidas en WEKA.
Métodos de clasificación basados en redes neuronales
Manipulación de métodos numéricos sobre datos (Funciones estadísticas)
Métodos de clasificación basados en máquinas de soporte vectorial
Metaclasificadores
Métodos de implementación de árboles de decisión
Implementación de clustering
Métodos de estimación de probabilidades
Clases para implementar clasificadores bayes
2.5. Técnicas que se pueden utilizar
2.5.1. Preprocesado de los Datos
WEKA permite realizar manipulaciones sobre los datos aplicando filtros. Se pueden aplicar en dos niveles: atributos e instancias. Además las operaciones de filtrado pueden aplicarse en cascada, de forma que la entrada de cada filtro es la salida de haber aplicado el anterior filtro.
2.5.2. Visualización
La herramienta de visualización de WEKA permite representar gráficas 2D que relacionan pares de atributos. Podemos visualizar en la figura 1 el rango de calificaciones finales de los alumnos entre 1993 y 2003, especificando como color para la gráfica la convocatoria de la prueba.
2.5.3. Asociación Mediante algoritmos de asociación podemos realizar la búsqueda automática de reglas que relacionan conjuntos de atributos entre sí. Son algoritmos no supervisados, ya que no existen relaciones conocidas a priori con las que contrastar la validez de los resultados, sino que se evalúa si esas reglas son estadísticamente significativas. El principal algoritmo implementado en WEKA es el algoritmo “A priori”, el cual sólo busca reglas entre atributos simbólicos, por lo cual todos los atributos numéricos deberían ser discretizados previamente
2.5.4. Agrupamiento Los algoritmos de agrupamiento buscan grupos de instancias con características similares, según un criterio de comparación entre valores de atributos de las instancias definidos en los algoritmos.
Agrupamiento Numérico
Agrupamiento Simbólico
2.5.5. Clasificación
El problema de la clasificación es el más frecuente en la práctica. Una vez aplicados los algoritmos no supervisados de agrupamiento y asociación se aplicaría la clasificación como un refinamiento en el análisis. De esta forma, construiremos un modelo que permita predecir la categoría de las instancias en función de una serie de atributos de entrada. La clase se convertir· en la variable objetivo a predecir.
3. DESCRIPCIÓN DEL DATASET SELECCIONADO
El Data Set seleccionado contiene los logros estudiantiles en la educación secundaria
de dos escuelas portuguesas en el área de matemáticas. Los atributos de datos
incluyen las calificaciones del estudiante, datos demográficos, características sociales y
escolares los cuales se recogieron mediante informes de la escuela y cuestionarios.
Nombre: Student Performance (Desempeño de Estudiantes)
Resumen: Predice el desempeño del estudiante en el área de matemáticas de la
escuela secundaria.
Number of Instances: 395
Number of Attributes: 18
3.1. Descripción de atributos
ATRIBUTO DESCRIPCIÓN
SCHOOL Student's school ('GP' = Gabriel Pereira or 'MS' = Mousinho da Silveira)
SEX Student's sex ('F' = female or 'M' = male)
AGE Student's age (from 15 to 22)
ADDRESS Student's home address type (Urban or Rural)
FAMSIZE Family size ('LE3' = less or equal to 3 or 'GT3' = greater than 3)
PSTATUS Parent's cohabitation status
STUDYTIME Weekly study time
FAMSUP Family educational support
ACTIVITIES Extra curricular activities (yes or no)
INTERNET Internet access at home (yes or no)
ROMANTIC With a romantic relationship (yes or no)
FAMREL Quality of family relationships
FREETIME Free time after school
GOOUT Going out with friends
DALC Workday alcohol consumption
WALC Weekend alcohol consumption
HEALTH Current health status
GRADE Final grade (from 0 to 20, output target)
4. APLICACIÓN TECNICA APRENDIZAJE SUPERVISADO
4.1. APLICACIÓN TECNICA ARBOL DE DECISIONES
Training: 60% - Test: 40%
4.2. EVALUACIÓN Figura 1
Figura 2
El número total de instancias clasificadas es de 158.
En la Figura 1 se muestra que el 36.7089% de las instancias se han clasificado
correctamente mientras que el 63.2911% lo han hecho de forma incorrecta.
Seguidamente se muestra el valor del índice Kappa (-0.0348). Esté índice es una
medida de concordancia entre las categorías pronosticadas por el clasificador y las
categorías observadas, que tiene en cuenta las posibles concordancias debidas al
azar. Dónde:
o Si el valor es 1: Concordancia perfecta.
o Si el valor es 0: Concordancia debida al azar. ‐ o Si el valor es negativo: Concordancia menor que la que cabría esperar
por azar.
Por lo tanto, en nuestro caso, tenemos un grado menor de concordancia.
El resultado de la evaluación por medio de la técnica de árboles de decisión arroja
una calificación baja en general.
5. APLICACIÓN TECNICA APRENDIZAJE NO SUPERVISADO
5.1. APLICACIÓN TECNICA CLUSTER
Training Set
Test Split
5.2. EVALUACION
Instancias: 158
Numero de Clusters: 3
Grupo 0: Formado por la mayor cantidad de estudiantes del género
femenino, su mayor porcentaje viven en el área urbana de la ciudad, pocos
de ellos poseen no tienen acceso a internet lo cual indica que la gran parte de
estudiante cuenta con dicho acceso para poder realizar sus actividades
académicas, y cuentan con excelente estado de salud. En general son
estudiantes malos, lo que indica que no aprovechan sus beneficios y tiempo
libre para mejorar su desempeño.
Grupo 1: Encontramos un grupo con poca presencia del género femenino
pero estando por encima del Grupo 2. Una tercera parte de los estudiantes no
cuenta con servicio de internet. En general mantienen buenas relaciones con
su familia y cuentan con buen tiempo libre pero lo usan probablemente gran
parte para el consumo de alcohol. En general son estudiantes regulares.
Grupo 2: Estudiantes que dedican alrededor de 8 a 9 horas de estudio diario,
realizan actividades extracurriculares, cuentan con bastante tiempo libre,
cuantan en sy mayoría con buena salud pero menos que los estudiantes del
Grupo 0 y 1. Cuentan con supervisión de sus padres. En general son
estudiantes buenos.
6. ANALISIS DE RESULTADOS
En relación a los diferentes modos de prueba, es el basado en la muestra de
entrenamiento el que ofrece mejores resultados para cada uno de los
clasificadores. Esto es lógico puesto que este clasificador se evalúa en el
mismo conjunto sobre el que se creó el modelo de clasificación produciendo
una sobreestimación de los resultados.
En un contexto educativo, las técnicas de minería de datos y aprendizaje
automático pueden ser aplicadas a los datos obtenidos a partir de las
interacciones de los estudiantes. La selección de la técnica de aprendizaje
está relacionada con el tipo de información que se va a utilizar, puesto que
cada técnica es más adecuada en algunas situaciones que en otras.
La técnica más apropiada para encontrar características similares en el
comportamiento de los estudiantes, en esta investigación fue la de clustering.
7. CONCLUSIONES
La aplicación de la Minería de Datos y especialmente el uso del software WEKA, permitió la modelación de un conjunto de datos usando diferentes algoritmos para el descubrimiento de conocimiento.
Con el uso de la herramienta WEKA se logró experimentar con varios algoritmos, manifestándose un mejor comportamiento en el uso de los árboles de decisión J48 y Clustering en juegos de datos aleatorios.
En resumen, data mining se presenta como una tecnología innovadora, que ofrece una serie de beneficios: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sin número de detalles debido a que el producto final involucra toma de decisiones.
8. BIBLIOGRAFIA
P. Valdivieso Díaz. Aplicación de técnicas de aprendizaje automático para la
identificación de patrones de interacción en una experiencia virtual de
aprendizaje. Unidad de Virtualización, UTPL Tomado de:
http://reposital.cuaed.unam.mx:8080/jspui/bitstream/123456789/2702/1/priscil
a_valdiviezo_tecnicas_de_aprendizaje.pdf
R. Blázques, F. Delicado & Mc. Dominguez. Aprendizaje y Mineria de Datos.
Tomado de: http://www.it.uc3m.es/jvillena/irc/practicas/03-04/8.pres.pdf
A. Cravero Leal. Aplicación de Minería de Datos para la Detección de
Anomalías: Un Caso de Estudio. Workshop Internacional EIG2009. Chile,
2009. Tomado de: http://ceur-ws.org/Vol-558/Art_8.pdf
“Programa de Doctorado Tecnologías Industriales. Aplicaciones de la
inteligencia robótica. Practica 1: Entorno de WEKA de aprendizaje automático
y data mining”, pp. 6-9
Ciberconta. ”Sistemas de inducción de árboles de decisión: utilidad en el
análisis de crisis bancarias” Tomado de:
http://ciberconta.unizar.es/Biblioteca/0007/arboles.html
Cursos, investigación y recursos en inteligencia artificial. “Introducción a
técnicas de Minería de Datos”. 2008. Tomado de:
http://www.wiphala.net/courses/KDD_DM/2007-
0/class/02_dt_for_classification/class_61_decision_trees.ppt
IEspaña. “Árboles y reglas de decisión”. España, 2009. Tomado de:
http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.html