Post on 04-Jul-2015
Inteligencia Artificial Avanzada
Mayra Montalván
22/04/2009
OBJETIVO
El objetivo de este ejercicio es familiarizarse con el entornoWEKA para lo cuál se trabajará con una base de datos quecontiene datos sobre medidas médicas de pacientes (todasmujeres) y en la que se pretende determinar cuáles son losfactores que hacen que una persona se le diagnostique laenfermedad conocida como Diabetes.
Usando el algoritmo de aprendizaje automático másconocido como Árboles de Clasificación, procederemos arealizar el árbol de decisión para tal diagnóstico.
PROBLEMA
Las variables son las mediciones relativas a las del paciente: edad,embarazo y más información.Número de Instancias de la base de datos: 768.Número de Atributos: 8 más clase. Para cada atributo: (todos con valores numéricos)
1. Número de veces embarazada.2. Una concentración de glucosa en plasma 2 horas en una prueba de
tolerancia oral a la glucosa.3. La presión arterial diastólica (mm Hg).4. Pliegue tricipital espesor (mm)5. 2-horas de insulina en suero (mu U / ml)6. Índice de masa corporal (peso en kg / (altura en m) ^ 2)7. Diabetes pedigrí función8. Edad (años)
9. Variable de clase (0 ó 1)
PROBLEMA
Valores de Atributos Faltantes: Ninguno
Distribución de Clase : (clase con valor 1 es interpretada como: "tested
positive")
Valores en el atributo Clase:De: 0 A: tested_negativeDe: 1 A: tested_positive
VALOR DE LA CLASE NÚMERO DE INSTANCIAS
0 500
1 268
UN POCO DE LA BASE DE DATOS
Para visualizar y/o descargar la base de datos original visitaeste enlace:
http://www.sc.ehu.es/ccwbayes/docencia/mmcc/files/UCI-MMCC/diabetes.arff
GENERACIÓN DEL ÁRBOL
Se dispone de los datos recogidos para pronosticar laaparición de la diabetes en pacientes, que se trata sólo demujeres menores de 21 años, para lo cuál procedemos con:1. Lanzar el Interfaz Explorer en la herramienta WEKA:
GENERACIÓN DEL ÁRBOL
GENERACIÓN DEL ÁRBOL
2. Cargar la Base de Datos: Para cargar la base de datos seutilizará el botón OPEN FILE del interfaz Explorer (pestañaPreprocess), se seleccionará el directorio data y dentro de él,el fichero "diabetes.arff". El resultado será una pantalla comola que se muestra en la figura:
GENERACIÓN DEL ÁRBOL
GENERACIÓN DEL ÁRBOL
3. En la parte izquierda aparecen los atributos mencionadosanteriomente.
4. Haciendo clic sobre cada uno de los atributos, se muestrainformación sobre el mismo en la parte derecha de laventana. En el caso de atributos discretos se indica elnúmero de instancias que toman cada uno de los valoresposibles; y en el caso de atributos reales se muestran losvalores máximo, mínimo, medio y la desviación estándar.
Una vez vistas las posibilidades de representación gráfica, seprobará uno de los algoritmos de aprendizaje automáticoincluidos en WEKA: los árboles de decisión.
GENERACIÓN DEL ÁRBOL
5. Para ello se seleccionará la pestaña Classify y se elegirá unclasificador pulsando el botón Choose. Aparecerá unaestructura de directorios en la que se seleccionará eldirectorio trees y dentro del él el algoritmo J48. Semantendrán las opciones por defecto del clasificador (J48 –C0.25 –M 2), tal y como muestra la pantalla siguiente.
GENERACIÓN DEL ÁRBOL
GENERACIÓN DEL ÁRBOL
El resto de opciones para el experimento también semantendrán en los valores por defecto: activa la opción detest ‘cross validation’ e inactivas las restantes. Para generarel árbol se pulsará Start. El resultado será el que muestra lapantalla siguiente, donde se muestran en modo texto tanto elárbol generado como la capacidad de clasificación del mismo:
GENERACIÓN DEL ÁRBOL
GENERACIÓN DEL ÁRBOL
También es posible visualizar el árbol de decisión de unaforma más legible. Para ello se debe hacer clic con el botónderecho en la ventana de resultados, sobre el resultado de lageneración del árbol. Aparecerá un menú desplegable:
GENERACIÓN DEL ÁRBOL
Y dentro de ese menú se deberá seleccionar la opción‘Visualize tree’. El resultado se muestra en la figurasiguiente:
FIN DE LA PRESENTACIÓN